Une segmentation thématique fondée sur la distribution et la cohésion lexicale des textes

_____________________

O. Ferret, B. Grau, N. Masson

Figure

Objet

De nombreuses applications liées au traitement automatique des langues peuvent tirer parti d'une analyse thématique assurant le découpage d'un texte en segments relatifs à un même sujet. Afin de disposer d'une méthode quantitative d'analyse thématique applicable à la plus large couverture de textes possible, nous proposons deux méthodes fondées sur l'analyse de la distribution des mots d'un texte ainsi que des critères permettant de choisir l'une ou l'autre selon les caractéristiques du texte.

Description

La segmentation de textes techniques ou scientifiques peut reposer uniquement sur la façon dont les mots sont distribués au sein des textes. En effet, ces textes sont caractérisés par un vocabulaire spécifique et un style bien marqué, où les mots importants vis-à-vis du thème sont répétés. L'application de ce principe a donné lieu à une première méthode [1]. Cependant, nous avons montré que ce type d'approche devient peu efficace sur des textes narratifs ou expositifs, au sein desquels le vocabulaire est peu spécifique et où une même notion apparaît sous de multiples formes. Afin de pouvoir aussi segmenter ce type de textes, nous proposons une deuxième méthode [2], toujours fondée sur le même principe, mais modifiée afin de prendre en considération l'ajout de connaissances provenant d'un réseau de mots. Celui-ci a été constitué à partir d'un corpus de grande taille, en l'occurrence vingt-quatre mois du journal Le Monde. Les deux méthodes travaillent sur des textes pré-traités, dans lesquels nous retenons les noms, simples et composés, les adjectifs et les verbes. Les textes sont ensuite mis sous la forme d'une représentation vectorielle : chaque paragraphe est un vecteur dont les coordonnées sont les descripteurs du texte, c'est-à-dire les mots retenus. La différence entre les deux méthodes réside dans la manière dont les valeurs sont calculées pour ces coordonnées. Dans la première méthode les valeurs correspondent au nombre d'occurrences du mot dans le paragraphe. Dans la deuxième, elles sont pondérées par les liens trouvés dans le réseau de mots. L'idée directrice est que si deux mots A et B sont liés dans le réseau, cela signifie que "lorsqu'on parle de A, on parle aussi un peu de B et réciproquement". Donc, lorsqu'un descripteur A est présent N fois dans un paragraphe, avec A et B liés par une liaison w(avec0<w<1), alors B est virtuellement présent (K+wN) fois, avec K, le nombre de fois où B apparaît réellement dans le paragraphe. Cela permet de renforcer la cohésion de deux segments même s'ils n'utilisent pas les mêmes termes. Le nombre total d'occurrences trouvé est ensuite pondéré pour favoriser le poids des descripteurs rares ayant une distribution significativement non homogène dans le texte (facteur de type tf.idf). Les ruptures thématiques sont enfin détectées par une mesure standard de distance vectorielle, le coefficient de Dice, calculé pour chaque paire adjacente de vecteurs. Les faibles valeurs du coefficient indiquent des ruptures thématiques (entre paragraphes) alors que les fortes valeurs indiquent en revanche de fortes cohésions thématiques.

Résultats et perspectives

Les deux méthodes présentées ont été implémentées en Smalltalk et testées sur une vingtaine de textes de différents types (scientifiques, journalistiques, narratifs). Les résultats de ces tests nous ont conduits à proposer de traiter les textes selon la deuxième méthode de façon prioritaire, sauf si des descripteurs importants, repérables par tf.idf, se trouvent absents du réseau. Nous envisageons maintenant d'approfondir l'analyse afin de mettre en évidence une structure thématique des textes non plus seulement linéaire, comme avec notre simple découpage, mais également hiérarchique.

Références

[1] Masson N. : <<An Automatic Method for Document Structuring>>.18th Annual International ACM- SIGIR Conference on Research and Development in Information Retrieval, 1995.
[2] Ferret O., Grau B. et Masson N. : <<Utilisation d'un réseau de cooccurrences lexicales pour améliorer une analyse thématique fondée sur la distribution des mots>>.1ères journées du chapitre français de l'ISKO, 1997.

Gpe Langage et Cognition

Dpt CHM

+ Sommaire

Présentation