_____________________
O. Ferret , B. Grau
Objet
La segmentation thématique est la partie de l'analyse thématique ayant pour objet le découpage des textes en segments thématiquement homogènes. Nous présentons ici un mécanisme de segmentation th ématique s'appuyant sur des domaines sémantiques. Ces derniers sont des représentations de thèmes spécifiques apprises automatiquement à partir de textes. La présence de telles repré sentations permet au mécanisme considéré de réaliser une segmentation des textes à la fois fine et fiable.
Description
Disposer d'une segmentation thématique reposant sur une repré sentation explicite des thèmes et pouvant s'appliquer aussi largement que les approches fondées sur la cohésion lexicale impose l'existence d'un apprentissage automatique de ces représentations. Celui-ci, détaillé dans [1], opère par agrégation progressive de segments de texte similaires, définis par une méthode de segmentation minimale. On obtient ainsi un grand nombre de domaines sé mantiques spécifiques, constitués chacun d'un ensemble de mots pond érés selon leur degré de pertinence vis-à-vis du thème représenté.
Dans la perspective des travaux issus du modèle de Grosz et Sidner sur l'analyse du discours, le module de segmentation exploitant ces domaines respecte la linéarité des textes et gère une notion de centre d'attention : il effectue la détection des changements de thème sans différer sa décision en ne prenant en compte que les données issues des parties de texte déjà traitées. Une fenêtre dé limitant le champ courant de focalisation de l'analyse est déplacée sur chaque position des textes à segmenter. Un contexte thématique, constitué des domaines sémantiques les plus activés par le contenu de cette fenêtre, lui est associé. Par ailleurs, un contexte thématique est également associé à chaque segment en cours de définition. Il résulte de la fusion des différents contextes liés à la fenêtre de focalisation lorsque celle-ci se trouve dans l'espace de ce segment. Un changement de thème est détecté lorsque le contexte de la fenêtre de focalisation et le contexte du segment courant sont suffisamment différents pour un ensemble de positions successives de la fenêtre de focalisation. Cette détection est plus précisément guidée par un automate permettant de lisser les variations locales de similarité entre contextes.
Ce mécanisme permet non seulement de localiser les changements de thè me mais, grâce à la présence des domaines sémantiques, d'identifier également le thème des segments et de lier é ventuellement des segments non adjacents mais traitant du même sujet.
Résultats et perspectives
Le mécanisme de segmentation thématique que nous avons présenté a été testé avec un ensemble de 193 domaines sémantiques appris à partir d'un mois de dépêches AFP. Une évaluation formelle consistant à retrouver les frontières d'un ensemble de courts articles (en moyenne 130 mots) du journal Le Monde ayant été concaténés a été menée. Les résultats obtenus, une précision de 0,551 (proportion de frontières exactes parmi celles trouvées par l'algorithme de segmentation) et un rappel de 0,896 (proportion de frontières retrouvées), sont globalement comparables aux travaux de même nature existant dans le domaine.
Références
[1] Ferret O. and Grau B. : `` A Thematic Segmentation Procedure for
Extracting Semantic Domains from Texts ''. ECAI'98 (European Conference on
Artificial Intelligence), 1998.
[2] Ferret O. : `` ANTHAPSI : un système d'analyse thématique et
d'apprentissage de connaissances pragmatiques fondé sur l'amorç
age '', Thèse de l'Université Paris-Sud,1998.
Gpe Langage et Cognition |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|