Construction automatique de domaines sémantiques à partir de textes

Construction automatique de domaines sémantiques à partir de textes

_____________________

Objet

Segmenter un flot de textes en parties thématiquement homogènes, suivre la manifestation d'un thème connu ou bien détecter l'apparition d'un thème nouveau nécessite de représenter les thèmes auxquels les textes font référence. Le travail présenté ici a pour objectif de construire automatiquement la représentation de l'ensemble des thèmes évoqués dans des textes donnés. Chacune de ces représentations (appelées ici domaines sémantiques) est constituée d'un ensemble de mots liés au thème représenté et pondérés selon leur importance vis-à-vis de ce thème.

Description

Notre approche pour la construction de ces domaines sémantiques combine des techniques de classification automatique (formation de concepts) et l'exploitation d'une source de connaissances qui rend compte de la cohésion lexicale. Cette source est constituée d'un vaste réseau de cooccurrences lexicales, construit à partir d'un corpus de grande taille (24 mois du journal Le Monde). Ce réseau permet d'abord de délimiter les segments thématiquement homogènes d'un texte par un mécanisme de segmentation spécifique. Celui-ci repose sur l'exploitation des ruptures d'une valeur de cohésion calculée à chaque position d'un texte à partir des relations trouvées dans le réseau entre les mots présents dans une fenêtre centrée sur cette position. Le réseau de cooccurrences permet ensuite de sélectionner les segments les plus cohérents et d'enrichir la représentation de ces segments (appelée Unité Thématique Lexicale - ou UTL), en leur ajoutant des mots considérés comme thématiquement proches de ceux qui sont explicitement présents dans les textes. Les domaines sémantiques sont ensuite construits par agrégations successives d'UTLs relatives au même thème. Le traitement d'une UTL commence par la sélection, à partir de son contenu, des domaines existants les plus proches. Si l'un d'entre eux est suffisamment similaire à l'UTL, les deux sont agrégés de manière à renforcer les mots récurrents, compléter la description du domaine mémorisé et diminuer l'importance des mots différents. Dans le cas contraire, l'UTL donne lieu à la création d'un nouveau domaine. De cette façon, des domaines émergent progressivement et se stabilisent en moyenne après une vingtaine d'agrégations.

Résultats et perspectives

Un ensemble d'expérimentations, menées sur un ensemble de 5949 dépêches de l'AFP (mai 1994), a illustré l'intérêt de la segmentation thématique des textes avant agrégation ainsi que l'apport que représente, pour la qualité des domaines formés, l'ajout de mots venant du réseau de cooccurrences [1]. Au delà, nous avons montré que les meilleurs résultats sont obtenus lorsque les UTLs sont composées des seuls mots du réseau de cooccurrences [2]. La formation des domaines sémantiques est assimilable dans ce cas à une structuration du réseau de cooccurrences lexicales. Ce travail s'oriente à présent vers la structuration des domaines formés, afin de mettre en évidence les relations qui les lient les uns aux autres, et leur utilisation dans des tâches applicatives telles que celles qui sont citées en préambule.

Références

[1] Ferret O. and Grau B. : << A Thematic Segmentation Procedure for Extracting Semantic Domains from Texts >>. ECAI'98 (European Conference on Artificial Intelligence), 1998.
[2] Ferret O. et Grau B. : << Structuration d'un Réseau de Cooccurrences Lexicales en Domaines Sémantiques par Analyse de Textes >>. Natural Language Processing and Industrial Applications (NLP + IA'98), 1998.

Gpe Langage et Cognition

Dpt CHM

Sommaire

Présentation