_____________________
Objet
Nous proposons ici une méthode automatique de structuration thématique de texte de vulgarisation scientifique (du type Pour la science). Il s'agit d'une part de repérer les différents sujets abordés par le texte, c'est-à-dire de reconnaître les différentes zones de texte qui traitent plus ou moins du même thème, et d'autre part de déterminer les relations de dépendance qui les unissent ces thèmes. Cette méthode n'utilise pas de connaissances spécifiques aux domaines abordés dans le texte mais est fondée sur l'utilisation conjointe d'une analyse numérique de la distribution du vocabulaire du texte et d'une analyse d'indices linguistiques [1].
Description
Le processus de structuration est décomposé en trois phases distinctes : une première phase de prétraitement qui consiste à extraire les descripteurs du texte, c'est-à-dire les formes canoniques des noms (simples et composés) et des adjectifs du texte. La segmentation thématique constitue la deuxième phase (voir Fig. 1) : le texte est mis sous la forme d'une représentation vectorielle où chaque paragraphe est un vecteur dont la dimension est le cardinal de l'ensemble des descripteurs du texte et dont les coordonnées sont le nombre d'occurrences des descripteurs du paragraphe. Les ruptures thématiques sont détectées par une mesure standard de distance vectorielle, le coefficient de Dice, calculé pour chaque paire adjacente de vecteurs. Les valeurs faibles du coefficient indiquent des ruptures thématiques (entre paragraphes) alors que les fortes valeurs indiquent en revanche de fortes cohésions thématiques. L'analyse de la courbe de cohérence obtenue (voir Fig. 2) est réalisée automatiquement en tenant compte de son allure. La segmentation obtenue numériquement est ensuite complétée et améliorée par la prise en considération d'indices linguistiques indicatifs de ruptures thématiques locales (Reste alors à montrer que..., En 1993...) ou de cohérences (Autrement dit..., Enfin...), cherchés à la fin et au début des paragraphes. La troisième et dernière phase consiste à obtenir une structure thématique hiérarchique à partir de la segmentation linéaire (voir Fig. 3). Elle utilise un algorithme inspiré de la classification hiérarchique. On cherche les deux groupes de paragraphes thématiquement homogènes les plus proches par l'intermédiaire de la comparaison de leurs vecteurs moyens. Lorsqu'on trouve deux blocs liés, ils forment un nouveau bloc et tous les blocs compris entre les bornes de ce nouveau bloc y sont considérés comme inclus. L'algorithme est répété tant qu'il existe des blocs significativement liés.
Résultats et perspectives
La totalité du processus (c'est-à-dire les trois phases) est implémentée. Il a été évalué sur quelques textes à l'aide de sujets humains. Les résultats obtenus correspondent au jugement humain moyen. Cette méthode de structuration thématique est exploitable en recherche d'informations et est exploitée en particulier dans le cadre du résumé automatique de texte.
Références
[1] Masson, N. : << Méthodes pour une génération variable de résumés automatique : vers un système de réduction de texte >>, Thèse de Doctorat en Sciences Cognitives de l'Université Paris-Sud Orsay, 1998.
Gpe Langage et Cognition |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|