_____________________
G. Illouz, C. Jacquemin, C. Popescu,en collaboration avec B. Habert*
Objet
La compréhension automatique des langues ainsi que la recherche et l'extraction d'information gagnent à articuler différents types de connaissances spécifiques et partielles sur un même corpus : expressions ou termes caractéristiques du domaine traité, liens de co-référence, entités nommées, catégories sémantiques grossières, organisation thématique...Chacun des modules correspondants bénéficie des représentations construites par les autres : la segmentation en thèmes utilise ainsi les caractéristiques statistiques (longueur des phrases, des paragraphes) et linguistiques (complexité syntaxique) des paragraphes du corpus en complément des cooccurrences caractéristiques de chaque mot.
Cette synergie suppose l'interopérabilité des modules dédiés à chaque tâche. L'objectif de CORBUS est d'aboutir à cette opérabilité pour les traitements spécialisés et de surface actuellement disponibles dans le groupe Langage et Cognition. Ces traitements se caractérisent tous par la capacité à traiter des données hétérogènes et volumineuses sur un point déterminé et par la simplicité des représentations d'entrée (étiquetage ou analyse partielle) et de sortie.
Description
Données d'entrée annotées ou non Une partie des modules de CORBUS - l'indexeur/normalisateur (C. Jacquemin), le constructeur de thesaurus (B. Habert) - repose sur la segmentation en mots, en phrases, l'étiquetage, la lemmatisation et la structuration partielle du texte, par des outils dans le domaine public ( WinBrill, FLEM, Tree Tagger) ou non (Sylex, INTEX, Lexter). D'autres comme le résumeur automatique (N. Masson) ou le constructeur de domaines thématiques (O. Ferret, B. Grau) ne dépendent pas, dans l'immédiat, de ces annotations, mais peuvent à terme en bénéficier.
Représentations produites :
Résultats et perspectives
Le développement d'un extracteur d'entités nommées, à des fins d'extraction d'information, est en cours dans l'action incitative XICOP des groupes Traitement du Langage Parlé et Langage et Cognition.
Les modules qui supposent une annotation préalable sont à présent enchaînables (indexeur/normalisateur et constructeur de thesaurus). La compatibilité de la totalité des traitements est à réaliser. L'articulation d'ensemble des modules disponibles nécessite l'adaptation des propositions de standard d'échange entre traitements hétérogènes comme CES (Corpus Encoding Standard) ou GATE.
Références
[1] Habert B., Fabre C., Issac F. : << De l'écrit
au numérique :
constituer, normaliser et exploiter les corpus électroniques >>,
InterEditions, (1998).
[2] Toussaint Y., Namer F., Daille B., Jacquemin C., Royauté J. et
Hathout N. : << Une approche linguistique et statistique pour
l'analyse de l'information en corpus >>. In P. Zweigenbaum, éditeur,
Actes de TALN'98, 1998.
Gpe Langage et Cognition |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|