CorBus : relier des traitements spécialisés de corpus

_____________________

G. Illouz, C. Jacquemin, C. Popescu,en collaboration avec B. Habert*

Figure

Objet

La compréhension automatique des langues ainsi que la recherche et l'extraction d'information gagnent à articuler différents types de connaissances spécifiques et partielles sur un même corpus : expressions ou termes caractéristiques du domaine traité, liens de co-référence, entités nommées, catégories sémantiques grossières, organisation thématique...Chacun des modules correspondants bénéficie des représentations construites par les autres : la segmentation en thèmes utilise ainsi les caractéristiques statistiques (longueur des phrases, des paragraphes) et linguistiques (complexité syntaxique) des paragraphes du corpus en complément des cooccurrences caractéristiques de chaque mot.

Cette synergie suppose l'interopérabilité des modules dédiés à chaque tâche. L'objectif de CORBUS est d'aboutir à cette opérabilité pour les traitements spécialisés et de surface actuellement disponibles dans le groupe Langage et Cognition. Ces traitements se caractérisent tous par la capacité à traiter des données hétérogènes et volumineuses sur un point déterminé et par la simplicité des représentations d'entrée (étiquetage ou analyse partielle) et de sortie.

Description

Données d'entrée annotées ou non Une partie des modules de CORBUS - l'indexeur/normalisateur (C. Jacquemin), le constructeur de thesaurus (B. Habert) - repose sur la segmentation en mots, en phrases, l'étiquetage, la lemmatisation et la structuration partielle du texte, par des outils dans le domaine public ( WinBrill, FLEM, Tree Tagger) ou non (Sylex, INTEX, Lexter). D'autres comme le résumeur automatique (N. Masson) ou le constructeur de domaines thématiques (O. Ferret, B. Grau) ne dépendent pas, dans l'immédiat, de ces annotations, mais peuvent à terme en bénéficier.


Représentations produites :


Relations entre séquences.
L'indexeur/normalisateur (C. Jacquemin) met en évidence les variantes des séquences complexes qui lui sont fournies (termes certifiés ou entités nommées ou expressions référentielles). Il a déjà été intégré dans la chaîne de traitements du projet ILIAD du GIS Cognisciences (Toussaint et al. 98). Le référenceur (A. Popescu-Belis) constitue les ensembles de mots ou d'expressions qui renvoient à une même réalité.
Structuration des documents.
Le catégoriseur de textes (G. Illouz), à partir des traits quantitatifs et linguistiques, utilise l'analyse en composantes principales pour répartir les documents du corpus en ensembles homogènes quant au type de texte. Le résumeur automatique (N. Masson) conserve d'un texte ses thèmes principaux. Le segmenteur thématique (O. Ferret et B. Grau) utilise un réseau de cooccurrences et les similarités entre mots qui en résultent pour proposer des parties thématiquement homogènes au sein du corpus.
Structuration de la connaissance.
Le constructeur de thésaurus (B. Habert) produit une cartographie des proximités entre mots et des regroupements en classes sémantiques. Le constructeur de domaines (O. Ferret et B. Grau) montre la répartition des thèmes dans le corpus et les segments qui relèvent de chacun d'entre eux.

Résultats et perspectives

Le développement d'un extracteur d'entités nommées, à des fins d'extraction d'information, est en cours dans l'action incitative XICOP des groupes Traitement du Langage Parlé et Langage et Cognition.

Les modules qui supposent une annotation préalable sont à présent enchaînables (indexeur/normalisateur et constructeur de thesaurus). La compatibilité de la totalité des traitements est à réaliser. L'articulation d'ensemble des modules disponibles nécessite l'adaptation des propositions de standard d'échange entre traitements hétérogènes comme CES (Corpus Encoding Standard) ou GATE.

Références

[1] Habert B., Fabre C., Issac F. : << De l'écrit au numérique : constituer, normaliser et exploiter les corpus électroniques >>, InterEditions, (1998).
[2] Toussaint Y., Namer F., Daille B., Jacquemin C., Royauté J. et Hathout N. : << Une approche linguistique et statistique pour l'analyse de l'information en corpus >>. In P. Zweigenbaum, éditeur, Actes de TALN'98, 1998.

Gpe Langage et Cognition

Dpt CHM

+ Sommaire

Présentation