_____________________
G. Illouz, B. Habert
Objet
Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus de textes pour l'acquisition des connaissances qui lui sont nécessaires. L'obstacle actuel n'est donc plus la disponibilité de corpus, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Plusieurs études empiriques convergent pour montrer que la qualité des connaissances acquises dépend directement de la maîtrise des caractéristiques du corpus utilisé (le tableau 1 montre par exemple les décalages dans l'emploi des parties du discours entre les sections du journal Le Monde). Il faut donc pouvoir profiler les corpus et les textes. Nous appelons profilage de textes l'utilisation d'outils de calibrage donnant des indications sur l'emploi du vocabulaire, mais aussi de catégories morpho-syntaxiques et de patrons, dans les parties d'un corpus, pour en déterminer l'homogénéité ou l'hétérégonéité. Ces outils doivent également permettre de positionner un nouveau texte par rapport aux regroupements obtenus sur un corpus pré-existant.
Description
L'optique, inductive, dans laquelle nous nous inscrivons, consiste à faire émerger a posteriori les types de textes - considérés comme des agglomérats fonctionnellement cohérents de traits linguistiques - grâce à un traitement statistique multidimensionnel de textes annotés. Cette optique prolonge les travaux de D. Biber. Nous mettons en place, dans le cadre du projet TyPTex commun au LIMSI et à l'UMR 8503 (par convention) et soutenu financièrement par ELRA (European Language Resources Association) une méthodologie permettant de tester et d'étendre les propositions de Biber.
Comme le montre la figure 1, on dispose au départ d'une base de textes. Chacun d'eux comprend un en-tête documentaire ( header) suivant les recommandations de la TEI (Text Encoding Initiative). Les critères d'une requête ou d'une sélection aboutissent à un corpus, c'est-à-dire un ensemble de textes rassemblés en fonction d'une hypothèse déterminée. Chacun de ces textes est soumis à un étiquetage morpho-syntaxique, qui permet d'associer à chaque mot ou unité polylexicale un lemme, une partie du discours et des indications morpho-syntaxiques plus fines. Le marquage typologique se fonde sur l'ensemble de ces informations et opère un transfert (par regroupements, dégroupements, transformations, complémentations ou même omissions), vers de nouvelles catégories correspondant aux traits linguistiques dont on veut étudier la distribution. Le corpus marqué est alors soumis à des logiciels de comptage. En particulier, on construit la matrice des fréquences de chaque trait dans chaque texte. Cette matrice sert tant à la recherche des traits les plus pertinents pour une opposition, qu'à la classification inductive ou supervisée.
Résultats et perspectives
Nous disposons actuellement des différents modules de la figure 1. Notre effort actuel porte sur leur articulation logicielle et sur la mise au point de la grille typologique [1],[2]. Nous avons utilisé pour l'étiquetage de départ Sylex-Base et une grille expérimentale de traits typologiques issue de cet étiquetage (229 éléments).
Une extension de ce projet est en cours d'examen. Elle portera sur les sites Web personnels et professionnels dans le cadre d'une collaboration avec le CNET.
Références
[1] Gabriel Illouz, Benoît Habert, Serge Fleury,
Helka Folch,
Serge Heiden, et
Patrice Lafon.
<< Maîtriser les déluges de données
hétérogènes >>,
In Anne Condamines, Cécile Fabre, and Marie-Paule
Péry-Woodley,
resp., Corpus et traitement automatique des langues :
pour une
réflexion méthodologique, pp 37-46, Cargèse,
12-17
juillet 1999.
[2] Benoît Habert, Gabriel Illouz, Pierre Lafon,
Serge
Fleury, Helka Folch, Serge Heiden, et Sophie Prévost.
<< Profilage de textes : cadre de travail et
expérience >>,
In Martin Rajman, resp., Journées d'Analyse des
Données
Textuelles (JADT), Lausanne, 2000.
Gpe Langage et Cognition |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|