Détection de différences de point de vue dans des Bases Documentaires hétérogènes
_____________________
C. Henry, B. Habert, D. Béroule, E. Gaussier1, B. Turner, J.~Nobecourt, H. Folch, F. Lim
Objet
Les réseaux mondiaux dans lesquels s'échangent des réflexions et des connaissances sur un sujet donné sont en fort développement. Ils sont de toute nature, politiques, culturels, économiques. Au-delà des obstacles linguistiques, il s'avère que les difficultés de compréhension y sont nombreuses, dues à des différences d'expression entre les «~manières de voir~» le sujet étudié. Ce projet cherche à rendre visibles aux membres de ces réseaux leurs divergences et leurs points d'accord dans les textes qu'ils émettent, grâce à des traitements appropriés des mots et des concepts qu'ils utilisent dans ces textes.
Description
Les groupes mondiaux sur lesquels porte cette recherche sont soutenus par une Fondation, et sont nommés «~alliances~» ou chantiers. Ces personnes échangent des messages, se rencontrent, écrivent des documents de synthèse, sous la coordination d'un animateur. La plupart des chantiers ont maintenant un site Internet, sur un modèle proposé par la Fondation.
Nous avons constitué nos corpus de travail à partir d'opérations de filtrage/nettoyage de ces documents, de source et de format divers~(choix d'une langue, homogénéité de l'accentuation, extraction des textes pertinents). Nous avons réalisé une première mise en forme de notre méthode sur deux corpus, l'un de très grande taille, mais assez hétérogène (portant sur la révision des accords d'échanges commerciaux entre l'Europe et les pays d'Afrique-Caraïbes-Pacifique), l'autre de taille plus réduite, bien ciblé sur une question (les expériences à travers le monde de modes de paiement alternatifs à ceux des Etats).
L'approche d'Informatique Linguistique qui est mise en oeuvre est celle des «~Cartes Conceptuelles~». En première approximation, une Carte Conceptuelle est un réseau associant certains mots rencontrés fréquemment ensemble (cooccurrences) dans un certain ensemble de documents. Deux cartes construites respectivement à partir de deux sous-corpus dans lesquels s'expriment deux points de vue sur un même sujet n'auront pas la même structure. C'est la mise en valeur de ces différences topologiques qui nous permet, entre autres, d'identifier et d'analyser des variantes d'opinion sur le sujet considéré. On doit gérer des corpus hétérogènes (en auteurs, cultures, type de textes, en langue générale), d'où la nécessité de gérer des versions du même corpus repéré sous plusieurs angles. Pour ce faire, on a adapté le corps de méthodes existant dans le groupe LIR~: étiqueteur, analyseur, «~sémantique distributionnelle~». Les sous-corpus ont été constitués selon un critère a priori~: le pays dont est originaire l'«~émetteur~» d'un texte. Une première analyse permet par exemple de distinguer les manières de voir des Argentins et des Européens sur la question des monnaies de remplacement (voir ci-contre Fig.1a et 1b.).
Par ailleurs, une Carte Conceptuelle peut constituer une représentation dynamique, dont chaque noeud peut être activé directement par les mots d'un texte donné, et indirectement par des noeuds voisins. La lecture d'un document provoque ainsi l'établissement d'un paysage d'activité spécifique, dont le relief informe sur la proximité entre le texte et le sous-corpus de référence. Des éléments de diagnostic sont engendrés automatiquement par l'analyseur ( Fig.2). Etant en mesure de juger rapidement du caractère original ou non du nouveau texte par rapport à ce qui est arrivé précédemment, on peut alors établir des groupes de textes de manière incrémentale. On introduit en outre un élément de suivi temporel, de repérage de l'émergence. Cet aspect sera coordonné avec l'approche décrite (page suivante), Etude des Interactions médiatisées par les textes. Dans tous les cas, un retour entre les résultats des traitement et les textes du corpus est possible.
Résultats et perspectives
Jusqu'à présent, on a travaillé sur les groupes nominaux en français. Un effort complémentaire est engagé sur les groupes verbaux par notre partenaire industriel, ainsi que sur le traitement de l'anglais et de l'espagnol. Des limites actuellement rencontrées sur des corpus de trop petite taille, eu égard à l'hétérogénéité, devront être surmontées. Le dispositif relationnel avec les animateurs de chantier est encore embryonnaire. Un effort de lisibilité des résultats sur des interfaces adaptées est en cours.Les quatre partenaires du projet sont la Fondation pour le Progrès de l'Homme, le LIMSI-CNRS, le Centre de recherche Xerox de Meylan1 et le laboratoire d'Informatique de Paris VI.
Références
B. Habert, H. Folch, G. Illouz : "Repérer les mots mouvants dans le domaine social", à paraître dans Semiotics, 1er semestre 2002.
Groupe AMI |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|
visiteurs.