Un atelier pour le traitement de la référence

Un atelier pour le traitement de la référence

_____________________

Objet

Un ensemble d'outils pour le traitement de la référence (pour des récits ou des dialogues) a été mis au point. L'outil central est le résolveur de références qui construit pour chaque référent du texte une <<représentation mentale>> contenant l'ensemble des expressions référentielles qui s'y rapporte. Une représentation mentale peut être construite pour un objet concret, un personnage, ou encore un événement, bref, pour toute chose à laquelle l'auteur du récit ou les interlocuteurs du dialogue peuvent se référer. Ce travail s'incrit dans le projet Cervical soutenu par le GIS-Sciences de la Cognition.

Description

Le résolveur (figure 1) adopte un algorithme proche de celui de Lappin et Leass (1994). Pour chaque expression référentielle (ER) dans le texte, il faut déterminer si celle- ci se réfère à une représentation mentale (RM) déjà introduite, ou au contraire si elle concerne une nouvelle RM, dont il n'avait pas encore été question. Dans le premier cas, un rattachement de l'ER à la RM reconnue est nécessaire, dans le second cas la création d'une nouvelle RM est déclenchée. Un ensemble de règles permettant ce comportement a été écrit (pouvant être à tout moment augmenté). Lors de la résolution d'une ER, elles permettent d'éliminer les RM auxquelles cette ER ne pourra être rattachée. Pour choisir une RM parmi l'ensemble des RM finalement candidates au rattachement, on examine l'activation de chacune d'elles (calculée à l'aide d'un ensemble de paramètres).

La figure 2 présente l'ensemble de l'atelier. Une première partie de ces outils concerne le résolveur. Un évaluateur a tout d'abord été écrit : partant d'un texte dont les RM ont été entrées à la main, il compare cet ensemble avec l'ensemble des RM calculé par le résolveur. L'algorithme qu'il utilise est celui qui est proposé dans les conférences d'évaluation MUC (Message Understanding Conference) ; il calcule deux valeurs : le rappel et la précision. À partir de ces résultats, un optimiseur fait varier à l'aide d'une méthode de gradient l'ensemble des paramètres du résolveur de façon à en améliorer les résultats. Une seconde partie de ces outils concerne le texte étudié : un analyseur permet de passer d'un format SGML (largement utilisé dans la communauté) à un format Smalltalk (notre langage de développement) ; un module permet la saisie des RM correctes (celles- ci sont nécessaires à l'évaluateur), tandis qu'un autre module réalise l'interfaçage avec l'analyseur LFG.

Le corpus sur lequel ont été mis au point et testés ces outils est formé de deux textes : une nouvelle des Chroniques Italiennes de Stendhal Vittoria Accoramboni et le premier chapitre du roman Le Père Goriot de Balzac. Les ER ont été marquées à l'aide de balises SGML et les liens de coréférence ont été saisis (pour le second texte, par F. Bruneseaux au CRIN).

Résultats et perspectives

Pour Vittoria Accoramboni, les résultats obtenus par le résolveur sont : 86% de rappel, 71% de précision et 24% de RM en moins par rapport aux RM correctes. Pour Le Père Goriot, les résultats sont 87% de rappel, 89% de precision, et 11% de RM en plus par rapport aux RM correctes. Les performances du résolveur pourraient être améliorées si l'on disposait d'un réseau sémantique plus complet et si l'analyse des groupes nominaux (les ER) était plus fine. En outre, l'évaluateur tel qu'il est conçu fournit des résultats numériques qui ne reflètent pas de façon suffisamment explicite les performances (bonnes ou mauvaises) du résolveur.

Références

[1] Popescu-Belis A. : <<How Corpora with Annotated Coreference Links Improve Anaphora and Reference Resolution>>. First International Conference on Language Resources and Evaluation (LREC'98), Granada, Spain, 1998.
[2] Popescu-Belis A. et Robba I. : <<Evaluation of Coreference Rules on Complex Narrative Texts>>. Discourse Anaphora and Reference Resolution Colloquium (DARRC2), Lancaster, UK, 1998.

Gpe Langage et Cognition

Dpt CHM

Sommaire

Présentation