Résolution de l'anaphore pronominale et de la référence

Résolution de l'anaphore pronominale et de la référence

_____________________

Objet

La résolution de l'anaphore est envisagée comme une partie du processus de résolution de la référence. Une architecture paramétrable est proposée pour un module de résolution. Pour améliorer la résolution des pronoms, ce module utilise des informations sur les référents du texte.

Description

On conçoit classiquement l'anaphore comme une relation textuelle entre un anaphorique(p.ex un pronom), et un antécédent (p.ex un groupe nominal) explicite ou inféré à partir du texte. L'antécédent est supposé référer directement à un objet extérieur au texte. Des travaux récents remplacent la distinction anaphorique/antécédent par une classification graduelle des expressions référentielles (ER), allant des noms propres et descriptions définies jusqu'aux différents types de pronoms. La résolution de l'anaphore doit donc être un cas particulier d'un mécanisme plus général, à savoir la construction d'un lien entre chaque ER (nom, pronom, etc.) et la structure représentant son référent.

Nous proposons une architecture générale pour un module de résolution des ER (fig.1). Le module reçoit en entrée un texte traité par d'autres modules d'un système de compréhension automatique de textes ([2], [3]), repère les ER, et construit une ensemble de référents.

Le sous-module M1 sélectionne les ER à partir du texte prétraité donné et doit leur associer la structure correspondante dans l'ensemble des référents. Il peut donc : (1)-associer la RE courante à un référent déjà existant dans l'ensemble, ou bien (2)-créer une nouvelle structure de référent et instancier ses paramètres avec les données de la ER. Le sous-module M2 contrôle l'ensemble des référents, et peut : (3)-fusionner deux structures si elles désignent en réalité le même référent réel (suite à une création injustifiée) ou bien (4)-enlever et archiver les structures auxquelles le texte n'a pas référé depuis longtemps. Des restrictions au cadre général (1-2-3-4) peuvent simuler différentes approches. Dans sa configuration minimale, le module utilise un lexique général, un analyseur morpho-syntaxique LFG et un dictionnaire de synonymes.

Résultats et perspectives

Trois textes ont été considérés ; la figure 2 indique que celui de Stendhal est le plus dense du point de vue de l'anaphore pronominale, et, partant, le plus difficile. Une première version du module a été implantée ; utilisant seulement la récence et des contraintes d'accord, ses résultats sont peu compétitifs. Nous travaillons à présent à une meilleure utilisation de l'analyseur LFG (tri de l'ensemble de GN, p.ex), et à l'utilisation d'une hiérarchie d'hypéronymes.

Références

[1] Popescu-Belis A. and Robba I. : <<Cooperation between Pronoun and Reference Resolution for Unrestricted Texts>>. ACL '97 Workshop on Operational Factors In Practical, Robust, Anaphora Resolution for Unrestricted Texts, Madrid, Spain, 1997.

[2] Sabah G. : <<Le carnet d'esquisses : une mémoire interprétative dynamique>>. Actes RF-IA, Rennes, 1996.[3] Popescu-Belis A. : <<Spécification d'un carnet d'esquisses à partir de l'étude d'un agent>>. Actes Récital'96 - Rencontres des étudiants-chercheurs en informatique pour le traitement automatique des langues, Gif-sur-Yvette, p. 49-56, 1996.

Gpe Langage et Cognition Dpt CHM Sommaire

Présentation