Évaluation des systèmes de traitement automatique des langues : cadre formel et application à la résolution de la référence

_____________________

A. Popescu-Belis, I. Robba

Figure

Objet

Le but de cette étude est la comparaison de différentes mesures d'évaluation de la capacité d'un programme à traiter la référence linguistique dans les textes. Afin de définir des critères de jugement de ces mesures, une étude théorique sur l'évaluation en génie linguistique a été entreprise [1].

Description

Intéressés plus particulièrement par l'évaluation des systèmes de traitement automatique des langues, nous avons défini celle-ci, en relation avec la << vérification >> stipulée par le génie logiciel, comme la mesure de la satisfaction graduelle de spécifications non formalisables, souvent exprimées en langue naturelle. Le panorama des actions d'évaluation françaises, européennes et internationales a été synthétisé dans une page disponible sur la Toile (http://www.limsi.fr/Individu/ popescu/sites_eval.html).

Afin de formaliser le processus d'évaluation, un modèle tripartite a été formulé : chaque capacité du système donne lieu à une mesure, soumise à une appréciation humaine, dont l'ensemble fait l'objet d'un bilan (fig. 1). La valeur d'une capacité est mesurée à partir des mesures de qualité des réponses du système sur un nombre réduit de données de test (fig. 2). Ce modèle de l'évaluation s'applique à des tâches où l'on peut construire les réponses correctes pour chaque donnée (ce qui n'est pas toujours possible dans le domaine du traitement automatique des langues). Des critères de cohérence des mesures ont été exprimés ; par exemple, une mesure doit couvrir toute la plage des scores (0 à 100 %). Nous avons aussi défini l'indulgence relative de deux mesures.

La résolution de la référence [2] consiste dans un premier temps à regrouper les expressions référentielles (ER) d'un texte qui désignent la même entité (le référent). L'évaluation de cette capacité revient à comparer deux partitions de l'ensemble des ER, celle qui est correcte (clé) et celle du système (réponse). En l'absence de distance standard entre des partitions, nous avons montré, à l'aide du cadre précédent, les limites des mesures existantes, et proposé trois nouvelles mesures [3]. Certains des critères de cohérence ont été prouvés ou infirmés.

Résultats et perspectives

Toutes les mesures ont été implémentées dans notre Atelier de Traitement de la Référence (résultats fig. 3). Mais aucune ne s'imposant comme nettement meilleure, nous utilisons l'ensemble des scores (indépendants). Ainsi, leur augmentation simultanée est un signe sûr d'amélioration. Nous avons par exemple pu classer selon leur pertinence un certain nombre de règles de résolution, en mesurant les performances de notre système avec, puis sans, chacune d'elles [4]. Un problème à explorer à l'avenir est la restriction des mesures à une classe particulière d'ER, par exemple les pronoms.

Références

[1] Popescu-Belis A. : << L'évaluation en génie linguistique : un formalisme pour vérifier la cohérence des mesures >>, Langues, 1999, soumis.
[2] Popescu-Belis A., Robba I. et Sabah G. : << Reference Resolution Beyond Coreference : a Conceptual Frame and its Application >>, COLING-ACL'98, Montréal, Canada, 1998.
[3] Popescu-Belis A. et Robba I. : << Three New Methods for Evaluating Reference Resolution >>, LREC'98 Workshop on Linguistic Coreference, Granada, Spain, 1998.
[4] Popescu-Belis A. et Robba I. : << Evaluation of Coreference Rules on Complex Narrative Texts >>, Second Colloquium on Discourse Anaphora and Anaphor Resolution Colloquim (DAARC2), Lancaster, UK, 1998.

Gpe Langage et Cognition

Dpt CHM

+ Sommaire

Présentation