La campagne d'évaluation GRACE (Grammaire et Ressources pour les Analyseurs de Corpus et leur Évaluation) des analyseurs morpho-syntaxiques pour le français

_____________________

P. Paroubek, G. Adda, J. Mariani en collaboration avec J. Lecomte* et M. Rajman**

Figure

Objet

Le LIMSI conjointement à l' INa LF, et l' EPLF a organisé l'action GRACE qui visait à évaluer les analyseurs morpho-syntaxiques du français. Le but de cette action, a été d'appliquer le paradigme d'évaluation tel qu'il est appliqué depuis plusieurs années dans le cadre des campagnes d'évaluation organisées par le DARPA et le NIST aux États-Unis et proposé par les projets européens( ELSE, SQALE) ou nationaux ( ARCs de l' AUPELF).

Description

L'action GRACE, a débuté en 1994 dans le cadre du programme SHS-SPI du CNRS ``Cognition, Communication intelligente et Ingénierie des langues'' et s'est achevée en 1998 sous l'égide du programme ``Ingénierie des Langues (IL)''. Elle s'est déroulée en 3 phases : 1) l'entraînement pendant lequel un corpus brut d'environ 10 millions de formes en provenance à part égales de la base FRANTEXT de l' INa LF et du journal Le Monde a été distribué aux 21 participants (voir Table 1) pour calibrer leurs systèmes; 2) les essais, pendant lesquels 17 participants ont testé le protocole complet d'évaluation en marquant un corpus d'environ 450 000 formes, 3) les tests (les résultats sont présentés dans la Figure 1) et au cours desquels 13 participants ont marqué un corpus d'environ 650 000 formes.
Nous avons défini un protocole d'évaluation qui a été accepté par l'ensemble des participants. Conjointement à la phase d'apprentissage, une première version de ce protocole a été définie en collaboration avec les participants, puis finalisé au cours de la phase des essais. Le formalisme commun de description morpho-syntaxique qui a été utilisé est une variante de celui qui a été proposé pour le français par les projets européens EAGLES et MULTEXT. Les mesures quantitatives de performance des analyseurs morpho-syntaxiques qui ont été spécialement développées pour le projet sont la précision et la décision. La précision mesure la plus ou moins grande capacité d'un système à assigner une étiquette morpho-syntaxique correcte à une forme, la décision mesure la plus ou moins grande capacité d'un système à fournir, dans le formalisme de référence, une étiquette totalement désambiguïsée (des réponses partiellement ambigües sont admises). Les mesures ont été effectuées en mode boîte noire et leurs résultats discutés entre les participants pendant un séminaire.

Résultats et perspectives

L'action GRACE, qui est la première de ce type jamais effectuée pour les analyseurs morpho-syntaxiques a eu pour conséquence : 1) la définition de mesures d'évaluation originales la précision et la décision, 2) la production d'un corpus de référence validé manuellement d'environ 30 000 formes, 3) la création d'un prototype de boîte à outils pour l'évaluation des assignateurs de catégories grammaticales qui est en cours de valorisation dans le cadre du projet européen ELSE, 4) la production d'un corpus d'environ 1 million de formes qui a été marqué par 13 systèmes différents dans un formalisme unique; ce corpus est intéressant à la fois pour l'étude de l'analyse morpho-syntaxique automatique et pour celle de l'apprentissage automatique par combinaison de systèmes. Ce corpus est en cours de valorisation dans le cadre de l'action MULTITAG du CNRS (programme IL), 5) la constitution d'un groupe de travail autour de la problématique de l'analyse morpho-syntaxique automatique et de son évaluation.

Référence

G. Adda, J. Lecomte, J. Mariani, P. Paroubek, M. Rajman, ``The GRACE French Part-of-Speech Tagging Evaluation Task'', in Proceedings of the First International Conference on Language Resources and Evaluation (LREC), Granada, mai 1998.

* INa LF ** EPFL


Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation