_____________________
P. Paroubek, G. Adda, J. Mariani en collaboration avec J. Lecomte* et M. Rajman**
Objet
Le LIMSI conjointement à l' INa LF, et l' EPLF a organisé l'action GRACE qui visait à évaluer les analyseurs morpho-syntaxiques du français. Le but de cette action, a été d'appliquer le paradigme d'évaluation tel qu'il est appliqué depuis plusieurs années dans le cadre des campagnes d'évaluation organisées par le DARPA et le NIST aux États-Unis et proposé par les projets européens( ELSE, SQALE) ou nationaux ( ARCs de l' AUPELF).
Description
L'action GRACE, a débuté en 1994 dans
le cadre du programme SHS-SPI du CNRS ``Cognition,
Communication intelligente et Ingénierie des langues'' et s'est
achevée en 1998 sous l'égide du programme ``Ingénierie des
Langues (IL)''.
Elle s'est déroulée en 3 phases : 1) l'entraînement pendant lequel un corpus brut
d'environ 10 millions de formes en provenance à part égales de la base
FRANTEXT de l' INa LF et du journal Le Monde a été distribué
aux 21 participants (voir Table 1) pour calibrer leurs systèmes;
2) les essais, pendant lesquels 17 participants
ont testé le protocole complet d'évaluation en marquant un corpus
d'environ 450 000 formes,
3) les tests
(les résultats sont présentés dans la Figure 1) et au cours desquels
13 participants ont marqué un corpus d'environ 650 000 formes.
Nous avons défini un protocole d'évaluation qui a été
accepté par l'ensemble des participants. Conjointement à la phase d'apprentissage,
une première version de ce
protocole a été définie en collaboration avec les
participants, puis finalisé au cours de la phase des essais.
Le
formalisme commun de description morpho-syntaxique qui a été utilisé
est une variante de celui qui a été proposé pour le français par les
projets européens EAGLES et MULTEXT. Les mesures quantitatives de
performance des analyseurs morpho-syntaxiques qui ont été spécialement
développées pour le projet sont la précision et la décision. La
précision mesure la plus ou moins grande capacité d'un système à
assigner une étiquette morpho-syntaxique correcte à une forme, la
décision mesure la plus ou moins grande capacité d'un système à
fournir, dans le formalisme de référence, une étiquette totalement
désambiguïsée (des réponses partiellement ambigües sont admises). Les
mesures ont été effectuées en mode boîte noire et leurs résultats
discutés entre les participants pendant un séminaire.
Résultats et perspectives
L'action GRACE, qui est la première de ce type jamais effectuée pour les analyseurs morpho-syntaxiques a eu pour conséquence : 1) la définition de mesures d'évaluation originales la précision et la décision, 2) la production d'un corpus de référence validé manuellement d'environ 30 000 formes, 3) la création d'un prototype de boîte à outils pour l'évaluation des assignateurs de catégories grammaticales qui est en cours de valorisation dans le cadre du projet européen ELSE, 4) la production d'un corpus d'environ 1 million de formes qui a été marqué par 13 systèmes différents dans un formalisme unique; ce corpus est intéressant à la fois pour l'étude de l'analyse morpho-syntaxique automatique et pour celle de l'apprentissage automatique par combinaison de systèmes. Ce corpus est en cours de valorisation dans le cadre de l'action MULTITAG du CNRS (programme IL), 5) la constitution d'un groupe de travail autour de la problématique de l'analyse morpho-syntaxique automatique et de son évaluation.
Référence
G. Adda, J. Lecomte, J. Mariani, P. Paroubek, M. Rajman, ``The GRACE French Part-of-Speech Tagging Evaluation Task'', in Proceedings of the First International Conference on Language Resources and Evaluation (LREC), Granada, mai 1998.
* INa LF ** EPFL
Gpe Traitement du Langage Parlé |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|