CORPUS ET ÉVALUATION (Action CORVAL)

TITRE CORPUS ET ÉVALUATION (Action CORVAL)

_____________________

Objet

Débutée en octobre 1997, l'action CORVAL a pour objectif d'être un lieu d'échanges et de synthèse autour des activités concernant les corpus (oraux ou écrits) et l'évaluation des systèmes à composante de communication humaine ou assimilée.

Description

Les corpus, qui sont des regroupements d'extraits de langage (allant de l' $\oe$ uvre complète aux extraits de quelques mots) guidés par une hypothèse de recherche explicite, constituent de nos jours un support indispensable au développement des systèmes à composante de communication humaine. Mais la spécificité du langage naturel nécessite d'avoir recours à des solutions appropriées pour la représentation, le stockage, l'exploration, l'analyse et la maintenance de ces données d'un genre bien particulier et, si des standards commencent à apparaître (par exemple Unicode, SGML, XML, TEI, CES, etc.), beaucoup de points restent néanmoins encore en attente de solutions reconnues par tous. Des questions comme les critères de sélection du contenu d'un corpus (types d' $\oe$ uvres, extraits ou ouvrages complets, répartition en genre), ou encore l'évaluation de sa qualité, restent pour le moment du domaine de la recherche. Pour l'évaluation des systèmes à composante de communication humaine, le paysage est encore plus hétérogène puisque, selon le type de système considéré, on peut tout trouver, des programmes d'évaluation internationaux ayant parfois une histoire couvrant plus d'une décennie avec des protocoles et des métriques bien définis (par exemple en reconnaissance de la parole), jusqu'aux domaines où tout est à faire en termes d'évaluation, par exemple pour les systèmes d'extraction terminologique (comment évaluer une ontologie ?). L'objet même de l'évaluation et de son utilisation est une source de débat. Quelle méthodologie doit-on employer ? Une méthodologie ``boîte noire'' ou transparente ? L'évaluation doit-elle s'intéresser d'abord à la capacité d'un algorithme à résoudre un problème ou bien à la capacité qu'a un système d'aider un humain dans sa tâche (évaluation orientée utilisateur) ? Comment séparer ce qui appartient à la technologie sous-jacente de ce qui relève de l'interface homme-machine ? Comment est-il possible de généraliser ou de réutiliser les résultats d'une évaluation pour d'autres langues, d'autres domaines d'application ?

Résultats et perspectives

L'histoire des activités de l'action CORVAL comprend deux phases. Pendant la première (1997-1998), les activités du groupe ont concerné principalement les ressources (projet CNRS/AUF SILFIDE) et les méthodes quantitatives d'évaluation des systèmes d'annotation de textes, avec en particulier une collaboration avec l'action incitative XiCOP (extraction d'information) et une réflexion sur l'évaluation de la segmentation de textes [1]. L'INaLF et le Loria (Nancy), l'EPFL (Lausanne), TALANA (U. Paris 7), le LPL (Aix-en-Provence), ELRA (Paris), l'AUF (Paris) ont contribué aux activités du groupe. Une réflexion plus générale sur l'évaluation (parole et texte) a aussi été effectuée au sein de l'action dans le cadre du projet Européen ELSE (infrastructure pour l'évaluation en génie linguistique pour le 5ème programme-cadre de la Communauté Européenne) [2]. Au cours de la seconde phase (1998-1999), les efforts se sont portés sur la collaboration avec le projet MULTITAG du CNRS (valorisation par combinaison de systèmes du corpus produit par la campagne d'évaluation GRACE [3] des assignateurs de catégories morpho-syntaxiques), la contribution à un projet de BQR avec le LRI (Orsay) pour l'évaluation d'un système d'apprentissage à partir de textes, une contribution aux rapports finaux des projets européens ELSE et DISC (ingénierie des systèmes de dialogue oral) [4]. Dans un avenir proche, CORVAL va participer au projet européen CLASS (activité d'évaluation transversale à des groupes de projets du programme HLT à composante de communication humaine), initier une réflexion au sein du laboratoire sur les aspects théoriques de l'évaluation [5] et poursuivre ses activités sur les ressources linguistiques et les protocoles d'évaluation au sein de collaborations pluridisciplinaires semblables à celle engagée avec l'INIST et le département des Sciences de la Vie du CNRS.