Evaluation

La recherche en reconnaissance de la parole a grandement bénéficié de l'utilisation du paradigme de l'évaluation, qui, à travers des programmes comme celui du DARPA aux Etats-Unis a fait progresser considérablement l'état de l'art dans ce domaine. Bien que l'utilisation de l'évaluation ait été jusqu'à présent parcellaire dans le domaine de la modélisation linguistique, ceci aussi bien pour l'écrit que pour l'oral, et peut-être plus particulièrement pour la langue française, on assiste actuellement à l'apparition d'une prise de conscience des besoins en la matière, besoins qui se font d'autant plus sentir que les progrès récents de la technologie, des moyens de communication et des normes (par exemple SGML et UNICODE pour le format des données ou EAGLES pour les formalismes) rendent possible des actions qu'il n'aurait pas été raisonnable de considérer il y a quelques années.

Cette prise de conscience se concrétise au plan national par des iniatives comme les programmes communs aux départements SHS et SPI du CNRS, comme l'ancien programme ``Cognition Communication Intelligente et Ingénierie des Langues'' dont l'action GRACE faisait partie et dont l'objectif était l'évaluation sur la tâche de marquage morpho-syntaxique du français (fin au premier semestre 1998) et qui trouve son prolongement toujours sous les mêmes auspices dans le projet MULTITAG du nouveau programme ``Ingéniérie des Langues''. MULTITAG vise à obtenir à partir des données marquées durant la campagne d'évaluation GRACE, un corpus annoté et validé qui sera mis à disposition de la communauté des chercheurs et développeurs tout en réalisant pour la première fois une expérience de combinaison automatique des informations produites par les différents étiqueteurs issus aussi bien de la recherche que de l'industrie et dont les origines regroupent divers pays Européens et incluent même le continent Nord-Américain.

Pour l'oral et en restant sur le plan francophone, cette prise de conscience se retrouve dans l'action de recherche concertée B1 de l' AUPELF-UREF dans laquelle une partie des efforts a porté sur l'évaluation des modèles de langage.

Au plan Européen, l'action préparatoire ELSE (Evaluation in Language and Speech Engineering) dont le LIMSI a la responsabilité scientifique et qui sert de préambule aux activités d'évaluation qui auront lieu dans le 5ème Programme Cadre de la Communauté Européenne est représentative des préoccupations actuelles en matière d'évaluation, ne serait-ce que par son objectif d'aboutir à une proposition d'infrastructure européenne générique pour l'évaluation, construite autour des procédures d'évaluation reposant essentiellement sur une approche quantitative en mode opaque.

Evaluation des analyseurs morphosyntaxiques et syntaxiques du français (Action GRACE) xx L'action GRACE, que nous organisons avec l' INALF, a pour objectif l'application du paradigme d'évaluation aux analyseurs morphosyntaxiques et syntaxiques du français. L'appel à participation à l'action GRACE, centrée sur l'évaluation des étiqueteurs morpho-syntaxiques pour le français a été très bien accueilli puisqu'une vingtaine d'équipes y ont répondu, 13 ayant effectivement participé à la fois à la phase d'essai et de test. Ces équipes viennent aussi bien de l'industrie que de la recherche publique et incluent une participation étrangère conséquente (Amérique du Nord, Allemagne, Suisse). La session d'évaluation s'est déroulée en trois phases: 1) entraînement (1996), comprenant la distribution des données d'entraînement (corpus d'environ 9 Millions de mots) et du lexique développé dans le cadre du projet Multext coordonné par J. Véronis, 2) essai (début 1997), qui a servi à tester le protocole complet d'évaluation avec le concours des participants, 3) test (fin 1997), l'évaluation proprement dite, où les participants ont annoté plus de 600 000 mots. La phase de test sera suivie d'une réunion de synthèse des participants leur permettant de débattre des résultats et de comparer les différentes méthodes utilisées et appliquées aux mêmes données.
Evaluation des modèles de langage xx Au sein de l' ARC B1 portant sur l'évaluation de systèmes de dictée vocale de journaux, une partie des activités a concerné l'évaluation des modèles de langage dans le cadre de la reconnaissance de la parole.
Ce type d'évaluation n'ayant encore jamais eu lieu, nous avons défini un protocole d'évaluation des modèles de langage en concertation avec M. El-Bèze du LIA et F. Bimbot de l' IRISA. En suivant ce protocole, une phase d'évaluation des modèles de langage a été réalisé. Trois laboratoires y ont participé: le CRIN, le LIA et le LIMSI.
Cette première campagne que nous considérons comme une phase de développement, sera suivie lors de la deuxième campagne d'évaluation de l' ARC B1, d'une évaluation spécifique en vraie grandeur des modèles de langage.
Evaluation en Ingénierie des Langues en Europe (Projet ELSE)
ELSE, projet faisant partie du programme Ingénierie Linguistique de la Communauté Européenne, a pour objectif de proposer une infrastructure générale pour l'évaluation en Ingénierie Linguistique dans le contexte de la préparation du 5ème programme cadre de la Communauté Européenne.
L'infrastructure générale qu'ELSE se propose de développer et de tester porte sur la définition d'un cadre pour l'évaluation utilisant une approche boîte noire, quantitative, semi-automatique et indépendante de la tâche pour des systèmes informatiques à composante langagière, ceci aussi bien pour l'Écrit que pour l'Oral, dans un contexte multilingue et dans des campagnes bâties autour du concept de ``tâche de contrôle''.
Bien que générique par nature, ELSE fournira néanmoins un exemple de mise en application pratique pour une tâche de contrôle particulière : l'assignation de descriptions morpho-syntaxiques aux mots d'un texte, pour laquelle une chaîne d'évaluation de démonstration sera réalisée.
A longue échéance, ELSE contribuera à l'amélioration de la qualité des systèmes, d'abord parce qu'il facilitera l'évaluation des progrès d'un système durant la phase de développement, ensuite parce qu'une information de meilleure qualité sur les applications et les méthodes utilisées en Ingénierie Linguistique sera disponible et qu'elle aura été obtenue à partir d'un point de référence commun.