Les Évaluations AUPELF-ILOR 1997

Les Évaluations AUPELF-ILOR 1997

_____________________

G. Adda, M. Adda-Decker, C. d'Alessandro, P. Boula de Mareuil, J.L. Gauvain, M. Jardino, L. Lamel

Objet

Dans le cadre des Actions de Recherche Concertées (ARC) organisées par l'AUPELF-UREF, le groupe TLP s'est fortement impliqué dans les actions portant sur l'évaluation des systèmes de reconnaissance et de synthèse vocale en langue française. Nous donnons ici un aperçu des résultats des actions ayant abouti à une évaluation lors de la campagne 1997.

Dans l'axe ILOR (``Informatique, Linguistique et Corpus Oraux), deux ARCs ont abouti à des évaluations objectives de systèmes :

- l'ARC B1, où ont été évalués les systèmes de dictée vocale indépendante du locuteur, sur une tâche de lecture de journaux [1] ; 2 catégories ont été définies : la catégorie P₀ (4 participants) où certaines ressources étaient imposées (ressources pour l'apprentissage acoustique et lexique des mots du système), et la catégorie Q₀ (2 participants) où les systèmes étaient libres de ces contraintes. Le LIMSI a obtenu les meilleurs résultats dans les 2 catégories. Le tableau 1 résume les résultats obtenus par le LIMSI [2] pour différentes conditions sur le corpus d'évaluation¹.

Des modèles de langage utilisables pour la reconnaissance vocale ont également été évalués ; pour ce faire, une nouvelle approche, dérivée du jeu de Shannon, a été utilisée [3]: chaque système a été évalué sur sa capacité à prédire un mot, étant donné un début de phrase. Ici, l'évaluation devant être considérée plutôt comme une phase de validation du protocole, les résultats présentés dans le tableau 2 sont tous anonymes.

- l'ARC B3, où ont été évalués les systèmes de conversion graphème-phonème pour la synthèse vocale [4]. Ceci constitue la première évaluation objective de cette étape essentielle pour la synthèse à partir du texte. Les systèmes ont été évalués sur un corpus de texte consistant en une sélection d'articles (30 000 mots issus du journal ``Le Monde''), transcrits phonétiquement à la main et noyés dans un texte de grande taille. Le LIMSI a obtenu les meilleurs scores au niveau phonémique. Le tableau 3 montre l'ensemble des résultats (anonymes) des 8 participants.

Dans l'ARC B1, une première campagne complète d'évaluation a pu être menée à bien, les résultats des différents laboratoires mettant en lumière la nécessité d'avoir de grands corpus, de parole et de texte. Elle a permis de montrer qu'il nous était possible d'obtenir des résultats de reconnaissance comparables en français et en anglais. Elle a également permis de mesurer l'importance et la difficulté de la modélisation du langage pour la reconnaissance en langue française, justifiant ainsi une évaluation spécifique de ceux-ci.

Pour les ARCs cités, une prochaine campagne d'évaluation doit avoir lieu en 1999.

[1] G. Adda, M. Adda-Decker, J.-L. Gauvain, L. Lamel : ``Text normalization and speech recognition in French'', Eurospeech'97, 1997, Rhodes.
[2] J-M Dolmazon et al. : ``An overview of the first evaluation campaign for speech dictation systems in French'', 1st LREC Int. Conference, 1998, Grenade.
[3] F. Bimbot, M. El-Bèze, M. Jardino : ``An alternative scheme for perplexity estimation'', , ICASSP 1997, Munich.
[4] P. Boula de Mareüil et al. :``Objective evaluation methodology of grapheme-to-phoneme conversion for text-to-speech synthesis in French'', 1st LREC Int. Conference, 1998, Grenade.

¹ Les résultats officiels n'ayant pas encore été publiés nous ne présentons pas les résultats obtenus par les autres participants.

Gpe Traitement du Langage Parlé

Dpt CHM

Sommaire

Présentation