Évaluation objective de la conversion graphème-phonème pour la synthèse de parole à partir du texte en français.

_____________________

P. Boula de Mareüil, C. d'Alessandro et les partenaires de l'ARC-B3

Figure

Objet

Une coopération internationale a été conduite sur l'évaluation de la conversion graphème-phonème en français (GP), pour la synthèse de la parole à partir du texte. La méthodologie de test et le corpus utilisés, ainsi que les résultats pour 8 systèmes sont décrits.

Description

La conversion GP est le processus de transformation d'une chaîne orthographique en représentation symbolique de la séquence des sons correspondants. Cette représentation est classiquement une suite de symboles phonémiques. L'utilité de la conversion GP automatique est évidente dans toutes sortes d'applications en traitement automatique de la parole ou de la langue naturelle; correction orthographique, synthèse de la parole, reconnaissance automatique de la parole.

Les principaux traits de ce travail sont:

1.
une évaluation objective automatique;
2.
une approche diagnostique;
3.
une évaluation internationale : 8 systèmes ont été testés.

Les 8 systèmes ont tout d'abord transcrit un corpus de texte de 30 000 occurrences de mots dans un alphabet phonétique commun. Dans une seconde phase, un corpus d'environ 2000 phrases du journal ``Le Monde'' a été constitué. Ce corpus contient 26 000 occurrences de mots, correspondant à environ 6000 formes différentes, correspondant à environ 1500 noms propres (1000 formes différentes), 600 nombres (200 formes différentes), et 200 acronymes et abréviations (90 formes différentes), le reste étant des mots communs. Après transcription manuelle, le corpus de référence contient plus de 85 000 symboles phonémiques.

Une procédure en deux étapes a été adoptée pour le calcul des résultats. Un jeu de résultats a été produit sur une première version du corpus. Une version corrigée du corpus de référence a été produite après une phase d'adjudication, conduisant aux résultats bruts présentés dans la Table 1.

La Table 2 montre la distribution des erreurs en fonction du type de mot, et la Table 3 la typologie des erreurs.

Résultats et perspectives

Un des buts de ce projet a été de mettre à la disposition de la communauté un paradigme d'évaluation et des corpus réutilisables pour des travaux futurs. Ainsi, un corpus de test (textes journalistiques) a été élaboré. Une méthodologie effective a été conçue et mise en oeuvre, puis des tests ont été menés pour 8 systèmes. Ce travail donne une image fidèle de l'état de l'art en conversion GP pour le français, et met en lumière les problèmes encore à résoudre. A notre connaissance, il s'agit là de la première évaluation sur une grande échelle des convertisseurs GP pour la synthèse de la parole en français.

Références

[1] F.Yvon, P. Boula de Mareüil, C. d'Alessandro, V. Aubergé, M. Bagein, G. Bailly, F. Béchet, S. Foukia, J.-P. Goldman, E. Keller, V. Pagel, F. Sannier, J. Véronis, D. O'Shaughnessy, B. Zellner, ``Objective evaluation of grapheme to phoneme conversion for Text-To-Speech synthesis in French'', Computer Speech & Language, 12(4): 393-410, octobre 1998.
[2] C.d'Alessandro et partenaires ARC-B3, ``Joint Evaluation of Text-To-Speech synthesis in French within the AUPELF ARC-B3 project'',3rd International Workshop on Speech Synthesis, pages 11-16, Jenolan Caves, novembre 1998. European Speech Communication Association.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation