LES LEXIQUES DE PRONONCIATION

DANS LES SYSTÈMES DE RECONNAISSANCE DE LA PAROLE

______________

L.F. LAMEL, G. ADDA, M. ADDA-DECKER

Figure

Objet

Lors du développement d'un système de reconnaissance, la création d'un lexique de prononciation est reconnue comme étant une phase décisives, et où l'apport explicite de connaissances linguistisques choisies en vue de l'efficacité globale du système amène un gain réel. La création de ces lexiques de prononciation comprend souvent une grande part de travail non automatique, et requiert des connaissances et une expertise qui sont difficiles à quantifier et à transmettre, ce qui rend leur réusabilité problématique.

Contenu

Nous avons appris, de par notre expérience dans le développement de systèmes de reconnaissance multilingues, qu'un travail systématique sur le lexique amenait un gain aux performances du système. Pour ce qui concerne la sélection des mots d'un lexique, il est nécessaire de les choisir de manière à maximiser la couverture de l'application. On optimise cette couverture en minimisant le taux de mots hors vocabulaire (MHV) sur un texte dit de développement, qui doit avoir des caractéristiques les plus proches possibles du texte de test (provenance, longueur des phrases, ...). La couverture lexicale pour différentes langues (français, anglais, allemand) et différentes tailles de lexiques est montrée dans la table 1.

Pour la représentation des prononciations, nous avons choisi de ne représenter explicitement que les prononciations standards (pas de représentation allophonique). Ce choix repose principalement sur 2 raisons : les variantes allophoniques peuvent être représentées par des règles optionnelles qui n'ont pas besoin d'être codées explicitement dans le lexique; la variation d'un allophone à l'autre d'un même phonème est le plus souvent continue, et la décision sur le choix d'une occurence donnée, est donc subjective. En utilisant une représentation phonémique, nous n'imposons pas de décision a priori, et les modèles acoustiques peuvent dès lors apprendre automatiquemnt les variantes observées dans les données d'apprentissage. Cependant, certaines variantes fréquentes, qui relèvent en fait de différences non allophoniques (comme le e-muet en français) sont représentées explicitement dans le lexique.

L'ajout de prononciations dans le lexique est en grande partie manuelle, et est donc un processus long et une source d'erreurs potentielles. Nous avons donc développé des outils (voir figure 1) pour à la fois faciliter le travail et maîtriser (et limiter) les erreurs. Bien que ces outils puissent fonctionner en mode entièrement automatique, une intervention humaine pour vérifier le processus augmente la fiabilité, et le mode le plus efficace est donc un mode interactif, ou l'expert valide les choix de la machine, et où réciproquement les modifications apportées par l'expert sont validées par le système.

Situation

Nous avons choisi d'évaluer la qualité des prononciations de nos lexiques en les confrontant avec des réalisations effectives de mots, issues de grands corpus de parole. En forçant l'alignement des données acoustiques d'apprentissage en utilisant les transcriptions orthographiques, nous pouvons estimer les fréquences relatives des différentes prononciations d'un même mot. A titre d'exemple, le lexique anglo-américain utilisé dans notre système de reconnaissance comprend 65k mots et 72 637 transcriptions phonétiques utilisant un alphabet de 45 symboles phonétiques. Bien qu'il soit difficile d'estimer précisément l'apport réel d'une modification apportée au lexique (les modèles acoustiques dépendants du contexte changeant lorsque le lexique change), l'approche que nous proposons permet un gain effectif faible (environ 5%) mais significatif, gain qui a été confirmé par d'autres laboratoires ayant utilisé le lexique anglo-américain développé au LIMSI.

Références

(1) J.L. Gauvain, L.F. Lamel, M. Adda-Decker :"The LIMSI Nov94 WSJ System,'' Proc. ARPA Workshop on Spoken Language Technology, Austin, Texas, Jan. 1995.

(2) J.L. Gauvain, L.F. Lamel, G. Adda, D. Matrouf :"Developments in Continuous Speech Dictation using the 1995 ARPA NAB News Task,'' Proc. ICASSP-96.

(3) M. Adda-Decker, G. Adda, L. Lamel, J.L. Gauvain :"Developments in Large Vocabulary, Continuous Speech Recognition of German,'' Proc. ICASSP-96.

Gpe Traitement du Langage Parlé

DptCHM

+ Sommaire

Présentation