Reconnaissance de Parole Continue à Grand Vocabulaire en Français

_____________________

G. Adda, M. Adda-Decker, J.L. Gauvain, L. Lamel

Figure

Objet

Le travail présenté concerne la reconnaissance de parole continue à grand vocabulaire en français. Des études comparatives avec différents lexiques, modèles de langage et modèles acoustiques ont été réalisées. Pour la reconnaissance du français, le manque de couverture lexicale a pu être identifié comme un problème majeur lors de travaux précédents [1], motivant l'extension de notre système 20k à 65k mots. Une partie de ces études a été effectuée dans le cadre du projet Dictée Vocale de l'ARC-B1 de l'AUPELF-UREF. Lors de l'évaluation officielle AUPELF'97 nous avons obtenu les meilleurs résultats avec un taux d'erreur de mots de 11,2%.

Description

Nous avons exploré différentes normalisations graphémiques des textes visant à diminuer le nombre de formes différentes observées [3]. L'adéquation entre textes d'apprentissage et de test peut être optimisée en pondérant l'utilisation de textes récents et de sources plus anciennes. L'effet de la normalisation et de la sélection des corpus d'apprentissage sur le taux de MHV (mots hors vocabulaire) est illustré dans la Fig.1. À partir de textes propres bruts (version de texte Na) le taux de MHV peut être réduit de manière significative par les traitements des ponctuations ambiguës, majuscules en début de phrase, nombres et sigles (Nb) et en enlevant distinction de cas, signes diacritiques et signes de ponctuation (Nc). L'utilisation de textes récents est particulièrement importante pour couvrir les noms (essentiellement noms propres) se rapportant à l'actualité immédiate (p.ex. concernant l'actualité politique en Birmanie : birmanisation, Aung San Suu Kyi). Pour l'estimation des modèles de langage (ML) nous avons augmenté considérablement nos corpus (de 40M de mots à plus de 250M incluant LeMonde, LeMondeDiplomatique et l' AgenceFrancePresse. Pour pallier le problème de fautes d'accord à court terme, des modèles N-grammes de mots et de classes interpolés ont été mis en oeuvre. Des résultats comparatifs avec des vocabulaires de 20k et 65k mots sont présentés (Tab. 2). Les taux d'erreurs de mots ont été examinés suivant la fréquence des mots dans les textes d'apprentissage (Fig.1 droite).

Résultats et perspectives

Les erreurs de reconnaissance sont dues en très large partie aux mots homophones (et quasi-homophones, par exemple est et), et, en proportion moindre aux noms propres. Les homophones (quasi-homophones) proviennent des formes fléchies pour les verbes, (aller, allé, allée, allés, allées, allai, allais, allait, allaient), des accords en genre et en nombre pour les noms et les adjectifs. Les formes verbales plus rares, donc moins bien apprises par le ML, sont souvent reconnues comme une suite de mots: alerta --alerte à. Les noms propres admettent eux aussi souvent des formes homonymes, p. ex. Joseph Shuster --Josef Schuster. Le problème des homophones est à résoudre au niveau du modèle du langage. Concernant le modèle de langage, un ajout de textes d'apprentissage est d'autant plus intéressant, qu'il s'agit de données proches (dans le temps, et probablement aussi proche dans la thématique) des données de test. Les erreurs de reconnaissance du français journalistique proviennent pour une part assez faible des niveaux acoustico-phonétiques (modèles acoustiques, lexique de transcriptions phonétiques), la majeure partie étant due à des modèles de langage trop généraux.

Références

[1] L. Lamel, M. Adda-Decker, J.L. Gauvain, ``Issues in Large Vocabulary, Multilingual Speech Recognition,'' Eurospeech'95, Madrid, Sept. 1995.
[2] J.M. Dolmazon et al., ``ARC B1 - Organisation de la 1e campagne AUPELF pour l'évaluation des systèmes de dictée vocale'', 1ères JST FRANCIL, Avignon, April 1997.
[3] G. Adda, M. Adda-Decker, J.L. Gauvain, L. Lamel, ``Le système de dictée du LIMSI pour l'évaluation AUPELF'97'', 1ères JST FRANCIL, Avignon, April 1997.
[4] G. Adda, M. Adda-Decker, J.L. Gauvain, L. Lamel, ``Text Normalization and Speech Recognition in French'', EuroSpeech'97, Rhodos, Sept. 1997.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation