RECONNAISSANCE DE PAROLE CONTINUE EN PRÉSENCE DE BRUIT

_____________________

J.L. GAUVAIN, G. ADDA, L.F. LAMEL, D. MATROUF

Objet

Le but de ce travail est de faire progresser notre technologie pour la reconnaissance de parole continue, à grand vocabulaire et indépendante du locuteur. Les systèmes actuels sont relativement dépendants des conditions d'apprentissage et sont peu robustes aux changements de microphone et d'environnement acoustique. L'un des objectifs de cette recherche est de traiter les problèmes de la dictée de textes sans limitation de vocabulaire dans des conditions acoustiques variées (environnements bruités et microphones inconnus).

Contenu

Le système de reconnaissance utilise des modèles de Markov cachés à densitées continues et des modèles n-grammes estimés sur des textes de journaux. Chaque mot est représenté par une ou plusieurs séquences de modèles de phones en contexte (intra et inter-mot) correspondant aux transcriptions phonétiques de ce mot. La paramétrisation acoustique est fondée sur une représentation cepstrale du signal de parole. Le décodage est réalisé en plusieurs passes acoustiques, où l'information est transmise au moyen de graphes de mots. Afin de traiter des conditions acoustiques variées, une compensation de la variabilité du canal de transmission est effectuée de manière itérative en réestimant les modèles de bruits avant les trois premières passes de décodage. Pour la dernière passe de décodage les modèles acoustiques sont également adaptés au locuteur. Quatre caractéristiques nouvelles ont ainsi été introduites par rapport au système décrit dans [1]:

1) Les densités d'observation sont partagées entre états, d'une part pour réduire la taille des modèles acoustiques et ainsi faciliter leur adaptation, et d'autre part pour augmenter le taux couverture des contextes phonétiques.

2) Des modèles de phones en contexte dépendant de leur position sont utilisés lors de la première passe du décodeur afin d'optimiser la couverture des contextes inter-mots pour une taille de modèle fixée.

3) Les bruits additifs et convolutifs sont compensés de manière non supervisée. L'adaptation des paramètres repose sur le modèle suivant du canal de transmission: y=(x+n)*h, où n est le bruit additif et h le bruit convolutif, y étant le signal mesuré et x le signal produit.

4) Une adaptation au locuteur est effectuée lors de la passe finale du décodeur. Cette adaptation non supervisée est obtenue en effectuant une régression linéaire (MLLR) entre les paramètres des modèles et les statistisques mesurées sur les données de test.

Objet

Le système de reconnaissance utilise un vocabulaire de 65k mots selectionnés pour minimiser le taux de mots hors vocabulaire sur des textes de développement. Des modèles bigrammes et trigrammes ont été estimés sur des textes de journaux comprennant 284M de mots. Les sigles les plus fréquents dans les textes d'apprentissage sont directement représentés dans le lexique ce qui permet de réduire la perplexité du modèle de 4%.

Ce système a été évalué sur le test "Nov95 ARPA CSR" comprenant des enregistrements de plusieurs microphones dans des conditions de bruit variées. Sur le signal du microphone casque (S/B moyen de 29dB) un taux d'erreur de 9,1% a été obtenu, lequel doit être comparé à 17,5% pour les autres microphones (S/B moyen de 15dB) sans changer les modèles et à plus de 50% sans compensation du bruit. Les résultats de cette évaluation sont donnés sur le tableau 1. Si la compensation du canal de transmission n'est effectuée que lorsque le rapport S/B est inférieur à 25dB, un plus grand nombre de modèles phonétiques peuvent être utilisés pour les rapports S/B élevés, on obtient alors un taux d'erreur de 8,6% pour le microphone casque.

Références

(1) J.L. Gauvain, L. Lamel, M. Adda-Decker :"Developments in Large Vocabulary Dictation: The LIMSI Nov94 NAB System", ARPA SLS Technology Workshop, Jan. 1995.

(2) J.L. Gauvain, L.F. Lamel, G. Adda, D. Matrouf :"Developments in Continuous Speech Dictation using the 1995 ARPA NAB News Task", Proc. ICASSP-96.

Gpe Traitement du Langage Parlé

DptCHM

+ Sommaire

Présentation