Combinaison de systèmes de reconnaissance de la parole continue : étude de l'importance d'un modèle de langage

Combinaison de systèmes de reconnaissance de la parole continue : étude de l'importance d'un modèle de langage

_____________________

Objet

La combinaison de systèmes de reconnaissance est un sujet de recherche très actuel dans plusieurs domaines applicatifs. Le but de ce travail est l'évaluation et l'amélioration d'une approche récemment proposée pour combiner plusieurs systèmes de reconnaissance de la parole continue. Nous proposons en particulier d'exploiter les informations d'un modèle de langage durant le processus de combinaison.

Description

En 1997 NIST a proposé une approche appelée ROVER pour combiner les transcriptions produites par plusieurs systèmes de reconnaissance de la parole continue [1]. Cette approche a permis d'obtenir une réduction du taux d'erreur de l'ordre de 20% relatif en combinant les systèmes de reconnaissance qui avaient participé aux évaluations Broadcast News de DARPA de 1998 et 1999, et qui peuvent être considérés comme représentant l'état de l'art en reconnaissance de la parole continue grand vocabulaire. Actuellement, ROVER suscite beaucoup d'intérêt de la part de la communauté scientifique, mais les fondements théoriques et les champs d'application sont encore mal connus.

La combinaison se fait en deux étapes : d'abord les transcriptions de plusieurs systèmes de reconnaissance sont alignées et un graphe représentant la suite de tous les mots possibles est créé. Ensuite le mot le plus fréquent est sélectionné séparément pour chaque noeud. Le processus de décision de l'algorithme original ne considère donc à aucun moment des informations sur le contexte dans lequel le mot se trouve. Nous avons étudié si l'utilisation d'un modèle de langage basé sur des trigrammes ³ permettait d'améliorer le choix des mots. Afin de limiter la complexité de calcul dans un premier temps, le graphe des transcriptions alignées est d'abord simplifié en choisissant le mot le plus probable à chaque noeud, mais en gardant les mots équifréquents. Ensuite, le modèle de langage est utilisé pour déterminer la suite de mots de perplexité minimale (voir figure 2).

D'autres améliorations ont porté sur le nombre de systèmes à combiner et sur leur ordre en fonction de leurs performances évaluées sur une base de validation. La normalisation des mots à une forme unique, telle que afterall $\rightarrow$ after all ou cannot $\rightarrow$ can not, avant l'alignement vise à améliorer la mise en correspondance des réponses des différents systèmes.

Résultats et perspectives

Les résultats principaux de l'étude sont : 1/ il convient de combiner les systèmes de reconnaissance dans l'ordre de leur performances et l'ajout de systèmes peu performants peut augmenter le taux d'erreur; 2/ il est avantageux de normaliser les transcriptions avant la combinaison; 3/ l'utilisation d'un modèle de langage peut apporter des améliorations significatives, surtout lorsque peu de systèmes de reconnaissance sont combinés.

Les expériences ont montré que les différentes modifications de l'algorithme de référence ROVER permettent de réduire le taux d'erreur dans plusieurs cas (voir figure 1). Des recherches sur l'utilisation d'un modèle de langage et d'autres sources d'informations complémentaires pour le processus de décision entier sont en cours.

Références

[1] J.G. Ficus : ``A post-processing system to yield reduced error word rates: Recognizer output voting error reduction (ROVER)''. IEEE Workshop on Automatic Speech Recognition and Understanding, pages 347-354, 1997.
[2] H. Schwenk, J.L. Gauvain : ``Analysis and Improvement of ROVER'', workshop Learning 2000, Snowbird, Utah, avril 2000.
______________________
³nous avons utilisé le modèle de langage standard du LIMSI développé sur les évaluations DARPA.

Gpe Traitement du Langage Parlé

Dpt CHM

Sommaire

Présentation