Modèles de Langage à Base de Classes et de Mots pour la Reconnaissance de la Parole

_____________________

C. Beaujard, M. Jardino, H. Bonneau-Maynard

Figure

Objet

Les systèmes de reconnaissance de la parole utilisent couramment des modèles de langage probabilistes de type n-grammes de mots. Ces modèles sont parfois améliorés en y rajoutant des classes obtenues manuellement. Ici, nous proposons de créer des classes de mots automatiquement par quatre méthodes différentes, et d'évaluer ces modèles en terme de taux de reconnaissance des mots porteurs de sens pour une tâche de demande d'information.

Description

Notre approche a pour but d'améliorer les performances des systèmes de reconnaissance. On s'intéresse aux interactions entre mots adjacents. Le premier modèle de langage classe automatiquement les mots en fonction de leur de similarité. On considère les contextes de chaque mot du vocabulaire comme les ensembles des mots qui le précèdent (à gauche) et qui le suivent (à droite) dans le texte d'apprentissage. Pour classer deux mots, on compare leurs contextes en sélectionnant les ensembles de contextes gauches et droits en commun des deux mots. Si la somme des probabilités conditionnelles des bigrammes, sur ces ensembles, est supérieure à une valeur seuil, les deux mots sont regroupés dans la même classe. A la fin de la classification, il y a typiquement 11% de mots classés dans 31 classes. Le modèle de langage construit à partir de ce classement est donc mixte, il est formé à la fois de mots et de classes. Les trois autres modèles sont obtenus avec des classements automatiques basés sur la notion de minimum de perplexité du texte d'apprentissage et imposent le classement de tous les mots dans 150 classes, sachant qu'un mot peut être seul dans sa classe. On distingue un regroupement des mots suivant leurs contextes droits (modèle classe-mot), un regroupement des mots selon leurs contextes gauches (modèle mot-classe), et un classement selon leurs contextes gauches et droits (modèle classe-classe).

Résultats et perspectives

Les modèles ont été entrainés sur 46 810 phrases provenant du corpus MASK, correspondant à une tâche de dialogue informant les voyageurs sur les prestations et services des trains. Ils ont ensuite été évalués en termes de taux de reconnaissance et de perplexité sur 1 789 autres phrases de parole spontanée et leurs transcriptions. Les tests ont été effectués dans les mêmes conditions avec des modèles accoustiques indépendants du contexte.
La Figure 1 présente l'évolution des taux d'erreurs de reconnaissance et celle de la perplexité en fonction des modèles de langage. La comparaison montre que la perplexité suit le taux de reconnaissance. Les meilleurs résultats sont obtenus avec le modèle de bigrammes de mots, mais les différences avec les résultats des trois autres modèles ne sont pas élevées.
On a étudié plus en détails les résultats en comparant les taux de reconnaissance de mots porteurs de sens pour la tâche de dialogue. La Figure 2 donne les taux de reconnaissance obtenus sur des catégories sémantiques importantes pour la tâche, tels que les villes, les mois, les jours et les chiffres. Il est intéressant de constater que si le modèle de bigrammes de mots minore le taux global d'erreur de reconnaissance, ce n'est pas le cas pour les mots porteurs de sens. Le modèle reconnaissant le mieux les quatre catégories de mots retenues est le modèle mot-classe qui en améliore la reconnaissance avec un gain de 4% par rapport au modèle bigrammes de mots. Il se distingue notamment dans la reconnaissance des jours.
Il serait intéressant de poursuivre cette étude en évaluant ces modèles sur les schémas sémantiques généraux produits par le module de compréhension.

Référence

[1] C. Beaujard, M. Jardino et H. Bonneau-Maynard : <<Evaluation of a Class-based Language Model in a Speech Recognizer>>, SPECOM'97, Cluj-Napoca (Roumanie)

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation