_____________________
Objet
Les systèmes de reconnaissance de la parole utilisent couramment des modèles de langage probabilistes de type n-grammes de mots. Ces modèles sont parfois améliorés en y rajoutant des classes obtenues manuellement. Ici, nous proposons de créer des classes de mots automatiquement par quatre méthodes différentes, et d'évaluer ces modèles en terme de taux de reconnaissance des mots porteurs de sens pour une tâche de demande d'information.
Description
Notre approche a pour but d'améliorer les performances des systèmes de reconnaissance. On s'intéresse aux interactions entre mots adjacents. Le premier modèle de langage classe automatiquement les mots en fonction de leur de similarité. On considère les contextes de chaque mot du vocabulaire comme les ensembles des mots qui le précèdent (à gauche) et qui le suivent (à droite) dans le texte d'apprentissage. Pour classer deux mots, on compare leurs contextes en sélectionnant les ensembles de contextes gauches et droits en commun des deux mots. Si la somme des probabilités conditionnelles des bigrammes, sur ces ensembles, est supérieure à une valeur seuil, les deux mots sont regroupés dans la même classe. A la fin de la classification, il y a typiquement 11% de mots classés dans 31 classes. Le modèle de langage construit à partir de ce classement est donc mixte, il est formé à la fois de mots et de classes. Les trois autres modèles sont obtenus avec des classements automatiques basés sur la notion de minimum de perplexité du texte d'apprentissage et imposent le classement de tous les mots dans 150 classes, sachant qu'un mot peut être seul dans sa classe. On distingue un regroupement des mots suivant leurs contextes droits (modèle classe-mot), un regroupement des mots selon leurs contextes gauches (modèle mot-classe), et un classement selon leurs contextes gauches et droits (modèle classe-classe).
Résultats et perspectives
Les modèles ont été entrainés sur 46 810 phrases provenant du corpus
MASK, correspondant à une tâche de dialogue informant les voyageurs sur les
prestations et services des trains. Ils ont ensuite été évalués en termes de
taux de reconnaissance et de perplexité sur 1 789 autres phrases de parole
spontanée et leurs transcriptions. Les tests ont été effectués dans les mêmes
conditions avec des modèles accoustiques indépendants du contexte.
La Figure 1 présente l'évolution des taux d'erreurs de reconnaissance et
celle de la perplexité en fonction des modèles de langage. La comparaison
montre que la perplexité suit le taux de reconnaissance. Les meilleurs
résultats sont obtenus avec le modèle de bigrammes de mots, mais les
différences avec les résultats des trois autres modèles ne sont pas élevées.
On a étudié plus en détails les résultats en comparant les taux de
reconnaissance de mots porteurs de sens pour la tâche de dialogue.
La Figure 2 donne les taux de reconnaissance obtenus sur des catégories
sémantiques importantes pour la tâche, tels que les villes, les mois,
les jours et les chiffres. Il est intéressant de constater que si le
modèle de bigrammes de mots minore le taux global d'erreur de reconnaissance,
ce n'est pas le cas pour les mots porteurs de sens. Le modèle reconnaissant
le mieux les quatre catégories de mots retenues est le modèle mot-classe qui
en améliore la reconnaissance avec un gain de 4% par rapport au modèle
bigrammes de mots. Il se distingue notamment dans la reconnaissance des
jours.
Il serait intéressant de poursuivre cette étude en évaluant ces modèles sur
les schémas sémantiques généraux produits par le module de compréhension.
Référence
[1] C. Beaujard, M. Jardino et H. Bonneau-Maynard : <<Evaluation of a Class-based Language Model in a Speech Recognizer>>, SPECOM'97, Cluj-Napoca (Roumanie)
Gpe Traitement du Langage Parlé |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|