_____________________
C. Beaujard , M. Jardino
Objet
Ce travail concerne les modèles de langage pour la reconnaissance de la parole dans le cadre de dialogue Homme/Machine. L'étude consiste à modifier la liste des mots du vocabulaire en construisant automatiquement des mots composés de taille variable.
Description
L'ajout de mots composés dans le vocabulaire du modèle de langage aide la reconnaissance de la parole de deux manières. D'une part, les mots composés permettent de prédire des mots avec une histoire de portée plus grande que celle des modèles n-grammes de mots tout en conservant une structure n-gramme. D'autre part, les mots composés peuvent être prédits comme tous les autres mots du vocabulaire. Il existe déjà des algorithmes basés sur des statistiques et créant des mots composés. Certains considèrent l'information mutuelle et d'autres se fondent sur la fréquence des mots créés. Ici, nous présentons trois méthodes indépendantes qui construisent des mots composés de taille variable en considérant des probabilités conditionnelles : la probabilité conditionnelle d'un mot connaisant le mot précédent, <<probabilité gauche>>, la probabilité conditionnelle d'un mot connaissant le mot suivant, <<probabilité droite>>, et l'exponentielle normalisée de l'information mutuelle, <<probabilité mutuelle>>. Les mots composés sont créés lorsque la probabilité considérée est plus grande qu'un seuil fixé a priori, et si la log-vraisemblance du texte d'apprentissage n'augmente pas en concaténant les mots. Les mots composés sont créés, soit à partir de mots, soit à partir de mots composés. La taille maximale des mots composés n'est donc pas fixée a priori. Elle est le résultat de l'algorithme.
Résultats et perspectives
Les probabilités des modèles ont été estimées à partir de 46810 phrases provenant du corpus MASK (Multimodal-multimedia Automated Service Kiosk). Chacune correspond à une requête concernant les informations et les services ferroviaires en France. Les seuils des critères de concaténation ont été déterminés à partir de 1814 autres phrases. Chaque modèle a ensuite été évalué sur 1789 phrases. Les modèles de langage sont des modèles standards bigrammes de mots dont le vocabulaire contient à la fois les mots du vocabulaire initial et les mots composés. Les modèles ont été comparés au modèle dont le vocabulaire contient des mots composés créés suivant leur fréquence et au modèle de référence, bigramme de mots, construit avec le vocabulaire initial. La figure 1 montre que les méthodes de concaténation conduisent à des comportements similaires suivant les variations des seuils. La décroissance représente la balance entre la perplexité et la couverture en bigrammes des modèles. La plus grande pente est obtenue avec le modèle fondé sur la <<probabilité gauche>>. Ce modèle fournit les meilleurs taux de reconnaissance sur les données de développement (tableau 1). Du point de vue de la taille des mots composés, le tableau 2 montre les nombres de mots créés et observés dans le texte de développement en fonction de leur taille. Au moins 10% des mots sont composés de plus de deux mots et plus de 50% sont observés dans le développement. Voici quelques exemples de mots composés obtenus avec l'algorithme de <<probabilité gauche>> : quel-est-le-prix, cherche-un-train et un-aller-simple. L'évaluation des modèles de langage montre que le meilleur taux d'erreur sur les mots est obtenu avec le modèle basé sur la <<probabilité gauche>>, c'est-à-dire dans le sens de prédiction des mots. Le gain relatif ainsi obtenu est de 1,6%. Cette approche pourrait être appliquée à la reconnaissance de grand vocabulaire. Comme elle accroît la portée de l'histoire d'un mot tout en conservant la structure du n-gramme, on peut s'attendre à obtenir de meilleures performances qu'avec un modèle sans concaténation.
Références
[1] C. Beaujard and M. Jardino : << Language Modelling Based on Automatic Word Concatenations >>, E UROSPEECH'99, Budapest (Hongrie).
[2] C. Beaujard : << Modèles de langage fondés sur des classes et des
concaténations de mots pour la reconnaissance de la parole
dans des système de dialogue Homme/Machine >>, thèse de doctorat,
2000.
Gpe Traitement du Langage Parlé |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|