next up previous
Next: Indexation sémantique Up: No Title Previous: Corpus et évaluation

Modèles n-grammes

Les modèles de langage les plus performants à ce jour dans les systèmes de reconnaissance de la parole, sont des modèles n-grammes, qui prédisent un mot connaissant les n-1 mots précédents, les valeurs de n=3 ou 4 assurant une très bonne prédiction dans la majorité des cas. On peut, pour n fixé, augmenter la portée de la prédiction en créant des mots nouveaux qui résultent de la concaténation de mots très fortement liés dans le texte. Différents critères de concaténation ont été utilisés pour effectuer ces regroupements et appliqués à un corpus de dialogue oral ayant un vocabulaire de 1500 mots. L'évaluation montre que les performances de reconnaissance sont très légèrement améliorées lorsque l'on passe d'un modèle bigramme de mots à un bigramme de mots en partie concaténés.

Une méthode d'inférence des données manquantes est de généraliser les données observées, par exemple en regroupant les mots dans des classes ce qui permet d'inférer des successions non directement observées, mais rendues possibles par association. Les différentes méthodes que nous avons mises en \oeuvre pour regrouper les mots dans des classes sont statistiques et utilisent des textes non étiquetés. Le processus de regroupement est local et fondé sur la fréquence d'apparition de paires de mots consécutifs dans ces textes, l'ordre des mots étant pris en compte. Deux estimateurs de la qualité du classement ont été utilisés, d'une part la perplexité d'un texte d'apprentissage, d'autre part une grandeur caractérisant la similarité entre les mots de ce texte.
Le premier critère a été évalué dans le cadre de la transcription d'émissions télévisées en anglais américain (évaluation ARPA HUB4). La perplexité du texte d'apprentissage est l'inverse de la moyenne géométrique des probabilités conditionnelles des mots du texte. En regroupant les mots dans des classes, on augmente la perplexité, il s'agit alors de trouver le classement qui minimise l'écart entre cette valeur et la valeur référence donnée par le modèle à base de mots. Des modèles trigrammes de classes ont été créés et combinés à des modèles n-grammes de mots. Les améliorations apportées au système de reconnaissance de l'anglais, quoique significatives, ont été assez faibles, les modèles n-grammes étant déjà proprement estimés.
Le critère de similarité, plus adapté à des volumes de données plus réduits, a été appliqué avec succès à des transcriptions de dialogue. Un des avantages de cette méthode est l'utilisation d'un seuil qui permet de ne regrouper que certains mots, de telle sorte que le modèle de langage induit prend en compte directement (sans interpolation) des interactions de type varié entre les classes et les mots.


next up previous
Next: Indexation sémantique Up: No Title Previous: Corpus et évaluation
rapporta
2000-06-30