Les modèles de langage, c'est-à-dire la composante du système de reconnaissance qui est en charge d'introduire les contraintes imposées par la syntaxe de la langue, sont fondés actuellement dans les systèmes de reconnaissance à grand vocabulaire les plus performants, sur une approche probabiliste, compatible en cela avec les autres composantes du système de reconnaissance.
Ces modèles de langage probabilistes reposent le plus souvent sur un paradigme empirique : une bonne estimation de la probabilité d'un événement linguistique peut-être obtenue en observant cet événement sur un corpus de texte de taille suffisante. Les nécessités induites par le processus de reconnaissance, conjuguées avec les capacités actuelles des analyseurs morpho-syntaxiques reposant sur une analyse structurelle de la phrase (capacités encore réduites sur des corpus généraux de grande taille), font que les modèles de langage ne prennent en compte que les contraintes locales de la syntaxe, par des modèles dits n-grammes, où l'on estime la probabilité d'une phrase à partir des probabilités conditionnelles d'apparition d'un mot ou d'une classe de mots, étant donnés les n-1 mots ou classes de mots précédants. Cette approche est particulièrement intéressante pour son efficacité et sa robustesse, mais est limitée à la modélisation des structures linguistiques locales.
Les différentes méthodes que nous avons mises en uvre pour regrouper les mots dans des classes sont statistiques et basées sur des textes non étiquetés. Les processus de regroupement sont locaux et fondés sur la fréquence d'apparition de paires de mots consécutifs dans ces textes, l'ordre des mots étant pris en compte. Deux estimateurs de la qualité du classement ont été utilisés, d'une part la perplexité d'un texte d'apprentissage, d'autre part une grandeur caractérisant la similarité entre les mots de ce texte.
Classement par minimisation de perplexité - Etant donné un modèle n-grammes de mots, la perplexité du texte d'apprentissage est l'inverse de la moyenne géométrique des probabilités conditionnelles d'ordre n des mots du texte. En regroupant les mots dans des classes, on augmente la perplexité; il s'agit alors de trouver le classement qui minimise l'écart entre cette valeur et la valeur référence donnée par le modèle à base de mots. Nous avons développé un algorithme de recherche aléatoire qui permet un classement efficace et rapide des mots : par exemple, le classement de 20000 mots de vocabulaire dans 1000 classes, est obtenu à partir d'un texte de trois cent millions de mots en quelques heures sur une station de travail. Ces classements permettent de créer des modèles de langage à base de classes en réduisant les interactions ``mot-mot'', soit à des interactions ``classe-classe'' soit à des interactions ``mot-classe'' soit à des interactions ``classe-mot''. Ce type de classement impose a priori le nombre de classes, l'optimum de ce nombre devant être cherché a posteriori. Les modèles issus de ces classements ont été récemment évalués dans le cadre de l'action de recherche concertée B1 AUPELF-UREF. Les résultats du système de reconnaissance dans lequel ce modèle a été incorporé ont été sensiblement améliorés. Un modèle à base de trigrammes de classes a été comparé en aveugle à d'autres modèles de langage construits par d'autres équipes (voir partie Evaluation).
Classement par similarité - L'autre critère de regroupement utilisé est basé sur l'identification pour chaque mot du vocabulaire, de mots qui lui sont similaires, au sens où ils partagent les mêmes contextes. Cet algorithme est plus adapté à des volumes de données plus réduits. Il a été appliqué avec succès à des transcriptions de dialogue. Un des avantages de cette méthode est que l'utilisation d'un seuil permet de ne regrouper que certains mots, de telle sorte que le modèle de langage induit, prend en compte directement (sans interpolation) des interactions de type variés entre les classes et les mots. Par ailleurs, le nombre de classes n'est pas imposé a priori, il découle simplement du seuil choisi.