Modèles de langage probabilistes

Les modèles de langage, c'est-à-dire la composante du système de reconnaissance qui est en charge d'introduire les contraintes imposées par la syntaxe de la langue, sont fondés actuellement dans les systèmes de reconnaissance à grand vocabulaire les plus performants, sur une approche probabiliste, compatible en cela avec les autres composantes du système de reconnaissance.

Ces modèles de langage probabilistes reposent le plus souvent sur un paradigme empirique : une bonne estimation de la probabilité d'un événement linguistique peut-être obtenue en observant cet événement sur un corpus de texte de taille suffisante. Les nécessités induites par le processus de reconnaissance, conjuguées avec les capacités actuelles des analyseurs morpho-syntaxiques reposant sur une analyse structurelle de la phrase (capacités encore réduites sur des corpus généraux de grande taille), font que les modèles de langage ne prennent en compte que les contraintes locales de la syntaxe, par des modèles dits n-grammes, où l'on estime la probabilité d'une phrase à partir des probabilités conditionnelles d'apparition d'un mot ou d'une classe de mots, étant donnés les n-1 mots ou classes de mots précédants. Cette approche est particulièrement intéressante pour son efficacité et sa robustesse, mais est limitée à la modélisation des structures linguistiques locales.