APPRENTISSAGE DE MODÈLES DE LANGAGE MULTILINGUES

PAR CLASSIFICATION LEXICALE AUTOMATIQUE

_____________________

M. JARDINO, G. ADDA

Figure

Objet

Ce travail a pour but de construire des modèles de langage statistiques, de type "n-classes", à partir du classement automatique de mots non étiquetés. Le regroupement des mots est appris à partir d'un algorithme, qui permet de classer les mots de corpus de textes, selon leur contexte. Ainsi ont été classés sans connaissance à priori de la langue, de très grands corpus en anglais, français et allemand.

Contenu

Les mots sont classés suivant leur contexte droit et gauche, à partir de textes non décorés. Le critère de classement est la perplexité du texte, qui représente la probabilité de ce texte pour un modèle de langage donné [1].

Si l'on regroupe les mots dans des classes, la perplexité du texte augmente et dépend du nombre de classes et de la répartition des mots dans ces classes. Il s'agit alors de trouver la répartition donnant la perplexité la plus basse possible, pour un nombre de classes donné. Nous résolvons ce problème avec l'heuristique du recuit simulé (1). Cet algorithme permet d'atteindre un minimum global, indépendamment des conditions initiales. La figure 1 illustre ce processus d'apprentissage. Le nombre optimal de classes est déterminé dans une deuxième étape, en comparant les perplexités d'un texte test, pour différents classements et pour des modèles "bi-classes" et "tri-classes".

La méthode étant générale, d'autres types de classement sont possibles, avec des entités et des portées différentes. Par exemple nous avons commencé le classement de mots autour de mots-cibles avec des portées différentes. On peut également envisager le classement d'autres entités que les mots, par exemple des successions de mots.

La construction de modèles de langage de type "n-classes" robustes, par des techniques ne nécessitant aucun étiquetage de texte, est une étape dans l'inférence des grammaires probabilistes. Nous envisageons d'utiliser ces techniques pour inférer une grammaire probabiliste dans le cadre de l'interrogation de bases de données de renseignements.

Situation

Nous avons réalisé les classements de textes issus de journaux, pour différentes langues, avec des corpus de tailles de plus de trente millions de mots (2). Le temps de calcul est raisonnable: 3 heures sur une station de travail, pour classer 20 000 mots différents, correspondant à 2 millions de paires de mots consécutifs. Le classement obtenu dépend à la fois des contextes immédiats, droit et gauche, de chaque mot; ainsi on distingue des classes comprenant des mots-outils, des classes syntaxiques, des classes sémantiques, des classes mixtes (3). Les classes dépendent du texte appris: par exemple comme les textes utilisés proviennent de journaux, il n'est pas étonnant de trouver des classes regroupant les noms de pays, les noms de chefs d'état, des adjectifs masculin singulier relatifs à des pays, etc...

Le tableau 1 rassemble les résultats des tests pour différents nombres de classes. La dernière ligne, qui correspond à un nombre de classes égale à la taille du vocabulaire, donne les perplexités des modèles "bi-mots" et "tri-mots" de référence. Ainsi l'on peut constater qu'avec des textes d'apprentissage de 30 millions de mots, un modèle basé sur les probabilités de succession de trois classes est plus performant qu'un modèle bâti directement sur les probabilités de succession de trois mots.

Références

(1) M. Jardino, G. Adda "Automatic word classification using simulated annealing", ICASSP'93.

(2) M. Jardino, "Multilingual stochastic n-gram class language models", ICASSP'96.

(3) M. Jardino, G. Adda, "Automatic determination of a stochastic bi-gram class language model", ICGI'94.


[1] Une perplexité de 100 pour un texte, signifie qu'en moyenne, d'après le modèle de langage, chaque mot du texte peut être suivi par 100 mots différents

Gpe Traitement du Langage Parlé

DptCHM

+ Sommaire

Présentation