Une méthode d'inférence des données manquantes est de généraliser les
données observées, par exemple en regroupant les mots dans des classes
ce qui permet d'inférer des successions non directement observées,
mais rendues possibles par association.
Les différentes méthodes que nous avons mises en uvre pour
regrouper les mots dans des classes sont statistiques et utilisent des
textes non étiquetés. Le processus de regroupement est local et fondé
sur la fréquence d'apparition de paires de mots consécutifs dans ces
textes, l'ordre des mots étant pris en compte. Deux estimateurs de la
qualité du classement ont été utilisés, d'une part la perplexité d'un
texte d'apprentissage, d'autre part une grandeur caractérisant la
similarité entre les mots de ce texte.
Le premier critère a été évalué dans le cadre de la transcription
d'émissions télévisées en anglais américain (évaluation ARPA HUB4).
La perplexité du texte d'apprentissage est l'inverse de la moyenne
géométrique des probabilités conditionnelles des mots du texte. En
regroupant les mots dans des classes, on augmente la perplexité, il
s'agit alors de trouver le classement qui minimise l'écart entre cette
valeur et la valeur référence donnée par le modèle à base de mots.
Des modèles trigrammes de classes ont été créés et combinés à des
modèles n-grammes de mots. Les améliorations apportées au système de
reconnaissance de l'anglais, quoique significatives, ont été assez
faibles, les modèles n-grammes étant déjà proprement estimés.
Le critère de similarité, plus adapté à des volumes de données plus
réduits, a été appliqué avec succès à des transcriptions de
dialogue. Un des avantages de cette méthode est l'utilisation d'un
seuil qui permet de ne regrouper que certains mots, de telle sorte que
le modèle de langage induit prend en compte directement (sans
interpolation) des interactions de type varié entre les classes et les
mots.