La modélisation lexicale consiste à définir un vocabulaire de reconnaissance et à associer une ou plusieurs transcriptions phonémiques à chaque entrée lexicale. Le choix des unités lexicales (en collaboration avec le thème 3) repose sur différents critères : les unités doivent pouvoir être extraites automatiquement à partir de corpus de textes ou de parole transcrite; pour une taille de lexique donnée, le choix des unités doit optimiser le taux de couverture pour la langue ou le langage de l'application considérée. La définition d'unité peut donc être plus ou moins difficile suivant les textes (ponctuations, sigles, différenciation majuscules/minuscules, ...) et la langue traitée. La définition d'unité lexicale peut également être motivée par les prononciations observées. Une suite de mots peut être regroupée en une seule entrée lexicale si elle admet de fortes réductions de prononciation.
Les modèles acoustiques des entrées lexicales sont obtenus par concaténation des modèles de phones suivant la ou les prononciations permises par le dictionnaire de prononciation. Le dictionnaire de prononciation permet d'expliciter des variantes non représentées implicitement dans les modèles. Une question, qui reste posée dans la communauté scientifique, concerne l'adjonction de variantes de prononciations dans le dictionnaire de prononciation. Quelles variantes ajouter? Lesquelles omettre? Ajouter un grand nombre de variantes sans pondération par leur fréquence d'observation nuit aux performances de reconnaissance. Pour mesurer l'occurrence de variantes dans de grands corpus nous avons fait des études d'alignement automatique de textes lus et de parole spontanée utilisant des dictionnaires à fort taux de variantes. Toutes les configurations testées en anglais et en français, avec des modèles acoustiques indépendants et dépendants du contexte, ont montré que le besoin en variantes dépend de la configuration du système et qu'il décroît significativement avec une précision accrue des modèles. Un système d'alignement peut cependant servir d'outil à l'analyse linguistique de grands corpus de parole et contribuer ainsi à accroître nos connaissances concernant le langage parlé, en particulier les variantes associées aux différents styles d'élocution, les phénomènes d'hésitations, les accents... Ainsi nous avons étudié quantitativement l'apparition du schwa et des liaisons pour des dizaines d'heures de parole ``lue''( BREF) et spontanée ( MASK).