La modélisation lexicale consiste à définir un vocabulaire de reconnaissance et à associer une ou plusieurs transcriptions phonétiques à chaque entrée lexicale. D'autres informations souvent incluses dans les lexiques sont des catégories grammaticales et des marqueurs de coarticulation tels que schwas optionnels et liaisons en français, la palatalisation en anglais, et le coup de glotte en allemand. Le choix des unités lexicales (effectué en collaboration étroite avec les activités du thème 3) repose sur différents critères : les unités doivent pouvoir être extraites automatiquement à partir de corpus de textes ou de parole transcrite ; pour une taille de lexique donnée, le choix des unités doit optimiser le taux de couverture pour la langue ou le langage de l'application considérée ; la définition d'unité peut donc être plus ou moins difficile suivant les textes (ponctuations, sigles, différenciation majuscules/minuscules, ...) et la langue traitée. En français, l'apostrophe peut être interne à l'unité lexicale (par exemple aujourd'hui, quelqu'un) mais le plus souvent elle indique une frontière de mots. En allemand le phénomène commun de composition de mots (par exemple Kreisvolkshochschule, qui se décompose de la façon suivante Kreis+Volks+Hoch+Schule, signifie ``Ecole régionale de formation pour adultes'') conduit à un taux de couverture lexical plus petit pour une taille de vocabulaire identique. Cet exemple montre que les critères d'extraction automatique et de couverture sont difficiles à optimiser simultanément.
Les unités lexicales sont reliées à la représentation acoustique au moyen de séquences d'unités élémentaires permettant de décrire les sons d'une langue donnée. Différents facteurs doivent être considérés pour déterminer cette représentation. Une représentation phonémique est intuitivement satisfaisante puisque les unités phonémiques sont les unités définies et utilisées par les phonéticiens pour décrire les différentes langues. Ces unités, qui sont bien définies et documentées, ont été choisies pour représenter les prononciations de base dans nos lexiques. Pour obtenir des modèles acoustiques plus précis, on peut aussi considérer l'utilisation d'une représentation phonétique ou allophonique; cependant la pratique communément retenue d'étendre les modèles de phones à des phones en contexte permet de représenter implicitement de telles variantes allophoniques.
Les transcriptions phonémiques peuvent être obtenues de différentes façons. Si on dispose déjà d'un lexique de taille suffisante contenant des prononciations de bonne qualité, une procédure semi-automatique peut être utilisée pour ajouter les prononciations de nouveaux mots. Cette procédure est cependant très fastidieuse si le vocabulaire de l'application contient quelques dizaines de milliers de mots. Une alternative est l'utilisation de systèmes de conversion graphème-phonème. Ces systèmes produisent généralement une prononciation standard à partir de laquelle des variantes peuvent être automatiquement générées au moyen de règles. Une autre approche, que nous avons explorée, repose sur une modélisation statistique du processus de conversion phonème-graphème par des modèles de Markov cachés discrets. L'avantage d'une telle approche réside dans sa rapidité de mise en oeuvre pour une nouvelle langue, à condition que des corpus d'apprentissage appropriés soient disponibles. Nous avons ainsi pu utiliser un tel système graphème-phonème allemand, pour initialiser les transcriptions phonétiques lors de l'extension de notre lexique de 64k mots. Les listes des prononciations générées automatiquement doivent cependant être vérifiées et complétées manuellement.
Nous utilisons à la fois des transcriptions multiples et des règles phonologiques qui permettent de représenter des phénomèmes qui ne peuvent être pris en compte de manière implicite dans les modèles acoustiques, tels que les variantes dialectales, les variantes rythmiques et les phénomènes de réduction de groupes consonantiques à la frontière de mots. Le e-muet et les liaisons en français, ainsi que le coup de glotte en allemand sont également représentés de manière explicite. Les prononciations proposées sont validées sur des grands corpus de parole. Nous avons construit des dictionnaires de prononciation pour l'anglais-américain, le français et l'allemand contenant plus de 80 000 mots. Grâce à l'amélioration de la qualité des transcriptions phonétiques nous avons pu mesurer des gains relatifs de 5% sur les taux d'erreur. La qualité des lexiques, développés au LIMSI pour l'anglais américain et utilisés pour les évaluations organisées par DARPA sur les tâches Wall Street Journal et Broadcast News, a été reconnue par les autres laboratoires qui ont pu utiliser nos lexiques.