La modélisation acoustico-phonétique concerne l'articulation entre une représentation symbolique et le signal acoustique. Plus les modèles acoustiques sont précis, plus les performances du système de reconnaissance sont élevées (taux de reconnaissance et vitesse de décodage).
Les recherches en modélisation acoustico-phonétique consistent à explorer différents types de modèles et à évaluer leur capacité à représenter la variabilité inhérente au signal de parole. Nous utilisons une approche statistique classique, où chaque modèle phonémique est une source de Markov cachée avec des densités d'observation multi-gaussiennes. Dans ce cadre, les sources de variabilité acoustique sont modélisées de différentes manières. Pour les phénomènes de coarticulation entre phonèmes consécutifs nous utilisons des modèles de phones en contexte (triphones et diphones). La variabilité spectrale d'une même chaîne phonémique due à différents locuteurs ou aux conditions d'enregistrement est généralement représentée par un mélange de densités de probabilité (multigaussiennes) sur l'espace des variables acoustiques. Les variations dans le rythme d'élocution sont partiellement prises en compte en modélisant chaque phone (ou phone en contexte) par une chaîne de Markov.
Un de nos objectifs est de mettre en évidence les principaux phénomènes de variabilité d'élocution et d'en accroître notre compréhension. Nous appuyons nos recherches sur de très grands corpus de parole permettant d'évaluer constamment notre capacité à modéliser le spectre des variantes allophoniques recontrées dans de tels corpus. Alors que la variabilité phonologique est prise en compte au niveau du mot par l'utilisation de transcriptions multiples dans le lexique ou de règles phonologiques, d'autres phénomènes tels que la réduction consonantique à la frontière de mots (orches' de chambre pour orchestre de chambre), ou la réduction syllabique qui peut affecter plusieurs phonèmes consécutifs et chevaucher plusieurs mots courts ( ch'ais pas pour je ne sais pas), sont plus difficiles à traiter de la même manière. La variabilité due à un débit d'élocution rapide est actuellement la moins bien prise en compte. Des directions possibles de recherche sont l'utilisation de différentes unités acoustico-phonétiques, l'utilisation de différentes entrées lexicales associées à des mots composés, et l'utilisation de règles phonologiques spécifiques à ces problèmes de réduction.
Dans le cadre de nos travaux sur les systèmes de compréhension et de dialogue, où les utilisateurs interagissent avec la machine pour résoudre un problème de recherche d'information, nous étudions les spécificités de la parole spontanée. Aux sources de variabilité mentionnées plus haut, viennent s'ajouter des hésitations, des bruits de respiration, des fragment de mots, avec d'importantes variations de durée à l'intérieur d'une même phrase (emphases, pauses, hésitations). Des modèles acoustiques spécifiques ont été inclus pour tenir compte des respirations et hésitations dans la parole spontanée. Ces modèles peuvent être considérés comme homogènes au modèle de silence utilisé dans les systèmes de parole lue, dans la mesure où ils viennent compléter la modélisation du signal acoustique ne correspondant pas à des entités lexicales. Des avancées en modélisation de la prosodie (étudiée dans le thème 1) pourront contribuer à améliorer la modélisation acoustico-phonétique et apporter une information complémentaire à la compréhension de la parole spontanée.
Au-delà des considérations de modélisation acoustique, la parole spontanée requiert également une adaptation du lexique et des modèles de langage pour prendre en compte des spécificités de la syntaxe de l'oral étudiée dans le thème 3.