Aspects multilingues

Notre recherche est réalisée dans un cadre multilingue. Nous avons adapté nos systèmes développés pour le français et l'anglais américain à l'anglais britannique et l'allemand. Ce travail nécessite, pour chaque nouvelle langue à modéliser, des corpus de textes et de parole appropriés et un lexique de prononciation. L'étude conjointe des différentes langues nous a permis en particulier de mettre en évidence le problème de la modélisation des différents types de coarticulation entre les mots. En français, le phénomène de liaison tend à éviter les jonctions voyelle-voyelle à la frontière de mots et contribue à sa structure syllabique liée. En allemand, il est commun de précéder la voyelle d'un début de mot ou de morphème par un coup de glotte, ce qui contribue au caractère rythmique saccadé de cette langue.

Les modèles acoustiques utilisés pour la reconnaissance de la parole peuvent également être utilisés pour l'identification de la langue. L'identification de la langue à partir d'un signal consiste à évaluer la probabilité d'observation de ce signal pour les différents ensembles de modèles décrivant les différentes langues ; l'identité proposée est celle associée à l'ensemble de modèles pour lequel la probabilité du signal observé est la plus élevée.

Nous avons exploré différentes approches fondées sur des modèles acoustiques de phones (modèles de Markov cachés) associés à des modèles de Markov (bigrammes) de contraintes phonotactiques. Alors que les modèles des contraintes phonotactiques sont toujours spécifiques à chaque langue, les modèles acoustiques de phones peuvent être dépendant de la langue à identifier ou bien correspondre à un ensemble d'unités communes aux différentes langues. La dernière approche est plus économique à mettre en oeuvre et plus facile à adapter à une nouvelle langue. L'ensemble de phones commun est obtenu par un algorithme de clustering hiérarchique à partir de l'union des modèles de phones des différentes langues. Les classes de phones résultants correspondent à une réalité linguistique, dans la mesure ou les mêmes phonèmes des différentes langues se groupent rapidement ensemble. En identification de la langue les résultats obtenus avec les modèles acoustiques dépendant ou indépendant de la langue sont tout à fait comparables.