next up previous
Next: Corpus et évaluation Up: No Title Previous: Modélisation lexicale

Aspects multilingues

Dans un cadre multilingue nous travaillons sur la modélisation d'enregistrements radio et télédiffusés en français, anglais, allemand et plus récemment en mandarin. Le cadre multilingue permet de valider la généricité des hypothèses et des approches de modélisation. Une des parties les plus sensibles au changement de langue concerne le dictionnaire de prononciation. Pour l'allemand nous avons continué le développement d'un système de conversion graphème-phonème permettant l'extension rapide du dictionnaire de prononciation à de nouvelles entrées lexicales. Nous avons engagé des travaux sur la décomposition de mots afin d'améliorer la conversion graphème-phonème et la couverture lexicale, qui est significativement plus faible en allemand qu'en français ou en anglais. En mandarin, le vocabulaire comprend un mélange de mots et de caractères syllabiques permettant une couverture presque totale de la langue, et 3 niveaux de tons sont représentés dans le lexique phonétique.

Pour l'identification automatique de la langue, des modèles acoustiques dépendants et indépendants de la langue ont été testés. Des travaux visant à intégrer dans le modèle phonotactique les mots les plus fréquents de chaque langue ont été menés en collaboration avec le LIA d'Avignon. Une étude de l'influence de l'accent étranger sur l'identification de la langue a fait l'objet d'un stage de DEA et une thèse a démarré en collaboration avec la DGA.

THÈME 3 - MODÉLISATION LINGUISTIQUE G. Adda, M. JardinoC. Beaujard, L. Chen, J.L. Gauvain, L. Lamel, R. Lejeune, J. Mariani, M. Maties, Y. Quintin de Kercadio, P. Paroubek

Dans ce thème, à la frontière entre le traitement de l'écrit et celui de l'oral, nous développons des méthodes et des outils de modélisation de la langue, en vue d'une utilisation dans des systèmes de reconnaissance de la parole.

Les modèles de langage utilisés les plus fréquemment dans les systèmes de reconnaissance sont des modèles probabilistes, estimés à partir de statistiques obtenues sur des textes. Ces textes proviennent en grande partie d'articles de journaux mais aussi de transcriptions manuelles de parole. Lorsque les données sont de taille suffisante, ce genre de modèle permet de capturer efficacement à la fois des contraintes syntaxiques et sémantiques du langage. De plus ces modèles sont complétés par une méthode d'inférence des données manquantes particulièrement judicieuse.


next up previous
Next: Corpus et évaluation Up: No Title Previous: Modélisation lexicale
rapporta
2000-06-30