Identification automatique de la langue par téléphone

_____________________

D. Matrouf, M. Adda-Decker, J.-L. Gauvain, L. Lamel, G. Adda, P. Boula de Mareüil, J.-J. Gangolf

Figure

Objet

Le but de ce travail est de développer et d'évaluer des modèles pour la reconnaissance automatique de la langue par téléphone. Une partie de ces études a été effectuée dans le cadre d'une convention LIMSI/DGA.

Description

Un système d'identification de la langue peut exploiter différents types d'informations afin de caractériser chaque langue: acoustique, phonétique, phonotactique, lexicale... Pour chaque niveau d'information modélisée, des ressources appropriées sont nécessaires pour chaque langue. Différentes méthodes ont été mises en \oeuvre pouvant faire varier de manière significative les ressources nécessaires. Les approches acoustico-phonétique et lexicale utilisées (Fig. 1 gauche) sont fondées sur des modèles acoustiques de phones spécifiques à chaque langue incluant pour l'approche lexicale le vocabulaire des mots les plus fréquents. Ces approches permettent de tenir compte de nombreuses sources d'informations spécifiques à chaque langue, mais requièrent en contrepartie, au delà des données acoustiques, des transcriptions orthographiques et phonémiques. L'approche phonotactique permet de limiter les ressources au simple signal acoustique: pour chaque langue, des modèles phonotactiques (bigrammes de phones) peuvent être estimés à partir de séquences de phones issues d'un décodeur acoustico-phonétique en partant du signal acoustique de la langue en question (Fig. 2 gauche). Actuellement, on fait l'hypothèse qu'un segment de test appartient à une seule langue connue du système. Nous nous intéressons à l'identification de la langue sur de parole spontanée et préparée.

Résultats et perspectives

Concernant l'approche acoustique la modélisation des N mots les plus fréquents a permis d'améliorer les taux d'identification de manière significative avec un gain relatif supérieur à 25% dans toutes les configurations de test (Fig. 1 droite). Nous avons analysé l'impact du contenu du test sur les résultats, suivant différents axes: le style de parole, le contenu linguistique et la présence de silence et bruit dans les segments. Les résultats montrent qu'à l'instar des systèmes de reconnaissance, les systèmes d'identification de la langue ont beaucoup plus de difficultés avec la parole spontanée qu'avec la parole lue. Pour remédier à la sensibilité observée en présence de silence ou bruit le système d'identification doit faire appel à un module de détection de la parole.

Pour l'approche phonotactique nous avons montré l'intérêt d'introduire un ensemble de modèles acoustiques de phones indépendant de la langue lors du décodage acoustique (Fig. 2 droite). La combinaison de plusieurs décodeurs en parallèle permet d'améliorer les taux d'identification par rapport à un seul décodeur. Des résultats comparatifs ont été obtenus sur des segments de longueur variable, avec une durée minimale de 10 sec. Alors que l'approche acoustique permet de converger vers les meilleurs résultats avec des segments relativement courts (5 sec.), les résultats obtenus avec l'approche phonotactique sont d'autant meilleurs que les segments à identifier sont longs. L'extension à une nouvelle langue est beaucoup plus simple ici qu'avec l'approche acoustique pour laquelle la mise au point d'un décodeur acoustico-phonétique dépendant de la langue est nécessaire.

Le travail en cours porte sur le rejet de langues inconnues et la détection de changement de langue.

Références

[1] D. Matrouf, M. Adda-Decker, L. Lamel, J.L. Gauvain, ``Language Identification Incorporating Lexical Information'', ICSLP'98, 1998, Sydney.
[2] C. Corredor-Ardoy, P. Boula de Mareüil, M. Adda-Decker, L. Lamel, J.L. Gauvain, ``Classement automatique de phonèmes dans un cadre multilingue'', XXIIièmes JEP, 1998 Martigny.
[3]J.L. Gauvain, M. Adda-Decker, L. Lamel, ``Language identification with language-independent acoustic models'', C. Corredor Ardoy, EuroSpeech'97, 1997 Rhodes.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation