_____________________
Objet
Le but de ce travail est de développer différentes approches pour l'identification automatique de la langue à travers le réseau téléphonique. Ces approches sont évaluées sur un corpus multilingue conçu pour cette tâche. (Ce travail est partiellement financé par un projet CNET CTI.)
Description
Une solution au problème de l'identification de la langue est de traiter le signal inconnu par un ensemble de décodeurs phonétiques et de choisir la langue correspondant aux modèles ayant le meilleur score [3]. Nous avons essayer d'améliorer cette approche dans deux directions en nous inspirant des méthodes phonotactiques. La première méthode consiste à modifier le score de chaque décodeur en combinant le score acoustique avec un score phonotactique calculé sur la séquence de phones reconnu par ce décodeur. La seconde méthode explore l'utilisation d'un décodeur phonétique indépendant de la langue combiné avec des modèles phonotactiques dépendants de la langue.
La première approche est illustrée par la figure 1. Chaque phrase inconnue est traitée par les N décodeurs phonétiques. Les scores phonotactiques sont alors calculés sur les sorties des décodeurs au moyen de modèles bigrammes phonétiques propres à chaque langue. Les bigrammes phonétiques ont été estimés sur les suites de phones obtenues en traitant l'ensemble du corpus d'apprentissage avec chaque décodeur. Ces bigrammes, qui sont différents de ceux utilisés par les décodeurs, modélisent les contraintes phonotactiques et prennent en compte les erreurs faites par les décodeurs phonétiques. Les scores acoustiques et phonotactiques sont combinés pour optimiser le taux d'identification.
Dans une deuxième approche (voir figure 2), nous avons remplacé la série de N décodeurs phonétiques par un seul décodeur utilisant un ensemble d'unités phonétiques représentant les différentes langues traitées. Cet ensemble a été déterminé par classement automatique hiérarchique à partir de l'union des jeux de phones de toutes les langues. Les 148 phones des quatre langues ont été regroupés en 83 classes parmi lesquelles la majorité des classes regoupent des phonèmes similaires des différentes langues. Cette approche est moins coûteuse en temps de calcul et permet l'extension à une nouvelle langue à partir de simples données de parole pour cette langue sans besoin de transcription ou de lexique de prononciation. Avec la première approche, la construction des modèles phonétiques nécessite un corpus de parole transcrite et un lexique phonétique pour chacune des langues traitées.
Résultats et perspectives
Les deux approches ont été évaluées sur le corpus multilingue IDEAL, contenant des données de parole téléphonique pour le français, l'allemand, l'anglais et l'espagnol. Pour chaque langue, 250 appels (environ 9000 phrases, 13 heures de parole) ont été utilisés comme corpus d'apprentissage. Le corpus d'évaluation est constitué de segments de parole spontanée de durée 5 et 10 secondes. Des résultats comparables ont été obtenus avec les deux approches, avec des taux d'erreur d'identification pour quatre langues de 15%(N décodeurs) et de 18%(un seul décodeur) pour les segments de 5 secondes, et respectivement 10%et de 9%sur les segments de 10 seondes.
Références
[1] C. Corredor Ardoy, J.L. Gauvain, M. Adda-Decker, L. Lamel : ``Language Identification with Language-Independent Acoustic Models'', Eurospeech-97.
[2] ``Identification Automatique de la Langue à travers le réseau téléphonique'', rapport du contrat CNET no. 94 1B 089, no. 1-7.
[3] L.F. Lamel, J.L. Gauvain : ``Language Identification Using Phone-based Acoustic Likelihoods'', ICASSP-94.
Gpe Taitement du Langage Parlé | Dpt CHM |
Sommaire
|
Présentation |