UN CORPUS MULTILINGUE POUR L'IDENTIFICATION AUTOMATIQUE

DE LA LANGUE

_____________________

G. ADDA, J.J. GANGOLF, L.F. LAMEL, M. ADDA-DECKER, J.L. GAUVAIN,

F. CONNERADE, S. FOUKIA, C. CORREDOR , C. ULRICH, H. VISSER

Objet

Le but de ce travail est d'enregistrer un corpus de parole multilingue (français), allemand, anglais, espagnol) de grande taille, à travers le canal téléphonique pour effectuer des recherches dans le domaine de l'identification automatique de la langue.

Contenu

Pour chaque langue nous enregistrons au moins 250 locuteurs appelant (via un numero vert) de leur pays d'origine et 50 locuteurs appelant de France (ou de l'étranger pour les français). Chaque participant à la création de la base multilingue téléphonique a reçu au préalable, via une société de sondage, un formulaire décrivant la parole à produire et une liste d'instructions générales concernant le mode de fonctionnement de la station d'enregistrement. La société de sondage a été chargée de recruter les locuteurs dans les quatre pays concernés, autant d'hommes que de femmes, répartis dans 4 tranches d'âge entre 18 et 65 ans, et entre les différentes régions principales et les grandes agglomérations afin de couvrir les différents types d'accents regionaux. Chaque locuteur est identifié par un code et une fiche qui lui est spécifique et qui est unique dans la base.

Les fiches contiennent trois parties principales: Une première série de questions concerne l'identification de l'appel (ville, code postal, premiers chiffres du numéro de téléphone). Une deuxième série de questions vise à faire prononcer par le locuteur des phrases contenant des séquences de mots prédéfinies (date, heure, nombres, phrases phonétiquement équilibrées,...). Enfin une dernière série de questions, appelées questions libres, sert à recueillir de la parole spontanée sur un sujet donné.

Pour faciliter la génération des fiches, une système automatique, indépendant de la langue, de fabrication de fiches multilingues a été développé où l'ensemble du contenu de la fiche est défini dans un certain nombre de fichiers, spécifiques pour la plupart à chaque langue. Le programme garde également toutes les informations ayant servi à générer chaque fiche, afin de faciliter la vérification et la transcription des appels.

La station de collecte est constituée d'une station de travail SGI INDY et d'un baie téléphonique ELAN BT8. La station est capable de gérer 4 lignes téléphoniques simultanément, chaque ligne étant gérée par un serveur logiciel indépendant.

Situation

Nous avons enregistré plus de 250 appels pour chaque langue, et les enregistrements des locuteurs de chaque langue ont été transcrits orthographiquement. Les conventions de transcription ont été homogénéisées entre les langues, en particulier pour toutes les marques touchant la parole spontanée (hésitations, rire), ou les bruits extérieurs. Les appels dans chaque langue ont été transcrits par un auditeur natif et ayant vécu encore récemment dans le pays d'origine de la langue. L'appartenance profonde au pays est nécessaire pour une trancription efficace, (en particulier des réponses en parole spontanée), en utilisant les connaissances linguistiques et pragmatiques du pays et de ses habitudes. Les transcripteurs ont également participé à la définition des prompts et des questions, afin que chaque scénario soit le plus naturel possible.

Nous enregistrons les appels croisés des locuteurs vivant dans un pays étranger (par exemple Français vivant en Angleterre ou Anglais vivant en France), pour les 4 langues de l'étude; ces appels authentifieront le fait que la reconnaissance porte sur la langue et non sur le canal téléphonique.

Une analyse détaillée des appels nous aidera à concevoir des scénarios plus adaptés; par exemple, il semble que les locuteurs allemands et espagnols soient particulièrement volubiles, au contraire des anglais et (à une moindre mesure) des français.

Références

(1) "Identification Automatique de la Langue à travers le réseau téléphonique,'' rapport du contract CNET no. 94 1B 089, no. 1-6.

Gpe Traitement du Langage Parlé

DptCHM

Sommaire

Présentation