Transcription d'émissions radio et télédiffusées dans un cadre multilingue

_____________________

L. Lamel, J.-L. Gauvain, G. Adda, M. Adda-Decker, L. Chen

Figure

Objet

Le but de ce travail est d'étudier les problèmes liés à la transcription automatique de la parole dans un contexte multilingue. En particulier, nous nous intéressons à la transcription d'émissions d'information radio et télédiffusées dans quatre langues : anglais américain, français, allemand et mandarin.

Description

De nombreux travaux de recherche sur la transcription automatique concernent l'anglais américain, ceci étant dû essentiellement à la disponibilité de grands corpus audio et textuels pour cette langue. Afin d'évaluer la ``généricité'' de nos méthodes, nous avons appliqué les algorithmes de segmentation et de transcription développés pour l'anglais américain [1] au traitement d'émissions dans trois autres langues, pour lesquelles significativement moins de données sont disponibles. Le travail sur l'allemand et le français est réalisé partiellement dans le cadre du projet européen LE4- OLIVE [2] et d'une convention DGA. Le chinois, dont le choix a été favorisé par l'existence de ressources linguistiques au LDC, et par des résultats de référence au niveau international, permet d'aborder une nouvelle famille de langues (langue à tons, caractères syllabiques). Le système de segmentation permet de délimiter dans le flux acoustique continu des zones homogènes (bande large ou bande téléphonique, bruit, musique ou parole, locuteur féminin ou masculin...). Cette partie du système est relativement indépendante de la langue : nous avons utilisé le même système de segmentation pour toutes les langues. Le classement homme/femme est cependant moins efficace en chinois, où une adaptation pourrait améliorer les performances.

Un problème important pour le passage de l'anglais américain à d'autres langues, concerne l'obtention des ressources nécessaires au développement des modèles acoustiques, des modèles de langage et des dictionnaires de prononciation. La table 1 donne les quantités de données audio et textuelles utilisées pour l'apprentissage des modèles. Dans la table 2, nous montrons quelques grandeurs caractéristiques pour chaque langue. La figure 1 illustre la variété lexicale en anglais, français et allemand. Des travaux sur la décomposition des mots en allemand devraient permettre d'améliorer la couverture lexicale et les modèles de langage. Pour le mandarin des travaux visant à modéliser l'information tonale dans les modèles acoustiques sont en cours.

Résultats et perspectives

Les premiers résultats de transcription automatique pour le français, l'allemand et le chinois sont tout à fait prometteurs puisqu'ils sont comparables aux résultats obtenus pour l'anglais-américain (voir table 2, droite). Il s'avère en fait que les résultats sont plus dépendants du type d'émission que de la langue. Par exemple, nous avons noté que les documentaires en allemand d'ARTE sont particulièrement difficiles à transcrire : d'une part ces émissions contiennent une grande proportion de voix doublées, où les voix du locuteur et du traducteur se superposent et sont toutes deux audibles; d'autre part les modèles de langage, développés essentiellement avec des textes de journaux, sont peu représentatifs du contenu linguistique de ces émissions. Ces travaux montrent aussi que, lors du portage vers une nouvelle langue, les parties sensibles concernent la collecte de corpus transcrits, les travaux de normalisation des textes à partir desquels sont élaborés le vocabulaire, les modèles de langage et les dictionnaires de prononciation utilisés dans le système de reconnaissance. Après cette première validation de la ``généricité'' de nos méthodes, nous allons étendre notre travail à d'autres langues comme le portugais ou le grec, dans le contexte de nouveaux projets européens.

Références

[1] J.L. Gauvain, L. Lamel, G. Adda, M. Jardino : ``The LIMSI 1998 HUB-4E Transcription System,'' DARPA Broadcast News Workshop, Feb. 1999.
[2] J.L. Gauvain, L. Lamel, G. Adda : ``Audio Partitioning and Transcription for Broadcast Data Indexation,'' Proc. CBMI'99, Toulouse, Oct. 1999.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation