Transcription de documents radio et télédiffusés

_____________________

J.-L. Gauvain, L. Lamel, G. Adda, M. Jardino

Figure

Objet

L'explosion de la production multimédia entraîne l'impossibilité de gérer par des moyens manuels la masse énorme de documents audiovisuels. La recherche et l'accès à ces documents par des méthodes automatiques sont devenus de facto d'une importance capitale. Dans ce cadre, le but de ce travail est de segmenter et transcrire automatiquement le canal audio des émissions radio et télédiffusées [1].

Description

Les documents radio ou télédiffusés sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides et graduelles. Le signal peut être de qualité studio ou avoir été transmis à travers le réseau téléphonique ou d'autres canaux bruités. Ces documents contiennent de nombreux segments de musique et de parole sur fond musical, et on y trouve également une grande variété de locuteurs. Pour transcrire de tels documents, il est nécessaire d'effectuer au préalable une segmentation acoustique (séparation bruit/parole/musique, séparation homme/femme, identification du locuteur). Cette procédure commence par détecter et rejeter les segments de non-parole en utilisant 3 modèles multi-gaussiens. Une classification/segmentation itérative (voir fig. 1) des segments de parole aboutit à un ensemble de segments étiqueté en fonction de la classe, du genre et de la qualité audio (tél./non-tél.) [2].

Le système de reconnaissance utilise des chaînes de Markov cachées à densités continues pour la modélisation acoustique et des statistiques n-grammes estimées sur de grands corpus de textes pour modèle linguistique. Les modèles acoustiques, entraînés sur environ 150 heures de parole, correspondent à des phones en contexte où chaque modèle est une chaîne de Markov cachée à 3 états, le choix des états partagés se faisant à l'aide d'un arbre de décision. Les modèles de langage sont obtenus par interpolation de modèles n-grammes de mots ou de classes appris sur différents types de textes : transcriptions fines (1.5M de mots) et transcriptions approximatives (200M de mots) d'émissions d'informations radio-télédiffusées ainsi que des textes de journaux et d'agences d'information (400M de mots). Le décodage en mots (voir fig. 2) s'effectue en trois passes consécutives, pour chaque segment de parole : 1) génération de l'hypothèse initiale, 2) génération du graphe de mots, 3) génération de l'hypothèse finale. L'hypothèse initiale est utilisée pour une adaptation par MLLR des modèles acoustiques. L'hypothèse finale est obtenue en utilisant un modèle de langage 4-gramme, interpolé avec un modèle 3-gramme de classes de mots (270 classes) obtenues automatiquement.

Résultats et perspectives

L'adaptation des modèles acoustiques lors de chaque passe de décodage est essentielle pour générer des graphes de mots avec un faible taux d'erreur. L'emploi d'un arbre de décision pour déterminer les classes d'états à partager s'avère particulièrement pertinent lorsque le nombre d'états est important. L'interpolation de modèles n-grammes entraînés sur différents corpus permet de réduire significativement la perplexité par rapport à un seul modèle entraîné sur l'ensemble des données. Le système du LIMSI a obtenu un taux d'erreur de mot de 13.6% lors du test DARPA de novembre 1998. La réduction du taux d'erreur atteint plus de 20% par rapport notre système évalué en 1997. La transcription produite par le système a également été évaluée dans le cadre d'une tâche d'extraction d'informations (Named Entities), pour laquelle elle a permis d'obtenir le meilleur résultat.

Références

[1] J.L. Gauvain, L. Lamel, G. Adda, ``The LIMSI 1997 Hub-4E Transcription System,'' Proc. Speech Recognition Workshop, Landsdowne, Va, février 1998.
[2] J.L. Gauvain, L. Lamel, G. Adda, ``Partitioning and Transcription of Broadcast News Data'', Proc. ICSLP'98, Sydney, Australia, Décembre 1998.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation