Segmentation et transcription d'émissions radio et télévisées

_____________________

J.L. Gauvain, L. Lamel, G. Adda, M. Adda-Decker

Figure

Objet

Le but de ce travail est de segmenter et transcrire automatiquement des émissions radio ou télévisées. La transcription de ce type de donnée constitue une étape majeure dans le développement d'outils d'indexation et de recherche pour gérer les très grandes quantités d'informations diffusées quotidiennement.

Description

Les documents radio ou télédiffusés sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides et graduelles. Le signal peut être de qualité studio ou avoir été transmis à travers le réseau téléphonique ou d'autres canaux bruités. Ces documents contiennent de nombreux segments de musique et de parole sur fond musical. On y trouve une grande variété de locuteurs: présentateur, animateur, reporter, politicien, homme de la rue, locuteur avec accent régional ou étranger, etc. Le style de langage va de la parole ``lue'' à la parole spontanée.

La première opération consiste à découper le document à traiter en segments acoustiquement homogènes. Ces segments, qui sont modélisés par des mélanges de gaussiennes, sont ensuite regroupés et étiquetés par un algorithme de classification. La transcription orthographique est obtenue en trois passes de décodage pour chaque ensemble de segments partageant les mêmes caractéristiques. Dans la première passe, un graphe de mots est généré en utilisant un modèle bigramme. Le graphe de mots est utilisé en seconde passe avec un modèle trigramme pour obtenir une première transcription, cette transcription permet d'adapter les modèles acoustiques de façon non supervisée. Les modèles adaptés sont utilisés dans la dernière passe pour produire la transcription finale.

Résultats et perspectives

La disponibilité de grandes quantités de données transcrites auprès du LDC (Linguistic Data Consortium), nous a permis de développer un système pour l'anglais américain [1,2]. Le système de reconnaissance utilise des chaînes de Markov cachées à densités continues pour la modélisation acoustique et des statistiques n-grammes estimées sur de grands corpus de textes pour modèle linguistique. Les modèles acoustiques ont été entraînés sur environ 80 heures d'émissions d'information transcrites, alors que pour le modèle linguistique nous avons utilisé 160 millions de mots de textes de journaux et 132 millions de mots correspondant à des transcritions d'émissions. Afin de prendre en compte la variabilité linguistique, nous avons analysé les différences entre textes lus et parole spontanée, en ce qui concerne le vocabulaire, la prononciation, et la position des hésitations et respirations. Cette analyse nous a conduit à augmenter le jeu de phones afin de modéliser explicitement les hésitations et les respirations tant au niveau acoustique que linguistique. Nous avons également introduit des mots composés pour représenter certaines prononciations réduites dans des suites de mots très fréquentes.

Les principales évolutions, par rapport à notre système évalué en novembre 1996, sont le développement de l'algorithme de segmentation et d'une procédure simplifiée pour l'entraînement des modèles acoustiques. Il apparaît en fait que le taux d'erreur n'est pas très dépendant de la précision de l'algorithme de segmentation. Ce système avec un vocabulaire de 65k mots a été évalué lors du test DARPA Hub-4E de novembre 1997 et a obtenu un taux d'erreur de 18.5%. L'extension au français et à l'allemand sera effectuée dans le cadre du projet européen LE4 Olive.

Références

[1] J.L. Gauvain, G. Adda, L. Lamel, M. Adda-Decker (1997), ``Transcription of Broadcast News,'' Proc. ESCA EuroSpeech'97, Rhodes, Greece, septembre.
[2] J.L. Gauvain, L. Lamel, G. Adda, (1998) ``The LIMSI 1997 Hub-4E Transcription System,'' Proc. Speech Recognition Workshop, Landsdowne, VA, fèvrier.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation