Transcription d'émissions radio et télévisées

_____________________

J.L. Gauvain, G. Adda, L.F. Lamel, M. Adda-Decker

Figure

Objet

Le but de ce travail est la transcription automatique d'émissions d'information radio ou télévisées. La transcription de ce type de documents constitue une étape majeure vers le traitement en temps réel ou différé d'énormes quantités d'informations diffusées quotidiennement.

Description

Les émissions d'information constituent un matériau sonore particulièrement intéressant, contenant des segments de signal de diverses natures acoustiques et linguistiques avec des transitions rapides ou graduelles. Le signal peut être de qualité studio ou avoir été transmis à travers le réseau téléphonique ou d'autres canaux bruités. Il peut également s'agir de parole sur fond musical ou de segments de pure musique. La parole peut être produite par une grande variété de locuteurs: présentateur ou animateur, reporter, politicien, homme de la rue, locuteur avec accent régional ou étranger, etc. Le style de langage va de la parole ``lue'' à la parole spontanée.

Nous abordons les deux principaux types de problèmes posés par ces données: ceux relatifs à la variabilité acoustique du signal, et ceux relatifs aux propriétés linguistiques du signal. Les problèmes de nature acoustique sont traités en classifiant les types de segments et en développant des modèles spécifiques à chaque condition acoustique. Afin de traiter la variabilité observée dans les propriétés linguistiques, nous avons analysé les différences entre la parole ``lue'' (ou préparée) et la parole spontanée: différences sur le vocabulaire, la prononciation des mots et locutions, et la distribution des hésitations, des interjections et des bruits de respiration. En conséquence, le jeu de phones a été augmenté pour modéliser de manière explicite les interjections et bruits de respiration. Ces phénomènes ont aussi été explicitement représentés dans le modèle de langage. Des mots composés ont été introduits afin de modéliser les prononciations ``réduites'' pour les suites de mots très fréquentes.

Résultats et perspectives

Le système de reconnaissance utilise des chaînes de Markov cachées à densités continues pour la modélisation acoustique et des statistiques n-grammes estimées sur de grands corpus de textes pour la modélisation linguistique. Les modèles acoustiques ont été entraînés sur le corpus WSJ puis adaptés avec 35 heures d'émissions transcrites orthographiquement. Les modèles de langage, pour un vocabulaire de 65000 mots, ont été entraînés sur 160 millions de mots de texte de journaux et 132 millions de mots de transcriptions d'émissions d'information. Le décodage est effectué en plusieurs passes pour chaque segment en utilisant des modèles acoustiques et linguistiques plus précis à chaque passe. Dans la première passe, un graphe de mots est généré en utilisant un modèle bigramme, ce graphe est utilisé en seconde passe avec un modèle trigramme. Une adaptation non supervisée est effectuée par la méthode MLLR lors de la dernière passe du décodeur.

Le système de reconnaissance a été évalué lors du test ARPA Hub4 de novembre 1996 et a obtenu le taux d'erreur le plus faible de 27.1%sur les données partitionnées. Nous étudions à présent les problèmes liés à la segmentation et à la classification automatique des données.

Références

[1] J.L. Gauvain, G. Adda, L. Lamel, M. Adda-Decker : ``Transcribing Broadcast News: The LIMSI Nov96 Hub4 System'', Proc. Speech Recognition Workshop, Chantilly, Va, février 1997.

[2] J.L. Gauvain, G. Adda, L. Lamel, M. Adda-Decker : ``Transcribing Broadcast News Shows,'' IEEE ICASSP-97, Munich, avril 1997.

Gpe Taitement du Langage Parlé Dpt CHM + Sommaire

Présentation