next up previous
Next: Systèmes de dialogue Up: No Title Previous: Indexation sémantique

Transcription et structuration de documents audio

En ce qui concerne la transcription de la parole continue,

Un de nos buts est de développer des systèmes de transcription de la parole continue indépendants du locuteur et de l'application, et qui soient robustes aux conditions de prise de son. Ce travail est effectué dans un cadre multilingue sur des documents radio et télédiffusés : nous avons développé des systèmes de reconnaissance avec des vocabulaires de 65000 mots pour l'anglais américain, l'allemand, le français et le mandarin.

L'une des applications visées est l'indexation automatique de documents audiovisuels. Les méthodes actuelles sont en grande partie manuelles, des documentalistes devant lire, écouter, regarder, annoter par thèmes et identifier les éléments d'intérêt. L'automatisation de certaines de ces activités est nécessaire pour généraliser l'accès par le contenu aux documents audiovisuels. Parmi les applications existantes qui peuvent bénéficier de ces nouvelles technologies, nous pouvons citer l'indexation de bibliothèques numériques multimédia (projets LE-4 OLIVE et ECHO) et la pige des médias audiovisuels (projet LE-5 ALERT), ainsi que quelques applications émergeantes comme la diffusion sélective d'information et la diffusion d'audiovisuel sur Internet.

Ces documents sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides ou graduelles. Ces conditions nous amènenet à segmenter (automatiquement) le flux audio afin d'adapter les modèles à la nature des données (locuteur, bande passante, niveau et type de bruit, langue, musique, sujet, ...). Cette segmentation constitue en outre un premier niveau de structuration du document.

Notre système de transcription d'émissions d'information en anglais américain a été classé au meilleur niveau lors des quatre dernières campagnes d'évaluation organisées par le NIST et DARPA. Dans le cadre du projet européen OLIVE et d'un marché DGA, nous avons étendu ce système aux langues française et allemande avec des performances comparables à celles observées pour l'anglais. L'extension au mandarin a pu être effectuée grâce à la disponibilité de données audio et textuelles au LDC (Linguistic Data Consortium). Le portage vers trois autres langues (arabe, grec et portugais) sera bientôt réalisé dans le cadre d'un marché DGA et des projets européens CIWOS et ALERT.

Afin de réduire le temps de calcul nécessaire au traitement de grandes quantités de données, un nouveau décodeur a été développé. Ce décodeur permet de transcrire des émissions d'information en quelque fois le temps réel (6 à 10 fois) avec une augmentation du taux d'erreur réduite par rapport à notre meilleur système (100 fois le temps réel), et quasiment en temps réel avec un taux d'erreur sur les mots de l'ordre de 30%.

Un système de recherche documentaire dans des données audio a été développé en combinant le système de transcription de la parole avec un système de recherche d'information textuelle, offrant un accès direct, par le contenu linguistique, à des documents audiovisuels non indexés (manuellement). Les premiers résultats (sur environ 500 heures) indiquent que la qualité de la transcription automatique n'est pas un facteur limitant pour les techniques actuelles d'indexation. Ce système a été testé dans le cadre de l'évaluation TREC-8 SDR sur la recherche documentaire dans des documents audio.


next up previous
Next: Systèmes de dialogue Up: No Title Previous: Indexation sémantique
rapporta
2000-06-30