_____________________
Objet
Le but de ce travail est de développer des méthodes pour la segmentation, la transcription et l'indexation automatiques de données audio et vidéo.
Description
L'augmentation du nombre de médias audiovisuels induit un besoin croissant de techniques de traitement automatique des flux de données audio. Les méthodes actuelles sont en grande partie manuelles, des documentalistes devant lire, écouter, regarder, annoter par thèmes et identifier les éléments d'intérêt. L'automatisation de certaines de ces activités est nécessaire pour généraliser l'accès par le contenu aux documents audiovisuels. Parmi les applications existantes qui peuvent bénéficier de ces nouvelles technologies, nous pouvons citer l'indexation de bibliothèques numériques multimédia (projets LE-4 OLIVE et ECHO) et la pige des médias audiovisuels (projet LE-5 ALERT), ainsi que quelques applications émergeantes comme la diffusion sélective d'information et la diffusion d'audiovisuel sur Internet. La recherche documentaire dans des données audio offre un accès direct aux séquences audiovisuelles recherchées, réduisant ainsi le temps nécessaire pour identifier les enregistrements intéressants dans de grandes bases de données multimédia. Le système d'indexation et de recherche de documents audio développé au LIMSI combine un système de reconnaissance de la parole pour des documents radio et télédiffusés [1] avec un système de recherche d'information textuelle [2]. Les techniques jusque là appliquées à l'indexation automatique de texte ont été utilisées sur des transcriptions produites automatiquement. Nous avons étudié deux approches, l'une fondée sur la pondération de termes Okapi et l'autre sur une pondération markovienne, combinées avec une des techniques d'enrichissement de requête utilisant des corpus de textes indexés pour identifier les coocurrences de termes (Blind Relevance Feedback, ou BRF).
Résultats et perspectives
Environ 500 heures de données radio et télédiffusées en anglais américain (corpus SDR99 TREC-8) ont été indexées, d'une part en utilisant une transcription manuelle (sous-titres) et d'autre part en utilisant une transcription générée automatiquement par le système de reconnaissance.
Pour traiter cette quantité de données, il a été nécessaire de réduire significativement le temps de traitement utilisé pour la reconnaissance de la parole. Il a fallu en particulier trouver un compromis entre la complexité des modèles et le niveau de performance pour les différents points de fonctionnement (voir Figure 1). Le taux d'erreur moyen mesuré sur un échantillon représentatif de 10 heures est d'environ 20%.
Les deux méthodes d'indexation (Okapi et approche markovienne) ont donné sensiblement les mêmes résultats (voir Table 1). Nous avons pu constater que la précision moyenne mesurée sur les transcriptions automatiques et manuelles varie très peu lorsque les frontières de documents sont connues. Ces premiers résultats semblent indiquer que la qualité de la transcription automatique n'est pas un facteur limitant pour les techniques actuelles d'indexation.
Références
[1] J.L. Gauvain, L. Lamel, and G. Adda :
``Transcribing broadcast news for audio and video indexing'',
Communications of the ACM, 43(2), février 2000.
[2] J.L. Gauvain, Y. de Kercadio, L. Lamel, G. Adda : ``The LIMSI SDR
System for TREC-8'', Proc. 8th Text Retrieval Conference
TREC-8, novembre 1999.
Gpe Traitement du Langage Parlé |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|