Segmentation et transcription de documents vidéo

_____________________

G. Quénot

Figure

Objet

Cette recherche porte sur l'analyse du contenu des documents vidéo dans le but de leur indexation (dans le contexte de MPEG7 ou de l'Action Indexation Multimédia conduite dans le cadre des GDR-PRC CHM et ISIS). Nous étudions le problème de l'automatisation, totale ou partielle, de la segmentation et de la transcription de ces documents. L'application principale est la recherche par le contenu de documents multimédia. Une autre application, fortement liée, est la compression ``intelligente'' de la vidéo (MPEG4). Le projet, inter-groupes (TLP-IMM), se situe dans le cadre d'une action incitative du laboratoire et d'un projet BQR du Département d'Informatique de l'Université Paris XI. Nous abordons ici le problème de l'analyse de la bande image, le problème de l'analyse de la bande son étant étudié par le groupe TLP [1].

Description

Nous avons commencé par le problème de la segmentation du document en plans continus. Les transitions brutales sont extraites par une méthode originale : la mesure de la différence résiduelle après compensation de mouvement (lorsque la différence résiduelle sans compensation est importante). Cette méthode est semblable à celle utilisée en reconnaissance vocale lorsqu'on compare la différence résiduelle entre sonogrammes après alignement temporel. La compensation de mouvement s'effectue en utilisant une technique de Calcul du Flot Optique basée sur la programmation dynamique [2]. Quelques filtres supplémentaires sont ajoutés (par exemple la détection de flashs photographiques ou l'adaptation dynamique de seuils en fonction du mouvement moyen détecté avant ou après la transition potentielle) pour améliorer le résultat. Comparativement aux méthodes classiques (par exemple détection de discontinuités sur les histogrammes de couleur ou sur des vecteurs de paramètres), cette méthode présente l'avantage de prendre en compte les continuités spatiales corrigées du mouvement et peut donc discriminer des images qui se ressemblent uniquement par leur distribution de couleurs ou de textures. En particulier, elle permet de segmenter correctement les séquences purement noir et blanc. Une méthode simple de détection des fondus enchaînés en l'absence de mouvement a également été développée. Elle consiste à rechercher, dans les séquences non stationnaires, si une image est une interpolation linéaire de ses voisines.
Nous avons parallèlement commencé l'acquisition et la segmentation manuelle d'un corpus de journaux télévisés (actuellement 60 minutes en français et 10 minutes en américain) pour l'entrainement et l'évaluation de nos systèmes. Nous utilisons également le corpus développé par l'INA dans le cadre de l'Action Indexation Multimédia.

Résultats et perspectives

Sur les journaux télévisés français et américains de notre corpus, notre système détecte 99 % des transitions brutales avec moins de 5 % de fausses alarmes. Il détecte également environ 50 % des fondus enchaînés et entre 85 et 90 % de l'ensemble des transitions (tous types confondus). La Figure 1 montre une représentation visuelle d'un document vidéo sous la forme d'une mosaïque d'images correspondant chacune à un segment continu extrait automatiquement. Ce travail est préliminaire. Notre objectif est d'aller beaucoup plus loin dans l'analyse du contenu des documents. Les travaux vont se poursuivre par l'étude des points suivants : amélioration de la robustesse de la détection des transitions, recherche des autres types de transition, classification des plans par types, regroupement des plans apparentés, repérage et transcription des textes, repérage et identification des personnages, corrélation et fusion des informations image, audio et texte, et, finalement, construction d'une représentation synthétique utilisable par les systèmes de recherche d'information.

Références

[1] J.L. Gauvain and L. Lamel and G. Adda and M. Adda-Decker : <<Transcription of Broadcast News>>, Eurospeech, Rhodes, September 1997.
[2] G. Quénot : <<Computation of Optical Flow Using Dynamic Programming>>, IAPR Workshop on Machine Vision Applications, Tokyo, Japan, 12-14 nov 1996.

Gpe Interaction et Multi-Modalités

Dpt CHM

+ Sommaire

Présentation