Archimed : traitements croisés de la parole et de l'écrit

Archimed : traitements croisés de la parole et de l'écrit

G. Adda, M. Adda-Decker, C. Barras, V. Gendner,

B. Habert, C. Jacquemin, E. Le Roux, P. Paroubek

L'action transversale Archimed, lancée en 2001 dans le prolongement d'un projet BQR, vise à contribuer aux recherches sur l'indexation multimédia au LIMSI, par l'apport croisé des traitements de la parole et de l'écrit. Cette action s'appuie sur les atouts du LIMSI en termes de transcription et d'indexation de documents audio d'une part et d'analyse et d'indexation de données textuelles d'autre part. Ces recherches en indexation font l'objet de nombreux travaux et contrats dans les groupes TLP et LIR, qui forment avec le soutien financier du département CHM l'ossature de l'action ; pour plus de détails nous renvoyons aux présentations des différents groupes dans ce rapport. L'action Archimed doit devenir un lieu de collaborations actives mais aussi un forum de présentation et de discussion au sein du département CHM des activités des différents groupes sur des thèmes liés à l'indexation multimédia. Une collaboration engagée vise à exploiter la complémentarité des compétences concernant l'oral et l'écrit sur des textes et des documents audio relevant d'un même domaine ou d'un même thème.

Un premier axe consiste à utiliser des sources textuelles accompagnant des documents audiovisuels (des péritextes) pour améliorer la transcription et la structuration automatiques du flux parlé. Les textes peuvent porter sur les mêmes thèmes, voire être dans certains cas des transcriptions approximatives du document. Les termes (simples ou complexes) acquis sur ces textes peuvent intervenir en amont dans la définition du modèle de langage (ajout de termes spécifiques au lexique, modèles de langage thématiques) ou en aval, dans le filtrage des hypothèses de segmentation et de reconnaissance. Dans ce dernier cas, on peut ainsi choisir la meilleure transcription dans un treillis d'hypothèses sorties du système de transcription, ou encore décider de n'indexer que les parties les plus fiables de la transcription. Le deuxième axe concerne l'utilisation des transcriptions par des étiqueteurs, des analyseurs et des outils d'indexation libre. Comme ces programmes ont besoin de ponctuations pour les aider à isoler syntagmes, propositions et phrases, les transcriptions seront progressivement enrichies sur ce point, en s'appuyant d'un côté sur des modèles linguistiques de ponctuation et de l'autre sur des indices acoustiques comme la durée des pauses, les inspirations, l'intonation. La segmentation thématique (découpage de l'oral ou de l'écrit en fragments contigus relevant d'un sujet précis) et la classification automatique de documents ou de fragments de document constituent une piste de recherche partagée. Elles peuvent fournir des ensembles d'apprentissage bien délimités, particulièrement pour les domaines hétérogènes (journaux télévisés, presse). La variation de << grain >> de ces ensembles est à examiner (les indications de domaine - politique, économie... - sont généralement trop généralistes). Le travail réalisé jusqu'à présent concerne principalement la mise en place de l'infrastructure : sélection de données audiovisuelles et textuelles adéquates, acquisition de matériel informatique nécessaire pour le partage des ressources et les traitements. Pour l'évaluation objective des performances, la réalisation de corpus annotés fournissant la référence experte de ce qui est attendu est en cours.

[1] B. Habert, C. Fabre : `` Elementary dependency trees for identifying corpus-specific semantic classes ''. Computers and the Humanities, vol. 33, pp. 207-219, 1999.
[2] J.L. Gauvain, L. Lamel, G. Adda, M. Adda-Decker, C. Barras, L. Chen, Y. de Kercadio : `` Processing Broadcast Audio for Information Access ''. ACL 39th annual meeting, pp. 2-9. Toulouse, juillet 2001.