next up previous
Next: Transcription et structuration de Up: No Title Previous: Modèles n-grammes

Indexation sémantique

Suivant le thème abordé dans un article ou dans une émission, le vocabulaire employé et son utilisation varient. Afin de mieux estimer les probabilités de succession de mots, nous avons étudié la possibilité d'adapter les modèles de langage selon le thème. Une classification non supervisée, analogue à celle utilisée ci-dessus pour la classification des mots a permis de regrouper les documents selon la distribution des mots qui les composent. Les résultats préliminaires n'ont pas permis de mettre en évidence un gain significatif au niveau du taux d'erreur de reconnaissance.

Les documents audiovisuels constituent un matériau intéressant pour de nombreuses applications, pour lesquelles la reconnaissance vocale est une technologie clef. Parmi ces applications nous pouvons citer l' indexation et l'alerte. L'indexation par le contenu, c'est-à-dire la possibilité d'indexer puis de rechercher un document audiovisuel en utilisant la transcription automatique de la bande son, est abordée dans plusieurs projets européens ( OLIVE, ALERT, CIWOS), et a fait l'objet du développement d'un moteur de recherche au niveau de l'état de l'art, évalué dans le cadre de la tâche SDR (Spoken Document Retrieval) de l'évaluation TREC-8 (Text REtrieval Conference).
L'alerte, c'est-à-dire le filtrage de documents en fonction d'un thème connu ou de documents voisins, est abordée dans le cadre d'une convention DGA, et de projets européens et nationaux. Nous avons développé une première approche, où un document est segmenté en histoires (extraits parlant d'un seul événement), chaque histoire étant annotée par des mots-clés. La tâche consiste à affecter à une histoire inconnue les mots-clés les plus significatifs étant données les probabilités unigramme ou bigramme des mots de l'histoire. Nous avons testé cette approche sur un corpus couvrant une année d'informations radio-télédiffusées en anglais américain, ainsi que sur une année du journal Le Monde.

Dans les deux applications mentionnées ici, nous utilisons comme termes permettant de déterminer le thème, ou permettant d'indexer le document, les mots. Nous explorons la possibilité d'utiliser comme terme (et en premier lieu d'identifier) des expressions désignant un individu, un lieu, un événement, une date ou une donnée numérique. Plusieurs approches pour l'identification de ces expressions (appelées entités nommées), la première purement probabiliste, la seconde utilisant une grammaire d'automates, et la troisième un étiquetage en partie du discours, ont obtenu des résultats comparables sur un corpus de transcription d'informations radio-télédiffusées en anglais américain.

THÈME 4 : SYSTÈMES DE RECONNAISSANCE ET DIALOGUEJ.-L. GauvainG. Adda, M. Adda-Decker, S. Bennacef, L. Canseco, L. Chase, L. Devillers, J.-J. Gangolf, V. Gendner, L. Lamel, H. Maynard, W. Minker, S. Rosset, P. Paroubek, H. Schwenk

Ce thème a pour objet le développement de systèmes de traitement du langage parlé reposant sur l'ensemble des recherches effectuées dans le groupe. Il aborde entre autres des problèmes pratiques tels que l'efficacité des stratégies de décodage et l'intégration des connaissances liées à l'application. Ces activités de recherche ont un lien fort avec nos activités de valorisation, par le transfert de notre technologie pour la reconnaissance de la parole et l'indexation de documents audiovisuels, la vérification du locuteur et les systèmes de compréhension et de dialogue.

Les activités de ce thème peuvent être classées selon deux axes principaux : la transcription et la structuration automatiques de documents audio, et le développement de systèmes de dialogue.


next up previous
Next: Transcription et structuration de Up: No Title Previous: Modèles n-grammes
rapporta
2000-06-30