GROUPE TRAITEMENT DU LANGAGE PARLÉ

TRAITEMENT DU LANGAGE PARLÉ

Jean-Luc Gauvain

Thème 1 : Modélisation acoustique et lexicale

Thème 3 : Systèmes de reconnaissance et dialogue

INTRODUCTION

Les recherches du groupe visent à augmenter notre compréhension des processus de la communication parlée et à développer des modèles appropriés au traitement automatique de la parole. Nos problèmes scientifiques concernent aussi bien les modélisations acoustique, lexicale et syntaxique, que le lien entre parole et sens, ainsi que la modélisation des processus de communication. Ces problèmes, par essence pluridisciplinaires, nécessitent des compétences en traitement du signal, en acoustique, en phonétique, en linguistique et en informatique. Nos recherches nous amènent à développer des systèmes multilingues de traitement du langage parlé assurant des fonctions variées telles que la reconnaissance de la parole, l'identification de la langue et du locuteur, le dialogue oral homme-machine et l'indexation de documents audio et audiovisuels. La reconnaissance de la parole consiste à convertir le signal audio en texte. Suivant l'usage visé, cette transcription peut être plus ou moins complète, avec le marquage des ponctuations, des hésitations et de certains événements non linguistiques. La langue dans laquelle s'exprime le locuteur peut être identifiée en amont du système de reconnaissance lorsque celle-ci n'est pas connue a priori. L'identification du locuteur consiste à déterminer qui parle et quand, cette identification pouvant être absolue ou relative au document traité. La modélisation du dialogue oral dans les interfaces homme-machine va bien au-delà de la transcription de la parole en texte, puisqu'il faut mettre en oeuvre des processus de compréhension et des stratégies de dialogue. Enfin, l'indexation automatique de documents audio pour l'accès à l'information par le contenu, nous amène à combiner les techniques de traitement de la parole et les techniques de traitement du langage naturel.

Nos travaux sur le décodage de la parole (au sens le plus large du terme) portent sur la segmentation et la reconnaissance de la parole continue, ainsi que l'identification du locuteur et de la langue, pour la transcription et la structuration automatiques de documents audio. Ces développements, qui s'appuient sur nos recherches en modélisation acoustique, lexicale, et linguistique, sont réalisés dans un contexte multilingue (allemand, anglais, arabe, espagnol, français, mandarin, portugais, etc.). La démarche à la base de ces travaux est le développement d'algorithmes et de modèles fondés sur la prise en compte conjointe des diverses sources d'information visant à un processus global de décodage du signal audio.

Le dialogue oral homme-machine est un sujet de recherche à multiples facettes qui nous amène à traiter l'oral spontané, à modéliser des processus de compréhension et de génération du langage, et à développer des statégies de dialogue. Nous étudions deux approches complémentaires pour traiter ces problèmes, l'une fondée sur une modélisation explicite de la tâche (approche par règles), et l'autre sur une modélisation statistique à l'aide de corpus annotés. Ces travaux se concrétisent par la réalisation de systèmes de dialogue pour l'interrogation de bases de données dans un mode oral uniquement (interrogation par téléphone) ou avec d'autres modalités de communication (kiosque multimodal).

Une problématique récente (1997) dans le groupe est l'indexation par le contenu de documents audiovisuels pour la recherche documentaire et la pige d'informations (la détection et le suivi de thèmes). Nous développons en particulier des techniques d'indexation adaptées aux particularités des documents audio (par opposition aux documents textuels). Le volume de données à traiter nous a amené à développer de nouvelles solutions pour le décodage qui permettent de réduire significativement les temps de traitement. Dans ce cadre nous travaillons également sur des méthodes d'apprentissage qui nous permettent d'exploiter des très grandes quantités de données tout en limitant les besoins en annotations manuelles. L'indexation de documents audio est devenue un de nos axes de recherche majeurs, à travers lequel nous abordons l'ensemble des problèmes liés au traitement de la parole et de l'audio, qu'il s'agisse de la segmentation du signal audio, de la transcription de la parole, de l'identification de la langue et des locuteurs, ou d'analyse sémantique.

Trois activités essentielles accompagnent et soutiennent nos recherches~: le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches par des relations industrielles en particulier dans le contexte de projets européens. Une entreprise a été créée récemment afin de faciliter nos transferts technologiques avec le monde industriel.

Au premier janvier 2002, le groupe comprenait 23 membres, dont 8 permanents CNRS, 6 enseignants - chercheurs, 3 contractuels, et 6 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure divers cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI et à l'ENSTA. En 2000 et 2001, les membres du groupe ont publié 56 articles (10 dans des revues internationales, 4 chapitres d'ouvrage, 34 dans des colloques internationaux avec actes et comité de lecture), et ont présenté 18 communications invitées. Nous avons organisé, avec le soutien du GFCP/SFA, la conférence ISCA-ITRW ASR2000 ``Automatic Speech Recognition~: Challenges for the new Millennium'' qui s'est tenue à Paris en septembre 2000.

Les contrats de recherche couvrent l'ensemble des activités du groupe, en particulier grâce aux projets européens ALERT, CORETEX, ECHO, HOME-AOM, OLIVE, AMITIES, aux conventions de recherche avec la DGA, et au programme national RNRT avec les projets VOCADIS et THEOREME. Le groupe a participé également à plusieurs programmes et projets pour la distribution de ressources linguistiques et l'évaluation (LRA, Aupelf-UREF, DISC2, ELSE et CLASS). Depuis 1992 nous avons pris part à 9 campagnes d'évaluation de systèmes de reconnaissance de la parole organisées par le NIST et DARPA. Nous avons également pris part à deux évaluations TREC SDR (1999 et 2000) sur la recherche documentaire dans des données audio, ainsi qu'à l'évaluation DARPA TDT 2001 sur la détection et le suivi de thèmes dans des documents audio et textuels.

Les recherches du groupe sont structurées en trois thèmes interdépendants~: Modélisation acoustique et lexicale (thème 1), modélisation linguistique (thème 2), et systèmes de reconnaissance et dialogue (thème 3).

Les recherches de Thème 1 portent essentiellement sur les unités acoustiques, phonétiques et lexicales utilisées pour modéliser le langage parlé dans les systèmes de transcription et de dialogue oral. Les modèles retenus doivent permettre de prédire les phénomènes observés dans le signal acoustique afin de garantir de bonnes performances. Pour atteindre cet objectif de nombreux problèmes connexes doivent être abordés. En effet le signal de parole véhicule, au-delà du message linguistique proprement dit, d'autres types d'informations, notamment les caractéristiques du locuteur, de l'environnement, de l'enregistrement, et le cas échéant, du canal de transmission. Toutes ces informations contribuent à la variabilité de la parole et mènent à des directions de recherche variées, souvent au-delà de ce thème.

Le thème 2 se trouve à la frontière entre le traitement de l'écrit et celui de l'oral. Il s'agit de développer des méthodes et des outils de modélisation de la langue pour des systèmes de transcription ou d'indexation de la parole. Les modèles de langage les plus fréquemment utilisés dans les systèmes de reconnaissance sont des modèles probabilistes, estimés à partir de statistiques obtenues sur des textes et des transcriptions d'enregistrements audio. Cette approche est également utilisée au niveau sémantique.

Le thème 3 a pour objet le développement de systèmes de traitement du langage parlé reposant à la fois sur les recherches effectuées dans les autres thèmes (modélisation acoustique, lexicale et linguistique) et sur des recherches spécifiques au dialogue (processus de compréhension, modélisation du dialogue et de la tâche). Ces activités de recherche ont un lien fort avec nos activités de valorisation qui se traduisent par le transfert de notre technologie vers l'industrie.

LES THEMES DE RECHERCHE

THÈME 1 : MODÉLISATION ACOUSTIQUE ET LEXICALE

L. Lamel, M. Adda-Decker,G. Adda, C. Barras, L. Canseco, C. Demars, J.-L. Gauvain, S. Hermier, F. Lefèvre

Les travaux de recherche menés dans ce thème portent essentiellement sur les unités acoustiques et lexicales utilisées pour modéliser le langage parlé.

Modélisation acoustique

Concernant la modélisation acoustico-phonétique pour la transcription de la parole, nous utilisons des modèles acoustiques de phones, où la notion de phone se réfère au terme linguistique de phonème, tout en laissant la possibilité de modéliser d'autres types de segments, comme les respirations, hésitations, et bruits divers qu'on observe fréquemment dans le langage parlé. Une meilleure prédiction des modèles de phones est obtenue en distinguant pour un phone donné différents modèles suivant le contexte phonémique (modèles contextuels), suivant le sexe des locuteurs (modèles homme/femme), suivant le canal de transmission (modèles bande-large/téléphone, etc.).

Nous avons élaboré une méthodologie pour développer des modèles acoustiques, méthodologie qui a été appliquée avec succès à des langues et domaines différents. L'estimation des paramètres des modèles markoviens requiert un alignement entre le signal et les modèles de phones, qui nécessite habituellement une transcription orthographique précise des enregistrements et un bon dictionnaire de prononciations contenant tous les mots du corpus. Une grande proportion des erreurs de transcription ou d'alignement est détectée automatiquement à ce niveau et les segments correspondants sont rejetés. L'algorithme EM (``Expectation-Maximization'') est utilisé pour estimer les paramètres des modèles. Ces opérations sont habituellement réitérées plusieurs fois pour optimiser les modèles, en respectant un certain nombre de règles (établies par expérience) afin de garantir une convergence optimale. Un arbre de décision phonémique permet de partager un même nombre de gaussiennes entre un grand nombre de contextes. Des arbres de décision ont été développés pour les différents langages d'intérêt, contenant environ 150 questions concernant la position du phone, les traits distinctifs du phone (et leurs identités) ainsi que les phones voisins.

Les objectifs de nos travaux récents étaient d'une part le développement de modèles acoustiques pour un décodeur rapide et d'autre part l'amélioration de la généricité et de la portabilité de ces modèles (dans le contexte du projet CORETEX). Les meilleurs modèles ont généralement un grand nombre de paramètres et nécessitent une puissance de calcul importante, mais ces modèles étant précis il est possible de réduire le nombre d'hypothèses à évaluer et de réduire le coût global du décodage. Pour chaque point de fonctionnement, le bon équilibre entre la complexité des modèles et le nombre d'hypothèses développées doit être déterminé afin d'optimiser les fonctionnement du décodeur.

Les progrès récents en matière de reconnaissance de la parole sont largement liés à l'estimation de modèles plus précis grâce à la disponibilité de grands corpus de parole. Cependant les performances des systèmes les plus avancés restent très sensibles aux conditions acoustiques et au style de parole. Afin d'évaluer la généricité des modèles acoustiques, nous avons étudié pour plusieurs tâches l'impact du corpus d'apprentissage sur les résultats de reconnaissance. On a pu observer que les modèles acoustiques entraînés sur les documents d'informations radio et TV ont un degré élevé de généricité.

Parmi les coûts engendrés par le développement d'un système de transcription automatique, celui correspondant à l'acquisition et l'annotation du corpus nécessaire au développement des modèles acoustiques est souvent cité parmi les plus élevés. Certaines sources, telles que radios et télévisions, peuvent fournir une quantité quasi illimitée de données acoustiques ; cependant, il n'existe pas, pour la très grande majorité de ces données, de transcription de qualité suffisante. Nous étudions des méthodes moins dépendantes de la disponibilité des données annotées manuellement pour la construction de modèles acoustiques, c'est-à-dire, la possibilité d'utiliser pour l'apprentissage des modèles acoustiques des données transcrites à faible coût. L'idée principale est d'utiliser un système de reconnaissance initial, afin de transcrire les données d'apprentissage. En augmentant progressivement le volume de données ainsi transcrites, de meilleurs modèles peuvent être estimés et ensuite utilisés pour la transcription de nouvelles données. Cette procédure est initialisée en utilisant des modèles acoustiques entraînés sur une heure de données transcrites manuellement. Les résultats obtenus en utilisant environ 500 h de données transcrites automatiquement sont comparables (moins de 10 % d'augmentation relative du taux d'erreur) à ceux obtenus en utilisant des modèles acoustiques entraînés sur 200~h de données transcrites manuellement. Cette nouvelle approche devrait nous permettre de réduire significativement les coûts de développement et de portage des systèmes de reconnaissance.

Modélisation lexicale

La modélisation lexicale consiste à définir un vocabulaire et à associer une ou plusieurs transcriptions phonémiques à chaque entrée lexicale. Le choix des unités lexicales (en collaboration avec le thème 2) repose sur différents critères~: les unités doivent pouvoir être extraites automatiquement à partir de corpus de textes ou de parole transcrite; pour une taille de lexique donnée, le choix des unités doit optimiser le taux de couverture pour la langue ou le langage de l'application considérée. La définition d'unité lexicale peut donc être plus ou moins difficile suivant la nature des textes et la langue traitée, et le choix peut être motivé par les prononciations observées. Une suite de mots peut être regroupée en une seule entrée lexicale si elle admet de fortes réductions de prononciation.

Les modèles acoustiques des entrées lexicales sont obtenus par concaténation des modèles de phones suivant la ou les prononciations permises par le dictionnaire de prononciation. Ce dictionnaire permet d'expliciter des variantes non représentées implicitement dans les modèles. Une question, qui reste posée dans la communauté scientifique, concerne l'adjonction de variantes de prononciations dans le dictionnaire de prononciation. Quelles variantes ajouter ? Lesquelles omettre ? Ajouter un grand nombre de variantes sans pondération par leur fréquence d'observation nuit aux performances de reconnaissance. Pour mesurer l'occurrence de variantes dans de grands corpus nous avons fait des études d'alignement automatique de textes lus et de parole spontanée utilisant des dictionnaires à fort taux de variantes. Toutes les configurations testées en anglais et en français, avec des modèles acoustiques indépendants et dépendants du contexte, ont montré que le besoin en variantes dépend de la configuration du système et qu'il décroît significativement avec une précision accrue des modèles. Un système d'alignement peut cependant servir d'outil à l'analyse linguistique de grands corpus de parole et contribuer ainsi à accroître nos connaissances concernant le langage parlé, en particulier les variantes associées aux différents styles d'élocution, les phénomènes d'hésitations et les accents.

Nous travaillons dans un cadre multilingue qui nous permet de valider la généricité des approches de modélisation. Une des parties les plus sensibles au changement de langue concerne le dictionnaire de prononciation. En mandarin, le vocabulaire comprend un mélange de mots et de caractères syllabiques permettant une couverture presque totale de la langue. Le dictionnaire de prononciation inclu une représentation simplifiée de trois niveaux de tons. Pour l'allemand, nous travaillons sur la décomposition de mots afin d'améliorer la conversion graphèmes-phonèmes et la couverture lexicale, qui est significativement plus faible en allemand qu'en français ou en anglais.

THÈME 2 : MODÉLISATION LINGUISTIQUE

G. Adda, H. Schwenk, M. Adda-Decker, A. Allauzen, L. Chen, J.L. Gauvain, V. Gendner, L. Lamel, Y.Y. Lo, J. Mariani, P. Paroubek, Y. Quintin de Kercadio

Ce thème concerne les recherches sur la modélisation linguistique pour les systèmes de reconnaissance de la parole et d'indexation sémantique de documents audio.

Corpus et évaluation

Le matériau permettant l'estimation des modèles de langage est le texte. Afin qu'il soit utilisable, il est nécessaire de le normaliser, c'est-à-dire de définir quelle sera l'unité retenue (qu'est-ce qu'un mot), puis de normaliser les textes afin d'estimer au mieux les distributions de ces unités dans les textes. Pour le français, nous traitons des styles de textes de diverses natures~: rapports médicaux, journaux, magazines, transcriptions manuelles ou fines d'émissions radio et télédiffusées, et textes issus du Web.

Nous visons à couvrir un large éventail de langues (français, anglais, allemand, portugais, mandarin, arabe), afin de rendre nos méthodes plus génériques. Pour le mandarin, où la segmentation en mot est un problème en soi, la seule unité facilement identifiable est l'idéogramme. Nous avons adopté une approche mixte, en utilisant un dictionnaire composé des mots les plus fréquents et complété par l'ensemble des idéogrammes possibles.

En parallèle, des recherches sont menées pour étudier l'apport possible des méthodes d'analyse textuelles (analyse morpho-syntaxique et analyse syntaxique robuste) à la constitution de modèles de langage, et pour définir des critères d'évaluation pour ces méthodes d'analyse. De manière plus générale, nous considérons aussi l'étude des aspects formels de l'évaluation appliquée aux systèmes d'analyse du langage.

Au-delà des n-grammes

Les modèles de langage les plus performants à ce jour pour les systèmes de reconnaissance de la parole, sont des modèles n-grammes, qui prédisent un mot connaissant les n-1 mots précédents, les valeurs de n=3 ou 4 assurant une très bonne prédiction dans la majorité des cas.

Ces modèles de langage probabilistes reposent le plus souvent sur un paradigme empirique~: une bonne estimation de la probabilité d'un événement linguistique peut-être obtenue en observant cet événement sur un corpus de texte. La proximité (aussi bien temporelle, que lexicale, syntaxique et sémantique), de ce corpus avec la tâche pour laquelle le modèle de langage est construit est un paramètre crucial pour que cette estimation soit la moins biaisée possible. Nous avons expérimenté la possibilité de construire des modèles de langage dépendant du thème, le choix du modèle final se faisant en interpolant ces modèles à l'aide de poids estimés sur un corpus de développement. L'utilisation de modèles dépendant du thème permet une meilleure prédiction qu'un modèle généraliste, sur un domaine thématique précis. Un des problèmes afférents au développement de ces modèles, est la segmentation d'un texte en unités monothématiques, et réciproquement la définition des thèmes qui permettent une telle segmentation; nous avons résolu ce problème par une méthode de classification originale, utilisant une liste de mots-clés. Une première évaluation sur une tâche de transcription d'émissions radiodiffusées en mandarin, nous a permis d'obtenir une réduction significative du taux d'erreur de reconnaissance d'idéogrammes.

La représentation habituelle des mots dans un espace discret rend difficile la généralisation à des contextes non-observés, puisqu'une interpolation dans un espace discret est par nature délicate. Nous avons développé un modèle de langage connexioniste afin de remédier à ce problème. L'idée de base consiste à traiter la tâche d'estimation des n-grammes dans un espace continu. Pour cela, chaque mot est projeté dans un espace vectoriel de dimension 40 à 100, la probabilité d'un mot en contexte étant ensuite estimée à partir de cette représentation. L'utilisation d'un réseau de neurones permet d'apprendre conjointement la projection et l'estimation des densités. Autre intérêt de l'approche, le nombre de paramètres augmente linéairement avec la taille du contexte et la taille du vocabulaire~: ainsi des contextes bien supérieurs à 3 ou 4 mots peuvent être utilisés. Nous avons validé la faisabilité de l'approche pour la reconnaissance de la parole conversationnelle~: de faibles mais consistantes améliorations de la perplexité et du taux d'erreur sur les mots ont été obtenues.

L'adaptation des modèles linguistiques est un défi pour les systèmes de transcription de documents d'information radio et TV, où il est particulièrement important de maintenir les modèles à jour. L'actualité journalistique décrit des événements nouveaux et peut aborder des thèmes inconnus jusqu'à présent, restant ensuite dans l'actualité pendant un temps très variable. L'existence de sources de données contemporaines, telles que les journaux électroniques disponibles sur Internet, nous permet d'envisager une adaptation automatique des modèles de langage, cependant l'extension automatique du dictionnaire de prononciation reste problématique en particulier pour des noms propres étrangers.

Indexation sémantique

De nombreuses applications exploitant des documents audiovisuels peuvent bénéficier des progrès réalisés en reconnaissance vocale. Parmi ces applications nous pouvons citer l'indexation et l' alerte. L'indexation par le contenu, c'est-à-dire la possibilité d'indexer puis de rechercher un document audiovisuel en utilisant la transcription automatique de la bande son, est abordée dans plusieurs projets européens, et a fait l'objet du développement d'un moteur de recherche, évalué dans le cadre de la tâche SDR ( Spoken Document Retrieval) des évaluations TREC-8 et TREC-9 ( Text REtrieval Conference). Le rôle de ce moteur de recherche est d'identifier des passages du flux audio correspondant à un sujet donné. A l'opposé de données textuelles, la notion de "documents" dans un flux audio n'est pas définie précisément car la frontière de documents n'est pas connue a priori. Nous avons développé une méthode à double fenêtre temporelle glissante pour l'indexation des transcriptions issues du système de reconnaissance. La segmentation et l'identification en thèmes sont deux problèmes indissociables; on peut donc améliorer significativement le processus d'indexation en évitant les erreurs dues à un décodage en deux étapes: segmentation puis identification. Le nouveau moteur de recherche a été évalué en utilisant les données de l'évaluation SDR de TREC-9 (600h heures d'audio) et les résultats ont été comparés à l'approche en deux étapes. Les résultats en terme de précision moyenne montrent clairement l'intérêt de cette technique d'indexation par fenêtre glissante : 52.3% contre 33.3%, à comparer avec 59.6% pour une segmentation manuelle.

L'alerte, c'est-à-dire le filtrage de documents en fonction d'un thème connu ou de documents voisins, est abordée dans le cadre d'une convention DGA, et de projets européens et nationaux. Nous avons développé une première approche, où un document est segmenté en histoires (extraits parlant d'un seul événement), chaque histoire étant annotée par des mots-clés. La tâche consiste à affecter à une histoire inconnue les mots-clés les plus significatifs étant donné les probabilités unigramme ou bigramme des mots de l'histoire. Nous avons testé cette approche sur un corpus couvrant une année d'informations radio et télédiffusées en anglais américain, ainsi que sur une année du journal Le Monde. Les résultats en identification de thèmes (environ 4500 thèmes) sur les transcriptions en anglais américain sont supérieurs à 60 d'identification correcte en première position.

Dans les deux applications mentionnées ici, les termes utilisés pour indexer le document ou identifier le thème sont les mots (ou leur racine). Nous explorons la possibilité d'utiliser comme terme (et en premier lieu d'identifier) des expressions désignant un individu, un lieu, un événement, une date ou une donnée numérique. Plusieurs approches pour l'identification de ces expressions (appelées entités nommées), la première purement probabiliste, la seconde utilisant une grammaire d'automates, et la troisième un étiquetage en partie du discours, ont obtenu des résultats comparables sur un corpus de transcription d'informations radio et télédiffusées. Face à la difficulté de définir sans ambiguïté les termes et les documents, en particulier lorsqu'il s'agit de documents audiovisuels, nous explorons des méthodes robustes de segmentation et d'identification de thèmes, alliant techniques statistiques et méthodes linguistiques.

THÈME 3 : SYSTÈMES DE RECONNAISSANCE ET DIALOGUE

J.-L. Gauvain, G. Adda, M. Adda-Decker, C. Barras, E. Bilinski, L. Devillers, J.J. Gangolf, L. Lamel, F. Lefèvre, K. McTait, H. Maynard, S. Rosset, P. Paroubek, H. Schwenk

Les activités de ce thème peuvent être classées selon deux axes principaux~: la transcription et la structuration de documents audio, et le développement de systèmes de dialogue.

Transcription et structuration de documents audio

Un de nos objectifs est de développer des systèmes de transcription de la parole continue qui soient indépendants du locuteur et de l'application, et robustes aux conditions de prise de son. Ce travail est effectué dans un cadre multilingue sur des documents radio et télédiffusés~: nous avons développé des systèmes de reconnaissance avec des vocabulaires de 65000 mots pour l'anglais américain, l'allemand, le français et le mandarin. L'une des applications visées est l'indexation automatique de documents audiovisuels. Les méthodes actuelles sont en grande partie manuelles, des documentalistes devant lire, écouter, regarder, annoter par thèmes et identifier les éléments d'intérêt. L'automatisation de certaines de ces activités est nécessaire pour généraliser l'accès par le contenu aux documents audiovisuels. Parmi les applications existantes qui peuvent bénéficier de ces nouvelles technologies, on peut citer l'indexation de bibliothèques numériques multimédia (projets LE-4 OLIVE et ECHO) et la pige des médias audiovisuels (projets LE-5 ALERT et RNRT THEOREME), ainsi que quelques applications émergentes comme la diffusion sélective d'information et la diffusion d'audiovisuel sur Internet.

Les documents audiovisuels sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides ou graduelles. Ces conditions nous amènent à segmenter (automatiquement) le flux audio afin d'adapter les modèles à la nature des données (locuteur, bande passante, niveau et type de bruit, langue, musique, sujet, ...). Cette segmentation constitue en outre un premier niveau de structuration du document. Nous avons développé un algorithme original qui effectue simultanément la segmentation et la classification des segments en modélisant le flux audio par un ensemble de sources multi-gaussiennes. Cette procédure, mise au point pour l'anglais, a été utilisée pour des documents en français, en allemand et en mandarin, mettant en évidence une relative indépendance par rapport à la langue.

Notre système de transcription d'émissions d'information en anglais américain a été classé au meilleur niveau lors des quatre dernières campagnes d'évaluation organisées par le NIST et DARPA. Dans le cadre du projet européen OLIVE et d'un marché DGA, nous avons étendu ce système aux langues française et allemande avec des performances comparables à celles mesurées pour l'anglais. L'extension au mandarin a pu être effectuée grâce à la disponibilité de données audio et textuelles au LDC (Linguistic Data Consortium). Le portage vers trois autres langues (arabe, espagnol et portugais) est en cours.

La nécessité de traiter de grandes quantités de données, nous a amenés à développer un nouveau décodeur. Ce décodeur permet de transcrire des émissions d'information en 5 à 10 fois le temps réel avec une augmentation du taux d'erreur réduite par rapport à notre meilleur système (100 fois le temps réel), et quasiment en temps réel avec un taux d'erreur sur les mots de l'ordre de 30.

Un démonstrateur d'un système de recherche dans des documents audio a été développé en combinant le système de transcription de la parole avec un système de recherche d'information textuelle, offrant un accès direct, par le contenu linguistique, à des documents audiovisuels non indexés manuellement. Les premiers résultats (sur environ 500 heures) indiquent que la qualité de la transcription automatique n'est pas un facteur limitant pour les techniques actuelles d'indexation (cf. thème 2). Ce système a été testé dans le cadre de l'évaluation TREC-9 SDR sur la recherche documentaire dans des données audio, et a été exposé aux conférences RIAO (avril 2000), ISCA ASR'00 (sept. 2000), et IEEE ARSU'01 (déc. 2001).

Les documents audiovisuels disponibles sur Internet étant en général fortement compressés, nous avons mesuré l'impact de différentes techniques de compression de l'audio (MP3, RealAudio et GSM) sur le niveau de performance de nos systèmes. Ces expériences nous ont permis de conclure à la faisabilité de l'indexation de documents audio pour des débits supérieurs à 6.5kb/s. Nous avons donc entrepris de valider ce concept en indexant quotidiennement des documents audiovisuels, reprenant ainsi l'approche développée pour les documents textuels.

Systèmes de dialogue

Dans les systèmes de dialogue oral, le but est d'interpréter les requêtes de l'utilisateur en fonction de la tâche et de l'état du dialogue pour lui donner les informations recherchées tout en assurant une interaction aussi conviviale qu'efficace. Les recherches spécifiques au dialogue oral portent sur la modélisation de la parole spontanée, la modélisation des processus de compréhension, la gestion du dialogue et l'intégration de la reconnaissance de la parole avec d'autres modalités telles que le toucher, le geste, et la synthèse de la parole.

La sortie du système de reconnaissance est transmise au module d'interprétation littérale qui analyse la requête pour en extraire le sens. Pour la compréhension deux approches sont développées : une approche statistique s'appuyant essentiellement sur les données observées et une approche par grammaire de cas qui nécessite l'écriture des règles d'interprétation à partir de connaissances linguistiques et des données observées. Un des objectifs des travaux actuels est d'aller vers une intégration des processus de reconnaissance et de compréhension en utilisant une modélisation stochastique commune.

Le rôle du gestionnaire de dialogue est de guider l'utilisateur afin qu'il fournisse l'information nécessaire à la construction des requêtes pour la base de données. Les réponses en langage naturel sont générées à partir du schéma sémantique et de l'information extraite de cette base de données.

Notre objectif est un taux élevé de dialogues réussis avec une structure de dialogue très ouverte, laissant l'utilisateur libre de s'exprimer comme il le souhaite. La stratégie de dialogue dépend des caractéristiques et fonctionnalités voulues par le concepteur mais doit aussi prendre en compte les contraintes spécifiques au dialogue oral que sont la parole spontanée et les erreurs de reconnaissance. Le gestionnaire de dialogue utilise des informations statiques (connaissances linguistiques et pragmatiques, connaissances sur le domaine, modèle de la tâche et modèle de dialogue) ainsi que des connaissances dynamiques (historique du dialogue, états successifs du dialogue et parcours dans la tâche).

Nous avons développé et évalué des systèmes de dialogue pour des renseignements ferroviaires et la domotique dans le cadre de plusieurs projets européens. La société VECSYS développe actuellement un prototype industriel d'un serveur téléphonique pour la SNCF à partir de nos travaux (projet ARISE). Dans le cadre du projet AMITIES, une annotation de grands corpus de dialogue homme-homme et homme-machine sur différents niveaux (lexical, sémantique, dialogique, style) pour différentes langues (anglais, américain, allemand et français) et dans différents domaines d'application (services financiers de prêts bancaires et service boursier) est en cours. L'objectif est de proposer des modélisations s'appuyant sur ces données et permettant l'adaptation des systèmes à de nouvelles langues et à de nouvelles tâches. Nous allons également vers une augmentation des capacités d'adaptation dynamique des stratégies de dialogue en modélisant le comportement des utilisateurs.

RELATIONS EXTERIEURES

Enseignement et diffusion des connaissances

Les membres du groupe TLP interviennent dans les formations suivantes sur des sujets relatifs à nos activités de recherche~:

DEA d'Electronique ``Systèmes Electroniques de Traitement de l'Information'' du département de Physique de Paris XI, module ``Traitement du Signal de Parole''(H. Schwenk)
DEA ``Sciences cognitives'' du département d'Informatique de Paris XI (L. Devillers, H. Schwenk)
DEA I³, Dialogue oral homme-machine, Paris XI (L. Devillers, H. Schwenk)
DESS ``Systèmes et Communication Homme-Machine'' du département d'Informatique de Paris XI, cours sur le traitement de la parole (L. Devillers, F. Lefevre, H. Schwenk), cours sur le traitement statistique de l'information (H. Schwenk), étude de cas ``Système d'interrogation vocale du WEB'' (F. Lefevre, H. Schwenk).
ENSTA à Paris, 3e année du cycle d'ingénieur, module ``Traitement de la parole''(M. Adda-Decker, L. Devillers, C. Barras, H. Schwenk)
Maîtrise d'informatique de Paris XI, travail d'étude et de recherche sur la segmentation vidéo pour l'indexation (C. Barras), et sur la reconnaissance de la parole (H. Schwenk)
FIIFO (formation d'ingénieurs de Paris XI), 4e année, spécialisation Interface Homme-Machine, cours sur la reconnaissance automatique de la parole (C. Barras)
DEA de phonétique de Paris 7, cours de traitement du signal (C. Barras)

Projets et contrats (période 2000-2001)

L'approche prédominante en matière de traitement automatique du langage parlé repose sur une modélisation statistique du processus de génération de la parole et nécessite de grandes quantités de données collectées en conditions réelles (essentiellement dans le cadre d'applications). Ce type de recherche nécessite des moyens matériels et humains importants, en particulier pour collecter les données. C'est la raison pour laquelle nombre de nos activités de recherche sont liées à des ressources contractuelles offrant les moyens et un cadre applicatif propices à la valorisation de ces activités. Voici la liste des projets en cours en 2000 et 2001~:

Projet Européen TIDE HOME-AOM (1997-2000) -- ``Home application Optimum Multimedia / multimodal system for Environment control'' (Interface multimodale et multimédia pour le contrôle d'environnement)
Partenaires: **Truth, Siem, IAO/IAT U. Stuttgart, INT, Domologic, Secure Communications, Proteor, U.~Dortmund, VECSYS
Projet Européen LE-4 OLIVE (1998-2000) -- ``A Multilingual Indexing Tool for Broadcast Material Based on Speech Recognition'' (Développement d'un système d'indexation automatique de documents audiovisuels dans trois langues~: anglais, français et allemand.)
Partenaires: TNO, ARTE, INA, NOB, DFKI, U.~Twente, VDA, VECSYS
http://twentyone.tpd.tno.nl/olive/
Projet RNRT VOCADIS (1998-2000) -- ``Interfaces vocales distribuées'' (Etude et standardisation de paramètres acoustiques pour des terminaux GSM et Internet dans des architectures de systèmes de reconnaissance de parole distribuée.)
Partenaire: Matra Nortel Communications
http://www.telecom.gouv.fr/rnrt/projets/pvocadis.htm
Marché DGA (2000-2002) -- ``Indexation d'émissions multilingues'', (Les documents traités sont principalement des journaux radio et télédiffusés, et les langues d'intérêt sont le français, l'allemand et l'arabe.)
Projet RNRT THEOREME (2000-2002) -- ``Thématisation par reconnaissance vocale des médias'' (Développement d'un démonstrateur pour la thématisation automatique de la bande son d'un média audiovisuel pour des applications de pige d'informations.)
Partenaires: VECSYS, MRIM-CLIPS, Secodip
http://www-mrim.imag.fr/projets/theoreme.php
Projet Européen IST-HLT ALERT (2000-2002) -- ``Alert system for selective dissemination'' (Développement d'une technologie associant reconnaissance de la parole, techniques de segmentation audio et vidéo, et techniques de recherche documentaire pour la pige des médias audiovisuels, la diffusion sélective d'information et la diffusion d'audiovisuel sur Internet.)
Partenaires: U.~Duisburg, Secodip, Observer, 4VDO, RTP, Vecsys, INESC
http://alert.uni-duisburg.de/
Projet Européen IST ECHO (2000-2002) -- ``European CHronicles On-line'' (Développement d'une architecture flexible pour les archives audiovisuelles distribuées~: extraction semi-automatique de méta-données, reconnaissance de la parole, interface multilingue, résumé automatique, etc.)
Partenaires: IEI-CNR, CMU, Tecmatch, Eurospider, INA, Institut Luce, NAA
http://pc-erato2.iei.pi.cnr.it/echo/
Projet Européen IST-HLT CORETEX (2000-2003) ``Improving Core Speech Recognition Technology'' (L'objectif de ce projet est l'amélioration de l'état de l'art en matière de reconnaissance automatique de la parole en s'intéressant essentiellement aux aspects suivants~: généricité, adaptabilité et portabilité.)
Partenaires : RWTH U.~Aachen, ITC-IRST, U.~Cambridge
http://coretex.itc.it/
Projet Européen IST-5 CLASS (2000-2002) -- ``Collaboration in Language and Speech Science and technology'' (Support pour le développement de collaborations entre les projets de R&D sur les sujets de recherche suivants~: interaction naturelle et multimodale, gestion de connaissance interlingue, présentation interactive intelligente d'information, et évaluation pour les technologies l'analyse de la parole et du texte.)
Partenaires: NIS U.~Odense, ITC-IRST, DFKI
http://www.class-tech.org/
Projet US-CE AMITIES (2001-2004) -- ``Automated Multilingual Interaction with Information and Services'' (Le consortium international du projet AMITIES, constitué de partenaires européens et américains, a pour objectif de développer des technologies fondées sur des approches empiriques, génériques et adaptatives pour construire des systèmes multilingues de dialogue oral homme-machine.)
Partenaires: U.~Sheffiled, Viel Capitol, GE Capital Service Centers, GE R&D, Vecsys, SUNY Albany, Duke U.
http://www.dcs.shef.ac.uk/nlp/amities
Projet STIC-SHS MIDL (2001-2002) -- ``Modélisations pour l'identification des langues'' en partenariat avec la DGA et le ILPGA (Institut de Phonétique).

Animations scientifiques et responsabilités institutionnelles

G. Adda est membre nommé de la commission administrative paritaire des techniciens du CNRS. Il a été membre du comité scientifique de la conférence Eurospeech'2001.
M. Adda-Decker était membre élu au bureau du Groupe Francophone de la Communication Parlée (GFCP) de la SFA jusqu'en décembre 2001, et est à présent membre fondateur de la nouvelle Association Francophone de la Communication Parlée (AFCP). Elle a été membre du comité scientifique des conférences JEP'2000 et ASR'2000. Jusqu'en 2001, elle était membre du bureau de la commission de spécialistes 27ème section de Paris XI, elle est à présent membre suppléant de cette même commission. Elle est également membre nommé de la commission de spécialistes 4ème section de l'Université de la Nouvelle-Calédonie. M. Adda-Decker est expert auprès de la CEC pour les projets dans le cadre du FP5, et auprès de l'IWT (Institut pour la promotion de l'innovation par la science et la technologie) du gouvernement flamand pour les projets du programme STWW sur la technologie de l'information et de la communication.
L. Devillers est membre de la commission de spécialistes 27ème section de Paris XI.
J.L. Gauvain est membre élu du ``IEEE Speech Technical Committee'', il a été expert auprès de la CEC pour les projets dans le cadre du FP5, il a été membre du executive program committee de la conférence ``Human Language Technology 2001'' (DARPA, NSF), membre des comités d'organisation des conférences ISCA ASR'2000 et IEEE ASRU'2001, et membre des comités scientifiques des conférences Eurospeech'2001, ICASSP'2000 et 2001, et ITRW AMSR'2001. Il est vice-président de la commission de spécialistes 27ème section de Paris XI. Il a été co-éditeur du numéro spécial ``Advances in Large Vocabulary Speech Recognition'' dans la revue Computer, Speech and Language (jan. 2002).
L. Lamel est membre élu du permanent council of ICSLP (1998-2006). Elle a été membre du comité scientifique du workshop ISCA ASR'2000, HLT'2001, et des conférences LREC'2000 et 2002, Eurospeech'2001, et RANLP'2001. Elle a été expert auprès du Research Grants Council of Hong Kong (2000, 2001, 2002). Elle est membre du EU-NSF Working Group for Spoken-Word Digital Audio Collections, (Delos Network of Excellence). Elle est membre du comité éditorial de la revue Speech Communication. Elle a été co-éditeur du numéro spécial dans Speech Communication sur la transcription de données audiovisuelles (Broadcast News Transcription, mai 2002) et dans la revue Computer, Speech and Language sur ``Advances in Large Vocabulary Speech Recognition,'' (jan. 2002).
F. Lefèvre a été membre du comité du Groupe Francophone de la Communication Parlée (GFCP) de la Société d'Acoustique jusqu'en décembre 2001. Il est membre fondateur et membre du conseil d'administration de l'Association Francophone de la Communication Parlée (AFCP), Special Interest Group de l'International Speech Communication Association. Il est membre du comité scientifique de la conférence JEP'2002.
J. Mariani Depuis la fin de ses fonctions de directeur du Limsi au 31.12.2000, J. Mariani est directeur du département "Technologies de l'Information et de la Communication" au Ministère de la Recherche (Direction de la Technologie). Il est également co-responsable de l'Action VENISE (Virtualité et Environnement Immersif pour la Simulation et l'Expérimentation), transversale à l'ensemble du LIMSI. Depuis début 2001, il est ou a été membre du Conseil Scientifique du CNRS, de la Commission Paritaire CNRS "Chargés de Recherche", du Comité Editorial du Journal du CNRS et du comité de pilotage Xlab; membre du Comité d'Evaluation de l'INRIA et du Comité de Pilotage de l'action "Corpus du Français Contemporain" de la Délégation Générale à la Langue Française et aux Langues de France; coordonnateur du réseau Francophone d'Ingénierie de la Langue de l'AUF (1994-2001); membre de la Commission de Spécialistes en "Informatique et Mathématiques" de l'Université de Corté et en "Informatique et Linguistique" de l'ENS Lyon, membre des Comités Scientifiques des laboratoires LIA, SDEM et UTC-Costech et des Conseils Consultatifs de l'Association Francophone de la Communication Parlée (AFCP), de l'Association des Professionnels de l'Ingénierie de la Langue (APIL) et de l'Association pour l'Evaluation en Linguistique (Evaling). Dans le cadre de ses fonctions au Ministère de la recherche, il est membre du Conseil d'Administration de l'Agence Nationale des Fréquences (ANFr), du Conseil d'Ecole de l'ENST-Paris et du Comité de Direction de Sup'Elec, correspondant du Programme d'Action Gouvernemental pour la Société de l'Information (PAGSI) auprès du Premier Ministre et membre des Bureaux Exécutifs des Réseaux de Recherche et d'Innovation Technologiques RNRT (Télécommunications), RNTL (Technologies du Logiciel), RMNT (Micro et Nanotechnologies), RIAM (Audiovisuel et Multimédia). Il est également membre de l'European Network Policy Group (ENPG). J. Mariani est vice-président de l'European Language Resources Association (ELRA) et membre du bureau de l'European Language and Speech Network (Elsnet), membre des Advisory Committees de l'International Speech Communication Association (ISCA), du Comité international de coordination sur les ressources vocales et l'évaluation (Cocosda), du programme américain ``Translingual Information Detection, Extraction and Summarization'' (TIDES), du projet NSF ``Distributed Science and Technology Centers'' (Rutgers University), du Bavarian Archives of Speech Institute (BAS, Munich), du programme national hollandais NWO sur le dialogue, du laboratoire CTT (Stockholm) et a été referee pour des universités ou des centres de recherche (CEA, MIT, Carnegie Mellon University, EPFL, Université de Cambridge, Université de Louvain). Il a co-organisé le ``Bullet Course on Language Technologies Evaluation'' (Paris, Juillet 2001) et le Workshop ``Evaluation for Language and Dialogue Systems'' (Toulouse, Juillet 2001). Il a été ou est membre des Comité de Programme des conférences ICUST'01 et ICUST'02 (Usage des Télécommunications), SITEF'02 (Innovation, Toulouse, Octobre 2002), LREC'02 ``Language Resources and Evaluation'' (Las Palmas, Mai 2002) et LangTech'02 (Berlin, Octobre 2002). Il a été membre des Comités Scientifiques des conférences ISKO'01, IJCAI'01, IDS'02 et HLT'02. Il est membre des comités éditoriaux des journaux ``European Student Journal on Language and Speech'' et ``International Journal of Speech Technology'', et de la série d'ouvrages ``Text, Language and Speech Processing'' (Kluwer Academic Press). Il coordonne la rédaction de l'ouvrage "Traitement du Langage Parlé", à paraître chez Hermès (2002).
H. Maynard a été membre du comité d'organisation des journées "Communication Homme-Machine" du LIMSI en octobre 2000.
P. Paroubekest coordonnateur adjoint du réseau FRANCIL. Il est membre du groupe de travail de normalisation ISO TC159/SC5/WG3.
S. Rosset est membre du groupe de travail "Evaluation des systèmes de compréhension de parole" du GDR PRC I3 (Intelligence - Information - Interaction)
H. Schwenk est co-responsable des DESS "Ingénierie Informatique" et "Systèmes et Communications Homme-Machine";