TRAITEMENT DU LANGAGE PARLÉ
Jean-Luc Gauvain
Thème 1 : Modélisation acoustique et lexicale
Thème 2 : Modélisation linguistique
Thème 3 : Systèmes de reconnaissance et dialogue
INTRODUCTION
Les recherches du groupe visent à augmenter notre compréhension des processus de la communication parlée et à développer des modèles appropriés au traitement automatique de la parole. Nos problèmes scientifiques concernent aussi bien les modélisations acoustique, lexicale et syntaxique, que le lien entre parole et sens, ainsi que la modélisation des processus de communication. Ces problèmes, par essence pluridisciplinaires, nécessitent des compétences en traitement du signal, en acoustique, en phonétique, en linguistique et en informatique. Nos recherches nous amènent à développer des systèmes multilingues de traitement du langage parlé assurant des fonctions variées telles que la reconnaissance de la parole, l'identification de la langue et du locuteur, le dialogue oral homme-machine et l'indexation de documents audio et audiovisuels. La reconnaissance de la parole consiste à convertir le signal audio en texte. Suivant l'usage visé, cette transcription peut être plus ou moins complète, avec le marquage des ponctuations, des hésitations et de certains événements non linguistiques. La langue dans laquelle s'exprime le locuteur peut être identifiée en amont du système de reconnaissance lorsque celle-ci n'est pas connue a priori. L'identification du locuteur consiste à déterminer qui parle et quand, cette identification pouvant être absolue ou relative au document traité. La modélisation du dialogue oral dans les interfaces homme-machine va bien au-delà de la transcription de la parole en texte, puisqu'il faut mettre en oeuvre des processus de compréhension et des stratégies de dialogue. Enfin, l'indexation automatique de documents audio pour l'accès à l'information par le contenu, nous amène à combiner les techniques de traitement de la parole et les techniques de traitement du langage naturel.
Nos travaux sur le décodage de la parole (au sens le plus large du terme) portent sur la segmentation et la reconnaissance de la parole continue, ainsi que l'identification du locuteur et de la langue, pour la transcription et la structuration automatiques de documents audio. Ces développements, qui s'appuient sur nos recherches en modélisation acoustique, lexicale, et linguistique, sont réalisés dans un contexte multilingue (allemand, anglais, arabe, espagnol, français, mandarin, portugais, etc.). La démarche à la base de ces travaux est le développement d'algorithmes et de modèles fondés sur la prise en compte conjointe des diverses sources d'information visant à un processus global de décodage du signal audio.
Le dialogue oral homme-machine est un sujet de recherche à multiples facettes qui nous amène à traiter l'oral spontané, à modéliser des processus de compréhension et de génération du langage, et à développer des statégies de dialogue. Nous étudions deux approches complémentaires pour traiter ces problèmes, l'une fondée sur une modélisation explicite de la tâche (approche par règles), et l'autre sur une modélisation statistique à l'aide de corpus annotés. Ces travaux se concrétisent par la réalisation de systèmes de dialogue pour l'interrogation de bases de données dans un mode oral uniquement (interrogation par téléphone) ou avec d'autres modalités de communication (kiosque multimodal).
Une problématique récente (1997) dans le groupe est l'indexation par le contenu de documents audiovisuels pour la recherche documentaire et la pige d'informations (la détection et le suivi de thèmes). Nous développons en particulier des techniques d'indexation adaptées aux particularités des documents audio (par opposition aux documents textuels). Le volume de données à traiter nous a amené à développer de nouvelles solutions pour le décodage qui permettent de réduire significativement les temps de traitement. Dans ce cadre nous travaillons également sur des méthodes d'apprentissage qui nous permettent d'exploiter des très grandes quantités de données tout en limitant les besoins en annotations manuelles. L'indexation de documents audio est devenue un de nos axes de recherche majeurs, à travers lequel nous abordons l'ensemble des problèmes liés au traitement de la parole et de l'audio, qu'il s'agisse de la segmentation du signal audio, de la transcription de la parole, de l'identification de la langue et des locuteurs, ou d'analyse sémantique.
Trois activités essentielles accompagnent et soutiennent nos recherches~: le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches par des relations industrielles en particulier dans le contexte de projets européens. Une entreprise a été créée récemment afin de faciliter nos transferts technologiques avec le monde industriel.
Au premier janvier 2002, le groupe comprenait 23 membres, dont 8 permanents CNRS, 6 enseignants - chercheurs, 3 contractuels, et 6 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure divers cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI et à l'ENSTA. En 2000 et 2001, les membres du groupe ont publié 56 articles (10 dans des revues internationales, 4 chapitres d'ouvrage, 34 dans des colloques internationaux avec actes et comité de lecture), et ont présenté 18 communications invitées. Nous avons organisé, avec le soutien du GFCP/SFA, la conférence ISCA-ITRW ASR2000 ``Automatic Speech Recognition~: Challenges for the new Millennium'' qui s'est tenue à Paris en septembre 2000.
Les contrats de recherche couvrent l'ensemble des activités du groupe, en particulier grâce aux projets européens ALERT, CORETEX, ECHO, HOME-AOM, OLIVE, AMITIES, aux conventions de recherche avec la DGA, et au programme national RNRT avec les projets VOCADIS et THEOREME. Le groupe a participé également à plusieurs programmes et projets pour la distribution de ressources linguistiques et l'évaluation (LRA, Aupelf-UREF, DISC2, ELSE et CLASS). Depuis 1992 nous avons pris part à 9 campagnes d'évaluation de systèmes de reconnaissance de la parole organisées par le NIST et DARPA. Nous avons également pris part à deux évaluations TREC SDR (1999 et 2000) sur la recherche documentaire dans des données audio, ainsi qu'à l'évaluation DARPA TDT 2001 sur la détection et le suivi de thèmes dans des documents audio et textuels.
Les recherches du groupe sont structurées en trois thèmes interdépendants~: Modélisation acoustique et lexicale (thème 1), modélisation linguistique (thème 2), et systèmes de reconnaissance et dialogue (thème 3).
Les recherches de Thème 1 portent essentiellement sur les unités acoustiques, phonétiques et lexicales utilisées pour modéliser le langage parlé dans les systèmes de transcription et de dialogue oral. Les modèles retenus doivent permettre de prédire les phénomènes observés dans le signal acoustique afin de garantir de bonnes performances. Pour atteindre cet objectif de nombreux problèmes connexes doivent être abordés. En effet le signal de parole véhicule, au-delà du message linguistique proprement dit, d'autres types d'informations, notamment les caractéristiques du locuteur, de l'environnement, de l'enregistrement, et le cas échéant, du canal de transmission. Toutes ces informations contribuent à la variabilité de la parole et mènent à des directions de recherche variées, souvent au-delà de ce thème.
Le thème 2 se trouve à la frontière entre le traitement de l'écrit et celui de l'oral. Il s'agit de développer des méthodes et des outils de modélisation de la langue pour des systèmes de transcription ou d'indexation de la parole. Les modèles de langage les plus fréquemment utilisés dans les systèmes de reconnaissance sont des modèles probabilistes, estimés à partir de statistiques obtenues sur des textes et des transcriptions d'enregistrements audio. Cette approche est également utilisée au niveau sémantique.
Le thème 3 a pour objet le développement de systèmes de traitement du langage parlé reposant à la fois sur les recherches effectuées dans les autres thèmes (modélisation acoustique, lexicale et linguistique) et sur des recherches spécifiques au dialogue (processus de compréhension, modélisation du dialogue et de la tâche). Ces activités de recherche ont un lien fort avec nos activités de valorisation qui se traduisent par le transfert de notre technologie vers l'industrie.
LES THEMES DE RECHERCHE
THÈME 1 : MODÉLISATION ACOUSTIQUE ET LEXICALE
L. Lamel, M. Adda-Decker,G. Adda, C. Barras, L. Canseco, C. Demars, J.-L. Gauvain, S. Hermier, F. Lefèvre
Les travaux de recherche menés dans ce thème portent essentiellement
sur les unités acoustiques et lexicales utilisées pour modéliser le
langage parlé.
Modélisation acoustique
Concernant la modélisation acoustico-phonétique pour la transcription de la parole, nous utilisons des modèles acoustiques de phones, où la notion de phone se réfère au terme linguistique de phonème, tout en laissant la possibilité de modéliser d'autres types de segments, comme les respirations, hésitations, et bruits divers qu'on observe fréquemment dans le langage parlé. Une meilleure prédiction des modèles de phones est obtenue en distinguant pour un phone donné différents modèles suivant le contexte phonémique (modèles contextuels), suivant le sexe des locuteurs (modèles homme/femme), suivant le canal de transmission (modèles bande-large/téléphone, etc.).
Nous avons élaboré une méthodologie pour développer des modèles acoustiques, méthodologie qui a été appliquée avec succès à des langues et domaines différents. L'estimation des paramètres des modèles markoviens requiert un alignement entre le signal et les modèles de phones, qui nécessite habituellement une transcription orthographique précise des enregistrements et un bon dictionnaire de prononciations contenant tous les mots du corpus. Une grande proportion des erreurs de transcription ou d'alignement est détectée automatiquement à ce niveau et les segments correspondants sont rejetés. L'algorithme EM (``Expectation-Maximization'') est utilisé pour estimer les paramètres des modèles. Ces opérations sont habituellement réitérées plusieurs fois pour optimiser les modèles, en respectant un certain nombre de règles (établies par expérience) afin de garantir une convergence optimale. Un arbre de décision phonémique permet de partager un même nombre de gaussiennes entre un grand nombre de contextes. Des arbres de décision ont été développés pour les différents langages d'intérêt, contenant environ 150 questions concernant la position du phone, les traits distinctifs du phone (et leurs identités) ainsi que les phones voisins.
Les objectifs de nos travaux récents étaient d'une part le développement de modèles acoustiques pour un décodeur rapide et d'autre part l'amélioration de la généricité et de la portabilité de ces modèles (dans le contexte du projet CORETEX). Les meilleurs modèles ont généralement un grand nombre de paramètres et nécessitent une puissance de calcul importante, mais ces modèles étant précis il est possible de réduire le nombre d'hypothèses à évaluer et de réduire le coût global du décodage. Pour chaque point de fonctionnement, le bon équilibre entre la complexité des modèles et le nombre d'hypothèses développées doit être déterminé afin d'optimiser les fonctionnement du décodeur.
Les progrès récents en matière de reconnaissance de la parole sont largement liés à l'estimation de modèles plus précis grâce à la disponibilité de grands corpus de parole. Cependant les performances des systèmes les plus avancés restent très sensibles aux conditions acoustiques et au style de parole. Afin d'évaluer la généricité des modèles acoustiques, nous avons étudié pour plusieurs tâches l'impact du corpus d'apprentissage sur les résultats de reconnaissance. On a pu observer que les modèles acoustiques entraînés sur les documents d'informations radio et TV ont un degré élevé de généricité.
Parmi les coûts engendrés par le développement d'un système de transcription
automatique, celui correspondant à l'acquisition et l'annotation du corpus
nécessaire au développement des modèles acoustiques est souvent cité parmi les
plus élevés. Certaines sources, telles que radios et télévisions, peuvent
fournir une quantité quasi illimitée de données acoustiques ; cependant, il
n'existe pas, pour la très grande majorité de ces données, de transcription de
qualité suffisante. Nous étudions des méthodes moins dépendantes de la
disponibilité des données annotées manuellement pour la construction de modèles
acoustiques, c'est-à-dire, la possibilité d'utiliser pour l'apprentissage des
modèles acoustiques des données transcrites à faible coût. L'idée principale est
d'utiliser un système de reconnaissance initial, afin de transcrire les données
d'apprentissage. En augmentant progressivement le volume de données ainsi
transcrites, de meilleurs modèles peuvent être estimés et ensuite utilisés pour
la transcription de nouvelles données. Cette procédure est initialisée en
utilisant des modèles acoustiques entraînés sur une heure de données transcrites
manuellement. Les résultats obtenus en utilisant environ 500 h de données
transcrites automatiquement sont comparables (moins de 10 % d'augmentation
relative du taux d'erreur) à ceux obtenus en utilisant des modèles
acoustiques entraînés sur 200~h de données transcrites manuellement.
Cette nouvelle approche devrait nous permettre de réduire
significativement les coûts de développement et de portage des
systèmes de reconnaissance.
Modélisation lexicale
La modélisation lexicale consiste à définir un vocabulaire et à associer une ou plusieurs transcriptions phonémiques à chaque entrée lexicale. Le choix des unités lexicales (en collaboration avec le thème 2) repose sur différents critères~: les unités doivent pouvoir être extraites automatiquement à partir de corpus de textes ou de parole transcrite; pour une taille de lexique donnée, le choix des unités doit optimiser le taux de couverture pour la langue ou le langage de l'application considérée. La définition d'unité lexicale peut donc être plus ou moins difficile suivant la nature des textes et la langue traitée, et le choix peut être motivé par les prononciations observées. Une suite de mots peut être regroupée en une seule entrée lexicale si elle admet de fortes réductions de prononciation.
Les modèles acoustiques des entrées lexicales sont obtenus par concaténation des modèles de phones suivant la ou les prononciations permises par le dictionnaire de prononciation. Ce dictionnaire permet d'expliciter des variantes non représentées implicitement dans les modèles. Une question, qui reste posée dans la communauté scientifique, concerne l'adjonction de variantes de prononciations dans le dictionnaire de prononciation. Quelles variantes ajouter ? Lesquelles omettre ? Ajouter un grand nombre de variantes sans pondération par leur fréquence d'observation nuit aux performances de reconnaissance. Pour mesurer l'occurrence de variantes dans de grands corpus nous avons fait des études d'alignement automatique de textes lus et de parole spontanée utilisant des dictionnaires à fort taux de variantes. Toutes les configurations testées en anglais et en français, avec des modèles acoustiques indépendants et dépendants du contexte, ont montré que le besoin en variantes dépend de la configuration du système et qu'il décroît significativement avec une précision accrue des modèles. Un système d'alignement peut cependant servir d'outil à l'analyse linguistique de grands corpus de parole et contribuer ainsi à accroître nos connaissances concernant le langage parlé, en particulier les variantes associées aux différents styles d'élocution, les phénomènes d'hésitations et les accents.
Nous travaillons dans un cadre multilingue qui nous permet de valider la généricité des approches de modélisation. Une des parties les plus sensibles au changement de langue concerne le dictionnaire de prononciation. En mandarin, le vocabulaire comprend un mélange de mots et de caractères syllabiques permettant une couverture presque totale de la langue. Le dictionnaire de prononciation inclu une représentation simplifiée de trois niveaux de tons. Pour l'allemand, nous travaillons sur la décomposition de mots afin d'améliorer la conversion graphèmes-phonèmes et la couverture lexicale, qui est significativement plus faible en allemand qu'en français ou en anglais.
THÈME 2 : MODÉLISATION LINGUISTIQUE
G. Adda, H. Schwenk, M. Adda-Decker, A. Allauzen, L. Chen, J.L. Gauvain, V. Gendner, L. Lamel, Y.Y. Lo, J. Mariani, P. Paroubek, Y. Quintin de Kercadio
Ce thème concerne les recherches sur la modélisation linguistique pour
les systèmes de reconnaissance de la parole et d'indexation sémantique
de documents audio.
Corpus et évaluation
Le matériau permettant l'estimation des modèles de langage est le texte. Afin qu'il soit utilisable, il est nécessaire de le normaliser, c'est-à-dire de définir quelle sera l'unité retenue (qu'est-ce qu'un mot), puis de normaliser les textes afin d'estimer au mieux les distributions de ces unités dans les textes. Pour le français, nous traitons des styles de textes de diverses natures~: rapports médicaux, journaux, magazines, transcriptions manuelles ou fines d'émissions radio et télédiffusées, et textes issus du Web.
Nous visons à couvrir un large éventail de langues (français, anglais, allemand, portugais, mandarin, arabe), afin de rendre nos méthodes plus génériques. Pour le mandarin, où la segmentation en mot est un problème en soi, la seule unité facilement identifiable est l'idéogramme. Nous avons adopté une approche mixte, en utilisant un dictionnaire composé des mots les plus fréquents et complété par l'ensemble des idéogrammes possibles.
En parallèle, des recherches sont menées pour étudier l'apport
possible des méthodes d'analyse textuelles (analyse morpho-syntaxique
et analyse syntaxique robuste) à la constitution de modèles de
langage, et pour définir des critères d'évaluation pour ces méthodes
d'analyse. De manière plus générale, nous considérons aussi l'étude
des aspects formels de l'évaluation appliquée aux systèmes d'analyse
du langage.
Au-delà des n-grammes
Les modèles de langage les plus performants à ce jour pour les systèmes de reconnaissance de la parole, sont des modèles n-grammes, qui prédisent un mot connaissant les n-1 mots précédents, les valeurs de n=3 ou 4 assurant une très bonne prédiction dans la majorité des cas.
Ces modèles de langage probabilistes reposent le plus souvent sur un paradigme empirique~: une bonne estimation de la probabilité d'un événement linguistique peut-être obtenue en observant cet événement sur un corpus de texte. La proximité (aussi bien temporelle, que lexicale, syntaxique et sémantique), de ce corpus avec la tâche pour laquelle le modèle de langage est construit est un paramètre crucial pour que cette estimation soit la moins biaisée possible. Nous avons expérimenté la possibilité de construire des modèles de langage dépendant du thème, le choix du modèle final se faisant en interpolant ces modèles à l'aide de poids estimés sur un corpus de développement. L'utilisation de modèles dépendant du thème permet une meilleure prédiction qu'un modèle généraliste, sur un domaine thématique précis. Un des problèmes afférents au développement de ces modèles, est la segmentation d'un texte en unités monothématiques, et réciproquement la définition des thèmes qui permettent une telle segmentation; nous avons résolu ce problème par une méthode de classification originale, utilisant une liste de mots-clés. Une première évaluation sur une tâche de transcription d'émissions radiodiffusées en mandarin, nous a permis d'obtenir une réduction significative du taux d'erreur de reconnaissance d'idéogrammes.
La représentation habituelle des mots dans un espace discret rend difficile la généralisation à des contextes non-observés, puisqu'une interpolation dans un espace discret est par nature délicate. Nous avons développé un modèle de langage connexioniste afin de remédier à ce problème. L'idée de base consiste à traiter la tâche d'estimation des n-grammes dans un espace continu. Pour cela, chaque mot est projeté dans un espace vectoriel de dimension 40 à 100, la probabilité d'un mot en contexte étant ensuite estimée à partir de cette représentation. L'utilisation d'un réseau de neurones permet d'apprendre conjointement la projection et l'estimation des densités. Autre intérêt de l'approche, le nombre de paramètres augmente linéairement avec la taille du contexte et la taille du vocabulaire~: ainsi des contextes bien supérieurs à 3 ou 4 mots peuvent être utilisés. Nous avons validé la faisabilité de l'approche pour la reconnaissance de la parole conversationnelle~: de faibles mais consistantes améliorations de la perplexité et du taux d'erreur sur les mots ont été obtenues.
L'adaptation des modèles linguistiques est un défi pour les
systèmes de transcription de documents d'information radio et TV, où
il est particulièrement important de maintenir les modèles à jour.
L'actualité journalistique décrit des événements nouveaux et peut
aborder des thèmes inconnus jusqu'à présent, restant ensuite dans
l'actualité pendant un temps très variable. L'existence de sources de
données contemporaines, telles que les journaux électroniques
disponibles sur Internet, nous permet d'envisager une adaptation
automatique des modèles de langage, cependant l'extension automatique
du dictionnaire de prononciation reste problématique en particulier
pour des noms propres étrangers.
Indexation sémantique
De nombreuses applications exploitant des documents audiovisuels peuvent bénéficier des progrès réalisés en reconnaissance vocale. Parmi ces applications nous pouvons citer l'indexation et l' alerte. L'indexation par le contenu, c'est-à-dire la possibilité d'indexer puis de rechercher un document audiovisuel en utilisant la transcription automatique de la bande son, est abordée dans plusieurs projets européens, et a fait l'objet du développement d'un moteur de recherche, évalué dans le cadre de la tâche SDR ( Spoken Document Retrieval) des évaluations TREC-8 et TREC-9 ( Text REtrieval Conference). Le rôle de ce moteur de recherche est d'identifier des passages du flux audio correspondant à un sujet donné. A l'opposé de données textuelles, la notion de "documents" dans un flux audio n'est pas définie précisément car la frontière de documents n'est pas connue a priori. Nous avons développé une méthode à double fenêtre temporelle glissante pour l'indexation des transcriptions issues du système de reconnaissance. La segmentation et l'identification en thèmes sont deux problèmes indissociables; on peut donc améliorer significativement le processus d'indexation en évitant les erreurs dues à un décodage en deux étapes: segmentation puis identification. Le nouveau moteur de recherche a été évalué en utilisant les données de l'évaluation SDR de TREC-9 (600h heures d'audio) et les résultats ont été comparés à l'approche en deux étapes. Les résultats en terme de précision moyenne montrent clairement l'intérêt de cette technique d'indexation par fenêtre glissante : 52.3% contre 33.3%, à comparer avec 59.6% pour une segmentation manuelle.
L'alerte, c'est-à-dire le filtrage de documents en fonction d'un
thème connu ou de documents voisins, est abordée dans le cadre d'une
convention DGA, et de projets européens et nationaux. Nous avons développé une
première approche, où un document est segmenté en histoires (extraits parlant d'un seul événement), chaque histoire
étant annotée par des mots-clés. La tâche consiste à affecter à une
histoire inconnue les mots-clés les plus significatifs étant donné
les probabilités unigramme ou bigramme des mots de l'histoire. Nous avons testé
cette approche sur un corpus couvrant une année d'informations radio et
télédiffusées en anglais américain, ainsi que sur une année du journal Le Monde. Les résultats en
identification de thèmes (environ 4500 thèmes) sur les transcriptions
en anglais américain sont supérieurs à 60
Dans les deux applications mentionnées ici, les termes utilisés pour indexer le
document ou identifier le thème sont les mots (ou leur racine). Nous explorons
la possibilité d'utiliser comme terme (et en premier lieu d'identifier) des
expressions désignant un individu, un lieu, un événement, une date ou une donnée
numérique. Plusieurs approches pour l'identification de ces expressions
(appelées entités nommées), la première purement probabiliste, la seconde
utilisant une grammaire d'automates, et la troisième un étiquetage en
partie du discours, ont obtenu des résultats comparables sur un corpus
de transcription d'informations radio et télédiffusées. Face à la
difficulté de définir sans ambiguïté les termes et les documents, en
particulier lorsqu'il s'agit de documents audiovisuels, nous explorons
des méthodes robustes de segmentation et d'identification de thèmes,
alliant techniques statistiques et méthodes linguistiques.
THÈME 3 : SYSTÈMES DE RECONNAISSANCE ET DIALOGUE
J.-L. Gauvain, G. Adda, M. Adda-Decker, C. Barras, E. Bilinski, L. Devillers,
J.J. Gangolf, L. Lamel, F. Lefèvre, K. McTait, H. Maynard, S. Rosset, P. Paroubek, H. Schwenk
Les activités de ce thème peuvent être classées selon deux axes
principaux~: la transcription et la structuration de documents audio,
et le développement de systèmes de dialogue.
Transcription et structuration de documents audio
Un de nos objectifs est de développer des systèmes de transcription de
la parole continue qui soient indépendants du locuteur et de
l'application, et robustes aux conditions de prise de son. Ce travail
est effectué dans un cadre multilingue sur des documents radio et
télédiffusés~: nous avons développé des systèmes de reconnaissance
avec des vocabulaires de 65000 mots pour l'anglais américain,
l'allemand, le français et le mandarin. L'une des applications visées
est l'indexation automatique de documents audiovisuels. Les méthodes
actuelles sont en grande partie manuelles, des documentalistes devant
lire, écouter, regarder, annoter par thèmes et identifier les éléments
d'intérêt. L'automatisation de certaines de ces activités est
nécessaire pour généraliser l'accès par le contenu aux documents
audiovisuels. Parmi les applications existantes qui peuvent
bénéficier de ces nouvelles technologies, on peut citer l'indexation
de bibliothèques numériques multimédia (projets LE-4 OLIVE et ECHO)
et la pige des médias audiovisuels (projets LE-5 ALERT et RNRT THEOREME), ainsi que quelques applications
émergentes comme la diffusion sélective d'information et la diffusion
d'audiovisuel sur Internet.
Les documents audiovisuels sont particulièrement difficiles à
transcrire car ils contiennent des segments de diverses natures
acoustiques et linguistiques avec des transitions rapides ou
graduelles. Ces conditions nous amènent à segmenter (automatiquement)
le flux audio afin d'adapter les modèles à la nature des données
(locuteur, bande passante, niveau et type de bruit, langue, musique,
sujet, ...). Cette segmentation constitue en outre un premier niveau
de structuration du document. Nous avons développé un algorithme
original qui effectue simultanément la segmentation et la
classification des segments en modélisant le flux audio par un
ensemble de sources multi-gaussiennes. Cette procédure, mise au point
pour l'anglais, a été utilisée pour des documents en français, en
allemand et en mandarin, mettant en évidence une relative indépendance
par rapport à la langue.
Notre système de transcription d'émissions d'information en anglais américain a
été classé au meilleur niveau lors des quatre dernières campagnes d'évaluation
organisées par le NIST et DARPA. Dans le cadre du projet européen OLIVE et d'un marché DGA, nous avons étendu ce système aux langues française et allemande
avec des performances comparables à celles mesurées pour
l'anglais. L'extension au mandarin a pu être effectuée grâce à la
disponibilité de données audio et textuelles au LDC (Linguistic Data
Consortium). Le portage vers trois autres langues (arabe, espagnol et
portugais) est en cours.
La nécessité de traiter de grandes quantités de données, nous a amenés
à développer un nouveau décodeur. Ce décodeur permet de transcrire des
émissions d'information en 5 à 10 fois le temps réel avec une
augmentation du taux d'erreur réduite par rapport à notre meilleur
système (100 fois le temps réel), et quasiment en temps réel avec un
taux d'erreur sur les mots de l'ordre de 30
Un démonstrateur d'un système de recherche dans des documents audio a
été développé en combinant le système de transcription de la parole
avec un système de recherche d'information textuelle, offrant un accès
direct, par le contenu linguistique, à des documents audiovisuels non
indexés manuellement. Les premiers résultats (sur environ 500 heures)
indiquent que la qualité de la transcription automatique n'est pas un
facteur limitant pour les techniques actuelles d'indexation (cf. thème
2). Ce système a été testé dans le cadre de l'évaluation TREC-9 SDR
sur la recherche documentaire dans des données audio, et a été exposé
aux conférences RIAO (avril 2000), ISCA ASR'00 (sept. 2000), et IEEE
ARSU'01 (déc. 2001).
Les documents audiovisuels disponibles sur Internet étant en général
fortement compressés, nous avons mesuré l'impact de différentes
techniques de compression de l'audio (MP3, RealAudio et GSM) sur le
niveau de performance de nos systèmes. Ces expériences nous ont permis
de conclure à la faisabilité de l'indexation de documents audio pour
des débits supérieurs à 6.5kb/s. Nous avons donc entrepris de valider
ce concept en indexant quotidiennement des documents audiovisuels,
reprenant ainsi l'approche développée pour les documents textuels.
Systèmes de dialogue
Dans les systèmes de dialogue oral, le but est d'interpréter les
requêtes de l'utilisateur en fonction de la tâche et de l'état du
dialogue pour lui donner les informations recherchées tout en assurant
une interaction aussi conviviale qu'efficace. Les recherches
spécifiques au dialogue oral portent sur la modélisation de la parole
spontanée, la modélisation des processus de compréhension, la gestion
du dialogue et l'intégration de la reconnaissance de la parole avec
d'autres modalités telles que le toucher, le geste, et la synthèse de la
parole.
La sortie du système de reconnaissance est transmise au module
d'interprétation littérale qui analyse la requête pour en extraire le
sens. Pour la compréhension deux approches sont développées : une
approche statistique s'appuyant essentiellement sur les données
observées et une approche par grammaire de cas qui nécessite
l'écriture des règles d'interprétation à partir de connaissances
linguistiques et des données observées. Un des objectifs des travaux
actuels est d'aller vers une intégration des processus de
reconnaissance et de compréhension en utilisant une modélisation
stochastique commune.
Le rôle du gestionnaire de dialogue est de guider l'utilisateur afin
qu'il fournisse l'information nécessaire à la construction des
requêtes pour la base de données. Les réponses en langage naturel
sont générées à partir du schéma sémantique et de l'information
extraite de cette base de données.
Notre objectif est un taux élevé de dialogues réussis avec une
structure de dialogue très ouverte, laissant l'utilisateur libre de
s'exprimer comme il le souhaite. La stratégie de dialogue dépend des
caractéristiques et fonctionnalités voulues par le concepteur mais
doit aussi prendre en compte les contraintes spécifiques au dialogue
oral que sont la parole spontanée et les erreurs de reconnaissance.
Le gestionnaire de dialogue utilise des informations statiques
(connaissances linguistiques et pragmatiques, connaissances sur le
domaine, modèle de la tâche et modèle de dialogue) ainsi que des
connaissances dynamiques (historique du dialogue, états successifs du
dialogue et parcours dans la tâche).
Nous avons développé et évalué des systèmes de dialogue pour des renseignements
ferroviaires et la domotique dans le cadre de plusieurs projets européens. La
société VECSYS développe actuellement un
prototype industriel d'un serveur téléphonique pour la SNCF à partir
de nos travaux (projet ARISE). Dans le cadre du projet
AMITIES, une annotation de grands corpus de dialogue homme-homme et
homme-machine sur différents niveaux (lexical, sémantique, dialogique,
style) pour différentes langues (anglais, américain, allemand et
français) et dans différents domaines d'application (services
financiers de prêts bancaires et service boursier) est en
cours. L'objectif est de proposer des modélisations s'appuyant sur ces
données et permettant l'adaptation des systèmes à de nouvelles langues
et à de nouvelles tâches. Nous allons également vers une augmentation
des capacités d'adaptation dynamique des stratégies de dialogue en
modélisant le comportement des utilisateurs.
Enseignement et diffusion des connaissances
Les membres du groupe TLP interviennent dans les formations suivantes sur
des sujets relatifs à nos activités de recherche~:
Projets et contrats (période 2000-2001)
L'approche prédominante en matière de traitement automatique du
langage parlé repose sur une modélisation statistique du processus de
génération de la parole et nécessite de grandes quantités de données
collectées en conditions réelles (essentiellement dans le
cadre d'applications). Ce type de recherche nécessite des moyens
matériels et humains importants, en particulier pour collecter les
données. C'est la raison pour laquelle nombre de nos activités de
recherche sont liées à des ressources contractuelles offrant les
moyens et un cadre applicatif propices à la valorisation de ces
activités. Voici la liste des projets en cours en 2000 et 2001~:
Animations scientifiques et responsabilités institutionnelles
Partenaires: **Truth, Siem, IAO/IAT U. Stuttgart, INT, Domologic, Secure
Communications, Proteor, U.~Dortmund, VECSYS
Partenaires: TNO, ARTE, INA, NOB, DFKI, U.~Twente, VDA, VECSYS
http://twentyone.tpd.tno.nl/olive/
Partenaire: Matra Nortel Communications
http://www.telecom.gouv.fr/rnrt/projets/pvocadis.htm
Partenaires: VECSYS, MRIM-CLIPS, Secodip
http://www-mrim.imag.fr/projets/theoreme.php
Partenaires: U.~Duisburg, Secodip, Observer, 4VDO, RTP, Vecsys, INESC
http://alert.uni-duisburg.de/
Partenaires: IEI-CNR, CMU, Tecmatch, Eurospider, INA, Institut Luce, NAA
http://pc-erato2.iei.pi.cnr.it/echo/
Partenaires : RWTH U.~Aachen, ITC-IRST, U.~Cambridge
http://coretex.itc.it/
Partenaires: NIS U.~Odense, ITC-IRST, DFKI
http://www.class-tech.org/
Partenaires: U.~Sheffiled, Viel Capitol, GE Capital Service Centers,
GE R&D, Vecsys, SUNY Albany, Duke U.
http://www.dcs.shef.ac.uk/nlp/amities