GROUPE TRAITEMENT DU LANGAGE PARLÉ

_______________________

J.-L. Gauvain

Exemples d'Activités de Recherche du groupe

INTRODUCTION

Les recherches du groupe ont pour buts de comprendre les processus de la communication parlée et de développer des modèles appropriés au traitement automatique de la parole. Ces recherches se concrétisent par la réalisation de systèmes de traitement du langage parlé assurant des fonctions variées telles que la synthèse à partir du texte, la transcription et l'indexation de documents audio et vidéo, la compréhension de la parole, et l'identification du locuteur et de la langue. Trois activités essentielles accompagnent et soutiennent ces recherches : le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches par des relations industrielles en particulier dans le contexte de projets européens.

Les recherches sur l'analyse de la parole et de la voix, considérée du point de vue de la perception et du traitement du signal, portent sur la perception du timbre de la voix et des variations de hauteur tonale, sur l'analyse de la source vocale (onde glottique et effort vocal), et sur les méthodes temps-fréquence de représentation de la parole. Pour la synthèse de la parole, les travaux concernent la modification de la qualité vocale, la modélisation prosodique, la sélection automatique d'unités acoustiques, et l'analyse linguistique des textes à prononcer.

Nos travaux sur le décodage de la parole portent sur la segmentation et la reconnaissance de la parole continue, ainsi que l'identification du locuteur et de la langue, pour la transcription et la structuration automatiques de documents audio. Ces développements qui s'appuient sur nos recherches en modélisation acoustique, lexicale, et linguistique, sont réalisés dans un contexte multilingue (allemand, anglais, français, mandarin, ...).

L'association de techniques de traitement du langage naturel à la reconnaissance de la parole spontanée, nous conduit au développement de systèmes de dialogue pour l'interrogation de bases de données. L'interaction peut être entièrement vocale (à travers le réseau téléphonique dans le projet ARISE) ou associée à un autre mode de communication tel qu'un écran tactile (comme pour le kiosque d'informations développé dans le projet MASK).

En 1999, le groupe comprenait 26 membres, dont 11 permanents CNRS, 6 enseignants-chercheurs, 2 contractuels, et 7 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure différents cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI. En 1998 et 1999, les membres du groupe ont publiés 76 articles (10 dans des revues spécialisées, 3 chapitres d'ouvrage, 56 dans des colloques avec actes et comité de lecture, dont 4 conférences invitées).

Nos contrats de recherche couvrent la presque totalité des activités du groupe, en particulier grâce aux projets européens MASK, DISC2, ARISE, OLIVE, et HOME-AOM, et aux conventions de recherche avec la DGA. Pour le 5ième programme cadre, nous avons déposé 6 propositions de projet dont 4 ont été retenues ( ALERT, CIWOS, CORETEX, ECHO).

Le groupe participe également à plusieurs programmes et projets pour la distribution de ressources linguistiques et l'évaluation ( SILFIDE, ELSNET, ELRA, Aupelf-UREF, Copernicus BABEL et ELSE). En 1998 and 1999 nous avons participé aux campagnes d'évaluation de systèmes de reconnaissance de la parole organisées par le NIST et DARPA, et nous avons pris part en 1999 à l'évaluation TREC-8 SDR sur la recherche documentaire dans des documents audio.

Nous organisons le workshop ISCA ASR2000 ``Automatic Speech Recognition : Challenges for the new Millenium'' qui se tiendra à Paris en septembre 2000.

Les recherches du groupe TLP sont structurées en quatre thèmes interdépendants : Analyse, synthèse et perception (thème 1), Modélisation acoustique et lexicale (thème 2), modélisation linguistique (thème 3), et systèmes de reconnaissance et dialogue (thème 4).

THÈME 1 - ANALYSE, SYNTHÈSE ET PERCEPTION

C. d'Alessandro, J.S. Liénard,, C. Demars, B. Doval, J.J. Gangolf, T. Vu Ngoc,P. Boula de Mareüil, N. Henrich, R. Prudon, J. Auguste-Etienne, M.G. DiBenedetto, Y. Machrouh, A. Tassa

La communication par la voix est un des enjeux majeurs de la communication homme-machine, afin de rendre l'ordinateur plus proche et familier de ses utilisateurs humains. Cet enjeu implique l'étude de la voix dans sa dimension linguistique (comme la parole) et dans sa dimension non-linguistique (comme la qualité vocale).

La voix, moyen de communication multiforme, véhicule à la fois un contenu linguistique explicite (que l'on peut par exemple représenter sous forme écrite), et un contenu non-linguistique, comme le genre du locuteur, son attitude et ses intentions par rapport à l'interlocuteur ou au discours, le type de discours ou d'acte de parole etc. En traitement automatique de la parole, les aspects vocaux non linguistiques tendent à prendre une place de plus en plus grande. Par exemple en synthèse de la parole, l'intelligibilité est en général acceptable, alors que la qualité vocale laisse encore à désirer. Dans la voix chantée, pour l'analyse de voix pathologiques, ou pour la pose de voix d'orateurs, la qualité vocale est étudiée et recherchée en soi, et indépendamment du contenu linguistique.

Les domaines d'étude que nous abordons concernent l'analyse, la synthèse et la perception de la parole et de la voix, parlée et chantée. La voix est ici traitée surtout comme un signal, principalement le signal acoustique, mais aussi le signal électroglottographique pour les études de la source vocale. Trois types de méthodes sont mises en jeu : méthodes de traitement du signal (analyse, modification, synthèse du signal) pour les aspect numériques, méthodes d'informatique linguistique (lexiques, analyse syntaxique) pour les aspects symboliques, et expérimentation perceptive.

Analyse
Les méthodes d'analyse que nous développons depuis quelques années portent surtout sur la source vocale. Par source vocale, il faut entendre ici l'activité glottique (la source de voisement) et les sources de bruit dans la voix. La source est responsable dans une large mesure de la qualité vocale. Un autre aspect important de l'analyse de la source est l'analyse prosodique, qui véhicule une quantité importante d'informations linguistiques et non-linguistiques.

Pour les aspects prosodiques, nous avons développé une méthode d'analyse des instants de fermeture glottique fondée sur la transformée en ondelettes (voir double page ``Détection robuste des fermetures glottiques par transformée en ondelettes''). Un algorithme de suivi des maxima de la transformée en ondelette à travers les échelles permet de dégager des lignes principales qui représentent les périodes glottiques. On peut ainsi trouver les instants de fermeture glottique, de façon robuste pour les divers styles de parole, en suivant ces lignes dans le plan temps-échelle. Cette méthode est évaluée en utilisant un signal électroglottographique de référence, enregistré simultanément au signal acoustique.

Les paramètres du signal d'onde de débit glottique ont été étudiés à travers la modélisation spectrale. Quatre paramètres essentiels de l'onde glottique ont été retenus : la période fondamentale, le quotient d'ouverture, l'amplitude, la vitesse de fermeture. Du point de vue spectral, cela correspond à la fréquence fondamentale, au maximum spectral, à l'amplitude et à la pente spectrale de la source. Un autre paramètre, plus global est le rapport entre composante périodique et composante apériodique dans la source.

Nos travaux portent actuellement sur le quotient d'ouverture glottique (rapport de la période ouverte de la glotte à la période fondamentale de voisement), en voix parlée et chantée. Le signal électroglottographique sert encore une fois de référence, afin de prendre des mesures de ce quotient et d'étudier ses variations dans la parole et le chant (voir page de présentation ``Mesure et estimation du quotient d'ouverture glottique dans la voix parlée et chantée''). Deux bases de données ont été enregistrées : une pour l'étude de l'effort vocal, avec un étalonnage précis du niveau sonore, et des voix très variées; la seconde, toujours en cours d'enregistrement porte sur des chanteurs professionnels. Cette étude est en collaboration avec le Laboratoire d'Acoustique Musicale de Paris VI.

Les études menées en collaboration avec l'Université La Sapienza de Rome sur le corpus CORENC, qui comprend des voyelles du français prononcées par divers locuteurs, selon divers degrés d'effort vocal, ont permis de mettre en évidence un certain nombre d'effets acoustiques de l'effort vocal : augmentation de la fréquence fondamentale d'environ 5 Hz par dB, augmentation de la fréquence du premier formant d'environ 3,5 Hz par dB, augmentation de la proportion de fréquences aiguës dans le spectre (pente spectrale).

Par ailleurs une méthode nouvelle d'étude de ce même facteur a été élaborée; elle repose sur la mise en correspondance de deux séquences de parole (``morphing acoustique'', limité dans cette étude à des voyelles isolées) au moyen de la méthode PSOLA (Pitch Synchronous OverLap-Add). Une fois alignées, les deux séquences peuvent être comparées de manière précise, et les différences peuvent être attribuées au facteur mis à l'étude, ou encore une voix peut être resynthétisée avec les caractères spectraux de l'autre voix.

En analyse du signal, une recherche bibliographique exhaustive sur l'analyse du signal vocal par des méthodes temps-fréquence se poursuit.

Synthèse
Les études sur la source vocale s'appliquent en particulier à la synthèse de la parole. Un problème classique en synthèse de la parole est la modification prosodique de segments de parole enregistrés. En général, la fréquence fondamentale et le rythme seuls sont traités. Nous avons élaboré une méthode spectrale pour modifier également les autres aspects de la source vocale, comme la pente spectrale ou le quotient d'ouverture. Ces modifications doivent maintenant être intégrées au synthétiseur à partir du texte.

L'évaluation de la qualité de synthèse à fait l'objet d'une recherche coordonnée au niveau de la francophonie (contrat dans le cadre de l'AUPELF). Les premiers résultats de test, sur l'évaluation des système de transcription graphème-phonème, ont été obtenus, confirmant la qualité du système de transcription du LIMSI. A la suite de ces travaux, nous avons participé à la construction d'un lexique orthographique-phonétique de plus de 350.000 entrées, qui est en cours de finition (contrat CNRS -industries de la langue).

Une thèse commence cette année sur la synthèse à partir de grandes bases de données sonores. Il s'agit d'étiqueter automatiquement une grande quantité de parole, afin de synthétiser le signal par sélection des meilleures unités acoustiques, spécifiées par des descripteurs phonétiques et prosodiques assez fins. Perception
Une thèse sur la perception du timbre de la voix (cf page de présentation ``La cohérence du timbre du locuteur'') a récemment été soutenue. Une série de 3 expériences a été conduite pour définir l'espace perceptif du timbre vocal, au niveau de la syllabe. Il s'agit d'établir les axes perceptifs principaux de courts segments vocaux, syllabes ou courtes phrases. Une dernière expérience montre (à l'aide de montage d'extraits de voix) que la variabilité intra-locuteur est parfois plus importante que la variabilité inter-locuteur. Des stimuli mélangeant les voix de différents locuteurs sont en effet perçus comme provenant d'un même locuteur. Une base de donnée de voix contenant des styles très variés a été constituée à l'occasion de ce travail.

Une étude de la perception des variations de hauteur tonale pour les glissando de fréquence fondamentale a été conduite. Le modèle de pondération de la moyenne temporelle de fréquence fondamentale pour calculer la hauteur tonale perçue a été validé sur les données expérimentales. Dans la continuité de ce travail, de nouvelles expériences sont prévues sur l'interaction de la hauteur tonale périodique et de la hauteur tonale spectrale dans des segments vocaux qui contiennent un mélange périodique-apériodiques.

En liaison avec les études sur l'analyse de la source vocale, une étude commence sur la perception du quotient d'ouverture dans la source.

Un modèle théorique de la perception de la parole et de la voix a été proposé. Simultanément ascendant et descendant, il prend en considération l'information non-linguistique au même titre que l'information linguistique. Il comporte six niveaux d'abstraction, chacun correspondant à une résolution temporelle donnée : cochléogramme (ensemble d'informations délivrées par la cochlée, résolution de l'ordre de 1 ms), indices acoustiques (10 ms), indices phonétiques (30 ms), éléments phonétiques (50 ms), mots (200 ms), concepts (500 ms).

Enfin le fonctionnement de la perception en général fait l'objet d'une réflexion continue, dans le cadre du Traitement des Formes (généralisation de la Reconnaissance des Formes) et de l'Induction Analogique, avec application à divers problèmes de perception (variabilité de la parole, invariances en vision, attention sélective).

THÈME 2 - MODÉLISATION ACOUSTIQUE ET LEXICALE
L.F. Lamel, M. Adda-Decker, E. Bilinski, G. Adda, J.J. Gangolf, J.-L. Gauvain, H. Schwenk

Les travaux de recherche menés dans ce thème portent essentiellement sur les unités acoustiques et lexicales utilisées pour modéliser le langage parlé. Les modèles retenus doivent permettre une prédiction fiable des phénomènes observés dans le signal acoustique afin de garantir de bonnes performances pour les systèmes de transcription et de dialogue oral.

Le but recherché est une modélisation acoustique précise des unités lexicales (mots de la langue). Pour l'atteindre de nombreux problèmes connexes doivent être abordés. En effet le signal de parole véhicule, au-delà du message linguistique proprement dit, d'autres types d'informations, notamment les caractéristiques du locuteur, de l'environnement, de l'enregistrement et, le cas échéant, de la transmission. Toutes ces informations contenues dans un même signal contribuent à sa variabilité et mènent à des directions de recherche variées, souvent au-delà de ce thème. La transcription automatique d'émissions radio et télédiffusées multilingues est devenu un de nos cadres de recherche majeurs permettant, par sa richesse en conditions acoustiques différentes, de traiter la modélisation de bruits, de locuteurs, de langues, d'accents et de styles de parole variés. Des phénomènes extra-lexicaux comme les bruits de bouche, erreurs de prononciations et réparations, fragments de mots, répétitions et hésitations apparaissent dans des proportions plus ou moins fortes posant des problèmes aux différents niveaux de la modélisation acoustique et lexicale.

Modélisation acoustique
Concernant la modélisation acoustico-phonétique pour la transcription, nous utilisons des modèles acoustiques de phones, où la notion de phone se réfère au terme linguistique de phonème, tout en laissant la possibilité de modéliser d'autres types de segments, comme les respirations, hésitations, et bruits divers qu'on observe fréquemment dans le langage parlé. Une meilleure prédiction des modèles acoustiques de phones est obtenue en distinguant pour un phone donné différents modèles suivant le contexte phonémique (modèles contextuels), suivant le sexe des locuteurs (modèles homme/femme), suivant le canal de transmission (modèles bande-large/téléphone...). Des arbres de décision phonémiques permettent de partager un même nombre de gaussiennes entre un nombre de contextes.

Un système de segmentation découpe le flux audio en segments acoustiquement homogènes avant la transcription proprement dite. La segmentation fait appel à une série de modèles (mélanges de gaussiennes) spécifiques aux conditions acoustiques (musique, bruit, parole...) permettant de structurer une bande son suivant ces conditions. Cette procédure, mis au point pour l'anglais, a été utilisée pour des documents en français, en allemand et en chinois mandarin, mettant en évidence une relative indépendance par rapport à la langue. Des segments de parole plus courts, globalement homogènes à des tours de parole, sont ensuite obtenus lors d'une procédure itérative de segmentation/classification utilisant un critère de maximum de vraisemblance. Le nombre de classes et les modèles associés sont obtenus automatiquement en fonction d'un seuil fixé au préalable. Ce processus de segmentation est donc capable de fournir une structuration de la bande son avec la localisation temporelle de différents locuteurs, de différentes conditions de bruit et éventuellement de différentes langues.

Des corpus appropriés sont requis pour la modélisation statistique et nous participons activement à la production de telles ressources. Dans le cadre d'une convention DGA nous avons mis au point des conventions de transcription et d'annotation pour les émissions radio et télé. Ces conventions sont intégrées dans l'outil de transcription manuelle Transcriber développé à la DGA en collaboration avec le LDC (Linguistic Data Consortium). Ces annotations permettent la modélisation acoustique d'informations autres que les mots (bruits, locuteurs, accents, ...). Plusieurs semaines de la tranche matinale de France-Inter ont ainsi été transcrites et annotées à la DGA et ce corpus a été sélectionné comme ressource pour la prochaine campagne d'évaluation francophone de l'AUF (Agence Universitaire Francophone). D'autres travaux d'annotations sont effectués dans le cadre du projet européen LE4- OLIVE en coopération avec l'INA, ARTE et VECSYS.

Modélisation lexicale

La modélisation lexicale consiste à définir un vocabulaire de reconnaissance et à associer une ou plusieurs transcriptions phonémiques à chaque entrée lexicale. Le choix des unités lexicales (en collaboration avec le thème 3) repose sur différents critères : les unités doivent pouvoir être extraites automatiquement à partir de corpus de textes ou de parole transcrite; pour une taille de lexique donnée, le choix des unités doit optimiser le taux de couverture pour la langue ou le langage de l'application considérée. La définition d'unité peut donc être plus ou moins difficile suivant les textes (ponctuations, sigles, différenciation majuscules/minuscules, ...) et la langue traitée. La définition d'unité lexicale peut également être motivée par les prononciations observées. Une suite de mots peut être regroupée en une seule entrée lexicale si elle admet de fortes réductions de prononciation.

Les modèles acoustiques des entrées lexicales sont obtenus par concaténation des modèles de phones suivant la ou les prononciations permises par le dictionnaire de prononciation. Le dictionnaire de prononciation permet d'expliciter des variantes non représentées implicitement dans les modèles. Une question, qui reste posée dans la communauté scientifique, concerne l'adjonction de variantes de prononciations dans le dictionnaire de prononciation. Quelles variantes ajouter? Lesquelles omettre? Ajouter un grand nombre de variantes sans pondération par leur fréquence d'observation nuit aux performances de reconnaissance. Pour mesurer l'occurrence de variantes dans de grands corpus nous avons fait des études d'alignement automatique de textes lus et de parole spontanée utilisant des dictionnaires à fort taux de variantes. Toutes les configurations testées en anglais et en français, avec des modèles acoustiques indépendants et dépendants du contexte, ont montré que le besoin en variantes dépend de la configuration du système et qu'il décroît significativement avec une précision accrue des modèles. Un système d'alignement peut cependant servir d'outil à l'analyse linguistique de grands corpus de parole et contribuer ainsi à accroître nos connaissances concernant le langage parlé, en particulier les variantes associées aux différents styles d'élocution, les phénomènes d'hésitations, les accents... Ainsi nous avons étudié quantitativement l'apparition du schwa et des liaisons pour des dizaines d'heures de parole ``lue''( BREF) et spontanée ( MASK).

Aspects multilingues
Dans un cadre multilingue nous travaillons sur la modélisation d'enregistrements radio et télédiffusés en français, anglais, allemand et plus récemment en mandarin. Le cadre multilingue permet de valider la généricité des hypothèses et des approches de modélisation. Une des parties les plus sensibles au changement de langue concerne le dictionnaire de prononciation. Pour l'allemand nous avons continué le développement d'un système de conversion graphème-phonème permettant l'extension rapide du dictionnaire de prononciation à de nouvelles entrées lexicales. Nous avons engagé des travaux sur la décomposition de mots afin d'améliorer la conversion graphème-phonème et la couverture lexicale, qui est significativement plus faible en allemand qu'en français ou en anglais. En mandarin, le vocabulaire comprend un mélange de mots et de caractères syllabiques permettant une couverture presque totale de la langue, et 3 niveaux de tons sont représentés dans le lexique phonétique.

Pour l'identification automatique de la langue, des modèles acoustiques dépendants et indépendants de la langue ont été testés. Des travaux visant à intégrer dans le modèle phonotactique les mots les plus fréquents de chaque langue ont été menés en collaboration avec le LIA d'Avignon. Une étude de l'influence de l'accent étranger sur l'identification de la langue a fait l'objet d'un stage de DEA et une thèse a démarré en collaboration avec la DGA.

THÈME 3 - MODÉLISATION LINGUISTIQUE

G. Adda, M. Jardino, C. Beaujard, L. Chen, J.L. Gauvain, L. Lamel,, R. Lejeune, J. Mariani,M. Maties, Y. Quintin de Kercadio, P. Paroubek

Dans ce thème, à la frontière entre le traitement de l'écrit et celui de l'oral, nous développons des méthodes et des outils de modélisation de la langue, en vue d'une utilisation dans des systèmes de reconnaissance de la parole.

Les modèles de langage utilisés les plus fréquemment dans les systèmes de reconnaissance sont des modèles probabilistes, estimés à partir de statistiques obtenues sur des textes. Ces textes proviennent en grande partie d'articles de journaux mais aussi de transcriptions manuelles de parole. Lorsque les données sont de taille suffisante, ce genre de modèle permet de capturer efficacement à la fois des contraintes syntaxiques et sémantiques du langage. De plus ces modèles sont complétés par une méthode d'inférence des données manquantes particulièrement judicieuse.

Corpus et évaluation
Le matériau permettant l'estimation des modèles de langage est le texte. Afin qu'il soit utilisable, il est nécessaire de le normaliser, c'est-à-dire de définir quelle sera l'unité retenue (qu'est-ce qu'un mot), puis de normaliser les textes afin d'estimer au mieux les distributions de ces unités dans les textes. Nous abordons, pour le français, des styles de textes différents (rapports médicaux, journaux, magazines, transcriptions commerciales ou fines d'émissions radio-télédiffusés, textes issus de recherche sur le Web), mais également des langues différentes (anglais, allemand, espagnol, chinois).

L'évaluation des modèles de langages dans le cadre de l'action de recherche concertée de l'AUF-UREF se poursuit. Une deuxième campagne d'évaluation a été programmée qui va nous permettre de valider le protocole mis en place lors de la première campagne. Ce protocole sera complété par une évaluation plus proche des systèmes de reconnaissance qui utilisera des treillis de mots issus de systèmes de reconnaissance.

En parallèle, des recherches sont menées pour étudier l'apport possible des méthodes d'analyse textuelles (analyse morpho-syntaxique et analyse syntaxique robuste) à la constitution de modèles de langage, et pour définir des critères d'évaluation pour ces méthodes d'analyse (organisation de la campagne d'évaluation GRACE). Autour de l'évaluation, la production des ressources linguistiques validées et de qualité comme sous-produits des campagnes d'évaluation est une activité en cours d'exploration (projet CNRS Multitag) ainsi que l'étude des aspects formels de l'évaluation appliquée aux systèmes d'analyse du langage, considérée en tant que sujet de recherche propre.

Modèles n-grammes
Les modèles de langage les plus performants à ce jour dans les systèmes de reconnaissance de la parole, sont des modèles n-grammes, qui prédisent un mot connaissant les n-1 mots précédents, les valeurs de n=3 ou 4 assurant une très bonne prédiction dans la majorité des cas. On peut, pour n fixé, augmenter la portée de la prédiction en créant des mots nouveaux qui résultent de la concaténation de mots très fortement liés dans le texte. Différents critères de concaténation ont été utilisés pour effectuer ces regroupements et appliqués à un corpus de dialogue oral ayant un vocabulaire de 1500 mots. L'évaluation montre que les performances de reconnaissance sont très légèrement améliorées lorsque l'on passe d'un modèle bigramme de mots à un bigramme de mots en partie concaténés.

Une méthode d'inférence des données manquantes est de généraliser les données observées, par exemple en regroupant les mots dans des classes ce qui permet d'inférer des successions non directement observées, mais rendues possibles par association. Les différentes méthodes que nous avons mises en oeuvre pour regrouper les mots dans des classes sont statistiques et utilisent des textes non étiquetés. Le processus de regroupement est local et fondé sur la fréquence d'apparition de paires de mots consécutifs dans ces textes, l'ordre des mots étant pris en compte. Deux estimateurs de la qualité du classement ont été utilisés, d'une part la perplexité d'un texte d'apprentissage, d'autre part une grandeur caractérisant la similarité entre les mots de ce texte.
Le premier critère a été évalué dans le cadre de la transcription d'émissions télévisées en anglais américain (évaluation ARPA HUB4). La perplexité du texte d'apprentissage est l'inverse de la moyenne géométrique des probabilités conditionnelles des mots du texte. En regroupant les mots dans des classes, on augmente la perplexité, il s'agit alors de trouver le classement qui minimise l'écart entre cette valeur et la valeur référence donnée par le modèle à base de mots. Des modèles trigrammes de classes ont été créés et combinés à des modèles n-grammes de mots. Les améliorations apportées au système de reconnaissance de l'anglais, quoique significatives, ont été assez faibles, les modèles n-grammes étant déjà proprement estimés.
Le critère de similarité, plus adapté à des volumes de données plus réduits, a été appliqué avec succès à des transcriptions de dialogue. Un des avantages de cette méthode est l'utilisation d'un seuil qui permet de ne regrouper que certains mots, de telle sorte que le modèle de langage induit prend en compte directement (sans interpolation) des interactions de type varié entre les classes et les mots.

Indexation sémantique
Suivant le thème abordé dans un article ou dans une émission, le vocabulaire employé et son utilisation varient. Afin de mieux estimer les probabilités de succession de mots, nous avons étudié la possibilité d'adapter les modèles de langage selon le thème. Une classification non supervisée, analogue à celle utilisée ci-dessus pour la classification des mots a permis de regrouper les documents selon la distribution des mots qui les composent. Les résultats préliminaires n'ont pas permis de mettre en évidence un gain significatif au niveau du taux d'erreur de reconnaissance.

Les documents audiovisuels constituent un matériau intéressant pour de nombreuses applications, pour lesquelles la reconnaissance vocale est une technologie clef. Parmi ces applications nous pouvons citer l' indexation et l'alerte. L'indexation par le contenu, c'est-à-dire la possibilité d'indexer puis de rechercher un document audiovisuel en utilisant la transcription automatique de la bande son, est abordée dans plusieurs projets européens ( OLIVE, ALERT, CIWOS), et a fait l'objet du développement d'un moteur de recherche au niveau de l'état de l'art, évalué dans le cadre de la tâche SDR (Spoken Document Retrieval) de l'évaluation TREC-8 (Text REtrieval Conference).
L'alerte, c'est-à-dire le filtrage de documents en fonction d'un thème connu ou de documents voisins, est abordée dans le cadre d'une convention DGA, et de projets européens et nationaux. Nous avons développé une première approche, où un document est segmenté en histoires (extraits parlant d'un seul événement), chaque histoire étant annotée par des mots-clés. La tâche consiste à affecter à une histoire inconnue les mots-clés les plus significatifs étant données les probabilités unigramme ou bigramme des mots de l'histoire. Nous avons testé cette approche sur un corpus couvrant une année d'informations radio-télédiffusées en anglais américain, ainsi que sur une année du journal Le Monde.

Dans les deux applications mentionnées ici, nous utilisons comme termes permettant de déterminer le thème, ou permettant d'indexer le document, les mots. Nous explorons la possibilité d'utiliser comme terme (et en premier lieu d'identifier) des expressions désignant un individu, un lieu, un événement, une date ou une donnée numérique. Plusieurs approches pour l'identification de ces expressions (appelées entités nommées), la première purement probabiliste, la seconde utilisant une grammaire d'automates, et la troisième un étiquetage en partie du discours, ont obtenu des résultats comparables sur un corpus de transcription d'informations radio-télédiffusées en anglais américain.

THÈME 4 - SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION

J.L. Gauvain, G. Adda, M. Adda-Decker, S. Bennacef, L. Canseco, L. Chase, L. Devillers, J.J. Gangolf, V. Gendner, L. Lamel, H. Maynard, W. Minker, S. Rosset, P. Paroubek, H. Schwenk

Ce thème a pour objet le développement de systèmes de traitement du langage parlé reposant sur l'ensemble des recherches effectuées dans le groupe. Il aborde entre autres des problèmes pratiques tels que l'efficacité des stratégies de décodage et l'intégration des connaissances liées à l'application. Ces activités de recherche ont un lien fort avec nos activités de valorisation, par le transfert de notre technologie pour la reconnaissance de la parole et l'indexation de documents audiovisuels, la vérification du locuteur et les systèmes de compréhension et de dialogue.

Les activités de ce thème peuvent être classées selon deux axes principaux : la transcription et la structuration automatiques de documents audio, et le développement de systèmes de dialogue.

Transcription et structuration de documents audio
En ce qui concerne la transcription de la parole continue, un de nos buts est de développer des systèmes de transcription de la parole continue indépendants du locuteur et de l'application, et qui soient robustes aux conditions de prise de son. Ce travail est effectué dans un cadre multilingue sur des documents radio et télédiffusés : nous avons développé des systèmes de reconnaissance avec des vocabulaires de 65000 mots pour l'anglais américain, l'allemand, le français et le mandarin.

L'une des applications visées est l'indexation automatique de documents audiovisuels. Les méthodes actuelles sont en grande partie manuelles, des documentalistes devant lire, écouter, regarder, annoter par thèmes et identifier les éléments d'intérêt. L'automatisation de certaines de ces activités est nécessaire pour généraliser l'accès par le contenu aux documents audiovisuels. Parmi les applications existantes qui peuvent bénéficier de ces nouvelles technologies, nous pouvons citer l'indexation de bibliothèques numériques multimédia (projets LE-4 OLIVE et ECHO) et la pige des médias audiovisuels (projet LE-5 ALERT), ainsi que quelques applications émergeantes comme la diffusion sélective d'information et la diffusion d'audiovisuel sur Internet.

Ces documents sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides ou graduelles. Ces conditions nous amènenet à segmenter (automatiquement) le flux audio afin d'adapter les modèles à la nature des données (locuteur, bande passante, niveau et type de bruit, langue, musique, sujet, ...). Cette segmentation constitue en outre un premier niveau de structuration du document.

Notre système de transcription d'émissions d'information en anglais américain a été classé au meilleur niveau lors des quatre dernières campagnes d'évaluation organisées par le NIST et DARPA. Dans le cadre du projet européen OLIVE et d'un marché DGA, nous avons étendu ce système aux langues française et allemande avec des performances comparables à celles observées pour l'anglais. L'extension au mandarin a pu être effectuée grâce à la disponibilité de données audio et textuelles au LDC (Linguistic Data Consortium). Le portage vers trois autres langues (arabe, grec et portugais) sera bientôt réalisé dans le cadre d'un marché DGA et des projets européens CIWOS et ALERT.

Afin de réduire le temps de calcul nécessaire au traitement de grandes quantités de données, un nouveau décodeur a été développé. Ce décodeur permet de transcrire des émissions d'information en quelque fois le temps réel (6 à 10 fois) avec une augmentation du taux d'erreur réduite par rapport à notre meilleur système (100 fois le temps réel), et quasiment en temps réel avec un taux d'erreur sur les mots de l'ordre de 30%.

Un système de recherche documentaire dans des données audio a été développé en combinant le système de transcription de la parole avec un système de recherche d'information textuelle, offrant un accès direct, par le contenu linguistique, à des documents audiovisuels non indexés (manuellement). Les premiers résultats (sur environ 500 heures) indiquent que la qualité de la transcription automatique n'est pas un facteur limitant pour les techniques actuelles d'indexation. Ce système a été testé dans le cadre de l'évaluation TREC-8 SDR sur la recherche documentaire dans des documents audio.

Systèmes de dialogue
Dans les systèmes de dialogue oral, le but n'est plus seulement de transcrire mais plutôt de comprendre les messages de l'utilisateur et de lui donner les informations recherchées tout en assurant une interaction aussi conviviale qu'efficace. La modélisation de la parole spontanée devient ici particulièrement importante et des problèmes nouveaux apparaissent concernant le développement du module de compréhension et l'intégration de la reconnaissance avec d'autres modalités telles que le toucher, le geste, la synthèse de la parole, etc. La sortie du système de reconnaissance est transmise au module de compréhension qui analyse la requête pour en extraire le sens. Le principal travail lors du développement du module de compréhension est l'écriture des règles d'interprétation et la définition des concepts significatifs pour la tâche et les termes associés. Le rôle du module de dialogue est de guider l'utilisateur afin qu'il fournisse l'information nécessaire à la construction des requêtes pour la base de données. Les réponses en langage naturel sont générées à partir du schéma sémantique et de l'information extraite de la base de données.

Notre objectif est un taux élevé de succès de dialogue avec une structure de dialogue très ouverte, laissant l'utilisateur libre de s'exprimer comme il le souhaite. La stratégie de dialogue dépend des caractéristiques et fonctionnalités voulues pour le système et doit prendre en compte les contraintes spécifiques au dialogue oral que sont le traitement de la parole spontanée et la prise en compte d'erreurs de reconnaissance.

Nous avons développé et évalué des systèmes vocaux de renseignements ferroviaires dans le cadre des projets MASK (Esprit) et ARISE (LE), ainsi que des systèmes domotiques (projet Tide HOME-AOM) et de renseignements touristiques (ARC B2 AUPELF-UREF). La société Vecsys (notre partenaire dans le projet ARISE) développe actuellement un prototype industriel d'un serveur téléphonique pour la SNCF à partir des résultats du projet ARISE.

L'évaluation des systèmes de dialogue prend actuellement deux formes : une évaluation automatique mais partielle de certains modules (taux de reconnaissance, taux de compréhension littérale,...), et une évaluation globale du système par des utilisateurs (de nature subjective, et très coûteuse). Nous travaillons à un paradigme d'évaluation du dialogue : à partir de corpus de dialogues réels ( ARISE, PARIS-SITI), une étude est menée sur la corrélation entre critères de haut niveau (essentiellement satisfaction de l'utilisateur, réussite du scénario) et les critères de bas niveau, afin d'en déduire une mesure de performance permettant de prédire à partir des critères objectifs seuls, les performances globales (la satisfaction de l'utilisateur) d'un système de dialogue.

Sur le plan Européen, le LIMSI participe au projet DISC2 qui est une action de recherche concertées à long terme du programme ESPRIT et qui vise à faire le point sur l'état de l'art en matière de développement et d'évaluation des systèmes de dialogue en langage parlé. Nous participons par ailleurs à l'ARC B2 AUPELF-UREF sur l'évaluation de la compréhension et du dialogue Homme-Machine.

RELATIONS EXTÉRIEURES
Enseignement

Contrats

Animations scientifiques et responsabilités institutionnelles

Dpt CHM

+ Sommaire

Présentation