TRAITEMENT DU LANGAGE PARLÉ

_______________________

J.-L. Gauvain

Exemples d'Activité de Recherche du groupe

Le groupe "Traitement du Langage Parlé" créé en janvier 1995 lors de la restructuration du département CHM a focalisé ses activités sur l'analyse et la modélisation du langage parlé, et sur le développement d'algorithmes pour la synthèse et la reconnaissance de la parole. Ces recherches se concrétisent par la réalisation de systèmes de traitement du langage parlé assurant des fonctions variées telles que la synthèse à partir du texte, la transcription de parole en texte, la compréhension de la parole, et l'identification du locuteur et de la langue. Trois activités essentielles complémentent et soutiennent ces travaux: le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches via des relations industrielles.

Bien que depuis cinq ans on observe une augmentation significative du nombre de produits et d'applications commerciales des technologies du traitement du langage parlé, les systèmes utilisés ont encore des capacités très limitées en comparaison des capacités humaines. Ainsi, malgré les progrès rapides de la communauté scientifique, des travaux de recherches substantiels sont nécessaires avant que les performances et capacités des systèmes soient suffisantes pour envisager un développement très vaste de ces technologies.

Nos recherches ont pour buts de comprendre les processus de la communication parlée et de développer des modèles appropriés au traitement automatique de la parole. Les recherches sur l'analyse de la parole, considérée du point de vue de la perception et du traitement du signal, portent sur l'analyse automatique et la perception de la prosodie (c'est-à-dire la mélodie et le rythme de la parole), sur l'analyse acoustique de la qualité vocale (timbre de la voix), sur la description et l'étude multiparamétrique de segments de parole, et sur les méthodes temps-fréquence de représentation de la parole. En ce qui concerne la synthèse de la parole, les travaux s'appuient sur un système de synthèse à partir du texte par concaténation de parole naturelle codée et transformée. Ils portent sur le traitement du signal (modification du timbre), la modélisation prosodique, l'optimisation et l'acquisition automatisée de banques de données de signaux prototypes, et l'analyse linguistique des textes à prononcer.

Nos travaux sur le décodage de la parole portent sur la reconnaissance de la parole continue pour la dictée de textes et la parole spontanée, sur l'identification de traits non linguistiques, et sur la compréhension de la parole. Pour la dictée de textes, des systèmes de reconnaissance de parole continue indépendants du locuteur ont été développés pour le français, l'anglais américain, l'anglais britannique et l'allemand, avec des vocabulaires allant jusqu'à 65.000 mots. Ces développements s'appuient sur nos recherches en modélisation acoustico-phonétique, modélisation lexicale, et modélisation linguistique. Les travaux sur l'identification de traits non linguistiques, qui utilisent la même modélisation acoustique que celle utilisée pour la reconnaissance de la parole, portent essentiellement sur l'identification et la vérification du locuteur, et sur l'identification de la langue. L'association de techniques de traitement du langage naturel à la reconnaissance de la parole spontanée, nous conduit au développement de systèmes de compréhension et de dialogue pour l'interrogation de bases de données. L'interrogation peut être entièrement vocale (cas d'une interrogation à travers le réseau téléphonique, cf. le projet RAILTEL) ou associée à un autre mode de communication tel qu'un écran tactile (cas d'un kiosque interactif, cf. le projet MASK).

Le groupe comprend actuellement 24 membres, dont 11 permanents CNRS, 5 enseignants-chercheurs, 4 contractuels, et 4 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure différents cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI.

En 1994 et 1995 les membres du groupe ont publiés plus de 60 articles (8 dans des revues spécialisées, 7 chapitres d'ouvrage, 43 dans des colloques avec actes et comité de lecture dont 8 sur invitation) et 30 rapports de contrats.

Le groupe a des contrats de recherche couvrant la presque totalité de ses activités: reconnaissance et compréhension de la parole spontanée, synthèse de la parole, identification de la langue, identification du locuteur, dictée de textes, reconnaissance multilingue et modélisation linguistique. Il est présent dans de nombreux projets internationaux, par l'intermédiaire des programmes ESPRIT et "Language Engineering" en Europe et le programme ARPA aux Etats-Unis. Les principaux projets européens sont: ESPRIT MASK, LRE EUROCOCOSDA, RELATOR et SQALE, LE-MLAP RAILTEL et SPEECHDAT. Le groupe est également impliqué dans les programmes et organisations suivantes pour la distribution de ressources linguistiques: SILFIDE, ELSNET, EAGLES, ELRA, Aupelf-UREF, et Copernicus BABEL. Les résultats des recherches sont valorisés à travers des contrats industriels et certains résultats se sont concrétisés par des applications commerciales.

Parmi les résultats marquants, on peut citer le projet ESPRIT MASK (Multimodal Multimedia Automated Service Kiosk) qui est l'un des projets les plus avancés en Europe sur la communication homme-machine, et notre participation aux évaluations organisées annuellement par ARPA, évaluations dans lesquelles les systèmes développés par le LIMSI ont systématiquement été classés parmi les trois meilleurs depuis notre première participation en 1992.

Les activités de recherche du groupe TLP sont structurées en quatre thèmes interdépendants: Analyse, synthèse et perception (thème 1), Modélisation acoustico-phonétique et lexicale (thème 2), Modelisation linguistique (thème 3), et Systèmes de reconnaissance et compréhension (thème 4). Une synthèse des travaux en cours sur chacun de ces thèmes est donnée dans les sections suivantes.

THÈME 1 - ANALYSE, SYNTHÈSE ET PERCEPTION

C. d'Alessandro, J.S. Liénard, P. Boula de Mareüil, C. Demars, B. Doval, J.J. Gangolf, E. Geoffrois, J. Mariani, B. Payri, (stagiaires: G. Bachelot, F. Bedoucha, S. Flandrin)

Ce thème s'intéresse aux diverses structures du signal de parole, qu'elles soient d'ordre physique (traitement du signal, acoustique), linguistique (phonétique, phonologie, syntaxe) ou psychologique (perception et cognition). Les travaux sont menés dans la tradition des Sciences de l'Ingénieur et visent, chaque fois que cela est possible, à vérifier par synthèse les connaissances acquises par analyse.

Synthèse de la parole La synthèse à partir du texte est à la fois une application pratique importante des technologies vocales et un terrain d'expérimentation difficile et fécond pour les recherches sur la parole. Un système complet de synthèse à partir du texte a été construit au laboratoire. Les travaux récents portent sur plusieurs aspects du processus, détaillés ci-après.

A partir d'un texte quelconque écrit en français, la machine doit réaliser plusieurs analyses afin de le prononcer. Les règles de phonétisation ont été revues et améliorées, en particulier pour les "exceptions" qui sont monnaie courante dans les textes réels, comme les sigles et abréviations. La prononciation d'un texte nécessite également une analyse de sa structuration linguistique afin de proposer une intonation correcte. Un analyseur syntaxique qui répond aux besoins de la synthèse, rapidité, robustesse, déterminisme, a été développé. Une thèse est en cours sur les analyses linguistiques nécessaires à la synthèse.

La structure de dépendance entre les syntagmes de la phrase qui est déterminée par l'analyseur syntaxique permet de calculer la structure prosodique (accentuation, intonation, pauses etc.). Un ensemble de règles de synthèse prosodique a été mis au point. Les études récentes ont porté sur la modification des règles en fonction de la vitesse d'élocution.

Un autre domaine d'étude est le traitement du signal pour la synthèse. Le synthétiseur utilisé actuellement repose sur la concaténation de fragments de parole naturelle (diphones). Le traitement de ces signaux est nécessaire pour réaliser la prosodie calculée au préalable, et pour changer divers aspects de la qualité vocale. Les méthodes utilisées reposent sur la décomposition périodique-apériodique de la source vocale et sur une décomposition du signal en formes d'ondes élémentaires.

Le fonctionnement de la source vocale présente une composante quasi-périodique (voisement) et une composante apériodique (bruits, impulsions, irrégularités diverses). Pour caractériser la qualité vocale, ou pour améliorer le naturel des modifications prosodiques, il faut prendre en compte ces deux composantes. Un algorithme décomposant le signal en une partie périodique et une partie apériodique a été mis au point et évalué du point de vue acoustique. Un nouveau modèle de source fondé sur cette décomposition est à l'étude pour une application en synthèse.

En acoustique également, une collaboration sur la simulation numérique de l'onde glottique a été mise en place avec le département mécanique-énergétique du laboratoire. Le travail d'inventaire des représentations temps-fréquence de la parole, entrepris voici quelques années, se poursuit par la mise à jour d'un important corpus bibliographique raisonné.

Enfin, en marge de la synthèse à partir du texte, des travaux sur la synthèse de parole utilisant des vocabulaires restreints ont été menés. Des fragments de parole longs, de l'ordre de un à plusieurs mots, sont assemblés pour reconstituer les messages requis par des applications définies (ici les projets MASK et RAILTEL).

Intonation L'intonation est essentielle dans le processus de synthèse de la parole, dès lors que l'on souhaite obtenir une qualité acceptable. Les difficultés rencontrées sont de plusieurs ordres : d'une part l'intonation dépend de multiples facteurs, linguistiques et non-linguistiques; d'autre part la manière dont elle est perçue est très mal connue. Ce problème difficile a été abordé par l'expérimentation psychoacoustique. La perception de glissandi mélodiques a fait l'objet d'une étude détaillée. Un modèle de perception de l'intonation a été implémenté dans un algorithme d'analyse tonale automatique. A partir du signal et d'un étiquetage phonétique, une suite de tons syllabiques perceptivement équivalente à la courbe mélodique du signal est calculée automatiquement. Cette approche permet de tester la validité du modèle de perception de l'intonation, et également de styliser automatiquement des courbes mélodiques en vue de la synthèse de parole.

A mi-chemin entre reconnaissance et analyse de la parole, des travaux ont été menés sur l'extraction de paramètres intonatifs robustes et sur la reconnaissance automatique de l'intonation. Le propos était d'identifier les structures intonatives réalisées dans des corpus de parole continue et spontanée, pour plusieurs locuteurs. Un système de reconnaissance statistique de l'intonation a été mis en oeuvre. Il a été nécessaire de redéfinir les paramètres de l'intonation, afin de traiter avec suffisamment de robustesse les mélodies rencontrées en parole spontanée multilocuteur.

Perception A partir des problèmes de variabilité du signal de parole on a mis en évidence certaines limitations du paradigme de la Reconnaissance des Formes dans les domaines du traitement automatique de la parole et de la perception naturelle (où il rejoint la problématique de la catégorisation). On propose une approche appelée Traitement des Formes, qui généralise la Reconnaissance des Formes au cas où l'on cherche à caractériser simultanément tous les aspects perceptifs d'un signal. Il s'ensuit une conception nouvelle de la perception (naturelle et artificielle), vue comme un changement hiérarchique de représentation conservant une description complète de l'information perçue, tout en séparant graduellement ses principaux aspects.

Le signal de parole comporte, mélangée à l'information linguistique, une quantité importante d'information non-linguistique dont le rôle est de renseigner l'auditeur sur l'identité du locuteur, sur sa proximité, son état d'esprit, son état physique, ses intentions. Cette information contribue à compliquer fortement le problème de reconnaissance de la parole, en introduisant de la variabilité dans le signal. Réciproquement cette information est absente des voix synthétiques, qui sont perçues comme inexpressives et sans personnalité. Il est donc indispensable d'étudier la manière dont l'auditeur humain perçoit la qualité de la voix, ceci afin d'en rechercher les manifestations dans le signal. Une telle étude a débuté récemment et vise à identifier les attributs par lesquels un groupe de sujets peut définir divers aspects de la voix tels que le genre de voix (masculin, féminin, enfantin), le timbre d'un locuteur individuel, la force de voix, les conditions perceptives de prise de son.

Les paramètres acoustiques de la qualité vocale sont également étudiés. Le but est ici de caractériser, en particulier par et pour la synthèse, les différentes contributions de la fréquence fondamentale, des formants, de la source glottique lorsque la qualité vocale change.

Dans une étude sur la perception de la parole on cherche à définir les paramètres physiques porteurs d'information linguistique, en se limitant au cas des voyelles et en considérant plusieurs locuteurs et plusieurs forces de voix. Le problème est que les paramètres identifiés traditionnellement comme les fréquences et les amplitudes des formants sont difficiles à déterminer de manière fiable à partir du signal, et qu'ils sont également porteurs d'information non-linguistique. Cette question est abordée à partir de la notion de système vocalique propre à un locuteur, et à ses déformations en fonction de facteurs non-linguistiques.

Les considérations exposées ci-dessus mènent à réexaminer la manière dont est menée la paramétrisation du signal pour la reconnaissance de la parole. Des études sont entreprises pour prendre en compte à ce niveau l'information non-linguistique en vue de réduire la variabilité apparente du signal. On se préoccupe également d'envisager l'application de ces idées aux problèmes de la prothèse auditive et des implants cochléaires.

THÈME 2 - MODéLISATION ACOUSTICO-PHONÉTIQUE ET LEXICALE

L.F. Lamel, M. Adda-Decker, G. Adda, C. Corredor, L. Devillers, J.-L. Gauvain, J.-J. Gangolf, J.-S. Liénard, J. Mariani, D. Matrouf, W. Minker, (stagiaires: F. Connerade, M. Neumann, C. Ullrich, H. Visser)

Les recherches en Modélisation Acoustico-Phonétique et Lexicale portent essentiellement sur les unités de base utilisées pour la modélisation acoustique et sur le lien entre celles-ci et la représentation lexicale. Les performances d'un système de reconnaissance sont fortement dépendantes de la pertinence et de la précision des modèles acoustiques et linguistiques utilisés. Le lexique est le point d'articulation entre modèles linguistiques et modèles acoustico-phonétiques, chaque entrée lexicale étant décrite comme une fonction des unités acoustiques de base.

La modélisation acoustico-phonétique doit prendre en compte les sources de variabilité dans la production du signal vocal: celles liées au contexte linguistique (phonétique, syntaxique, sémantique, prosodique) et celles liées au contexte non-linguistique comme le locuteur (ses caractéristiques physiques, ses habitudes, son état physique et émotionnel), l'environnement acoustique et la prise de son.

L'indépendance par rapport au locuteur est obtenue en estimant les paramètres des modèles acoustiques à l'aide de grands corpus de parole contenant les enregistrements de plusieurs centaines de locuteurs, et la variabilité contextuelle se traduit par l'utilisation d'un grand nombre d'unités phonétiques dépendantes du contexte phonétique local. Les variantes phonologiques sont prises en compte soit au niveau lexical où des prononciations multiples peuvent être spécifiées, soit au moyen de règles phonologiques. La variabilité liée à la prise de son et au canal de transmission est traitée en adaptant les modèles acoustiques aux conditions particulières rencontrées avec ou sans modélisation explicite du canal de transmission.

Nous travaillons sur la modélisation de la parole lue dans un cadre multilingue (français, anglais, allemand), mais nous traitons également les spécificités de la parole spontanée telles qu'elles se présentent dans les applications de dialogue. Bien évidemment, la conception et l'enregistrement de corpus multilingues fait partie de nos activités de recherche.

Les problèmes de variabilité acoustique mènent à des recherches variées, qui souvent vont au-delà du cadre de ce thème et rejoignent les activités des autres thèmes. Les problèmes de normalisation et d'adaptation du signal de parole sont étudiés pour la reconnaissance indépendante du locuteur, pour la reconnaissance en milieu bruité ou à travers le réseau téléphonique. Ce qui est considéré comme non-pertinent pour une problématique peut devenir le caractère pertinent sous une autre perspective. Ainsi les recherches sur l'identification du locuteur considèrent comme discriminant ce qui est considéré comme variabilité non-pertinente pour le décodage de l'information linguistique. Cependant les principes de la modélisation acoustique sous-jacente restent peu modifiés. On peut en fait concevoir qu'un modèle acoustique porte un nombre variable (suivant l'application visée) d'étiquettes informatives (phonème, mot, sexe du locuteur, identité du locuteur, identité de la langue...), et ainsi envisager un système unique qui identifie à la fois les conditions de prise de son, le locuteur, la langue ainsi que le message linguistique encodé dans le signal.

Modélisation lexicale La modélisation lexicale consiste à définir un vocabulaire de reconnaissance et à associer une ou plusieurs transcriptions phonétiques à chaque entrée lexicale. D'autres informations souvent incluses dans les lexiques sont des catégories grammaticales et des marqueurs de coarticulation tels que les liaisons en français, la palatalisation en anglais, et le coup de glotte en allemand. Le choix des unités (effectué en collaboration étroite avec les activités du thème 3) repose sur différents critères: les unités doivent pouvoir être extraites automatiquement à partir de corpus de textes ou de corpus de parole transcrite; pour une taille donnée, le choix des unités doit optimiser le taux de couverture pour la langue ou le langage de l'application considérée; la définition d'unité peut donc être plus ou moins difficile suivant les textes (ponctuations, sigles, différenciation majuscules/minuscules, ...) et la langue traitée. En français, l'apostrophe peut être interne à l'unité lexicale (par exemple aujourd'hui, quelqu'un) mais le plus souvent elle indique une frontière de mots. En allemand le phénomène commun de composition de mots (par exemple Kreisvolkshochschule, qui se décompose de la façon suivante Kreis+Volks+Hoch+Schule, signifie `"Ecole régionale de formation pour adultes") conduit à un taux de couverture lexical plus petit pour une taille de vocabulaire identique. Cet exemple montre que les critères d'extraction automatique et de couverture ne peuvent être optimisés simultanément.

Maximiser le taux de couverture revient à minimiser le taux de mots hors vocabulaire et donc à minimiser les erreurs dues à ce paramètre. D'après notre expérience chaque mot hors vocabulaire génère en moyenne 1,2 erreurs en anglais, 1,6 erreurs en allemand, et 2 erreurs en français. Ceci est dû au fait que les mots courts avec un ou deux phonèmes sont très fréquents en français et que pratiquement toute suite de mots peut être transcrite en un plus grand nombre de mots courts (suites de mots homophones). Les unités lexicales sont reliées à la représentation acoustique au moyen de séquences d'unités élémentaires permettant de décrire tous les sons d'une langue donnée (symboles phonémiques). Différents facteurs doivent être considérés pour déterminer la représentation lexicale. Une représentation phonémique est intuitivement satisfaisante puisque les unités phonémiques sont les unités définies et utilisés par les phonéticiens pour décrire les différentes langues. Ces unités, qui sont bien définies et documentées, ont été choisies pour représenter les prononciations de base dans nos lexiques. Pour obtenir des modèles acoustiques plus précis, on peut aussi considérer l'utilisation d'une représentation phonétique ou allophonique; cependant, comme nous le verrons plus loin, la pratique communément retenue d'utiliser des modèles de phones en contexte permet de représenter explicitement de telles variantes allophoniques.

Les transcriptions phonémiques peuvent être obtenues de différentes façons. Si on dispose déjà d'un lexique de taille suffisante contenant des prononciations de bonne qualité, une procédure semi-automatique peut être utilisée pour ajouter les prononciations de nouveaux mots. Cette procédure est cependant très fastidieuse si le vocabulaire de l'application contient quelques dizaines de milliers de mots. Une alternative est l'utilisation de systèmes de conversion graphème-phonème. Ces systèmes produisent généralement une prononciation standard à partir de laquelle des variantes peuvent être automatiquement générées au moyen de règles. La liste des prononciations doit cependant être vérifiée et complétée manuellement. Une autre approche, que nous avons explorée, repose sur une modélisation statistique du processus de conversion phonème-graphème par des modèles de Markov cachés discrets. L'avantage d'une telle approche réside dans sa relative indépendance par rapport à la langue. Nous avons ainsi pu utiliser un tel système graphèmes-phonèmes allemand, pour initialiser les transcriptions phonétiques lors de l'extension de notre lexique de 64k mots.

Nous utilisons à la fois des transcriptions multiples et des règles phonologiques qui permettent de représenter des phénomèmes qui ne peuvent être correctement pris en compte dans les modèles acoustiques, tels que les variantes dialectales, les variantes rythmiques et les phénomènes de réduction de groupes consonantiques à la frontière de mots. Le e-muet et les liaisons en français, ainsi que le coup de glotte en allemand sont également représentés de manière explicite.

La qualité des lexiques, développés au LIMSI pour l'anglais américain et utilisés pour les évaluations organisées par ARPA sur la tâche Wall Street Journal, a été reconnue par les autres laboratoires qui ont pu utiliser nos lexiques.

Modélisation acoustico-phonétique La modélisation acoustico-phonétique concerne l'articulation entre une représentation symbolique et le signal acoustique. Plus les modèles acoustiques sont précis, plus les performances du système de reconnaissance sont élevées (taux de reconnaissance et vitesse de décodage). Evidemment, s'il y a inadéquation entre les modèles et le signal à décoder, les performances du système sont médiocres.

Les recherches en modélisation acoustico-phonétique consistent à explorer différents types de modèles et à évaluer leur capacité à prendre en compte la variabilité inhérente au signal de parole. Nous utilisons une approche statistique classique, où chaque modèle phonémique est une source de Markov cachée avec des densités d'observation multi-gaussiennes. Dans ce cadre, les sources de variabilité acoustique sont modélisées de différentes manières. Pour prendre en compte les phénomènes de coarticulation entre phonèmes consécutifs nous utilisons des modèles de phones en contexte (triphones et diphones). La variabilité spectrale d'une même chaîne phonémique due à différents locuteurs ou aux conditions d'enregistrement est généralement représentée par des densités de probabilité (multigaussiennes) sur l'espace de variables acoustiques. Les variations dans le rythme d'élocution sont partiellement prises en compte en modélisant chaque phone (ou phone en contexte) par une chaîne de Markov. Cette approche ainsi que d'autres techniques complémentaires communément utilisées pour modéliser la durée des phones ne sont cependant pas adéquates pour modéliser les effets dus à un débit d'élocution très rapide (180 mots/mn).

Un de nos objectifs est d'accroître notre compréhension et ainsi notre capacité à modéliser le spectre des variantes allophoniques recontrées dans les très grands corpus de parole. Alors qu'une part de la variabilité phonologique est prise en compte au niveau du mot par l'utilisation de transcriptions multiples dans le lexique ou de règles phonologiques, d'autres phénomènes tels que la réduction consonantique à la frontière de mots, ou la réduction syllabique qui peut affecter plusieurs phonèmes consécutifs, sont moins bien modélisés avec une telle approche explicite. La variabilité due à un débit d'élocution rapide est actuellement la moins bien prise en compte. Des directions possibles de recherche sont l'utilisation de différentes unités acoustico-phonétiques (tels que des phonèmes composés), l'utilisation de différentes entrées lexicales associées à des mots composés, et l'utilisation de règles phonologiques spécifiques à ces problèmes de réduction.

Dans le cadre de nos travaux sur les systèmes de compréhension et de dialogue, où les utilisateurs interagissent avec la machine pour résoudre un problème de recherche d'information, nous avons commencé à étudier les spécificités de la parole spontanée. Aux sources de variabilité mentionnées plus haut, viennent s'ajouter des hésitations, des fragments de mots, et d'importantes variations de durée à l'intérieur d'une même phrase (emphases, pauses). Nous espérons que la prosodie (étudié dans thème 1), qui n'est actuellement pas modélisée dans nos systèmes, apportera une information nécessaire à la désambiguation de la parole spontanée. La parole spontanée requiert également une adaptation du lexique et des modèles de langage pour prendre en compte des spécificités de la syntaxe de l'oral étudiée dans le thème 3.

Aspects multilingues Notre recherche est réalisée dans un cadre multilingue. Nous avons adapté nos systèmes développés pour le français et l'anglais américain à l'anglais britannique et l'allemand. Ce travail nécessite, pour chaque nouvelle langue à modéliser, des corpus de textes et de parole appropriés et un lexique de prononciation. L'étude conjointe des différentes langues nous a permis en particulier de mettre en évidence les différents types de coarticulation entre les mots qui produisent des styles rythmiques différents. En français, la liaison évite les jonctions voyelle-voyelle et contribue à sa structure syllabique. A la jonction voyelle-voyelle en allemand, il est commun de marquer la frontière de mot par un coup de glotte, ce qui contribue au caractère rythmique saccadé de cette langue.

Les modèles acoustiques utilisés pour la reconnaissance de la parole sont également utilisés pour l'identification de la langue. Dans notre approche, un ensemble de modèles de phones (modèles de Markov cachés) est construit pour chaque langue à identifier; ces modèles sont interconnectés comme dans un système de reconnaissance de phonèmes où les probabilités de transition correspondent aux contraintes phonotactiques de la langue. L'identification de la langue à partir d'un signal consiste à évaluer la probabilité d'observation du signal pour les différents ensembles de modèles; l'identité proposée est celle associée à l'ensemble de modèles pour lequel la probabilité du signal observé est la plus élevée.

Corpus de parole L'approche statistique retenue pour la modélisation acoustico-phonétique nécessite l'enregistrement de grands corpus de parole. Ces besoins sont accrus par la modélisation implicite de différentes sources de variabilité (locuteur, dialecte, langue, mode d'élocution, prise de son, environnement..).

Nos actions récentes ont porté sur la production sur disque CDROM du corpus BREF-Polyglot (avec un soutien financier d'Elsnet) et sur l'élaboration du corpus TED (Translanguage English Database) contenant les présentations orales d'Eurospeech'93 à Berlin et les textes associés (dans le cadre du projet LRE EUROCOCOSDA). Ces corpus seront distribués par ELRA (European Linguistic Resources Association). Dans le cadre d'un contrat avec France Telecom, nous avons spécifié le contenu du corpus VECLIM pour la vérification du locuteur qui est enregistré et transcrit par la société Vecsys. Dans le cadre du projet IDEAL (contrat CNET sur l'identification des langues), nous avons collecté environ 300 appels téléphoniques pour quatre langues (Anglais, Français, Allemand et Espagnol). Chaque appel contient de la parole lue et spontanée. Tous les appels ont été trancrits en utilisant la même méthodologie.

THÈME 3 - MODÉLISATION LINGUISTIQUE

G. Adda, M. Jardino, A. Andreewsky, J.L. Gauvain, J. Mariani

Dans ce thème, à la frontière entre le traitement de l'écrit et celui de l'oral, nous développons des méthodes et des outils propres à la modélisation de langue, en vue d'une utilisation dans des systèmes de reconnaissance de la parole, mais, lorsque cela est possible, en s'inspirant de méthodes existantes ou émergentes pour le traitement de l'écrit. Ainsi, nous menons deux sortes d'activités, les unes fortement liées au problème de la reconnaissance de la parole, et les autres plus tournées vers le traitement de l'écrit, dans la mesure où ces activités peuvent déboucher à court ou moyen terme sur des applications en reconnaissance de la parole.

Modèles de langage probabilistes Le modèle de langage, c'est-à-dire la composante du système de reconnaissance qui est en charge d'introduire les contraintes imposées par la syntaxe de la langue, est fondé actuellement dans les systèmes de reconnaissance à grand vocabulaire les plus performants, sur une approche probabiliste, compatible en cela avec les autres composantes du système de reconnaissance.

Un modèle de langage probabiliste repose le plus souvent sur un paradigme empirique: une bonne estimation de la probabilité d'un événement linguistique peut être obtenue en observant cet événement sur un corpus de texte de taille suffisante. Les nécessités induites par le processus de reconnaissance, conjuguées avec les capacités actuelles des analyseurs morpho-syntaxiques reposant sur une analyse structurelle de la phrase (capacités encore réduites sur des corpus généraux de grande taille), font que les modèles de langage ne prennent en compte que les contraintes locales de la syntaxe, par des modèles dits n-grammes, où l'on estime la probabilité d'une phrase à partir des probabilités conditionnelles d'apparition d'un mot ou d'une classe de mots, étant donnés les n-1 mots ou classes des mots précédants. Cette approche est particulièrement intéressante pour son efficacité et sa robustesse, mais est limitée à la modélisation des structures linguistiques locales.

Actuellement des modèles bi et trigrammes de mots sont utilisés couramment dans les systèmes de reconnaissance de la parole continue, l'ordre des modèles utilisés allant jusqu'à 4 (modèle 5-grammes). Dans ce cadre, nous avons construit des modèles n-grammes pour les langues française, anglaise et allemande. Les modèles bi et trigrammes de mots pour l'anglo-américain, appris sur les textes distribués par LDC (plus de 300 millions de mots), ont été utilisés lors de la dernière évaluation ARPA (NAB News, novembre 1995) portant sur la dictée vocale de textes de journaux financiers.

Les modèles bi et trigrammes de mots, estimés sur de très grands textes en anglais, fournissent une bonne contrainte syntaxique locale, au prix de modèles de très grande taille. Pour des langues inflexionnelles comme le français ou l'allemand, l'utilisation de modèles de n-grammes de mots, nécessitent des tailles de corpus et de modèles encore plus importantes. Nous avons développé un modèle de n-grammes de classes de mots, permettant ainsi de réduire le nombre de paramètres à estimer, et donc la taille du corpus d'apprentissage et la taille du modèle. Pour cela nous avons étudié un algorithme de classement automatique des mots selon leur contexte pour inférer des modèles de langage plus robustes et éventuellement portables d'une application à une autre. Cette méthode a été appliquée à trois corpus (anglais, francais et allemand) de plus de 30 millions de mots chacun. Nous montrons ainsi l'efficacité et l'intérêt de notre algorithme qui permet un regroupement des mots sans aucun étiquetage préalable et sans connaissance a priori sur le langage (ni sur sa nature, sa syntaxe ou sa sémantique). Les mots sont classés de manière à réduire la perplexité du texte qui est calculée d'après l'estimation des probabilités de succession des mots dans le texte d'apprentissage. Ces classements ont permis de générer des modèles trigrammes de classes plus performants que les modèles trigrammes de mots plus classiquement utilisés.

Ressources linguistiques Les méthodes statistiques que nous utilisons pour la modélisation linguistique utilisent les corpus comme matériau principal. Ces méthodes sont d'autant plus efficaces que ces ressources linguistiques existent en grande quantité et sous une forme d'une qualité suffisante. Ceci nous a donc amener à fournir un effort important dans la création, et la mise à disposition de ces ressources :

* Normalisation de textes Les corpus doivent être prétraités pour plusieurs raisons. Ces corpus de grande taille contiennent un certain nombre d'erreurs de frappe et de formatage, d'où nous devons extraire un lexique et une estimation des fréquences des mots et des séquences de mots; il est donc nécessaire de "nettoyer" et de segmenter ces textes en "mots", la définition de ce qu'est un mot dépendant principalement des contraintes imposées à la fois par le système de reconnaissance et le modèle de langage. Nous devons segmenter le texte en satisfaisant au mieux à deux critères contradictoires: avoir le lexique le plus petit possible (pour diminuer la charge de travail pendant la reconnaissance) avec une grande couverture et d'autre part générer des mots non ambigus syntaxiquement (afin d'augmenter le pouvoir discriminant du modèle de langage). Si nous utilisons uniquement le premier critère, nous transformons toute majuscule en minuscule (pas de noms propres) et séparons systématiquement toute ponctuation des mots accolés (pas de mots composés); l'effet en sera une plus grande ambiguïté syntaxique. Si nous ne prenons que le second critère, nous ne segmentons aucun mot ni ne transformons aucune majuscule ; l'effet en sera une plus grande ambiguïté lexicale. Nous avons choisi une position médiane, où l'on essaie de conserver les majuscules lorsqu'elles sont lexicalement discriminantes, et nous conservons les ponctuations aux mots dans les mots composés avérés. De plus, certaines décisions pragmatiques doivent être prises; nous avons décidé de segmenter le texte en phrases, de retirer les parties de texte contenant une information "parasite" (résultats sportifs ou d'élection, référence discographiques, ...). Nous avons également choisi de transformer les nombres en mots orthographiques. Ces opérations sont effectuées à l'aide d'outils automatiques, nécessitant cependant une phase manuelle de vérification des lexiques générés.

Dans le cadre des actions de recherche concertées "Linguistique, informatique et corpus oraux" mises en place par l'AUPELF-UREF, nous avons proposé de mettre à disposition des participants à l'action B1 portant sur la dictée vocale, des corpus écrits de grande taille (compris entre 40 et 200 millions de mots). Ces corpus correspondent à plusieurs années d'archives du journal Le Monde, prétraitées de manière à faciliter la construction des modèles de langages probabilistes.

* Serveur linguistique Nous avons mis en place, en collaboration avec le groupe Langage et Cognition, un serveur linguistique, afin de mettre à disposition des ressources linguistiques (textes et outils de traitement) et permettre une synergie sur le problème du traitement des grandes bases de textes, que ce soit en vue de la modélisation linguistique pour la reconnaissance de la parole, ou pour d'autres objectifs. Ce projet, initié dans le cadre d'une action incitative du LIMSI, participe maintenant à un projet national Aupelf-Uref/CNRS, SILFIDE, dont le but est de développer un réseau de serveurs sur lesquels seront mis à disposition de la communauté francophone un certain nombre de corpus (dont le corpus de journaux précédemment cités), de lexiques et dictionnaires, ainsi que des outils génériques d'analyse et de traitement de données textuelles.

Evaluation La recherche en reconnaissance de la parole a grandement bénéficié de l'utilisation du paradigme de l'évaluation, qui à travers des programmes comme celui de ARPA aux Etats-unis a fait progresser considérablement l'état de l'art dans ce domaine. L'utilisation de l'évaluation est cependant encore très parcellaire dans le domaine de la modélisation linguistique (pour lécrit comme pour l'oral), et quasi inexistante en ce qui concerne la langue française.

L'action de recherche concertée de l'AUPELF-UREF, portant sur l'évaluation des modèles de langage et à laquelle nous participons, est une première étape vers l'évaluation de notre modélisation linguistique dans le cadre de l'oral.

L'action GRACE, que nous organisons avec l'INALF, a pour objectif l'application du paradigme d'évaluation aux analyseurs morphosyntaxiques et syntaxiques du français. Elle se situe dans le cadre du programme commun aux directions SHS-SPI du CNRS intitulé "Cognition, Communication intelligente et Ingénierie des langues". Le programme vise à développer une coopération entre linguistes et informaticiens. En proposant un cadre de référence dans lequel les différents systèmes développés selon des méthodes a priori différentes seront comparés. L'action GRACE entend créer une convergence autour de l'évaluation qui regroupera des acteurs de tous horizons (recherche, industrie, éducation) permettant ainsi de dégager des directions prioritaires de recherche afin de faire progresser le domaine. En outre les données qui seront rassemblées pour effectuer les évaluations seront mises à disposition de la communauté scientifique afin de créer un ensemble de ressources linguistiques réutilisables. L'appel à participation à l'action GRACE, centrée sur l'évaluation des étiqueteurs morpho-syntaxiques pour le français a été très bien accueilli puisqu'une vingtaine d'équipes y ont répondu. Ces équipes viennent aussi bien de l'industrie que de la recherche publique et incluent une participation étrangère conséquente (Amérique du Nord, Allemagne, Suisse). La session d'évaluation se déroulera en trois phases: 1) entraînement, comprenant la distribution des données d'entraînement (corpus d'environ 9 millions de mots) et du lexique développé dans le cadre du projet Multext coordonné par J. Véronis, 2) essai, qui servira à tester le protocole complet d'évaluation avec le concours des participants, 3) test, l'évaluation proprement dite.

THÈME 4 - SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION

J.L. Gauvain, G. Adda, M. Adda-Decker, S. Bennacef, L. Devillers, S. Foukia, J.J. Gangolf, J.C. Jézéquel, L. Lamel, D. Matrouf, H. Maynard, W. Minker, S. Rosset, (stagiaires: O. Bataille, X. Laporte, D. Solé)

Ce thème a pour objet le développement de systèmes de traitement du language parlé reposant sur l'ensemble des recherches effectués dans le groupe. Il aborde entre autres des problèmes pratiques tels que l'intégration des différents modules de traitement et l'efficacité des stratégies de décodage. Ces activités de recherche ont un lien très fort avec nos activités de valorisation, via le transfert de notre technologie pour la reconnaissance de la parole, la vérification du locuteur et les systèmes de compréhension et de dialogue.

Les travaux de recherche peuvent être classés selon trois axes principaux: 1) la reconnaissance de parole continue indépendante du locuteur, 2) l'identification de traits non linguistiques, et 3) le développement de systèmes de compréhension et de dialogue.

Reconnaissance En ce qui concerne la reconnaissance de la parole continue, notre but est de développer une machine à dicter indépendante du locuteur et du domaine, et qui soit robuste aux conditions de prise de son. La qualité d'un système de reconnaissance dépend essentiellement de la qualité de ses modèles acoustique et linguistique. Afin de garantir un système de reconnaissance indépendant du domaine, l'utilisation d'un très grand vocabulaire (> 200k mots) est indispensable. Ceci nous amène à utiliser, pour la modélisation acoustique, une approche fondée sur des unités phonétiques. Cette modélisation doit pouvoir rendre compte de phénomènes liés à la spontanéité (hésitations, respirations et autres bruits parasites) et de conditions d'enregistrement variables (microphone, bruit de fond). Le modèle linguistique doit intégrer des connaissances sur la syntaxe de la langue et sur des phénomènes propres à la parole spontanée (répétitions, reprises). Ce travail est effectué dans un cadre multilingue en étroite coordination avec les activités des thèmes 2 et 3. L'adaptation du système de reconnaissance à de nouvelles langues nécessite pour chaque langue un corpus de parole, un corpus de textes et un lexique phonétisé. Il peut également être nécessaire de modifier la structure des modèles pour prendre en compte les phénomènes spécifiques à la langue tant au niveau phonologique que syntaxique.

Des systèmes de reconnaissance de parole continue multilocuteur ont été développés pour le français, l'anglais américain, l'anglais britanique et l'allemand, avec des vocabulaires de l'ordre de 64.000 mots. Dans le cadre du projet LRE SQALE, une étude comparative a été effectuée en utilisant des vocabulaires de 20.000 mots pour le français et l'anglais, et 64.000 mots pour l'allemand. Pour ces évaluations, les modèles acoustiques et le modèle de langage ont été estimés et évalués sur de grands corpus de textes lus enregistrés en environnements peu bruités. Les taux d'erreurs obtenus sur les mots dans ces conditions sont de l'ordre de 12 à 15%.

Notre système pour l'anglais américain est évalué depuis 1992 à l'occasion des tests organisés annuellement par ARPA sur les tâches Wall Street Journal puis North American Business News. Malgré l'augmentation de la complexité de la tâche, les performances du système ont pu être améliorées grâce à l'utilisation de meilleurs modèles acoustiques estimés sur de plus grands corpus et grâce au développement d'un nouveau décodeur qui a permis d'augmenter la taille du vocabulaire de reconnaissance. Afin de limiter l'espace de recherche, une technique de décodage progressif a été développée pour réduire le nombre d'hypothèses à considérer à chaque étape du décodage. Avec cette approche à passes multiples, des modèles acoustiques et linguistiques plus complexes et donc plus précis sont utilisés dans les passes ultérieures. L'information est transmise entre les différentes passes sous forme de graphes de mots.

L'amélioration des performances passe d'abord par une meilleure modélisation acoustique et linguistique. Une meilleure modélisation acoustique est nécessaire pour rendre les systèmes moins sensible aux changements de locuteur, de microphone, du niveau du signal, des conditions d'enregistrement, du débit de parole, etc. Dans le cadre des évaluations organisées par ARPA, nous avons développé des systèmes pour les conditions téléphoniques (évalués en nov. 94) et pour des environnements bruités sans connaissance a priori du microphone (évalués en nov. 95). En ce qui concerne les modèles de langage, il nous faut développer des modèles capables de prendre en compte des mots nouveaux, des constructions grammaticales non observées, et les phénomènes propres à la parole spontanée mentionnés plus haut. Ces aspects sont traités en détail dans le contexte de la reconnaissance de la parole pour les systèmes de compréhension et de dialogue, où le système de reconnaissance est un composant du système complet.

Identification de traits non linguistiques Le deuxième axe de recherche est l'identification de traits non linguistiques de la parole. Cette activité est en fait une extension logique des travaux sur la reconnaissance de la parole puisque la modélisation est sensiblement la même. L'idée de base est de construire un modèle acoustique (en fait un ensemble de modèles d'unités phonétiques) pour chaque valeur du trait non linguistique à identifier, puis d'évaluer la probabilité d'observation d'un signal pour ces différents modèles comme cela est fait dans un système de reconnaissance de la parole. Au lieu de retenir la séquence d'unités la plus probable, on ne s'intéresse ici qu'à l'ensemble de modèles pour lequel la probabilité du signal est la plus élevée.

L'identification du genre du locuteur a été initialement utilisée pour réduire la quantité de calcul lors de l'utilisation de modèles dépendant du genre du locuteur dans nos systèmes de reconnaissance de la parole. L'identification du genre sur les corpus utilisés pour évaluer la reconnaissance de la parole est proche de 100% d'identification correcte. L'utilisation de cette méthode pour identifier le locuteur a été évaluée sur des corpus de parole en anglais américain et français (BREF, WSJ, TIMIT). Cependant, ces corpus n'ont pas été conçus pour évaluer des algorithmes d'identification du locuteur et conduisent à des résultats très optimistes car toutes les données ont été enregistrées en une seule session pour chaque locuteur. Dans le cadre d'un contrat avec France Telecom, nous avons, en collaboration avec la société Vecsys, défini et enregistré un corpus téléphonique pour développer et évaluer les algorithmes d'authentification du locuteur en fonction de la quantité et du type de données utilisées pour l'apprentissage et les tests. Sur ce corpus téléphonique, en mode vérification dépendant du texte, le taux d'égale erreur (i.e. le taux de rejet d'abonnés est égal au taux d'acceptation d'imposteurs) pour des énoncés de 1,2 secondes est égal à 1,2% avec deux essais autorisés par tentative.

La même technique est utilisée pour l'identification des langues pour laquelle une variété d'applications potentielles peut être envisagé, par exemple pour le routage automatique d'appel téléphonique vers un opérateur, en frontal de serveurs d'information touristique ou de futurs systèmes de traduction. Dans le cadre d'un contrat avec le CNET, nous avons enregistré un corpus téléphonique multilingue (français, anglais britanique, allemand et espagnol) comprenant environ 300 appels par langue. Ces données sont actuellement utilisées pour effectuer des expériences sur la reconnaissance des langues en contrôlant les conditions d'enregistrement et le contenu linguistique des données. Les principaux problèmes sont la modélisation du canal téléphonique et l'interaction entre modèles acoustiques et phonotactiques pour les différentes langues.

Compréhension et dialogue Le troisième axe de recherche concerne les systèmes de compréhension de la parole. Dans ces systèmes nous ne sommes pas simplement intéressés à transcrire ce qui est dit, mais plutôt à comprendre le sens de ce qui est dit. L'objectif est de fournir un accès vocal à des sources d'information.

Pour chaque application, il est nécessaire de définir au préalable le vocabulaire et les concepts liés à cette application afin de construire les modèles acoustiques, linguistiques et sémantiques appropriés. Ici la modélisation de la parole spontanée devient particulièrement importante et des problèmes nouveaux apparaissent concernant le développement du module de compréhension et l'intégration de la reconnaissance avec d'autres modalités potentielles telles que le toucher, le clavier, la synthèse de la parole, etc... La sortie du système de reconnaissance est transmise au module de compréhension qui analyse la requête au moyen d'une grammaire de cas pour en comprendre le sens. Le principal travail lors du développement du module de compréhension est l'écriture des règles de la grammaire de cas qui comprend également la définition des concepts significatifs pour la tâche et les mots-clés associés. Le rôle du module de dialogue est de guider l'utilisateur afin qu'il fournisse l'information nécessaire à la construction des requêtes pour le gestionnaire de la base de données. Les réponses en langage naturel sont générées à partir du schéma sémantique et de l'information extraite de la base de données. La synthèse du message est alors obtenue par concaténation de segments de parole préenregistrés. En ce qui concerne le module de compréhension, un de nos objectifs est d'appliquer des techniques de modélisation statistique aux concepts afin de pouvoir facilement généraliser l'approche à d'autres applications. Une thèse est en cours sur ce problème.

Nous avons développé des systèmes pour trois domaines: l'ATIS, MASK et RAILTEL. L'ATIS est une version française de la tâche ARPA ATIS qui a été utilisée pour évaluer les systèmes développés dans le programme ARPA "Speech and Natural Language". L'ATIS permet aux utilisateurs d'obtenir des informations sur les vols entre un petit nombre de villes des Etats-Unis et du Canada. Dans le système MASK les utilisateurs peuvent demander des informations liées aux transports ferroviaires pour la France, telles que les horaires des trains, les prix des billets, et les réservations pour environ 500 villes. Ce système est développé dans le cadre du projet ESPRIT MASK (Multimodal-Multimedia Automated Service Kiosk) pour lequel le LIMSI réalise l'interface vocale d'un kiosque d'informations.

Dans le cadre du projet LE-MLAP RAILTEL nous avons évalué la possibilité d'utiliser un système de compréhension et de dialogue pour réaliser un serveur téléphonique d'informations sur les horaires de trains. L'une des particularités des services d'informations téléphoniques est que toute information doit nécessairement passer par le canal vocal. De ce fait la gestion du dialogue et la génération des réponses constituent deux aspects très importants pour la conception d'un tel système. Le système RAILTEL est largement basé sur le système de compréhension du langage parlé développé dans le cadre du projet ESPRIT MASK.

La collecte de corpus de parole représentatifs reste un domaine de recherche important et représente une proportion significative du travail de développement des systèmes. L'augmentation de la quantité de données utilisées pour estimer les modèles des systèmes de reconnaissance permet presque systématiquement d'améliorer leurs performances. De la même façon les progrès sur la compréhension de la parole sont étroitement liés à la disponibilité de corpus. Nous enregistrons des sujets quotidiennement à l'aide des systèmes en développement, obtenant plus de 1000 requêtes par mois pour au moins 20 locuteurs. En collaboration avec la SNCF, plus de 120 sujets ont été enregistrés avec un prototype du système MASK en Gare St. Lazare à Paris afin d'obtenir un échantillon réaliste de population. La collecte de données pour le projet RAILTEL est réalisée en recrutant des sujets qui appellent notre serveur (numéro vert) pour résoudre quelques scénarios prédéfinis. Pour tous ces corpus, les requêtes sont transcrites et classées, et les dialogues sont analysés. Afin de mieux orienter nos travaux de développement, chaque sujet remplit un questionnaire lui demandant de juger le système selon les critères suivants: acceptabilité, difficulté, efficacité, fiabilité et convivialité.

Evaluation Une large part de nos efforts est dirigée vers l'évaluation et la valorisation de nos systèmes, et le développement de corpus de parole. En ce qui concerne l'évaluation, le LIMSI a participé aux cinq derniers tests organisés par ARPA aux Etats-Unis: DARPA RM (sep 92), ARPA WSJ (nov 92, nov 93), ARPA NAB (nov 94, nov 95). Ces évaluations ont permis la comparaison de différents systèmes sur les mêmes données (anglaises) en utilisant des corpus d'apprentissage et un protocole de test commun dans un contexte international. L'extension à une évaluation multilingue a été réalisée dans le cadre du projet LRE SQALE. Nous participons également à l'action concertée de l'AUPELF-UREF portant sur l'évaluation des systèmes pour la dictée de textes en français.

ACTIVITéS D'ENSEIGNEMENT

* DEA d'Electronique "Systèmes Electroniques de Traitement de l'Information" de Paris XI.

J.-S. Liénard est responsable de l'option A ("Systèmes de Perception"). Cette option comprend deux modules, dont l'un porte sur le Traitement du Signal de Parole (24h de cours assurées en 95-96 par J.-S. Liénard et C. d'Alessandro, et 15h en 94-95 assurées par F. Beaugendre).

* DEA "Sciences cognitives" du département d'Informatique de Paris XI.

6h de cours en 95-96, assurées par J.-S. Liénard sur le thème "Perception Artificielle et Perception Naturelle".

* DEA "Automatique et traitement du signal" de Paris XI.

10h de cours assurées par C. d'Alessandro.

* DESS "Systèmes et Communication Homme-Machine" du département d'Informatique de Paris XI (cours sur le traitement de la parole)

40h de cours/TD/TP en 94-95 assurées par B. Doval

30h de cours/TD/TP en 95-96 assurées par L. Devillers

* IMAC Paris II, cours sur le traitement de la parole

30h de cours/TD/TP en 95-96 assurées par B. Doval

* IUP Dauphine (3ème année)

15h de cours sur la parole en 95 assurées par C. d'Alessandro.

* DEA ATIAM de Paris VI et Marseille (Acoustique, Traitemement du signal, Informatique Appliqués à la Musique)

3h de cours en 95 assurées par C. d'Alessandro.

* Ecole d'été organisée par la SFA et l'AUPELF en juillet 1995 - "Fondements et Perspectives en Traitement Automatique de la Parole"

12h de cours assurées par C. d'Alessandro, L. Lamel et J.-S. Liénard.

RELATIONS SCIENTIFIQUES ET INDUSTRIELLES, CONTRATS

Contrats en 1995

* CEC LRE EUROCOCOSDA "European Interface to Cocosda" (1993-1995)

Coordination de la production et de la diffusion de bases de données.

(Responsabilité L. Lamel, J. Mariani, W. Minker)

* CEC LRE RELATOR "A European Network of Repositories for Linguistic Resources" (1993-1995)

Mise en place de l'association ELRA pour la distribution de ressources linguistiques en Europe.

(Responsabilité J. Mariani, L. Lamel, J.J. Gangolf)

* CEC Esprit BRA Elsnet "European Network in Language and Speech" (1993-1995)

Coordination d'activités sur la parole et le langage naturel en Europe.

(Responsabilité J. Mariani, L. Lamel, J.J. Gangolf, W. Minker)

* France Telecom (1994-1996)

Authentification du locuteur à travers le réseau téléphonique.

(Responsabilité J.L. Gauvain, G. Adda, L. Lamel, D. Matrouf, S. Goddijn)

* CNET - Projet IDEAL (1994-1997)

Identification automatique de la langue à travers le réseau téléphonique.

(Responsabilité J.L. Gauvain, G. Adda, M. Adda-Decker, C. Corredor,

S. Foukia, J.J. Gangolf, F. Connerade, M. Neumann, C. Ulrich, H. Visser)

* Esprit MASK "Multimodal Multimedia Automated Service Kiosk" (1994-1996)

Développement d'un système de compréhension de la parole pour un kiosque d'information.

(Responsabilité J.L. Gauvain, S. Bennacef, L. Devillers, S. Foukia,

C. d'Alessandro, B. Doval, J.J. Gangolf, J.C. Jézéquel, L. Lamel, H. Maynard,

S. Rosset, D. Solé)

* CEC LRE SQALE "Speech Recognizer Quality Assessment for Linguistic Engineering" (1993-1995)

Application du paradigme d'évaluation utilisé par ARPA dans un cadre européen en prenant en compte les aspects multilingues.

(Responsabilité J.L. Gauvain, G. Adda, M. Adda-Decker, L. Lamel, J. Mariani)

* CEC LE-MLAP RAILTEL "Railway Telephone Information Service" (1994-1995)

Developpement et évaluation d'un prototype de service téléphonique pour demandes d'informations ferroviaires.

(Responsabilité J.L. Gauvain, S. Bennacef, L. Devillers, S. Foukia, J.J. Gangolf, L. Lamel, S. Rosset)

* CEC LE-MLAP SPEECHDAT "Infrastructure for Spoken Language Resources" (1995-1996)

Création de corpus de parole téléphoniques multilingues.

(Responsabilité L. Lamel, J. Mariani)

* VECSYS (1995-1996)

Etude et réalisation d'un serveur vocal évolué.

(Responsabilité J.L. Gauvain, L. Lamel)

* CEC Copernicus BABEL (1995-1997)

Création de corpus pour les langues des pays d'Europe de l'Est.

(Responsabilité L. Lamel, J. Mariani)

* Contrat européen INTAS, portant sur l'extension d'ELSNET aux nouveaux états-indépendants de l'ex-URSS, dans le domaine de la parole et du langage (1995-1996)

(Responsabilité G. Adda, J. Mariani, F. Néel)

* AUPELF-UREF: 6 projets dans le cadre de l'ARC "Linguistique, Informatique et Corpus oraux" (1994-1997)

Mise à disposition de corpus (texte et parole) pour la langue française et évaluation de systèmes (synthèse, reconnaissance, compréhension) et modèles (modèles de langage).

- Evaluation systèmes de synthèse (Responsabilité C. d'Alessandro)

- Evaluation systèmes de reconnaissance (Responsabilité M. Adda-Decker)

- Evaluation modèles de langage (Responsabilité M. Jardino)

- Evaluation systèmes de dialogue (Responsabilité L. Lamel)

- Corpus de textes (Responsabilité G. Adda)

- Corpus de parole (Responsabilité L. Lamel)

Relations contractuelles British Systems (Grande Bretagne, projet Railtel) ; Bulgarian Language Institute, Bulgarian Academy of Science (Bulgarie, projet Babel) ; Cambridge University Engineering Department - CUED (Grande Bretagne, projet SQALE) ; Center for Personkommunikation, University of Aalborg - UAA (Denmark, projet SpeechDat) ; Center for Sprogteknologi, University of Copenhagen (Denmark, projet Relator) ; Centre for Communication Interface Research - CCIR, University of Edinburgh (Grande Bretagne, projet RailTel) ; Centre for Speech Technology Research - CSTR (Grande Bretagne, projet Relator) ; Centre National d'Etudes des Télécommunications - CNET (France) ; Centro Studi e Laboratori di Telecomunicazioni - CSELT (Italie, projets RailTel, EuroCocosda et SpeechDat) ; Defence Research Agency - DRA (Grande Bretagne, projet SpeechDat); Department of Phonetics and Linguistics, University College London - UCL (Grande Bretagne, projets Babel, EuroCocosda et SpeechDat) ; Deutsches Forschungszentrum für Künstliche Intelligenz GmbH - DFKI, University of Saarland (Allemagne, projet Relator) ; Ergonomics Unit, University College London - UCL (Grande Bretagne, projet MASK) ; Estonian Academy of Sciences (Estonie, projet Babel) ; Ferrovie dello Stato (Italie, projet RailTel) ; France Telecom (France) ; GEC Marconi Limited (Grande Bretagne, projet SpeechDat) ; Institut Dalle Molle d'Intelligence Artificielle Perceptive - IDIAP (Suisse, projet SpeechDat) ; Institut de la Communication Parlée - ICP, Institut national Polytechnique de Grenoble (France, projets Relator et SpeechDat) ; Human Communication Research Centre Language Technology Group - Edimbourg (Grande Bretagne, projet INTAS) ; Institut de Phonétique, Université d'Aix-en-Provence (France, projet Babel) ; Institut für Phonetik und Sprachliche Kommunikation, Universität München (Allemagne, projets Eurococosda et SpeechDat) ; Institute for Human Factors, Netherlands Organization for Applied Scientific Research - TNO (pays Bas, projet SQALE); Institute of Fundamental Technological Research, Polish Academy of Sciences (Pologne, projet Babel) ; Instituto de Engenharia de Sistemas e Computadores - INESC (Portugal, projets Relator et SpeechDat) ; Institute for Information problems RAS, Creative Research Laboratory (Russie, projet INTAS) ; Institute of Phonetic Sciences, Universiteit van Amsterdam (Pays Bas, projets EuroCocosda et SpeechDat) ; Institute of Cybernetics UAS, Speech Technology Department (Ukraine, projet INTAS) ; Istituto di Linguistica Computazionale del CNR Pisa (Italie, projet Relator) ; Jydsk Telefon (Danemark, projet SpeechDat) ; Maria Curie-Sklodowska University (Pologne, projet Babel) ; Mors (France, projet MASK) ; Philips Research Laboratories (Allemagne, projets SQALE et SpeechDat) ; Portugal Telecom (Portugal, projet SpeechDat) ; Saritel (Italie, projet RailTel); Siemens AG (Allemagne, projet SpeechDat) ; Société Nationale des Chemins Fers Francais - SNCF (France, projet MASK) ; Speech Processing Expertise Centre - SPEX (Pays Bas, projet SpeechDat); Technical University of Timisoara (Roumanie, projet Babel); Technical University of Budapest, Hungarian Academy of Sciences (Hongrie, projet Babel) ; Vocalis Limited (Grande Bretagne, projet SpeechDat) ; Universitat Autonoma de Barcelona - UAB (Espagne, projet SpeechDat) ; University of Reading (Grande Bretagne, projet Babel) ; Universitat des Saarlandes (Allemagne, projet Babel) ; VECSYS SA (France).

Relations non contractuelles Certaines des études du thème 1 (Analyse, synthèse et perception) sont menées en coopération avec d'autres groupes du LIMSI, notamment Cognition Humaine, Langage et Cognition et Dynamique des Fluides, avec d'autres groupes français tels que le service ORL du CHU St Antoine, ainsi qu'avec plusieurs instituts étrangers: Institut Indien de Technologie, Madras (département d'informatique et de génie électrique), Université Catholique de Louvain (département de linguistique), Université de Patras (Laboratoire de télécommunication), Université la Sapienza, Rome ( département INFOCOM). Des relations suivies existent avec l'Université Rutgers aux USA et l'Institut de Recherche sur la Perception, Eindhoven, grâce à des stages post doctoraux. Nous coopérons également avec Radio France qui utilise certaines de nos techniques pour des applications de radiodiffusion.

La collaboration initiée au sein du groupe de travail du GDR-PRC "Communication Homme-Machine" portant sur les modèles de langage probabilistes va se poursuivre sous la forme de séminaires, et au sein d'autres actions comme l'action de recherche concertée AUPELF-UREF consacrée à l'évaluation de modèles de langage pour la dictée vocale (action B1-c), et au sein de l'action GRACE dans le cadre du programme commun SPI-SHS "Cognition, Communication intelligente et Ingénierie des langues", portant sur l'évaluation des étiqueteurs morpho-syntaxiques du français. Dans cette dernière action, nous collaborons (J. Mariani et G. Adda) en tant qu'organisateurs avec l'INALF et l'ENST-Paris; nous collaborons de plus avec l'ensemble des participants à ce projet (21 participants, dont 9 industriels) pour mettre au point la première phase de test. A la fois dans le cadre de ces 3 actions et au-delà, nous avons des collaborations avec le Laboratoire d'Informatique d'Avignon et avec l'URA 820 "Traitement et communication de l'information" de l'ENST-Télécom Paris. Nous collaborons avec le groupe Langage et Cognition et d'autres laboratoires (CLIPS (Grenoble), CRIN (Nancy), INALF (Nancy) et LPL (Aix-en-Provence)) afin de mettre en place des ressources linguistiques, au travers d'un projet national, SILFIDE "Serveur Interactif pour la Langue Française, son Identité, sa Diffusion, et son Étude", projet commun de l'AUPELF-UREF et du CNRS.

* G. Adda est membre du comité d'organisation et co-animateur du comité de réflexion de l'action GRACE (INALF).

* C. d'Alessandro est vice-président du groupe spécialisé d'acoustique musicale de la Société Française d'Acoustique.

* C. d'Alessandro a participé au comité d'organisation et au comité de programme d'ISMA'95: International Symposium on Musical Acoustics, Dourdan, Juillet 95, et au comité de programme des Journées d'étude sur la parole JEP96, organisées par la SFA.

* J.L. Gauvain était en 1995 membre du comité ARPA/SISTO Hub3 pour la définition de la campagne d'évaluation 1995 du programme "Human Language Technology".

* M. Jardino est membre élu du conseil de département recherche de Paris XI, membre de droit du conseil de département informatique, et membre nommé (extérieur) de la commission de spécialistes 27ème section.

* M. Jardino est membre nommé (extérieur) de la commission de spécialistes (sections 27-61-63) de l'université de Cergy-Pontoise

* L. Lamel est animatrice et coordinatrice des activités sur la parole du groupe "Reusable Resources Task" d'ELSNET (European Network in Language and Speech), ainsi que la partie parole du projet Relator. Responsable de la production des corpus de parole sur CDROM. Elle est membre invité du "Panel of Experts for the Identification and Collection of Language resources" (ELRA) et animatrice pour les aspects "parole".

* L. Lamel est membre élu du IEEE Speech Technical Committee (1994-1998)

* L. Lamel a été membre du comité de programme de EACL'95, et co-organisatrice de la session "Multilingual Speech Recognition" à la conférence IEEE Automatic Speech Recognition Workshop, Dec'95.

* J.S. Liénard est membre du conseil de département SPI (fin du mandat en 95).

* J.S. Liénard est membre du comité d'Experts informatique (DSPT4) du MENSR, membre de la commission de spécialistes de Paris XI 27e section (informatique) et de la commission de spécialistes 61e-63e sections (électronique), vice-président adjoint "recherche" du département d'informatique de Paris XI.

* J.S. Liénard est membre du AFCET-AFIA sur l'apprentissage, membre du bureau de l'ISCC (Inst. des Sc. Cogn. et de la Communication d'Orsay), membre de plusieurs groupes de travail de l'Institut Bull pour la Réflexion et la Synthèse, notamment le groupe "Analogie, Mémoire et Connaissance", membre du comité d'action de la Plate-Forme Multimodale du LIMSI.

* J.S. Liénard est membre du Conseil d'Administration de l'Institut Bull pour la Réflexion et la Synthèse, membre de comités scientifiques de laboratoires (IRCAM, CRAN, LAM).

* J. Mariani est membre du Conseil consultatif interministériel pour le Traitement Informatique de la Langue (CTIL), coordonnateur du réseau Francophone de l'Ingénierie de la Langue (Francil) de l'Aupelf-Uref, co-responsable du programme CNRS SPI-SHS "Cognition, Communication Intelligente, Ingénierie des Langues" (CCIIL) et membre du comité d'organisation de l'action "Grace" (évaluation des analyseurs morpho-syntaxiques), Vice-Président de l'Association Européenne pour les Ressources Linguistiques (ELRA), ancien président et membre du bureau de l'Association Européenne pour la Communication Parlée (ESCA), membre du bureau exécutif du Réseau d'Excellence Européen sur la Parole et le Langage (Elsnet), ancien coordonnateur et membre du bureau du Comité international de Coordination sur les données vocales et l'évaluation (Cocosda), reviewer pour le projet Esprit Wernicke.

* J. Mariani a été membre du comité d'organisation des manifestations nationales pour les 20 ans du SPI. Il est membre du comité d'édition du "Human Language Technology Survey" (CEE-NSF), membre fondateur du comité d'édition du "Free Speech Journal", membre du comité permanent de l'International Conference on Spoken Language Processing (ICSLP), membre du comité de programme d'Eurospeech'95, membre du comité d'édition du journal "Speech Communication", de l'International Journal on Speech Technology et de la Collection "Text, Speech and Language Technology" (Kluwer Academic Publishers).

* J. Mariani est membre du bureau et du conseil de département, de département-recherche et de la commission de spécialistes (CSE) en informatique d'UP11, membre de la commission paritaire IR, du comité de pilotage Xlab et du Conseil de Département SPI au CNRS. Président de la CSE en informatique de l'ENS Fontenay, membre de la CSE en Informatique de l'Université de Corté, ancien président de la section 07 du comité national de la recherche scientifique (1991-1995) et membre de comités scientifiques de laboratoires (TIMA, Elesa (depuis 1995), LAAS, Lifia, ENST, Cams, CRIN, GETA, LMS, GdR TdSI, IA et CHM (jusqu'en 1995), IDRIS), membre du Conseil d'Administration de l'INPL (Nancy), membre du Conseil de surveillance de la NFI FIIFO (Orsay).

* H. Maynard est membre élu de la commission de spécialistes 27ème section de Paris XI.

Actions incitatives du LIMSI (en 1995)

* "Etude acoustique de la transformation de voix appliquée à la synthèse de la parole"

(Responsabilité B. Doval)

* "Analyse des intentions dans un dialogue homme-machine: identification, modélisation et évaluation"

(Responsabilité L. Devillers et A. Vilnat du groupe L&C)

* "Réalisation d'un serveur linguistique"

(Responsabilité G. Adda et X. Briffault du groupe L&C)

* "Utilisation de grammaires d'unification pour le traitement du langage parlé"

(Responsabilité X. Briffault du groupe L&C et J.L. Gauvain)

* "Evaluation ergonomique de systèmes d'interrogation vocale de bases de données"

(Responsabilité J.P. Rossi du groupe CH et L. Devillers).

* "Simulation numérique de l'onde de débit glottique"

(Responsabilité J.L. Guermond du département Mécanique-Energétique et C. D'Alessandro).

BQR Département Informatique Paris XI (en 1995)

* "Apprentissage de modèles de langage probabilistes à partir de grands corpus écrits"

(Responsabilité M. Jardino)

* "Perception artificielle : traitement interactif de formes binaires"

(Responsabilité J.S. Liénard)

DptCHM

+ Sommaire

Présentation