TRAITEMENT DU LANGAGE PARLÉ

_______________________

J.-L. Gauvain

Exemples d'Activités de Recherche du groupe

Les activités de recherche du groupe ont pour buts de comprendre les processus de la communication parlée et de développer des modèles appropriés au traitement automatique de la parole. Ces recherches se concrétisent par la réalisation de systèmes de traitement du langage parlé assurant des fonctions variées telles que la synthèse à partir du texte, la transcription de documents audio et vidéo, la compréhension de la parole, et l'identification du locuteur et de la langue. Trois activités essentielles accompagnent et soutiennent ces recherches: le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches via des relations industrielles.

Les recherches sur l'analyse de la parole et de la voix, considérée du point de vue de la perception et du traitement du signal, portent sur la perception du timbre de la voix et des variations de hauteur tonale, sur l'analyse acoustique de la qualité vocale (source vocale et effort vocal), et sur les méthodes temps-fréquence de représentation de la parole. En ce qui concerne la synthèse de la parole, les travaux s'appuient sur un système de synthèse à partir du texte par concaténation de parole naturelle codée et transformée pour les langues française et espagnole. Ces travaux portent sur le traitement du signal (modification du timbre), la modélisation prosodique, l'optimisation et l'acquisition automatisée de banques de données de signaux prototypes, et l'analyse linguistique des textes à prononcer.

Nos travaux sur le décodage de la parole portent sur la reconnaissance de la parole continue pour la transcription de documents audio et vidéo, sur l'identification de traits non linguistiques, et sur la compréhension de la parole. Ces développements s'appuient sur nos recherches en modélisation acoustico-phonétique, lexicale, et linguistique. Les travaux sur l'identification de traits non linguistiques, qui utilisent la même modélisation acoustique que celle utilisée pour la reconnaissance de la parole, portent essentiellement sur l'identification et la vérification du locuteur, et sur l'identification de la langue.

L'association de techniques de traitement du langage naturel à la reconnaissance de la parole spontanée, nous conduit au développement de systèmes de dialogue pour l'interrogation de bases de données ou le contrôle d'équipements. L'interaction peut être entièrement vocale (cas d'un serveur téléphonique, cf. le projet ARISE) ou associée à un autre mode de communication tel qu'un écran tactile (cf.le projet MASK) ou le geste (cf. le projet HOME).

En 1997, le groupe comprenait 25 membres, dont 11 permanents CNRS, 5 enseignants-chercheurs, 4 contractuels, et 5 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure différents cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI. En 1996 et 1997, les membres du groupe ont publiés plus de 60 articles (6 dans des revues spécialisées, 8 chapitres d'ouvrage, 38 dans des colloques avec actes et comité de lecture) et 37 rapports de contrats.

Les contrats de recherche couvrent la presque totalité des activités du groupe, en particulier grâce aux projets européens ( MASK, ARISE, HOME, DISC), et aux conventions de recherche avec France-Telecom, la DGA, et Vecsys SA. Certains résultats se sont concrétisés par des applications commerciales. Le groupe est également impliqué dans plusieurs programmes et projets pour la distribution de ressources linguistiques et l'évaluation: SILFIDE, ELSNET, EAGLES, ELRA, Aupelf-UREF, Copernicus BABEL et ELSE.

Parmi les résultats les plus marquants, on peut citer le succès du projet ESPRIT MASK (Multimodal Multimedia Automated Service Kiosk) qui s'est concrétisé par la réalisation d'un démonstrateur évalué actuellement en gare Saint-Lazare à Paris, ainsi que notre participation depuis 1992 aux évaluations organisées annuellement par DARPA (évaluations dans lesquelles nos systèmes de reconnaissance ont toujours été classés parmi les trois premiers), et aux évaluations organisées en 1997 par l'Aupelf-UREF qui ont placé nos technologies au premier rang, tant pour la synthèse de la parole (conversion graphème-phonème) que la reconnaissance de la parole (transcription de textes lus).

Les recherches du groupe TLP sont structurées en quatre thèmes interdépendants :

THÈME 1 - ANALYSE, SYNTHÈSE ET PERCEPTION

C. d'Alessandro, J.S. Liénard,, C. Demars, B. Doval, J.J. Gangolf, T. Vu Ngoc, P. Boula de Mareüil, B. Payri, (stagiaires: B. Diard, R. Rojas-Masnu, J. Albeniz, N. Boudouani, A. Tassa)

Les travaux de ce thème portent sur l'analyse, la synthèse et la perception de la parole et de la voix. Les travaux en parole concernent les langues française et espagnole. Les travaux sur la voix s'intéressent, en plus de la voix parlée, à l'étude de la voix chantée, et peuvent aussi s'appliquer aux pathologies vocales. Parole et voix sont envisagées de façon pluri-disciplinaire, sous des aspects d'ordre physique (traitement du signal, acoustique), linguistique (phonétique, phonologie, syntaxe) ou psychologique (perception et cognition). Le point de vue des Sciences de l'Ingénieur prévaut, dans le cadre du traitement de l'information (informatique et traitement du signal). Un autre point qui nous semble important est la symbiose entre analyse, synthèse et perception, qui entretiennent des relations croisées. Par exemple : d'une part les stimuli utilisés en perception sont issus de la synthèse, mais d'autre part les modèles perceptifs contraignent les procédures de synthèse; d'une part les connaissances acquises sur l'analyse de la source vocale permettent d'améliorer la synthèse, et d'autre part on vérifie par synthèse l'importance des connaissances acquises par analyse.
 

THÈME 2 - MODÉLISATION ACOUSTICO-PHONÉTIQUE ET LEXICALE

L.F. Lamel, M. Adda-Decker, G. Adda, P. Boula de Mareüil, C. Corredor, J.-L. Gauvain, J.J. Gangolf, J.-S. Liénard, D. Matrouf, W. Minker

Les recherches en Modélisation Acoustico-Phonétique et Lexicale portent essentiellement sur les unités de base utilisées pour la modélisation acoustique et sur le lien entre celles-ci et la représentation lexicale. Les performances d'un système de reconnaissance sont fortement dépendantes de la pertinence et de la précision des modèles acoustiques et linguistiques utilisés. Le lexique est le point d'articulation entre modèles linguistiques et modèles acoustico-phonétiques, chaque entrée lexicale étant décrite comme une fonction des unités acoustiques de base.

La modélisation acoustico-phonétique doit prendre en compte les sources de variabilité dans la production du signal vocal : celles liées au contexte linguistique (phonétique, syntaxique, sémantique, prosodique) et celles liées au contexte non-linguistique comme le locuteur (ses caractéristiques physiques, ses habitudes, son état physique et émotionel), l'environnement acoustique et la prise de son. L'indépendance par rapport au locuteur est obtenue en estimant les paramètres des modèles acoustiques à l'aide de grands corpus de parole contenant les enregistrements de plusieurs centaines de locuteurs, et la variabilité contextuelle se traduit par l'utilisation d'un grand nombre d'unités phonétiques dépendantes du contexte phonétique local. Les variantes phonologiques sont prises en compte soit au niveau lexical où des prononciations multiples peuvent être spécifiées, soit au moyen de règles phonologiques. La variabilité liée à la prise de son et au canal de transmission est traitée en adaptant les modèles acoustiques aux conditions particulières rencontrées avec ou sans modélisation explicite du canal de transmission.

Nous travaillons sur la modélisation de différents style de parole (parole lue, préparée, spontanée) pour la dictée de textes (en français, anglais, et allemand), la transcription d'émissions radio et télévisées, et les applications de dialogue. Bien évidemment, la conception et l'enregistrement de corpus multilingues font partie de nos activités de recherche.

Les problèmes de variabilité acoustique mènent à des recherches variées, qui souvent vont au-delà du cadre de ce thème et rejoignent les activités des autres thèmes. Les problèmes de normalisation et d'adaptation du signal de parole sont étudiés pour la reconnaissance indépendante du locuteur, pour la reconnaissance en milieu bruité ou à travers le réseau téléphonique. Ce qui est considéré comme non-pertinent pour une problématique peut devenir le caractère pertinent sous une autre perspective. Ainsi les recherches sur l'identification du locuteur considèrent comme discriminant ce qui est considéré comme variabilité non-pertinente pour le décodage de l'information linguistique. Cependant les principes de la modélisation acoustique sous-jacente restent peu modifiés. On peut en fait concevoir qu'un modèle acoustique porte un nombre variable (suivant l'application visée) d'étiquettes informatives (phonème, mot, sexe du locuteur, identité du locuteur, identité de la langue, conditions d'enregistrement,...), et ainsi envisager un système unique qui identifie à la fois le locuteur, la langue, les conditions de prise de son, ainsi que le message linguistique encodé dans le signal.

THÈME 3 - MODÉLISATION LINGUISTIQUE

G. Adda, M. Jardino, C. Beaujard, J.L. Gauvain, J. Mariani, P. Paroubek

Dans ce thème, à la frontière entre le traitement de l'écrit et celui de l'oral, nous développons des méthodes et des outils propres à la modélisation de la langue, en vue d'une utilisation dans des systèmes de reconnaissance de la parole, mais, lorsque cela est possible, en s'inspirant de méthodes existantes ou émergentes pour le traitement de l'écrit. Ainsi, nous menons deux sortes d'activités, les unes fortement liées au problème de la reconnaissance de la parole, et les autres, plus tournées vers le traitement de l'écrit, dans la mesure où ces activités peuvent déboucher à court ou moyen terme sur des applications en reconnaissance de la parole.

THÈME 4 - SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION

J.L. Gauvain, G. Adda, M. Adda-Decker, S. Bennacef, L. Chase, L. Devillers, J.J. Gangolf, J.C. Jézéquel, L. Lamel, D. Matrouf, H. Maynard, W. Minker, S. Rosset

Ce thème a pour objet le développement de systèmes de traitement du langage parlé reposant sur l'ensemble des recherches effectuées dans le groupe. Il aborde entre autres des problèmes pratiques tels que l'efficacité des stratégies de décodage et l'intégration des connaissances liées à l'application.

Les activités de ce thème peuvent être classées selon trois axes principaux: 1) la reconnaissance de parole continue indépendante du locuteur, 2) l'identification de traits non linguistiques, et 3) le développement de systèmes de compréhension et de dialogue.

RELATIONS EXTÉRIEURES

ACTIVITÉS D'ENSEIGNEMENT

CONTRATS

ANIMATIONS SCIENTIFIQUES ET RESPONSABILITÉS INSTITUTIONNELLES

Dpt CHM

+ Sommaire

Présentation


1998-08-19