TRAITEMENT DU LANGAGE PARLÉ

TRAITEMENT DU LANGAGE PARLÉ

_______________________

Exemples d'Activités de Recherche du groupe

THÈME 1 - ANALYSE, SYNTHÈSE ET PERCEPTION
THÈME 2 - MODÉLISATION ACOUSTICO-PHONÉTIQUE ET LEXICALE
THÈME 3 - MODÉLISATION LINGUISTIQUE
THÈME 4 - SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION
ACTIVITÉS D'ENSEIGNEMENT
CONTRATS
ANIMATIONS SCIENTIFIQUES ET RESPONSABILITÉS INSTITUTIONNELLES

Les activités de recherche du groupe ont pour buts de comprendre les processus de la communication parlée et de développer des modèles appropriés au traitement automatique de la parole. Ces recherches se concrétisent par la réalisation de systèmes de traitement du langage parlé assurant des fonctions variées telles que la synthèse à partir du texte, la transcription de documents audio et vidéo, la compréhension de la parole, et l'identification du locuteur et de la langue. Trois activités essentielles accompagnent et soutiennent ces recherches: le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches via des relations industrielles.

Les recherches sur l'analyse de la parole et de la voix, considérée du point de vue de la perception et du traitement du signal, portent sur la perception du timbre de la voix et des variations de hauteur tonale, sur l'analyse acoustique de la qualité vocale (source vocale et effort vocal), et sur les méthodes temps-fréquence de représentation de la parole. En ce qui concerne la synthèse de la parole, les travaux s'appuient sur un système de synthèse à partir du texte par concaténation de parole naturelle codée et transformée pour les langues française et espagnole. Ces travaux portent sur le traitement du signal (modification du timbre), la modélisation prosodique, l'optimisation et l'acquisition automatisée de banques de données de signaux prototypes, et l'analyse linguistique des textes à prononcer.

Nos travaux sur le décodage de la parole portent sur la reconnaissance de la parole continue pour la transcription de documents audio et vidéo, sur l'identification de traits non linguistiques, et sur la compréhension de la parole. Ces développements s'appuient sur nos recherches en modélisation acoustico-phonétique, lexicale, et linguistique. Les travaux sur l'identification de traits non linguistiques, qui utilisent la même modélisation acoustique que celle utilisée pour la reconnaissance de la parole, portent essentiellement sur l'identification et la vérification du locuteur, et sur l'identification de la langue.

L'association de techniques de traitement du langage naturel à la reconnaissance de la parole spontanée, nous conduit au développement de systèmes de dialogue pour l'interrogation de bases de données ou le contrôle d'équipements. L'interaction peut être entièrement vocale (cas d'un serveur téléphonique, cf. le projet ARISE) ou associée à un autre mode de communication tel qu'un écran tactile (cf.le projet MASK) ou le geste (cf. le projet HOME).

En 1997, le groupe comprenait 25 membres, dont 11 permanents CNRS, 5 enseignants-chercheurs, 4 contractuels, et 5 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure différents cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI. En 1996 et 1997, les membres du groupe ont publiés plus de 60 articles (6 dans des revues spécialisées, 8 chapitres d'ouvrage, 38 dans des colloques avec actes et comité de lecture) et 37 rapports de contrats.

Les contrats de recherche couvrent la presque totalité des activités du groupe, en particulier grâce aux projets européens ( MASK, ARISE, HOME, DISC), et aux conventions de recherche avec France-Telecom, la DGA, et Vecsys SA. Certains résultats se sont concrétisés par des applications commerciales. Le groupe est également impliqué dans plusieurs programmes et projets pour la distribution de ressources linguistiques et l'évaluation: SILFIDE, ELSNET, EAGLES, ELRA, Aupelf-UREF, Copernicus BABEL et ELSE.

Parmi les résultats les plus marquants, on peut citer le succès du projet ESPRIT MASK (Multimodal Multimedia Automated Service Kiosk) qui s'est concrétisé par la réalisation d'un démonstrateur évalué actuellement en gare Saint-Lazare à Paris, ainsi que notre participation depuis 1992 aux évaluations organisées annuellement par DARPA (évaluations dans lesquelles nos systèmes de reconnaissance ont toujours été classés parmi les trois premiers), et aux évaluations organisées en 1997 par l'Aupelf-UREF qui ont placé nos technologies au premier rang, tant pour la synthèse de la parole (conversion graphème-phonème) que la reconnaissance de la parole (transcription de textes lus).

Les recherches du groupe TLP sont structurées en quatre thèmes interdépendants :

THÈME 1 - ANALYSE, SYNTHÈSE ET PERCEPTION

C. d'Alessandro, J.S. Liénard,, C. Demars, B. Doval, J.J. Gangolf, T. Vu Ngoc, P. Boula de Mareüil, B. Payri, (stagiaires: B. Diard, R. Rojas-Masnu, J. Albeniz, N. Boudouani, A. Tassa)

Les travaux de ce thème portent sur l'analyse, la synthèse et la perception de la parole et de la voix. Les travaux en parole concernent les langues française et espagnole. Les travaux sur la voix s'intéressent, en plus de la voix parlée, à l'étude de la voix chantée, et peuvent aussi s'appliquer aux pathologies vocales. Parole et voix sont envisagées de façon pluri-disciplinaire, sous des aspects d'ordre physique (traitement du signal, acoustique), linguistique (phonétique, phonologie, syntaxe) ou psychologique (perception et cognition). Le point de vue des Sciences de l'Ingénieur prévaut, dans le cadre du traitement de l'information (informatique et traitement du signal). Un autre point qui nous semble important est la symbiose entre analyse, synthèse et perception, qui entretiennent des relations croisées. Par exemple : d'une part les stimuli utilisés en perception sont issus de la synthèse, mais d'autre part les modèles perceptifs contraignent les procédures de synthèse; d'une part les connaissances acquises sur l'analyse de la source vocale permettent d'améliorer la synthèse, et d'autre part on vérifie par synthèse l'importance des connaissances acquises par analyse.

THÈME 2 - MODÉLISATION ACOUSTICO-PHONÉTIQUE ET LEXICALE

L.F. Lamel, M. Adda-Decker, G. Adda, P. Boula de Mareüil, C. Corredor, J.-L. Gauvain, J.J. Gangolf, J.-S. Liénard, D. Matrouf, W. Minker

Les recherches en Modélisation Acoustico-Phonétique et Lexicale portent essentiellement sur les unités de base utilisées pour la modélisation acoustique et sur le lien entre celles-ci et la représentation lexicale. Les performances d'un système de reconnaissance sont fortement dépendantes de la pertinence et de la précision des modèles acoustiques et linguistiques utilisés. Le lexique est le point d'articulation entre modèles linguistiques et modèles acoustico-phonétiques, chaque entrée lexicale étant décrite comme une fonction des unités acoustiques de base.

La modélisation acoustico-phonétique doit prendre en compte les sources de variabilité dans la production du signal vocal : celles liées au contexte linguistique (phonétique, syntaxique, sémantique, prosodique) et celles liées au contexte non-linguistique comme le locuteur (ses caractéristiques physiques, ses habitudes, son état physique et émotionel), l'environnement acoustique et la prise de son. L'indépendance par rapport au locuteur est obtenue en estimant les paramètres des modèles acoustiques à l'aide de grands corpus de parole contenant les enregistrements de plusieurs centaines de locuteurs, et la variabilité contextuelle se traduit par l'utilisation d'un grand nombre d'unités phonétiques dépendantes du contexte phonétique local. Les variantes phonologiques sont prises en compte soit au niveau lexical où des prononciations multiples peuvent être spécifiées, soit au moyen de règles phonologiques. La variabilité liée à la prise de son et au canal de transmission est traitée en adaptant les modèles acoustiques aux conditions particulières rencontrées avec ou sans modélisation explicite du canal de transmission.

Nous travaillons sur la modélisation de différents style de parole (parole lue, préparée, spontanée) pour la dictée de textes (en français, anglais, et allemand), la transcription d'émissions radio et télévisées, et les applications de dialogue. Bien évidemment, la conception et l'enregistrement de corpus multilingues font partie de nos activités de recherche.

Les problèmes de variabilité acoustique mènent à des recherches variées, qui souvent vont au-delà du cadre de ce thème et rejoignent les activités des autres thèmes. Les problèmes de normalisation et d'adaptation du signal de parole sont étudiés pour la reconnaissance indépendante du locuteur, pour la reconnaissance en milieu bruité ou à travers le réseau téléphonique. Ce qui est considéré comme non-pertinent pour une problématique peut devenir le caractère pertinent sous une autre perspective. Ainsi les recherches sur l'identification du locuteur considèrent comme discriminant ce qui est considéré comme variabilité non-pertinente pour le décodage de l'information linguistique. Cependant les principes de la modélisation acoustique sous-jacente restent peu modifiés. On peut en fait concevoir qu'un modèle acoustique porte un nombre variable (suivant l'application visée) d'étiquettes informatives (phonème, mot, sexe du locuteur, identité du locuteur, identité de la langue, conditions d'enregistrement,...), et ainsi envisager un système unique qui identifie à la fois le locuteur, la langue, les conditions de prise de son, ainsi que le message linguistique encodé dans le signal.

THÈME 3 - MODÉLISATION LINGUISTIQUE

G. Adda, M. Jardino, C. Beaujard, J.L. Gauvain, J. Mariani, P. Paroubek

Dans ce thème, à la frontière entre le traitement de l'écrit et celui de l'oral, nous développons des méthodes et des outils propres à la modélisation de la langue, en vue d'une utilisation dans des systèmes de reconnaissance de la parole, mais, lorsque cela est possible, en s'inspirant de méthodes existantes ou émergentes pour le traitement de l'écrit. Ainsi, nous menons deux sortes d'activités, les unes fortement liées au problème de la reconnaissance de la parole, et les autres, plus tournées vers le traitement de l'écrit, dans la mesure où ces activités peuvent déboucher à court ou moyen terme sur des applications en reconnaissance de la parole.

THÈME 4 - SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION

J.L. Gauvain, G. Adda, M. Adda-Decker, S. Bennacef, L. Chase, L. Devillers, J.J. Gangolf, J.C. Jézéquel, L. Lamel, D. Matrouf, H. Maynard, W. Minker, S. Rosset

Ce thème a pour objet le développement de systèmes de traitement du langage parlé reposant sur l'ensemble des recherches effectuées dans le groupe. Il aborde entre autres des problèmes pratiques tels que l'efficacité des stratégies de décodage et l'intégration des connaissances liées à l'application.

Les activités de ce thème peuvent être classées selon trois axes principaux: 1) la reconnaissance de parole continue indépendante du locuteur, 2) l'identification de traits non linguistiques, et 3) le développement de systèmes de compréhension et de dialogue.

RELATIONS EXTÉRIEURES

ACTIVITÉS D'ENSEIGNEMENT

DEA d'Electronique ``Systèmes Electroniques de Traitement de l'Information'' du département de Physique de Paris XI (co-responsable J.-S. Liénard), module sur le Traitement du Signal de Parole (C. d'Alessandro, M. Adda-Decker)
DEA ``Sciences cognitives'' du département d'Informatique de Paris XI (thème ``Perception Artificielle et Perception Naturelle'') (J.S. Liénard, L. Devillers)
DEA d'Informatique du département d'Informatique de Paris XI (C. d'Alessandro, M. Adda-Decker)
DEA ``Automatique et traitement du signal'' de Paris XI (C. d'Alessandro)
DEA ``Architectures paralleles'' de Paris XI (C. d'Alessandro, M. Adda-Decker)
DEA ``Information Scientifique et technique'', option traitement de la parole, AUPELF (L. Devillers, B. Doval, P. Boula de Mareuil)
DESS ``Systèmes et Communication Homme-Machine'' du département d'Informatique de Paris XI, cours sur le traitement de la parole (L. Devillers, W. Minker)
IMAC Paris II (école d'ingénieurs), cours sur le traitement de la parole (B. Doval)
IUP ``Génie Mathématique et Informatique'' de Paris-Dauphine (3ème année), cours sur la parole (C. d'Alessandro)
ELSNET's Fifth European Summer School on Language and Speech Communication (M. Adda-Decker, L. Lamel)

CONTRATS

France Telecom (1994-1997) - Authentification du locuteur à travers le réseau téléphonique;
CNET - Projet IDEAL (1994-1997) - Identification automatique de la langue à travers le réseau téléphonique;
ESPRIT MASK ``Multimodal Multimedia Automated Service Kiosk'' (1994-1998) - Développement d'un système de compréhension de la parole pour un kiosque d'information;
CEC LE-3 ARISE ``Automatic Railways Information Systems for Europe'' (1996-1998) - Développement et évaluation d'un prototype de service téléphonique pour demandes d'informations ferroviaires;
VECSYS SA (1997-1998) - Transcription automatique de rapports médicaux;
Convention DGA (1997-1998) - Transcription d'émissions radio et identification de la langue;
CEC LE-4 ELSE (1997-1998) ``Evaluation in Language and Speech Engineering'' - Proposition d'infrastructure européenne générique pour l'évaluation des systèmes de traitement du langage et de la parole;
ESPRIT LTR DISC (1997-1998) - Méthodologies pour le développement de systèmes de dialogue;
CEC Copernicus BABEL (1995-1997) - Création de corpus pour les langues des pays d'Europe de l'Est;
AUPELF-UREF: 6 projets dans le cadre de l' ARC ``Linguistique, Informatique et Corpus oraux'' (1994-1997) Evaluation systèmes de synthèse, Evaluation systèmes de reconnaissance, Evaluation modèles de langage, Evaluation systèmes de dialogue, Corpus de textes, Corpus de parole.
CEC ESPRIT BRA Elsnet ``European Network in Language and Speech'' (1993-1996) - Coordination d'activités sur la parole et le langage naturel en Europe;
Contrat européen INTAS, portant sur l'extension d'ELSNET aux nouveaux états-indépendants de l'ex-URSS, dans le domaine de la parole et du langage (1995-1996)
Contrat CNRS Ingénierie des langues (1997)
CEC TIDE HOME-AOM ``Home application Optimum Multimedia / multimodal system for Environment control'' (1997-1999)

ANIMATIONS SCIENTIFIQUES ET RESPONSABILITÉS INSTITUTIONNELLES

G. Adda est membre du comité d'organisation et co-animateur du comité de reflexion de l'action GRACE ( INALF).
M. Adda-Decker est membre élu au bureau du Groupe Francophone de la Communication Parlée (GFCP) de la Société Française d'Acoustique.
M. Adda-Decker est membre élu du conseil de département recherche de Paris XI.
C. d'Alessandro est président du Groupe Spécialisé d'Acoustique Musicale (GSAM) de la Société Française d'Acoustique, animateur scientifique du groupe de réflexion ``Synthèse de la parole'' pour l'Action de Recherche Concertée ``Industries de la Langue'', Aupelf-Uref.
J.L. Gauvain était membre du ``HUB4 Specification Working Group'' pour la campagne d'évaluation ARPA 1996.
J.L. Gauvain est membre élu du ``IEEE Speech Technical Committee''.
M. Jardino est membre élu du conseil de département recherche de Paris XI et vice-présidente B de ce conseil, membre de droit du conseil de département informatique, et membre nommé (extérieur) de la commission de spécialites 27ème section.
M. Jardino est membre nommé (extérieur) de la commission de spécialistes (sections 27-61-63) de l'université de Cergy-Pontoise.
L. Lamel est animatrice et coordinatrice des activités sur la parole du groupe ``Reusable Resources Task'' d'ELSNET (European Network in Language and Speech). Elle est membre invité du ``Panel of Experts for the Identification and Collection of Language resources'' (ELRA) et animatrice pour les aspects ``parole''.
L. Lamel est membre élu du ``IEEE Speech Technical Committee'' (1994-1998).
L. Lamel est membre du comité scientifique du workshop ESCA ``Modeling pronunciation variation for automatic speech recognition'' (1998), et a été membre du comité de programme du workshop EACL/ACL ``Interactive Spoken Dialogue Systems'' (1997).
J.S. Liénard est membre du comité d'experts informatique (DSPT4) du MENSR, membre de la commission de spécialistes de Paris XI 27ème section (informatique), de la commission de spécialistes de l'Université de Cergy-Pontoise et de la commission de spécialistes 61ème-63ème sections (électronique) de Paris XI, vice-président adjoint ``recherche'' du département d'informatique de Paris XI.
J.S. Liénard est membre du groupe de travail AFCET-AFIA sur l'apprentissage, des groupes de travail 10.2 et 6.2 du PRC ISIS, président de l'ISCC (Institut des Sciences Cognitives et de la Communication d'Orsay)et du Réseau Paris-Sud du GIS Sciences Cognitives ; il a présidé les Journées Internationales d'Orsay sur les Sciences Cognitives (JIOSC97) consacrées à ``la perception: du naturel à l'artificiel''. Il est membre de plusieurs groupes de travail de l'Institut Bull pour la Reflexion et la Synthèse, notamment le groupe ``Cerveaux et Machines'', membre du comité d'action de la Plate-Forme Multimodale du LIMSI.
J.S. Liénard est membre du Conseil d'Administration de l'Institut Bull pour la Reflexion et la Synthèse, membre de comités scientifiques de divers laboratoires ( IRCAM, CRAN, LAFORIA, LAM) et administrations (Direction de la Musique et de la Danse du Ministère de la Culture).
J.S. Liénard est membre du Comité éditorial des revues ``Computer Speech and Language'' et ``Le Travail Humain''.
J. Mariani est membre du Conseil consultatif interministériel pour le Traitement Informatique de la Langue (CTIL), coordonnateur du réseau Francophone de l'Ingénierie de la Langue (Francil) de l'Aupelf-UREF, co-responsable du programme CNRS SPI-SHS ``Cognition, Communication Intelligente, Ingénierie des Langues'' (CCIIL) et membre du comité d'organisation de l'action `` GRACE'' (évaluation des analyseurs morpho-syntaxiques), Vice-Président de l'Association Européenne pour les Ressources Linguistiques (ELRA), ancien président et membre de l'Advisory Council de l'Association Européenne pour la Communication Parlée (ESCA), membre du bureau exécutif du Réseau d'Excellence Européen sur la Parole et le Langage (Elsnet), ancien coordonnateur et membre du bureau du Comité international de Coordination sur les données vocales et l'évaluation (Cocosda). Expert auprès de la Commission Européenne pour la mise en place du programme ``Creating a User-Friendly Information Society'' du 5ème Programme-Cadre.
J. Mariani est membre du comité permanent de l'International Conference on Spoken Language Processing (ICSLP), membre du comité d'édition du journal ``Speech Communication'', de l'International Journal on Speech Technology, et de la collection ``Text, Speech and Language Technology'' (Kluwer Academic Publishers), membre du comité de programme de la conférence LREC'98, et a été membre du comité de programme d'Eurospeech'97 et président de la conférence JST'97 de Francil.
J. Mariani est membre du bureau et du conseil de département, de département-recherche et de la commission de spécialistes (CSE) en informatique d'UP11, membre de la commission paritaire CR, du comité de pilotage Xlab et du Conseil de Département SPI au CNRS. Président de la CSE en informatique de l'ENS Fontenay, membre de la CSE en Informatique de l'Université de Corté, ancien président de la section 07 du comité national de la recherche scientifique (1991-1995) et membre de comités scientifiques de laboratoires (Cams, Elesa, ENST, IDRIS, LIA, ICP, IRIT, SDEM, TIMA), membre du Conseil d'Administration de l'INPL (Nancy), membre du Conseil de surveillance de la NFI FIIFO (Orsay), membre du Conseil Scientifique du CNRS, membre du Comité de Direction du GdR-PRC I3, rapporteur du Comité Thématique 5 du programme RNRT, membre du Comité de Pilotage du programme SPI-SHS Ingénierie des Langues, membre du Comité de coordination de l'action CNRS/Aupelf-UREF Silfide, membre du Comité Editorial de la revue ``Langues''.
H. Maynard est membre élu de la commission de spécialistes 27ème section de Paris XI.
P. Paroubek est animateur du comité d'organisation de l'action GRACE ( INALF/ LIMSI).

Dpt CHM

Sommaire

Présentation

1998-08-19