_______________________
Exemples d'Activités de Recherche du groupe
Les activités de recherche du groupe ont pour buts de comprendre les processus de la communication parlée et de développer des modèles appropriés au traitement automatique de la parole. Ces recherches se concrétisent par la réalisation de systèmes de traitement du langage parlé assurant des fonctions variées telles que la synthèse à partir du texte, la transcription de documents audio et vidéo, la compréhension de la parole, et l'identification du locuteur et de la langue. Trois activités essentielles accompagnent et soutiennent ces recherches : le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches via des relations industrielles.
Les recherches sur l'analyse de la parole et de la voix, considérée du point de vue de la perception et du traitement du signal, portent sur la perception du timbre de la voix et des variations de hauteur tonale, sur l'analyse acoustique de la qualité vocale (source vocale et effort vocal), et sur les méthodes temps-fréquence de représentation de la parole. Pour la synthèse de la parole, les travaux concernent la modification de la qualité vocale, la modélisation prosodique, la sélection automatique d'unités acoustiques, et l'analyse linguistique des textes à prononcer.
Nos travaux sur le décodage de la parole portent sur la reconnaissance de la parole continue pour la transcription de documents audio et vidéo (en particulier pour l'indexation multilingue dans le cadre du projet européen OLIVE), sur l'identification de traits non linguistiques, et sur les systèmes de dialogue. Ces développements s'appuient sur nos recherches en modélisation acoustico-phonétique, lexicale, et linguistique.
L'association de techniques de traitement du langage naturel à la reconnaissance de la parole spontanée, nous conduit au développement de systèmes de compréhension pour l'interrogation de bases de données. L'interaction peut être entièrement vocale (à travers le réseau téléphonique dans le projet ARISE) ou associée à un autre mode de communication tel qu'un écran tactile (comme pour le kiosque d'informations développé dans le projet MASK). La gestion du dialogue joue un rôle essentiel dans ces systèmes.
En 1998, le groupe comprenait 26 membres, dont 11 permanents CNRS, 6 enseignants-chercheurs, 4 contractuels, et 5 étudiants préparant un doctorat. A côté de ses activités de recherche, le groupe assure différents cours sur le traitement de la parole, en particulier dans les DEA et DESS de l'université Paris XI. En 1997 et 1998, les membres du groupe ont publié de 72 articles (8 dans des revues spécialisées, 2 chapitres d'ouvrage, 62 dans des colloques avec actes et comité de lecture, dont 6 conférences invitées) et 30 rapports de contrats.
Les contrats de recherche couvrent la presque totalité des activités du groupe, en particulier grâce aux projets européens ESPRIT MASK, DISC, LE ARISE, OLIVE, et TIDE HOME-AOM, et aux conventions de recherche avec la DGA, et Vecsys SA. Le groupe participe également à plusieurs programmes et projets pour la distribution de ressources linguistiques et l'évaluation ( SILFIDE, ELSNET, ELRA, Aupelf-UREF, Copernicus BABEL et ELSE).
Les recherches du groupe TLP sont structurées en quatre thèmes interdépendants : Analyse, synthèse et perception (thème 1), Modélisation acoustico-phonétique et lexicale (thème 2), modélisation linguistique (thème 3), et systèmes de reconnaissance et compréhension (thème 4).
THÈME 1 - ANALYSE, SYNTHÈSE ET PERCEPTION
C. d'Alessandro, J.S. Liénard,, J. Auguste-Etienne, P. Boula de Mareüil, C. Demars,M.G. Di Benedetto, B. Doval, J.J. Gangolf, N. Henrich, Y. Machrouh, B. Payri, A. Tassa, T. Vu Ngoc,
Les travaux de ce thème portent sur l'analyse, la synthèse et la perception de la parole et de la voix. L'analyse des variations de la qualité vocale est au centre de nos recherches sur l'analyse de la parole et de la voix. La qualité vocale intra-locuteur et inter-locuteur est étudiée sous plusieurs angles: analyse de la source vocale, analyse de l'effort vocal, constitution de bases de données acoustiques, utilisation de signaux acoustiques et physiologiques. La qualité vocale est en grande partie due à la source vocale. L'analyse de la source vocale porte actuellement sur une étude théorique et expérimentale des modèles de l'onde de débit glottique, en voix parlée et chantée. L'effort vocal est un domaine encore mal connu. Nos travaux sur l'analyse acoustique des voyelles en fonction de l'effort vocal se sont poursuivis, et des modèles sur la variation conjointe des formants et de la fréquence fondamentale ont été élaborés (voir pages de présentation). Les modifications d'effort vocal ont aussi été étudiées par analyse/modification/synthèse, en utilisant les résultats obtenus en analyse de l'onde glottique (voir page de présentation). Des efforts importants sur l'évaluation des synthétiseurs ont été conduits dans le cadre du projet AUPELF, qui regroupe 9 laboratoires francophones (voir page de présentation). Une thèse est en cours sur la perception du timbre de la voix. L'étude de la perception des variations de hauteur tonale pour les glissando de fréquence fondamentale a été publiée (voir page de présentation). Dans la continuité de ce travail, de nouvelles expériences sont en cours sur l'interaction de la hauteur tonale périodique et de la hauteur tonale spectrale.
Plusieurs collaborations scientifiques sont en cours, en particulier avec M.G. Di Benedetto (Université La Sapienza, Rome), professeur invitée en juin-juillet 98, sur le thème de l'analyse des voyelles. Nous avons participé au comité d'organisation d'un colloque (``Acoustique et instruments anciens'', cité de la Musique, Paris, 17-18 novembre 1998) et d'une exposition (``l'univers des sons'', Palais de la Découverte, Paris, 15-20 décembre 1998), dans le cadre des 50 ans de la Société Française d'Acoustique (SFA). Une nouvelle thèse a commencé en septembre 1998, sur l'analyse de la source vocale dans la voix chantée (co-encadrée avec le Laboratoire d'Acoustique Musicale, Paris).
THÈME 2 - MODÉLISATION ACOUSTICO-PHONÉTIQUE ET LEXICALE
L.F. Lamel, M. Adda-Decker, G. Adda, P. Boula de Mareüil, L. Devillers, J.J. Gangolf, J.-L. Gauvain, J.-S. Liénard, D. Matrouf, T.-T. Su
Les recherches en Modélisation Acoustico-Phonétique et Lexicale portent essentiellement sur les unités de base utilisées pour la modélisation acoustique et sur le lien entre celles-ci et la représentation lexicale. Le lexique est le point d'articulation entre modèles linguistiques et modèles acoustico-phonétiques, chaque entrée lexicale étant décrite comme une fonction des unités acoustiques de base. Les performances d'un système de reconnaissance sont fortement dépendantes de la pertinence et de la précision des modèles acoustiques utilisés.
La modélisation acoustico-phonétique doit prendre en compte les sources de variabilité dans la production du signal vocal. L'indépendance par rapport au locuteur est obtenue en estimant les paramètres des modèles acoustiques à l'aide de grands corpus de parole contenant les enregistrements de plusieurs centaines de locuteurs. La variabilité contextuelle se traduit par l'utilisation d'un grand nombre d'unités phonétiques dépendantes du contexte phonétique local. La variabilité liée à la prise de son et au canal de transmission est traitée en adaptant les modèles acoustiques aux conditions particulières rencontrées avec ou sans modélisation explicite du canal de transmission. Ce qui est considéré comme non-pertinent pour une problématique peut devenir le caractère pertinent sous une autre perspective. On peut concevoir qu'un modèle acoustique porte un nombre variable (suivant l'application visée) d'étiquettes informatives (phonème, mot, sexe du locuteur, identité du locuteur, identité de la langue ), et ainsi envisager un système unique qui identifie à la fois les conditions de prise de son, le locuteur, la langue ainsi que le message linguistique encodé dans le signal.
La modélisation lexicale consiste à définir un vocabulaire de reconnaissance et à associer une ou plusieurs transcriptions phonétiques à chaque entrée lexicale. Les unités lexicales extraites automatiquement doivent optimiser le taux de couverture pour l'application considérée; ce travail est effectué en collaboration étroite avec les activités du thème 3. Nous utilisons à la fois des transcriptions multiples et des règles phonologiques qui permettent de représenter des variantes phonologiques. Les prononciations proposées sont validées sur des grands corpus de parole. Nous avons construit des dictionnaires de prononciation pour l'anglais-américain, le français et l'allemand contenant plus de 80 000 mots. Grâce à l'amélioration de la qualité des transcriptions phonétiques nous avons pu mesurer des gains relatifs de 5% sur les taux d'erreur.
THÈME 3 - MODÉLISATION LINGUISTIQUE
G. Adda, M. Jardino, C. Beaujard, J.L. Gauvain, Y. Quintin de Kercadio, R. Lejeune, J. Mariani, P. Paroubek
Dans ce thème, à la frontière entre le traitement de l'écrit et celui
de l'oral, nous développons des méthodes et des outils propres à la
modélisation de la langue, en vue d'une utilisation dans des systèmes
de reconnaissance de la parole.
Nous construisons des modèles de
langage probabilistes de différents types. Cette année, nos modèles
de type 4-grammes de mots combinés à des 3-grammes de classes ont
montré leur efficacité dans les systèmes de reconnaissance pour
l'anglo-américain (évaluation ARPA 1998). Parallèlement nous
développons et évaluons sur des textes de dialogue, différentes
stratégies de classification automatique des mots.
L'élaboration de ces modèles a nécessité un effort important de normalisation pour créer des ressources linguistiques de bonne qualité. Ces ressources ont ensuite été mises à disposition sur un serveur linguistique d'abord pour le LIMSI puis au niveau national dans le cadre du projet SILFIDE.
Cette année nous avons amorcé une recherche sur la détection de thèmes, et, en collaboration avec le groupe L&C dans le cadre de l'action XICOP, un projet d'extraction d'entités spécifiques (entités nommées, dates, montants); ces deux projets en extraction d'informations se déroulent dans le cadre des recherches en transcription et indexation d'émissions radio et télédiffusées (évaluation ARPA 1998, projet LE-OLIVE).
Un autre aspect important de nos travaux est consacré à l'évaluation des modèles. Nous participons à l'action de recherche de l' AUPELF-UREF, portant sur l'évaluation des modèles de langage, à l'action GRACE, organisé avec l' INALF, pour évaluer les analyseurs morpho-syntaxiques et syntaxiques du français et au projet européen ELSE consacré à l'évaluation en Ingénierie des langues.
THÈME 4 - SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION
J.L. Gauvain, G. Adda, M. Adda-Decker, S. Bennacef, L. Chase, L. Devillers, J.J. Gangolf, V. Gendner, J.-C. Jézéquel, L. Lamel, D. Matrouf, H. Maynard, W. Minker, S. Rosset
Ce thème a pour objet le développement de systèmes de traitement du langage parlé reposant sur l'ensemble des recherches effectuées dans le groupe. Il aborde entre autres des problèmes pratiques tels que l'efficacité des stratégies de décodage et l'intégration des connaissances liées à l'application. Ces activités de recherche ont un lien fort avec nos activités de valorisation, via le transfert de notre technologie pour la reconnaissance de la parole, la vérification du locuteur et les systèmes de compréhension et de dialogue.
Les activités de ce thème peuvent être classées selon trois axes principaux: 1) la reconnaissance de parole continue indépendante du locuteur, 2) l'identification de traits non linguistiques, et 3) le développement de systèmes de compréhension et de dialogue.
En ce qui concerne la reconnaissance de la parole continue, notre but est d'aboutir à des systèmes indépendants du locuteur et de l'application, et qui soient robustes aux conditions de prise de son. Ce travail est effectué dans un cadre multilingue : nous avons développé des systèmes de reconnaissance en anglais (britannique et américain), allemand, français pour des vocabulaires allant jusqu'à 65 000 mots. L'une des applications visées est la transcription et l'indexation automatique de documents radio et télédiffusés. Les documents radio ou télédiffusés sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides ou graduelles. Notre système de transcription d'émissions d'information en anglais américain a obtenu d'excellents résultats lors des 3 dernières évaluations ARPA. Dans le projet LE-4 OLIVE, notre technologie est appliquée aux langues française et allemande. L'identification automatique de la langue par des méthodes statistiques est étudiée dans le cadre d'une convention de recherche avec la DGA.
Dans les systèmes de dialogue oral, nous ne sommes plus seulement intéressés à transcrire, mais plutôt à comprendre le sens de ce qui est dit, afin d'accomplir une tâche déterminée via un dialogue interactif. Note but est d'obtenir un taux de dialogues réussis élevé avec une structure de dialogue très libre, l'utilisateur pouvant à tout moment poser n'importe quelle question ou fournir n'importe quelle information. Nous avons développé et évalué des systèmes vocaux de renseignements ferroviaires dans le cadre des projets MASK (Esprit) et ARISE (LE), ainsi que des systèmes vocaux domotiques (projet Tide HOME-AOM) et de renseignements touristiques (ARC B2 AUPELF-UREF). Les améliorations récentes dans le prototype ARISE de renseignements ferroviaire par téléphone, concernent la gestion du dialogue, la génération des réponses, l'utilisation de mesures de confiance dans le système de reconnaissance, et la possibilité d'interrompre les réponses du système (barge-in). Dans le cadre de l'ARC B2, le corpus ``ParisCorp'' a été annoté à la fois sémantiquement et au niveau des actes de dialogue, et nous avons exploré différentes stratégies de gestion du dialogue afin de guider l'utilisateur dans sa tâche. Sur le plan Européen, le LIMSI participe au projet DISC qui est une action de recherche concertée à long terme du programme ESPRIT et qui vise à faire le point sur l'état de l'art en matière de développement et d'évaluation des systèmes de dialogue en langage parlé.
Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|