_______________________
Exemples d'Activités de Recherche du groupe
Les activités du groupe ``Traitement du Langage Parlé'' concernent l'analyse et la modélisation du langage parlé, et le développement d'algorithmes pour la synthèse et la reconnaissance de la parole. Ces recherches se concrétisent par la réalisation de systèmes de traitement du langage parlé assurant des fonctions variées telles que la synthèse à partir du texte, la transcription de parole en texte, la compréhension de la parole, et l'identification du locuteur et de la langue. Trois activités essentielles complémentent et soutiennent ces travaux : le développement de bases de données, l'évaluation des modèles et systèmes, et la valorisation des recherches via des relations industrielles.
Nos recherches ont pour buts de comprendre les processus de la communication parlée et de développer des modèles appropriés au traitement automatique de la parole.
Les recherches sur l'analyse de la parole, considérée du point de vue de la perception et du traitement du signal, portent sur l'analyse automatique et la perception de la prosodie (c'est-à-dire la mélodie et le rythme de la parole), sur l'analyse acoustique de la qualité vocale (timbre de la voix), sur la description et l'étude multiparamétrique de segments de parole, et sur les méthodes temps-fréquence de représentation de la parole. En ce qui concerne la synthèse de la parole, les travaux s'appuient sur un système de synthèse à partir du texte par concaténation de parole naturelle codée et transformée. Ils portent sur le traitement du signal (modification du timbre), la modélisation prosodique, l'optimisation et l'acquisition automatisée de banques de données de signaux prototypes, et l'analyse linguistique des textes à prononcer.
Nos travaux sur le décodage de la parole portent sur la reconnaissance de la parole continue pour la dictée de textes et la parole spontanée, sur l'identification de traits non linguistiques, et sur la compréhension de la parole. Ces développements s'appuient sur nos recherches en modélisation acoustico-phonétique, modélisation lexicale, et modélisation linguistique. Les travaux sur l'identification de traits non linguistiques, qui utilisent la même modélisation acoustique que celle utilisée pour la reconnaissance de la parole, portent essentiellement sur l'identification et la vérification du locuteur, et sur l'identification de la langue.
L'association de techniques de traitement du langage naturel à la reconnaissance de la parole spontanée, nous conduit au développement de systèmes de compréhension et de dialogue pour l'interrogation de bases de données. L'interrogation peut être entièrement vocale (cas d'une interrogation à travers le réseau téléphonique, cf. le projet ARISE) ou associée à un autre mode de communication tel qu'un écran tactile (cas d'un kiosque interactif, cf. le projet MASK).
Le groupe comprend actuellement 23 membres, dont 10 permanents CNRS, 4 enseignants-chercheurs, 4 contractuels, et 5 étudiants préparant un doctorat. En 1995 et 1996 les membres du groupe ont publiés 59 articles (6 dans des revues spécialisées, 10 chapitres d'ouvrage, 43 dans des colloques avec actes et comité de lecture dont 4 sur invitation) et 30 rapports de contrats. Les contrats de recherche couvrent la presque totalité des activités du groupe, en particulier grâce aux projets européens ESPRIT MASK, et ``Language Engineering'' RAILTEL, ARISE, SPEECHDAT. Le groupe est également impliqué dans les programmes suivants pour la distribution de ressources linguistiques: SILFIDE, ELSNET, EAGLES, ELRA, Aupelf-UREF, et Copernicus BABEL.
Les activités de recherche du groupe TLP sont structurées en quatre thèmes interdépendants: Analyse, synthèse et perception (thème 1), Modélisation acoustico-phonétique et lexicale (thème 2), Modelisation linguistique (thème 3), et Systèmes de reconnaissance et compréhension (thème 4).
THÈME 1 - ANALYSE, SYNTHÈSE ET PERCEPTION
C. d'Alessandro, J.S. Liénard,, P. Boula de Mareüil, C. Demars, B. Doval, J.J. Gangolf, J. Mariani, B. Payri
Un système complet de synthèse à partir du texte a été construit au laboratoire, utile tant pour les applications technologiques que pour la recherche fondamentale. Les travaux récents portent surtout sur l'analyse linguistique et la source vocale. Les règles de phonétisation ont été revues et améliorées, en particulier pour les "exceptions" (sigles, nom propres et abréviation). Un analyseur syntaxique qui répond aux besoins de la synthèse, rapidité, robustesse, déterminisme, a été développé pour calculer la prosodie. Des travaux portent sur le traitement du signal, en particulier l'analyse et la synthèse de la source vocale. La représentation spectrale de la source voisée a été étudiée pour caractériser la qualité vocale, ou pour améliorer le naturel des modifications prosodiques. Une collaboration avec le département mécanique-énergétique se poursuit sur la simulation numérique du débit glottique.
En ce qui concerne la perception nous proposons de remédier au problème de la variabilité avec une approche qui vise à caractériser non seulement le contenu linguistique du signal mais aussi tous les aspects perceptifs du signal. Cette approche est appliquée dans une perspective théorique à l'analyse de la parole, du texte écrit et de scènes visuelles. Elle est mise en oeuvre dans des travaux de paramétrisation du signal de parole pour la reconnaissance automatique, et de codage du signal pour les implants cochléaires. L'importance des informations non-linguistiques est également attestée dans les études que nous menons sur l'évaluation perceptive du timbre de la voix et sur le rôle des paramètres acoustiques (fondamental, formants, source glottique) dans la qualité de la voix synthétique.
THÈME 2 - MODÉLISATION ACOUSTICO-PHONÉTIQUE ET LEXICALE
L.F. Lamel, M. Adda-Decker, G. Adda, C. Corredor, L. Devillers, J.-L. Gauvain, J.J. Gangolf, J.-S. Liénard, D. Matrouf, W. Minker Les recherches en Modélisation Acoustico-Phonétique et Lexicale portent essentiellement sur les unités de base utilisées pour la modélisation acoustique et sur le lien entre celles-ci et la représentation lexicale. Les performances d'un système de reconnaissance sont fortement dépendantes de la pertinence et de la précision des modèles acoustiques et linguistiques utilisés. Le lexique est le point d'articulation entre modèles linguistiques et modèles acoustico-phonétiques, chaque entrée lexicale étant décrite comme une fonction des unités acoustiques de base.
La modélisation acoustico-phonétique doit prendre en compte les sources de variabilité dans la production du signal vocal. L'indépendance par rapport au locuteur est obtenue en estimant les paramètres des modèles acoustiques à l'aide de grands corpus de parole contenant les enregistrements de plusieurs centaines de locuteurs, et la variabilité contextuelle se traduit par l'utilisation d'un grand nombre d'unités phonétiques dépendantes du contexte phonétique local. La variabilité liée à la prise de son et au canal de transmission est traitée en adaptant les modèles acoustiques aux conditions particulières rencontrées avec ou sans modélisation explicite du canal de transmission. Ce qui est considéré comme non-pertinent pour une problématique peut devenir le caractère pertinent sous une autre perspective. Ainsi les recherches sur l'identification du locuteur considèrent comme discriminant ce qui est considéré comme variabilité non-pertinente pour le décodage de l'information linguistique. On peut en fait concevoir qu'un modèle acoustique porte un nombre variable (suivant l'application visée) d'étiquettes informatives (phonème, mot, sexe du locuteur, identité du locuteur, identité de la langue...), et ainsi envisager un système unique qui identifie à la fois les conditions de prise de son, le locuteur, la langue ainsi que le message linguistique encodé dans le signal.
La modélisation lexicale consiste à définir un vocabulaire de reconnaissance et à associer une ou plusieurs transcriptions phonétiques à chaque unité lexicale. Le choix de ces unités est effectué en collaboration étroite avec les activités du thème 3, le but étant d'optimiser le taux de couverture pour la langue ou le langage de l'application considérée pour une taille de lexique donnée.
Nous utilisons à la fois des transcriptions multiples et des règles phonologiques qui permettent de représenter des variantes phonologiques. Les prononciations proposées sont validées sur des grands corpus de parole. Nous avons construit des dictionnaires de prononciation pour l'anglais-américain, le français et l'allemand contenant plus de 80 000 mots. Grâce à l'amélioration de la qualité des transcriptions phonétiques nous avons pu mesurer des gains relatifs de 5%sur les taux d'erreur.
THÈME 3 - MODÉLISATION LINGUISTIQUE
G. Adda, M. Jardino, C. Beaujard, J.L. Gauvain, J. Mariani
Dans ce thème, à la frontière entre le traitement de l'écrit et celui de l'oral, nous développons des méthodes et des outils propres à la modélisation de la langue, en vue d'une utilisation dans des systèmes de reconnaissance de la parole.
Dans un système de reconnaissance, le modèle de langage est la composante qui a en charge d'introduire les contraintes imposées par la syntaxe de la langue. Les modèles actuellement utilisés dans les systèmes de reconnaissance à grand vocabulaire les plus performants sont probabilistes, compatibles en cela avec les autres composantes du système. Ils sont appris sur de grandes bases de données de textes.
Nous construisons différents types de modèles de langage probabilistes. Nos modèles de type n-grammes de mots ont montré leur efficacité dans les systèmes de reconnaissance pour l'anglo-americain (évaluation ARPA 1996). Nos modèles de type n-grammes de classes ont amélioré les performances pour la reconnaissance du francais, langue qui comporte un très grand nombre d'inflexions.
L'élaboration de ces modèles a nécessité un effort important pour créer des ressources linguistiques de bonne qualité, en normalisant les textes et en mettant à disposition un serveur linguistique d'abord pour le LIMSI puis au niveau national dans le cadre du projet SILFIDE.
Un autre aspect important de nos travaux est consacré à l'évaluation des modèles. Nous participons d'une part à l'action de recherche de l'AUPELF-UREF, portant sur l'évaluation des modèles de langage, d'autre part à l'action GRACE, organisé avec l'INALF, pour évaluer les analyseurs morphosyntaxiques et syntaxiques du français.
THÈME 4 : SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION J.L. Gauvain, G. Adda, M. Adda-Decker, S. Bennacef, L. Devillers, S. Foukia, J.J. Gangolf, J.C. Jézéquel, L. Lamel, D. Matrouf, H. Maynard, W. Minker, S. Rosset
THÈME 4 - SYSTÈMES DE RECONNAISSANCE ET COMPRÉHENSION
J.L. Gauvain, G. Adda, M. Adda-Decker, S. Bennacef, L. Devillers, S. Foukia, J.J. Gangolf, J.C. Jézéquel, L. Lamel, D. Matrouf, H. Maynard, W. Minker, S. Rosset
Ce thème a pour objet le développement de systèmes de traitement du language parlé reposant sur l'ensemble des recherches effectuées dans le groupe. Il aborde entre autres des problèmes pratiques tels que l'intégration des différents modules de traitement et l'efficacité des stratégies de décodage. Ces activités de recherche ont un lien très fort avec nos activités de valorisation, via le transfert de notre technologie pour la reconnaissance de la parole, la vérification du locuteur et les systèmes de compréhension et de dialogue.
Les travaux de recherche peuvent être classés selon trois axes principaux : la reconnaissance de parole continue indépendante du locuteur, l'identification de traits non linguistiques, et le développement de systèmes de compréhension et de dialogue.
En ce qui concerne la reconnaissance de la parole continue, notre but est d'aboutir à des systèmes indépendants du locuteur et de l'application, et qui soient robustes aux conditions de prise de son. La transcription automatique de documents radio et télévisés, que nous avons récemment abordé se situe dans cette problématique.
L'identification de traits non linguistiques de la parole est une extension logique des travaux sur la reconnaissance de la parole puisque la modélisation est sensiblement la même. Le problème de la reconnaissance du locuteur en langue française est traité dans le cadre d'un contrat France Telecom (en collaboration avec la société Vecsys) et en langue anglaise en utilisant le corpus Switchboard contenant des conversations téléphoniques. Dans le cadre d'un contrat avec le CNET, nous explorons différentes approches pour la reconnaissance de la langue à travers le téléphone. Les langues considérées sont le français, l'anglais, l'allemand et l'espagnol. Un décodeur phonétique indépendant de la langue a été développé et donne des résultats comparables à l'approche parallèle qui nécessite autant de décodeurs que de langues traitées.
Les travaux entrepris sur la compréhension de la parole ont pour but d'offrir un accès vocal à des sources d'information via un dialogue interactif. Pour chaque application, il est nécessaire de définir au préalable le vocabulaire et les concepts liés à cette application afin de construire les modèles acoustiques, linguistiques et sémantiques appropriés. Ici la modélisation de la parole spontanée devient particulièrement importante. Nous avons développé des systèmes pour deux tâches concernant le transport ferroviaire : MASK (ESPRIT) et ARISE (LE).
DptCHM |
|
Sommaire
|
| Présentation |
|
---|