____________________
Objet
Notre but est de développer des systèmes de reconnaissance et de compréhension du langage parlé qui soient indépendants du locuteur, de la langue et de l'application. Cette recherche est effectuée dans le cadre du projet ESPRIT MASK (Multimodal-Multimedia Automated Service Kiosk) où nous développons un système de reconnaissance et de compréhension du langage parlé qui sera intégré dans un kiosque d'informations [1]. L'objet du projet MASK est de réaliser un kiosque interactif multimodal et multimédia d'informations et de réservations de billets de trains pour améliorer la convivialité des services automatiques existants.
Contenu
La figure 1 contient le synoptique du système de dialogue. Les principaux composants sont le module de reconnaissance, l'analyseur sémantique, le gestionnaire de dialogue, le module de recherche d'informations (pour l'accès à la base de données), et le générateur de réponses en langage naturel. Le logiciel de reconnaissance traite le signal en temps réel sur un processeur standard de type RISC. Des modèles statistiques sont utilisés au niveau acoustique et linguistique. Les modèles acoustiques indépendants du locuteur ont été estimés sur des enregistrements d'un grand nombre de locuteurs. Des modèles de phones contextuels sont utilisés pour tenir compte des variantes phonologiques observées dans des contextes phonétiques différents. Les modèles de langages statistiques de type n-gramme ont été estimés sur les transcriptions des requêtes collectées. Des modèles de sous-langages sont en cours de développement pour les réponses aux questions générées par le module de dialogue afin de réduire l'espace de recherche du décodeur et de réduire le taux d'erreur de reconnaissance. Le lexique de reconnaissance contient environ 1500 mots incluant plus de 600 noms de gares. Ce lexique est représenté phonémiquement avec un ensemble de 35 phonèmes.
La sortie du système de reconnaissance est transmise au module de compréhension qui analyse la requête au moyen d'une grammaire de cas pour en extraire le sens [2]. Le principal travail lors du développement du module de compréhension est l'écriture des règles de la grammaire de cas qui comprend également la définition des concepts significatifs pour la tâche et les mots-clés associés. Le rôle du module de dialogue est de guider l'utilisateur afin qu'il fournisse l'information nécessaire à la construction de requêtes pour le gestionnaire de la base de données. Les réponses en langage naturel sont générées à partir du schéma sémantique et de l'information extraite de la base de données. La synthèse du message est alors obtenue par concaténation de segments de parole préenregistrés.
Situation
Le prototype construit pour la collecte de données (Fig. 2) nous a permis de collecter plus de 18500 requêtes provenant de 322 locuteurs. Ces données sont utilisées pour le développement du système et l'évaluation des différents modules. Les performances globales sont actuellement mesurées à l'aide d'un questionnaire portant sur la facilité d'utilisation, la fiabilité et la convivialité du système [1]. L'évaluation du kiosque MASK avec des utilisateurs réels sera menée à l'automne 1996 dans une gare parisienne.
Références
(1) J.L. Gauvain, S. Bennacef, L. Devillers, L. Lamel, S. Rosset :"The Spoken Language Component of the Mask Kiosk", Proc. Human Comfort & Security Workshop, Brussels, Oct. 26, 1995.
(2) S.K. Bennacef, H. Bonneau-Maynard, J.L. Gauvain, L. Lamel, W. Minker :"A Spoken Language System For Information Retrieval", Proc. ICSLP-94, Yokohama, September 1994.
Gpe Traitement du Langage Parlé |
| DptCHM |
|
Sommaire
|
| Présentation |
|
---|