Compréhension et dialogue

Le troisième axe de recherche concerne les systèmes de compréhension de la parole. Dans ces systèmes nous ne sommes plus simplement intéressés à transcrire ce qui et dit, mais plutôt à comprendre le sens de ce qui est dit. L'objectif est de fournir un accès vocal à des sources d'information.

Pour chaque application, il est nécessaire de définir au préalable le vocabulaire et les concepts liés à cette application afin de construire les modèles acoustiques, linguistiques et sémantiques appropriés. Ici la modélisation de la parole spontanée devient particulièrement importante et des problèmes nouveaux apparaissent concernant le développement du module de compréhension et l'intégration de la reconnaissance avec d'autres modalités telles que le toucher, le geste, la synthèse de la parole, etc. La sortie du système de reconnaissance est transmise au module de compréhension qui analyse la requête pour en extraire le sens. Le principal travail lors du développement du module de compréhension est l'écriture des règles de la grammaire de cas qui comprend également la définition des concepts significatifs pour la tâche et les mots-clés associés. Le rôle du module de dialogue est de guider l'utilisateur afin qu'il fournisse l'information nécessaire à la construction des requêtes pour la base de données. Les réponses en langage naturel sont générées à partir du schéma sémantique et de l'information extraite de la base de données. La synthèse du message est obtenue par concaténation de segments de parole préenregistrés. En ce qui concerne le module de compréhension, nous développons une approche statistique pour identifier les concepts sans avoir recours à des règles d'interprération toujours délicates à définir et très dépendantes de l'application. Les résultats obtenus sont tout-à-fait satisfaisants (c'est-à-dire comparables à ceux obtenus avec des règles) et nous permettent d'envisager l'utilisation à court terme de cette approche dans des systèmes tels que MASK et ARISE.

Nous avons développé des systèmes dans le cadre de trois projets européens ( MASK, ARISE et HOME) et de l'action concertée B2 de l' AUPELF-UREF.

Le kiosque MASK permet aux utilisateurs de demander des informations liées aux transports ferroviaires pour la France, telles que les horaires des trains, les prix des billets, et les réservations pour environ 500 villes. Ce système a été développé dans le cadre du projet ESPRIT MASK (Multimodal-Multimedia Automated Service Kiosk) dans lequel le LIMSI était responsable de la réalisation de l'interface vocale. Ce kiosque est actuellement testé en gare Saint-Lazare à Paris.

Dans le cadre du projet LE ARISE nous développons un serveur téléphonique d'informations sur les horaires de trains. L'une des particularités des services d'informations téléphoniques est que toute information doit nécessairement passer par le canal vocal. De ce fait la gestion du dialogue et la génération des réponses sont deux aspects très importants pour la conception d'un tel système. Par rapport à la première version du système (projet LE MLAP RAILTEL), les principales améliorations concernent la gestion du dialogue, l'utilisation de mesures de confiance dans le système de reconnaissance, et la possibilité d'interrompre les réponses du système. Le dialogue a été amélioré à partir de l'analyse des stratégies utilisées par des opérateurs humains dans un contexte identique.

Le projet TIDE HOME-AOM a pour but de développer une interface conviviale multimodale et multimédia pour les personnes handicapées et agées afin de contrôler différents équipements à leur domicile. Cette interface combine un écran tactile, la reconnaissance du geste, et la reconnaissance et la synthèse de la parole. Nous développons la composante vocale en étroite collaboration avec la société Vecsys. Ce système permet aux utilisateurs de contrôler leur environnement à l'aide de commandes en langage naturel en évitant le recours à un outil de navigation avec menu. Le prototype sera évalué extensivement à l'hôpital de Garches.