_____________________
Objet
Le contrôleur de dialogue est un des modules les plus importants d'un système d'interaction vocale homme-machine. Son rôle est de diriger le dialogue en adaptant ses stratégies pour qu'un utilisateur atteigne son but le plus efficacement et le plus convivialement possible. Nous décrivons les stratégies de contrôle du dialogue mises en oeuvre dans le système développé dans le cadre de l'ARC AUPELF-B2 portant sur une tâche de renseignements touristiques.
Description
Les recherches sur le thème du dialogue oral homme-machine sont actuellement en plein essor. L'action AUPELF B2 a pour but d'évaluer des systèmes de dialogue Homme-Machine. La tâche choisie porte sur des renseignements touristiques. Un premier système a été réalisé en adaptant le module de dialogue du système MASK [1] qui renseigne sur les horaires de train. Le système de renseignements touristiques permet d'obtenir des informations sur les tarifs et moyens de paiement, les horaires d'ouverture, la localisation, l'adresse, le trajet en métro, une description, les prestations etc... pour des hôtels, restaurants, cinémas, grand-magasins, musées et monuments (fig. 1) situés aux alentours de la gare Saint-Lazare à Paris. La base de données comporte une centaine d'objets.
Ce système est constitué de cinq modules adaptés du système MASK à la tâche de renseignements touristiques. Pour le module de reconnaissance, les modèles acoustiques sont ceux de MASK, le modèle de langage a été construit à partir d'un premier corpus de 1500 phrases [2]. Ce modèle utilise des classes pour palier le
manque de données d'apprentissage (cf C. Beaujard & al, rapport d'activité 1998). Le lexique comporte environ 1500 mots.
Les modules de compréhension (basé sur une grammaire de cas) et de dialogue
ont été adaptés à l'application de renseignements touristiques.
Les réponses en
langage naturel sont générées à partir du schéma sémantique
construit par ces deux modules, et de l'information extraite de la base de
données. La réponse générée est alors synthétisée par un module de synthèse
à partir du texte développé au LIMSI (cf P. Boula de Mareuil, rapport d'activité 1998) en collaboration avec l'université de MONS.
Les systèmes de dialogue ARISE et MASK développés au LIMSI sont
à initiatives mixtes entre le système et le locuteur. Dans la majorité des cas, le système réagit en fonction de la requête du locuteur et d'un contexte limité à un unique schéma sémantique historique, ce qui le rend peu robuste aux erreurs de reconnaissance et de compréhension.
Dans ces systèmes, le contrôleur ne dispose pas de connaissances sur
l'enchaînement des étapes antérieures du dialogue, ni de modèle permettant la prédiction des étapes suivantes en fonction du but à atteindre. Afin de mieux contrôler le système de dialogue et pour aider le locuteur à rester dans le cadre de la tâche, nous avons mis en place une stratégie de génération qui relance l'utilisateur pour qu'il suive des plans de dialogue sans pour autant le contraindre à ces plans (fig. 2).
Bien qu'en n'apportant qu'un contrôle local du dialogue, cette stratégie,
en suggérant des alternatives, encourage l'utilisateur à rester dans le domaine de compétence du système et le dirige vers l'exécution de ses buts.
Résultats et perspectives
Un premier corpus de 3400 phrases (44 locuteurs) a été collecté avec ce système. Un étiquetage sémantique et dialogique de ce corpus est étudié pour réaliser une modélisation des stratégies de dialogue des utilisateurs et trouver des critères d'évaluation du module de dialogue.
Références
[1] J.L. Gauvain, S. Bennacef, L. Devillers, L. Lamel, R. Rosset :
``Spoken Language component
of the MASK Kiosk'' in K. Varghese, S.Pfleger(Eds.) Springer-Verlag.
[2] S. Rosset, L. Lamel, S. Bennacef, L. Devillers, J.L. Gauvain :
``Corpus oral de renseignements
touristiques'', 1ères JST Francil 1997, pp. 455-457.
Gpe Traitement du Langage Parlé |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|