_____________________
L. Devillers, H. Maynard
Objet
L'étude porte sur l'évaluation des stratégies de gestion du dialogue et plus particulièrement de génération développées dans le cadre d'un système de renseignements touristiques. L'efficacité des stratégies est évaluée en confrontant les résultats obtenus avec deux versions du système : l'une utilisant des mécanismes de relances pour guider le locuteur, l'autre sans ces mécanismes.
Description
Nous proposons une stratégie de dialogue à initiative mixte fondée sur l'utilisation de mécanismes automatiques de relances du système guidant le locuteur sans le contraindre. Cette stratégie repose sur la génération de messages de sollicitation établis grâce à une représentation hiérarchique des connaissances du domaine et à l'historique du dialogue et de la génération [1].
Pour tester uniquement les effets liés à cette stratégie deux versions du système de dialogue ont été mises en place. La première version (Avec Relance) utilise la stratégie proposée, tandis que dans la deuxième version (Sans Relance) les messages se limitent à une réponse du système à la question du locuteur. 32 locuteurs dont 16 experts et 16 novices ont participé à l'expérience en réalisant 4 scénarios (Figure 1) avec chacun des deux systèmes. Les dialogues ont été annotés en terme de taux de reconnaissance et de compréhension, et de taux de suivi des relances (Tableau 1). Les utilisateurs novices ont tendance à suivre les relances (66,3%) ce qui se traduit par une augmentation du nombre moyen de renseignements obtenus : 7,6 avec le système AR, contre 6,9 avec SR. A la fin de chaque session d'enregistrement, chaque locuteur a répondu à un questionnaire d'évaluation portant notamment sur l'aide apportée par les relances et a donné une note entre 0 et 10 aux deux systèmes (Tableau 2). Ces notes montrent que le système AR est toujours préféré par les locuteurs lorsqu'il est testé en premier. Les deux systèmes ont également été comparés en terme de succès des scénarios. Un scénario est considéré comme réussi si l'objet final sélectionné par le locuteur est un des objets parmi ceux de la base de données répondant aux contraintes fixées par le scénario. Le coefficient Kappa [3] permet de donner une mesure du succès du scénario normalisée par la complexité de la tâche. Les résultats du tableau 3 montrent que sur les 64 dialogues testés, le système AR a un meilleur taux de réussite (Kappa de 0,97) que le système SR (Kappa de 0,87). La plus grande différence est observée pour les utilisateurs novices (0,95 contre 0,80). Les meilleurs résultats sont obtenus avec le système utilisant la stratégie de relance, aussi bien en termes de succès (Kappa) que de satisfaction de l'utilisateur, tout particulièrement pour les novices.
Résultats et perspectives
Deux stratégies de dialogue ont été évaluées avec des mesures objectives sur le dialogue telles que taux de reconnaissance et de compréhension, et une mesure subjective : la satisfaction de l'utilisateur. Cette mesure subjective a été comparée avec une mesure objective de performance globale du système (coefficient Kappa). Les résultats indiquent que les relances sont efficaces pour les nocives et appréciées par tous les utilisateurs. Une étude portant sur la corrélation entre mesures objectives et satisfaction de l'utilisateur est actuellement en cours afin de permettre une prédiction sur les performances globales du système lors de l'évolution des différents modules avant l'étape coûteuse de confrontation avec des locuteurs.
Références
[1] H. Bonneau-Maynard, L. Devillers. ``Dialog Strategies in a tourist
information spoken dialog system'', SPECOM 98, St-Petersbourg, Octobre 1998.
[2] L. Devillers, H. Bonneau-Maynard. ``Evaluation of Dialog Strategies for
a tourist information retrieval system'', ICSLP 98, Sidney, Décembre 1998.
[3] M. Walker, D. Litman, C. Kamm, et A. Abella, ``Paradise: a general
framework for evaluating spoken dialog agents'', ACL/EACL, 1997.
Gpe Traitement du Langage Parlé |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|