Communication multimodale dans le contexte Internet

Communication multimodale dans le contexte Internet

_____________________

J.C. Martin, F. Néel, J. Vapillon, X. Briffault

Objet

Plusieurs logiciels existants permettent à plusieurs personnes connectées sur Internet de communiquer (audio et vidéo conférences, messages textuels ...) et de discuter ensemble, par exemple, à propos de pages Web. Un des buts du projet Magic Lounge (ESPRIT LTR contrat N25458) est d'intégrer à ce type de système des techniques de Communication Homme-Machine et d'Intelligence Artificielle dans le but de produire une "valeur ajoutée", par exemple en permettant de se connecter avec différentes configurations (téléphone, ordinateur portable, ordinateur de bureau). Ainsi, la reconnaissance vocale pour diriger un navigateur Web permet à des personnes n'ayant à leur disposition ni clavier ni dispositif de pointage (ou ayant peu l'habitude de les utiliser) d'accéder au Web.

Description

Outre l'application de technologies disponibles (reconnaissance vocale, partage d'objets graphiques, vidéo-conférence), le projet Magic Lounge pose un certain nombre de questions. Par exemple, comment intégrer de manière transparente d'une part les modalités de la communication homme-machine (commande vocale, gestuelle, manipulation directe, ou tapée au clavier) et, d'autre part, celles de la communication homme-homme (vidéo et audio-conférence, messages textuels) tout en sachant que celles-ci doivent se partager des médias comme le microphone, l'écran, le clavier et la souris (figure 1) ? Il est également nécessaire d'étudier comment des utilisateurs non spécialistes combinent la reconnaissance vocale et les gestes pour rechercher des informations sur Internet (et interagir avec d'autres personnes connectées). Enfin, les différences de configuration nécéssiteront des conversions d'une modalité à une autre (graphique vers texte, par exemple).

Résultats et perspectives

Commencé en juillet 1997, le projet Magic Lounge a donné lieu à une première maquette développée en collaboration avec le LIMSI, le MIP (Maersk Mc-Kinney Moller Institute for Production Technology), le DFKI (the German Research Centre for Artificial Intelligence), et Siemens AG. Nous avons développé la partie <<accès au Web par la parole>> dans cette maquette. Le système de reconnaissance vocale utilisé est IBM ViaVoice. Le navigateur Web est un composant Java développé par SUN (figure 2). Nous étudions actuellement comment intégrer le noyau multimodal de TYCOON permettant ainsi aux utilisateurs de combiner parole et gestes pour naviguer sur Internet (et plus généralement pour utiliser les services comme le Email et les newsgroup). Enfin, nous testerons les capacités du système de reconnaissance à ajouter de manière dynamique le vocabulaire d'une page Web et à décrire le contenu d'une page web par synthèse vocale. Outre la participation à la définition de l'architecture du démonstrateur, le LIMSI assure la responsabilité de deux tâches : 1) communication vocale et gestuelle pour interagir avec des représentations graphiques, et 2) accès à des informations externes (Internet et bases de données locales). Nous intervenons également dans la construction d'une fonction d'historique permettant de fournir des indications sur ce qui s'est passé pendant une session. Celle-ci peut intégrer des informations factuelles faciles à obtenir ou d'autres qui le sont moins (reconnaissance d'actes de langage) et qui pourront servir d'application à des recherches actuellement en cours, par exemple dans le groupe Langage et Cognition.

Références

[1] Martin, J.C., Julia, L., Cheyer, A. : A Theoretical Framework for Multimodal User Studies. Proceedings of the Second International Conference on Cooperative Multimodal Communication, Theory and Applications (CMC'98), 28-30 January 1998), Tilburg, The Netherlands, p 104-110 (7 pages). http://cwis.kub.nl/ fdl/research/ti/Docs/ CMC.
[2] Martin, J.C. (à paraître) Towards multimodal input access to the Web. To appear in the proceeding of the Workshop on Interpretation and Generation in Intelligent Multimodal Systems (in conjunction with the 4th World Congress on Expert Systems). Mexico City. March 16-20.
http://sgi.iie.org.mx/ luis/wces98/workshops/imms.htm.

Gpe Interaction et Multi-Modalités

Dpt CHM

Sommaire

Présentation