COMMUNICATION HOMME-MACHINE MULTIMODALE
__________________________
CONTEXTE
L'extension des réseaux à haut débit et la miniaturisation des systèmes portables (voire "vestimentaires", tel le Mobile Assistant) permettent dorénavant l'accès immédiat à une masse d'informations réparties dans le monde. Cette infrastructure induit des comportements nouveaux qui nécessitent des interfaces de plus en plus performantes et proches du naturel. Les technologies actuellement disponibles (nouvelle génération de systèmes de reconnaissance et de synthèse de la parole, systèmes de réalité virtuelle et augmentée, gant numérique, etc.) ont bien souvent été développées indépendamment les unes des autres. Peu d'études ont cherché jusqu'à présent à tirer parti de la spécificité de chaque modalité (geste, vision, parole, etc.), et à mettre en évidence l'apport d'un système multimodal.
Le Département Communication Homme-Machine (CHM) du LIMSI a acquis depuis plusieurs années une compétence reconnue dans le traitement de ces différentes modalités de communication (langage naturel écrit/oral, image, geste), et dans leur intégration au coeur d'interfaces multimodales. Un groupe de réflexion animé par J-S. Liénard, créé en 1994, a conduit à la mise en place de la Plateforme de Communication Homme-Machine Multimodale qui se présente comme une Action de Programme pluriannuelle, interne au Département CHM, et menée dans le cadre des programmes thématiques et interdisciplinaires du CNRS, tels que :
* l'axe prioritaire du département scientifique SPI (Sciences pour l'Ingénieur) Machines et Structures Intelligentes,
* l'action concertée entre les deux départements scientifiques du CNRS SPI et SHS (Sciences de l'Homme et de la Société), Cognition, Communication Intelligente et Ingénierie des Langues (axe Image, Geste et Langage), qui traite des problèmes relatifs aux Sciences du Langage.
Le programme fédérateur de la Plateforme permet de capitaliser les compétences de chaque groupe du Département dans des contextes différents. Sans prétendre couvrir de façon exhaustive l'ensemble du domaine, certains des problèmes inhérents à la multimodalité ont pu être identifiés, ce qui a permis d'organiser un premier noyau autour duquel seront tissés des liens avec d'autres laboratoires apportant des compétences complémentaires indispensables.
OBJECTIFS DE LA PLATEFORME
Les objectifs d'un tel programme sont multiples et peuvent être formalisés ainsi :
* favoriser la mise en commun des compétences issues des différentes disciplines représentées au sein du Département Communication Homme-Machine : informatique, traitement du signal, intelligence artificielle, linguistique, ergonomie, psychologie cognitive, sociologie de l'innovation,
* étudier l'intégration de technologies nouvelles avec le souci de privilégier les besoins de l'utilisateur (professionnel ou du grand public),
* prendre en compte, dans la mesure du possible, des critères d'évaluation dans un contexte socio-économique dès la conception des systèmes,
* à terme offrir à la communauté scientifique et industrielle, un cadre d'expérimentation réaliste pour valider hypothèses, approches et techniques nouvelles,
* créer un réseau de compétence en mettant à la disposition de la communauté des outils modulaires et des ressources (linguistiques, notamment), et en identifiant les laboratoires susceptibles d'offrir des champs de compétence complémentaires,
* préparer des consortiums afin de répondre aux appels d'offres nationaux, européens et internationaux,
* assurer une veille technologique, proposant conseil et formation.
Outre l'étude de modalités individuelles (langage naturel écrit et parlé, image et geste), les domaines de compétence au sein du laboratoire, sur lesquels s'appuie le programme sont les suivants :
* concepts de base de la multimodalité,
* modélisation des connaissances relatives aux modalités, à la tâche, au dialogue, à l'utilisateur, à l'environnement,
* architectures adaptées aux systèmes interactifs, ainsi que les outils logiciels et linguistiques associés,
* formalisation et spécification des interfaces multimodales,
* protocoles d'évaluation, ressources (corpus oraux/écrits/multimodaux, dictionnaires/lexiques, grammaires, terminologie),
* apprentissage à partir de différentes approches (statistique, connexionniste, symbolique) pour adapter et personnaliser les systèmes,
* représentations spatiales à plusieurs niveaux incluant les aspects géométriques, informatiques, linguistiques et cognitifs : une étude spécifique favorisant la coopération entre linguistes et informaticiens concerne les relations entre l'image, le geste et le langage.
APPLICATIONS-TYPES
Pour illustrer les principes de la multimodalité, il convenait de s'appuyer sur des domaines d'application réalistes. Certaines applications déjà en cours de développement au laboratoire ont ainsi été retenues :
* aide à la navigation automobile : cette application, intégrant geste et langage, permettra à terme d'étudier les dialogues de type coopératif.
* aide au handicap visuel : des extensions du système Méditor (édition de documents par les non-voyants) sont envisagées pour l'apprentissage des langues et l'accès au Web. L'étude de systèmes d'aide à d'autres handicaps est également prévue.
* aide à la conception d'objets tridimensionnels : il s'agit actuellement d'évaluer l'apport de l'interaction multimodale à la CAO, et, à terme, d'étudier l'usage de ce type d'interface pour aider à la "conception concourante" (collecticiel).
A ces trois applications-types, un nouveau champ d'étude qui devrait permettre d'améliorer le naturel de l'interaction dans l'ensemble des applications, a été abordé cette année sur la capture d'environnement, et notamment de la direction du regard ou de la détection de position.
SITUATION ACTUELLE
Cette première année de mise en place du Comité d'Action a permis la création d'un certain nombre d'outils autour d'une architecture modulaire client-serveur, l'objectif étant d'identifier des modules interchangeables et d'accueillir plusieurs types de modalités :
* deux noyaux (SPECIMEN et TYCOON) de gestion des interactions multimodales fonctionnent maintenant sous Unix/X11, et sont en cours d'intégration dans certaines des applications (SPECIMEN fonctionne également sur PC). Ces noyaux mettent en oeuvre des approches différentes (automates récursifs et réseau à propagation guidée),
* un serveur de modalités EMUX sous Unix/X11, permet la collecte des événements non standards, leur datation et leur acheminement vers le client approprié,
* un serveur linguistique a été mis en place regroupant plusieurs outils : étiqueteur, analyseur morphologique, analyseur LFG (Lexical Functional Grammar), lexique, analyseur sémantique (graphes conceptuels), ainsi que des outils de gestion de bases linguistiques et de visualisation graphique.
Au niveau national, des contacts sont poursuivis avec l'ENST, dans le cadre d'un projet du programme MIRIHADE, et avec l'INJA de Paris pour l'aide au handicap.
Au niveau international, des collaborations se mettent en place avec l'IRSIT de Tunis (aide au handicap visuel, et utilisation des interfaces multimodales dans des applications industrielles) et avec le Centre for Cognitive Science (CCS) de Roskilde University, au Danemark, avec lequel nous avons répondu aux appels d'offre des communautés européennes, notamment dans le cadre du programme ESPRIT I3 (Intelligent Information Interfaces).
CONTACTS ETABLIS OU EN COURS
* Animation scientifique et participation à des groupes de travail, à des comités scientifiques de conférences et séminaires:
- GT10 Multimodalité du GDR-PRC CHM (Communication Homme-Machine), groupe Nouvelles Interfaces Homme-Machine de l'OFTA (Observatoire Français des Techniques Avancées), Association Française d'Informatique Graphique (AFIG).
- journées IHM, ESCA ETRW Venaco Workshops on The Structure of Multimodal Dialogue, Conférence Internationale de Montpellier sur L'Interface des mondes réels et virtuels où seront présentées les recherches sur l'aide à la navigation automobile.
* Agences de programme : DRET.
* Organismes de recherche : CENA, Ecole d'Architecture de Marseille-Luminy, ENST, INSERM-CREARE, IPO-Eindhoven (Pays Bas), Centre for Cognitive Science (CCS) of Roskilde University (Danemark), IRSIT de Tunis (Tunisie), Rutgers University (Etats Unis), Université de Laval-Québec (Canada), Wright State University de Dayton (Etats Unis).
* Organismes utilisateurs de technologies interactives : INJA (Institut National des Jeunes Aveugles), SNCF.
* Entreprises industrielles : EDF, Sextant Avionique, Vecsys.
PROJETS ET ACTIONS RATTACHES
* Projet du plan d'action SPI-SHS "Systèmes de Production" : Modèle d'interface multimodale pour une meilleure simulation graphique lors de la conception d'objets 3D (responsables : P. Bourdot (LIMSI) et J.C. Lebahar (Ecole d'Architecture de Marseille-Luminy)).
* Projet dans le contexte du programme MIRIHADE : Transferts Adaptatifs sur Réseau Haut Débit pour une Plateforme Collecticielle d'Edition Partagée de Documents 3D (responsables : R. Gherbi et P. Bourdot (LIMSI), S. Tohme et C. Faure (ENST URA-CNRS 820)).
* Projet, dans le contexte du programme biennal, du Département d'Informatique de Paris XI : Etude du Contexte en Multimodal et en Collecticiel. Application : Médiaspace (responsables : R. Gherbi (LIMSI) et M. Beaudouin-Lafon (LRI)).
* Actions incitatives internes au LIMSI :
- Serveur Linguistique (responsables : X. Briffault et G. Adda),
- Etude et développement d'un module d'interprétation de descriptions spatiales multimodales (responsable : X. Briffault),
- Capture de contexte visuel en communication Homme-Machine (responsable : R. Gherbi).
MEMBRES ACTIFS
Y. Bellik (multimodalité), P. Bourdot (modélisation d'objets 3D), X. Briffault (langage naturel), M. Denis (psychologie cognitive), L. Devillers (langage parlé), R. Gherbi (vision), C. Henry (sociologie de l'innovation), M. Krus (multimodalité), J.S. Liénard (perception), J. Mariani (multimodalité), J.C. Martin (multimodalité), D. Teil (multimodalité).