PLATE-FORME DE COMMUNICATION HOMME-MACHINE MULTIMODALE

PLATE-FORME DE

COMMUNICATION HOMME-MACHINE MULTIMODALE

__________________________

OBJECTIFS

L'un des objectifs majeurs de ce programme est d' intégrer, d'une part, les résultats des recherches pluridisciplinaires menées au sein du département, et, d'autre part, les technologies de pointe disponibles sur le marché dans une infrastructure générale permettant de comparer et de valider différentes approches et hypothèses. La multimodalité ici n'est pas étudiée en tant que telle, mais dans la perspective d'améliorer et de rendre plus naturelles l'interaction homme-machine aussi bien que la communication homme-homme médiatisée. Cette intégration doit se faire en prenant en compte le contexte socio-économique: il s'agit donc à terme de créer un réseau de compétence de laboratoires (universitaires et industriels) et d'organismes d'utilisateurs potentiels, afin d'anticiper le mieux et le plus tôt possible les usages futurs pour les intégrer lors de la conception, et afin d'évaluer les systèmes dans des situations réalistes, tout en mettant à disposition de la communauté scientifique, des outils modulaires et des ressources (linguistiques, notamment).

SITUATION/PERSPECTIVES

Au niveau international, dans le cadre du programme ESPRIT LTR I3(Intelligent Information Interfaces), le réseau d'Excellence I3net dont le LIMSI est un des membres fondateurs, a été mis en place au Danemark en septembre 1996 sous la coordination du Maersk Mc-Kinney Moller Institute for Production Technology (MIP) de l'Université d'Odense (anciennement Centre for Cognitive Science (CCS) de Roskilde University). Nous participons en outre, avec ce même partenaire ainsi qu'avec le DFKI de Saarbrücken University et Siemens, à un des projets de ce réseau, Magic Lounge dont l'objectif est d'offrir, à des utilisateurs non-professionnels, un espace de communication multimodale s'appuyant sur le réseau Internet (Figure 1). La tâche choisie concerne l'élaboration de voyages en commun, avec des scénarios plus ou moins complexes faisant intervenir différents types de contraintes :

- les utilisateurs ont à leur disposition des matériels hétérogènes (téléphone mobile, station de travail multimédia, etc.), et de ce fait ne disposent pas tous au même instant des mêmes modalités d'interaction (geste et parole, parole seule, graphique, animation, etc.) ;

- les utilisateurs n'ont pas accès en même temps aux mêmes sources d'informations : l'un peut être déjà sur un site touristique, alors que l'autre n'en possède qu'une représentation simplifiée sous forme de documents photographiques, par exemple ;

- les utilisateurs, lorsqu'ils ne peuvent être présents aux réunions, ont la possibilité de se faire représenter par des délégués virtuels, éventuellement sous forme d' avatars ;

- les utilisateurs peuvent avoir accès à d'autres espaces de communication (académie, marché, bibliothèque, etc.), éventuellement créés dans le cadre des autres projets du même réseau d'Excellence.

Le rôle du LIMSI (Groupes Langage et Cognition, Interaction et Multi- Modalités)est d'analyser plus particulièrement les mécanismes de conversion d'informations d'un mode d'interaction dans un autre ou dans plusieurs autres, et de développer des démonstrateurs de communication utilisant le noyau de gestion multimodale TYCOON (fondé sur l'utilisation d'automates à seuil) afin de faciliter l'accès à différentes sources d'informations. L'aspect socio-économique s'avère une composante essentielle et sera étudié notamment par le LIMSI en collaboration avec l'Université de Compiègne. Une communauté d'habitants des ^les danoises (représentée par "the Bank of Ideas of the Smaller Danish Isles") permettra d'évaluer en situation réelle les démonstrateurs développés.

Par ailleurs, dans le cadre d'un réseau Formation-Recherche France- Tunisie, la collaboration est devenue effective avec l'Institut Régional des Sciences Informatiques et des Télécommunications (IRSIT) de Tunis, et vise à l'utilisation du noyau de gestion multimodale SPECIMEN dans des applications industrielles. • Au niveau national, les applications-types précédemment développées au sein du Département et sur lesquelles s'appuient les travaux de la plate-forme, ont permis de renforcer les liens avec plusieurs partenaires :

- aide à la navigation automobile : une collaboration se met en place avec PSA pour la définition du " poste de conduite du futur ". Une étude est en cours sur l'usage de diverses modalités dans l'activité de conduite de véhicule. Par ailleurs, un projet associant trois des groupes de recherches du Département ( Langage et Cognition, Interaction et Multi-Modalités, Cognition Humaine) ainsi que PSA, a été accepté par le GIS Sciences de la Cognition : l'objectif est d'identifier les mécanismes cognitifs mis en jeu lors de la communication d'informations spatiales entre un conducteur et un système embarqué, et d'intégrer dans une interface adaptée le noyau de gestion multimodale TYCOON ainsi que le Serveur Linguistique réalisé au LIMSI. Une base de données géographiques de l'IGN permet de visualiser le lieu d'exploration en deux et trois dimensions. L'extension à un système de renseignements touristiques est envisagé en relation avec le projet Magic Lounge.

- aide au handicap visuel : le but de ce projet visant à une extension du système d'édition de documents MEDITOR réalisé précédemment en collaboration avec l'INJA et l'INSERM, est d'étudier l'apport de l'interaction multimodale pour l'accès à la Toile (WEB) par des utilisateurs non-voyants. Les documents disponibles sur la Toile intègrent des informations de différents types (images, sons, animations, vidéo, texte,...). Il s'agit, d'une part, d'analyser la manière selon laquelle la multimodalité en sortie pourrait apporter une solution pour la perception de ces différents types d'information par un utilisateur déficient visuel, et d'autre part, d'examiner l'intérêt d'une interaction multimodale en entrée pour des tâches de navigation dans des documents hypermédia. Cette étude se fera à travers la conception, le développement et l'évaluation, d'une interface homme- machine multimodale, qui intégrera la reconnaissance et la synthèse de parole, l'entrée et la sortie braille, ainsi que l'entrée par désignation gestuelle simple (pointage). Une version du noyau de gestion multimodale SPECIMEN (fondé sur l'utilisation de réseaux de transition augmentée) a été développée sous les nouveaux standards de Microsoft utilisés par les non-voyants.

- aide à la conception d'objets tridimensionnels : il s'agit d'étudier l'apport de l'interaction multimodale à la réalisation de modeleurs géométriques (et à terme d'outils de CAO), réels supports pour la " simulation " d'objets en cours de conception. La " simulation " mentionnée ici n'est pas une simple navigation dans une maquette 3d d'une version figée d'un projet (telle que proposée déjà dans la Réalité Virtuelle). Il s'agit plutôt de permettre à l'utilisateur de pouvoir évaluer en temps réel, à l'aide d'interactions les plus ergonomiques possibles et d'objets 3d aux comportements " réactifs ", l'impact (au moins géométrique) de telle ou telle modification d'un quelconque objet de la dite maquette. Cette étude se poursuit donc sur l'environnement de modélisation géométrique MIX 3D (Multimodal Interactions in a X environment with a 3D virtual space) qui fut en partie soutenu de 94 à 96 par le plan d'action SPI-SHS " Systèmes de Production " du CNRS. A plus long terme, l'objectif est d'étendre cette étude à la "conception concourante" (ou collecticiel).

- capture d'environnement : les résultats des recherches en cours sur l'identification de la direction du regard de l'utilisateur seront à terme intégrés dans les différentes applications mentionnées ci-dessus afin notamment d'aider à la détection automatique de changement de contexte (la machine sera alors capable de savoir quand l'utilisateur s'adresse à elle-même ou quand il s'adresse à un autre utilisateur, par exemple).

MEMBRES ACTIFS

Y. Bellik (multimodalité), P. Bourdot (modélisation d'objets 3D), X. Briffault (langage naturel), M. Denis (psychologie cognitive), L. Devillers (langage parlé), R. Gherbi (vision), C. Henry (sociologie de l'innovation), J.S. Liénard (perception), J. Mariani (multimodalité), J.C. Martin (multimodalité), D. Teil (multimodalité)J. Vapillon, (langage naturel)