GROUPE INTERACTION ET MULTI-MODALITÉS

_____________________

A. Osorio

Exemples d'Activités de Recherche du groupe

INTRODUCTION

Les recherches effectuées dans le groupe IMM s'intéressent à la problématique de l'interaction et de la réactivité, où plusieurs interlocuteurs dialoguent avec plusieurs systèmes en intégrant des ressources de nature différente. La conception et la mise en oeuvre de systèmes où des utilisateurs gèrent des processus, en dialoguant entre eux, en même temps qu'avec des machines considérées comme outils de restitution d'informations, mais aussi de validation de simulations et d'aide à la prise de décisions, constituent l'objectif des activités du groupe IMM.

Trois orientations sont abordées de manière plus fondamentale dans le groupe :

Au cours de l'année 1998/99 la priorité du Groupe IMM a été l'ouverture vers les communautés nationale et internationale. Des nouvelles collaborations ont été mises en place avec l'Université d'Illinois (Urbana - Champaign), avec REGINOV et avec la Fédération Mutualiste Parisienne.

Les activités de recherche en imagerie médicale, lancées depuis 4 ans en étroite collaboration avec des centres médicaux nationaux et internationaux, ont continué à se développer. Des activités de recherche en ergonomie des Interfaces Homme-Machine, et en particulier des icones, ont été poursuivies. Deux axes ont été particulièrement développés : l'aide aux enfants dyslexiques, qui a conduit à la réalisation du logiciel CREASOFT, et la collaboration avec des jeunes entreprises dans le domaine de la création de sites Internet, qui a été récompensée par l'obtention d'un trophée de la région Ile-de-France, conjointement avec la Société Théâtre On Line.

Au début de l'année 1999 deux manifestations internationales ont été organisées dans le cadre des activités du Groupe IMM : Le 3ème International Gesture Workshop, organisé à Gif-sur-Yvette, et la Première Journée Internationale << Informatique et Imagerie Médicale : Présent et Avenir >> organisée par la Délégation Régionale du CNRS à Nancy dans le cadre du Festival du Film de chercheur du CNRS.

LES THÈMES DE RECHERCHE

THEME 1 : VISION PAR MACHINE

R. Gherbi, G. André, O. Bedelet, B. Bossard, P. Bourdot, A. Braffort, C. Bui Than, C. Collet, J. Hérisson, F. Kettaf, A. Osorio, J. Rivaillier, D. Roussel

Les travaux de recherche concernent l'étude, la mise en oeuvre et l'évaluation de modèles et de systèmes informatiques de vision par machine et de reconnaissance de formes. Ces recherches s'appuient sur des champs applicatifs en communication homme-machine, en réalité virtuelle et augmentée et en bio-informatique. Dans ce contexte, plusieurs voies sont explorées :
Suivi, analyse et interprétation de mouvements et de gestes humains. L'effort accompli cette année s'inscrit dans une démarche qui vise à considérer l'évaluation comme une étape primordiale dans la conception de systèmes robustes. D'une part, C. Collet a développé, dans le cadre de sa thèse soutenue en 1999, un système de vision (CapRe) qui permet de capter et de suivre en temps réel le visage et ses composantes. Le travail réalisé consistait à fournir une caractérisation fine du fonctionnement de CapRe. Ceci a nécessité de mener une évaluation quantitative de ses modules logiciels. Le système a été testé avec un corpus réalisé dans des conditions réelles d'interaction. D'autre part, en poursuivant les travaux issus du projet Esprit ''Chameleon'' qui ont abouti en particulier au système PoG en collaboration avec le thème 3 du groupe IMM, nous avons participé à la préparation de deux projets européens sur la capture et la reconnaissance de mouvements et de gestes. Par ailleurs, nous participons à une action incitative en collaboration avec le groupe Langage et Cognition du LIMSI sur le dialogue en intégrant le langage écrit et gestuel.

Reconstruction d'objets réels associés à des modèles virtuels, en perception 3d. Dans le cadre de la thèse de D. Roussel, soutenue en 1999, une structuration des données est menée dans le processus de reconstruction. Ce travail est bien avancé pour les données peu denses issues d'une reconstruction stéréo à base de contours, et il se poursuit pour traiter les données denses qui sont sous forme de nuage de points, issues du dispositif Triclops. Il est envisagé en particulier de fusionner ces nuages de points 3d non structurés avec les courbes 3d du système stéréo du projet ROSA. Ce travail se fait en collaboration avec le thème 2 du groupe IMM.

Les travaux de recherche en perception 3d appliquée à l'imagerie médicale, visent la conception et la mise en oeuvre d'un système d'aide en ligne au diagnostic pour les radiologues à des fins d'analyse d'examens spécifiques. En amont des reconstructions de volumes, on peut avoir besoin d'une perception globale, d'une mise en évidence de lésions dans des régions non ciblées par les médecins ou encore d'archivage et de transmission d'informations. La complexité des images traitées rend difficile l'interprétation automatique, d'où l'intérêt d'aider les radiologues dans leurs analyses plutôt que de chercher à les remplacer. Pour cela, le système doit satisfaire les contraintes d'environnement matériel et celles du radiologue.

Représentation, analyse et reconnaissance de structures 3d de séquences génomiques. Ces travaux sont menés dans le cadre d'un groupe multidisciplinaire du centre d'Orsay qui allie des informaticiens du LRI et du LIMSI à des biologistes de l'IGM. L'objectif général est la recherche de nouvelles approches pour appréhender le ``langage structural'' des génomes, dans la perspective d'interpréter de manière aussi exhaustive que possible les informations qu'ils contiennent. A terme, notre but est le développement d'outils logiciels pour l'analyse bioinformatique des séquences génomiques. Ceci passe entre autre par une meilleure modélisation, en termes de représentation de données 3d et de processus de reconnaissance à base d'apprentissage, des informations génomiques. La première étape de ce travail s'achève avec le développement au LIMSI d'un outil informatique (ADN_viewer) de représentation et de visualisation 3d stéréoscopique de l'ADN. Cet outil est mis à la disposition des biologistes de notre groupe. Les aspects analyse biologique et reconnaissance automatique sont en cours de développement.

Par ailleurs, un double aboutissement de valorisation des recherches a été concrétisé par J. Rivaillier qui a crée deux entreprises sur la base de ses travaux en codage-décodage bi-dimensionnel.

Enfin, les travaux de ce thème contribuent, en collaboration étroite avec les thèmes 2 et 3 du groupe IMM, aux recherches menées dans le groupe de travail ``Geste et Image''. En particulier, il est envisagé de travailler sur le suivi et l'interprétation des mouvements des composantes du corps humain, sur la fusion de données éparses (contours 3d) et de nuages 3d denses (Triclops), ainsi que sur la gestion de l'interaction avec les données issues de séquences génomiques.

THEME 2: RECONSTRUCTION, REPRÉSENTATION ET INTERACTIONS 3D

P. Bourdot, G. André, L. Arnal, O. Bedelet, M. Dromigny, R. Gherbi, J. Hérisson, M. Krus, A. Osorio, D. Roussel, S.A. Thobie, D. Touraine

Un premier volet de l'activité de ce thème porte sur la reconstruction et la navigation dans des données médicales 3d. L'objectif de cette recherche est la mise en oeuvre, pour des centres d'imagerie médicale, d'un système informatique capable d'adapter son fonctionnement aux exigences des praticiens. Parmi ces exigences, plusieurs applications médicales nécessitent une connaissance précise des volumes, qui passe par une reconstruction des organes et des zones pathologiques (O. Bedelet). L'apparition de lésions secondaires, le traitement de lithiases, la détection de calcifications vasculaires, la mesure de lymphomes,... sont autant de cas où la précision des données volumiques a un rôle déterminant dans le choix thérapeutique. Les résultats obtenus cette année nous ont permis d'aborder dans de bonnes conditions des cas de transplantation pulmonaire (G. André). Dans le contexte des accords existant entre le CNRS et la NSF, l'ensemble de cette activité fait l'objet d'une collaboration avec le ``Computer Sciences Department'' et l'Institut Beckman de l'Université d'Illinois (centre d'Urbana Champaign).

Un second volet de notre activité s'intéresse aux moyens qui permettent d'accélérer la fréquence de production d'images de synthèse. En effet, la complexité de certaines scènes 3d rend parfois insuffisant les algorithmes et architectures graphiques actuels. Dans cette optique, S.-A. Thobie est en train d'achever une thèse sur l'interpolation spatio-temporelle entre des images clefs.

Le troisième volet de ce thème est l'activité de recherche menée sur la plate-forme expérimentale EVI3d pour la conception d'Environnements Virtuels et l'étude des Interactions 3d associées. Dans l'esprit d'une architecture matérielle et logicielle distribuée, nous avons spécifié et finalisons actuellement un serveur hiérarchique d'événements (EVserveur) pour la gestion des multiples types de périphériques utilisables par les dispositifs de Réalité Virtuelle ou Augmentée. Dans le cadre de la thèse que D. Touraine vient de commencer, nous avons généralisé aux différentes situations de perception du relief, le paradigme interactif élaboré avec M. Dromigny pour libérer les mains de l'utilisateur du contrôle de sa navigation dans des scènes de synthèse (HCnav). Ces différents travaux ont été progressivement validés dans l'application ``Mécanique des Fluides'' développée en collaboration avec C. Tenaud du groupe ``Dynamique des Fluides'' du département ``Mécanique-Energétique'' du LIMSI. Dans le contexte de cette application et de la collaboration en cours avec l'Institut de Génétique Moléculaire d'Orsay (voir ADN-viewer, Thème 1), nos recherches vont s'amplifier dans les prochaines années autour de la Visualisation et la Simulation Scientifique Semi-Immersive. Le Conseil Régional d'Ile de France a en effet décidé en Novembre 99 de soutenir notre projet SESAME de ``Plate-forme de Réalité Virtuelle et Augmentée de type Holobench''. Le dispositif matériel de ce projet va par ailleurs servir de support expérimental au groupe de travail ``Geste et Image'' qui est issu de la coopération des Thèmes 1, 2 et 3 du groupe IMM. Cette collaboration thématique vise en particulier à étudier de façon coordonnée trois aspects clefs de l'interaction 3d, à savoir : la capture des mouvements des utilisateurs, l'interprétation sémantique des signaux associés, la modélisation spatiale et comportementale du contexte de l'interaction.

Enfin, cette année a été marquée par l'aboutissement de deux thèses. Tout d'abord, dans le contexte du projet ROSA (Reconstruction d'Objets 3d par Stéréo-Acquisition), mené en collaboration avec le Thème 1 du groupe IMM, D. Roussel a finalisé ses travaux sur une approche originale de coopération Analyse / Synthèse. Il a en particulier montré dans sa thèse comment des analyses photoclinométriques locales permettent la reconstruction et le raffinement de surfaces de formes libres. Il est à souligner que ce travail a fait cette même année l'objet de deux publications IEEE. Par ailleurs, le contrat de collaboration avec la Division Recherche et Développement d'EDF, s'est achevé dans d'excellentes conditions avec entre autre une publication EuroGraphics. Outre la soutenance de son mémoire ``Connexion et facettisation : gestion adaptative de scènes virtuelles - Application aux environnements industriels'', M. Krus a développé dans le cadre de la convention CIFRE avec EDF un prototype qui a permis une validation ergonomique de son approche sur des scènes de synthèse de locaux de centrales nucléaires.

THEME 3: GESTE, MOUVEMENT ET ANIMATION

S. Gibet, A. Braffort, M.F. Castaing, R. Gherbi, F. Julliard, T. Lebourque, F. Lejeune, D. Teil, (stagiaires : C. Bui Thanh, T. Carrard, E. Coutris)

Un premier axe de recherche porte sur l'analyse, la reconnaissance et l'interprétation de gestes. Les principaux types de gestes étudiés sont les gestes de communication, tels que les gestes de la Langue des Signes Française (LSF) ou les gestes co-verbaux (accompagnant la parole). L'analyse consiste à étudier et définir des primitives gestuelles pertinentes permettant de représenter le geste au sein du système. Les algorithmes de reconnaissance utilisés sont basés sur des approches statistiques dans le cas des gestes isolés ou stochastiques pour traiter les gestes enchaînés (HMM). L'interprétation complète l'étape de reconnaissance par une prise en compte des informations spatiales portées par les gestes. Cette étape s'appuie sur une modélisation du contexte spatial. Par ailleurs, les gestes de la LSF respectent des règles de construction qu'il est nécessaire de modéliser (thèse de F. Lejeune). Ces différentes études s'appuient sur l'analyse détaillée de corpus de gestes, du point de vue signal, mais aussi linguistique. Parmi les principales réalisations auxquelles ont abouti ces travaux, on peut citer ARGo, dédié à la langue des signes, ainsi que PoG, en collaboration avec le thème ``Vision par machine'' et dédié aux gestes de désignation.

Un deuxième axe de recherche s'oriente vers l'étude de langages dédiés à la simulation et l'animation interactive d'objets articulés. Un premier langage, de type impératif, a été défini pour spécifier des gestes de la LSF (thèse de T. Lebourque). Ce langage s'appuie sur une décomposition de la LSF en unités signifiantes élémentaires, les gestèmes. Grâce à des opérateurs de parallélisme et de synchronisation, ces gestèmes sont assemblés pour former des signes et des phrases de la LSF. La commande gestuelle est ensuite traduite en séquences de cibles qui constituent l'entrée du système de génération du mouvement. L'ensemble du système a été implémenté et permet de produire, avec un temps d'interactivité satisfaisant, des animations d'un modèle de deux bras et deux mains articulés. Afin d'étendre ce système au contrôle et à l'animation d'objets articulés plus complexes, par exemple des humanoïdes de synthèse doués d'une certaine autonomie, tout en respectant des contraintes d'interactivité et de réactivité à l'environnement, il a été nécessaire de représenter les différents niveaux de contrôle (génération, coordination motrice et planification) au moyen d'un système hiérarchisé, capable de réagir en temps réel à des informations en provenance de l'environnement (thèse de F. Julliard). Le système doit produire un mouvement réaliste et adaptatif à partir d'une définition symbolique appelée spécification réactive. La spécification permet d'exprimer les contraintes temporelles et de synchronisation des commandes gestuelles élémentaires et s'appuie sur un langage réactif.

Enfin, plusieurs des travaux menés dans ce thème contribuent aux travaux de recherche menés dans le groupe de travail Geste et Image, en étroite collaboration avec les thèmes ``Vision par machine'' et ``Reconstruction, représentation et interaction 3d''. En particulier, plusieurs travaux ont porté sur la définition de primitives gestuelles pour des gestes captés par caméra et une étude sur l'élaboration de systèmes d'interprétation de gestes de manipulation 3D est en train de démarrer.

La troisième édition du colloque international dédié à l'interaction gestuelle, GW99, s'est tenue en mars 1999 à Gif-sur-Yvette. Elle a été organisée conjointement par le LIMSI et le LPM (Laboratoire de Physiologie du Mouvement). Les meilleures communications ont été rassemblées dans un ouvrage publié chez Springer-Verlag (LNAI 1739).

THEME 4: COMMUNICATION MULTIMODALE

D. Teil, Y. Bellik, C. Collet, J.C. Martin, F. Néel

Les recherches menées dans le thème Communication Multimodale sont orientées vers l'étude des interfaces de systèmes faisant intervenir un opérateur humain qui utilise une machine

La machine est constituée essentiellement par un système informatique unique ou par plusieurs reliés en réseau. Ces systèmes comportent des périphériques standards comme le clavier, la souris, l'écran mais aussi éventuellement des dispositifs de communication non conventionnels comme un écran tactile, des systèmes de synthèse et de reconnaissance de la parole, le téléphone, une caméra vidéo ou plus généralement tout dispositif de communication indirecte capable de traiter de l'information numérique.

Les objectifs de nos travaux sont d'étudier les différents problèmes d'interface liés à la multiplicité, à l'hétérogénéité des médias et à leur utilisation simultanée et coopérative (on parlera de << multimodalité >>). Cela pose non seulement des problèmes techniques et informatiques liés à l'intégration matérielle et logicielle de ces périphériques, mais également des problèmes d'utilisabilité et donc d'analyse du comportement multimodal de l'être humain afin de pouvoir viser une utilisation la plus << naturelle >> possible. Les recherches peuvent être regroupées dans quatre axes thématiques : la << multimodalité en entrée >> qui traite de l'intégration des informations fournies à la machine, la << multimodalité en sortie >> qui a pour but de donner au système des capacités de choix dynamique de médias et de forme de présentation de l'information en fonction du contexte (tâche, environnement,...), la << communication médiatisée >> qui s'intéresse à la communication Homme-Homme par le biais d'outils et de réseaux de communication, et enfin l'<< informatique nomade >> qui pose le problème de l'adéquation des périphériques à des changements d'environnements (appliqués par exemple à l'aide à la navigation).

Chacun de ces axes est étayé par des études spécifiques théoriques sur les propriétés et les concepts fondamentaux de la multimodalité et cela selon plusieurs approches. La première, dénommée TYCOON, propose un cadre théorique basé sur la notion de types de coopération entre modalités (équivalence, spécialisation, transfert, complémentarité, redondance, concurrence), un langage de spécification et un module de gestion de la multimodalité. Actuellement, les actions de recherche, dans cette approche, portent, d'une part, sur l'étude d'un cadre pour la communication et la coopération par la mise en oeuvre d'objets référençables et de la notion de saillance et, d'autre part, sur la modélisation de la coopération entre les modalités de sortie, les agents mais aussi entre les personnes (en CH2M2). Dans ce cadre, les travaux relatifs au projet européen Magic Lounge ESPRIT-LTR Programme I3 devraient se terminer en 2000. Un contrat européen ISLE (programme IST) sur la production de recommandations pour l'annotation de corpus (multimodaux) a commencé en janvier 2000 et fera l'objet d'un workshop lors de la conférence LREC'2000 (Language and Resources Evaluation Conference). La collaboration avec l'Institut de Recherche de Stanford (SRI International) sur l'analyse comportementale de sujets en activité d'interaction se poursuit.

Une autre approche liée à la conception du noyau multimodal SPECIMEN et aux outils de développement associés sert de base conceptuelle pour toutes les études sur l'aide au handicap et à la conduite de processus industriels. La mise en place du projet NeuroCoop sur la communication à distance entre médecins (télédiagnostic médical) fait l'objet d'une collaboration avec le laboratoire Creatis de Lyon. Par ailleurs, l'étude de l'application des interfaces multimodales pour la résolution de problèmes de coupe industrielle est réalisée en collaboration avec l'Institut Régional des Sciences Informatiques et des Télécommunications (IRSIT) de Tunis. De nouvelles collaborations ont été mises en place cette année et plus particulièrement avec le laboratoire Aimé Cotton de l'Université Paris Sud sur l'étude de l'utilisation interactive d'une canne laser à l'usage des non-voyants. Cette étude a pour but d'améliorer l'interface en introduisant les concepts de la multimodalité. Une autre collaboration est engagée avec la société Sextant de Bordeaux pour l'étude des problèmes de la multimodalité en sortie et pour la présentation des informations de navigation à bord d'avion.

Nos activités de recherche sont liées à celles de l'action transversale Plate-Forme Multimodale du département CHM de par notre participation au contrat Magic Lounge, mais aussi pour les actions concernant l'aide à la navigation (navigation automobile avec PSA, Renault, Daimler-Benz, navigation de non-voyants dans des environnements urbains complexes avec le projet Ville, sous la responsabilité du groupe Cognition Humaine et en collaboration avec le groupe Langage et Cognition).

RELATIONS EXTÉRIEURES

ENSEIGNEMENT ET DIFFUSION DES CONNAISSANCES

Organisation de colloques

$\bullet$ comités Scientifiques ou comités de programmes :

- NIMES'98 "Man-Machine Interfaces" (co-présidente du Comité International de Programme : F. Néel) ;

- IHM'99 (J.C. Martin, F. Néel),

- ESCA TRW on "Interactive Dialogue in Multi-Modal Systems", juin 1999 (F. Néel),

- ERGO-IHM'2000 (J.C. Martin),

- LREC 2000 (J.C. Martin),

- CMC'98 (J.C. Martin),

- ECAI'98 (J.C. Martin),

- HFWC'98 (J.C. Martin),

- RIAO 2000 (F. Néel)

$\bullet$ comité d'organisation de GW'99 (A. Braffort, R. Gherbi, S. Gibet, J. Richardson, D. Teil)

Participation à des comités éditoriaux

$\bullet$ comité de rédaction :

- RIHM (Y. Bellik),

- Informations IN COGNITO (J.C. Martin)

$\bullet$ relecteurs :

- Speech Communication, RIHM (F. Néel),

- GW'99 (Y. Bellik, A. Braffort, C. Collet, R. Gherbi, S., Gibet, T. Lebourque, J.C. Martin, F. Néel, D. Roussel, D. Teil),

- IHM'99 (A. Braffort)

Activités ou responsabilités d'enseignement liées à la recherche

Participation à des séminaires

RELATIONS NATIONALES

Relations scientifiques, institutionnelles et industrielles

Conventions de recherche et contrats

Collaborations scientifiques au niveau national

RELATIONS INTERNATIONALES

Relations Scientifiques

- avec le SRI (Stanford Research Institute, Etats-Unis) sur l'analyse de dialogues homme-machine (enregistrés avec la technique du Magicien d'Oz), fondée sur le cadre conceptuel TYCOON (J.C. Martin)

Relations scientifiques et industrielles

Conventions de recherche et contrats :


Dpt CHM

+ Sommaire

Présentation

visiteurs.