GROUPE INTERACTION ET MULTI-MODALITÉS

_____________________

A. Osorio

Exemples d'Activités de Recherche du groupe

INTRODUCTION

Au cours de ces dernières années, on a constaté l'évolution et la profonde modification des postes de travail informatiques par rapport à la situation de la fin des années 80. Une conséquence de cet état de fait est le besoin de prendre en compte de nouvelles interactions, avec des médias diversifiés, en respectant des contraintes de fonctionnement en temps réel et de qualité de service. Par ailleurs, la très large diffusion de systèmes de manipulation de formes 3d où, par le biais de la représentation informatique, on <<augmente la réalité>> des situations réelles, constitue l'un des faits marquants de cette fin de siècle.

Dans ce contexte, les recherches effectuées dans le groupe IMM s'intéressent aux problématiques de l'interaction et de la réactivité, où plusieurs interlocuteurs dialoguent avec plusieurs systèmes en intégrant des ressources de nature différente. La conception et la mise en œoeuvre de systèmes où des utilisateurs gèrent des processus, en dialoguant entre eux, en même temps qu'avec des machines, considérées comme outils de restitution d'informations mais aussi de validation de simulations et d'aide à la prise de décisions, constituent l'objectif des activités du groupe IMM.

Pour atteindre cet objectif, trois orientations sont abordées de manière plus fondamentale dans le groupe :

Au cours de l'année 1997 le groupe IMM a changé de responsable et a été restructuré. En accord avec les trois orientations scientifiques précédemment citées et afin de tendre vers une masse critique dans chaque activité, nous avons convergé vers la mise en place de quatre thèmes de recherche dont la présentation suit.

Le transfert de connaissances et la mise à disposition vers l'aval de compétences constituent l'une des vocations du groupe IMM. Dans ce contexte, nous nous sommes activement impliqués dans les travaux autour de la plate-forme de Communication Multimodale du Département CHM du LIMSI.

Le lancement du projet <<Environnement Virtuel>>, soutenu par le CNRS-SPI et par le Conseil Général du Département de l'Essonne, constitue l'une des tâches fédératrices du groupe. Au delà du contexte spécifique IMM, ce système servira de support expérimental ouvert aux autres disciplines du LIMSI.

THEME 1 : VISION PAR MACHINE

R. Gherbi, O. Bedelet, A. Braffort, C. Collet, C. Ménigault, A. Osorio, G. Quénot, J. Rivaillier, D. Roussel, H. Ruellan

La vision par machine est étudiée selon deux orientations principales : d'une part, en tant que mode de communication, ce qui implique de concevoir des outils de perception visuelle qui améliorent l'interaction homme-machine par l'introduction de nouveaux media ; d'autre part, en tant qu'outil d'aide pour assister l'utilisateur dans la réalisation d'une tâche particulière.

En tant que mode de communication, un outil de perception visuelle doit permettre à un utilisateur d'interagir naturellement et spontanément avec une machine. Les machines actuelles rendent possible l'intégration de ces outils qui nécessitent pourtant des calculs lourds. De plus, ces machines sont souvent équipées de dispositifs d'acquisition vidéo. Néanmoins, Cette intégration nécessite le développement de systèmes non intrusifs capables d'interpréter en temps réel des informations visuelles émises par l'utilisateur.

L'étude la vision par machine concerne l'exploitation de la modalité visuelle pour capter et traiter des informations sur l'environnement de l'interaction ou sur l'interaction elle-même. Deux projets sont mis en œoeuvre : un système de capture et de suivi du regard (cf. page de présentation ``CapRe'') et fait l'objet d'un travail de thèse en collaboration avec le LSV-CNRS (A. Finkel, ENS Cachan) ; un système de reconnaissance de gestes (cf. page de présentation ``PoG'') dans le cadre du projet Européen ESPRIT Open LTR ``Chameleon'', en collaboration avec la société BERTIN (France) et le CPK (Danemark). Ce projet se fait en collaboration avec le thème 3.

En tant qu'outil d'aide, un système de vision permet notamment de réaliser des tâches de capture d'objets réels. Nous concevons des outils interactifs permettant à un utilisateur d'extraire certaines informations sur ces objets (forme, couleur, relief, etc.) en vue de les représenter et de les manipuler. Deux types de tâches sont considérées : reconstruction 3d d'objets et interprétation de documents.

Pour la reconstruction 3d, une première démarche vise à donner une capacité de perception aux systèmes de CAO. Il s'agit de la réalisation d'outils d'acquisition d'objets réels (extraction et appariement de chaînes de contours, analyse photométrique, etc.) pour le projet ROSA (cf. page de présentation ``ROSA''). Une deuxième démarche traite plus particulièrement des images médicales pour la reconstruction d'organes à partir de coupes scanner parallèles (cf. page de présentation ``PTM3D''). Ces deux démarches (en collaboration avec le thème 2) font appel à l'extraction de primitives visuelles qui conduit à une reconstruction peu dense. Une troisième démarche vise à déterminer une carte de profondeur dense d'une scène réelle avec une approche basée sur la programmation dynamique (cf. page de présentation ``VIP'') en collaboration avec le département Mécanique Energétique.

Pour l'interprétation de documents, les travaux concernent d'une part l'indexation automatique de documents vidéo (cf. page de présentation ``Indexation'') en collaboration avec le groupe TLP ; d'autre part la modélisation de la lecture, la reconnaissance d'écriture manuscrite par des méthodes connexionnistes et l'identification de codes barre bidimensionnels.

THEME 2: RECONSTRUCTION, REPRÉSENTATION ET INTERACTIONS 3D

P. Bourdot, O. Bedelet, R. Gherbi, M. Krus, P. Macé, A. Osorio, D. Roussel

Ce thème de recherche s'intéresse globalement à la modélisation géométrique. Nos travaux déclinent ce domaine suivant trois axes:

La problématique de la reconstruction 3d, menée en collaboration avec le Thème ``Vision'', s'illustre par deux projets. Le projet ROSA (Reconstruction d'Objets 3d par Stéréo-Acquisition), a pour approche de faire étroitement coopérer Analyse et Synthèse d'Images (segmentation contrainte par des considérations topologiques, analyse photométrique combinée avec un modèle géométrique de l'éclairement,...). Les objets à reconstruire étant supposés de type manufacturé, le sujet de thèse de D. Roussel porte sur les processus de ROSA qui aboutissent à la détermination des surfaces triparamétriques susceptibles d'approcher la forme de ces objets. L'encadrement de ces travaux fait l'objet d'une collaboration avec le Professeur J.- P. Cocquerez de l'ETIS-ENSEA (Cergy). Le deuxième projet de cet axe s'intéresse à une reconstruction polyédrique d'objets et plus particulièrement d'organes saisis par des coupes scanner. Outre le souci de faire cohabiter la description polyédrique de ces organes avec leur représentation en voxels, le sujet de thèse de O. Bedelet pose le problème de la cohérence topologique de la reconstruction entre coupes, ainsi que celui de la prise en compte des informations physiques et pathologiques.

La problématique représentation 3d développe deux projets en interne au LIMSI et un projet dans une équipe externe. En dehors de sa relation avec la Plate-forme Multimodale du département CHM, le projet MIX 3D (Multimodal Interaction in a X environment with a 3D virtual space) s'intéresse à la conception d'un modèle de données susceptible de conférer des comportements ``réactifs'' aux objets. L'objectif est de gérer en Temps Réel l'impact des modifications qu'apporte un utilisateur aux objets qu'il manipule, en prenant en compte les propriétés et contraintes géométriques que ledit utilisateur aura préalablement pu attribuer à ces objets. Pour étendre ces ``réactivités'' aux objets issus d'opérations topologiques sur des métriques Non Uniform B-Spline, P.- F. Clerc (DEA ``Algorithmique'' de Polytechnique) a étudié divers processus d'interpolation susceptibles de réduire le caractère ``anisotropique'' des critères de distance, dans l'évaluation des vecteurs nodaux nécessaires à l'édition de ce type de surfaces. Le second projet de cet axe porte sur le modeleur AOM (Active Output Modeleur). Au delà de la description hiérarchique de structures articulées, ce modeleur permet de gérer en Temps Réel les caractéristiques dynamiques et les propriétés physiques qui régissent le comportement de ces objets. Une première validation du modèle sous-jacent a été la réalisation d'une main virtuelle. Le dernier projet de cet axe est mené au sein de l'Ecole des Mines de Nantes, dans le contexte du détachement de P. Macé auprès du Professeur G. Hégron. GINA (Géométrie Interactive NAturelle) s'intéresse à reconstituer en trois dimensions des objets décrits à l'aide de croquis et de déclarations verbales de propriétés spatiales.

La problématique interaction 3d s'exprime en fait dans la plupart des projets du thème. De façon plus spécifique des travaux sont menés sur la gestion de scènes appliquée à des navigations virtuelles dans des installations industrielles. Ce sujet fait l'objet d'un contrat avec la DER de EDF dans le cadre duquel M. Krus prépare une thèse (bourse CIFRE). Par ailleurs, cet axe milite aussi pour le lancement d'une activité de recherche autour de la Réalité Virtuelle. Dès cette année nous allons nous doter d'un tel équipement pour lancer cette activité. Le montage financier de cette prochaine opération inclut pour l'heure, deux dotations du CNRS et, tout dernièrement, une subvention du Conseil Général de l'Essonne.

THEME 3: GESTE, MOUVEMENT ET ANIMATION

S. Gibet, A. Braffort, M.F. Castaing, F. Julliard, T. Lebourque, D. Teil

Ce thème s'articule autour de deux axes de recherche. Le premier porte sur la conception de modèles de contrôle du mouvement pour l'animation en temps réel de structures poly-articulées. Le second concerne l'analyse et la reconnaissance de gestes.

Dans le cadre du contrôle du mouvement pour l'animation de créatures articulées (projet SAGA), des modèles ont été mis en œoeuvre permettant de gérer différents niveaux de contrôle. Un modèle de base issu de la théorie du contrôle en automatique permet de résoudre directement et en temps réel le problème de la cinématique inverse. Ce modèle constitue le moteur de génération du mouvement. Il permet d'une part de produire des mouvements qui respectent les lois des mouvements biologiques, d'autre part il facilite l'interfaçage avec des valeurs clés définies sur la trajectoire du mouvement. Deux études sont en cours qui visent à développer des modèles de contrôle de ce moteur de génération.

La première étude concerne la génération de gestes intentionnels pour l'animation d'un système bras et mains articulés : les gestes sont spécifiés à partir de commandes gestuelles de haut niveau s'appuyant sur la description de gestes de la Langue des Signes et sur un modèle de discrétisation de l'espace autour du "signeur" (cf. page de présentation).

La seconde étude est dédiée à la spécification d'un modèle réactif de contrôle pour l'animation de personnages (cf. page de présentation).

La reconnaissance et l'interprétation des gestes de la main est tournée vers l'étude des gestes de la Langue des Signes Française (LSF) et des gestes co-verbaux. Le travail sur la LSF s'appuie sur l'analyse détaillée de corpus de signes, aussi bien du point de vue signal que du point de vue linguistique. Différents outils ont été conçus à cet effet (base de donnée, visualisation, analyse...). Le système à proprement parler, nommé ARGo, comporte deux modules : un module de classification dont l'architecture tient compte des caractéristiques du canal gestuel et un module de compréhension permettant de compléter l'interprétation d'une phrase en langue des signes. Les algorithmes de reconnaissance utilisés sont à base de modèles de Markov cachés (HMM). Le module de reconnaissance permet de classifier des phrases de gestes enchaînés. Le module de compréhension prend en compte le fonctionnement spatial de la langue des signes et est basé sur la définition de règles syntaxiques spatio-temporelles et sur la représentation du contexte spatial. Le prototype réalisé permet de reconnaître et d'interpréter un ensemble de phrases en LSF et d'en proposer une traduction en français écrit.

Les gestes co-verbaux sont ceux qui accompagnent la parole. L'étude de ces gestes se fait donc dans le cadre d'interactions multimodales. Le projet actuel concerne les gestes de désignation, captés à l'aide d'une caméra. Ici encore, deux modules sont mis en œoeuvre : un module de reconnaissance basé sur les HMMs, qui permet de différencier les gestes de désignation des autres gestes, et un module d'interprétation des informations spatiales, qui permet de déterminer les coordonnées de l'objet désigné. Ce travail fait partie d'un projet Européen ESPRIT Open LTR en collaboration avec le thème 1.

Un Workshop (GW99), conjointement organisé par le LIMSI et le LPM (Laboratoire de Physiologie du Mouvement), se tiendra au printemps 1999 à Orsay. Les thèmes de cette manifestation sont centrés sur le geste en interaction homme-machine.

THEME 4: COMMUNICATION MULTIMODALE

Y. Bellik, D. Teil, D. Béroule, S. Farhat J.C. Martin, F. Néel, C. Toffano-Nioche

Les activités de recherche de ce thème concernent l'étude, l'intégration et l'utilisation, dans les systèmes informatiques, des différents moyens d'interaction possibles non seulement entre un humain et un ordinateur mais également entre plusieurs humains par l'intermédiaire de systèmes répartis médiatisés. Les objectifs de cette problématique sont essentiellement orientés vers l'étude des modèles interactifs induits par les nouveaux moyens d'interactions actuellement proposés sur le marché ou en cours de développement dans les laboratoires de recherche. Dans ce contexte, nous étudions plus particulièrement l'intégration des systèmes de traitement de la parole, des systèmes interactifs gestuels comme les écrans tactiles, des systèmes de capture de contexte (caméra, micro) et des dispositifs de communication spécifique dans le cadre du handicap visuel (terminaux Braille).

Dans ce thème, les aspects de recherche fondamentale sont centrés autour de la multimodalité et des méthodes spécifiques nécessaires à sa mise en oeuvre. Dans tous les cas, ces études sont confrontées à des domaines d'application concrets. La modélisation des interfaces multimodales est abordée selon deux approches différentes qui apportent chacune leurs spécificité selon les applications envisagées.

Le premier noyau multimodal et les outils de développement associés, SPECIMEN, sert de base conceptuelle pour toutes les études liées à l'aide au handicap visuel et à la conduite de processus en général. Dans le cadre d'une bourse post-doctorale et d'un contrat avec la société TechniBraille, nous avons commencé une étude sur l'accès à Internet et notamment au WEB par des utilisateurs aveugles. Ceci permet de traiter de manière concrète les problèmes de la transmodalité (conversion de la modalité visuelle vers la modalité sonore ou tactile). Dans le domaine de la communication Homme-Homme médiatisée par la machine, une action de recherche dans le domaine du télédiagnostic médical est en phase de démarrage en collaboration avec le laboratoire CREATIS de Lyon. Par ailleurs, l'étude de l'application des interfaces multimodales pour la résolution de problèmes de coupe industrielle se poursuit. Cette étude entre dans le cadre d'un réseau Formation- Recherche France-Tunisie en collaboration avec l'Institut Régional des Sciences Informatiques et des Télécommunications (IRSIT) de Tunis.

La seconde approche, baptisée TYCOON, propose un cadre théorique basé sur la notion de types de coopération entre modalités (équivalence, spécialisation, transfert, complémentarité, redondance, concurrence). Un langage de spécification et un module multimodal ont été appliqués à l'interaction avec une carte géographique. Cette approche est actuellement développée dans le cadre de deux coopérations. La première fait partie du projet européen Magic Lounge ESPRIT-LTR Programme I3 (Intelligent Information Interfaces). TYCOON est appliqué d'une part, pour permettre à des utilisateurs de combiner reconnaissance vocale et gestes afin d'accéder à des informations sur Internet, et d'autre part, pour étudier comment intégrer de manière transparente les médias de la communication homme- homme (audio et vidéoconférence, messages textuels) et les médias de la communication homme- machine (parole, geste). La deuxième coopération se fait avec l'Institut de Recherche de Standford (SRI International) où TYCOON est utilisé pour analyser le comportement multimodal de sujets lors d'expériences de type Magicien d'Oz.

Les recherches fondamentales sur la communication multimodale trouvent une application directe dans les projets de la plate-forme communication multimodale du Département, et dans ce cadre, nous faisons partie du réseau d'Excellence I3net du Programme ESPRIT-LTR I3 et dans l'un des projets de ce réseau Magic Lounge, ainsi que précisé ci-dessus. Nous avons également entrepris, en collaboration avec PSA, une étude sur l'état de l'art de l'usage de diverses modalités dans l'activité de conduite, et participons au projet GIS Sciences de la Cognition sur les systèmes de dialogue pour l'aide à la navigation automobile. Ces projets sont menés en commun avec les groupes Langage et Cognition et Cognition Humaine.

RELATIONS EXTÉRIEURES

ENSEIGNEMENT ET DIFFUSION DES CONNAISSANCES

Activités ou responsabilités d'enseignement liées à la recherche

RELATIONS NATIONALES

Relations scientifiques et industrielles

Participation à l'organisation de manifestations scientifiques

Collaborations scientifiques au niveau national

RELATIONS INTERNATIONALES

Relations scientifiques et industrielles

Conventions de recherche et contrats :


Dpt CHM

+ Sommaire

Présentation

visiteurs.