GROUPE INTERACTION ET MULTI-MODALITÉS

_____________________

D. Teil

Exemples d'Activités de Recherche du groupe

INTRODUCTION

Les activités de recherche du groupe Interaction et Multi-Modalités sont orientées vers l'étude des modalités de communication non verbales mises en oeuvre par un ou plusieurs utilisateurs humains pour dialoguer avec une machine ou plusieurs reliées en réseaux, capables de recevoir et de produire des informations de différentes sources sensorielles (gestes, images, sons, etc.). Les aspects fondamentaux des recherches concernent plus spécialement ceux relatifs à la communication visuelle (vision par capteurs et visualisation d'images), à la communication gestuelle (gestes de la main et du bras principalement) et à la communication multimodale. Les aspects plus appliqués se retrouvent dans la réalisation d'outils pour la conception des interfaces multimodales à travers des applications tests qui sont transférées en tout ou partie sur la plate-forme multimodale du département Communication Homme-Machine.

Les différents travaux de recherche sont répartis selon deux axes. Le premier axe, animé par A. Osorio, est intitulé <<Représentations virtuelles de l'espace>>. Il regroupe toutes les activités concernant <<l'image>> au sens large du terme et couvre les trois premiers thèmes de recherche. En effet, les travaux de cet axe concernent les problèmes de vision par machine, les problèmes de modélisation et de représentation graphique, ainsi que l'étude de la coopération entre l'analyse et la synthèse d'images.

Le deuxième axe, animé par D. Teil, est intitulé <<Nouvelles interfaces>>. Les thèmes abordés regroupent à la fois les recherches sur les modalités de communication gestuelle, l'analyse de l'environnement sonore, la modélisation des interfaces multimodales, et l'ergonomie des interfaces.

Les recherches commencées les années précédentes se poursuivent dans la continuité des différents thèmes. L'année 1996 a cependant été marquée par un ralentissement sensible au sein du LIMSI, de l'activité relative au thème 2, liée à la situation des chercheurs travaillant dans ce thème.

Parmi les principaux faits marquants de 1996, il faut signaler le recrutement de Yacine Bellik, qui a soutenu sa thèse de doctorat en mai 1995, comme ma^tre de conférence à Orsay. Il poursuit ses recherches sur les interfaces multimodales et leurs applications dans les systèmes interactifs. A signaler également la soutenance de trois thèses dans le groupe, une portant sur la reconnaissance et la compréhension de la Langue des Sourds Française ( A. Braffort), une sur l'utilisation des Réseaux à Propagation Guidée (RPG) pour la reconnaissance de la parole en milieux bruyant ( A. Lainé) et la troisième portant sur la conception de l'unité de contrôle inspirée de la neuromodulation pour les RPG en vue de leur utilisation dans des processus d'apprentissage ( C. Toffano-Nioche).

THEME 1 : VISION PAR MACHINE

R. Gherbi, C. Collet, C. Ménigault, A. Osorio, G. Quénot, J. Rivaillier, D. Roussel, H. Ruellan

La vision par machine est étudiée selon deux aspects. D'une part, en tant que mode de communication, et d'autre part, elle constitue un outil d'aide à l'utilisateur pour réaliser une tâche particulière. Nous visons généralement des applications de communication homme-machine, avec comme objectif l'étude de l'interaction visuelle.

L'aspect mode de communication se traduit par l'étude de la capture du contexte visuel dans une interface homme-machine. En particulier, il s'agit d'exploiter la modalité visuelle pour capter des informations sur le contexte de l'interaction. Le projet CapRe illustre cette prise en compte visuelle (cf. page de présentation <<CapRe>>). Par ailleurs, nous lançons un projet sur la capture et la reconnaissance de gestes par caméra en utilisant les modèles de Markov cachés. Ce projet se fait en collaboration avec le thème 4 (Analyse et Génération de Gestes).

L'aspect outil d'aide est traité selon deux approches : reconstruction et reconnaissance. Au niveau de la reconstruction, une première démarche vise à donner une capacité de perception aux systèmes de CAO. Cette démarche se concrétise par la réalisation d'outils d'acquisition d'objets réels pour le projet ROSA (Reconstruction d'Objets 3d par Stéréo- Acquisition) en collaboration avec le thème 3. Une seconde démarche, pouvant être utilisée en reconstruction, vise à déterminer la carte de profondeur d'une scène réelle avec une approche basée sur la programmation dynamique (cf. page de présentation <<vélocimétrie par image de particules>>). Au niveau de la reconnaissance, les travaux concernent essentiellement la modélisation de la lecture étudiée par des méthodes connexionnistes et plusieurs logiciels d'édition et de reconnaissance sont développés, concrétisant ainsi les études sur la conception d'écritures codées bidimensionnelles.

THEME 2: MODÉLISATION 3D, INFOGRAPHIE

P. Macé, G.P. Bonneau, S.A. Thobie, L.P. Untersteller

En 1996 l'activité s'est recentrée autour du projet Gina (modélisation Géométrique Interactive NAturelle), développé en collaboration avec l'Ecole des Mines de Nantes et l'Ecole d'Architecture de Paris la Villette. Le projet se propose de réaliser une modélisation 3D à partir de dessins et de <<déclarations>> exprimant les propriétés utiles.

Une première étude ( L. Quistrebert de l'EMN et P.Macé) a porté sur la reconstitution à partir de deux dessins en perspective. L'objectif était de tester les outils utilisés en photogrammétrie et en stéréovision. La caméra n'étant que virtuelle et le dessin très imprécis, c'est la méthode de Mohr-Quan-Veillon, qui a été choisie (autocalibration à partir de toute la scène) et testée avec des points saisis sur deux images de synthèse. La maquette est reconstituée à une colinéation près. La prochaine étape prévoit la levée de l'incertitude par des déclarations de propriétés architecturales connues ( P.Macé et L.P. Untersteller, application au relevé d'architecte).

La deuxième étude porte sur la reconstitution à partir d'un seul dessin. Un module permettant l'interprétation des déclarations exprimées avec une syntaxe proche du langage naturel, est en cours de réalisation à l'Irin ( B. Daille, C. Jacquin, J.F. Hue, M. Leclere de l'équipe Langage Naturel). Dans un premier temps, les relations d'incidence dans l'espace projectif sont traduites au moyen d'opérateurs de Cayley entre des tenseurs ( P.Macé). La simplicité et la généralité de ce formalisme permet une programmation rapide du calcul numérique, mais surtout d'inférer facilement de nouvelles propriétés ou de générer un plan de résolution. Un langage de modélisation par contraintes, reposant sur ce principe et appliqué à des polyèdres, est en cours d'implémentation ( O. Lhomme et P. Kuzo de l'EMN, et P.Macé).

Le travail de G.-P. Bonneau sur le développement des fractions rationnelles en éléments simples qui a conduit à la définition d'une nouvelle paramétrisation des courbes et surfaces rationnelles très bien adaptée à l'évaluation des dérivées et intégrales se poursuit depuis avril 96 au Laboratoire de Modélisation et de Calcul à Grenoble.

L'étude concernant l'animation de présentations graphiques ( S.A. Thobie) et portant sur l'interpolation entre deux images-clefs acquises depuis la projection d'images de synthèses en trois dimensions se poursuit.

THEME 3: COOPÉRATION ANALYSE / SYNTHÈSE D'IMAGES

P. Bourdot, R. Gherbi, M. Krus, A. Osorio, D. Roussel, C. Thabet

Ce thème de recherche s'intéresse aux interactions possibles des techniques d'analyse d'images et de tracés avec les méthodes de modélisation 3d et de rendu réaliste. Actuellement, notre principale préoccupation est l'élaboration d'outils automatiques et de méthodes interactives pour la reconstruction d'objets virtuels 2d ou 3d. La première illustration de ce thème est le projet ROSA (Reconstruction d'Objets 3d par Stéréo-Acquisition). L'une des spécificités de ce projet est d'utiliser les contours discrets que des formes engendrent en projection dans des paires d'images pour réaliser une reconstruction des objets à base de surfaces non polyédriques. Pour déterminer les plans tangents des surfaces à reconstruire en appui sur les courbes Spline modélisées à partir des contours appariés, nous expérimentons actuellement une méthode qui allie une analyse photométrique avec le modèle d'éclairement diffus de la synthèse d'image. Une comparaison entre la photométrie observée et celle synthétisée sur les bords des carreaux de la surface reconstruite nous permet de décider ensuite des lieux où la dite surface doit être raffinée. L'exposé détaillé de notre démarche a été publié dans la Revue Internationale de CFAO et d'Informatique Graphique (Vol 11, n1 et 2, Hermès 96). La validation de cette approche fait l'objet de la thèse de D. Roussel, encadré en collaboration avec J. P. Cocquerez (ETIS-ENSEA, Cergy-Pontoise). Une illustration plus récente de ce thème est le projet PADEM (Planche · Dessin Électronique Multimodale) qui vise à élaborer l'architecture logicielle d'une interface susceptible de se rapprocher de l'ergonomie des planches à dessin. Nous nous intéressons pour l'heure à l'analyse et la reconstruction géométrique de tracés 2d faits <<à main levée>> à l'aide d'un stylo sur un écran tactile. L'hypothèse de base de ce projet est que les ambigutés dues à la polysémie du dessin peuvent être avantageusement levées par la combinaison d'interactions graphiques et vocales. Dans cet esprit, une thèse a été lancée en collaboration avec C. Faure (ENST, Paris). A ce jour, C. Thabet n'a cependant étudié que le traitement <<hors contexte>> des tracés, c'est-à-dire un processus qui ne prend pas en compte les tracés déjà reconstruits. Pour alimenter ces recherches, notre équipe entretient de plus une activité régulière dans le domaine de la modélisation géométrique. C'est le cas avec MIX 3D (Multimodal Interactions in a X environment with a 3D virtual space), une application de la plate-forme multimodale du LIMSI-CNRS qui vise à expérimenter la validité ergonomique d'une coopération entre des interactions graphiques et verbales pour des tâches de conception d'objets 3d. Par ailleurs, dans le cadre d'une convention CIFRE avec EDF (Clamart), M. Krus vient de commencer une thèse sur la structuration des données numériques (issues de reconstructions 3d ou de saisies CAO) pour une navigation humaine interactive dans des installations industrielles virtuelles.

THEME 4: ANALYSE ET GÉNÉRATION DE GESTES

S. Gibet, A. Braffort, T. Lebourque,

Le geste est étudié, aussi bien en analyse qu'en synthèse, avec deux objectifs principaux : la reconnaissance de gestes et la synthèse de gestes appliquée à l'animation. L'analyse de signaux gestuels issus de données réelles est préalable à ces deux objectifs.

Le développement d'un corpus de gestes du bras et de la main a été amorcé en collaboration avec le Laboratoire de Physiologie du Mouvement (J. Richardson) dans le cadre des projets soutenus par le pôle informatique de l'université Paris-Sud (S. Gibet, F. Forest, T. Lebourque, A. Braffort). Après une étude préliminaire, nous nous sommes focalisés sur des gestes de pointage, considérés comme des éléments de base de la communication gestuelle. Les principaux critères ainsi que la structure de ce corpus ont été définis pour des mouvements de pointage exécutés dans différentes directions, hauteurs et amplitudes. Une extension de ce corpus concernera des primitives de mouvement utilisées dans les gestes de la Langue des Signes. Les données gestuelles sont enregistrées au moyen d'un système optoélectronique (SELSPOT) constitué de deux caméras infrarouges et de diodes actives placées en différents points du corps humain. Ce système permet la description de trajectoires du mouvement dans l'espace cartésien tri-dimensionnel.

En ce qui concerne la génération de gestes, nous nous intéressons actuellement à des modèles de contrôle du mouvement couplés à un modèle biomécanique de génération du mouvement. Ces modèles sont exploités pour l'animation de corps polyarticulés dans le cadre du projet SAGA (<<Synthèse et Analyse de Gestes pour l'Animation>>). Deux sortes d'animation sont envisagées : la première concerne la génération de mouvements du bras et de la main avec comme champ d'application la Langue des Signes. T. Lebourque (troisième année de thèse) développe un langage de contrôle qui s'inspire des systèmes de codage de la LSF. La seconde approche consiste à utiliser un langage réactif parallèle pour le contrôle du mouvement de personnages articulés. Des mouvements automatisés, tels que la marche ou la course sont modélisés (stage de DEA : F. Julliard), mais également d'autres mouvements tels que des sauts, des figures de gymnastique, etc.

La reconnaissance des gestes de la main est tournée principalement vers l'étude des gestes de la Langue des Signes Française (LSF). Ces travaux ont abouti à la réalisation d'un système complet de reconnaissance et d'interprétation présenté à la soutenance de la thèse de A. Braffort en juin 1996 et lui ont valu les félicitations du jury (cf. page de présentation <<ARGo : un système de reconnaissance et de compréhension de phrases de la Langue des Signes Française>>).

THEME 5: COMMUNICATION MULTIMODALE

D. Teil, Y. Bellik, J.C. Martin, F. Néel, C. Toffano-Nioche

Les problèmes fondamentaux abordés dans ce thème sont liés d'une part, à l'étude et à la réalisation de systèmes informatiques intégrant des dispositifs d'interaction non conventionnels (écrans tactiles, systèmes de reconnaissance/synthèse de parole, de reconnaissance de gestes, systèmes de vision, etc.), et d'autre part à la conception d'interfaces Homme-Machine dites <<intelligentes>> capables de gérer dynamiquement les processus d'interaction.

Une première approche de la modélisation des interactions multimodales est fondée sur une extension des modèles de transitions augmentés (ATN) et dans ce contexte un système d'aide à la conception d'interfaces multimodales, <<SPECIMEN>>, a été réalisé. Les applications visées relèvent plus spécifiquement de l'aide au handicap visuel avec l'étude et la réalisation d'interfaces plus adaptées. Dans ce cadre, en collaboration avec l'Institut National de Jeunes Aveugles (INJA), une étude sur l'accès à Internet et notamment au WEB par des utilisateurs aveugles est en cours. Par ailleurs, une étude de l'application des interfaces multimodales pour la résolution de problèmes de coupe industrielle est menée. Elle entre dans le cadre d'un réseau Formation-Recherche France-Tunisie en collaboration avec l'Institut Régional des Sciences Informatiques et des Télécommunications (IRSIT) de Tunis.

Une seconde approche, baptisée <<TYCOON>>, propose un cadre théorique, un langage de spécification des interactions et un noyau multimodal. Le langage de spécification de TYCOON est un langage de commande permettant de décrire sous forme déclarative les combinaisons de base utilisées dans une interface et plusieurs critères de fusion : concidence et séquence temporelle, complétude structurelle. Le noyau multimodal utilise des Réseaux à Propagation Guidée. TYCOON a été porté sur la plate-forme Multimodale du LIMSI pour le développement d'applications d'aide à la navigation notamment.

Un autre projet mené dans ce thème concerne la conception de l'Unité de Contrôle (UC) d'une architecture parallèle multimodale à détection de concidence (Réseau à Propagation Guidée). Ce travail qui a abouti à la soutenance d'une thèse en décembre 1996 (C. Toffano-Nioche) sera exploité ultérieurement pour contrôler les inférences dans un système de questions/réponses, ainsi que pour gérer l'apprentissage dynamique de formes.

Les recherches fondamentales sur les systèmes multimodaux trouvent une application dans les projets de la Plate-Forme Multimodale du LIMSI, et dans ce cadre, nous sommes impliqués dans le réseau I3NET, en collaboration avec les groupes Langage et Cognition et Cognition Humaine, dans le projet <<Magic Lounge>> du programme ESPRIT I3. Nous avons également des contacts avec PSA et un contrat GIS (Sciences de la Cognition) qui devrait se mettre en place cette année.

THEME 6: ANALYSE DE SCÈNES AUDITIVES

D. Béroule, A. Lainé

Dans le cadre de ce thème, nous nous sommes intéressés plus spécifiquement à la reconnaissance de parole participant à une scène auditive qui comporte des signaux complexes et imprévisibles.

Alors que les approches habituelles d'Analyse de Scènes Auditives (A.S.A.) exploitent uniquement des techniques de traitement du signal (détection de voisement, décorrélation de sources) pour mettre en avant le signal utile, notre démarche consiste plutôt à extraire de la scène auditive des événements discrets qui cohabitent sans interférer dans l'espace spectral et à créer par apprentissage une référence pour chaque configuration d'événements, pour enfin identifier en parallèle les signaux utiles de la scène auditive.

Cette stratégie <<descendante>> ayant déjà été appliquée à un vocabulaire réduit de mots isolés, les travaux réalisés cette année ont concerné la reconnaissance de parole continue et ont donné lieu à la soutenance de thèse de A. Lainé en décembre 1996.

Dominique Béroule est invité en tant que chercheur à l'Université de Sydney (Australie) pour l'année 1997.

THEME 7: ERGONOMIE

M.F. Castaing

Depuis plusieurs années, M.F. Castaing a orienté ses recherches dans le domaine de l'ergonomie des interfaces homme-machine, sur le développement de dialogues iconiques. Depuis 1996, ses sujets d'intérêt se rapprochent des utilisateurs de type <<grand public>>. En effet, les concepteurs proposent des réalisations en évolution constante et ce phénomène fait appara^tre des utilisateurs dont le niveau est lui aussi en constante évolution. A technologies nouvelles, nouveaux utilisateurs. Or, pour permettre l'interaction rapide avec les systèmes, les interfaces doivent rassurer l'utilisateur sur son niveau de compréhension du/et par le système. M.F. Castaing, s'est donné comme domaine technologique actuel, les bornes interactives. Elle a mis en place des collaborations avec des collèges du Val Fourré de la ZEP de Mantes la Jolie, dans la région parisienne, et des collèges de la région du Québec au Canada. Le but de ces collaborations est de recueillir des bases de données d'objets urbains, perçus par des adolescents comme repères géographiques typiques de leur espace socioculturel. L'hypothèse formulée est que des traits spécifiques communs permettent de reconna^tre la catégorie d'un objet urbain. Une partie de l'analyse des données devrait permettre de mettre au point des icones représentatives de la communauté des connaissances des deux populations étudiées. La validation des icones sera une étape supplémentaire de cette étude.

Dpt CHM

+ Sommaire

Présentation

visiteurs.