GESTE et IMAGE

Patrick Bourdot

Exemples d'Activités de Recherche du groupe

Dans le contexte général de la Communication Homme-Machine (CHM), les recherches du groupe "Geste et Image" (G&I) concernent aussi bien la modélisation et les traitements requis pour gérer des interactions 3d, que l'étude de domaines d'application fondés sur des données spatiales et dynamiques. Ces problèmes nécessitent des compétences en modélisation géométrique, en traitement d'image, en reconnaissance de formes, en représentation des connaissances, en interface homme-machine et en architectures logicielles. Au demeurant, l'activité du groupe G&I est plus interdisciplinaire que pluridisciplinaire. Notre problématique scientifique vise en effet à faire coopérer plusieurs disciplines autour d'un même objet de recherche, à savoir : la modélisation et le traitement de données spatiales et dynamiques.

Quelle soit immersive ou non, l'interaction 3d n'est pas seulement une affaire de périphériques sensori-moteurs. Notre approche est de considérer que des avancées significatives dans l'ergonomie de ce type d'interaction passent par la mise en chantier d'un ensemble de travaux qui couvrent justement les six domaines de compétence évoqués ci-dessus.
Le premier volet du problème consiste à mettre au point des systèmes qui utilisent des périphériques aux technologies moins intrusives. Nous entendons par là que la plupart des systèmes électromagnétiques ou à base d'ultrasons relient par des câbles la machine aux utilisateurs traqués. C'est pourquoi des travaux sont menés au sein du groupe G&I, sur la capture et le suivi de mouvements et de gestes par caméras et ce, aussi bien dans le spectre visible que par infrarouge. En vision infrarouge, l'objectif est une capture et un suivi 3d temps réel de marqueurs. Dans le spectre visible, l'ambition est de traiter en totalité le signal image, pour mener des processus complets de reconnaissance des mouvements et des gestes.
Le second volet concerne donc le traitement des mouvements et des gestes. Cela vise en premier lieu la conception de systèmes de reconnaissance des gestes en LSF (Langue des Signes Française). Néanmoins, l'étude de la LSF fait aussi partie d'un schéma méthodologique. L'un de nos objectifs est d'analyser la structure iconique de certains gestes de la LSF, pour tenir compte de cette structure dans la conception de métaphores ou de paradigmes nouveaux pour l'interaction 3d.
Le dernier volet dépasse le seul traitement des mouvements et des gestes. En lieu et place des approches à base de ``widget 3d'', notre démarche vise fondamentalement à permettre la combinaison de plusieurs modalités sensori-motrices, pour certaines associées à des processus de reconnaissance. Pour ce faire, nous coopérons avec les autres groupes du département CHM sur les aspects relatifs à l'interaction multimodale, à la reconnaissance de la parole, au traitement de données textuelles, à l'ergonomie cognitive ou aux pratiques collectives. Cependant, pour garantir le traitement temps réel d'une telle approche de l'interaction 3d, le groupe G&I travaille en particulier à la conception et au développement d'une architecture distribuée dédiée aux applications de Réalité Virtuelle et Augmentée (RV&A). Notons aussi que d'autres travaux sont menés en architectures logicielles pour la mise en oeuvre d'outils génériques de reconnaissance de données spatio-temporelles (geste, mouvement, mais aussi séquences génomiques).

Par ailleurs, le réalisme que vise l'interaction 3d rend primordiale la gestion des scènes qui lui servent de contexte. Par exemple, la complexité d'un système de reconnaissance de gestes d'interaction 3d (désignation, sélection, saisie, déplacement ou lâché d'objets) n'est pas en soi le nombre de gestes à reconnaître, mais réside plutôt dans la variabilité de ces gestes qui dépend du contexte de l'interaction (cf. taille et distance aux objets, densité de la scène...). D'un autre côté, l'une des caractéristiques de la LSF est certes d'être une langue, mais est aussi le fait que le signeur commence souvent par mettre en situation le contexte de son discours. Cette mise en situation est symbolique et spatiale. Il paraît donc intéressant d'étudier comment ce contexte spatial intervient syntaxiquement et sémantiquement dans les expressions de la LSF. Sur le plan méthodologique, notre objectif est cette fois d'utiliser ce genre de structure de langage dans la conception des systèmes de reconnaissance de gestes d'interaction 3d.

Au demeurant, la gestion des données spatiales et dynamiques est requise pour beaucoup d'autres aspects de l'interaction 3d. Dans les applications de RV&A, il importe en particulier que la perception du relief soit cohérente avec le monde réel. En amont des considérations physiologiques, cognitives voire sociologiques relatives à la perception d'un monde artificiel, nous sommes en présence d'un problème optico-géométrique, qui non seulement suppose souvent des traitements spécifiques du fait de la diversité des systèmes immersifs, mais qu'il convient de parfaitement maîtriser dès lors que l'on cherche à concevoir des métaphores ou paradigmes nouveaux. D'un tout autre point de vue, le réalisme de l'interaction suppose par exemple une réactivité des objets et de la scène virtuelle ou augmentée. Doter les objets virtuels de comportements réactifs est un passage obligé si l'on veut utiliser les systèmes immersifs comme support à des simulations 3d. Outre cet objectif ambitieux, la réactivité des objets est utile pour améliorer les temps de réponse des systèmes immersifs (cf. gestion adaptative des détails des objets) ou pour contraindre les interactions (paramétrage des navigations virtuelles, interaction des objets avec les périphériques haptiques...). Cependant, cette gestion se heurte à la complexité des données à traiter, complexité dont la nature varie selon les domaines d'application. Par exemple en CAO, la forte structuration des objets permet en partie de gérer la complexité des données. En revanche, dans les applications à caractère scientifique, la structuration des données est souvent de trop faible granularité pour servir de support à leur gestion interactive.

Du point de vue des applications, la conception de techniques avancées pour l'interaction 3d vise à mettre au point de nouveaux outils pour l'étude de données spatiales et dynamiques.
Par exemple, le succès que rencontre l'application ADN-Viewer auprès des biologistes vient en partie du fait que l'ergonomie de l'interaction 3d qui est proposée permet de repérer des propriétés potentielles et caractéristiques spatiales (voire dynamiques) sur les données complexes du domaine. Réduire la charge cognitive des explorations de ces données facilite la sélection d'objets d'études scientifiques, voire la détection de sous-problèmes (cf. bio-informatique, mécanique des fluides). D'un autre côté, la modélisation des données 3d d'un domaine rend aussi possible leur traitement vis-à-vis des propriétés et caractéristiques préalablement repérées. Les analyses qui peuvent être faites sur ces traitements passent bien entendu par des coopérations avec les experts des domaines concernés (cf. département "Mécanique-Energétique", équipes de l'IGM et de l'IBP de l'Université Paris Sud...). Finalement, la visualisation immersive permet de confronter les résultats de ces analyses par rapport aux données, de sorte à itérer le processus expérimental qui vient d'être décrit.
La conception d'outils informatiques susceptibles de gérer un tel processus permet de combiner des analyses qualitatives et quantitatives de phénomènes spatiaux ou dynamiques, combinaison qui semble utile au progrès de plusieurs disciplines scientifiques.

Dans le contexte de cette problématique, les activités de recherche du groupe G&I sont donc structurées en deux thèmes :

- Réalité Virtuelle et Augmentée ;

- Analyse et Traitement du Geste et de l'Image.

Au-delà de la transversalité entre ces deux thèmes de plusieurs de nos travaux, l'activité du premier thème a principalement porté sur le traitement de la stéréoscopie, la modélisation et la gestion de niveaux de détails pour l'ADN, la gestion de périphériques et de systèmes de reconnaissance (parole et geste) pour l'interaction immersive, la conception de métaphores pour les navigations virtuelles et les architectures logicielles distribuées pour les systèmes de RV&A. De son côté, l'activité du second thème s'est plus particulièrement concentrée sur la capture et le suivi 3d de mouvements et de gestes, la détection 3d de composants du visage, l'interprétation et la modélisation sémantique des gestes de LSF et de RV&A et la caractérisation spatiale des éléments génomiques.
Pour valider ces différents travaux de recherche, le groupe G&I développe pour l'heure deux types d'applications : d'une part, des applications de visualisation scientifique (écoulement en mécanique des fluides, génome), d'autre part, des applications relatives à l'étude des gestes en Communication Homme-Machine (LSF, capture du regard, handicap moteur).
Outre les coopérations externes au laboratoire développées au cours de cette année (projet BioInfo CNRS-INRA-INRIA, projet "Informatique et Génomique" du PPF 2002-2006 de l'UPS, projet LS-COLIN du programme "Cognitique", projet ARC-LSF avec l'INRIA, projet BQR-GeHMo de l'UPS, projet SESAME 99 contractualisé sur 2000 à 2004, plate-forme PERF-RV du RNTL au renouvellement accepté pour 2002 et 2003), le groupe G&I participe à plusieurs actions transversales au sein du LIMSI-CNRS. Dans le cadre de ses travaux sur l'analyse et le traitement du geste, le groupe G&I est impliqué dans l'action transversale "indexation multimédia" nouvellement créée au sein du département CHM. De son côté, le thème "Réalité Virtuelle et Augmentée" et ses applications en visualisation scientifique ont un rôle moteur dans l'action VENISE (Virtualité et ENvironnement Immersif pour les Sciences Expérimentales), lancée en janvier 2001 transversalement à l'ensemble du laboratoire.

En conclusion, les points de convergence entre les deux thèmes de recherche du groupe G&I sont multiples. Ils concernent principalement aujourd'hui : la bio-informatique du génome, la capture de mouvements et la reconnaissance de gestes pour la RV&A. Tout en contribuant fondamentalement à la réussite de l'action VENISE, la cohésion du groupe G&I va pouvoir se renforcer à moyen terme sur la reconnaissance de gestes synchrones et asynchrones (interaction à deux mains), la conception de métaphores gestuelles pour les interactions immersives, la capture et le suivi 3d non intrusif par caméras (dans le domaine visible ou infrarouge). Pour parfaire le spectre scientifique du groupe G&I, nous souhaitons très vivement recruter un jeune chercheur dans le domaine des interactions haptiques. A plus long terme, nos souhaitons pouvoir réactiver des travaux en reconstruction 3d pour le développement de nos activités en Réalité Augmentée. Cependant, d'autres perspectives scientifiques sont aussi possibles pour le groupe G&>I telles que : l'étude sur la substitution des interactions haptiques par des retours visuels ou audio (en coopération avec les groupes AMI et PS), la gestion de comportements réactifs sur les objets virtuels pour des interactions immersives en CAO, la conception d'outils d'analyse qualitative par confrontation d'informations réelles et virtuelles pour la validation de modèles 3d en bio-informatique ou en mécanique des fluides.

THEME 1 : RÉALITÉ VIRTUELLE ET AUGMENTÉE
P. Bourdot, L. Bolot, B. Bossard, R. Gherbi, J. Hérisson, O. Magneau, D. Touraine

Ce thème de recherche se développe actuellement suivant deux axes méthodologiques complémentaires :

- le premier vise la conception d'outils génériques, par exemple en termes d'architecture logicielle pour la RV&A, de paradigmes d'interaction pour les situations immersives ou d'étude de nouveaux types de capteurs ;

- le second axe, fondé sur le développement d'applications stéréoscopiques voire immersives, sert d'une part à la validation des approches conceptuelles évoquées ci-dessus et alimente, d'autre part, notre thème en nouvelles problématiques de recherche.

Un premier volet des activités de recherche de ce thème porte sur la mise au point de la plate-forme EVI3d (Environnement Virtuel et Interaction 3d). Il s'agit d'un ensemble logiciel polyvalent qui vise, d'une part à servir de support au développement d'applications de RV&A, d'autre part à permettre la conception et l'évaluation de métaphores et paradigmes immersifs.
Cet environnement logiciel propose tout d'abord une architecture distribuée destinée à répartir sur différents calculateurs les traitements utiles à une gestion temps réel des interactions immersives (voir présentation détaillée ci-après). Un élément de cette architecture est l'EVserveur qui permet, dans le contexte d'une distribution des ressources calculatoires, la mise en oeuvre d'une approche Client - Serveur pour la gestion événementielle des interactions immersives. A ce jour, outre les interactions clavier et souris standard, nous gérons grâce à cette architecture des interactions multi-sensorielles à base de reconnaissance de la parole et de gestes, ainsi que le traitement des mouvements de la tête. Notons que l'EVserveur est au centre de notre contribution dans la plate-forme PERF-RV du RNTL, où notre objectif est d'évaluer à grande échelle l'apport et la fiabilité de cet outil pour développer des interfaces multimodales en RV&A.

Le second objectif de la plate-forme EVI3d est d'offrir ou de pouvoir accueillir différentes bibliothèques utiles à la gestion des interactions 3d. Un certain nombre de ces bibliothèques tournent sous OpenGL, de sorte à pouvoir disposer, directement sous cette norme graphique, d'outils pour le développement d'application de RV&A. Ce besoin résulte de l'observation que les bibliothèques graphiques de plus haut niveau (par exemple, Performer) sont plus particulièrement adaptées à des bases de données structurées par des graphes de scènes, propriété que ne possèdent pas nos applications de visualisation scientifique. Nous avons donc conçu et poursuivons le développement d'une bibliothèque chargée de gérer les paramètres projectifs liés à la stéréoscopie dans divers types de dispositifs visuels (contrôle de la disparité oculaire, de l'émergence ou de la profondeur du relief, traitement différencié des objets et des images selon la nature de la séparation stéréoscopique). Toujours sous OpenGL, une autre bibliothèque a aussi été développée pour gérer des feedbacks visuels utiles aux interactions gestuelles sur des dispositifs de RV&A : avatar de mains, rayon de pointage (cf. laser bean)... Parallèlement, en collaboration avec A. Braffort, un module spécifique a été élaboré par B. Bossard pour la reconnaissance de gestes isolés de la main (désignation, sélection, saisie, déplacement, lâché). Celui-ci poursuit maintenant en thèse au sein du groupe G&I sur la reconnaissance des gestes à deux mains (voir Thème 2). Enfin, une de ces bibliothèques est celle du système HCnav, un paradigme interactif que nous avons élaboré sur la base d'une métaphore de véhicule qui permet de libérer les mains de l'utilisateur de toute tâche de contrôle des navigations virtuelles (voir présentation détaillée).
L'élaboration de la plate-forme EVI3d constitue une partie des travaux de thèse que mène D. Touraine. Plusieurs modules ont été conçus et validés au cours du développement l'application Mécanique des fluides, la première application de Réalité Virtuelle créée au sein laboratoire. Conçue et développée par le groupe G&I, cette application permet d'explorer des modèles numériques d'écoulements, en l'occurrence ceux fournis par C. Tenaud du groupe "Dynamique des Fluides et Turbulence" du département "Mécanique-Energétique". De son côté, le démonstrateur Nautilus de la plate-forme EVI3d, dont est chargée L. Bolot, va servir prochainement comme programme exemple pour aider au développement des applications liées aux quatre axes de recherche de l'action transversale VENISE.

En coopération avec le Thème 2 du groupe, un autre volet de nos activités porte sur la capture et le suivi 3d pour l'interaction immersive. Ce type de périphérique de RV&A est généralement lourd et intrusif (capteurs électro-magnétiques, systèmes ultrason ou à base de centrales inertielles...) et la liberté de mouvement de l'utilisateur est souvent contrainte par le "cordon ombilical" qui le relie à la machine. Or, pour l'interaction immersive, il est primordial de connaître en temps réel la position et l'orientation de la tête et des membres de l'utilisateur. Dans le cadre de son stage de DEA, O. Magneau avait étudié l'exploitation de techniques de traitement d'images sur les signaux issus d'un dispositif de vision 3d (TriclopsTM). Il poursuit actuellement sa thèse sur l'investigation de cette problématique dans le contexte d'une technologie infrarouge, avec le souci d'obtenir le meilleur rapport : précision de mesure / temps de calcul (voir présentation détaillée).

L'autre application phare de ce thème est ADN-Viewer. Il s'agit d'un outil logiciel interactif de modélisation et de visualisation stéréoscopique destiné principalement à l'analyse systématique de la conformation spatiale de séquences génomiques. Il permet ainsi une représentation et une exploration virtuelles que la double hélice prendrait en dehors de toute interaction avec d'autres macro-molécules. Suivant le niveau de définition choisi, la représentation peut ne concerner que de courtes séquences nucléotidiques ou, au contraire, permettre d'obtenir des informations pertinentes sur des régions entières du génome, voire sur des génomes entiers (voir page de présentation). Cette année, un travail important a été entrepris qui vise la modélisation et la représentation spatiales du contenu "sémantique" des séquences (DEA et Thèse de J. Hérisson), en liaison avec les annotations correspondantes issues des banques de donnés génomiques. De plus, nous avons commencé l'étude des interactions spatiales entre éléments biologiques dans le but de dégager une catégorisation en terme de groupements de gènes. Par ailleurs, les aspects de confrontation de ces données factuelles avec des données textuelles (bibliographiques) sont étudiés dans le cadre de l'action transversale VENISE. A moyen et long termes, plusieurs travaux sont en cours de mise en place pour l'étude des interactions ADN-Protéines en vue de procéder à des simulations mettant en jeu des séquences d'acides nucléiques et des protéines (projet PPF Bio-Informatique), pour la validation et l'affinement du modèle de conformation 3d de l'ADN (Thèse de J. Hérisson), ainsi que pour la gestion de ces scènes.

Le volume et la complexité des données à gérer dans nos applications scientifiques nous amène à engager de nouveaux travaux de recherche dans le domaine de la gestion de scènes.
Sans se soucier de la profondeur des objets dans la scène, un changement de niveau de détails est appliqué globalement aux iso-surfaces de l'application Mécanique des fluides dès lors qu'une navigation virtuelle est lancée. Il en résulte dans ce cas une dénaturation du phénomène observé qui rend difficile son exploration à des fins d'analyse scientifique. Des travaux vont donc être lancés pour disposer d'une gestion dynamique des détails sur de telles iso-surfaces.
D'un autre côté, l'une des approches utilisées dans ADN-Viewer, pour la gestion des niveaux de détails, est de réduire le nombre de nucléotides (A, C, G ou T) en fonction de la profondeur. Le problème majeur a été d'évaluer la limite critique au-delà de laquelle cette gestion des détails affectait la perception des caractéristiques géométriques du génôme, puisque justement c'est l'analyse de ces caractéristiques que vise cette application. Par ailleurs, l'interaction gestuelle avec cette scène pose de sérieux problèmes. Tant que l'exploration se fait à distance, cette interaction peut être assimilée à une préhension globale de la séquence d'ADN. Il n'en est plus de même quand, après une navigation virtuelle, l'interaction ne doit plus se faire que sur un segment de ladite séquence. Pour le réalisme de l'interaction, il convient de déterminer en temps réel sur des millions d'objets celui qui sert de référentiel à la transformation géométrique qu'induit ladite préhension. Dans ce contexte, nous réfléchissons actuellement à l'usage d'un partitionnement de l'espace pour optimiser les temps de réponse pour ce type d'interaction.

Enfin, dans le contexte du développement de l'application Mécanique des fluides et des collaborations en cours autour de l'application ADN-Viewer, le Conseil Régional d'Ile-de-France avait décidé en novembre 1999 de soutenir notre projet SESAME de "Plate-forme de Réalité Virtuelle et Augmentée pour des Visualisations et des Simulations Scientifiques Semi-Immersives". Aujourd'hui, l'amplification du soutien du CNRS par rapport à ce projet initial, qui s'est traduit au sein du LIMSI-CNRS par la création de l'action transversale VENISE, amène le groupe G&I à contribuer très activement à la conception d'un dispositif matériel immersif de grande taille, tandis que la <#36#>plate-forme EVI3d<#36#> vise en particulier à être le noyau logiciel chargé de le gérer. A moyen terme, notre mission sera donc de mener sur ce système immersif différentes recherches interdisciplinaires d'excellence en coopération avec les autres groupes du laboratoire.

THEME 2 : ANALYSE ET TRAITEMENT DU GESTE ET DE L'IMAGE
R. Gherbi,B. Bossard, A. Braffort, A. Choisier, C. Collet, J. Hérisson, F. Julliard, F. Lejeune, O. Magneau

L'image et le geste sont porteurs d'informations à la fois spatiales et dynamiques. Au-delà de ces deux propriétés fondamentales, et en particulier dans le contexte de l'interaction homme-machine, le geste et l'image sont aussi caractérisés par des propriétés linguistiques, sémantiques, voire cognitives. Dans la mesure du possible, cette multi- caractérisation doit être prise en compte dans sa globalité, aussi bien dans le cadre d'études interdisciplinaires que pour la conception de modèles et de systèmes informatiques. Par ailleurs, cette vision globale est nécessaire pour prendre en compte et intégrer les différents niveaux de représentation, ainsi que les divers modules de traitement des données et des connaissances associées.

Dans les trois axes de recherche décrits ci-dessous, nous menons des travaux sur les modèles informatiques les plus adaptés aux données traitées, en étroite collaboration avec les spécialistes des domaines applicatifs concernés. Il s'agit par exemple de la modélisation et du traitement des éléments architecturaux du génome avec des chercheurs en biologie moléculaire, ou de l'étude et l'analyse de la structure de la LSF (Langue des Signes Française) avec des linguistes. Au-delà de l'intérêt enrichissant de l'interdisciplinarité, ces collaborations nous permettent de développer une démarche de validation, voire d'affinement des modèles. Cette démarche est cruciale si l'on cherche à aboutir à des réalisations logicielles efficaces et utilisables.

Dans ce domaine en plein essor qu'est la bio-informatique, nos travaux de recherche visent la caractérisation et le traitement des éléments architecturaux des séquences génomiques. L'approche proposée est d'analyser les différents paramètres de structures spatiales du génome, à l'échelle génomique pour traiter des éléments biologiques (gènes, exons, introns, transposons...), mais aussi à l'échelle de la génomique comparative sur les organismes vivants (eucaryotes, procaryotes, virus...).

Ces paramètres peuvent être la compacité, la trajectoire de la double hélice, le degré de courbure, ou encore les relations spatiales entre les objets biologiques. Ils sont potentiellement exploitables pour améliorer les algorithmes de prédiction des gènes et la compréhension de leur fonctionnement.

Ce travail interdisciplinaire est mené en collaboration avec des équipes de biologistes, d'informaticiens et de mathématiciens. Cette année, ces collaborations ont porté en particulier sur l'analyse multi-critères (spatiale, mais aussi linguistique et statistique) des zones intergéniques de S. cerevisiae avec l'IGM-Orsay et LRI-Orsay, sur la distribution de la compaction chez 35 génomes des trois règnes du vivant avec l'IGM-Orsay, le RGFCP-Marseille et le Weizmann Institute en Israël, et enfin sur la structure intron-exon chez A. thaliana avec l'IBP-Orsay.

Si le travail sur les séquences permet la prédiction des structures, ceci doit être complété par des travaux visant l'étude de l'expression génétique. Dans cette optique, cette année a vu aussi le démarrage de travaux sur l'analyse des images issues du transcriptome/Proteome. Un logiciel de localisation automatique des spots sur ces images est en développement. Il permet d'éviter au biologiste de le faire manuellement au risque de fatigue, d'erreurs, etc.

Dans le cadre de l'étude, de la modélisation et du traitement du geste en Communication Homme-Machine, nos travaux de recherche concernent en premier lieu les problèmes de capture, de reconnaissance, d'interprétation, de représentation et de synthèse, de la Langue des Signes Française (LSF). Outre l'application de ces travaux pour l'aide à ce handicap, notre hypothèse est en effet que la maîtrise de ce langage gestuel et des modèles et méthodes qui permettent de le gérer par informatique, est l'une des meilleures garanties pour proposer des solutions originales pour le traitement d'autres types de gestes. Des travaux sont ainsi prévus sur l'analyse du geste dans certaines situations de handicap moteur, d'autres sont en cours dans le domaine de la reconnaissance de gestes pour l'interaction 3d en Réalité Virtuelle (RV), tandis que F. Julliard vient d'achever sa thèse sur la synthèse de mouvements et de gestes d'avatars.

Un premier travail porte sur l'étude du fonctionnement de certaines réalisations gestuelles de la LSF afin d'en proposer une modélisation dans le cadre de la sémantique cognitive (voir page de présentation). Les modèles élaborés permettront l'exploitation de ces représentations par un système informatique dédié à la LSF (Thèse de F. Lejeune). Un second travail traite plus spécifiquement de l'analyse et de la reconnaissance de gestes synchrones et asynchrones pour la LSF et pour l'interaction 3d en RV (DEA et Thèse de B. Bossard) avec une approche à base d'apprentissage stochastique de signaux (voir page de présentation). D'autres travaux (voir page de présentation projets) visent la synergie des compétences interdisciplinaires autour de la LSF. Il s'agit d'étudier et de confronter les primitives d'analyse utilisées par chaque discipline.

Pour ces études, nous sommes amenés à réaliser des corpus vidéo de personnes en train de signer. Ces corpus font l'objet d'une annotation, manuelle pour l'instant, à différents niveaux de granularité : sémantique, syntaxique, lexical, articulatoire, géométrique, dynamique... Les deux projets LS-COLIN et ARC-LSF permettront, à moyen terme, de réaliser un prototype de système d'annotation semi-automatique afin d'effectuer des transcriptions utiles aux linguistes et aux informaticiens. A plus long terme, les apports croisés des différentes disciplines permettront d'aboutir à de nouvelles architectures logicielles dédiées à la LSF, à des fins de reconnaissance, d'analyse ou de synthèse.

Les deux axes de recherche décrits précédemment font appel, à différents degrés, à l'analyse et au traitement d'images. Par ailleurs, la capture et le suivi de mouvements d'utilisateurs (Corps, tête, yeux...) dans une interaction homme-machine qui évite l'utilisation de dispositifs intrusifs, requiert la mise en place de systèmes à base de capteurs passifs (spectre visible) ou semi-passifs (infrarouge), capables de traiter en temps-réel et avec précision les signaux images. Nous menons dans le groupe des travaux dans les deux configurations.

D'une part, en coopération avec le Thème 1, le travail de thèse de O. Magneau porte sur la capture et le suivi de marqueurs pour mesurer leurs positions et orientations dans l'espace. Cette solution faiblement intrusive permet par exemple de suivre quelques composantes du corps d'un utilisateur en situation immersive (voir page de présentation).

D'autre part, nous poursuivons nos travaux en interaction gestuelle par le biais de dispositifs de vision. C'est une problématique importante si on veut que cette interaction soit la plus naturelle possible et avec moins de contraintes physiques. Dans ce contexte, le système CapRe (Capture du Regard) est en développement dans le groupe. Ce système permet à un ordinateur de mesurer la direction du regard de l'utilisateur. Il fonctionne de manière non-intrusive et automatique pour détecter et suivre en temps-réel le visage, le nez et les yeux de l'utilisateur. Une étude a été menée (DEA de S. Barré) pour dégager une approche qui permettrait d'améliorer la précision, faible jusqu'alors, de la mesure de la direction du regard. Par ailleurs, certaines situations (mouvements du visage, port de lunettes,...) posent des problèmes de fiabilité lors de la détection et du suivi des yeux. Un travail en collaboration avec P. Dubrulle (LINC, IUT de Montreuil), vise à améliorer ce point avec des techniques de reconnaissance par réseaux de neurones. On notera que le système d'annotation de corpus en développement dans le projet LS-COLIN s'appuiera sur les techniques mises en oeuvre dans CapRe. Par ailleurs, le projet ARC-LSF devrait aussi servir de terrain d'expérimentation pour valider et évaluer les performances de suivi et de mesure du regard.

Un travail commun aux différents axes du Thème 2 vise à la conception et la mise en oeuvre d'une architecture logicielle générique dédiée à la reconnaissance de formes spatio-temporelles. Par ailleurs, une étude sur les gestes liés au handicap moteur est en cours (BQR-GeHMo) pour évaluer quantitativement la qualité de la fonction d'un membre supérieur de personnes tétraplégiques.

RELATIONS EXTÉRIEURES

Enseignement et diffusion des connaissances

Organisation de colloques

- comité d'organisation de IEEE ROMAN 2001 (P. Bourdot).

Participation à des comités éditoriaux

- relecteurs :

- conférence RFIA 2000 (P. Bourdot),

- conférence Gesture Workshop 2001 (A. Braffort, C. Collet, R. Gherbi),

- revue IEEE MultiMedia (P. Bourdot).

Activités ou responsabilités d'enseignement liées à la recherche

Participation à des séminaires

Relations nationales

Relations scientifiques et institutionnelles

Relation industrielle

Conventions de recherche et contrats

Collaborations scientifiques au niveau national

Relations internationales

Relations Scientifiques

Relation industrielle