GESTE et IMAGE
Exemples d'Activités de Recherche du groupe
Dans le contexte général de la Communication Homme-Machine (CHM), les
recherches du groupe "Geste et Image" (G&I) concernent aussi bien la
modélisation et les traitements requis pour gérer des interactions 3d,
que l'étude de domaines d'application fondés sur des données spatiales
et dynamiques. Ces problèmes nécessitent des compétences en modélisation
géométrique, en traitement d'image, en reconnaissance de formes, en
représentation des connaissances, en interface homme-machine et en
architectures logicielles. Au demeurant, l'activité du groupe G&I est plus
interdisciplinaire que pluridisciplinaire. Notre problématique scientifique
vise en effet à faire coopérer plusieurs disciplines autour d'un même
objet de recherche, à savoir : la modélisation et le traitement de
données spatiales et dynamiques.
Quelle soit immersive ou non, l'interaction 3d n'est pas seulement une affaire
de périphériques sensori-moteurs. Notre approche est de considérer
que des avancées significatives dans l'ergonomie de ce type d'interaction
passent par la mise en chantier d'un ensemble de travaux qui couvrent
justement les six domaines de compétence évoqués ci-dessus.
Le premier volet du problème consiste à mettre au point des systèmes
qui utilisent des périphériques aux technologies moins intrusives. Nous
entendons par là que la plupart des systèmes électromagnétiques
ou à base d'ultrasons relient par des câbles la machine aux utilisateurs
traqués. C'est pourquoi des travaux sont menés au sein du groupe G&I,
sur la capture et le suivi de mouvements et de gestes par caméras et ce,
aussi bien dans le spectre visible que par infrarouge. En vision infrarouge,
l'objectif est une capture et un suivi 3d temps réel de marqueurs. Dans le
spectre visible, l'ambition est de traiter en totalité le signal image, pour
mener des processus complets de reconnaissance des mouvements et des gestes.
Le second volet concerne donc le traitement des mouvements et des gestes.
Cela vise en premier lieu la conception de systèmes de reconnaissance des
gestes en LSF (Langue des Signes Française). Néanmoins, l'étude de la
LSF fait aussi partie d'un schéma méthodologique. L'un de nos objectifs
est d'analyser la structure iconique de certains gestes de la LSF, pour tenir
compte de cette structure dans la conception de métaphores ou de paradigmes
nouveaux pour l'interaction 3d.
Le dernier volet dépasse le seul traitement des mouvements et des gestes. En
lieu et place des approches à base de ``widget 3d'', notre démarche vise
fondamentalement à permettre la combinaison de plusieurs modalités
sensori-motrices, pour certaines associées à des processus de reconnaissance.
Pour ce faire, nous coopérons avec les
autres groupes du département CHM sur les aspects relatifs à l'interaction
multimodale, à la reconnaissance de la parole, au traitement de données
textuelles, à l'ergonomie cognitive ou aux pratiques collectives. Cependant,
pour garantir le traitement temps réel d'une telle approche de l'interaction
3d, le groupe G&I travaille en particulier à la conception et au
développement d'une architecture distribuée dédiée aux applications
de Réalité Virtuelle et Augmentée (RV&A). Notons aussi que d'autres
travaux sont menés en architectures logicielles pour la mise en
oeuvre
d'outils génériques de reconnaissance de données spatio-temporelles
(geste, mouvement, mais aussi séquences génomiques).
Par ailleurs, le réalisme que vise l'interaction 3d rend primordiale
la gestion des scènes qui lui servent de contexte. Par exemple, la complexité d'un système de reconnaissance de gestes
d'interaction 3d (désignation, sélection, saisie, déplacement ou lâché
d'objets) n'est pas en soi le nombre de gestes à reconnaître,
mais réside plutôt dans la variabilité de ces gestes qui dépend du
contexte de l'interaction (cf. taille et distance aux objets, densité de
la scène...). D'un autre côté, l'une des caractéristiques de la
LSF est certes d'être une langue, mais est aussi le fait que le signeur
commence souvent par mettre en situation le contexte de son discours. Cette
mise en situation est symbolique et spatiale. Il paraît donc intéressant
d'étudier comment ce contexte spatial intervient syntaxiquement et
sémantiquement dans les expressions de la LSF. Sur le plan méthodologique,
notre objectif est cette fois d'utiliser ce genre de structure de langage dans
la conception des systèmes de reconnaissance de gestes d'interaction 3d.
Au demeurant, la gestion des données spatiales et dynamiques est
requise pour beaucoup d'autres aspects de l'interaction 3d. Dans les
applications de RV&A, il importe en particulier que la perception du
relief soit cohérente avec le monde réel. En amont des considérations
physiologiques, cognitives voire sociologiques relatives à la perception
d'un monde artificiel, nous sommes en présence d'un problème
optico-géométrique, qui non seulement suppose souvent des traitements
spécifiques du fait de la diversité des systèmes immersifs, mais
qu'il convient de parfaitement maîtriser dès lors que l'on cherche
à concevoir des métaphores ou paradigmes nouveaux. D'un tout autre
point de vue, le réalisme de l'interaction suppose par exemple une
réactivité des objets et de la scène virtuelle ou augmentée. Doter
les objets virtuels de comportements réactifs est un passage obligé
si l'on veut utiliser les systèmes immersifs comme support à des
simulations 3d. Outre cet objectif ambitieux, la réactivité des objets
est utile pour améliorer les temps de réponse des systèmes immersifs
(cf. gestion adaptative des détails des objets) ou pour contraindre les
interactions (paramétrage des navigations virtuelles, interaction des
objets avec les périphériques haptiques...). Cependant, cette
gestion se heurte à la complexité des données à traiter, complexité
dont la nature varie selon les domaines d'application. Par exemple en CAO,
la forte structuration des objets permet en partie de gérer la complexité
des données. En revanche, dans les applications à caractère scientifique,
la structuration des données est souvent de trop faible granularité
pour servir de support à leur gestion interactive.
Du point de vue des applications, la conception de techniques avancées
pour l'interaction 3d vise à mettre au point de nouveaux outils pour
l'étude de données spatiales et dynamiques.
Par exemple, le succès que rencontre l'application ADN-Viewer auprès
des biologistes vient en partie du fait que l'ergonomie de l'interaction
3d qui est proposée permet de repérer des propriétés potentielles et
caractéristiques spatiales (voire dynamiques) sur les données complexes
du domaine. Réduire la charge cognitive des explorations de ces données
facilite la sélection d'objets d'études scientifiques, voire la
détection de sous-problèmes (cf. bio-informatique, mécanique
des fluides).
D'un autre côté, la modélisation des données 3d d'un domaine
rend aussi possible leur traitement vis-à-vis des propriétés et
caractéristiques préalablement repérées. Les analyses qui
peuvent être faites sur ces traitements passent bien entendu par des
coopérations avec les experts des domaines concernés (cf. département
"Mécanique-Energétique", équipes de l'IGM et de l'IBP de
l'Université Paris Sud...). Finalement, la visualisation immersive
permet de confronter les résultats de ces analyses par rapport aux
données, de sorte à itérer le processus expérimental qui vient
d'être décrit.
La conception d'outils informatiques susceptibles de gérer un tel
processus permet de combiner des analyses qualitatives et quantitatives
de phénomènes spatiaux ou dynamiques, combinaison qui semble utile au
progrès de plusieurs disciplines scientifiques.
Dans le contexte de cette problématique, les activités de recherche du groupe G&I sont donc structurées en deux thèmes :
- Réalité Virtuelle et Augmentée ;
- Analyse et Traitement du Geste et de l'Image.
Au-delà de la transversalité entre ces deux thèmes de plusieurs
de nos travaux, l'activité du premier thème a principalement porté
sur le traitement de la stéréoscopie, la modélisation
et la gestion de niveaux de détails pour l'ADN, la gestion de
périphériques et de systèmes de reconnaissance (parole et geste)
pour l'interaction immersive, la conception de métaphores pour les
navigations virtuelles et les architectures logicielles distribuées pour
les systèmes de RV&A. De son côté, l'activité du second thème
s'est plus particulièrement concentrée sur la capture et le suivi 3d
de mouvements et de gestes, la détection 3d de composants du visage,
l'interprétation et la modélisation sémantique des gestes de LSF
et de RV&A et la caractérisation spatiale des éléments génomiques.
Pour valider ces différents travaux de recherche, le groupe G&I
développe pour l'heure deux types d'applications : d'une part, des
applications de visualisation scientifique (écoulement en mécanique
des fluides, génome), d'autre part, des applications relatives à
l'étude des gestes en Communication Homme-Machine (LSF, capture du
regard, handicap moteur).
Outre les coopérations externes au laboratoire développées au cours de
cette année (projet BioInfo CNRS-INRA-INRIA, projet "Informatique et
Génomique" du PPF 2002-2006 de l'UPS, projet LS-COLIN du programme
"Cognitique", projet ARC-LSF avec l'INRIA, projet BQR-GeHMo de l'UPS,
projet SESAME 99 contractualisé sur 2000 à 2004, plate-forme PERF-RV
du RNTL au renouvellement accepté pour 2002 et 2003), le groupe
G&I
participe à plusieurs actions transversales au sein du LIMSI-CNRS.
Dans le cadre de ses travaux sur l'analyse et le traitement du geste,
le groupe G&I est impliqué dans l'action transversale "indexation
multimédia" nouvellement créée au sein du département CHM.
De son côté, le thème "Réalité Virtuelle et Augmentée" et ses
applications en visualisation scientifique ont un rôle moteur dans l'action
VENISE (Virtualité et ENvironnement Immersif pour les Sciences
Expérimentales), lancée en janvier 2001 transversalement à l'ensemble
du laboratoire.
En conclusion, les points de convergence entre les deux thèmes de
recherche du groupe G&I sont multiples. Ils concernent principalement
aujourd'hui : la bio-informatique du génome, la capture de mouvements
et la reconnaissance de gestes pour la RV&A. Tout en contribuant
fondamentalement à la réussite de l'action VENISE, la cohésion
du groupe G&I va pouvoir se renforcer à moyen terme sur la
reconnaissance de gestes synchrones et asynchrones (interaction à deux
mains), la conception de métaphores gestuelles pour les interactions
immersives, la capture et le suivi 3d non intrusif par caméras (dans le
domaine visible ou infrarouge). Pour parfaire le spectre scientifique du
groupe G&I, nous souhaitons très vivement recruter un jeune chercheur
dans le domaine des interactions haptiques. A plus long terme, nos souhaitons
pouvoir réactiver des travaux en reconstruction 3d pour le développement
de nos activités en Réalité Augmentée. Cependant, d'autres perspectives
scientifiques sont aussi possibles pour le groupe G&>I telles que : l'étude
sur la substitution des interactions haptiques par des retours visuels ou
audio (en coopération avec les groupes AMI et PS), la gestion de comportements
réactifs sur les objets virtuels pour des interactions immersives
en CAO, la conception d'outils d'analyse qualitative par confrontation
d'informations réelles et virtuelles pour la validation de modèles 3d
en bio-informatique
ou en mécanique des fluides.
THEME 1 : RÉALITÉ VIRTUELLE ET AUGMENTÉE
P. Bourdot, L. Bolot,
B. Bossard, R. Gherbi, J. Hérisson, O. Magneau, D. Touraine
Ce thème de recherche se développe actuellement suivant deux axes méthodologiques complémentaires :
- le premier vise la conception d'outils génériques, par exemple en termes d'architecture logicielle pour la RV&A, de paradigmes d'interaction pour les situations immersives ou d'étude de nouveaux types de capteurs ;
- le second axe, fondé sur le développement d'applications
stéréoscopiques voire immersives, sert d'une part à la validation
des approches conceptuelles évoquées ci-dessus et alimente, d'autre
part, notre thème en nouvelles problématiques de recherche.
Un premier volet des activités de recherche de ce thème porte sur la mise
au point de la plate-forme EVI3d (Environnement Virtuel et Interaction 3d).
Il s'agit d'un ensemble logiciel polyvalent qui vise, d'une part à servir
de support au développement d'applications de RV&A, d'autre part à
permettre la conception et l'évaluation de métaphores et paradigmes
immersifs.
Cet environnement logiciel propose tout d'abord une architecture distribuée
destinée à répartir sur différents calculateurs les traitements
utiles à une gestion temps réel des interactions immersives (voir
présentation détaillée ci-après). Un élément de cette architecture
est l'EVserveur qui permet, dans le contexte d'une distribution des
ressources calculatoires, la mise en oeuvre d'une approche Client - Serveur
pour la gestion événementielle des interactions immersives. A ce jour,
outre les interactions clavier et souris standard, nous gérons grâce
à cette architecture des interactions multi-sensorielles à base de
reconnaissance de la parole et de gestes, ainsi que le traitement des
mouvements de la tête. Notons que l'EVserveur est au centre de notre
contribution dans la plate-forme PERF-RV du RNTL, où notre objectif est
d'évaluer à grande échelle l'apport et la fiabilité de cet outil
pour développer des interfaces multimodales en RV&A.
Le second objectif de la plate-forme EVI3d est d'offrir ou de pouvoir
accueillir différentes bibliothèques utiles à la gestion des interactions 3d.
Un certain nombre de ces bibliothèques tournent sous OpenGL, de sorte à
pouvoir disposer, directement sous cette norme graphique, d'outils pour le
développement d'application de RV&A. Ce besoin résulte de l'observation
que les bibliothèques graphiques de plus haut niveau (par exemple, Performer)
sont plus particulièrement adaptées à des bases de données structurées
par des graphes de scènes, propriété que ne possèdent pas nos
applications de visualisation scientifique. Nous avons donc conçu et
poursuivons le développement d'une bibliothèque chargée de gérer les
paramètres projectifs liés à la stéréoscopie dans divers types de
dispositifs visuels (contrôle
de la disparité oculaire, de l'émergence ou de la profondeur du relief,
traitement différencié des objets et des images selon
la nature de la séparation stéréoscopique).
Toujours sous OpenGL, une autre bibliothèque a
aussi été développée pour gérer des feedbacks visuels utiles
aux interactions gestuelles sur des dispositifs de RV&A : avatar de mains,
rayon de pointage (cf. laser bean)...
Parallèlement, en collaboration avec A. Braffort, un module
spécifique a été élaboré par B. Bossard pour la reconnaissance
de gestes isolés de la main (désignation, sélection, saisie, déplacement, lâché).
Celui-ci poursuit maintenant en thèse au sein du groupe G&I sur la
reconnaissance des gestes à deux mains (voir Thème 2). Enfin, une de
ces bibliothèques est celle du système HCnav, un paradigme
interactif que nous avons élaboré sur la base d'une métaphore de
véhicule qui permet de libérer les mains de l'utilisateur de toute
tâche de contrôle des navigations virtuelles (voir présentation
détaillée).
L'élaboration de la plate-forme EVI3d constitue une partie
des travaux de thèse que mène D. Touraine. Plusieurs modules ont
été conçus et validés au cours du développement l'application
Mécanique des fluides, la première application de Réalité
Virtuelle créée au sein laboratoire. Conçue et développée par
le groupe G&I, cette application permet d'explorer des modèles numériques
d'écoulements, en l'occurrence ceux fournis par C. Tenaud du
groupe "Dynamique des Fluides et Turbulence" du département
"Mécanique-Energétique". De son côté, le
démonstrateur Nautilus de la plate-forme EVI3d, dont est chargée
L. Bolot, va
servir prochainement comme programme exemple
pour aider au développement des applications liées aux quatre axes
de recherche de l'action transversale VENISE.
En coopération avec le Thème 2 du groupe, un autre volet de nos
activités porte sur la capture et le suivi 3d pour l'interaction
immersive. Ce type de périphérique de RV&A est généralement
lourd et intrusif (capteurs électro-magnétiques, systèmes ultrason
ou à base de centrales inertielles...) et la liberté de mouvement
de l'utilisateur est souvent contrainte par le "cordon ombilical"
qui le relie à la machine. Or, pour l'interaction immersive, il est
primordial de connaître en temps réel la position et l'orientation
de la tête et des membres de l'utilisateur. Dans le cadre de son stage
de DEA, O. Magneau avait étudié l'exploitation de techniques
de traitement d'images sur les signaux issus d'un dispositif de vision 3d
(TriclopsTM). Il poursuit actuellement sa thèse
sur l'investigation de cette problématique dans le contexte d'une
technologie infrarouge, avec le souci d'obtenir le meilleur rapport :
précision de mesure / temps de calcul (voir présentation détaillée).
L'autre application phare de ce thème est ADN-Viewer. Il s'agit
d'un outil logiciel interactif de modélisation et de visualisation
stéréoscopique destiné principalement à l'analyse systématique
de la conformation spatiale de séquences génomiques. Il permet ainsi
une représentation et une exploration virtuelles que la double hélice
prendrait en dehors de toute interaction avec d'autres macro-molécules.
Suivant le niveau de définition choisi, la représentation
peut ne concerner que de courtes séquences nucléotidiques ou, au
contraire, permettre d'obtenir des informations pertinentes sur des
régions entières du génome, voire sur des génomes entiers
(voir page de présentation). Cette année, un travail important
a été entrepris qui vise la modélisation et la représentation
spatiales du contenu "sémantique" des séquences (DEA et Thèse de
J. Hérisson), en liaison avec les annotations correspondantes issues
des banques de donnés génomiques. De plus, nous avons commencé l'étude
des interactions spatiales entre éléments biologiques dans le but de
dégager une catégorisation en terme de groupements de gènes. Par
ailleurs, les aspects de confrontation de ces données factuelles avec
des données textuelles (bibliographiques) sont étudiés dans le cadre
de l'action transversale VENISE. A moyen et long termes, plusieurs
travaux sont en cours de mise en place pour l'étude des interactions
ADN-Protéines en vue de procéder à des simulations mettant en jeu des
séquences d'acides nucléiques et des protéines (projet PPF Bio-Informatique),
pour la validation et l'affinement du modèle de conformation 3d de l'ADN
(Thèse de J. Hérisson), ainsi que pour la gestion de ces scènes.
Le volume et la complexité des données à gérer dans nos applications
scientifiques nous amène à engager de nouveaux travaux de recherche
dans le domaine de la gestion de scènes.
Sans se soucier de la profondeur des objets dans la scène, un changement
de niveau de détails est appliqué globalement aux iso-surfaces de l'application
Mécanique des fluides dès lors qu'une navigation virtuelle est lancée.
Il en résulte dans ce cas une dénaturation du phénomène observé qui
rend difficile son exploration à des fins d'analyse scientifique. Des travaux
vont donc être lancés pour disposer d'une gestion dynamique des détails
sur de telles iso-surfaces.
D'un autre côté, l'une des approches utilisées dans
ADN-Viewer,
pour la gestion des niveaux de détails, est de réduire le nombre de
nucléotides
(A, C, G ou T) en fonction de la profondeur. Le problème majeur a été
d'évaluer la limite critique au-delà de laquelle cette gestion des
détails affectait la perception des caractéristiques géométriques
du génôme, puisque justement c'est l'analyse de ces caractéristiques
que vise cette application. Par ailleurs, l'interaction gestuelle avec cette
scène pose de sérieux problèmes. Tant que l'exploration se fait à
distance, cette interaction peut être assimilée à une préhension
globale de la séquence d'ADN. Il n'en est plus de même quand, après
une navigation virtuelle, l'interaction ne doit plus se faire que sur un
segment de ladite séquence. Pour le réalisme de l'interaction, il
convient de déterminer en temps réel sur des millions d'objets celui
qui sert de référentiel à la transformation géométrique qu'induit
ladite préhension. Dans ce contexte, nous réfléchissons actuellement
à l'usage d'un partitionnement de l'espace pour optimiser les temps
de réponse pour ce type d'interaction.
Enfin, dans le contexte du développement de l'application Mécanique
des fluides et des collaborations en cours autour de l'application
ADN-Viewer, le Conseil Régional d'Ile-de-France avait décidé
en novembre 1999 de soutenir notre projet SESAME de "Plate-forme de
Réalité Virtuelle et Augmentée pour des Visualisations et des
Simulations Scientifiques Semi-Immersives". Aujourd'hui, l'amplification
du soutien du CNRS par rapport à ce projet initial, qui s'est traduit
au sein du LIMSI-CNRS par la création de l'action transversale VENISE,
amène le groupe G&I à contribuer très activement à la conception
d'un dispositif matériel immersif de grande taille, tandis que la
<#36#>plate-forme EVI3d<#36#> vise en particulier à être le noyau logiciel
chargé de le gérer. A moyen terme, notre mission sera donc de mener
sur ce système immersif différentes recherches interdisciplinaires
d'excellence en coopération avec les autres groupes du laboratoire.
THEME 2 : ANALYSE ET TRAITEMENT DU GESTE ET DE L'IMAGE
R. Gherbi,B. Bossard, A. Braffort, A. Choisier, C. Collet,
J. Hérisson, F. Julliard, F. Lejeune, O. Magneau
L'image et le geste sont porteurs d'informations à la fois spatiales et dynamiques. Au-delà de ces deux propriétés fondamentales, et en particulier dans le contexte de l'interaction homme-machine, le geste et l'image sont aussi caractérisés par des propriétés linguistiques, sémantiques, voire cognitives. Dans la mesure du possible, cette multi- caractérisation doit être prise en compte dans sa globalité, aussi bien dans le cadre d'études interdisciplinaires que pour la conception de modèles et de systèmes informatiques. Par ailleurs, cette vision globale est nécessaire pour prendre en compte et intégrer les différents niveaux de représentation, ainsi que les divers modules de traitement des données et des connaissances associées.
Dans les trois axes de recherche décrits ci-dessous, nous menons
des travaux sur les modèles informatiques les plus adaptés aux
données traitées, en étroite collaboration avec
les spécialistes des domaines applicatifs concernés. Il s'agit
par exemple de la modélisation et du traitement des éléments
architecturaux du génome avec des chercheurs en biologie moléculaire,
ou de l'étude et l'analyse de la structure de la LSF (Langue des Signes
Française) avec des linguistes. Au-delà de l'intérêt
enrichissant de l'interdisciplinarité, ces collaborations nous
permettent de développer une démarche de validation, voire d'affinement
des modèles. Cette démarche est cruciale si l'on cherche
à aboutir à des réalisations logicielles efficaces et utilisables.
Dans ce domaine en plein essor qu'est la bio-informatique, nos travaux de recherche visent la caractérisation et le traitement des éléments architecturaux des séquences génomiques. L'approche proposée est d'analyser les différents paramètres de structures spatiales du génome, à l'échelle génomique pour traiter des éléments biologiques (gènes, exons, introns, transposons...), mais aussi à l'échelle de la génomique comparative sur les organismes vivants (eucaryotes, procaryotes, virus...).
Ces paramètres peuvent être la compacité, la trajectoire de la double hélice, le degré de courbure, ou encore les relations spatiales entre les objets biologiques. Ils sont potentiellement exploitables pour améliorer les algorithmes de prédiction des gènes et la compréhension de leur fonctionnement.
Ce travail interdisciplinaire est mené en collaboration avec des équipes de biologistes, d'informaticiens et de mathématiciens. Cette année, ces collaborations ont porté en particulier sur l'analyse multi-critères (spatiale, mais aussi linguistique et statistique) des zones intergéniques de S. cerevisiae avec l'IGM-Orsay et LRI-Orsay, sur la distribution de la compaction chez 35 génomes des trois règnes du vivant avec l'IGM-Orsay, le RGFCP-Marseille et le Weizmann Institute en Israël, et enfin sur la structure intron-exon chez A. thaliana avec l'IBP-Orsay.
Si le travail sur les séquences permet la prédiction des structures, ceci
doit être complété par des travaux visant l'étude de l'expression
génétique. Dans cette optique, cette année a vu aussi le démarrage de
travaux sur l'analyse des images issues du transcriptome/Proteome. Un logiciel
de localisation automatique des spots sur ces images est en développement.
Il
permet d'éviter au biologiste de le faire manuellement au risque de fatigue,
d'erreurs, etc.
Dans le cadre de l'étude, de la modélisation et du traitement du geste en Communication Homme-Machine, nos travaux de recherche concernent en premier lieu les problèmes de capture, de reconnaissance, d'interprétation, de représentation et de synthèse, de la Langue des Signes Française (LSF). Outre l'application de ces travaux pour l'aide à ce handicap, notre hypothèse est en effet que la maîtrise de ce langage gestuel et des modèles et méthodes qui permettent de le gérer par informatique, est l'une des meilleures garanties pour proposer des solutions originales pour le traitement d'autres types de gestes. Des travaux sont ainsi prévus sur l'analyse du geste dans certaines situations de handicap moteur, d'autres sont en cours dans le domaine de la reconnaissance de gestes pour l'interaction 3d en Réalité Virtuelle (RV), tandis que F. Julliard vient d'achever sa thèse sur la synthèse de mouvements et de gestes d'avatars.
Un premier travail porte sur l'étude du fonctionnement de certaines réalisations gestuelles de la LSF afin d'en proposer une modélisation dans le cadre de la sémantique cognitive (voir page de présentation). Les modèles élaborés permettront l'exploitation de ces représentations par un système informatique dédié à la LSF (Thèse de F. Lejeune). Un second travail traite plus spécifiquement de l'analyse et de la reconnaissance de gestes synchrones et asynchrones pour la LSF et pour l'interaction 3d en RV (DEA et Thèse de B. Bossard) avec une approche à base d'apprentissage stochastique de signaux (voir page de présentation). D'autres travaux (voir page de présentation projets) visent la synergie des compétences interdisciplinaires autour de la LSF. Il s'agit d'étudier et de confronter les primitives d'analyse utilisées par chaque discipline.
Pour ces études, nous sommes amenés à réaliser des corpus
vidéo de personnes en train de signer. Ces corpus font l'objet d'une
annotation, manuelle pour l'instant, à différents niveaux de
granularité : sémantique, syntaxique, lexical, articulatoire,
géométrique, dynamique...
Les deux projets LS-COLIN et ARC-LSF permettront, à moyen terme, de réaliser
un prototype de système d'annotation semi-automatique afin d'effectuer
des transcriptions utiles aux linguistes et aux informaticiens. A plus long
terme, les apports croisés des différentes disciplines permettront d'aboutir
à de nouvelles architectures logicielles dédiées à la LSF, à des fins
de reconnaissance, d'analyse ou de synthèse.
Les deux axes de recherche décrits précédemment font appel, à différents degrés, à l'analyse et au traitement d'images. Par ailleurs, la capture et le suivi de mouvements d'utilisateurs (Corps, tête, yeux...) dans une interaction homme-machine qui évite l'utilisation de dispositifs intrusifs, requiert la mise en place de systèmes à base de capteurs passifs (spectre visible) ou semi-passifs (infrarouge), capables de traiter en temps-réel et avec précision les signaux images. Nous menons dans le groupe des travaux dans les deux configurations.
D'une part, en coopération avec le Thème 1, le travail de thèse de O. Magneau porte sur la capture et le suivi de marqueurs pour mesurer leurs positions et orientations dans l'espace. Cette solution faiblement intrusive permet par exemple de suivre quelques composantes du corps d'un utilisateur en situation immersive (voir page de présentation).
D'autre part, nous poursuivons nos travaux en interaction gestuelle
par le biais de dispositifs de vision. C'est une problématique
importante si on veut que cette interaction soit la plus naturelle possible
et avec moins de contraintes physiques. Dans ce contexte, le système
CapRe (Capture du Regard) est en développement dans le groupe. Ce
système permet à un ordinateur de mesurer la direction du regard de
l'utilisateur.
Il fonctionne de manière non-intrusive et automatique pour détecter et
suivre en temps-réel le visage, le nez et les yeux de l'utilisateur.
Une étude a été menée (DEA de S. Barré) pour dégager
une approche qui permettrait d'améliorer
la précision, faible jusqu'alors, de la mesure de la direction du regard.
Par ailleurs, certaines situations (mouvements du visage, port de
lunettes,...) posent des problèmes de fiabilité lors de la détection
et du suivi des yeux. Un travail en collaboration avec P. Dubrulle (LINC,
IUT de Montreuil), vise à améliorer ce point avec des techniques de
reconnaissance par réseaux de neurones. On notera que le système
d'annotation de corpus en développement dans le projet LS-COLIN s'appuiera
sur les techniques mises en oeuvre dans CapRe. Par ailleurs, le projet
ARC-LSF devrait aussi servir de terrain d'expérimentation pour valider
et évaluer les performances de suivi et de mesure du regard.
Un travail commun aux différents axes du Thème 2 vise à la conception et la mise en oeuvre d'une architecture logicielle générique dédiée à la reconnaissance de formes spatio-temporelles. Par ailleurs, une étude sur les gestes liés au handicap moteur est en cours (BQR-GeHMo) pour évaluer quantitativement la qualité de la fonction d'un membre supérieur de personnes tétraplégiques.
Enseignement et diffusion des connaissances
Organisation de colloques
- comité d'organisation de IEEE ROMAN 2001 (P. Bourdot).
Participation à des comités éditoriaux
- relecteurs :
- conférence RFIA 2000 (P. Bourdot),
- conférence Gesture Workshop 2001 (A. Braffort, C. Collet, R. Gherbi),
- revue IEEE MultiMedia (P. Bourdot).
Activités ou responsabilités d'enseignement liées à la recherche
Participation à des séminaires
Relations nationales
Relations scientifiques et institutionnelles
Relation industrielle
Conventions de recherche et contrats
Collaborations scientifiques au niveau national
Relations internationales
Relations Scientifiques
Relation industrielle