Capture par caméra de gestes de désignation et reconnaissance par Modèles de Markov Cachés

_____________________

R. Gherbi, A. Braffort

Figure

Objet

Le but de cette étude est de concevoir un système de vision qui suit et interprète les gestes de désignation de l'utilisateur dans un contexte de dialogue multimodal.

Description

Pour suivre les gestes de la main, le système, appelé PoG, utilise une caméra CCD comme dispositif de capture de séquences temporelles d'images. PoG reconnaît les différents types de gestes de désignation réalisés par l'utilisateur, puis calcule les valeurs de pointage, qui correspondent dans cette étude aux positions spatiales de l'extrémité de l'index de l'utilisateur.

Le système est composé de trois modules : l'extraction, la reconnaissance et la localisation (Fig. 1). Le module d'extraction calcule les primitives visuelles à partir d'une séquence d'images. Ces primitives représentent les gestes et sont utilisées comme données d'entrée par le module de reconnaissance. Ce second module classifie un ensemble de primitives et fournit le nom du geste correspondant. Pour chaque geste, il transforme des valeurs numériques en une valeur symbolique. Le module de localisation calcule les valeurs de pointage en fonction du type de geste reconnu.

Les primitives visuelles sont principalement basées sur des informations dynamiques sur les gestes, telles que la vitesse, l'accélération et les variations temporelles du déplacement des pixels dans la séquence d'images. Pour cela, on utilise certaines techniques de traitement d'images développées dans cadre du système CapRe [1]. Pour chaque image, un vecteur de primitives est construit. La séquence d'images est transformée en une séquence de vecteurs de primitives.

Le module de reconnaissance est basé sur les Modèles de Markov Cachés (HMMs). Les HMMs sont utilisés avec succès dans des domaines tels que la parole, l'écrit et la vision. Ils permettent de traiter des données temporelles. Ainsi, cette approche peut être utilisée pour reconnaître des gestes dynamiques continus [2]. De plus, la segmentation entre les gestes enchaînés peut être réalisée durant le processus de reconnaissance.

Le module de localisation réalise le calcul des positions spatiales de l'extrémité de l'index de l'utilisateur. Pour cela, il effectue un traitement sur la séquence d'images correspondant à la désignation par l'utilisateur d'une zone donnée. De plus, le système prend en compte le résultat du module de reconnaissance car ce calcul de position dépend du type de geste de désignation effectué.

Résultats et perspectives

Le type d'application envisagé est un système d'aide à la consultation du plan d'un bâtiment. Par exemple, une personne peut effectuer un geste de désignation pour spécifier un lieu sur le plan tout en demandant verbalement des informations (Fig. 2). Pour répondre, le système doit être en mesure d'interpréter ces informations verbales et gestuelles.

Par l'intermédiaire de PoG, l'information gestuelle peut être transmise à un système multimodal pour compléter ou désambiguïser un message verbal [3].

Ce travail est soutenu par le projet Esprit Chameleon #24493 ``Language and image data fusion using stochastic models and spatial context modelling''.

Références

[1] C. Collet, A. Finkel and R. Gherbi : ``CapRe: A gaze tracking system in man-machine interaction'', Actes de IEEE Inter. Confer. on Intelligent Engineering Systems (INES'97), pp. 577-581, Budapest (Hungary), Sept. 1997.
[2] A. Braffort : ``ARGo: An architecture for sign language recognition and interpretation'', Progress in Gestural Interaction, P.A. Harling and A.D.N. Edwards (Eds.), Springer-Verlag (Pub), London (GB), 1997.
[3] X. Briffault and A. Braffort : ``Toward a model of co-operation between natural language and natural gestures to describe spatial knowledge'', Actes de PacLing'93, Vancouver (Canada), 1993.

Gpe Interaction et Multi-Modalités

Dpt CHM

+ Sommaire

Présentation