ACTION << PERCEPTION SITUÉE >>

ACTION << PERCEPTION SITUÉE >>

_____________________

P. Tarroux¹, N. Hassoumi, J.S. Liénard, Y. Machrouh

Objet

Les systèmes artificiels de perception, qu'il s'agisse de vision par ordinateur, d'indexation vidéo ou de reconnaissance automatique de la parole, devraient à l'avenir jouer un rôle essentiel dans la communication homme-machine, l'accès aux réseaux et la robotique. Leurs performances sont aujourd'hui limitées par une compréhension très imparfaite des mécanismes perceptifs mis en oeuvre chez les humains.

Par ailleurs, grâce à de nouvelles techniques d'investigation telles que l'imagerie cérébrale, les connaissances sur le fonctionnement du cerveau progressent rapidement. Cependant les modèles correspondants sont souvent établis dans une perspective purement neurobiologique et sont rarement mis en relation avec le comportement de l'individu dans la vie courante.

La démarche proposée ici tend à concilier ces deux points de vue sur la perception. Elle s'inspire des connaissances acquises sur les systèmes naturels pour traiter les problèmes incomplètement résolus en Communication Homme-Machine. La perception est conçue comme intégrée au comportement d'un individu dans son environnement. Elle est fonction de la situation, d'où le terme de Perception Située, qui s'inscrit dans le panorama plus vaste de la Cognition Située et de l'Intelligence Artificielle Située. Dans le domaine de la vision (fig 1), cette approche mène à prendre en compte les possibilités de placement du système de vision par rapport à l'objet d'intérêt dans la scène (vision active, guidage des saccades) ainsi que les informations disponibles au niveau cognitif (mécanismes top-down, attention sélective). Dans le domaine de la perception de la parole, les mêmes idées se traduisent par la localisation du locuteur dans une scène auditive (effet de cocktail party), ainsi que par l'utilisation top-down de l'information complète du signal, même dans ses aspects non-linguistiques (identification du locuteur et des propriétés de sa voix)

Dans les organismes les plus élémentaires, à une perception donnée est associée une action adaptée à la survie de l'individu. Les capacités des individus augmentant, à cette couche externe s'ajoute une couche plus abstraite qui spécifie plus précisément les conditions de cette association. En empilant des couches perception-action d'abstraction croissante on définit une architecture de subsumption (fig 2), dont on retrouve des traces dans la neuroanatomie humaine, qui va jusqu'à des représentations hautement abstraites comme en témoigne la capacité de langage. Cette organisation fournit un fil conducteur en robotique, par exemple, où l'on essaiera d'abord de réaliser des bouclages perception-action de bas niveau, avant de les moduler grâce à des connaissances de plus en plus abstraites.

Description

Plusieurs études sont en cours, essentiellement dans le domaine de la vision. L'une (thèse de Nabil Hassoumi, soutenue) concerne un mécanisme neuronal permettant de guider l'attention visuelle, sans recourir à l'exploitation explicite d'une carte de saillance attentionnelle. Une autre (thèse de Youssef Machrouh, en cours) s'intéresse à l'extraction d'informations pertinentes d'une scène visuelle, à partir d'hypothèses de vision fovéale et de détection des orientations locales de l'image. Enfin une plate-forme informatique permettant d'étudier par simulation divers processus visuels et neuronaux est en cours d'achèvement.

Les bases de l'approche présentée ici font l'objet d'enseignements universitaires, dans les DEA Sciences Cognitives de Paris XI et Bio-Mathématiques de Paris VI-Paris VII, ainsi que dans le magistère de Biologie et les cours inter-magistères à l'ENS Ulm.

Références

[1] Plaisant, O. et Tarroux, P. : << L'étude des systèmes biologiques peut-elle être source de connaissance pour l'ingénieur ? >>. Revue Scientifique et Technique de la Défense (sous presse).
[2] Hassoumi, N., Chiva, E. et Tarroux P.: << A neural model of preattentional and attentional visual search >>. Vision Research (en révision).

Traitements bas niveau pour la vision située

Y.Machrouh, J.S.Liénard, P.Tarroux
_____________________

Figure

Objet

Réaliser un système de vision utilisant certaines particularités de la vision naturelle (vision fovéale, traitement différencié des fréquences spatiales et des orientations), ainsi que la spécification de certaines propriétés des objets recherchés, pour déterminer la position des points d'intérêt dans l'image d'une scène visuelle (processus attentionnels). Provoquer les saccades correspondantes et étudier les processus récursifs d'identification et de localisation des objets dans la scène.

Description

Un ensemble d'algorithmes a été mis au point et intégré à la plate-forme de vision. Ces algorithmes permettent de calculer à partir d'une image la représentation fournie par un capteur à résolution variable (plus grande au centre qu'en périphérie) et de reconstruire une image dans l'espace d'entrée montrant l'effet des distorsions dues à la vision fovéale (fig 1). Un banc de filtres d'orientation a également été mis au point. Les filtres d'orientation, mis en évidence depuis quelques années dans le système visuel des primates, sont modélisés par des filtres de Gabor qui fournissent une représentation locale des orientations de l'image, ceci pour diverses fréquences spatiales (fig 2). Les sorties des filtres de Gabor sont utilisées sous deux formes: l'une, correspondant aux cellules corticales de V1 dites simples, code l'orientation d'un contour passant en son centre ; l'autre, correspondant à certaines cellules dites complexes des aires corticales supérieures, code l'orientation d'un contour présent en n'importe quelle zone de son champ récepteur. Ces filtrages sont effectués pour différentes fréquences spatiales, afin de rendre compte des traitements différents observés dans la zone centrale et dans la zone périphérique de la rétine.

Résultats et perspectives

Cette étude, menée en collaboration avec Jean Lorenceau (Laboratoire de Physiologie de la Perception et de l'Action du Collège de France) et Kevin O'Regan (Laboratoire de Psychologie Expérimentale de l'Université Paris V), a fait l'objet d'un contrat du GIS Sciences de la Cognition. Les travaux actuels visent à combiner localement les informations fournies par les filtres d'orientation, pour en extraire des caractéristiques telles que des orientations, terminaisons, bifurcations. De tels traits permettent de caratériser des zones d'intérêt dans la scène visuelle. Certains d'entre eux présentent une invariance en rotation qui peut être mise à profit pour la reconnaissance d'objets. Par ailleurs, le calcul de l'énergie globale en sortie des filtres peut permettre d'identifier le contexte visuel vers lequel pointe le regard. Les traits ainsi reconnus semblent, jusqu'à un certain niveau d'abstraction, résulter plutôt de phénomènes d'auto-organisation que d'un processus d'apprentissage. Ils participent à un recodage de l'information visuelle destiné à optimiser la représentation utilisée aux niveaux supérieurs en vue de reconnaître et catégoriser les objets. Ce n'est qu'au niveau d'abstraction le plus élevé que la combinaison de ces traits associée à des codages invariants permet la définition d'objets et la capacité de mémorisation. Toutefois, la mise en correspondance entre des traits élémentaires et l'action semble suffisante pour assurer un comportement viable dans de nombreux cas. Le programme actuel vise à comprendre quels traits peuvent être utilisés pour guider l'exploration de la scène visuelle, en considérant que seuls les traits correspondant aux basses fréquences spatiales sont utilisables en périphérie.

Dpt CHM

Sommaire

Présentation