RECONNAISSANCE DE FORMES A 2 DIMENSIONS

TRANSFORMÉES EN SÉRIES TEMPORELLES D'IMPULSIONS

_____________________

C. MÉNIGAULT, A. LAINÉ, D. BÉROULE

Figures

Objet

La variabilité d'une forme concerne toutes les dimensions dans lesquelles elle s'exprime, qu'il s'agisse des deux dimensions spatiales d'une image ou bien des dimensions temporelle et fréquentielle d'un spectrogramme de parole. Les Réseaux à Propagation Guidée (RPG) traitent la variabilité temporelle par détection de coïncidence approximative entre des signaux impulsionnels issus de la forme d'entrée (1), mais ne peuvent gérer directement la variabilité du lieu d'origine de ces impulsions (ordonnées des pixels d'une image ou canaux fréquentiels d'un spectre). Des considérations psychophysiologiques vont dans le sens d'une décomposition temporelle des images rétiniennes et acoustiques (micro-scrutation rétinienne, phénomène de réponses retardées le long de la membrane basilaire). L'objet de cette étude est d'explorer les conséquences d'une transformation d'images à deux dimensions (2D) en séquences d'impulsions adaptées aux RPG.

Contenu

La scrutation d'une des dimensions d'une forme 2D (axe vertical d'une image ou axe fréquentiel d'un spectre) transforme une position spatiale (ordonnée d'un pixel ou canal fréquentiel) en une date d'émission d'impulsion à l'entrée du système de reconnaissance. En parcourant des tranches de la forme d'entrée à la manière d'un balayage vidéo (Fig. 1), des variations spatiales (ou fréquentielles) se traduisent par des émissions retardées ou prématurées d'impulsions, phénomène que peuvent traiter les cellules d'un RPG. Pour gérer la variabilité suivant l'autre dimension (axe horizontal ou axe des temps), chaque impulsion engendre au niveau des cellules un signal répétitif de la même période que la période de balayage. Une translation (horizontale ou temporelle) de l'impulsion entraîne une éventuelle détection de coïncidence entre l'une de ses répétitions et les autres impulsions.

Cette technique est étudiée dans le cadre de deux applications : la reconnaissance de l'écriture manuscrite et la reconnaissance de la parole continue. L'architecture de base des systèmes respectivement mis en jeu comporte une cellule de Convergence (CV) par type d'événement élémentaire détecté sur la forme d'entrée par des batteries de capteurs (onsets, offsets) et une couche de détecteurs d'entités (caractères ou disyllabes). Ces détecteurs alimentent un module lexical en interaction avec un module syntaxique. Les paramètres des cellules qui composent ces deux modules satisfont certaines contraintes formelles, de façon à pouvoir identifier des formes incomplètes ou bruitées, et à fournir les taux de reconnaissance correspondants (2).

Situation

Des simulations logicielles permettent d'extraire plusieurs types d'événements élémentaires et de constituer les références dans les modules du système, à partir d'une seule présentation de chaque forme. Les expériences menées actuellement concernent les variations locales des impulsions d'entrée autour de leur position de référence, en particulier lorsqu'elles participent à un flot continu (ligature ou coarticulation). Nous étudierons l'ajustement en cours de reconnaissance des paramètres associés aux références (pondérations et retards des connexions), ainsi que l'apprentissage en cours de traitement de nouvelles entités (caractères ou disyllabes, mots, structures syntaxiques). Nous aborderons ensuite le problème de l'identification de formes dont la taille ne correspond pas à leur référence en mémoire, en compensant les variations d'échelle par une adaptation dynamique des paramètres retards du réseau.

Références

(1) Béroule D. : "Management of Time Distortions through Rough Coincidence Detection". First European Conference on Speech Communication and technology, Paris, 1989.

(2) Wersterlund P. , Béroule D. , Roques M. : "Experiments of Robust Parsing with a Guided Propagation Network". in New Methods in Language Processing, D.Jones (Ed.), UCL Press, London 1996.

Gpe Interaction et Multi-Modalités

DptCHM

+ Sommaire

Présentation