_________________________________
Exemples d'Activités de Recherche du groupe
Suite à une restructuration partielle des activités du département C.H.M. en début d'année 1995, le groupe CNV a changé de dénomination et a été rebaptisé groupe "Interaction et Multi-Modalités" (IMM).
Les recherches menées dans ce groupe ont pour but d'étudier les problèmes de la communication entre un (ou plusieurs) opérateur et une (ou plusieurs) machine dans l'optique de réaliser une tâche. En effet, cela concerne l'étude des différents canaux de communication incluant d'une part les moyens sensori-moteurs de l'être humain et, d'autre part, l'utilisation de dispositifs de perception ou de production d'informations des systèmes informatiques.
Dans ce cadre, des études fondamentales sont menées sur les moyens de communication non verbaux comme l'analyse et la génération de gestes, la vision artificielle par caméras, la modélisation et la génération d'informations graphiques. L'intégration des processus de communication issus de ces recherches fondamentales induit également toute la problématique de la réalisation d'interfaces capables de les mettre en oeuvre sur des plates-formes informatiques. En effet, une activité importante est orientée vers la conception et la réalisation d'interfaces multimodales "intelligentes" pour la gestion d'événements informationnels aussi bien dans le sens acteur humain vers machine que l'inverse.
L'intégration dans le groupe IMM des travaux portant sur une architecture parallèle de type connexionniste (Réseaux à Propagation Guidée) a été réalisée en fonction des domaines applicatifs. Les projets utilisant cette approche ont été rattachés aux thèmes existants, excepté l'Analyse de Scènes Auditives qui fait l'objet d'un nouveau thème à part entière.
Il faut noter que le groupe IMM est très bien représenté dans le comité d'action du projet "Plate-forme Multimodale" du département CHM où il participe activement à la réalisation de cette plate-forme comme au développement des applications "test". Cette participation nécessite de la part des chercheurs un investissement dans des opérations qui relèvent de l'ingénierie (infrastructure matérielle, architecture temps réel, environnement de génie logiciel), pour lesquelles il serait nécessaire de pouvoir recruter un ingénieur permanent, suivant en cela les conclusions du Comité de Réflexion du projet "Plate-Forme".
La recherche au sein du groupe est divisée en deux axes.
Le premier axe, intitulé "Représentations virtuelles de l'espace" et animé par A. Osorio, regroupe toutes les activités concernant "l'image" au sens large du terme et couvre les trois premiers thèmes de recherche. En effet, les travaux de cet axe concernent les problèmes de vision par machine, les problèmes de modélisation et de représentation graphique, ainsi que l'étude de la coopération entre l'analyse et la synthèse d'images.
Les thèmes du deuxième axe, intitulé "Nouvelles interfaces" et animé par D. Teil, regroupent à la fois les recherches sur les modalités de communication gestuelle, l'analyse de l'environnement sonore, la modélisation des interfaces multimodales, et l'ergonomie des interfaces.
LES THEMES DE RECHERCHE :
R. Gherbi, C. Collet, C. Ménigault, A. Osorio, G. Quénot, J. Rivaillier, D. Roussel, H. Ruellan
La vision par machine est étudiée selon deux aspects. D'une part, en tant que mode de communication permettant à l'utilisateur d'interagir avec la machine. D'autre part, elle constitue un outil d'aide à l'utilisateur pour réaliser une tâche particulière. Nous visons dans la majorité de nos applications le domaine de la communication homme-machine, avec comme objectif l'étude de l'interaction visuelle. Mais la modalité visuelle peut aussi être considérée comme un support de communication dans les interfaces multimodales.
L'aspect mode de communication se traduit par l'étude de la capture du contexte visuel dans une interface homme-machine. En particulier, il s'agit d'exploiter la modalité visuelle pour capter des informations sur le contexte de l'interaction. Les interfaces homme-machine (IHM) actuelles tentent de gérer les informations intentionnelles de l'utilisateur. Ces IHM ont besoin aujourd'hui de prendre en compte l'état de l'environnement et les potentialités de communication de l'utilisateur. Le projet CADRE "CApture Du REgard" a été initié fin 1995 avec l'objectif d'exploiter les mouvements non intentionnels (en dehors de l'interaction) de l'utilisateur. Pour cela, on dispose d'un système de capture d'images. Il s'agit d'interpréter les mouvements significatifs des yeux pour avoir une trace continue de la direction du regard de l'utilisateur. Cette trace représente les 9 directions (haut, bas, droite, gauche, 4 coins et centre) aussi bien à l'intérieur qu'en dehors de l'espace écran. Le travail de thèse de C. Collet (dirigée par A. Finkel, Professeur à l'ENS Cachan et co-encadrée par R. Gherbi et S. Gibet) sur la construction d'un modèle utilisateur exploitera les données visuelles recueillies dans le projet CADRE. L'intégration de ces données visuelles est aussi prévue dans les 3 applications de la Plate-Forme Multimodale du département CHM, avec comme objectif de faire évoluer leurs interfaces vers des interactions adaptatives. Par ailleurs, l'étude sur la capture de contexte fait l'objet d'une action de recherche en commun avec le LRI (M. Beaudouin-Lafon) dans le cadre du programme pluridisciplinaire PPSI de l'université Paris XI.
L'aspect outil d'aide est traité avec deux approches : reconstruction et reconnaissance. Au niveau de la reconstruction, une première démarche vise à donner une capacité de perception aux systèmes de CAO. Cette démarche se concrétise par la mise à disposition d'outils d'acquisition d'objets réels (contours, stéréovision, calcul de disparité, analyses photométriques, etc.) pour le projet ROSA "Reconstruction d'Objets 3D en Stéréo-Acquisition" du thème 3, visant ainsi à combiner les méthodes d'analyse d'images avec celles de la modélisation 3D. Une seconde démarche, pouvant être utilisée en reconstruction, vise à déterminer la carte de profondeur d'une scène réelle avec une approche basée sur la programmation dynamique (cf. double page "Calcul du flot optique" ). Au niveau de la reconnaissance, les travaux concernent la modélisation de la lecture de texte dactylographié au moyen d'une architecture de traitement parallèle qui intègre plusieurs sources d'informations fournissant des Temps de Réponse comparables à ceux des sujets humains (H. Ruellan, cf. double page "Influences multimodales dans un modèle de lecture" (Collaboration avec IPO d'Eindhoven)). La reconnaissance de textes manuscrits est abordée avec la même approche (Réseaux à Propagation Guidée) mais en gérant la variabilité spatiale des formes d'entrée (C. Ménigault, cf. double page "Reconnaissance de formes à 2 dimensions transformées en séries temporelles d'impulsions"). D'autre part plusieurs logiciels d'édition et de reconnaissance sont développés (J. Rivaillier), concrétisant ainsi les études sur la conception d'écritures codées bidimensionnelles. L'accent est mis ici sur la facilité et sur la sécurisation de la mise en oeuvre. Enfin, un logiciel (actuellement disponible) de reconnaissance optique de l'écriture magnétique CMC7 a été mis au point.
Une recherche sur le développement d'outils pour la génération de circuits intégrés pour la vision est en cours en collaboration avec le Laboratoire Système de Perception de la DGA/ETCA (cf double page Synthèse automatisée de circuits intégrés pour la vision ).
THEME 2: MODÉLISATION 3D, INFOGRAPHIE
P. Macé, G.P. Bonneau, S.A. Thobie, L.P. Untersteller
En 95, l'essentiel des efforts a porté sur la recherche de modèles mathématiques plus performants et mieux adaptés aux besoins de la C.A.O.
Le développement des fractions rationnelles en éléments simples (G.-P. Bonneau) a conduit à la définition d'une nouvelle paramétrisation des courbes et surfaces rationnelles, très bien adaptée à l'évaluation des dérivées et intégrales. Une action de recherche "algorithmes pour courbes et surfaces rationnelles", poursuivie en commun avec le LRI (Y. Manoussakis) dans le cadre du plan Bonus Qualité Recherche du département d'informatique d'Orsay, a abouti à l'implémentation des algorithmes d'approximation et de lissage basés sur cette nouvelle paramétrisation.
L'utilisation du formalisme tensoriel en géométrie projective linéaire (P. Macé) a été à l'origine d'expressions simples de la droite et du plan, de leur génération et de leurs intersections. La banalisation des points à l'infini simplifie la programmation (une droite et un plan se coupent toujours) et l'extension du calcul formel autorisée par les expressions tensorielles devrait accroître la précision et la rapidité des calculs.
Le projet GINA (modélisation Géométrique Interactive NAturelle), sujet d'une collaboration avec l'Ecole des Mines de Nantes et l'Ecole d'Architecture de Paris la Villette, en cours d'initialisation, intégrera un noyau projectif et une interface interprétant des tracés à main levée et des propriétés énoncées dans une langue proche du langage naturel. Les objectifs visés concernent l'enseignement de la géométrie dans l'espace et la reconstruction de monuments historiques à partir de gravures anciennes (L.-P. Untersteller).
Une autre étude concerne l'animation de présentations graphiques (S.A. Thobie) et porte sur l'interpolation entre deux images-clefs acquises depuis la projection d'images de synthèses en trois dimensions. Le problème s'articule en deux parties : la mise en correspondance des parties de chaque image et le traitement pour l'interpolation.
Des données extraites des images de départ permettent de créer un modèle structurel qui définit les entités à mettre en correspondance entre les images-clefs, tandis que l'analyse des configurations spatiales des entités définit la méthode d'interpolation à appliquer.
Une méthode originale d'interpolation a été mise au point. Elle permet une interpolation spatiale automatique et lève le problème du moyennage des attributs (couleur,...) à partir de chaque entités pour la construction d'entités intermédiaires. Une seconde méthode également nouvelle de type métamorphose spatiale entre les entités génère le moyennage entre celles-ci.
THEME 3: COOPÉRATION ANALYSE / SYNTHÈSE D'IMAGES
P. Bourdot, R. Gherbi, A. Osorio, D. Roussel, C. Thabet
L'objectif de cet axe de recherche est l'élaboration d'outils automatiques et de méthodes interactives pour la reconstruction d'objets virtuels 2d ou 3d, et à plus long terme pour l'apprentissage et la reconnaissance de formes graphiques ou spatiales. L'approche retenue est la coopération entre des techniques d'analyse d'images et de tracés avec des méthodes de modélisation 3d et de rendu réaliste. Cette recherche se développe suivant deux projets, à savoir ROSA (Reconstruction d'Objets 3d par Stéréo-Acquisition) et PADEM (Planche À Dessin Électronique Multimodale), tous deux centrés sur des applications relatives à la CAO. A ce titre, les résultats de ces travaux sont destinés à être articulés avec MIX 3D (Multimodal Interactions in a X environment with a 3D virtual space), un modeleur géométrique qui vise de son côté à expérimenter la validité ergonomique d'une coopération entre des interactions graphiques et verbales pour des tâches de conception d'objets 3d (voir chapitre sur la plate-forme multimodale du LIMSI-CNRS).
Il est fastidieux pour un opérateur CAO d'avoir à saisir des objets issus de l'existant. Une évolution importante pour la Communication Homme-Machine sera celle qui conférera à ces outils une capacité de perception du réel. Dans ce contexte et en relation avec le thème 1, le projet ROSA se propose de reconstruire des portions d'objets 3d non nécessairement polyédriques à partir de "contours" discrets issus de stéréo-acquisitions. Outre le fait que l'extraction de ce type de primitives est plus rapide que celle de type "région", l'utilisation des "contours" en reconstruction 3d offre un double intérêt:
- d'une part, ce sont souvent des lieux de C0 continuité (discontinuité des plans tangents à la surface de l'objet),
- d'autre part, ces "contours" décrivent dans ce cas la métrique d'"arêtes" topologiques.
De plus, pour mieux exploiter l'information présente dans l'image, nous proposons d'utiliser le modèle d'éclairement diffus (couramment employé en Synthèse d'Images), pour déterminer les plans tangents nécessaires à la reconstruction des surfaces en appui sur les "contours" des "régions".
Les principes théoriques de ce projet ont été discutés dans un article publié dernièrement dans la Revue Internationale de CFAO et d'Informatique Graphique (numéro spécial MICAD 96, Vol 11, ndeg. 1&2, Hermès 96). La validation de cette approche fait l'objet des travaux de thèse de D. Roussel dont l'encadrement est assuré en collaboration avec le Professeur J. P. Cocquerez, selon les termes d'une convention entre le LIMSI-CNRS et l'ETIS (Équipe de Traitement des Images et du Signal) de l'ENSEA (École Nationale Supérieure d'Électronique et de ses Applications) de Cergy-Pontoise.
Le projet PADEM vise à élaborer l'architecture logicielle d'une interface susceptible de se rapprocher de l'ergonomie des planches à dessin, couramment employées lors de la conception graphique d'objets. Nous nous intéressons exclusivement pour l'heure à la gestion des tracés 2d faits "à main levée" à l'aide d'un stylo sur un écran tactile. Nous distinguons trois types de tracés: "commande", "description" et "correction". Les tracés de "commande" sont les seuls pour lesquels nous envisageons des processus d'apprentissage. Les tracés de "description" et de "correction" font par défaut l'objet de processus d'analyse que l'utilisateur pourra inférer ou interrompre à tout moment par des commandes vocales. Les changements entre ces trois modes de tracé seront a priori indiqués par l'utilisateur au système via des interactions vocales. Du fait de la technologie utilisée, ces tracés sont discrets et sont généralement peu denses.
Nous développons actuellement le module d'analyse des tracés de "description" qui vise principalement:
- à détecter si ces tracés sont ouverts ou fermés;
- à évaluer s'ils sont de nature conique, pour en inférer les paramètres associés;
- à segmenter ces tracés, en fonction de l'existence de lieux de C0 continuité et des portions de droites ou de courbes qu'ils contiendraient.
Cette analyse produit généralement en sortie un échantillonnage sur les données discrètes initiales ("séquence" de points) associé à un "opérateur" géométrique. Le "résultat" de l'application de cet "opérateur" sur la dite "séquence" est une courbe composée d'un ou plusieurs morceaux C0 continus entre eux et décrits selon des formalismes courants en Infographie (ligne polygonale, courbes de Bézier ou Spline, équation de conique).
Il est prévu d'aborder prochainement le développement du module d'analyse des tracés de "correction". Dans son principe, l'analyse d'un tracé de "correction" commence par un appel au module de "description". Cependant, au lieu d'opérer directement une "mise au propre" du tracé initial, les caractéristiques des formalismes décrivant les courbes "résultats" de ce premier module (principalement, les enveloppes convexes que définissent des points de contrôle) serviront à déterminer les courbes à modifier et à évaluer les zones d'impact des déformations, pour appliquer finalement la dite "correction".
Les modules ci-dessus évoqués visent à une preuve de faisabilité à court terme du dispositif PADEM esquissé pour les tracés 2d dans le rapport de DEA de C. Thabet (1995). L'objectif de la thèse qu'il vient de débuter est de mener une réflexion approfondie sur l'intégration de ce dispositif sur les vues planes de MIX 3D. Au titre de directeur de thèse C. Faure de l'ENST collabore à l'encadrement de ce travail, d'autant que le projet du dispositif PADEM s'inscrit à beaucoup d'égards dans la continuité des travaux qu'elle a menés sur TAPAGE (éditeur de TAbleaux par la PArole et le GEste).
Associés à MIX 3D, les deux projets ROSA et PADEM de ce thème constitueront à terme des composantes importantes du projet multi-thème SAMMOVAR du groupe IMM.
THEME 4: ANALYSE ET GÉNÉRATION DE GESTES
S. Gibet, A. Braffort, T. Lebourque, D. Teil
Le geste est étudié, aussi bien en analyse qu'en synthèse, avec deux objectifs principaux : la reconnaissance de gestes et la synthèse de gestes appliquée à l'animation. L'analyse de signaux gestuels issus de données réelles est préalable à ces deux objectifs.
L'analyse cinématique et dynamique du mouvement fait l'objet d'une collaboration avec le Laboratoire de Physiologie du Mouvement (LPM : S. Bouisset, J. Richardson). Cette étude entre dans le cadre des projets soutenus par le pôle informatique de l'université Paris-Sud (S. Gibet, T. Lebourque, A. Braffort, F. Forest). Les gestes étudiés sont des gestes corporels captés au moyen d'un dispositif optoélectronique à base de diodes actives et de caméras infrarouge permettant le suivi du déplacement des points corporels en trois dimensions (SELSPOT). A partir d'une analyse cinématique des signaux tridimensionnels, on cherche à développer des outils spécifiques permettant la comparaison des différents mouvements. Les méthodes employées dépendent des objectifs visés. Il peut s'agir, en ce qui concerne le LPM, d'analyser les performances comparatives entre des sujets "normaux" et des sujets présentant des déficiences motrices particulières. De son côté, le LIMSI a adopté une démarche d'analyse par la synthèse en cherchant à comparer des gestes réels à des gestes générés par un modèle de synthèse. Par ailleurs, on s'intéressera à extraire des indices de type "cible" qui préfigurent la trajectoire du mouvement.
La reconnaissance des gestes de la main (A. Braffort) est tournée principalement vers l'étude des gestes de la Langue des Signes Française (LSF). Les gestes sont captés à l'aide d'un gant numérique (Data Glove). Le travail s'appuie sur l'analyse détaillée d'un corpus de signes (1260 signes), aussi bien du point de vue signal que du point de vue linguistique. Différents outils ont été conçus à cet effet (base de donnée, visualisation, analyse ...).
Le système de reconnaissance ARGO à proprement parler comporte deux modules :
- un module de classification dont l'architecture tient compte des caractéristiques du canal gestuel. Les algorithmes de reconnaissance utilisés sont à base de modèles de Markov cachés ;
- un module d'interprétation permettant de prendre en compte le contexte, outil indispensable pour la compréhension complète d'une phrase en langue des signes. Il est basé sur la conception d'une scène virtuelle.
Un prototype de reconnaissance et d'interprétation de gestes de la main est en cours d'évaluation.
Des aspects du comportement sensori-moteur humain sont intégrés à un modèle de contrôle du mouvement. Les principes inhérents à cette approche sont évoqués dans le cadre d'une application à l'animation de corps polyarticulés (cf. double page : "Synthèse et Analyse de Gestes pour l'Animation", SAGA). Par ailleurs, la génération de mouvements du bras et de la main est étudiée dans le cadre de gestes naturels et de gestes de la Langue des Signes (cf. double page : "Animation et Contrôle d'un bras articulé").
THEME 5: COMMUNICATION MULTIMODALE
D. Teil, Y. Bellik, M. Krus, J.C. Martin, F. Néel, C. Toffano-Nioche
Ce thème a comme objectif l'étude des problèmes fondamentaux liés d'une part, à la réalisation de systèmes informatiques intégrant des dispositifs d'interaction non conventionnels (écrans tactiles, systèmes de reconnaissance de parole, de reconnaissance de gestes, systèmes de vision, etc.), en plus des périphériques traditionnels (clavier, souris, écran), et d'autre part à la conception d'interfaces Homme-Machine dites "intelligentes" c'est à dire capables de gérer de manière dynamique les processus d'interaction.
Les tous premiers travaux dans ce domaine ont porté sur l'étude des interfaces multimodales en entrée (communication de l'opérateur vers la machine) qui permettent la fusion synergique d'informations de nature différente produites en parallèle. Ces recherches ont permis de mettre en évidence de nombreux problèmes spécifiques à cette démarche.
Deux approches différentes ont été choisies pour modéliser les interactions multimodales.
La première, résultant des travaux de Y. Bellik (thèse soutenue le 30 mai 95), est fondée sur une extension du modèle des réseaux de transitions augmentés permettant une gestion très efficace des interactions multimodales. "SPECIMEN" est un système d'aide à la conception d'interfaces multimodales qui a été développé à partir de ce modèle et a été utilisé pour la réalisation de l'application MEDITOR (éditeur de textes pédagogique pour les non-voyants). Cet outil, développé initialement sur PC dans le prototype installé, pour évaluation, à l'INJA (Institut National des Jeunes Aveugles), est en cours d'adaptation pour son portage dans l'environnement Unix sur la plate-forme Multimodale du département CHM. Toujours dans le cadre de l'exploitation de la multimodalité dans les interfaces non visuelles, une étude sur l'accès à internet et notamment au WEB par des utilisateurs aveugles vient de commencer. Par ailleurs, une architecture complète d'un système multimodal a été proposée dans les travaux qui ont été menés en collaboration avec la Société Sextant-Avionique dans le cadre d'un contrat DRET. Cette architecture autorise, grâce à l'intégration de différents modèles d'expression et de traitement des connaissances (modèle de l'environnement, de l'utilisateur, de la tâche, etc.), une sélection dynamique des meilleures formes de présentation des informations échangées entre l'homme et la machine. Le problème de la multimodalité en sortie qui vise une présentation "intelligente" des informations a fait l'objet d'une recherche spécifique dans le cadre d'un stage de DEA d'informatique (M. Krus). L'analyse qui ressort de cette étude fait apparaître que le contrôle de ce processus sera réalisé par la prise en compte combinée de tous ces modèles de connaissance. Pour mettre en place un modèle de générateur "intelligent" de messages multimodaux, nous travaillons, dans un premier temps, plus spécifiquement sur les modèles de l'environnement et de l'utilisateur en relation avec des études sur la capture du contexte prises en charge dans le thème 1 (Vision par machine).
La seconde approche développée par J.C. Martin (thèse soutenue le 20 mars 1995) s'intitule TYCOON et propose un cadre théorique, un langage de spécification et un noyau multimodal. Le cadre théorique apporte des réponses aux questions "comment combiner plusieurs modalités ?" et "comment cette combinaison améliore-t-elle l'interaction ?". Des combinaisons de base ont été identifiées : transfert, équivalence, spécialisation, redondance, complémentarité. Chacune de ces combinaisons peut améliorer l'interaction de plusieurs manières : apprentissage de l'interface, amélioration de la reconnaissance... Le langage de spécification de TYCOON est un langage de commande permettant de décrire sous forme déclarative les combinaisons de base utilisées dans une interface et plusieurs critères de fusion : coïncidence et séquence temporelle, complétude structurelle. Enfin, le noyau multimodal utilise des Réseaux à Propagation Guidée couvrant plusieurs combinaisons de base et fournissant des scores de reconnaissance multimodale. Ces scores sont utilisés pour résoudre des ambiguïtés et sont obtenus grâce à trois caractéristiques. Premièrement, l'amplitude des signaux émis dans ces réseaux est proportionnelle au score de reconnaissance fourni par chaque modalité. Deuxièmement, si un événement d'une commande n'est pas détecté, un signal de plus faible amplitude se propage tout de même permettant la reconnaissance sans obliger l'utilisateur à répéter toute la commande. Troisièmement, la détection de coïncidence floue utilisée donne une note continue de la proximité temporelle (ceci permet à l'utilisateur d'être moins strict sur la séquence d'événements qu'il produit). TYCOON a été utilisé sur la plate-forme Multimodale du LIMSI pour développer COMIT, une interface multimodale créant des interfaces graphiques. COMIT utilise le système de reconnaissance vocal DATAVOX, la souris et le clavier. Les événements issus de ces périphériques sont datés par le serveur de modalités (EMUX) développé par M. Krus et sont ensuite intégrés par le noyau multimodal (cf. double page "coopérations entre modalités sous UNIX/X11").
Un autre projet mené dans ce thème concerne la conception de l'Unité de Contrôle (UC) d'une architecture parallèle multimodale à détection de coïncidence (Réseau à Propagation Guidée), chargée de réguler en cours de traitement les paramètres qui déterminent l'acquisition et l'activation de références internes (C. Toffano-Nioche). Les mécanismes de neuromodulation constituent une source d'inspiration pour définir la nature et les modes d'intervention de cette UC qui contient des procédures de régulation de paramètres (seuils, facteurs de transmission, retards) agissant sélectivement sur chaque module (modalité) de l'architecture. Cette approche est actuellement utilisée pour l'apprentissage par l'imitation, la modulation de la génération (cf. double page "Génération d'événements : apprentissage par l'imitation et modulation des représentations"), et sera exploitée ultérieurement pour contrôler les inférences dans un système de questions/réponses, ainsi que pour gérer l'apprentissage dynamique de formes.
Toutes ces recherches sur les systèmes multimodaux font l'objet de nombreux échanges scientifiques avec la communauté française travaillant dans ce domaine dans le cadre du GDR-PRC CHM. Récemment, nos relations avec le Center for Cognitive Science (CCS) de Roskilde au Danemark nous ont permis de déposer une proposition de contrats dans le cadre du programme ESPRIT I3. Dans le cadre d'un Réseau Formation-Recherche soutenu par le Ministère de la Recherche, deux sujets de collaboration avec l'Institut Régional des Sciences Informatiques et des Télécommunications (IRSIT) de Tunis, Tunisie ont été proposés. Le premier porte sur l'étude des interfaces multimodales pour non-voyants et le second sur l'exploitation de la multimodalité pour la résolution de problèmes de coupe industrielle.
THEME 6: ANALYSE DE SCÈNES AUDITIVES
D. Béroule, A. Lainé
Dans le cadre de ce thème, nous nous intéresserons plus spécifiquement à la reconnaissance de parole participant à une scène auditive qui comporte des signaux complexes et imprévisibles.
Alors que les approches habituelles d'Analyse de Scènes Auditives (A.S.A.) exploitent uniquement des techniques de traitement du signal (détection de voisement, décorrélation de sources) pour mettre en avant le signal utile, notre démarche consiste plutôt à :
1) extraire de la scène auditive des événements discrets qui cohabitent sans interférer dans l'espace spectral. Le séjour de J.L. Navarro a permis cette année de développer une analyse de type CONE-KERNEL,
2) créer par apprentissage une référence pour chaque configuration d'événements extraits des signaux utiles,
3) identifier en parallèle les signaux utiles de la scène auditive.
Cette stratégie "descendante" ayant déjà été appliquée à un vocabulaire réduit de mots isolés, les travaux réalisés cette année ont concerné la reconnaissance de parole continue sous deux aspects :
- la conception d'une technique de gestion de la variabilité fréquentielle (cf. double page "Reconnaissance de formes à 2 dimensions transformées en séries temporelles d'impulsions"),
- l'utilisation d'un codage temporel pour représenter simultanément les hypothèses de segmentation lexicale dans un Réseau à Propagation Guidée (RPG).
Le système résultant doit être testé prochainement sur la base de conversations simultanées "ShATR" développée à l'université de Sheffield dans le cadre du projet européen HCM-SPHERE auquel nous participons.
M.F. Castaing
Les modèles humains pour la conception d'interfaces homme-machine sont un réel problème pour l'ergonome dans le domaine des hautes technologies. Après plusieurs années de recherches pour proposer aux concepteurs des modèles de comportements humains, en IA (langage naturel écrit) et en traitement automatique de la parole (langage oral), nous avons orienté nos recherches sur un langage pouvant être facilement compris par l'humain et par la machine. En effet, la formulation de requêtes effectuées par un humain dans un langage reconnu de la machine demande des connaissances en linguistique pour la langue écrite et une élocution soignée en langue orale. Ces contraintes ne permettent pas de proposer des systèmes sophistiqués à des opérateurs naïfs, car ils nécessitent un apprentissage parfois lourd pour une utilisation occasionnelle. Le système de dialogue par icônes que nous proposons est fondé sur l'expression sous forme graphique de concepts de requêtes. Nous avons mis au point un système d'association de figures géométriques simples permettant de créer des images simplifiées d'objets réels représentant la finalité de la requête. Les différentes études effectuées sur une population de 150 personnes représentatives d'utilisateurs (masculins et féminins allant de 14 à 50 ans, d'univers sociaux différents) nous ont permis de dégager des icônes (créées et reconnues) ayant les mêmes traits communs,( les traits communs étant la spécificité d'un objet, les icônes auront, elles aussi, la spécificité de l'environnement de l'utilisateur) (cf double page Un autre langage d'interface dans la communication homme-machine : l'icone.). Nos perspectives de recherches dans les domaines inter-culturels devraient permettre la mise au point d'icônes à caractère << universel >>, c'est-à-dire pouvant être reconnues et comprises par une très large population.
PROJET MULTI-THEMES : SAMMOVAR
Le groupe IMM a depuis 4 ans le souci de fédérer au sein d'un même projet une grande partie de ses axes et thèmes de recherche (Vision, Modélisation 3d, Geste, Multimodalité, etc.).
C'est dans ce contexte qu'a été défini en 94 le projet SAMMOVAR (Système d'Acquisitions et de Manipulations Multimodales d'Objets Virtuels Associés au Réel). Cette année, les activités de recherche autour de cette plate-forme se sont traduites par :
- le lancement des projets CADRE (thème 1) et PADEM (thème 3),
- la poursuite du projet ROSA (thème 3) et des projets SAGA et ARGO (thème 4),
- la refonte de l'interface de MIX 3D pour la poursuite de la validation d'EMUX (Étude pour une Multimodalité sous UNIX/ X11 réalisée en 94 par P. Bourdot, M. Krus et R. Gherbi).
CONCLUSION :
Actuellement, les applications induites par nos recherches se focalisent vers deux domaines principaux qui sont d'une part la CAO pour le design concrétisé avec les projets ROSA PADEM et MIX3D et d'autre part l'aide au handicap avec les études sur le geste orientées en partie vers le traitement de la Langue des Signes Française et l'application MEDITOR, éditeur de texte multimodal pour les aveugles. Pour l'instant, nous poursuivons nos efforts vers ces domaines d'applications en espérant les voir déboucher vers des contrats de type industriel pour assurer le financement de matériel assez coûteux.
Nos participations aux enseignements (DEA, DESS, MIAGE, IUT,...) plus particulièrement dans le cadre de l'Université Paris XI, nous ont permis d'accueillir et d'encadrer de nombreux stagiaires. En 1995, deux thèses ont été soutenues et trois nouveaux étudiants en thèse ont commencé un travail de recherche. Un de nos objectifs, cette année, est de renforcer le nombre de chercheurs permanents pour soutenir notamment l'activité Multimodale en relation avec le projet Plate-Forme MultiModale du département CHM.
ACTIVITES D'ENSEIGNEMENT ET DIFFUSION DES CONNAISSANCES
- cours dans les 1er, 2e cycles et formation continue (DEUG, licence, maîtrise, MIAGE), Université Paris XI (Y. Bellik, A. Braffort, R. Gherbi, S. Gibet, J.C. Martin) ;
- cours, DESS Systèmes et Communication Homme-Machine, Université Paris XI :
"Analyse synthèse d'images", (R. Gherbi, L. P. Untersteller),
"Reconnaissance des formes", (S. Gibet),
"Fondements de l'intelligence artificielle", (S. Gibet) ;
- cours, DEA d'Informatique "Conception d'interfaces Homme-Machine", Université Paris XI :
"Multimédia et Multimodalité" (Y. Bellik, D. Teil),
"Communication Parlée" (F. Néel) ;
- cours, DEA "Systèmes Electroniques de Traitement de l'Information" (SETI), Université Paris XI :
"Représentation géométrique" (P. Bourdot),
"Synthèse d'images et animation" (A. Osorio),
"Interfaces graphiques sous MOTIF" (R. Gherbi),
"Communication Parlée" (F. Néel),
"Interfaces multimodales" (Y. Bellik),
"Analyse et génération du mouvement" (S. Gibet) ;
- cours, DEA d'Electronique "Electronique, Capteurs et Circuits Intégrés" (ECCI), Université Paris XI :
"Architectures, flots de données et programmation fonctionnelle pour le traitement d'images temps réel" (G. Quénot) ;
- cours, DEA des Sciences Cognitives, Université Paris XI :
"Modèles Psychophysiologiques et Systèmes Connexionnistes", (D. Béroule responsable du module jusqu'en 1994, intervenant en 1995) ;
- cours, 3ème année de l'Ecole Internationale des Sciences et du Traitement de l'Information (EISTI) de Cergy-Pontoise :
"Infographie et Modélisation Géométrique" (P. Bourdot) ;
- conférences dans des organismes de Formation Permanente (ACCT, Bordeaux) (F. Néel) ;
- professeur invité dans le Master en Salud Laboral y Condiciones de Trabayo de la Facultad de Medecina de l''Universidad de Sevilla (M.F. Castaing) ;
- participation au Salon "Sésames" à Paris, février 1996 (Y. Bellik, J.C. Martin) ;
- participation au Carrefour Orsay-Entreprises, février 1996 (F. Néel) ;
- participation et animation à "Sciences en Fête", octobre 1995 (M.F. Castaing).
- participation aux Journées "Portes Ouvertes" d'Orsay, février 1996 (R. Gherbi, S. Gibet)
RELATIONS SCIENTIFIQUES ET INDUSTRIELLES
Représentations scientifiques nationales :
- membres du Département Recherche du Département Informatique de l'Université Paris XI : P. Bourdot (vice-président), R. Gherbi, F. Néel, D. Teil ;
- membres de la commission de spécialistes du Département Informatique de l'Université Paris XI : D. Béroule (1994), P. Bourdot , S. Gibet , A. Osorio (1995) ;
- membres de l'association Association Française d'Informatique Graphique (AFIG) : G.P.Bonneau, P. Bourdot, R. Gherbi, P. Macé, D. Roussel ;
- membre du Bureau du Pôle "Parole" du GDR-PRC Communication Homme-Machine (CHM) : F. Néel jusqu'à fin 1994 ;
- membre du bureau du pôle "Interface Homme-Machine Multimodale" du GDR-PRC Communication Homme-Machine (CHM) : D. Teil ;
- membres du Groupe de Travail "Multimodalité : Modèles, Formalismes et Perspectives" du GDR-PRC Communication Homme-Machine (CHM) : Y. Bellik, J.C. Martin (co-animateur), F. Néel, D. Teil ;
- membre observateur du Groupe de Travail "Collecticiel et Systèmes Coopératifs" du GDR-PRC Communication Homme-Machine (CHM) : F. Néel ;
- membre d'un Groupe de Travail sur les systèmes connexionnistes à représentation temporelle et leur mise en oeuvre matérielle avec l'IEF et l'ENST : D. Béroule (jusqu'en 1994) ;
- membre du Groupe de Travail "Animation et simulation" du GDR-PRC Algorithmes, Modélisation et Infographie" (AMI) : S. Gibet ;
- membre du Groupe de Recherche GRCE (Groupe de Recherche en Communication Ecrite) - AFCET/TAE (Traitement Automatique de l'Ecrit) : C. Ménigault ;
- membre du Groupe de Travail "Ecrit et Document" dans le cadre du GDR-PRC CHM : C. Ménigault ;
- membre de l'atelier "Segmentation-fusion" du réseau CogniSeine (co-rédaction d'un projet de colloque) : J.C. Martin ;
- membre du Groupe de Travail de l'Observatoire Français des Techniques Avancées (OFTA) sur les "Nouvelles Interfaces Homme-Machine" : F. Néel ;
- membre du Comité d'experts français en Industries de la Langue et de la commission "Ethique de la Langue" du Conseil Supérieur de la Langue Française : F. Néel (jusqu'en 1995) ;
- rapporteur du club CRIN-CNRS "Ergonomie" depuis 1987 : M.F. Castaing ;
- correspondante de la Société d'Ergonomie de Langue Française (SELF) : M.F. Castaing ;
- membre du Comité de Rédaction du périodique "La Tribune des Industries de la Langue" : F. Néel (depuis 1990).
Représentations scientifiques internationales :
- membre du Groupe de Travail du projet LRE EAGLES sur l'évaluation des systèmes de dialogue : F. Néel ;
- fullmember de l'International Foundation for Industrial Ergonomics and Safety Research : M.F. Castaing ;
- membre expert au sein du Groupe OTAN RSG10 "Traitement de la Parole" : F. Néel (jusqu'à fin 1995) ;
- membre du Comité de relecture pour la revue internationale "Computer Aided Geometric Design", et pour la conférence "Eurographics'96" : G.P. Bonneau ;
- co-éditeur invité d'un numéro spécial sur les applications non télématiques des Technologies Vocales de Speech Communication : F. Néel ;
- co-éditeur des actes de l'école d'été (Juillet 95) et de l'école de printemps (Avril 96) du réseau doctoral en architecture de l'Université Paris XI : J.C. Martin.
Participation à l'organisation de manifestations scientifiques :
- organisation du séminaire LIMSI du département CHM : F. Néel, D. Teil ;
- membre du comité de programme de IHM'95, IHM'96 : D. Teil ;
- membre du Comité de Programme de "Informatique Montpellier 94, 95, 96 Journées Internationales sur l'Interface des Mondes Réels et Virtuels", février 94, juin 1995 : F. Néel (elle sera co-présidente de ce Comité en mai 96) ;
- membre du comité de programme de NSI'96, Marly-le-Roi, mai 96 : D. Béroule ;
- membre du comité scientifique de l'école d'été du GDR-PRC CHM, Pôle Parole sur "Fondements et Perspectives en Traitement Automatique de la Parole, Marseille-Luminy, juillet 1995 : F. Néel ;
- membre du comité scientifique du séminaire INSERM-ANPEA "Interfaces multimodales pour handicapés visuels", Paris, 7 novembre 1994 : F. Néel ;
- membre du comité de programme du second Colloque des Jeunes Chercheurs en Sciences Cognitives, juin 1996 : J.C. Martin ;
- organisation d'un séminaire sur le thème "Images et Langages", le 21 Mars 1995, Paris : J.C. Martin ;
- membre du comité scientifique de ESCA Workshop on Spoken Dialogue Systems, Theories and Applications, Vigso, Danemark, May 30- June 2, 1995 : F. Néel.
Représentation pour le transfert industriel :
- transfert technologique et de savoir-faire, liaison et contacts avec les autres Laboratoires, les Universités et l'Industrie (MIT95, pépinières d'entreprises...) : J. Rivaillier.
Collaborations scientifiques au niveau national :
- équipe de Traitement d'Images et du Signal (ETIS) de Cergy-Pontoise sur le thème "Reconstruction d'objets 3D par stéréo-acquisition" (P. Bourdot, R. Gherbi, D. Roussel);
- équipe CREARE de l'INSERM et l'Institut National des Jeunes Aveugles (INJA) concernant les applications de la multimodalité dans les systèmes informatiques pour les handicapés visuels (Y. Bellik, F. Néel, D. Teil) ;
- équipe "Modélisation Géométrique et Approximation" du LMC (Grenoble) sur le thème "analyse multirésolution par des espaces non-emboités" (G.P. Bonneau) ;
- Laboratoire de Recherche en Informatique (LRI), l'Institut d'Electronique Fondamentale (IEF) et le Laboratoire de Physiologie du Mouvement (LPM) dans le cadre du Département Informatique de l'Université Paris XI (Pôle Paris-Sud en Informatique (PPSI) et contrat quadriennal pluri formation) : Y. Bellik, G.P. Bonneau, A. Braffort, R. Gherbi, S. Gibet, T. Lebourque, F. Néel, A. Osorio, D. Teil ;
- Laboratoire d'Informatique Fondamentale et Appliquée de Cachan (LIFAC) sur le thème "Détection de mouvements pour la construction d'un modèle de l'utilisateur" (C. Collet, R. Gherbi, S. Gibet) ;
- Laboratoire Système de Perception de la DGA/ETCA à Montrouge (G. Quénot) ;
- Ecole Nationale des Télécommunications de Paris (ENST) sur les thèmes "Le geste graphique et multimodalité" (P. Bourdot, S. Thabet), et "Transmission d'informations multimodales à haut débit" (R. Gherbi, P. Bourdot) ;
- Ecole des Mines de Nantes (P. Macé) ;
- Ecole d'Architecture de Paris La Vilette (P. Macé) ;
- Centre de Morphosyntaxe du Français Contemporain du Professeur M.A. Morel de Paris III (F. Néel).
Collaborations scientifiques au niveau international :
- IPO d'Eindhoven (Pays-Bas) sur le dialogue multimodal et les modèles connexionnistes (H. Ruellan, D. Béroule, F. Néel) ;
- Institut Régional des Sciences Informatiques et des Télécommunication (IRSIT) de Tunis (Y. Bellik, D. Teil) ;
- Center for Cognitive Science (CCS) de Roskilde au Danemark pour les recherches sur les interfaces et les systèmes multimodaux (Y. Bellik, J.C. Martin, F. Néel, D. Teil) ;
- équipe "Computer Aided Geometric Design" du département d'informatique de l'université d'état d'Arizona (Tempe, USA) (G.P. Bonneau) ;
- laboratoires membres du réseau FRANCIL (Réseau FRANCophone de l'Ingénierie de la Langue) de l'AUPELF-UREF : F. Néel (adjointe au coordinateur depuis 1994), M. Garnier-Rizet.
CONVENTIONS AVEC DES ORGANISMES SCIENTIFIQUES OU INDUSTRIELS :
au niveau national :
- contrat GDR-PRC CHM, Projet DALI "Langue et Dialogue" en collaboration avec les Groupes Langage et Cognition et Cognition Humaine : F. Néel (responsabilité au niveau du Groupe Communication Parlée en 1994) ;
- contrat de projet ndeg.7 du programme d'actions SHS-SPI "Systèmes de Production" : P. Bourdot (co-responsable avec J.C. Lebahar de l'Ecole d'Architecture de Marseille-Luminy) ;
- contrat DRET avec Sextant-Avionique pour la définition d'un modèle formel de grammaire multimodal en collaboration avec le Groupe de Communication Non-Verbale : Y. Bellik, F. Néel (co-responsable) et D. Teil (co-responsable) ;
- contrat DRET pour une mission exploratoire en Ukraine sur le thème "Communication Homme-Machine" : F. Néel (responsable), D. Teil ;
- contrat avec la société TETRASYS (Paris), "Ergonomie des interfaces", 1995 : M.F. Castaing.
au niveau international :
- ELSNET Survey of organizations engaged in Language Engineering in Central and Eastern Europe and in selected Newly Independent States (avec Université of Edinburgh (HCRC) (GB), Université de Saarland, Saarbrücken (Allemagne)) : F. Néel (responsasbilité) ;
- HCM (Human Capital and Mobility) CHRX-CT9-30098-SPHERE "From Articulation to Perception" (avec universités de Sheffield (GB), de Keele (GB), de Patras (Grèce), d'Edinburgh (GB), de Barcelone (Espagne), de Lausanne (Suisse), de Grenoble (ICP) (France)) (responsabilité D. Béroule qui est membre du Steering Committee) ;
- programme ERASMUS "Phonetics and Speech Communication" (27 laboratoires européens) (responsabilité M. Eskénazi et D. Béroule).
DptCHM |
|
Sommaire
|
| Présentation |
|
---|