Département "Communication Homme-Machine"

___________________________

J. Mariani

Plateforme de Communication Homme-Machine Multimodale

Groupe Traitement du Langage Parlé
Groupe Langage et Cognition
Groupe Interaction et Multi-Modalités
Groupe Cognition Humaine

Une Communication au service de l'Homme

L'objectif général est de correspondre à un besoin, présent ou futur, de la société dans les rapports utilisateur-machine, suivant le thème de la "Communication au service de l'Homme". Il convient de prévoir la manière dont ces rapports vont évoluer en fonction des nouvelles technologies disponibles, en particulier avec la spectaculaire augmentation de l'accès interactif aux informations multimédias en quantité croissante, alors que l'accès intelligent à ces informations fait apparaître de très nombreux problèmes scientifiques encore ouverts, et que se posent des enjeux sociétaux et économiques majeurs (accès à l'information pour tous, plurilinguisme, internationalisation et accélération des prises de marché...).

Pour mener une réflexion sur l'identification de la demande de société et sur la façon d'y répondre, C. Henry, spécialiste des questions socio-économiques liées à l'innovation, est venu rejoindre le laboratoire au début 1995. L'importance accordée à ces questions lors des manifestations nationales organisées pour les 20 ans du Département des Sciences pour l'Ingénieur du CNRS, a conduit à la mise en place, sur son initiative, d'un groupe de travail national "Perspectives en Communication Interactive", qui fait coopérer des chercheurs du SPI et du SHS et des industriels sur ce thème. On retrouvera le même souci de coopération entre ces deux communautés dans les programmes "Cognition, Communication Intelligente, Ingénierie des Langues" et "Systèmes de Production", auxquels le laboratoire collabore très activement.

Une approche pluridisciplinaire

Les recherches menées au sein du département portent sur l'ensemble des modes de communication entre l'homme et la machine, verbaux et non-verbaux : communication par le langage écrit et parlé, communication par le geste et communication visuelle. Chaque mode comprend des aspects de perception (analyse et compréhension de textes, reconnaissance de parole, de scènes visuelles, de caractères, de gestes ergotiques ou sémantiques) et de production (génération de textes, synthèse vocale, synthèse d'images ou de gestes). L'intégration de ces différents modes fait l'objet d'une recherche spécifique. Les aspects cognitifs (représentation des connaissances, génération de plans, raisonnement, apprentissage...) sont partout sous-jacents.

Le département "Communication Homme-Machine" réunit un remarquable ensemble interdisciplinaire d'expertises, couvrant les différents modes de communication, avec des points de vue variés, suivant les disciplines. Il fait collaborer des chercheurs des Sciences Pour l'Ingénieur (informaticiens, spécialistes de Traitement du Signal et de Traitement de l'Information, spécialistes d'Intelligence Artificielle) avec des linguistes (phonéticiens, sémanticiens, psycholinguistes), des chercheurs en psychologie cognitive, des ergonomes et un sociologue. Le département a été créé en 1987. Sa structure actuelle fait apparaître quatre groupes: "Traitement du Langage Parlé" (TLP), "Langage et Cognition" (LC), "Interaction et Multi-Modalités" (IMM) et "Cognition Humaine" (CH), créé en 1992 dans le cadre d'une ATIPE du programme interdisciplinaire de recherche (PIR) du CNRS "Cognisciences".

La prise en compte des besoins de la société et la pluridisciplinarité seront donc des éléments-clefs que l'on retrouvera dans la poursuite des recherches, théoriques et appliquées, qui sont menées au laboratoire.

Une présence scientifique internationale

La place du laboratoire sur la scène nationale et internationale est reconnue. Nous sommes noeud principal du réseau d'excellence Esprit BRA Elsnet (European Language and Speech Network) depuis sa création (J. Mariani est membre du bureau exécutif d'Elsnet). Plusieurs actions ont été menées en direction de collaborations avec les Pays d'Europe de l'Est (contrat Intas, étude pour la CEE, projet Copernicus Babel, bourses du programme PECO, thèses en co-tutelle). Nous sommes parmi les 4 laboratoires non-américains (avec le CRIM (Canada), l'Université de Cambridge (GB) et le Centre de recherche de Philips (Allemagne)) à avoir participé au programme américain Darpa depuis qu'il a été ouvert à la communauté internationale en 1992. Nous installons au Limsi le site miroir européen du Free Speech Journal, premier journal électronique sur la Communication Parlée. Après avoir été très moteur dans le lancement de l'Association Européenne pour la Communication Parlée (ESCA), en la présidant (J. Mariani) de 1989 à 1993, nous avons participé très directement cette année à la création et au lancement de l'association européenne pour la diffusion des ressources linguistiques (ELRA). Nous coordonnons par ailleurs le réseau Capital Humain et Mobilité "Imagery, Language and Representation of Space", soutenu par la CEE (M. Denis).

L'effort français et francophone

En 1994, nous avons lancé un réseau Francophone de l'Ingénierie de la Langue (Francil) dans le cadre de l'Aupelf-Uref, incluant des programmes (Actions de Recherche Coordonnées) axés sur l'évaluation des systèmes de traitement automatique du langage écrit et parlé à partir de corpus, et d'autres (Actions de Recherche Partagée) complétant le dispositif par la mise en place de collaborations Nord-Sud (J. Mariani et F. Néel, coordonnateurs). Nous sommes également co-responsables avec l'Inalf d'un programme commun entre les départements SPI et SHS du CNRS sur le thème "Cognition, Communication Intelligente et Ingénierie des Langues" (J. Mariani et R. Martin, de l'Inalf). Enfin, nous participons (J. Mariani et G. Vignaux) dans le cadre du Comité Consultatif Interministériel pour le Traitement Informatique des Langues (CTIL) à la réflexion qui y est menée, sous la présidence d'A. Danzin, sur la place de la France et du français dans l'effort international en matière de recherche et développement en génie linguistique.

Notre rôle est également important dans le domaine des Sciences Cognitives, notamment dans le cadre de l'Association pour les Recherches Cognitives (ARC, dont G. Sabah et M. Denis ont été successivement présidents), dans le PIR Cognisciences (responsabilité du réseau Ile-de-France Sud (G. Sabah)) et dans le GIS Sciences Cognitives (dont G. Vignaux est directeur-adjoint, tout en étant conseiller à la MST du Menesrip pour ce domaine scientifique).

Progrès et résultats

1995 a vu se confirmer la qualité de nos résultats de recherche et se renforcer la synergie entre les groupes qui composent le département. La restructuration du département "Communication Homme-Machine" a fait l'objet de nombreuses réflexions, faisant intervenir l'ensemble des permanents du département, ou les cadres de celui-ci. Cela nous a conduit à une structure qui permet un meilleur équilibre entre les groupes, en recentrant les activités en traitement de la langue parlée sur l'objet de ses recherches et en renforçant le groupe Communication non-verbale par des activités de nature multimodale (structures du dialogue et modèles connexionnistes portant sur les relations perception-action). Cette structure s'accompagne d'opérations transversales (Plate-Forme CHMM, séminaires et club de lecture, mise en commun de ressources, d'outils et de moyens d'évaluation).

TLP: des résultats évalués au meilleur niveau international

Le groupe "Traitement du Langage Parlé" a confirmé son excellent niveau international. Cela est apparent dans les tests d'évaluation des systèmes de reconnaissance vocale conduits aux Etats-Unis par le DARPA (Département de la Défense), ouverts depuis 1992 aux laboratoires non-américains. Trois laboratoires européens ont ainsi rejoint le programme (Université de Cambridge, Philips-Aix la Chapelle et le Limsi). Dès la première campagne de tests, portant sur la reconnaissance d'un vocabulaire de 1000 mots (tâche "Ressource Management"), le Limsi a obtenu des performances au meilleur niveau, bien que ces tests portent sur la langue anglaise. Depuis, nous avons participé à chaque campagne et les résultats du Limsi ont toujours figuré parmi les 3 meilleurs, sinon les meilleurs (à deux reprises), dans une compétition internationale forte mais très motivante, à côté de laboratoires aussi illustres qu'AT&T Bell Labs, CMU, MIT Lincoln Lab, BBN ou SRI. Nous traitons à présent la tâche de dictée vocale (tâche "North American Business News" (NAB)) avec des vocabulaires de plus de 65 000 mots, en parole continue et multilocuteur. Une approche similaire est utilisée pour traiter la compréhension de la parole, la reconnaissance du locuteur et de la langue parlée, par téléphone. Ces recherches sont soutenues par de très nombreux contrats de la CEE (Esprit Mask, LRE Sqale, Mlap Railtel) ou de l'industrie (France Telecom, CNET, Sextant Avionique). Elle portent principalement sur la langue française, mais d'autres langues sont également traitées (anglais américain et britannique, allemand, espagnol). Elles traitent les problèmes que l'on trouve dans la réalité (parole spontanée, bruit, différents types de microphones...), et c'est cette confrontation avec la réalité qui donne la mesure de la qualité des méthodes développées par le laboratoire, dans des projets comme Mask, où le système de compréhension de parole développé par le laboratoire doit prochainement être validé par une utilisation opérationnelle dans le contexte d'une gare...

Toujours dans le domaine de la communication parlée, les efforts ont porté sur la synthèse vocale avec des modèles hybrides (contrat avec Philips pour l'aide à la navigation automobile). D'autres recherches fondamentales portent sur l'intonation, la qualité de voix et le style d'élocution, la simulation numérique de l'onde glottique et la perception, en vue d'une meilleure paramétrisation du signal vocal. Les études sur l'analyse et la synthèse de la parole se complètent naturellement par des travaux en acoustique musicale sur la perception et la synthèse de voix chantée et d'autres instruments musicaux. L'étude des processus d'apprentissage fait l'objet d'une attention toute particulière, car c'est une direction de recherche complexe à mettre en oeuvre mais très prometteuse. Une méthode nouvelle d'extraction robuste de traits prosodiques, domaine particulièrement difficile et important, a apporté d'excellents résultats. Des coopérations ont été établies avec l'hôpital Avicenne et l'hôpital Saint-Antoine, sur les applications de nos recherches au domaine des implants cochléaires. Les approches de la physique statistique (recuit simulé, Monte-Carlo) ont été appliquées à la modélisation du langage.

LC: aux confins du langage et de la cognition

Le groupe "Langage et Cognition" a fêté ses 10 ans de présence au LIMSI en 1995. Cela lui donne l'occasion d'une réflexion épistémologique approfondie sur son domaine de recherche que l'on trouvera dans ce rapport. Le groupe s'est légèrement restructuré cette année et cela l'a conduit à diminuer le nombre de thèmes, qui est passé de 8 à 6 (disparition des thèmes "Flexibilité" et "Modèles Connexionnistes" et élargissement du thème "Génération de textes" pour inclure également l'analyse). Il continue de mener ses recherches autour d'une architecture distribuée (Caramel), mais la signification de l'acronyme a changé, pour mieux refléter l'évolution du contenu scientifique des recherches: "Conscience, Automatismes, Réflexivité et Apprentissage pour un Modèle de l'Esprit et du Langage". Ce titre reflète bien le caractère exploratoire des travaux du groupe, à la frontière du langage et de la cognition.

Ses travaux sur l'architecture distribuée l'ont conduit au modèle du "Carnet d'Esquisses", qui est une extension du modèle de "Tableau Noir", désormais classique en Intelligence Artificielle. Le rôle essentiel de l'apprentissage, numérique ou symbolique, est souligné. Les recherches en dialogue ont été poursuivies dans le cadre de projets nationaux (DALI et Rapsodie), et également en coopération avec la SNCF (bourse CIFRE). Ils incluent le traitement des actes de parole indirects, en ayant pour objectif de modéliser les croyances et les intentions de l'utilisateur. Les travaux en génération de texte sont appliqués à l'apprentissage des langues, et à l'aide aux handicapés-moteurs (avec le Centre de Kerpape et Thomson-CSF). Ils comportent également une composante psycho-linguistique. Dans le cadre de l'élargissement du thème à l'analyse, ils sont complétés par des opérations nouvelles: production automatique de résumés, reformulation de textes scientifiques, identificatication des valeurs aspectuo-temporelles d'un texte. Les travaux en matière de représentation sémantique sont conduits en collaboration avec des linguistes, en utilisant le formalisme des graphes conceptuels de Sowa. Ils incluent l'étude de la représentation des métaphores, de l'extraction d'informations terminologiques (dans le cadre de deux actions soutenues par l'Aupelf-Uref), des relations entre dictionnaire et hypertexte (dans le cadre d'une action du programme SPI-SHS CCIIL). Un groupe de travail a été mis en place sur la sémantique lexicale. Par ailleurs, un groupe de travail national "Geste et Communication" est animé par F. Forest, sur l'étude de la langue des signes (LSF). Les recherches sur la représentation des informations temporelles, qui ont conduit à proposer le concept d'intervalles généralisés, sont maintenant étendus à la représentation spatiale. Ces travaux sont conduits en coopération avec le groupe Cognition Humaine (en particulier dans le cadre d'un contrat avec Renault. pour l'aide à la navigation automobile). Le groupe "Langage et Cognition" a effectué de très gros efforts ces dernières années pour mettre en place un puissant environnement informatique de développement en génie linguistique (modularité, réutilisabilité, convivialité, représentation graphique, accès aux outils et aux ressources...). Il devrait cueillir prochainement le fruit de cet investissement important.

IMM: du "Non-Verbal" à l'intégration multimodale

Le groupe "Interaction et Multi-Modalités" continue à prendre en compte la communication par les autres voies que le langage écrit ou parlé (vision, image, geste), mais a élargi également son activité à la suite de la restructuration du département pour inclure certains aspects des modalités vocales et auditives, dans le cadre du dialogue multimodal à composante vocale et de l'utilisation de méthodes connexionnistes à propagation guidée, pour traiter des différentes modalités et de leur intégration. Les activités en Modélisation 3D et synthèse d'images se sont renforcées ces dernières années par le recrutement de deux chargés de recherche au CNRS (dont l'un devrait malheureusement nous quitter prochainement). Les activités en vision par ordinateur et en communication gestuelle par le recrutement de deux Maîtres de Conférence. Suivant les recommandations du Conseil Scientifique 1994, de nombreuses collaborations ont été mises en place dans les différents secteurs d'activité du groupe et l'effort a été placé sur ce qui est spécifique de la communication homme-machine. Il nous semble également essentiel de considérer les aspects de communication à distance, rendue possible par les réseaux hauts-débits qui se mettent en place. Nous faisons partie du projet Mirihade, qui devrait permettre de mener deux actions allant dans ce sens.

En vision par ordinateur, une des directions qui est mise en place est la capture de contexte: suivi du mouvement du corps, de la tête, des mains ou des yeux en situation de communication. Dans ce cadre, des collaborations ont été initialisées avec le LRI (projet commun de cyberespace) et le LIFAC (doctorant en commun). Plusieurs approches sont expérimentées sur la reconnaissance de caractères et un système de codage pour la reconnaissance optique existe sous forme de prototype industriel. Des résultats au meilleur niveau international ont été obtenus sur le calcul du flot optique sur des données de test mises à la disposition de la communauté scientifique. La méthode utilisée dans ce cadre (programmation dynamique) vient de travaux initiaux en reconnaissance vocale. En synthèse d'images, la structure des données du modeleur 3D Sculptor II a été entièrement repensée pour étudier une architecture multimodale de l'interaction homme-machine dédiée à la conception graphique d'objets 3D (MIX3D: Multimodal Interaction in a X environment with a 3D virtual space), sous Unix/X11 et GL. Par ailleurs, une collaboration a été menée avec le LRI sur les aspects algorithmiques, et nous collaborons avec l'Ecole des Mines de Nantes et l'Ecole d'Architecture de Paris-La Villette sur la modélisation géométrique interactive. Les travaux relatifs à l'animation de présentations graphiques nous ont conduit à proposer des méthodes originales d'interpolation et de métamorphose spatiale. Le couplage analyse-synthèse visuelle est une direction de recherche privilégiée (projet ROSA, qui nous fait collaborer avec l'ETIS de Cergy-Pontoise (doctorant commun)) et une collaboration a été lancée avec l'ENST, dans le cadre de la communication via des réseaux à haut débit et du projet PADEM (Planche à Dessin Electronique Multimodale) (doctorant en commun).

La communication gestuelle (à l'aide d'un gant numérique) fait également l'objet d'un effort important en vue de la réalisation d'un modèle sensori-moteur pour l'analyse cinématique et dynamique du mouvement, en collaboration avec le Laboratoire de Physiologie du Mouvement (LPM) de Paris XI (et avec le soutien du Pôle Paris-Sud Informatique). L'utilisation pour la langue des signes (LSF) est étudiée par ailleurs en collaboration avec le groupe Langage et Cognition. Des algorithmes développés pour la reconnaissance vocale ont été adaptés à la reconnaissance du geste. Des progrès importants ont été accomplis en communication multimodale. Deux systèmes différents (Specimen et Tycoon), basés sur deux approches différentes (ATN et Réseau à Propagation Guidée) ont été développés, puis implantés dans un environnement Unix, grâce au développement antérieur d'un serveur de modalités (Emux). Des applications à la création d'objets graphiques utilisant conjointement la voix, un écran tactile et l'image (LimsiDraw), à la réalisation d'un éditeur de texte pour non-voyants (Meditor, en collaboration avec l'Inserm et l'INJA), à la construction d'interfaces graphiques (Comit) ont été réalisées. Le projet MIX3D a conduit à la réalisation d'un système mêlant parole et interaction graphique qui va servir de plate-forme expérimentale pour étudier l'apport de l'interaction multimodale en CAO. Enfin une étude a été menée pour la DRET, avec Sextant Avionique, sur la modélisation de la multimodalité. Les travaux en analyse de scènes auditives pour l'extraction du signal utile noyé dans des signaux complexes et imprévisibles sont menés dans le cadre du projet européen Sphere. Dans le thème Ergonomie, l'utilisation d'icones est étudiée et comparée aux autres modes de communication, et cette étude a fait l'objet d'un contrat avec la société Tetrasys.

CH: l'éclairage de la psychologie cognitive

Les activités du groupe "Cognition Humaine" viennent compléter harmonieusement celles des 3 autres groupes, en matière de cognition spatiale, de mécanismes de compréhension de textes, et d'acquisition et de représentation des connaissances. Le groupe a été créé en 1992, avec le soutien d'une ATIPE du programme Cognisciences pour 4 ans. La fin de cette action a fait l'objet d'un bilan très positif sur les résultats obtenus, lors d'une réunion spécifiquement organisée à cet effet, et un document de synthèse a été produit. L'absence du soutien promis par les directions scientifiques au terme de l'ATIPE, bien qu'il soit corrigé cette année par un soutien du GIS Sciences Cognitives, est cependant une source de vive préoccupation. Il apparaît que des coopérations existent à présent entre ce groupe et chacun des trois autres: avec les spécialistes de la parole pour des études en perception et en variabilité des descriptions langagières, avec ceux du langage pour la représentation spatio-temporelle et les modèles neuronaux, avec ceux du non-verbal pour la communication multimodale. Une thèse a été préparée et soutenue en 1995, avec un encadrement commun "Langage et Cognition" et "Cognition Humaine", qui se poursuit par un Post-Doc à l'Université Laval du Québec. Des recherches ont été menées pour Renault sur l'aide à la navigation automobile, également avec le groupe "Langage et Cognition". D'autres sont menées pour la DRET (sur "l'élaboration de cartes cognitives" et sur "la vigilance et la charge attentionnelle") et EDF ("aide à la décision pour les interventions de maintenance"). Une coopération a été mise en place, au sein du GIS "Sciences de la Cognition", avec le Service Hospitalier Frédéric-Joliot (CEA-Hôpital d'Orsay) et le Laboratoire de Physiologie de la Perception et de l'Action (LPPA, CNRS-Collège de France) pour l'étude de l'activité cérébrale dans des tâches cognitives. Le GIS "Sciences de la Cognition" a apporté son soutien à un ensemble d'expérimentations sur ce thème. Enfin, le laboratoire a été l'un des quatre partenaires de l'Axe Thématique National Cognisciences "Représentation de l'Espace". Une coopération CNRS-NSF a été établie avec la Northeastern University (Boston) sur la compréhension des métaphores. Enfin, outre les rôles d'animation scientifique nationale et internationale de plusieurs membres du groupe, on pourra souligner que M. Denis est responsable d'un réseau européen Capital Humain et Mobilité sur le rôle de l'image et du langage dans la cognition spatiale. On mentionnera également la publication de nombreux ouvrages de référence par les membres du groupe ces dernières années.

Les Actions Incitatives pour aider la pluridisciplinarité

Le principe des actions incitatives internes au Limsi permet d'encourager la plurisdisciplinarité, un des critères de sélection étant la coopération entre des groupes du laboratoires. De fait, on notera, depuis 1994, des actions en nombre croissant allant dans cette direction. En 1993, on n'en comptait qu'une seule ("Analyse des métaphores cognitives" (CP + CH)) sur 4 AI dans le département. En 1994, il y en avait 3 sur 4 ("Perception de la hauteur tonale" (CP + CH), "Mémoire sémantique" (LC + CH) et "Mémorisation des configurations spatiales" (LC + CH)). En 1995, 6 actions sur 7 ("Simulation numérique de l'onde glottique" (Dynamique des Fluides + TLP), "Analyse des intentions dans un dialogue homme-machine" (TLP+LC), "Réalisation d'un serveur linguiste" (TLP+LC), "Utilisation de grammaires d'unification pour le traitement du langage parlé" (TLP+LC), "L'expression gestuelle vue comme une aide à la représentation informatique des connaissances" (IMM+LC), "Conception et utilisation de représentations iconiques pour le dialogue homme-machine" (IMM+LC), "Evaluation ergonomique de systèmes d'interrogation vocale de bases de données" (TLP+CH)). Et, en 1996, 2 actions sur 3 ("Segmentation et transcription de séquences vidéo" (IMM+TLP) et "Etude et développement d'un module d'interprétation de descriptions spatiales multimodales" (IMM+LC)). On notera en particulier la forte participation du groupe "Cognition Humaine" dans beaucoup de ces actions, montrant son excellente intégration dans le laboratoire.

Evaluation et ressources

En matière de traitement automatique du langage, écrit ou parlé, le paradigme d'évaluation a pris une importance considérable. Il consiste à mettre en place, en parallèle avec un projet, les moyens, corpus de textes et de parole, outils, méthodes et protocoles d'évaluation, qui permettront de construire les systèmes, de mesurer de manière assez formelle les progrès accomplis et de comparer de façon détaillée les méthodes entre elles sur des données communes. Aux États-Unis, ce paradigme a contribué au succès du programme DARPA (20 M$ annuels depuis 1984). Il est cependant regrettable qu'il soit nécessaire d'évaluer les systèmes développés en France, ou plus généralement en Europe, dans des tests organisés aux Etats-Unis sur l'anglais américain ! Fort heureusement, des actions similaires débutent aussi en Europe. Dans le domaine de l'évaluation, avec une réflexion conduite par l'Evaluation Study Group, mis en place par la Commission Européenne, à laquelle nous avons participé. Nous avons été par ailleurs partenaire du projet LRE Sqale, sur l'évaluation des systèmes de reconnaissance vocale dans un contexte multilingue. Nous avons également lancé une action sur l'évaluation des analyseurs morpho-syntaxiques (GRACE) dans le cadre du programme SPI-SHS "Cognition, Communication Intelligente, Ingénierie des Langues", qui organise une campagne de test durant l'année 1996. Trois personnes du Limsi (G. Adda, N. Lucas et J. Mariani) font partie du comité d'organisation et 21 laboratoires, dont 9 laboratoires industriels (y compris le laboratoire américain AT&T Bell Labs), et 12 laboratoires publics (dont 3 laboratoires allemands et 2 laboratoires suisses) y participent. Les difficultés budgétaires du CNRS ont malheureusement retardé cette action. Nous avons également contribué, en tant que coordonnateur du réseau Francil, à la définition et à la rédaction de l'appel d'offre des Actions de Recherche Concertées (ARC) de l'Aupelf-Uref, en proposant de les faire porter sur l'évaluation des systèmes de traitement automatique du langage écrit et parlée (en Français). 7 thèmes ont été retenus pour ce programme, d'une durée de 4 ans et d'un budget prévisionnel de 12 MF. L'appel d'offre a recueilli une centaine de réponses, et une soixantaine de projets ont été retenus. Là aussi, le retard dans la mise en place des budgets a retardé le programme, mais la première campagne de test doit se terminer début 1997.

Nous sommes également très présents dans le domaine des corpus et des ressources linguistiques, de par notre participation aux projets LRE-Relator et EuroCocosda, Mlap-Speechdat et Copernicus-Babel. Plus généralement, par notre participation à des groupes de travail internationaux (Elsnet Resource Reusability Task Group, Eagles, Cocosda). Nous avons très activement participé à la mise en place de l'Association Européenne pour les Ressources Linguistiques ELRA, lancée en 1995. L'association compte à présent 70 membres institutionnels et 30 ressources étaient au catalogue en avril 1996. Nous avons acquis une expérience en matière de constitution de corpus dans la réalisation du corpus Bref, dont 2 versions sont d'ores et déjà distribuées (Bref-80 et Bref-Polyglot), la version complète (25 CDRoms) devant être rendue disponible dans le cadre des actions de l'Aupelf-Uref. Nous avons prolongé cet effort par la réalisation d'un corpus de langue anglaise multi-accents (TED), par la promotion d'une action internationale sur les textes de journaux (NEWS), par l'actuelle constitution d'un corpus oral de demandes d'informations sur le trafic aérien (ATIS) et ferroviaire (MASK), et d'importants corpus de voix téléphonique dans le cadre de contrats avec France Telecom. Dans le domaine de l'écrit, une autre action interne au laboratoire porte sur l'utilisation de corpus monolingues pour la constitution de dictionnaires bilingues, et une action incitative a permis de mettre en place un serveur linguistique pour l'ensemble du département. Cette action prépare le projet Silfide (Serveur Interactif pour la Langue Française, son Identité, sa Défense et son Etude"), soutenu conjointement par le CNRS et l'Aupelf-Uref. Ce projet vise à constituer un réseau de serveur de ressources linguistiques, chaque laboratoire mettant à la disposition des partenaires les ressources qu'il a produites, et qu'il met régulièrement à jour. Les partenaires peuvent utiliser ces données pour développer et tester des outils linguistiques, qu'ils peuvent ensuite mettre à disposition sur ce même réseau de serveurs. Un appel d'offres a été lancé, et 5 laboratoires ont été retenus (Clips, Crin, Inalf, Limsi (G. Adda et X. Briffault) et LPL) pour cette première phase, qui porte essentiellement sur les ressources en français écrit.

Communication multimodale et apprentissage multimodal

L'utilisation conjointe des différents modes de communication permet de mettre en place une communication plus naturelle et plus efficace entre l'homme et la machine. Elle pose par contre des problèmes difficiles à résoudre d'extraction du sens à partir d'informations provenant de différentes sources comme celui de la co-référence lorsqu'on désigne par le geste un objet, en accompagnant cette action d'une commande verbale ("Mets ça ici."), ou que le sens d'une commande nécessite l'intégration d'informations visuelles, gestuelles et langagières ("Mets ce vase sur la petite table en marbre."). Intégrer en surface des modules préexistants pour ces différents modes nous semble illusoire. Notre conviction est qu'il est nécessaire d'étudier chacun de ces modes de communication comme un domaine de recherche en soi afin de pouvoir relier les informations issues de ces différents modes à un niveau profond pour dégager le sens global du message transmis.

Si la communication multimodale présente un intérêt certain, il apparaît aussi que l'être humain apprend l'un de ces modes en même temps que les autres, et non pas indépendamment. L'acquisition du langage parlé ira avec la découverte du toucher, de la vision, du mouvement... On peut donc penser que, dans le long terme, il sera nécessaire de pouvoir mélanger des stimuli venant de différents modes, geste, parole, vision, pour apprendre les modèles relatifs à chacun d'entre eux, dans le cadre d'un apprentissage multimodal basé sur une approche symbolique, statistique ou neuronale. Cela suppose l'existence de bases de données multimodales annotées, dont la réalisation et l'exploitation sont très lourdes. Nous avons commencé à travailler pour la constitution de telles bases dans le cadre d'un contrat avec Renault, faisant collaborer les groupes "Cognition Humaine" et "Langage et Cognition".

Un projet de plate-forme de communication homme-machine multimodale

Dans le prolongement des Actions Incitatives, un projet d'Action sur Programme interne, pluriannuelle et menée dans le cadre des axes prioritaires du SPI (axe "Machines et structures Intelligentes"), avec le soutien des actions concertées entre les Départements SPI et SHS (programme "Cognition, communication intelligente et ingénierie de la langue" et "Systèmes de production") a été mis en place. Le thème de cette action est la communication multimodale, et concerne donc l'ensemble du département CHM. Cette action fait intervenir des éléments d'analyse de scènes stéréoscopiques, de modélisation tridimensionnelle, d'analyse du langage et de représentation des connaissances (en particulier temporelles et spatiales), de communications parlée et gestuelle. Elle inclut l'élaboration, la structuration et la gestion de bases de données multimodales. Il est prévu d'utiliser le paradigme d'évaluation pour mesurer les progrès de la recherche et comparer différentes méthodes sur de mêmes bases. En corollaire, il s'agira de correspondre à des besoins ressentis par les chercheurs dans leur dynamique scientifique propre: besoin de pouvoir tester des hypothèses avec un matériel expérimental à jour et intégré (recherche de base), besoin d'évaluer objectivement des algorithmes dans un contexte modulaire et standard (recherche technologique).

Une première phase a consisté à mettre en place un comité de réflexion, dont le responsable était J.S. Liénard, animateur du COST "Communication Homme-Machine" à l'origine de la notion de plate-forme. Les modalités de communication, en entrée et en sortie ont été précisées, ainsi qu'une terminologie du domaine. Trois grands champs applicatifs ont été identifiés: apprentissage des langues et aide au handicap, applications industrielles pour des opérateurs spécialisés, applications grand public. Un comité d'action a ensuite été mis en place, animé par F. Néel et faisant participer des membres de chacun des groupes du département. Trois applications-types ont été retenues, correspondant aux trois domaines mentionnés précédemment: aide au handicap visuel, aide à la conception d'objets tridimensionnels et aide à la navigation automobile. Un environnement de développement logiciel et de génie linguistique a été défini et est en cours de mise en place. Le programme est cependant actuellement fortement ralenti du fait des blocages budgétaires du CNRS. Il est prévu que cette action fasse participer d'autres laboratoires, comme des partenaires apportant leur savoir-faire pour traiter un problème particulier, au sein d'un réseau de compétence, et des industriels seront également impliqués, apportant les problèmes liés à leurs applications. La coordination avec des actions nationales, européennes et internationales est recherchée afin de partager l'effort de recherche. Elle devrait conduire à des contributions majeures sur des questions très actuelles: Comment faire collaborer des chercheurs du SPI, informaticiens et spécialistes du traitement du signal, avec des linguistes et des psychologues dans des projets communs ? Comment faire collaborer les spécialistes du langage écrit et ceux du langage parlé ? Comment intégrer différents modes de communication sur une même plate-forme ? Quels sont les liens entre les méthodes permettant de traiter ces différents modes ? Comment peuvent-ils se compléter et intervenir mutuellement pour créer le sens ? Comment utiliser le paradigme d'évaluation pour faire progresser la recherche nationale dans ces domaines ? Quels sont les produits qui peuvent être réalisés pour répondre à une demande de société en matière de communication utilisateur-machine ? Quelles seront leurs retombées socio-économiques ?

Autant de questions de première importance pour notre société et notre industrie, auxquelles nous pensons pouvoir apporter des réponses, si on nous donne les moyens de les traiter à la mesure de leur importance.

+ Sommaire

Dpt Mécanique

Présentation

visiteurs.