Département "Communication Homme-Machine"

___________________________

J. Mariani

Plateforme de Communication Homme-Machine Multimodale

Groupe Traitement du Langage Parlé
Groupe Langage et Cognition
Groupe Interaction et Multi-Modalités
Groupe Cognition Humaine

Une Communication au service de l'Homme

L'objectif général est de correspondre à un besoin, présent ou futur, de la société dans les rapports utilisateur-machine ou dans la perspective d'une communication médiatisée, suivant le thème de la <<Communication au service de l'Homme>>. Il convient de prévoir la manière dont ces rapports vont évoluer en fonction des nouvelles technologies disponibles, en particulier avec la spectaculaire augmentation de l'accès interactif aux informations multimédias en quantité croissante, alors que l'accès intelligent à ces informations fait apparaître de nombreux problèmes scientifiques encore ouverts, et que se posent des enjeux sociétaux et économiques majeurs (accès à l'information pour tous, plurilinguisme, internationalisation et accélération des prises de marché...).

Multimodalité et pluridisciplinarité

Le département <<Communication Homme-Machine>> du Limsi regroupe un ensemble de compétences permettant de traiter les différentes modalités de communication, verbales et non-verbales, avec des éclairages différents. Ces activités portent sur le traitement du langage parlé, le traitement du langage écrit, la vision par ordinateur, la synthèse d'image, la reconnaissance de gestes. Ces différents aspects sont traités sous l'angle de la perception (analyse et compréhension de textes, reconnaissance de parole, analyse de scènes visuelles, reconnaissance de caractères, de gestes ergotiques ou sémantiques...) et de la production (génération de textes, synthèse vocale, synthèse d'images ou de gestes...). Les aspects cognitifs (représentation des connaissances, génération de plans, raisonnement, apprentissage...) sont partout sous-jacents. Les activités du département incluent aussi l'intégration de modalités, en entrée comme en sortie, et les relations entre le langage et la représentation du temps et de l'espace, ainsi que l'étude des activités cérébrales dans la verbalisation d'information spatiales, que nous menons avec des spécialistes de neuro-imagerie. Ces aspects sont abordés avec différents éclairages : ceux des sciences et technologies de l'information (informatique, automatique, traitement du signal, théorie de l'information...), mais aussi ceux de la linguistique, de la psychologie cognitive et de l'ergonomie.

On trouvera donc ici, pour chacun des groupes qui composent le département, <<Traitement du Langage Parlé>> (TLP), <<Langage et Cognition>> (L&C), <<Interaction et Multi-Modalités>> (IMM) et <<Cognition Humaine>> (CH), la présentation générale de sa problématique et de ses objectifs, et une illustration de ses activités de recherche à travers les pages de présentation.

Une plate-forme faite pour coopérer

Une action transversale de mise en place d'une plate-forme de communication homme-machine multimodale, initialisée en 1995 et placée sous la responsabilité de F. Néel, permet de rassembler les différentes compétences qui coexistent dans le département autour d'un petit ensemble sélectionné de projets communs sur des tâches génériques (aide à la navigation automobile, aide au handicap, aide à la conception). Cette action a aussi pour objectif de mettre en place un environnement de développement logiciel soucieux des principes d'interopérabilité et de réutilisatibilité. L'investissement consenti dans cette action porte à présent ses fruits, puisqu'elle nous a permis de lancer un projet européen (Esprit Magic Lounge), de signer une convention de coopération avec PSA et Technibraille et d'initialiser une collaboration avec le SRI.

Socio-économie de la communication interactive

Depuis 1995 également, le département traite des aspects socio-économiques relatifs aux recherches en matière de communication interactive, grâce à un sociologue spécialiste de ces questions, C. Henry. Cette réflexion intervient dans le déroulement même de la poursuite des recherches. Elle se poursuit au sein du laboratoire dans le cadre du projet de Plate-forme de communication multimodale, mais également dans le cadre d'un groupe de réflexion national SPI-SHS <<Perspectives en Communication Interactive>> qui se réunit régulièrement pour débattre de questions relatives à des programmes de recherche et développement poursuivis dans différents domaines industriels ou de service. C'est ainsi que des réunions de travail ont été organisées à la SNCF (projets Astrée et Socrate), à Matra-Hachette, au centre de formation IBM, dans les locaux de la municipalité d'Issy les Moulineaux (sur la ville), ainsi qu'à la Direction Générale de l'Aviation Civile, et plus récemment à l'hôpital de Grenoble, dans le domaine du médical, et à l'Ecole Nationale Supérieure de Création Industrielle (ENSCI), sur les applications à la création artistique. Les conclusions de l'étude, en termes de stratégies de recherche souhaitables, seront prochainement publiées.

Une forte demande du secteur aval

Les recherches que nous menons se placent de fait dans plusieurs domaines applicatifs. Celui des transports : ferroviaires, avec les projets Esprit-MASK (Multimodal Multimedia Automated Service Kiosk) et Télématique Railtel, puis Arise, qui nous associent à la SNCF et à d'autres partenaires européens, pour les renseignements sur les horaires de train et les réservations de place, dans le cadre de bornes interactives ou de liaisons téléphoniques ; automobiles, dans le cadre d'une coopération avec PSA au sein d'un projet du GIS Sciences de la Cognition. Dans le secteur de l'aide aux handicapés : en coopération avec l'INJA pour l'aide aux non-voyants, dans le cadre de la reconnaissance de la Langue des Signes Française (LSF), pour l'aide aux muets, et dans le cadre d'un contrat TIDE-Home, pour la commande d'environnement. Les travaux sur l'aide aux non-voyants se prolongent actuellement à l'accès à la toile électronique pour non-voyants, dans le cadre d'une bourse post-doc cofinancée par le CNRS et la société Technibraille. Nous collaborons également avec les hôpitaux Saint-Antoine et Avicenne sur le sujet des implants cochléaires, et une thèse a été soutenue sur ce thème en 1997. Une nouvelle collaboration pourrait être initialisée avec l'hôpital Tenon, pour l'analyse physiologique et acoustique des voix pathologiques. Nous avons conduit deux projets sur les applications téléphoniques, avec le CNET et France Telecom, pour la reconnaissance de la langue et du locuteur par téléphone. Nous souhaitons à présent travailler sur la communication homme-machine, ou homme-homme via la machine, à distance, en bénéficiant de la mise en place des réseaux à haut-débit. L'action Mirihade et la mise en place du programme Telecom au CNRS, tout comme le lancement du programme national <<Réseau National de Recherche en Télécommunication>> (RNRT) devraient nous offrir le cadre nécessaire pour mener à bien ces actions qui nécessitent des investissements importants. Nos travaux en Réalité Virtuelle et Augmentée trouvent un domaine d'application particulièrement intéressant dans la navigation humaine interactive pour les interventions en milieu hostile, sujet que nous développons en coopération avec la Direction des Etudes et Recherches d'EDF dans le cadre d'une bourse CIFRE.

Multimodal et multimédia

Nos préoccupations très pionnières sur les problèmes liés au multimodal et au multimédia, que nous avions déjà essayé d'amplifier en termes d'efforts et de cercle de partenaires, trouvent à présent leur écho dans le programme national I3 (Information-Interaction- Intelligence), dont nous participons au Comité de Direction, et, plus encore, dans les programmes de la Commission Européenne, puisque nous avons été fondateurs du réseau d'excellence I3Net, au sein du programme ESPRIT Long Term Research <<Intelligent Information Interfaces>> (I3). Nous participons au projet <<Magic Lounge>>, qui a débuté en juillet 1997 et qui porte sur le thème en pleine émergence de la communication médiatisée. Nous avons obtenu par ailleurs un projet Esprit LTR sur la communication multimodale (Chameleon), et collaborons avec l'IRSIT de Tunis sur la communication multimodale appliquée aux problèmes de coupe. Nous avons également été invités à participer, en février 1997, à la réunion préparatoire au lancement d'un nouveau programme de la NSF <<Human-Centered Systems : Information, Interactivity, Intelligence>>. Nous avons enfin participé à plusieurs réunions préparatoires au lancement du 5ème Programme-Cadre de l'Union Européenne, dans les discussions relatives à la mise en place d'un des axes thématiques, intitulé <<User-Friendly Information Society>>. Nous sommes intervenus pour la définition de la stratégie du secteur <<Technologies des Langues>> (Human Language Technology), du programme <<Multimedia Content>> qui le recouvre, et pour le secteur <<Visionary research>> qui est traité en parallèle. Ces programmes devraient bénéficier de budgets très conséquents (120 MEcu demandés pour le secteur <<Technologie des Langues>>, par exemple).

Outre les coopérations inter-groupes conduites au sein de la plate-forme, des collaborations bilatérales ont été également soutenues par des Actions Incitatives internes au laboratoire. On notera, en 1996, une action associant TLP et IMM sur l'indexation automatique de documents vidéos et une, entre TLP et L&C, sur l'interprétation de descriptions spatiales multimodales. En 1997, un projet entre TLP et IMM sur la perception visuelle, un projet associant spécialistes du geste et de la vision (reconnaissance des gestes par caméra), une action entre CH et TLP sur la perception de la hauteur tonale, qui a conduit à une publication commune dans le JASA, et une action visant à utiliser les graphes de Sowa, venus du Traitement du Langage Naturel, pour la représentation des icones. En 1998, un projet a été retenu qui allie les groupes TLP et L&C sur l'extraction d'informations à partir d'un corpus vocal. Ce projet devrait nous permettre de participer aux évaluations du Darpa sur la recherche d'informations vocales (Spoken Data Retrieval (SDR)) ou la détection et le suivi de thèmes de discussion (Topic Detection and Tracking (TDT)). Nos travaux en transcription et en indexation de documents multimedias nous ont permis d'obtenir un contrat de la Commission Européenne (Telematics-LE Olive), et un contrat de la DGA. Les travaux sur l'animation de créatures articulées au sein du groupe IMM pourraient bénéficier du savoir-faire en matière de communication langagière présent dans les autres groupes du département, dans la perspective de la production d'avatars ou d'agents intelligents.

Nous regroupons donc un très fort potentiel pluridisciplinaire en matière de communication homme- machine, qui se situe à un excellent niveau international et joue un rôle de précurseur. Nous avons cependant des manques qui nécessitent une action très volontariste pour y remédier. En particulier, il serait nécessaire de recruter un cadre pour les activités en image (vision par ordinateur ou synthèse), ce que nous n'avons pas pu réaliser en 1997 sur un poste de professeur.

L'évaluation pour mesurer la qualité des recherches

Si nous accordons une forte priorité aux activités relatives à la communication multimodale et au traitement des documents multimédias, nous plaçons également l'accent sur l'utilisation du paradigme d'évaluation pour accompagner les recherches, et sur l'utilisation de ressources linguistiques, corpus, lexiques, pour développer les systèmes et les évaluer.

Nous avons participé, en 1996 et 1997, à la campagne de test du DARPA aux Etats-Unis, sur la tâche <<Broadcast News>> qui consiste à transcrire des émissions de radio et de télévision. Cette tâche contient un grand nombre des problèmes spécifiques au traitement de la langue parlée : parole spontanée (hésitations, tournures agrammaticales, phrases inachevées...), bruit de fond (musique, bruits d'ambiance, réverbération, effet de cocktail party...), problèmes de prise de son (appels téléphoniques, microphone placé à distance...). De plus, il convient de traiter l'anglais américain, avec un lexique qui atteint 65 000 mots. Malgré ces conditions difficiles, nous nous sommes placés au premier rang en 1996 et au second en 1997 dans cette très forte compétition internationale. Nous avons également participé aux campagnes de test organisée dans le cadre des Actions de Recherche Coordonnées (ARC) de l'Aupelf-Uref, et sommes arrivés en première position pour la reconnaissance vocale de grands vocabulaires comme pour la conversion graphèmes-phonèmes en synthèse vocale. Il semble enfin que les campagnes d'évaluation de notre système développé dans le projet Mask a démontré son acceptabilité pour les utilisateurs de la SNCF.

Nous tentons de promouvoir le paradigme d'évaluation dans le cadre de programmes nationaux et internationaux. Nous sommes ainsi à l'initiative de l'action Grace, sur l'évaluation des analyseurs morpho-syntaxiques du français, qui a été soutenue par le CNRS dans le cadre du programme CCIIL (Cognition, Communication Intelligente et Ingénierie des Langues), et dont la campagne de test s'est terminée en mars 1998. Nous avons également proposé que cette approche serve de cadre pour les Actions de Recherche Coordonnées de l'agence francophone Aupelf-Uref. Sept actions ont ainsi été menées sur différents aspects du traitement du langage écrit ou parlé (Extraction de documents textuels, alignement de textes bilingues, extraction automatique de termes, compréhension de textes, dictée vocale, dialogue oral et synthèse de parole). Un premier bilan, très positif, a été établi lors des Journées Scientifiques et Techniques que nous avons organisées en Avignon, en Avril 1997. Dans le cadre du Comité Consultatif interministériel pour le Traitement Informatique des Langues (CCTIL), nous avons proposé cette approche comme axe principal d'un programme coordonné français portant sur les aspects de recherche fondamentale, de recherche technologique et de développement applicatif dans le domaine de l'Ingénierie de la Langue, mais les réponses des pouvoirs publics sont très en retrait par rapport aux enjeux pourtant majeurs de ce secteur. La plus marquante est celle de la DGLF qui lance un programme sur la production d'un <<Corpus du Français Contemporain>>, placé sous la responsabilité de l'Association Européenne pour les Ressources Linguistiques (ELRA) et doté d'un comité d'experts auquel nous participons. Nous avons trouvé un écho plus positif auprès de la Commission Européenne, puisque nous avons proposé deux projets fondés sur cette approche qui ont été retenus : DISC, concernant les <<Best Practices>> en matière de systèmes de dialogue oral, et ELSE, que nous coordonnons scientifiquement et qui a pour but de préparer une infrastructure d'évaluation en matière d'ingénierie des langues pour le 5ème Programme-Cadre.

Les ressources pour développer et évaluer les systèmes

En parallèle, nous participons à plusieurs actions relatives à la production et à la diffusion de ressources. Nous sommes ainsi à l'initiative de l'Association Européenne pour les Ressources Langagières (ELRA), soutenue par la Commission Européenne, et avons participé aux projets Speechdat, sur les corpus vocaux, et Babel, qui étend cette action aux pays de l'Europe Centrale et Orientale. Les corpus BREF-80 et BREF-Polyglot, réalisés au Limsi, apparaissent parmi les ressources les plus diffusées à l'ELRA, et nous avons achevé la production du corpus BREF complet qui devrait vivement intéresser la communauté scientifique internationale. Le lexique que nous avons réalisé pour notre système de reconnaissance en langue anglaise évalué dans le programme du DARPA fait également l'objet d'un grand intérêt pour les laboratoires de recherche publics ou privés. Nous faisons partie des membres fondateurs du projet Silfide, soutenu par le CNRS et l'Aupelf-Uref. Dans cette même direction, nous avons soutenu l'idée d'un programme CNRS <<Ingénierie des Langues>> visant à produire et à diffuser des ressources linguistiques, et participons à son comité de pilotage. Deux actions que nous avions proposées ont été retenues : Multitag, qui, fondé sur les travaux de Grace, a pour but de mettre à la disposition de la communauté scientifique un très important corpus de textes (1 Million de mots) enrichis d'étiquettes morpho-syntaxiques, et une deuxième action qui a également pour objectif de mettre à la disposition de la communauté scientifique un lexique et un corpus contenant les représentations graphémiques et leurs équivalents phonémiques tenant compte des variantes régionales et socio-linguistiques. En interne, nous avons également mis en place un atelier de génie linguistique qui a pour objectif d'offrir aux linguistes et aux spécialistes du traitement automatique de la langue des outils puissants et flexibles qui leur permettent d'étudier la langue, et de construire des systèmes capables d'en automatiser son traitement. Ces actions devraient permettre à la langue française de combler le retard qu'elle présente par rapport à l'anglais, langue pour laquelle il existe déjà de nombreuses ressources, pour l'écrit comme pour l'oral, à forte valeur ajoutée. Le réseau Francophone de l'Ingénierie de la Langue, FRANCIL, que nous coordonnons pour l'Aupelf- Uref depuis 1994, correspond à ce même objectif.

Chercher les synergies

Par ailleurs, l'intérêt que nous portons aux ressources linguistiques et à l'évaluation, ainsi que l'arrivée au laboratoire de spécialistes de ces questions (P. Paroubek, C. Jacquemin, B. Habert) nous a conduit à mettre en place un groupe de travail transversal <<Corpus et évaluation>> (Corval), placé sous la responsabilité de P. Paroubek, qui vient s'ajouter aux activités communes qui cimentent l'unité du département, voire celle du laboratoire, dans des projets bilatéraux, comme l'indexation et la recherche de documents multimédia, ou la vélocimétrie par image de particules à l'aide d'une technique de flot optique. Nous notons en effet que c'est dans la rencontre de disciplines différentes, pour lesquelles nous occupons une place d'excellence, que nous pouvons faire franchir un saut scientifique ou technologique important à un problème de recherche. Cela est également illustré par nos travaux autour de la plate-forme de communication multimodale, ou de l'atelier de génie linguistique, qui ont nécessité la mise en place d'un environnement de développement logiciel orienté objet, fondé sur le langage SmallTalk, et sur les normes Corba. Notre savoir-faire reconnu dans ce domaine a fait que nous collaborons à présent avec la société Aegis dans le cadre du programme Eureka, pour la mise en place d'un environnement multi-agents pour la gestion de projets.


+ Sommaire

Dpt Mécanique

Présentation

visiteurs.