___________________________
Plateforme de Communication Homme-Machine Multimodale
Groupe Traitement du Langage Parlé
Groupe Langage et Cognition
Groupe Interaction et Multi-Modalités
Groupe Cognition Humaine
Une Communication au service de l'Homme
L'objectif général est de correspondre à un besoin, présent ou futur, de la société dans les
rapports utilisateur-machine ou dans la perspective d'une communication médiatisée, suivant le thème
de la <<Communication au service de l'Homme>>. Il convient de prévoir la manière dont ces rapports
vont évoluer en fonction des nouvelles technologies disponibles, en particulier avec la spectaculaire
augmentation de l'accès interactif aux informations multimédias en quantité croissante, alors que
l'accès intelligent à ces informations fait apparaître de nombreux problèmes scientifiques encore
ouverts, et que se posent des enjeux sociétaux et économiques majeurs (accès à l'information
pour tous, plurilinguisme, internationalisation et accélération des prises de marché...).
Multimodalité et pluridisciplinarité
Le département <<Communication Homme-Machine>> du Limsi regroupe un ensemble de compétences
permettant de traiter les différentes modalités de communication, verbales et non-verbales, avec des
éclairages différents. Ces activités portent sur le traitement du langage parlé, le traitement du
langage écrit, la vision par ordinateur, la synthèse d'image, la reconnaissance de gestes. Ces différents
aspects sont traités sous l'angle de la perception (analyse et compréhension de textes, reconnaissance de
parole, analyse de scènes visuelles, reconnaissance de caractères, de gestes ergotiques ou
sémantiques...) et de la production (génération de textes, synthèse vocale, synthèse d'images
ou de gestes...). Les aspects cognitifs (représentation des connaissances, génération de plans,
raisonnement, apprentissage...) sont partout sous-jacents. Les activités du département incluent aussi
l'intégration de modalités, en entrée comme en sortie, et les relations entre le langage et la
représentation du temps et de l'espace, ainsi que l'étude des activités cérébrales dans la
verbalisation d'information spatiales, que nous menons avec des spécialistes de neuro-imagerie. Ces aspects
sont abordés avec différents éclairages : ceux des sciences et technologies de l'information
(informatique, automatique, traitement du signal, théorie de l'information...), mais aussi ceux de la
linguistique, de la psychologie cognitive et de l'ergonomie.
On trouvera donc ici, pour chacun des groupes qui composent le département,
<<Traitement du Langage
Parlé>> (TLP), <<Langage et
Cognition>> (L&C), <<Interaction
et Multi-Modalités>> (IMM) et
<<Cognition Humaine>> (CH), la présentation générale de sa problématique et de ses objectifs, et
une illustration de ses activités de recherche à travers les pages de présentation.
Une plate-forme faite pour coopérer
Une action transversale de mise en place d'une plate-forme de communication homme-machine multimodale,
initialisée en 1995 et placée sous la responsabilité de F. Néel, permet de rassembler les
différentes compétences qui coexistent dans le département autour d'un petit ensemble
sélectionné de projets communs sur des tâches génériques (aide à la navigation
automobile, aide au handicap, aide à la conception). Cette action a aussi pour objectif de mettre en place un
environnement de développement logiciel soucieux des principes d'interopérabilité et de
réutilisatibilité. L'investissement consenti dans cette action porte à présent ses fruits, puisqu'elle
nous a permis de lancer un projet européen (Esprit Magic Lounge), de signer une convention de
coopération avec PSA et Technibraille et d'initialiser une collaboration avec le SRI.
Socio-économie de la communication interactive
Depuis 1995 également, le département traite des aspects socio-économiques relatifs aux recherches
en matière de communication interactive, grâce à un sociologue spécialiste de ces questions, C.
Henry. Cette réflexion intervient dans le déroulement même de la poursuite des recherches. Elle se
poursuit au sein du laboratoire dans le cadre du projet de Plate-forme de communication multimodale, mais
également dans le cadre d'un groupe de réflexion national SPI-SHS <<Perspectives en Communication
Interactive>> qui se réunit régulièrement pour débattre de questions relatives à des
programmes de recherche et développement poursuivis dans différents domaines industriels ou de
service. C'est ainsi que des réunions de travail ont été organisées à la SNCF (projets
Astrée et Socrate), à Matra-Hachette, au centre de formation IBM, dans les locaux de la municipalité
d'Issy les Moulineaux (sur la ville), ainsi qu'à la Direction Générale de l'Aviation Civile, et plus
récemment à l'hôpital de Grenoble, dans le domaine du médical, et à l'Ecole Nationale
Supérieure de Création Industrielle (ENSCI), sur les applications à la création artistique. Les
conclusions de l'étude, en termes de stratégies de recherche souhaitables, seront prochainement
publiées.
Une forte demande du secteur aval
Les recherches que nous menons se placent de fait dans plusieurs domaines applicatifs. Celui des transports :
ferroviaires, avec les projets Esprit-MASK (Multimodal Multimedia Automated Service Kiosk) et
Télématique Railtel, puis Arise, qui nous associent à la SNCF et à d'autres partenaires
européens, pour les renseignements sur les horaires de train et les réservations de place, dans le cadre de
bornes interactives ou de liaisons téléphoniques ; automobiles, dans le cadre d'une coopération avec
PSA au sein d'un projet du GIS Sciences de la Cognition. Dans le secteur de l'aide aux handicapés : en
coopération avec l'INJA pour l'aide aux non-voyants, dans le cadre de la reconnaissance de la Langue des
Signes Française (LSF), pour l'aide aux muets, et dans le cadre d'un contrat TIDE-Home, pour la commande
d'environnement. Les travaux sur l'aide aux non-voyants se prolongent actuellement à l'accès à la
toile électronique pour non-voyants, dans le cadre d'une bourse post-doc cofinancée par le CNRS et la
société Technibraille. Nous collaborons également avec les hôpitaux Saint-Antoine et Avicenne
sur le sujet des implants cochléaires, et une thèse a été soutenue sur ce thème en 1997. Une
nouvelle collaboration pourrait être initialisée avec l'hôpital Tenon, pour l'analyse physiologique et
acoustique des voix pathologiques. Nous avons conduit deux projets sur les applications téléphoniques,
avec le CNET et France Telecom, pour la reconnaissance de la langue et du locuteur par téléphone. Nous
souhaitons à présent travailler sur la communication homme-machine, ou homme-homme via la machine,
à distance, en bénéficiant de la mise en place des réseaux à haut-débit. L'action Mirihade
et la mise en place du programme Telecom au CNRS, tout comme le lancement du programme national
<<Réseau National de Recherche en Télécommunication>> (RNRT) devraient nous offrir le cadre
nécessaire pour mener à bien ces actions qui nécessitent des investissements importants. Nos travaux
en Réalité Virtuelle et Augmentée trouvent un domaine d'application particulièrement
intéressant dans la navigation humaine interactive pour les interventions en milieu hostile, sujet que nous
développons en coopération avec la Direction des Etudes et Recherches d'EDF dans le cadre d'une
bourse CIFRE.
Multimodal et multimédia
Nos préoccupations très pionnières sur les problèmes liés au multimodal et au
multimédia, que nous avions déjà essayé d'amplifier en termes d'efforts et de cercle de
partenaires, trouvent à présent leur écho dans le programme national I3 (Information-Interaction-
Intelligence), dont nous participons au Comité de Direction, et, plus encore, dans les programmes de la
Commission Européenne, puisque nous avons été fondateurs du réseau d'excellence I3Net, au
sein du programme ESPRIT Long Term Research <<Intelligent Information Interfaces>> (I3). Nous participons
au projet <<Magic Lounge>>, qui a débuté en juillet 1997 et qui porte sur le thème en pleine
émergence de la communication médiatisée. Nous avons obtenu par ailleurs un projet Esprit LTR sur
la communication multimodale (Chameleon), et collaborons avec l'IRSIT de Tunis sur la communication
multimodale appliquée aux problèmes de coupe. Nous avons également été invités à
participer, en février 1997, à la réunion préparatoire au lancement d'un nouveau programme de la
NSF <<Human-Centered Systems : Information, Interactivity, Intelligence>>. Nous avons enfin participé
à plusieurs réunions préparatoires au lancement du 5ème Programme-Cadre de l'Union
Européenne, dans les discussions relatives à la mise en place d'un des axes thématiques, intitulé
<<User-Friendly Information Society>>. Nous sommes intervenus pour la définition de la stratégie du
secteur <<Technologies des Langues>> (Human Language Technology), du programme <<Multimedia Content>>
qui le recouvre, et pour le secteur <<Visionary research>> qui est traité en parallèle. Ces programmes
devraient bénéficier de budgets très conséquents (120 MEcu demandés pour le secteur
<<Technologie des Langues>>, par exemple).
Outre les coopérations inter-groupes conduites au sein de la plate-forme, des collaborations bilatérales
ont été également soutenues par des Actions Incitatives internes au laboratoire. On notera, en 1996,
une action associant TLP et IMM sur l'indexation automatique de documents vidéos et une, entre TLP et
L&C, sur l'interprétation de descriptions spatiales multimodales. En 1997, un projet entre TLP et IMM sur la
perception visuelle, un projet associant spécialistes du geste et de la vision (reconnaissance des gestes par
caméra), une action entre CH et TLP sur la perception de la hauteur tonale, qui a conduit à une
publication commune dans le JASA, et une action visant à utiliser les graphes de Sowa, venus du Traitement
du Langage Naturel, pour la représentation des icones. En 1998, un projet a été retenu qui allie les
groupes TLP et L&C sur l'extraction d'informations à partir d'un corpus vocal. Ce projet devrait nous
permettre de participer aux évaluations du Darpa sur la recherche d'informations vocales (Spoken Data
Retrieval (SDR)) ou la détection et le suivi de thèmes de discussion (Topic Detection and Tracking
(TDT)). Nos travaux en transcription et en indexation de documents multimedias nous ont permis d'obtenir un
contrat de la Commission Européenne (Telematics-LE Olive), et un contrat de la DGA. Les travaux sur
l'animation de créatures articulées au sein du groupe IMM pourraient bénéficier du savoir-faire
en matière de communication langagière présent dans les autres groupes du département, dans la
perspective de la production d'avatars ou d'agents intelligents.
Nous regroupons donc un très fort potentiel pluridisciplinaire en matière de communication homme-
machine, qui se situe à un excellent niveau international et joue un rôle de précurseur. Nous avons
cependant des manques qui nécessitent une action très volontariste pour y remédier. En particulier, il
serait nécessaire de recruter un cadre pour les activités en image (vision par ordinateur ou synthèse),
ce que nous n'avons pas pu réaliser en 1997 sur un poste de professeur.
L'évaluation pour mesurer la qualité des recherches
Si nous accordons une forte priorité aux activités relatives à la communication multimodale et au
traitement des documents multimédias, nous plaçons également l'accent sur l'utilisation du
paradigme d'évaluation pour accompagner les recherches, et sur l'utilisation de ressources linguistiques,
corpus, lexiques, pour développer les systèmes et les évaluer.
Nous avons participé, en 1996 et 1997, à la campagne de test du DARPA aux Etats-Unis, sur la tâche
<<Broadcast News>> qui consiste à transcrire des émissions de radio et de télévision. Cette
tâche contient un grand nombre des problèmes spécifiques au traitement de la langue parlée :
parole spontanée (hésitations, tournures agrammaticales, phrases inachevées...), bruit de fond
(musique, bruits d'ambiance, réverbération, effet de cocktail party...), problèmes de prise de son
(appels téléphoniques, microphone placé à distance...). De plus, il convient de traiter l'anglais
américain, avec un lexique qui atteint 65 000 mots. Malgré ces conditions difficiles, nous nous sommes
placés au premier rang en 1996 et au second en 1997 dans cette très forte compétition internationale.
Nous avons également participé aux campagnes de test organisée dans le cadre des Actions de
Recherche Coordonnées (ARC) de l'Aupelf-Uref, et sommes arrivés en première position pour la
reconnaissance vocale de grands vocabulaires comme pour la conversion graphèmes-phonèmes en
synthèse vocale. Il semble enfin que les campagnes d'évaluation de notre système développé
dans le projet Mask a démontré son acceptabilité pour les utilisateurs de la SNCF.
Nous tentons de promouvoir le paradigme d'évaluation dans le cadre de programmes nationaux et internationaux. Nous
sommes ainsi à l'initiative de l'action Grace, sur l'évaluation des analyseurs morpho-syntaxiques du
français, qui a été soutenue par le CNRS dans le cadre du programme CCIIL (Cognition,
Communication Intelligente et Ingénierie des Langues), et dont la campagne de test s'est terminée en
mars 1998. Nous avons également proposé que cette approche serve de cadre pour les Actions de
Recherche Coordonnées de l'agence francophone Aupelf-Uref. Sept actions ont ainsi été menées
sur différents aspects du traitement du langage écrit ou parlé (Extraction de documents textuels,
alignement de textes bilingues, extraction automatique de termes, compréhension de textes, dictée vocale,
dialogue oral et synthèse de parole). Un premier bilan, très positif, a été établi lors des
Journées Scientifiques et Techniques que nous avons organisées en Avignon, en Avril 1997. Dans le
cadre du Comité Consultatif interministériel pour le Traitement Informatique des Langues (CCTIL), nous
avons proposé cette approche comme axe principal d'un programme coordonné français portant sur
les aspects de recherche fondamentale, de recherche technologique et de développement applicatif dans le
domaine de l'Ingénierie de la Langue, mais les réponses des pouvoirs publics sont très en retrait par
rapport aux enjeux pourtant majeurs de ce secteur. La plus marquante est celle de la DGLF qui lance un
programme sur la production d'un <<Corpus du Français Contemporain>>, placé sous la
responsabilité de l'Association Européenne pour les Ressources Linguistiques (ELRA) et doté d'un
comité d'experts auquel nous participons. Nous avons trouvé un écho plus positif auprès de la
Commission Européenne, puisque nous avons proposé deux projets fondés sur cette approche qui ont
été retenus : DISC, concernant les <<Best Practices>> en matière de systèmes de dialogue oral, et
ELSE, que nous coordonnons scientifiquement et qui a pour but de préparer une infrastructure
d'évaluation en matière d'ingénierie des langues pour le 5ème Programme-Cadre.
Les ressources pour développer et évaluer les systèmes
En parallèle, nous participons à plusieurs actions relatives à la production et à la diffusion de
ressources. Nous sommes ainsi à l'initiative de l'Association Européenne pour les Ressources
Langagières (ELRA), soutenue par la Commission Européenne, et avons participé aux projets
Speechdat, sur les corpus vocaux, et Babel, qui étend cette action aux pays de l'Europe Centrale et Orientale.
Les corpus BREF-80 et BREF-Polyglot, réalisés au Limsi, apparaissent parmi les ressources les plus
diffusées à l'ELRA, et nous avons achevé la production du corpus BREF complet qui devrait
vivement intéresser la communauté scientifique internationale. Le lexique que nous avons réalisé
pour notre système de reconnaissance en langue anglaise évalué dans le programme du DARPA fait
également l'objet d'un grand intérêt pour les laboratoires de recherche publics ou privés. Nous
faisons partie des membres fondateurs du projet Silfide, soutenu par le CNRS et l'Aupelf-Uref. Dans cette
même direction, nous avons soutenu l'idée d'un programme CNRS <<Ingénierie des Langues>>
visant à produire et à diffuser des ressources linguistiques, et participons à son comité de pilotage.
Deux actions que nous avions proposées ont été retenues : Multitag, qui, fondé sur les travaux de
Grace, a pour but de mettre à la disposition de la communauté scientifique un très important corpus de
textes (1 Million de mots) enrichis d'étiquettes morpho-syntaxiques, et une deuxième action qui a
également pour objectif de mettre à la disposition de la communauté scientifique un lexique et un
corpus contenant les représentations graphémiques et leurs équivalents phonémiques tenant
compte des variantes régionales et socio-linguistiques. En interne, nous avons également mis en place un
atelier de génie linguistique qui a pour objectif d'offrir aux linguistes et aux spécialistes du traitement
automatique de la langue des outils puissants et flexibles qui leur permettent d'étudier la langue, et de
construire des systèmes capables d'en automatiser son traitement. Ces actions devraient permettre à la
langue française de combler le retard qu'elle présente par rapport à l'anglais, langue pour laquelle il
existe déjà de nombreuses ressources, pour l'écrit comme pour l'oral, à forte valeur ajoutée.
Le réseau Francophone de l'Ingénierie de la Langue, FRANCIL, que nous coordonnons pour l'Aupelf-
Uref depuis 1994, correspond à ce même objectif.
Chercher les synergies
Par ailleurs, l'intérêt que nous portons aux ressources linguistiques et à l'évaluation, ainsi que
l'arrivée au laboratoire de spécialistes de ces questions (P. Paroubek, C. Jacquemin, B. Habert) nous a
conduit à mettre en place un groupe de travail transversal <<Corpus et évaluation>> (Corval), placé
sous la responsabilité de P. Paroubek, qui vient s'ajouter aux activités communes qui cimentent
l'unité du département, voire celle du laboratoire, dans des projets
bilatéraux, comme l'indexation et la recherche de documents multimédia, ou la vélocimétrie par
image de particules à l'aide d'une technique de flot optique. Nous notons en effet que c'est dans la rencontre
de disciplines différentes, pour lesquelles nous occupons une place d'excellence, que nous pouvons faire
franchir un saut scientifique ou technologique important à un problème de recherche. Cela est également
illustré par nos travaux autour de la plate-forme de communication multimodale, ou de l'atelier de génie
linguistique, qui ont nécessité la mise en place d'un environnement de développement logiciel
orienté objet, fondé sur le langage SmallTalk, et sur les normes Corba. Notre savoir-faire reconnu dans ce
domaine a fait que nous collaborons à présent avec la société Aegis dans le cadre du programme
Eureka, pour la mise en place d'un environnement multi-agents pour la gestion de projets.
Sommaire
|
| Dpt Mécanique |
| Présentation |
|
---|
visiteurs.