rapport d'activité 2002 du LIMSI

Département Communication Homme-Machine

Les actions transversales : Corpus et Evaluation (CORVAL), Indexation Multimédia - ArchIMed

L'action sur programme : Navigation Interactive dans les Documents

Alors qu'à ses débuts, l'informatique avait pour principal objet d'automatiser des calculs numériques, il est apparu progressivement, en particulier avec les développements de l'intelligence artificielle, qu'elle pouvait également aider à gérer et structurer des flux d'informations et de connaissances. Le rapprochement entre les télécommunications et l'informatique fait maintenant émerger un domaine dans lequel la gestion de l'information est devenue centrale, que ce soit de façon interne à l'entreprise par les Intranets ou au niveau mondial (Internet, autoroutes de l'information). Ainsi, à la société industrielle du XX^e siècle, succède en ce XXI^e siècle, la société de l'information, qui s'est traduite par une évolution structurelle au CNRS avec la création du département des Sciences et Technologies de l'Information et de la Communication (STIC). Dans ce cadre, les informations et les connaissances --- dont beaucoup apparaissent sous des formes langagières et textuelles, mais aussi sous forme d'images, de sons et de gestes --- sont centrales, tant dans le monde de la recherche que dans le monde économique et social. Les aspects essentiels concernent ainsi leur acquisition, leur structuration (modélisation) et leur gestion (exploitation) ainsi que les processus qui permettent de les analyser, de les interpréter et de les acquérir.

La communication homme-machine

Une machine pour communiquer ?

Que l'on veuille communiquer avec la machine ou communiquer avec d'autres individus par son intermédiaire, pour rechercher des informations, les manipuler ou en fournir, ou encore pour trouver une aide à la réalisation d'une action, l'utilisateur établit un certain type de relation entre lui et le système : la machine joue le rôle d'un intermédiaire pour communiquer avec un autre système informatique, ou bien, elle joue le rôle d'un assistant pour aider à se servir d'un autre système (éventuellement informatique, mais pas forcément).

Aussi, les systèmes informatiques ne sont plus aujourd'hui limités à l'exécution de tâches ponctuelles, en réponse à des commandes humaines précises. Ils sont maintenant capables d'assister l'usager dans des activités de raisonnement variées et complexes : en le guidant et en lui fournissant les connaissances qui lui font défaut, en prenant en charge la résolution de problèmes précis, ou encore en proposant des outils logiciels élémentaires que l'on peut utiliser et combiner entre eux à son gré, dans le cadre de ses propres stratégies cognitives. Nombre d'applications informatiques interactives concernant des tâches cognitives complexes sont apparues. Ainsi, l'interaction homme-machine est-elle devenue une des tâches essentielles de l'informatique et de l'intelligence artificielle.

Pour cela, la machine a besoin de facultés cognitives cohérentes avec celles de son ou ses interlocuteurs, facultés qui lui permettent d'avoir une bonne compréhension de documents (textes, images, sons...), de dialoguer efficacement et de pouvoir se construire une représentation utile du contexte et de ses interlocuteurs.

Différentes disciplines soulèvent à ce propos des questions fondamentales et mettent en oeuvre, pour les résoudre, des approches complémentaires. Qu'il s'agisse du traitement du signal, de la théorie de l'information, du traitement des images et des gestes, et plus généralement de l'informatique et de l'intelligence artificielle, de la linguistique, de la psychologie cognitive, de l'ergonomie, auxquels se sont ajoutées récemment la sociologie et la perception, tous ces points de vue sont présents dans le département « communication homme-machine » du LIMSI.

Les domaines de la communication homme-machine

La problématique générale du département est donc l'interaction homme-machine, domaine, comme nous l'avons vu, de plus en plus crucial avec le développement considérable des STIC.

Plusieurs domaines clefs répondent à ces besoins : tout d'abord l'ingénierie des langues (couvrant le traitement du langage écrit et parlé, avec ses applications principales à la communication parlée, à l'édition numérique, à la veille technologique, et à la gestion de patrimoines scientifiques et techniques). C'est bien sûr un des grands avantages de notre département d'autoriser l'étude des problèmes fondamentaux communs aux formes écrites et orales du langage. Parmi ceux-ci, les questions de pragmatique (c'est-à-dire l'influence du contexte sur le sens des interventions des interlocuteurs) nous semblent essentielles, car elles jouent un rôle primordial, aussi bien dans l'appropriation de la langue que dans les interactions dialogiques. Pour cette raison, le dialogue (qui ne peut traiter du langage qu'en situation) pose ces problèmes avec acuité, et le dialogue homme-machine, qui demande que rien ne reste implicite dans les modèles qu'il utilise, est, bien entendu, le lieu privilégié de l'étude de ces phénomènes. Une réelle compréhension implique une confrontation continuelle entre les énoncés reçus et les connaissances antérieures. Là aussi, les mécanismes de dialogue jouent un rôle tout particulier par rapport à deux questions essentielles : comment on apprend par l'intermédiaire de la langue et comment l'usage du dialogue lui-même permet d'apprendre à dialoguer. Enfin, le dialogue homme-machine est aussi un domaine fondamentalement intéressant par le pont qu'il oblige à faire entre compréhension et génération, par l'intermédiaire d'un même niveau de représentation profonde.

Mais, les interactions doivent également se produire via une information multimédia enrichie ; les facultés de langage doivent donc être articulées avec les autres modalités de perception et de communication, donnant une place importante au traitement d'images (interprétation, synthèse, vision par ordinateur). Puis, au-delà de cet aspect multimodal, le rôle avéré des gestes dans le dialogue naturel, nous conduit à considérer qu'une analyse simultanée de divers systèmes de signes est nécessaire pour une communication homme-machine efficace et générale, d'où en particulier des actions vers l'interprétation des gestes (qu'il s'agisse de gestes co-verbaux, de gestes de la langue des signes ou de mouvements des membres, des yeux ou de la tête).

Il faut ensuite dépasser ces premiers niveaux élémentaires de chaque modalité, afin de traiter les questions essentielles de construction de la signification et de la référence, en particulier en ne se limitant pas à des aspects purement formels. Les interactions diverses de toutes ces modalités entre elles et avec le monde posent une question capitale quant aux architectures d'intégration : comment faire collaborer au mieux l'ensemble des modules nécessaires aussi bien à une communication efficace qu'à des processus d'adaptation, d'acquisition et d'apprentissage.

Enfin, tous ces aspects conceptuels sont mis en oeuvre par l'intermédiaire d'applications concrètes, ce qui confère un rôle central aux questions pragmatiques (rôle du domaine et du contexte) et demande alors que l'interaction comme la perception soient articulées avec une théorie de l'action, et avec une théorie de la référence. Par là même, dialogue, action et référence sont les trois éléments essentiels de nos contributions théoriques et applicatives.

L'ensemble des domaines évoqués ci-dessus sont présents dans les groupes du département, avec comme caractéristique fondamentale pour tous la prise en considération de l'homme dans la boucle de communication (ce qui amène à considérer des communications homme-machine, des communications machine-machine, et des communications homme-homme médiatisées par la machine) et donne aux questions de psychologie cognitive, d'ergonomie et de sociologie une importance cruciale.

Par ailleurs, ces recherches s'articulent autour des concepts centraux des programmes IST-HLT (``Human Language Technology''), RNRT (« Réseau National de Recherche en Télécommunications »), RNTL (« Réseau National de recherche et d'innovation en Technologies Logicielles ») et RIAM (« Recherche et Innovation en Audiovisuel et Multimédia »). HLT vise à rendre accessible les contenus informatiques tout en supportant la diversité linguistique de l'Europe. RNRT souhaite favoriser l'émergence de produits et services nouveaux grâce aux nouveaux outils de communication, par la collaboration de la recherche amont en télécommunications avec les grands groupes (industriels et opérateurs) et les PME. De même, RNTL a comme mission de favoriser les coopérations entre les équipes de la RD industrielle et les équipes de la recherche publique dans le domaine des technologies logicielles, en articulation avec les programmes de la « Société de l'Information ». Enfin, RIAM veut améliorer la compétitivité des industries françaises en matière de développement de contenus et de services dans la société de l'information et de la communication, face à l'explosion des supports, en favorisant le développement d'outils de recherche et de navigation dans des bases de données de grande dimension contenant des objets audiovisuels et multimédias. Tout cela explique notre présence significative au sein de ces programmes, comme l'examen des « relations extérieures » explicitées dans les présentations des groupes le montre bien.

Les techniques

Des techniques très diverses sont nécessaires aux traitements informatiques de l'ensemble des domaines évoqués ci-dessus, allant du traitement du signal à ses interprétations aux niveaux sémantiques, pragmatiques et sociaux.

Tout d'abord, l'articulation entre le signal et une représentation symbolique demande des traitements qui relèvent d'approches essentiellement numériques.

Pour le traitement de la parole, les méthodes utilisant essentiellement des techniques de statistiques relevant des théories de l'information et de la décision statistique optimale. La modélisation Markovienne est employée tant aux niveaux acoustique et phonétique (modèles de Markov cachés) qu'au niveau linguistique (chaînes de Markov). Les connaissances a priori sont introduites dans ces modèles sous formes déterministe et statistique.

Au niveau de la synthèse, traitée conjointement avec l'analyse, les modélisations spectrale et temps-fréquence sont centrales tandis que les catégorisations perceptives (en particulier pour la vision) se fondent sur des notions de multicatégorisations.

Pour les aspects géométriques de traitement d'images, sont centraux les aspects projectifs liés aux questions de stéréoscopie et de relief et relèvent d'approches métriques et topologiques en relation avec des méthodes de corrélation et de reconnaissance de formes.

Ensuite, les interprétations sémantiques et pragmatiques (qu'il s'agisse de langue, d'image ou de geste) se fondent essentiellement sur des techniques d'intelligence artificielle, au sein de laquelle on distingue maintenant plusieurs courants de pensée qui articulent la discipline. Ces courants peuvent se ramener à trois métaphores ou analogies :

1°) l'analogie symbolique, plus ou moins fondatrice de la discipline, selon laquelle les entités en jeu peuvent se décrire sans référence au cerveau et peuvent être mises en correspondance avec les symboles que savent manipuler les ordinateurs (soit avec une analogie forte entre les représentations supposées exister dans le cerveau humain et les représentations symboliques de l'intelligence artificielle, soit sans relation entre les symboles --- éventuellement purement numériques, par exemple toutes les techniques à base de statistiques --- et nos représentations mentales) ;

2°) la métaphore des réseaux : l'esprit est ramené au fonctionnement du cerveau et l'intelligence est conçue comme la diffusion d'activations, non symboliques, dans des réseaux. Ancrées dans les recherches en neurobiologie et en neuropsychologie, les recherches en connexionnisme tentent de développer des techniques efficaces pour le traitement des informations floues ou incertaines. Bien qu'on soit encore très loin d'une réelle analogie avec le fonctionnement cérébral, les possibilités de collaboration entre les techniques connexionnistes et les systèmes symboliques restent assez prometteuses (systèmes dits hybrides) ;

3°) la pensée est conçue comme un phénomène collectif produit par de nombreux événements élémentaires, ce qui débouche principalement sur les techniques actuelles d'intelligence artificielle distribuée qui tentent de dépasser les algorithmes génétiques ou les réseaux connexionnistes, en restant ou non dans le cadre symbolique : l'idée essentielle me paraît plutôt porter ici sur l'interpénétration des systèmes biologiques et sociaux. (Quoiqu'assez neuve en intelligence artificielle et en sciences cognitives, cette idée a déjà une longue histoire en biologie et en anthropologie...).

Toutefois, bien qu'ils soient plus récents, les courants 2) et 3) ne se démarquent pas essentiellement de l'hypothèse forte initiale, qui reste cruciale en ce sens qu'elle implique un niveau d'analyse complètement séparé du niveau neurobiologique comme du niveau sociologique et culturel.

Il convient alors de souligner d'une part, que toutes ces techniques sont présentes, à divers niveaux, dans les mises en oeuvre qui voient le jour au laboratoire, et d'autre part que le caractère très pluridisciplinaire du département « communication homme-machine » vise précisément à dépasser les limites évoquées à la fin du paragraphe précédent, aussi bien en développant des collaborations étroites et suivies avec des collègues de ces autres disciplines qu'en favorisant la venue au LIMSI de chercheurs articulant nos recherches avec ces disciplines.

La structure du département « Communication Homme-Machine »

Le département, dans son état actuel, fut développé sous l'impulsion de Joseph Mariani, responsable du département de 1988 à 2000. Afin de prendre en considération de façon efficace les évolutions scientifiques de cette période, il a paru souhaitable d'analyser de façon approfondie les aspects structurels du département. Nous avons donc conçu durant l'année 2000, en collaboration avec les chercheurs du département, une restructuration de celui-ci.

À l'origine de cette restructuration était le désir d'approfondir la possibilité de constituer de plus petites équipes articulées autour de noeuds thématiques fondamentaux avec le but de disposer d'entités ayant, chacune, une forte cohérence scientifique interne et autorisant une structure plus dynamique. En effet, le département étant lui-même à l'origine de l'évolution rapide des nouvelles technologies de l'information et de la communication, il doit pouvoir s'adapter le plus efficacement possible à ces progrès. En particulier, la spectaculaire augmentation de l'accès interactif aux informations multimédias fait apparaître de nombreux problèmes scientifiques encore ouverts dès lors qu'on souhaite avoir un accès intelligent à ces informations. Les enjeux économiques et les enjeux de société (accès à l'information pour tous, plurilinguisme, internationalisation et accélération des prises de marché...) sont des enjeux majeurs qu'il nous faut être capables d'appréhender efficacement et rapidement dans nos orientations de recherche.

Ces études avec l'ensemble des membres du département ont débouché sur la constitution de six groupes dont je donne une idée très synthétique ci-dessous, après quelques éléments sur les actions transversales (des informations plus détaillées sur tous ces points sont données dans la suite de ce rapport).

Pour ce qui concerne les divers types de collaborations possibles, on peut distinguer, en suivant le tout nouveau projet d'établissement du CNRS :

la pluridisciplinarité, faisant intervenir plus d'une discipline dans une collaboration, sans préciser la forme des implications de ces disciplines, ni le fait que cela serve ou non un objectif commun aux partenaires. Elle concerne des « objets-carrefours » traités avec les méthodologies propres à ces disciplines ;
l'interdisciplinarité, mise en oeuvre en vue de résoudre un problème commun ; elle implique une mise en commun des concepts, des modèles et des techniques d'analyse et implique une convergence des disciplines sur un même objectif ;
la transdisciplinarité, plus ambitieuse, intégrant les capacités de chaque discipline dans un même projet ; elle vise à construire en commun de nouveaux objets de recherche, ainsi que les outils de pensée que leur traitement recquiert. Elle permet d'envisager l'émergence d'un nouveau champ disciplinaire grâce à l'élaboration d'un langage commun.

Les actions transversales

Les perspectives de développement du département sont toujours envisagées dans une démarche essentiellement pluridisciplinaire. La restructuration conçue ces derniers mois avec les membres du département est destinée à permettre d'atteindre ces objectifs le plus efficacement possible, et elle s'accompagne de la mise en place d'action transverses permettant de favoriser au mieux les collaborations entre les groupes.

VENISE --- Plate-forme inter-départements (Virtualité et ENvironnement Immersif pour la Simulation et l'Expérimentation)

Le laboratoire s'est lancé récemment dans un projet d'envergure, avec un financement substantiel, pour mettre en place un environnement technologique de réalité virtuelle et augmentée. Ce projet est intégré dans la politique scientifique globale du laboratoire puisqu'il est vu comme l'occasion de fédérer l'ensemble du laboratoire en renforçant les collaborations entre les deux départements. Cette action a été présentée dans les pages précédentes du présent rapport, nous n'y reviendrons donc pas.

ArchIMed --- Indexation et recherche d'information multimedia (Archivage et Indexation de documents Multimédia)

Lancée au début de l'année 2001, l'action transversale « ArchIMed », a pour objectif de promouvoir et de coordonner des recherches au LIMSI sur l'indexation, l'archivage, l'accès et le filtrage de documents multimédia. Il s'agit d'une action pluridisciplinaire du département CHM, visant à ouvrir des voies de recherche innovantes tout en apportant des solutions à des problèmes de la société de l'information.

Soutenu par deux recrutements récents, ce thème s'appuie sur divers projets (nationaux et européens) et sur les recherches en cours dans les groupes TLP et LIR.

CORVAL --- Corpus et évaluation

Cette action de soutien aux participations aux campagnes d'évaluation et de mise en place de ressources linguistiques commune se poursuit et sera complétée par une réflexion sur les questions théoriques de l'évaluation.

L'action Corpus et évaluation existait déjà depuis quelques temps, mais restait surtout centrée sur le texte écrit. Elle a pour objectif d'aider à la participation aux campagnes internationales d'évaluation et de rendre disponibles des ressources linguistiques au sein du laboratoire. Elle sera étendue aux données traitant du vocal et de l'image. Sur un plan théorique, elle sera également la base d'un axe de réflexion sur les questions posées par la notion d'évaluation elle-même (validité, utilité...).

Parmi les actions transversales existant précédemment au laboratoire, il faut noter 1) que l'action « plate-forme multimodale » (qui visait au développement d'applications communes, permettant d'aller au-delà de la qualité intrinsèque des différentes activités) est maintenant considérée comme faisant partie intégrante de l'action « VENISE », 2) que l'action « socio-économie de la communication interactive » s'est fondue dans un des thèmes du groupe AMI (Architectures et Modèles pour l'Interaction --- voir ci-dessous) et enfin 3) que l'action « perception visuelle et perception auditive » a été considérée comme suffisamment mûre pour donner naissance au groupe PS (Perception Située).

Les groupes du département

AMI --- Architectures et Modèles pour l'Interaction

Certaines activités de recherche précédemment menées dans les groupes « Langage et Cognition » et « Interaction et Multi-Modalités » ainsi que dans l'action transversale « Socio-économie de la Communication » avaient en commun un même objet d'étude : l'interaction pour elle-même, dans les systèmes d'information médiatisés par ordinateur.

Le groupe AMI, par une démarche à la fois conceptuelle (analyses formelles et modélisations de l'interaction), finalisée (propositions d'architectures concrètes pour la mise en oeuvre de l'interaction médiatisée) et appliquée, (mise en oeuvre des architectures de systèmes informatiques pour l'interaction médiatisée) aborde cet objet d'une façon fondamentalement pluridisciplinaire.

Les principales applications envisagées par le groupe sont centrées sur la notion d'assistance à l'interaction (aide au handicap, informatique mobile localisée, assistants d'interface, téléenseignement, télémédecine, travail collaboratif...).

CH --- Cognition Humaine

L'objectif du groupe CH est de rendre compte des processus par lesquels les individus traitent l'information extraite de leur environnement et en construisent des représentations utilisables pour gérer leur comportement.

Les travaux portent d'une part sur le rôle de l'image et du langage dans la construction de représentations mentales de configurations spatiales. Ils consistent à analyser les stratégies linguistiques mises en oeuvre dans la description d'environnements spatiaux en vue d'étendre les connaissances sur la communication homme-homme aux systèmes homme-machine d'aide à l'orientation spatiale et à la navigation.

D'autre part, les recherches sont centrées sur l'acquisition de connaissances au moyen de textes écrits. Elles portent sur l'activation du sens et l'organisation des réseaux sémantiques, les inférences nécessaires à la compréhension et leurs modes d'élaboration, les systèmes d'argumentation et leur compréhension.

Ses applications concernent l'aide aux déplacements en environnements urbains, en particulier pour personnes aveugles, les description d'itinéraires, ainsi que la compréhension de la parole (effets de la fatigue, du stress, de la dégradation de la communication).

GI --- Geste et image

Le groupe GI s'intéresse globalement à la modélisation et au traitement de données spatiales et dynamiques.

Son premier thème de recherche est moteur dans l'action transversale VENISE évoquée ci-dessus. Les travaux de ce thème visent la conception d'outils génériques pour la gestion en temps réel d'interactions immersives, en termes d'architecture distribuée, d'aide aux navigations virtuelles et de gestion de scènes. Ces outils sont validés sur deux applications pilotes de réalité virtuelle orientée vers l'étude et la visualisation de données scientifiques (applications Mécanique des Fluides et ADN_viewer). Des travaux sur la reconstruction 3d vont à moyen terme aussi être lancés dans la perspective des problématiques de réalité augmentée.

Son second thème (traitement et analyse du geste et de l'image) porte sur l'analyse et le traitement automatique de gestes, principalement issus de signaux de type image. Les principaux types de gestes étudiés sont les gestes de communication, tels que les gestes de la Langue des Signes Française (LSF) ou les gestes co-verbaux (accompagnant la parole). L'analyse consiste à étudier et définir des primitives gestuelles pertinentes permettant de représenter le geste. Les algorithmes de reconnaissance des gestes (isolés ou enchaînés) sont fondés sur des approches statistiques. Ces études s'appuient sur l'analyse détaillée de corpus de gestes, du point de vue signal, mais aussi linguistique.

Les techniques de traitement et d'analyse d'images sont également exploitées pour l'étude des processus de représentation, d'analyse et de reconnaissance des structures 3d des séquences génomiques. L'objectif général est la recherche de nouvelles approches pour appréhender le langage structurel des génomes, afin d'interpréter aussi exhaustivement que possible les informations qu'ils contiennent. La première étape de ce travail a contribué au développement de ADN_viewer, l'une de nos deux applications pilotes en réalité virtuelle.

LIR --- Langues, Information et Représentations

Le groupe LIR est centré sur le traitement de la langue écrite. Il s'intéresse d'abord aux formalismes de représentation des connaissances, et aux extensions qu'il faut apporter aux formalismes classiques (graphes conceptuels, logiques temporelles...) pour le traitement automatique des langues (et en particulier pour le traitement de l'espace et du temps). Il s'est orienté également vers une linguistique de corpus, avec en particulier des processus d'identification des types des documents par des méthodes automatiques et statistiques, et la mise en oeuvre de techniques élaborées de recherche d'information. Enfin, il approfondit les processus d'analyse et de génération aux différents niveaux (morphologie, syntaxe, sémantique, dialogue), en combinant des raisonnements approfondis et des techniques de surface.

Ces thèmes sont complétés par le développement du système QALC (Question-Answering system of the Language and Cognition group), qui a participé à l'évaluation internationale TREC8 avec le pour la tâche QA (Question-Answering). Le but de cette tâche est de trouver les réponses (de 50 ou de 250 caractères) à 200 questions données, au sein des volumes de la collection TREC (environ 525 000 documents). Cette action permet de fédérer et de faire collaborer une grande partie des travaux réalisés dans le groupe, et de les tester dans une application en vraie grandeur.

PS --- Perception située

Ce groupe s'intéresse à l'étude des diverses modalités de perception et au développement de systèmes de perception artificielle.

Partant de l'idée essentielle que la perception n'est pas le résultat d'un filtrage de l'information initialement donnée par des capteurs sous forme numérique, mais est un processus actif lié à l'action, guidé par les saillances de la scène et par des attentes internes, il conçoit un système perceptif comme étant au centre d'une double boucle (externe reliant la perception et l'action, interne reliant la cognition et la perception, réalisant donc une interaction permanente entre d'une part l'environnement (d'où provient l'information ascendante) et d'autre part la mémoire et les connaissances (fournissant une information descendante).

Ces aspects se déclinent suivant une modalité « audio » (analyse du signal audio et musical, de la voix chantée et de la parole, modélisation prosodique, étude des variations inter- et intra-locuteurs), et une modalité « visuelle » (recherche de modèles généraux de la perception, processus de recherche active d'information, perception différentielle qui distingue vision centrale et vision périphérique).

Ses principales applications portent sur la relation entre l'analyse et la synthèse de la parole, l'analyse et la perception de la qualité vocale, l'indexation d'images et sur l'imagerie médicale (implantation sur site d'un système de navigation en temps réel, de transfert, d'archivage, de visualisation d'images ; génération de représentations tridimensionnelles à partir de données CT-scanner, IRM ou échographe). Des applications à la robotique sont également envisagées.

TLP --- Traitement du Langage Parlé

Le groupe TLP a peu changé par rapport à la structure précédente. Son principal but reste de comprendre les processus de la communication parlée et de développer des modèles pour son traitement automatique. Les recherches sur la parole sont de nature pluridisciplinaire, faisant appel à des compétences en traitement du signal, en acoustique, en phonétique, en linguistique et en intelligence artificielle. Deux types de modélisation sont à la base des travaux du groupe : acoustico-phonétique et linguistique. Elles relèvent de l'utilisation conjointe de techniques statistiques et de représentation des connaissances.

L'association de techniques de traitement de la langue écrite à la reconnaissance de la parole spontanée, a conduit au développement de systèmes de compréhension où la gestion du dialogue joue un rôle essentiel, en particulier pour l'interrogation de bases de données. L'interaction peut être entièrement vocale ou multimodale et associée à un autre mode de communication comme un écran tactile.

L'indexation par le contenu de documents audio est devenu un axe de recherche majeur du groupe, avec le développement de techniques de segmentation de flux audio, de reconnaissance de la parole multilingue, d'identification de la langue et du locuteur, et de détection de thèmes.

Ces recherches se concrétisent dans des applications où les systèmes de traitement du langage parlé assurent des fonctions diverses telles que la transcription de la parole, le dialogue oral pour l'interrogation de bases de données, et l'indexation automatique de documents audiovisuels.

Perspectives

En traitement du langage écrit, les efforts de recherche portent sur le typage des documents et l'apprentissage pour concevoir des méthodes évolutives et paramétrables. Les nouvelles générations d'outils d'analyse textuelle doivent désormais s'appliquer à des données volumineuses issues de sources hétérogènes comme l'Internet. Le travail sur la référence et l'ajustement de bases sémantiques permettront une compréhension plus fine lors de l'appariement de questions et de réponses candidates. Enfin, l'ouverture à d'autres modalités, en particulier aux transcriptions de corpus oraux et à des représentations visuelles, faciliteront le travail sur le texte dans une perspective multimodale. À plus long terme, les questions importantes à considérer seront l'ancrage sémantique, l'intentionnalité et la place de l'apprentissage dans les processus langagiers.

En traitement du langage parlé, l'un des défi est d'approcher les performances humaines en matière de reconnaissance de la parole. Pour cela il faut développer des modèles plus génériques et augmenter les capacités d'adaptation des systèmes. L'extension des domaines sémantiques abordés dans les systèmes de dialogue, et la simplification du portage d'un système d'un domaine applicatif à un autre sont aussi des enjeux fondamentaux.

En cognition humaine, les résultats des études cognitives seront exploités au bénéfice d'une conception mieux documentée des systèmes d'aide au déplacement. Dans le domaine du langage, la modélisation des structures causales fera l'objet d'une attention particulière et la notion de situation cognitive de référence sera développée.

En ce qui concerne les aspects perceptifs, l'articulation avec le phénomène de l'attention sera approfondie et donnera lieu à des systèmes incarnés porteurs d'idées centrales pour les relations entre perception et action. Un autre enjeu important dans le domaine des télécommunications est l'évaluation de la qualité des services vocaux. Dans ce cadre l'étude et la perception de la qualité vocale, en particulier fondée sur l'utilisation de la synthèse, est un domaine en plein développement.

L'intégration de modalités dans la réalisation de systèmes de dialogue multimodaux, tout comme dans la construction de modèles pour une de ces modalités tenant compte de stimulus venant d'autres modalités est toujours un problème ouvert. Le passage d'une modalité à une autre est particulièrement important dans les applications d'aide au handicap. La reconnaissance des gestes à partir d'une saisie visuelle continuera d'être étudiée. Ce domaine demande aussi des approfondissements au sujet des architectures, en particulier des systèmes multiagents.

Enfin, de nombreuses activités se développeront autour de l'équipement de réalité virtuelle et augmentée en cours d'acquisition, tant dans l'étude des processus de la communication homme-machine, que dans l'aide aux recherches menées dans différents domaines, mécanique des fluides, biologie, astrophysique, chimie, et dans leur représentation pour des spécialistes ou des non-spécialistes. Et ce sera bien entendu, une source très riche pour l'étude des usages et des relations entre systèmes informatiques et société...