LE GROUPE LANGAGE ET COGNITION

Groupe LANGAGE ET COGNITION

_______________________

Exemples d'Activités de Recherche du groupe

INTRODUCTION

Le groupe Langage et Cognition comprend une quinzaine de membres permanents et une quinzaine de doctorants. Centré sur le traitement automatique des langues, il est fondamentalement pluridisciplinaire, puisqu'il s'intéresse à la langue en tant qu'objet (linguistique), ainsi qu'à son usage dans la communication (pragmatique). En vue de s'en inspirer pour réaliser des programmes de simulation (intelligence artificielle), il étudie également les mécanismes intellectuels de compréhension, de production et d'apprentissage chez l'être humain (psycholinguistique). Enfin, il traite aussi bien des aspects formels liés aux représentations et aux architectures, que des aspects plus applicatifs dans le cadre de la communication Homme-machine.

Deux grands axes essentiels se retrouvent dans les différents thèmes de recherche du groupe : le génie linguistique (où on cherche à utiliser efficacement des connaissances linguistiques pour améliorer diverses techniques informatiques où la langue intervient) et les modélisations cognitives (où on veut proposer des modèles informatiques qui rendent compte des caractéristiques de l'intelligence humaine).

Par ailleurs, la notion de << projet >> est devenue importante dans la gestion des actions du groupe ; aussi, après les descriptions des thèmes du groupe avons-nous détaillé quelques-uns des projets en cours, donnant ainsi une représentation << croisée >> de nos recherches (Caramel sous-tendant la plupart des recherches du groupe et étant rappelé dans le thème 1 n'y est pas repris).

Enfin, nous soulignerons l'intégration de Jean-Paul Sansonnet, DR CNRS, qui, avec quelques nouveaux doctorants étend diverses problématiques du groupe.

Thème 1 : Architecture et génie linguistique
Thème 2 : Sémantiques : des textes aux sens
Thème 3 : Apprentissage
Thème 4 : Raisonnement spatio-temporel
Thème 5 : Collaboration, interaction, dialogue
Projets

LES THÈMES DE RECHERCHE

THÈME 1 : Architecture et génie linguistique

G. Sabah, X. Briffault, O. Ferret, J.-P. Fournier, N. Guichard, M. Hurault-Plantet, Jean-Philippe Kotovicz, A. Popescu-Belis, I. Robba, G. Vapillon

Ce thème se divise explicitement selon les deux axes évoqués ci-dessus : la modélisation cognitive de la compréhension d'une part, le développement et la mise à disposition d'outils dans le cadre des industries de la langue, d'autre part.

CARAMEL, un modèle cognitif de la compréhension

Nous avons présenté dans les précédents rapports un modèle informatique destiné à la compréhension automatique des langues et qui rend compte de divers aspects liés aux notions d'apprentissage et de conscience.

Fondamentalement, ce modèle est très fortement inspiré des idées d'Erich Harth, de Bernard Baars et de Gerald Edelman. Leurs réflexions nous semblent importantes parce qu'elles ont des fondements très proches de l'intelligence artificielle distribuée, domaine très prometteur pour tout ce qui concerne la réflexivité et une première approche informatique de la conscience. Elles donnent ainsi à celle-ci un rôle de coordination et d'unification, essentiel pour toute modélisation de l'intelligence. Le modèle d'Edelman nous semble particulièrement prometteur, d'une part parce qu'il englobe l'ensemble des processus cognitifs (il relie de façon cohérente les perceptions aux fonctions supérieures du cerveau et au langage), et d'autre part parce qu'il est suffisamment précis pour déboucher sur nombre d'idées neuves pour les mises en $\oe$ uvre informatique - en particulier pour tout ce qui concerne la sémantique et la question de l'ancrage des symboles.

Un travail important de ce thème a alors consisté à transposer dans le cadre de la programmation multi-agent les propositions d'Edelman pour réaliser des mises en $\oe$ uvre partielles de cette théorie, illustrant son application possible au langage. Évitant de fournir au système modélisé une définition purement formelle de la sémantique du langage utilisé, ces expériences montrent la possibilité de fonder la sémantique sur la perception d'un environnement, sur l'action que le système effectue sur celui-ci et sur ses valeurs (besoins) internes. Une expérience particulière porte sur le développement de capacités élémentaires de communication entre des agents qui possèdent des capacités sensori-motrices simples ainsi que des valeurs internes : les agents sont supposés capables de catégoriser leur environnement, qui contient des formes géométriques munies d'attributs et de propriétés relationnelles. Des dialogues de description des scènes perçues permettent l'émergence d'un code de communication (lexique commun) et de propriétés syntaxiques. En liaison avec le traitement de la référence (cf. thème 2), cela constitue la thèse d'Andrei Popescu-Belis, en cours de rédaction.

Les travaux à venir concernent un meilleur contrôle du processus d'apprentissage, afin de pouvoir imposer, à l'aide d'agents << instructeurs >>, des conventions proches de celles de la langue française.

Par ailleurs, les travaux décrits ci-dessous montrent une implémentation du modèle - au moins de ses aspects réflexifs - à l'aide d'une plate-forme multi-agent générique.

MERCURE, une plate-forme multi-agent pour un atelier de génie linguistique

L'effort entrepris au cours de l'année 1997 sur le développement d'une architecture multi-agents a été poursuivi au cours de l'année 1998. La plate- forme Mercure, issue du projet Eureka PVS, se fonde sur les dernières spécifications architecturales de la FIPA (Foundation for Intelligent Physical Agents). Ces spécifications, compatibles avec celles de KSE (Knowledge Sharing Effort), sont nettement plus précises. Fondé sur la FIPA, notre langage de communication entre agents reste toutefois proche de KQML (Knowledge Query and Manipulation Language).

Une plate-forme contient quatre agents essentiels :

Un gestionnaire de compétences (analogue aux pages jaunes)
Un gestionnaire d'adresses (analogue aux pages blanches)
Un gestionnaire de l'activité des agents
Un gestionnaire de communication

Un agent supplémentaire, le Gestionnaire d'accès externes, gère les communications avec les éléments extérieurs au système multi-agent. Nous avons également mis en place les mécanismes permettant de créer des agents gestionnaires des composants logiciels externes.

Afin d'éviter tout couplage de bas niveau avec les composants logiciels utilisés par les agents, ceux-ci font l'objet d'une méta-description des données et des services qu'ils proposent. Nous utilisons pour ce faire le formalisme des graphes conceptuels. La mise en $\oe$ uvre de ce formalisme, dont nous disposions partiellement, a été étendue pour en augmenter la puissance expressive (second ordre, opérations ensemblistes, lambda expressions) ce qui permet de représenter tout type de données.

Des mécanismes d'interfaces de haut niveau ont été développés pour des composants COM, ODBC, Oracle, et CORBA, ainsi que pour certains logiciels bureautiques spécifiques, facilitant ainsi l'intégration de composants logiciels de différents types.

THÈME 2 : Sémantiques : des textes aux sens

C. Jacquemin, N. Bensimon, V. Briffault, G. de Chalendar, K.Chibout, S. Ferrari, F. Forest, L. Fraczak, B. Habert, G. Illouz, Camélia Popescu, Andrei Popescu-Belis, I. Robba, A. Vilnat, avec la collaboration de B. Habert (UMR 8503)

Divers aspects de la sémantique sont abordés dans ce thème : sémantique lexicale (comme l'association de traits sémantiques à des entrées lexicales et leur insertion dans une hiérarchie), sémantique référentielle (la recherche des objets référencés par des occurrences textuelles variées), sémantique conceptuelle (les concepts dénotés par les termes en langue de spécialité) et sémantique formelle (l'exploitation de formalismes génériques pour représenter les informations sémantiques).

Les activités du thème s'appuient sur des analyses fines et spécialisées des documents pour en extraire des connaissances sémantiques. La qualité des informations sémantiques dépend de la bonne synergie des analyses au niveau du texte : transmission des informations entre les modules, représentation homogène des connaissances extraites ou reconnues dans les textes, exploitation de données lexicales existantes (dictionnaires ou bases sémantiques) et exploitation de connaissances acquises automatiquement (voir également le Thème << Apprentissage >>).

Au cours d'une première phase de traitement, mots composés, termes et autres expressions référentielles sont reconnus afin de préparer la construction des représentations référentielles (RR) associées aux textes. Celles-ci sont envisagées sous deux perspectives : le traitement de la référence dans les textes narratifs et la normalisation conceptuelle de termes. En ce qui concerne la référence, un ensemble d'outils regroupés en un << atelier de traitement de la référence >> a été écrit. Ils permettent de construire les RR du texte : à ce jour (mais des extensions pertinentes sont encore à réaliser), une RR est le simple regroupement dans un même ensemble de toutes les expressions référentielles du texte qui désignent une même entité (voir aussi la page d'Andrei Popescu-Belis et Isabelle Robba << Évaluation des systèmes de Traitement Automatique des Langues : cadre formel et applications à la résolution de la référence >>). En ce qui concerne la normalisation sémantique des termes, des modules enchaînés réalisent successivement l'étiquetage du texte, la lemmatisation, l'acquisition terminologique et le regroupement de variantes sémantiques. La fusion des variantes exploite diverses connaissances sémantiques et morphologiques telles que des familles morphologiques ou des classes de mots synonymes. Elle vise à regrouper les occurrences linguistiques correspondant au même concept.

La phase des traitements partiels et locaux des documents prépare la construction d'une structure de plus haut niveau permettant de contextualiser les connaissances sémantiques apprises. L'étude de la distribution des mots dans un texte fournit des indicateurs importants pour repérer des zones thématiquement homogènes. L'exploitation de ces indicateurs, conjointement à l'utilisation d'un réseau de cooccurrences et des marques linguistiques présentes dans les textes permet de délimiter des segments thématiques et d'en proposer une structuration. Cette structuration des textes a été exploitée dans le cadre du résumé automatique (voir la page << La structuration thématique au service de la consultation rapide de documents >> de Nicolas Masson).

L'analyse des documents ne réussit que si les données fournies sont bien calibrées pour la tâche envisagée et si les modules exploités sont correctement organisés et paramétrés. Des travaux sont effectués pour définir et acquérir automatiquement des paramètres pertinents pour la constitution de corpus équilibrés et bien adaptés à une tâche. En retour, cette typologie des corpus permet une meilleure optimisation et une meilleure organisation des traitements. Ces paramètres quantitatifs et linguistiques sont des dimensions selon lesquelles s'opposent ou se regroupent les textes.

Le point de convergence des travaux développés dans ce thème est de fournir des informations sémantiques qui seront ensuite automatiquement organisées par des modules d'apprentissage. Afin de définir ces données cibles deux directions complémentaires sont prises au sein de ce thème. D'une part, un module d'acquisition automatique de liens sémantiques permet de regrouper les mots en fonction de leurs régularités de distribution syntaxique dans les résultats d'analyseurs syntaxiques partiels. Ce module fournit des cartographies d'ensemble des textes traités ainsi que des propositions de liens d'antonymie ou synonymie. D'autre part, une représentation manuelle des verbes a été réalisée à grande échelle. Elle est fondée sur des observations de dictionnaires, des analyses de corpus de dialogues et des principes de psycholinguistique. Une présentation hiérarchique rend compte des sens propres, des sens proches et des sens métaphoriques.

La représentation des données sémantiques formelles est réalisée dans le cadre des graphes conceptuels. Au sein de la plate-forme décrite ci-dessus (cf. thème 1) et de son application au projet PVS, les graphes conceptuels permettent de représenter une ontologie d'entreprise, utilisée pour modéliser les compétences des agents, formaliser le contenu des messages échangés et décrire la terminologie de l'entreprise.

THÈME 3 : Apprentissage

B. Grau, G. de Chalendar, S. Ferrari, O. Ferret, F. Forest, J.-P. Fournier, J.-P. Gruselle, I. Robba, G. Sabah, M. Zock, avec la collaboration de B. Habert (UMR 8503)

Ce thème aborde deux problématiques : l'apprentissage de connaissances par la machine pour des applications liées au traitement de la langue et l'exploitation de connaissances pour aider un utilisateur à acquérir des compétences dans une tâche de type enseignement assisté.

Les travaux développés dans le cadre de la première problématique concernent l'apprentissage de connaissances sémantiques et de connaissances pragmatiques : respectivement, catégories sémantiques propres à un domaine ou générales, et représentation de domaines et de situations concrètes. Ces connaissances étant acquises à partir de textes, leur niveau de structuration et de granularité est lié au degré d'élaboration des processus d'analyse utilisés. Les types d'apprentissage mis en $\oe$ uvre en découlent aussi : apprentissage de type statistique pour des données faiblement structurées, par analogie ou par étude de régularités pour des connaissances structurées. L'apprentissage de catégories sémantiques est fondé sur l'existence de régularités de relations entre mots. Dans une première approche, l'utilisation d'analyseurs syntaxiques robustes permet d'établir la nature de ces relations ainsi qu'une évaluation de la proximité des mots : deux mots sont d'autant plus proches qu'ils ont les mêmes arguments ou inversement qu'ils sont arguments-modifieurs des mêmes opérateurs. Ces proximités débouchent sur des classes sémantiques propres au domaine étudié. La seconde approche consiste à faire émerger des classes par propagation d'activation dans un vaste réseau pondéré construit par accumulation de productions verbales intervenant dans des situations similaires.

L'apprentissage de connaissances pragmatiques vise à constituer des descriptions générales de situations en faisant émerger les concepts correspondants. Les représentations des situations sont agrégées en fonction d'une mesure de similarité, faisant ainsi émerger leurs traits récurrents. Cette approche est appliquée à des représentations structurées de textes et conduit à l'apprentissage de schémas par un processus de généralisation symbolique. La constitution d'une telle ressource est destinée également à servir de base de cas pour élaborer un raisonnement par analogie permettant de produire de nouvelles structures. Par ailleurs, la même approche est appliquée à la constitution de domaines non structurés par regroupement d'ensembles de mots, conduisant à la structuration d'un réseau de cooccurrences lexicales.

Les travaux de la seconde problématique de ce thème portent sur la conception d'outils capables de retrouver les liens pertinents entre des connaissances en fonction d'un point de vue relatif à l'utilisateur. Deux types d'applications relèvent de cette approche : l'aide à la rédaction et l'assistance à la présentation d'un cours ou d'un exposé. L'aide à la rédaction a pour but de suggérer des idées et un plan pour la conception de documents à partir d'une proposition initiale d'un utilisateur. Le système aura à trouver de nouvelles idées, de nouveaux types d'organisation de celles-ci en fonction des connaissances dont il dispose et de leur organisation. L'assistance à la présentation doit permettre, quant à elle, de mettre en place ou de découvrir ces liens, à partir des caractéristiques des objets présentés et du texte de la présentation organisée sous la forme d'une succession de thèmes connus ou à découvrir. L'existence de ces liens servira ensuite à assister intelligemment la présentation, en améliorant l'éclairage dont bénéficient les objets les plus pertinents à un instant donné.

THÈME 4 : Raisonnement spatio-temporel

G. Ligozat, X. Briffault, L. Fraczak, S. Gérard, M.-R. Gonçalvès, N. Landes, J. Marciniak, Vincent Maya, Erika Valencia, J. Vapillon

La thématique principale est celle de la représentation de connaissances spatiales et temporelles et du raisonnement sur ces connaissances, en liaison avec la langue naturelle. Les formalismes étudiés relèvent principalement de méthodes symboliques (raisonnement qualitatif temporel et spatial), avec le développement d'approches originales (intervalles généralisés, méthodes algébriques). Trois aspects sont abordés dans le thème :

Étude des propriétés des formalismes : modèles des formalismes spatiaux et temporels (Gérard Ligozat), intégration de plusieurs aspects spatiaux (Marie-Rose Gonçalvès), modèles analogiques (Sébastien Gérard). Les principaux résultats obtenus concernent les propriétés de formalismes spatiaux directionnels (propriétés de complexité) et topologiques (caractérisation des modèles), la définition d'un formalisme intégré qui prend en compte les connaissances utilisées dans les bases de données géographiques, ainsi que la faisabilité de représentations analogiques récursives pour la description de scènes.
Relations avec le traitement des langues : représentation de connaissances issues de textes (Nicolas Landes), génération de textes à partir de connaissances spatiales (Lidia Fraczak). La mise en $\oe$ uvre des intervalles généralisés dans le cadre d'une application linguistique (interprétation de récits) a fait apparaître d'intéressants problèmes liés à la possibilité de décrire dans un langage convenable des opérations élémentaires sur les intervalles généralisés. Un tel langage devrait permettre la description et le test de stratégies d'interprétation des récits.
Développement d'applications spécifiques : dans le domaine de la description d'itinéraires, le guidage (Xavier Briffault, Jacek Marciniak, Jérôme Vapillon), et les bases de données géographiques (Vincent Maya). Ces travaux se rattachent au problème général de l'expression selon diverses modalités (linguistique, symbolique, gestuelle, picturale) des itinéraires et des indications de guidage. Enfin, un axe lié aux applications de la représentation graphique est en cours de développement : utilisation de diagrammes pour le raisonnement (Gérard Ligozat), utilisation de la topologie algébrique (Erika Valencia). Il s'agit ici d'utiliser des représentations des connaissances sous forme d'objets possédant une structuration spatiale (diagrammes) ou topologique (complexes simpliciaux) pour le raisonnement.

THÈME 5 : Collaboration, Interaction, Dialogue

A. Vilnat, C. Balkanski, J.B. Berthelin, X. Briffault, L. Charnay, O. Ferret, S. Gérard, B. Grau, N. Guichard, M. Hurault-Plantet, G. Sabah, J.P. Sansonnet, G. Vapillon

La communication entre << agents >> est au centre des recherches effectuées dans ce thème. Par agent, nous entendons ici aussi bien des humains que des systèmes informatiques complexes ; la communication concerne alors deux humains, un humain et un système informatique, ou deux systèmes informatiques.

Dans ce cadre, nous avons étudié plus spécifiquement certains problèmes de façon distincte, mais avec le but d'intégrer ultérieurement les différentes solutions au sein d'un même système. Parallèlement nous travaillons sur des applications offrant des cadres de mise en oeuvre partielle de ces solutions.

L'un des aspects de ces recherches concerne la modélisation des intentions et des croyances que doivent avoir des agents pour collaborer à une même tâche, modélisation fondée sur la théorie des << plans partagés >> de Grosz et Sidner. En développant ce modèle, nous avons été amenés à travailler sur les élaborations et les réparations de plan, ainsi que sur la verbalisation des échecs (cf. la page de présentation de Cécile Balkanski et Martine Hurault-Plantet).

Afin d'améliorer l'interaction, nous avons développé un modèle fondé sur la représentation dynamique de la structure d'un dialogue, en analysant à la fois l'intention communicative (liée à la fonction d'un énoncé) et l'intention informative (reposant sur les relations thématiques entre énoncés) véhiculées par les interventions des interlocuteurs. Ce modèle permet d'observer les stratégies suivies par les interlocuteurs et d'influer sur les stratégies à adopter par un système, de façon à prévenir les risques d'incompréhension. Une interface de saisie des éléments d'analyse nécessaires à la construction de cette structure (cf. la page de présentation de Brigitte Grau et Anne Vilnat, ainsi que la description du projet MAD, ci-dessous) permet d'envisager l'étude de corpus de dialogues variés, aussi bien en terme de types d'interlocuteurs (homme-homme, magicien d'Oz, ou véritable dialogue homme- machine), que de tâche à accomplir (recherche d'informations, dialogue de commande, explication, ou même dialogue << artificiel >>, comme avec l'Eliza de Weizenbaum).

Dans le cadre plus spécifique des dialogues explicatifs, nous avons proposé un modèle informatique de l'énonciation mettant en relief ses différents aspects et leurs interactions. L'acte de dialogue permet, à partir des énoncés en langue naturelle de fournir des éléments d'interprétation aux différents modules gérant le dialogue, l'explication et l'argumentation.

Parallèlement à ces travaux, est réalisée une plate-forme dans laquelle des agents humains interagissent avec leurs alter ego informatiques, qui eux-mêmes interagissent entre eux. Cette plate-forme permet de mettre en $\oe$ uvre des solutions au départ élémentaires en restreignant les problèmes considérés. Le but étant ensuite d'améliorer incrémentalement ces solutions, en élargissant les compétences des agents informatiques (voir le projet Mercure, ci-dessous).

Enfin, pour offrir une assistance à l'utilisateur de systèmes d'information distribuée, nous nous intéressons également au développement d'une interaction langagière très simplifiée. Le modèle que nous proposons s'appuie sur une représentation des composants (les éléments auxquels il est fait référence au cours du dialogue) qui est de nature dynamique et analogique, inspirée des modèles de situation en psychologie (cf. la page de présentation de Sébastien Gérard et Jean-Paul Sansonnet, ainsi que la description du projet InterViews, ci-dessous).

PROJETS

Projet MERCURE

X. Briffault, O. Ferret, Nicolas Guichard, Jean-Philippe Kotovicz, Gérard Sabah, Jérôme Vapillon

Le projet PVS est un projet Eureka, rassemblant le LIMSI, la société AEGIS, et d'autres partenaires universitaires et industriels, français, suisses et tchèques. Son objectif est la réalisation d'outils innovants de gestion de projet et de production. Nous nous appuyons pour ce faire sur la technologie des systèmes multi-agents, en utilisant en particulier la plate-forme développée pour cela dans le cadre du projet MERCURE, et décrite dans la présentation du thème << architecture >>.

Une étude des tendances socio-économiques et des évolutions en cours dans les sciences de l'organisation et de la gestion nous a permis d'inscrire nos développements logiciels dans les grandes évolutions en cours. Le point central de ces évolutions est le passage d'une économie de croissance et de production de masse, après la guerre, à une économie plus tendue, plus incertaine et plus << mondialisée >>. Dans ce contexte, le problème n'est plus tant de réaliser des systèmes de gestion qui optimisent la résolution de problèmes récurrents, mais plutôt de proposer des systèmes qui optimisent la réponse et l'adaptation des organisations et des hommes à des problèmes sans cesse renouvelés. L'organisation par projets est une des techniques organisationnelles pouvant apporter des solutions à ce type de problèmes.

Les systèmes informatiques de traitement de données, souvent abusivement considérés comme des systèmes d'informations construits sur des analyses organisationnelles ou sur une formalisation a priori des besoins utilisateurs ne sont plus alors plus suffisants : le système d'information doit << coller >> aux évolutions organisationnelles de l'entreprise, rendues nécessaires par l'environnement extrêmement mouvant dans lequel elles évoluent, et non freiner ces évolutions en constituant un centre d'inertie difficile à faire évoluer.

Notre hypothèse est que pour cela, la gestion et l'amélioration de la coopération et de la communication entre les acteurs d'un projet doivent être mises au coeur du système d'information et ne plus être considérés comme des éléments périphériques, même assistés par des systèmes de plus en plus élaborés (messageries, intranets, groupware.).

Au cours de l'année 1998, nous avons proposé un nouveau modèle de gestion de projet suivant ces nouvelles orientations. Il s'agit d'un modèle de gestion fortement distribué, orienté vers la gestion du co-pilotage de projets co- conçus. Dans ce modèle, la gestion de projet est vue comme le résultat de l'activité collaborative d'un ensemble d'agents (humains et logiciels) visant à atteindre des objectifs individuels ou partagés, et non plus comme la réalisation d'activités prescrites a priori par des exécutants peu autonomes, au contraire des méthodes traditionnelles.

Dans l'approche que nous proposons, de nombreuses fonctionnalités supplémentaires sont offertes par l'outil de gestion de projet :

La gestion explicite des compétences, permettant l'émergence dynamique des réseaux de collaboration adaptés à l'activité, et non conditionnés par des définitions a priori
La gestion des conversations entre acteurs, intégrée à la planification des activités, et la gestion des protocoles de coordination.
La traçabilité des modifications, et la gestion des notifications de modifications en fonction des besoins des acteurs et de leurs activités.
La visibilité collective des actions et des décisions individuelles, permettant une réactivité optimale de chacun en fonction des comportements de tous.

La mise en oeuvre de ces fonctionnalités bénéficie directement des possibilités offertes par la plate-forme SMA à base d'agents communicants par actes de langages que nous utilisons.

Au cours de l'année 1998, l'ensemble du système a été spécifié, et sera implémenté au cours du premier semestre 1999.

Projet MOHA : MOdèle Hybride d'Apprentissage

Françoise Forest, Brigitte Grau, Gaël de Chalendar, O. Ferret, Jean-Pierre Gruselle

MoHA a pour objectif la construction et l'utilisation d'un réseau de connaissances associant des connaissances perceptives, langagières et pragmatiques. L'acquisition de nouvelles connaissances fait intervenir les connaissances déjà acquises. Le modèle est défini pour être utilisé en situation de communication, pour la compréhension d'énoncés.

L'idée principale que nous voulons tester consiste à faire émerger des notions dès lors qu'un ensemble d'expériences relatives à cette notion a eu lieu et a été mémorisé. L'apprentissage est non supervisé et se fonde sur le regroupement de situations similaires ; les notions apprises sont donc issues d'expériences qui ne constituent pas des ensembles d'exemples organisés. En fonction des connaissances visées par l'apprentissage, et donc aussi suivant ce que la machine connaît déjà, ces expériences seront de nature différente et seront représentées par des structures plus ou moins élaborées. Des structures spécifiques ont donc été définies pour les mémoriser, ainsi que des processus de formation pour faire émerger de nouvelles notions, tout en veillant à conserver des liens entre elles, garantissant une véritable intégration.

Travail effectué : les travaux ci-dessous illustrent diverses étapes de la formation des connaissances.

- Acquisition de concepts à partir d'expériences langagières (thèse de Jean-Pierre Gruselle, 1997)

- Représentation topologique des situations perçues

- Apprentissage de connaissances pragmatiques à partir de textes narratifs (thèse d'Olivier Ferret, 1998)

Travail en cours :

- Acquisition de hiérarchies de concepts (thèse de Gaël de Chalendar)

Projet MAD : Mémorisation et Analogie pour le Dialogue

Brigitte Grau, Anne Vilnat, Isabelle Robba, Jean-Baptiste Berthelin

Afin de mener des dialogues portant sur des mondes ouverts, (c'est-à-dire quand toutes les connaissances nécessaires ne sont pas définies a priori), un système doit être capable d'améliorer son propre comportement tant en fonction des situations qu'il rencontre qu'en fonction des réactions de l'utilisateur qui lui permettent d'évaluer les stratégies qu'il a adoptées. Cela implique une capacité à mémoriser et à réutiliser l'expérience passée afin d'exploiter les situations de communication satisfaisantes pour réagir face à de nouvelles situations imprévues. Cela conduit à considérer le dialogue comme un processus non figé, ayant une forte capacité d'adaptation et d'apprentissage. Le but du présent projet est donc de définir la forme des représentations mémorisées et leur contenu (la structure du dialogue, le plan sous-jacent appliqué, l'évaluation du dialogue.), de définir des critères d'évaluation sur ces représentations et de déterminer les critères de similarité pertinents pour pouvoir les réutiliser. Le travail se fonde sur une étude de corpus concernant des dialogues homme-homme (dialogues de recherche d'informations et d'enseignement).

Travail effectué : réalisation d'un outil d'annotation de corpus permettant de construire et visualiser la représentation de structures de dialogue.

Travail en cours et à venir :

- Étiquetage d'exemples de dialogues afin de produire des structures de dialogues

- Définition de critères d'évaluation en fonction des structures et des tâches

- Définition des informations à mémoriser en vue d'effectuer du raisonnement à base de cas.

Projet INTERVIEWS

Jean-Paul Sansonnet, Khedija Aoun, Sébastien Gérard, Erika Valencia avec la participation de Cécile Balkanski, Martine Hurault-Plantet

Ce projet vise à proposer un modèle dynamique et analogique de représentations sémantiques pour des composants actifs de pages Web, permettant l'interaction dialogique et la production automatique, et à le mettre en oeuvre. Les pages Web sont appelées à devenir le lieu d'interaction standard entre les utilisateurs et les services en ligne. Elles auront donc un rôle de plus en plus actif et par-delà l'accès aux services, elles devront assurer l'accueil, l'assistance et la formation pour une classe de plus en plus vaste d'utilisateurs-citoyens. De nouveaux besoins, contradictoires, apparaissent : d'une part, il faut faciliter l'intégration dans les pages de composants actifs effectuant des services ou servant d'intermédiaires ; d'autre part, il faut faciliter leur utilisation via des assistants dialogiques et aussi leur production par des utilisateurs non avertis. Nous pensons que, dans ce contexte, les notions d'activité, d'assistance et de production ne pourront être traitées convenablement que si elles sont profondément intégrées dès la phase de définition des composants actifs. L'objectif premier du projet InterViews est de proposer un modèle dynamique et analogique de représentations sémantiques pour des composants actifs (appelés vues). Cela doit conduire à la définition d'un << Langage de Description de Vues >> permettant aux concepteurs de décrire le domaine sémantique et l'activité des vues et de les composer pour former des pages Web. Le deuxième objectif du projet est l'étude de l'interaction dialogique avec des vues, d'abord dans un cadre restreint avec à terme, l'espoir de se rapprocher du dialogue en langue naturelle. Le troisième objectif concerne la possibilité de production automatique de vues dans une page ainsi que la composition de vues de manière distribuée sur le Web.

Projet CERVICAL

Gérard Sabah, Xavier Briffault, Isabelle Robba, Cécile Balkanski, Andrei Popescu- Belis, participants extérieurs au LIMSI : Anne Reboul (responsable du projet), Laurent Romary, Bertrand Gaiffe, Florence Bruneseaux, Patrice Lopez, Evelyne Jacquey (LORIA- Nancy) et de Louis de Saussure (Genève)

Le projet CERVICAL réunit des chercheurs du LIMSI et du LORIA. Il s'est constitué en réponse à un appel d'offres du GIS Sciences de la Cognition, appel d'offres qui s'intitulait << Cognition et communication - Dimensions cognitives dans l'interaction homme-machine >>. Il a débuté en octobre 1996 et devait durer deux ans, mais il est actuellement en attente, n'ayant reçu que la première moitié de son budget.

Les chercheurs rassemblés dans CERVICAL travaillent dans le domaine du dialogue homme-machine (DHM) et ont tous été confrontés aux problèmes que soulève la référence dans le dialogue homme-machine. Il se trouve que la référence est aussi un des problèmes centraux de la sémantique et il a paru intéressant de chercher à réunir les points de vue linguistique et informatique et d'adopter une approche pragmatique de la référence en en proposant de nouvelles méthodes de traitement. L'idée essentielle est de remplacer les méthodes classiques (qui ne traitent en fait que la coréférence) en introduisant la notion de représentation mentale, regroupant dans un modèle cognitif idiosyncratique l'ensemble des caractéristiques des entités introduites dans le discours. Les traitements proposés intègrent des données venant de sources diverses, linguistiques, perceptuelles, spatiales, encyclopédiques.

Diverses publications ont été présentées lors de colloques ; des documents internes au projet ont aussi été élaborés : rapports intermédiaires, rapports en vue d'une réunion, comptes rendus de chaque réunion.

DptCHM

Sommaire

Présentation