Groupe LANGAGE ET COGNITION

Groupe LANGAGE ET COGNITION

_______________________

Exemples d'Activités de Recherche du groupe

Enseignement et diffusion des connaissances
Relations nationales
Relations internationales

INTRODUCTION

Le groupe Langage et Cognition comprend trente-quatre membres : 5 chercheurs CNRS (sections 07 & 34) et 1 ITA CNRS (section 07), 2 Enseignants-Chercheurs en délégation (section 07), 7 Enseignants-Chercheurs (section 27) et 19 doctorants (venant essentiellement de DEA d'Informatique [Paris XI, Paris VI], DEA de Sciences cognitives ou de grandes écoles). Centré sur le traitement automatique des langues, il est fondamentalement pluridisciplinaire, puisqu'il s'intéresse à la langue en tant qu'objet (linguistique), ainsi qu'à son usage dans la communication (pragmatique). En vue de s'en inspirer pour réaliser des programmes de simulation (intelligence artificielle), il étudie également les mécanismes intellectuels de compréhension, de production et d'apprentissage chez l'être humain (psycholinguistique). Enfin, il traite aussi bien des aspects formels liés aux représentations et aux architectures, que des aspects plus applicatifs dans le cadre de la communication Homme-machine.

Dans ce rapport, nous situerons tout d'abord les recherches du groupe sur le plan européen d'une part et par rapport aux recherches générales sur le traitement automatique des langues d'autre part. Nous décrirons ensuite plus précisément les recherches des différents thèmes du groupe :

Thème 1 : Architecture et génie linguistique
Thème 2 : Sémantiques : des textes aux sens
Thème 3 : Apprentissage et acquisition
Thème 4 : Raisonnement spatio-temporel
Thème 5 : Collaboration, interaction, dialogue

Deux grands axes essentiels se retrouvent dans ces différents thèmes de recherche : le génie linguistique (où l'on cherche à utiliser efficacement des connaissances linguistiques pour améliorer diverses techniques informatiques où la langue intervient) et les modélisations cognitives (où l'on veut proposer des modèles informatiques qui rendent compte des caractéristiques de l'intelligence humaine). L'évolution des thèmes 2 et 3 vers l'utilisation de techniques numériques et statistiques, conjointement aux méthodes symboliques, nous a conduits à développer des techniques de recherche d'informations : le résumé automatique de textes, la fouille de textes et la détection et le suivi de thèmes sur des corpus importants de textes français. Cet axe est renforcé par la venue dans le groupe de Christian Jacquemin ainsi que de Christine Golbreich (tous deux en délégation CNRS). Enfin, les outils théoriques de représentation et de compréhension s'enrichissent de méthodes analogiques et topologiques, avec les recherches développées par Jean-Paul Sansonnet.

Si on analyse les appels d'offres des programmes européens, on constate que les efforts récents portent essentiellement sur les questions de réutilisabilité (des ressources, des outils et des méthodes) et sur le développement d'applications pilotes. Le premier point, dû à la très grande quantité de ressources nécessaire, implique la mise en oeuvre d'analyses de corpus et de systèmes d'évaluation, alors que le second est un moyen utile pour tester de nouvelles techniques et doit reposer sur l'analyse des besoins réels d'utilisateurs réels. De ces programmes on peut également déduire la situation des recherches en traitement automatique des langues : la morphologie et la syntaxe sont actuellement bien codifiées et supportées par des théories solides (Government & binding, GPSG, HPSG, LFG, TAG), et on assiste à des progrès significatifs en sémantique formelle (dans l'absolu, avec diverses extensions de la logique formelle, mais aussi avec des tentatives d'intégration dans des traitements syntaxico-sémantique (théorie Sens-texte) ou des efforts vers la prise en considération du langage dans l'ensemble de la cognition (Jackendoff, Langacker)). On peut toutefois souligner que, dans la grande majorité des cas, à part les derniers cités, la syntaxe reste isolée, même lorsqu'elle est liée à la sémantique (souvent par l'intermédiaire du lexique), et que la sémantique est généralement réduite à ses aspects formels. Les points durs qui restent à développer portent principalement sur le discours, sur la découverte et la mise en oeuvre d'une sémantique véritable (avec deux aspects principaux : le goulet d'étranglement lié à la constitution de telles données en vraie grandeur pour les divers formalismes proposés d'une part, et d'autre part, la question de l'ancrage permettant au sens de rester lié aux aspects perceptifs aussi bien qu'à des expériences concrètes dans le monde), sur les aspects énonciatifs et sur la formalisation et l'utilisation de connaissances pragmatiques (aussi bien les connaissances encyclopédiques sur le monde, que les règles du discours utilisées pour comprendre et produire des textes ou des dialogues).

En ce qui concerne les recherches et leurs applications, trois niveaux peuvent être considérés : rester au niveau du texte seul, considérer un niveau conceptuel indépendant du langage, ou réaliser des systèmes qui se représentent leur interlocuteur et y adaptent leur comportement. Dans le premier cas, le langage est considéré comme un objet isolé et les traitements consistent en des mécanismes d'appariements à différents niveaux (les applications sont alors des aides dans les traitements de texte, des systèmes d'indexation et de recherche d'informations, ou des aides à la traduction ou au résumé semi-automatiques de textes techniques) ; dans le second cas, le langage est un moyen de contrôle d'un système agissant sur le monde et demande que non seulement le texte, mais la situation décrite soit comprise et représentée (nécessaire pour une traduction ou un résumé automatiques de textes quelconques) ; enfin, le troisième est utile dans les interfaces utilisant la langue naturelle (systèmes de dialogue -- homme-machine ou homme-homme médié par la machine -- et d'enseignement).

Par rapport à cette situation, la première caractéristique du groupe Langage et Cognition est d'aborder pratiquement l'ensemble des questions liées au langage (avec comme seule absence très nette, le multi-linguisme et la traduction) ; ensuite, d'offrir une bonne couverture de ressources lexicales (ensemble complet de tous les processus morphologiques d'analyse et de génération, des données en quantité tout à fait significative), et de développer des travaux en analyse syntaxique avec d'une part un analyseur LFG ergonomique et ayant une couverture importante, et d'autre part des recherches nouvelles sur l'analyse robuste. Au sujet des aspects sémantiques, le groupe a des apports théoriques en graphes conceptuels et en sémantique formelle du temps et de l'espace ; enfin, au niveau pragmatique, les interprétations sont fondées sur des modèles avancés, mais les mises en oeuvre sont limitées. Il convient également de souligner des développements récents vers l'utilisation de corpus et de techniques de recherche d'information et de validation, ainsi que des applications orientées vers Internet.

LES THÈMES DE RECHERCHE

THÈME 1 : Architecture et génie linguistique

Gérard Sabah, Xavier Briffault, Olivier Ferret, Jean-Pierre Fournier, Nicolas Guichard, Martine Hurault-Plantet, Jean-Philippe Kotovicz, Andrei Popescu-Belis, Isabelle Robba, Jérôme Vapillon

Ce thème se divise explicitement selon deux axes : la modélisation cognitive des capacités langagières d'une part, le développement et la mise à disposition d'outils dans le cadre des industries de la langue, d'autre part.

CARAMEL, un modèle cognitif de la compréhension

Le modèle CARAMEL permet d'intégrer l'ensemble des recherches du groupe Langage et Cognition (aussi bien conceptuellement qu'informatiquement) et d'avoir une vision globale du langage, de son acquisition et de son utilisation dans la communication, en particulier homme-machine. Actuellement, ce modèle est partiellement mis en oeuvre (en Smalltalk) ; son implantation complète fait l'objet des travaux à venir.

Nous avons présenté dans les précédents rapports ce modèle informatique destiné à la compréhension automatique des langues et qui rend compte de divers aspects liés aux notions d'apprentissage et de conscience. Fondamentalement, ce modèle est très fortement inspiré des idées d'Erich Harth, de Bernard Baars et de Gerald Edelman. Leurs réflexions nous semblent importantes parce qu'elles ont des fondements très proches de l'intelligence artificielle distribuée, domaine très prometteur pour tout ce qui concerne la réflexivité et une première approche informatique de la conscience. Elles donnent ainsi à celle-ci un rôle de coordination et d'unification, essentiel pour toute modélisation de l'intelligence. Le modèle d'Edelman est particulièrement prometteur, d'une part parce qu'il englobe l'ensemble des processus cognitifs (il relie de faç on cohérente les perceptions aux fonctions supérieures du cerveau et au langage), et d'autre part parce qu'il est suffisamment précis pour déboucher sur nombre d'idées neuves pour les mises en oeuvre informatique -- en particulier pour tout ce qui concerne la sémantique et la question de l'ancrage des symboles.

Un travail important de ce thème a alors consisté à transposer dans le cadre de la programmation multi-agent les propositions d'Edelman pour réaliser des mises enoeuvre partielles de cette théorie, illustrant son application possible au langage. Évitant de fournir au système modélisé une définition purement formelle de la sémantique du langage utilisé, ces expériences montrent la possibilité de fonder les capacités sémantiques d'un agent sur sa perception d'un environnement, sa catégorisation en fonction des besoins internes (ou valeurs), et l'action effectuée sur cet environnement. Une expérience particulière porte sur le développement de capacités élémentaires de communication entre des agents supposés capables de catégoriser leur environnement, qui contient ici des formes géométriques munies d'attributs et de propriétés relationnelles. Des dialogues de description des scènes perçues permettent l'émergence d'un code commun de communication ; le lexique et les propriétés syntaxiques partagées sont représentés, pour chaque agent, à l'aide d'une grammaire d'arbres adjoints lexicalisée. Ces réalisations n'abordent toutefois pas directement le rapport essentiel du code de communication avec les entités qu'il peut dénoter, à savoir le problème de la référence. Afin d'avancer dans cette direction, nous avons proposé une description cognitive d'un ensemble de cas référentiels, description inspirée de la linguistique fonctionnaliste. L'expression de ces cas (en français) a été reliée aux états perceptifs d'un agent, grâce à un mécanisme de représentation interne distinguant les propriétés des entités individuelles de celles de leurs catégories.

Afin d'étudier l'expression des références dans les textes réels, nous avons également élaboré un modèle d'inspiration pragmatique, fondé sur les représentations internes des agents, et nous l'avons utilisé dans un programme de résolution des références. Les bons résultats obtenus confirment la pertinence de ce modèle, ainsi que certaines prédictions issues de l'analyse des cas référentiels. En ce qui concerne la mesure de ces résultats, nous avons entrepris une réflexion sur l'évaluation en génie linguistique qui a abouti à la proposition d'un cadre formel et de critères de cohérence des mesures. Appliquées au problème de la référence, ces conclusions ont notamment conduit à la définition et à la validation d'une nouvelle mesure fondée sur << l'information référentielle >>, mesure adaptée à la communication entre agents. Les travaux à venir s'orientent vers le contrôle du processus d'apprentissage des agents, afin de pouvoir imposer, à l'aide d'agents << instructeurs >>, des conventions proches de celles de la langue française.

Par ailleurs, les travaux décrits ci-dessous montrent une implémentation du modèle CARAMEL -- au moins de ses aspects réflexifs -- à l'aide d'une plate-forme multi-agent générique.

MERCURE, une plate-forme multi-agent pour un atelier de génie linguistique

Cette plate-forme, appelée Mercure, issue du projet Eureka PVS, se fonde sur les dernières spécifications architecturales 1998 de la FIPA (Foundation for Intelligent Physical Agents). Ces spécifications, compatibles avec celles de KSE (Knowledge Sharing Effort), sont nettement plus précises. Fondé sur la FIPA, notre langage de communication entre agents reste toutefois proche de KQML (Knowledge Query and Manipulation Language).

Une plate-forme contient quatre agents essentiels :

$\bullet$ Un gestionnaire de compétences (analogue aux pages jaunes)

$\bullet$ Un gestionnaire d'adresses (analogue aux pages blanches)

$\bullet$ Un gestionnaire de l'activité des agents

$\bullet$ Un gestionnaire de communication

Un agent supplémentaire, le Gestionnaire d'accès externes, gère les communications avec les éléments extérieurs au système multi-agent. Nous avons également mis en place les mécanismes permettant de créer des agents gestionnaires des composants logiciels externes.

Afin d'éviter tout couplage de bas niveau avec les composants logiciels utilisés par les agents, ceux-ci font l'objet d'une méta-description des données et des services qu'ils proposent. Nous utilisons pour ce faire le formalisme des graphes conceptuels. La mise en $\oe$ uvre de ce formalisme, dont nous disposions partiellement, a été étendue pour en augmenter la puissance expressive (second ordre, opérations ensemblistes, lambda expressions) ce qui permet de représenter tout type de données.

Des mécanismes d'interfaces de haut niveau ont été développés pour des composants COM, ODBC, Oracle, et CORBA, ainsi que pour certains logiciels bureautiques spécifiques, facilitant ainsi l'intégration de composants logiciels de différents types.

Cette plate-forme a fait l'objet d'une reconnaissance par la FIPA pour laquelle une application spécifique de démonstration a été développée.

THÈME 2 : Sémantiques : des textes aux sens

Christian Jacquemin, Xavier Briffault, Caroline Busch, Gaël de Chalendar, Karim Chibout, Olivier Ferret, Brigitte Grau, Nuria Gala Pavia, Christine Golbreich, Gabriel Illouz, Camélia Popescu, Nicolas Masson, Laura Monceaux, Camélia Popescu, Andrei Popescu-Belis, Isabelle Robba, Erika Valencia, Anne Vilnat,

Objet du thème

Ce thème regroupe les activités de recherche autour de la représentation des données sémantiques et de leur utilisation dans des applications de traitement automatique des langues et d'extraction ou d'accès à l'information. La sémantique est le point d'articulation entre la forme des textes (la syntaxe et le lexique) et le sens référentiel (les objets et les relations du domaine) ou pragmatique (les variations et l'usage observés selon le locuteur, le contexte d'énonciation ou les connaissances partagées sur le monde).

La description sémantique est réalisée grâce à 1) des traits sur les éléments lexicaux (mots simples, termes ou unités polylexicales), 2) des liens entre ces éléments (par exemple, fonctions lexicales, liens d'hyperonymie ou de synonymie) et 3) des règles de construction du sens. Les facettes de la sémantique traitées dans les analyses automatiques couvrent essentiellement la sémantique conceptuelle (les concepts dénotés) et la sémantique référentielle (la recherche des objets référencés par des occurrences textuelles variées). Elles supposent en parallèle l'acquisition de classes et de relations sémantiques ainsi que la désambiguïsation sémantique (la recherche du sens contextuel d'une entité polysémique).

Outils descriptifs

Deux types d'outils principaux sont utilisés dans les descriptions sémantiques : les graphes conceptuels et les logiques de description.

Les graphes conceptuels constituent un formalisme logique qui permet la description des données sémantiques et le raisonnement pour en déduire de nouvelles valeurs dans des cas de composition. Le groupe Langage et Cognition a développé depuis de nombreuses années des outils de représentation et de manipulation des graphes conceptuels. Ces outils servent à la fois à associer des traits sémantiques aux éléments du lexique, à définir des restrictions de sélection et à calculer le sens compositionnel de structures syntaxiques. Ils servent également de langage de représentation des informations au sein de la plate-forme multi-agents (cf. thème 1).

Les logiques de description sont des langages conceptuels permettant la représentation déclarative de terminologies. Leur principal avantage est de posséder une sémantique propre en termes d'interprétation ensembliste. Elles sont de plus en plus utilisées pour l'intégration d'aspects sémantiques dans la modélisation et l'interrogation de bases de données, car elles permettent l'expression de connaissances incomplètes. Elles sont proposées pour le traitement les problèmes d'hétérogénéité sémantique dans les interactions à base de requête dans les systèmes multi-agents.

En plus de ces deux formalismes riches, des descriptions au moyen des structures de traits sont utilisées en sémantique linguistique, référentielle ou conceptuelle. Les mécanismes d'inférence sont alors bien plus pauvres puisque seule l'unification est disponible. Les descriptions par traits restent cependant attractives en raison de leur neutralité, de leur souplesse et de leur polyvalence.

Enrichissement des données sémantiques

L'enrichissement des données sémantiques utilise essentiellement trois techniques. Une première possibilité est de saisir directement ces données en s'appuyant sur des analyses linguistiques ou cognitives des phénomènes langagiers. La deuxième solution consiste à acquérir des informations sémantiques à partir de corpus ; on peut ainsi découvrir automatiquement des liens hyperonymes à partir de contextes définitoires. La troisième solution est de recycler des données existantes en s'assurant de leur qualité, en particulier en vérifiant leur homogénéité.

Applications

Les applications de ces études sur la sémantique dans le groupe se font en amont ou au cours des traitements automatiques.

Les traitements des données en amont consistent à simplifier les documents en les indexant et en regroupant les variantes sémantiques des index, ou à acquérir des données sémantiques pour construire des lexiques ou des thesaurus structurés.

$\bullet$ L'indexation des documents leur associe des représentations simplifiées telles que des termes, des noms propres, des mesures numériques, etc. Pour augmenter la qualité de telles représentations, il convient de les mettre sous forme canonique. L'objet de la normalisation terminologique ou de la recherche des coréférences est de remplacer chaque occurrence par une forme normale la plus complète possible. Ces représentations simplifiées peuvent ensuite être utilisées dans des tâches d'accès à l'information.

$\bullet$ La constitution manuelle ou semi-automatique de connaissances lexicales intrinsèques (des traits lexicaux) et de liens entre ces éléments prépare les analyses automatiques. Les liens définissent des relations entre générique et spécifique, des relations de proximité ou des relations de similitude distributionnelle. Ces traits et ces liens sémantiques servent ensuite dans de nombreuses situations du traitement automatique telles que celles qui sont décrites ci-dessous.

Au cours des traitements, les applications de l'analyse automatique de la langue exploitent des informations sémantiques pour améliorer la qualité et l'abstraction des traitements. Nous en citons quelques exemples :

$\bullet$ en compréhension des dialogues, la sémantique référentielle sert à identifier les objets désignés au cours des échanges dialogiques ;

$\bullet$ les restrictions de sélection sémantiques servent à désambiguïser les rattachements sémantiques et à améliorer la qualité d'une analyse superficielle des textes ;

$\bullet$ la segmentation thématique des textes repose sur des liens de proximités sémantiques acquis automatiquement à partir de cooccurrences en corpus ;

$\bullet$ l'extraction d'information sur des documents ou des questions requiert des informations sur le type sémantique précis des entités extraites telles que des noms de lieux ou de personnes ;

$\bullet$ un formalisme logique de représentation et d'inférence sur des données sémantiques sert de support d'échange des données dans la plate-forme logicielle MERCURE (cf. thème 1).

THÈME 3 : Apprentissage et acquisition

Brigitte Grau, Caroline Bush, Gaël de Chalendar, Olivier Ferret, Jean-Pierre Fournier, Christian Jacquemin, Gérard Sabah, Michael Zock, avec la collaboration de Benoît Habert (UMR 8503)

Ce thème recouvre deux problématiques : l'apprentissage de connaissances par la machine pour des applications liées au traitement de la langue et l'exploitation de connaissances pour aider un utilisateur à acquérir des compétences dans une tâche de type enseignement assisté.

Apprentissage de connaissances à partir de textes

Le développement de systèmes de traitement de la langue implique la modélisation et l'utilisation de connaissances ; selon le type d'application visé, ou le type de compréhension étudié, ces connaissances seront de nature différente (sémantique ou pragmatique) et de niveaux de structuration et de granularité différents. Les études menées dans ce thème visent à acquérir automatiquement certaines de ces connaissances en exploitant les sources largement disponibles sous forme de textes. Nos travaux concernent l'apprentissage de catégories sémantiques, propres à un domaine de spécialité ou non, et l'apprentissage de descriptions de situations concrètes. Comme ces connaissances sont acquises à partir de textes, leur niveau de structuration et de granularité dépend du degré d'élaboration des processus d'analyse utilisés. Les types d'apprentissage mis en oeuvre en découlent aussi : apprentissage de type plutôt statistique à partir de données faiblement structurées, apprentissage par étude et mise en évidence de régularités à partir de connaissances structurées. L'apprentissage de catégories sémantiques est fondé sur l'existence de régularités des relations entre mots. L'utilisation d'analyseurs syntaxiques robustes permet d'établir la nature de ces relations et d'évaluer la proximité des mots : deux mots sont d'autant plus proches qu'ils ont les mêmes arguments ou inversement qu'ils sont arguments ou modifieurs des mêmes opérateurs (verbes, noms, adjectifs). Ces proximités débouchent sur des classes sémantiques propres au domaine étudié quand l'apprentissage est réalisé à partir de textes de spécialités, ou de classes en contexte quand les textes relèvent de domaines multiples ; ce dernier type d'apprentissage exploite les connaissances décrites ci-après.

L'apprentissage de connaissances pragmatiques vise à constituer des descriptions générales de situations par une approche fondée sur la formation de concepts. Les représentations des situations sont agrégées en fonction d'une mesure de similarité, faisant ainsi émerger leurs traits récurrents. Cette approche est appliquée à des représentations structurées de textes (représentations fondées sur les graphes conceptuels) et conduit à l'apprentissage incrémental et non supervisé de schémas par un processus de généralisation relevant de la programmation logique inductive. Par ailleurs, la même approche est appliquée à la constitution de domaines non structurés par regroupement d'ensembles de mots, conduisant à la structuration d'un réseau de cooccurrences lexicales. Ces domaines sont utilisés afin de contraindre l'apprentissage de catégories sémantiques regroupant des noms de sens proche (cf. page de présentation <<apprentissage de classes de noms en contexte>>).

Ces travaux s'intègrent dans le modèle plus général MoHA, qui associe apprentissage et compréhension et rend compte de leurs interactions via la définition d'une mémoire à long terme qui intègre les différents types de connaissances. Cette mémoire comporte ainsi, outre les niveaux sémantique et pragmatique, une mémoire des expériences. En effet, une fois apprises, les connaissances ne sont pas destinées à rester figées et déconnectées des expériences qui leur ont donné naissance : grâce à ces connexions elles évoluent en fonction de nouvelles expériences, elles-mêmes obtenues par l'application de processus plus élaborés.

Enseignement assisté

Cette seconde problématique concerne la conception d'outils permettant un enseignement assisté capable d'exploiter des liens entre connaissances, liens pertinents selon le point de vue de l'utilisateur. Deux types d'applications relèvent de cette approche : l'aide à la rédaction et l'assistance à la présentation d'un cours ou d'un exposé.

La production de textes implique deux choix fondamentaux : les contenus et le plan. Deux approches sont possibles pour déterminer la structure du texte, composée des idées à exprimer et de leurs liens : (a) descendante, où on détermine le plan, on l'affine progressivement, puis on insère les idées, ou, au contraire, (b) montante, où on définit les idées, et on les regroupe en induisant le plan. Dans ce dernier cas, il faut être en mesure de reconnaître la nature des liens entre les idées et savoir quel rôle chacune d'elle peut jouer au sein du discours. Dans les deux cas, il peut y avoir interaction et émergence entre les deux approches.

Afin d'aboutir à la simulation d'un tel processus, nous cherchons à identifier la nature des connaissances permettant de reconnaître des liens entre les idées, et le rôle que les idées peuvent jouer au sein du discours ; nous visons enfin l'intégration du tout dans un planificateur, qui permettra, à terme, la création automatique du plan du texte ou l'assistance au rédacteur humain.

Le second travail porte sur le développement d'un nouvel environnement d'enseignement ou de présentation, qui s'appuie sur une analyse thématique du discours de l'orateur (discours écrit, dans un premier temps) et sur des entités visuelles animées par des agents qui collaboreront pour agir dynamiquement sur l'éclairage des aspects présentés. D'une certaine manière, il s'agit de tenter d'expliciter automatiquement certains implicites du discours ou des présentations, pour en augmenter la portée argumentative ou pédagogique. Un environnement bénéficiant de cette technique sera construit autour du logiciel d'animation d'algorithmes ANIMAL, déjà réalisé et disponible gratuitement sur Internet (http://www.iut-orsay.fr/~fournier/animal.html). Il exploitera des techniques de recherche thématique développées dans le groupe et des raisonnements qui s'appuient sur des commentaires, masqués ou non, inclus dans les algorithmes animés.

THÈME 4 : Raisonnement spatio-temporel

Gérard Ligozat, Marie-Rose Gonçalvès, Nicolas Landes, Vincent Maya, Nicolas Sabouret, Jean-Paul Sansonnet, Erika Valencia

Objectifs et méthodes

Comment utilise-t-on le langage pour parler de données temporelles ou spatiales ? Cette question est au centre des préoccupations du thème spatio-temporel. Pouvoir traiter la sémantique du temps et de l'espace de façon effective, c'est-à-dire informatisable, suppose que trois conditions soient remplies : tout d'abord, que l'on ait défini des formalismes de représentation, qui serviront d'interface entre les données linguistiques et leur dénotation ; ensuite, que ces formalismes se prêtent à un traitement informatique ; et enfin, si c'est le cas, qu'on puisse développer de manière effective des systèmes mettant en oeuvre les formalismes en question pour des applications particulières.

D'où les trois directions principales explorées dans le thème :

$\bullet$ Conception de formalismes de représentation et de raisonnement. Les données temporelles et spatiales issues de la langue étant en général de nature qualitative, nos travaux s'inscrivent dans le cadre de ce que l'on appelle le << raisonnement qualitatif >>.

$\bullet$ Étude des propriétés de décidabilité et de complexité des formalismes. Cette étude est un préalable à la mise en $\oe$ uvre : elle permet de déterminer sous quelles conditions les problèmes que l'on se pose peuvent être résolus de manière algorithmique, et pour un coût raisonnable en termes de calcul.

$\bullet$ Mise en oeuvre dans des applications. Chaque domaine d'application (interface en langue naturelle avec des bases de connaissances, guidage, interrogation de systèmes géographiques) fournit à la fois une occasion de mise à l'épreuve des outils formels, et pose en outre des problèmes spécifiques qui enrichissent la réflexion théorique.

Formalismes. Dans le prolongement des travaux menés dans le thème sur les intervalles généralisés pour la représentation du temps, nous avons proposé d'adapter au domaine du raisonnement spatial un certain nombre des techniques mises au point. On peut ainsi développer des formalismes qui permettent de représenter des aspects particuliers de la connaissance spatiale : orientation, topologie, distance qualitative. L'intégration des divers types de connaissances demande alors à être réalisée. Pour atteindre ce but, un formalisme unifié a été élaboré (cf. page de présentation << temps et espace : application à la communication homme-machine >>) et permet de regrouper divers aspects de l'espace dans un même cadre théorique.

Propriétés. Ici encore, des notions introduites dans le contexte temporel (notamment celle de préconvexité) se sont révélées fructueuses dans le domaine spatial. Tant dans les travaux du thème qu'aux mains de chercheurs extérieurs qui les ont reprises, elles ont permis de caractériser des classes polynomiales dans toute une gamme de formalismes de raisonnement.

Applications. Trois thèses récentes illustrent l'interaction entre les préoccupations liées au formalisme, l'étude des propriétés computationnelles, et la mise en oeuvre. Toutes trois relèvent du domaine de la description d'itinéraires. Nous en donnons une description rapide ci-dessous.

Le premier exemple illustre la génération : partant de l'étude des processus de descriptions d'itinéraires réalisée par Agnès Gryl, il propose un modèle général de la structuration des descriptions d'itinéraires, qui décrit la façon dont une structure conceptuelle est mise en correspondance avec une structure discursive. On montre ainsi comment un même problème de description peut donner lieu à divers types de textes, plus ou moins détaillés selon les cas. Le modèle général a été appliqué au cas particulier de la description de trajets dans le métro (Montréal, Paris).

Un texte de description d'itinéraires a pour finalité d'être utilisé pour se déplacer. La deuxième thèse examine le cas où ce texte est destiné à un robot virtuel, qui peut se déplacer dans une pièce (virtuelle aussi) où se trouvent divers objets (bureau, tables, sièges, cartons). Utilisant d'une part le texte qui lui est fourni, et d'autre part ses facultés visuelles, le robot doit essayer de parcourir le trajet indiqué. Le travail réalisé propose une méthode générale pour construire un ensemble de représentations qui permettent aux connaissances issues du texte, de la perception et de l'action d'être utilisées de façon coordonnée. Ces travaux utilisent une expérimentation préalable (du type magicien d'Oz). Ils apportent des éléments de réponse à la question de savoir quel type de représentation qualitative de l'espace est adéquat pour un raisonnement efficace.

Ce dernier problème est considéré par la troisième thèse. Outre une proposition de représentation unifiée, qui permet d'intégrer plusieurs aspects de l'espace (qualitatifs et quantitatifs) dans un même langage, ce travail décrit une mise en oeuvre dans le domaine des systèmes d'information géographiques. Ces derniers constituent des sources privilégiées de connaissances spatiales, et le choix a été fait d'utiliser une base de données géographique commerciale comme support de l'application. Se focalisant sur le problème de la résolution d'ambiguïté des requêtes en langue naturelle, relatives à une base de données géographiques, l'auteur montre comment les contraintes qualitatives, quantitatives, et les contraintes du modèle lui-même, peuvent être mises à profit pour cette résolution.

Collaborations. Les recherches menées dans ce thème s'articulent de manière naturelle avec d'autres activités développées tant à l'intérieur du laboratoire (liens potentiels des aspects de guidage avec le dialogue, aspects temporels et spatiaux de l'interaction entre agents cognitifs, stockage et recherche d'informations spatio-temporelles, modélisation de l'espace et modélisation 3D, modélisation des processus de la cognition spatiale humaine) qu'à l'extérieur (applications à la navigation, aux systèmes d'information géographique, à la constitution de bases de connaissances).

Au niveau national, dans la lignée de notre participation au groupe Kaneou, nous menons diverses activités dans le cadre du groupe spatio-temporel du GDR I3, et nous organisons depuis octobre 1999 un séminaire mensuel (séminaire Q & U) consacré à ce thème.

Au niveau international, le thème mène plusieurs collaborations bilatérales, notamment avec la Pologne (Université Adam Mickiewicz, Poznan) et le Canada (Université Laval, à Québec) ; il est partie prenante dans un projet canadien de grande envergure consacré au traitement informatique des données géographiques (GEOIDE).

Les exemples décrits ci-dessus montrent la faisabilité des approches de type qualitatif. Elles suggèrent que les premiers problèmes à aborder doivent être l'intégration des connaissances spatio-temporelles de divers types, et la mise en relation de raisonnements locaux avec des connaissances globales. Par ailleurs, les aspects liés à l'interaction langagière d'agents à propos de connaissances de type temporel et spatial constituent une direction fondamentale dans le contexte des activités du laboratoire, et nous nous emploierons à la renforcer.

THÈME 5 : Collaboration, Interaction, Dialogue

Anne Vilnat, Cécile Balkanski, Jean-Baptiste Berthelin, Xavier Briffault, Laurent Charnay, Olivier Ferret, Sébastien Gérard, Brigitte Grau, Nicolas Guichard, Martine Hurault-Plantet, Gérard Sabah, Jean-Paul Sansonnet, Erika Valencia, Jérôme Vapillon

La communication entre << agents >> est au centre des recherches effectuées dans ce thème. Par agent, nous entendons ici des humains ou des systèmes informatiques complexes, et les communications étudiées concernent alors toute combinaison de ces agents.

Dans ce cadre, nous avons étudié certains problèmes spécifiques, avec le but d'intégrer ultérieurement les différentes solutions au sein d'un système unique ; parallèlement nous travaillons sur des applications offrant des cadres de mise en oeuvre partielle de ces solutions.

L'un des aspects de ces recherches concerne la modélisation des intentions et des croyances que doivent avoir des agents pour collaborer à une même tâche, recherche fondée sur la théorie des Plans Partagés de Grosz et Sidner. Nous nous sommes ainsi intéressés à l'établissement des croyances mutuelles permettant aux interlocuteurs de dialoguer, ce qui nous a amenés à étendre nos algorithmes d'interprétation et de génération d'énoncés (cf. page de présentation << Établissement de croyances mutuelles dans un modèle de dialogue coopératif >>). Ce travail de modélisation a été mené parallèlement à une étude détaillée des débuts de dialogues dans un corpus enregistré dans un standard téléphonique, choix justifié par le fait que les actions communicatives contribuant à établir les croyances mutuelles sont les plus explicites à ce stade du dialogue (cf. page de présentation << Les actes confirmant la compréhension dans les débuts de dialogue >>).

Afin d'améliorer l'interaction, nous avons développé un modèle fondé sur la représentation dynamique de la structure d'un dialogue, en analysant à la fois l'intention communicative (liée à la fonction d'un énoncé) et l'intention informative (reposant sur les relations thématiques entre énoncés) véhiculées par les interventions des interlocuteurs. Ce modèle permet d'observer les stratégies suivies par les interlocuteurs et d'influer ainsi sur les stratégies à adopter par le système, diminuant ainsi les risques d'incompréhension. Pour déterminer ces stratégies, nous poursuivons l'étude de corpus de dialogues variés, aussi bien en terme de types d'interlocuteurs, que de tâche à accomplir.

Dans l'environnement plus spécifique des dialogues explicatifs, une thèse récente porte sur la modélisation informatique de l'énonciation mettant en relief ses différents aspects et leurs interactions. L'acte de dialogue permet, à partir des énoncés en langue naturelle, de fournir des éléments d'interprétation aux différents modules gérant (et faisant collaborer) le dialogue, l'explication et l'argumentation.

Parallèlement à ces travaux, est réalisée une plate-forme dans laquelle des agents humains interagissent avec leurs alter ego informatiques, qui eux-mêmes interagissent entre eux. Cette plate-forme concerne le Travail Collaboratif Assisté par Ordinateur (TCAO) et permet de mettre en oeuvre des solutions au départ dégradées en restreignant les problèmes évoqués ci-dessus. Une étude de la notion de conversation entre agents a été menée de façon à déterminer quels modèles permettraient de concevoir des systèmes de TCAO, en s'appuyant à la fois sur les logiciels réalisés dans le cadre du projet Mercure (voir thème 1), du projet Magic Lounge (voir Plate-Forme Multi-Modale) et sur une étude de corpus d'échanges de messages entre personnes collaborant à un projet.

Également dans le cadre du logiciel d'assistance à la gestion de projet développé dans Mercure (voir thème 1), nous avons décrit un modèle des intentionalités des acteurs du projet, modèle justifiant les dialogues d'identification ou de réparation d'erreurs survenant au cours du projet. Ce modèle sert actuellement pour décrire les utilisateurs du logiciel, et sera étendu et généralisé pour décrire les dialogues entre les agents informatiques eux-mêmes (cf. page de présentation << Description en terme d'intentionalité du comportement des acteurs d'un projet pour un système multi-agents d'aide à la gestion de projets >>).

Les pages WEB sont appelées à devenir le lieu d'interaction standard entre les utilisateurs et les services en ligne. Elles auront donc un rôle de plus en plus actif et par-delà l'accès aux services, elles devront assurer l'accueil, l'assistance et la formation pour une classe de plus en plus vaste d'utilisateurs-citoyens. De nouveaux besoins, contradictoires, apparaissent : d'une part, il faut faciliter l'intégration dans les pages de composants actifs complexes effectuant des services ou servant d'intermédiaires ; d'autre part, il faut faciliter leur utilisation via des assistants dialogiques et aussi leur production par des utilisateurs non avertis. Nous pensons que, dans ce contexte, les notions d'activité, d'assistance et de production ne pourront être traitées convenablement que si elles sont profondément intégrées dès la phase de définition des composants actifs. C'est l'objectif premier du projet InterViews que de proposer un modèle dynamique et analogique de représentations sémantiques pour des composants actifs (appelés vues), qui nous a conduits à la définition d'un << Langage de Description de Vues >>. Le deuxième objectif du projet est l'étude de l'interaction dialogique avec des vues, d'abord dans un cadre restreint avec à terme, l'espoir de se rapprocher du dialogue en langue naturelle (cf. page de présentation << La notion d'observation entre agents pour le projet Interviews >>). Le troisième objectif concerne la possibilité de production automatique de vues dans une page ainsi que la composition de vues de manière distribuée sur le WEB. Pour offrir une assistance à l'utilisateur de systèmes d'information distribuée, nous nous intéressons également au développement d'une interaction langagière très simplifiée.

RELATIONS EXTÉRIEURES

Enseignement et diffusion des connaissances

Organisation de colloques

- Organisation du séminaire du département CHM du LIMSI (Jean-Baptiste Berthelin)

- Organisation d'une réunion de travail internationale à Orsay réunissant des représentants d'universités suivantes de Cork (Irlande), Edinburgh (Ecosse), Vienne (Autriche), Barcelone (Espagne), Darmstadt (Allemagne). Ce colloque (ICPM -- International Common Projects Meeting) avait pour but d'étudier les coopérations à mettre en place entre ces universités et l'université de Paris Sud, notamment pour le développement de projets tutorés communs (TER internationaux) ; (Jean-Pierre Fournier)

- Coorganisation avec Didier Bourigault (CNRS) et Marie-Claude L'Homme (Université de Montréal) d'un atelier thématique sur le Traitement Automatique des Termes (COMPUTERM), Conférence COLING-ACL'98, Montréal, août 1998. (Christian Jacquemin)

- Organisation de la Journée d'Étude de l'ATALA sur les Applications du TALN en Recherche d'Information, Université Paris 7, 21 mars 1998. (Christian Jacquemin)

- Coorganisation avec Patrick Gallinari (LIP6) et Claire Nédellec (LRI) d'un atelier thématique Apprentissage Statistique et Symbolique pour la Recherche d'Information et la Fouille de Textes, plate-forme de l'AFIA, École Polytechnique. (Christian Jacquemin)

- Organisation de l'atelier IJCAI-99 Hot Topics in Spatial and Temporal Reasoning, Stockholm (Gérard Ligozat)

- Coorganisation avec Pierre Zweigenbaum de la Journée << Outils pour le traitement automatique des langues >>. (Gérard Sabah)

- Coorganisation avec Pierre Zweigembaum du séminaire << Q-U >> à la Salpêtrière (Jean-Paul Sansonnet et Gérard Ligozat)

- Coorganisation de deux ateliers : << Analysis for Generation >> (comité : S. Sheremetyeva, S. Nirenburg, R. Kittredge, A. Hein, E. Viegas & Michael Zock) et << Why care for cognitive modeling when building NLG systems ? >> (comité : G. Kempen, R. Klabunde, K. de Smedt & Michael Zock) avant le 1^st International Natural Language Generation Conference (INLG-2000), Mitzpe Ramon, Israel, juin 2000. (Michael Zock)

Participation à des comités scientifiques de colloques

- Plusieurs membres du groupe sont membres des comités scientifiques de divers colloques (COLING 2000, RFIA 2000, RECITAL-99, RECITAL 2000, TALN-99, TALN-2000)

- Membre du comité de programme de l'atelier Gotalog'2000, Suède, juin 2000, ``Fourth Workshop on the Semantics and Pragmatics of Dialogue. (Cécile Balkanski)

- Relecteurs pour le congrès RIAO 2000. (Olivier Ferret, Martine Hurault-Plantet)

- Membre du comité de programme du colloque International Workshop on Natural Language and Information Systems (NLIS'98) lors de 9th International Conference on Database and Expert Systems Applications (DEXA'98) Vienne, août 1998. (Christian Jacquemin)

- Membre du comité de programme du colloque 5e Conférence sur le Traitement du Langage Naturel en France (TALN'98). (Christian Jacquemin)

- Membre du comité de programme du colloque 3e Conférence Terminologie et Intelligence Artificielle (TIA'99), Nantes, mai 1999. (Christian Jacquemin)

- Membre du comité de programme de deux sessions thématiques au colloque 36th Conference of the Association for Computational Linguistics (ACL'99). Session Exploring the limits of Shallow Parsing, responsable Gregory Grefenstette (Xerox RC Europe) et NLP in Information Retrieval and Extraction, responsable Hinrich Schuetze (Xerox Parc). (Christian Jacquemin)

- Membre du comité de programme du colloque 6e Conférence sur le Traitement du Langage Naturel en France (TALN'99). (Christian Jacquemin)

- Membre du comité de programme du colloque 22nd Annual ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'99). (Christian Jacquemin)

- Membre du comité de programme du colloque Workshop on Machine Translation for Cross Language Information Retrieval at Machine Translation Summit VII (MT VII). (Christian Jacquemin)

- Membre du comité de programme du colloque Joint Sigdat Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP/VLC-99). (Christian Jacquemin)

- Membre du comité de programme du colloque Intelligent Multimedia Information Retrieval Systems and Management (RIAO'2000). (Christian Jacquemin)

- Membre du comité de programme du colloque de l'Association Française de Linguistique Appliquée (Christian Jacquemin)

- Membre du comité de programme des colloques KR-99, TIME-99, JAIR, IJCAI-99. (Gérard Ligozat)

Participation à des comités éditoriaux

- Christian Jacquemin est membre du comité de rédaction de la revue Traitement Automatique des Langues. - Gérard Ligozat est membre du comité éditorial du << Journal for Spatial Cognition and Computation >>

- Gérard Ligozat est co-rédacteur du traité << Raisonnement et connaissance spatio-temporelle >>

- Gérard Sabah est membre du comité scientifique de la nouvelle revue en sciences cognitives << Cognitive Processing >>

- Gérard Sabah est membre du comité scientifique de la revue << TSI >>

- Gérard Sabah est membre du comité éditorial de la revue << Langues >>

- Gérard Sabah est rédacteur en chef du bulletin de l'AFIA

Activités ou responsabilités d'enseignement liées à la Recherche

- DEA Sciences Cognitives de PARIS XI (regroupe des aspects d'intelligence artificielle, de psychologie cognitive, de linguistique, de biologie et de réseaux connexionnistes), responsable Gérard Ligozat, responsable pédagogique Anne Vilnat.

intervenants : Jean-Baptiste Berthelin (mise à niveau Informatique), Benoît Habert (initiation à la linguistique), Jean-Pierre Fournier (initiation à l'informatique), Christian Jacquemin (traitement automatique des langues), Jean-Paul Sansonnet (introduction à la programmation fonctionnelle et logique (support de cours 85 p) ; systèmes multi-agents (support de cours 245 p) ; processus cognitifs distribués (support de cours 230 p)), Anne Vilnat (représentation des connaissances et traitement automatique des langues), Michael Zock (génération automatique de textes)

- DEA I3 (Information, Interaction, Intelligence) de PARIS XI (Orsay)

Christian Jacquemin (représentation et visualisation de l'information), Gérard Ligozat (module optionnel), Jean-Paul Sansonnet (systèmes multi-agents), Anne Vilnat (option << Dialogue >>) (cours communs avec le DEA de sciences cognitives)

- DESS << Systèmes et communication homme-machine >> de Paris XI

Anne Vilnat responsable des modules représentation des connaissances, de traitement automatique des langues et des études de cas

- Cours de troisième année à Supelec, Jean-Paul Sansonnet responsable de << Langages et Architectures Parallèles >> ; ce cours comprend deux parties : << Outils pour le Parallélisme >> (support de cours 175 p) et << Architectures Parallèles >> (support de cours 450 p).

- Brigitte Grau est responsable du thème <<Intelligence artificielle>> en 3e année à l'IIE, et du cours <<langage Naturel>>

- Brigitte Grau est responsable scientifique (ou pédagogique) des échanges d'étudiants entre l'IIE et Aston University (Birmingham-UK)

Participation à des séminaires

- École Normale Supérieure de Fontenay/St Cloud. Analyse thématique et segmentation automatique de textes, décembre 1999, St Cloud. (Olivier Ferret)

- Participation, sur invitation, à une journée nationale d'étude de l'évolution de l'enseignement des bases de la programmation en premier cycle universitaire, à Strasbourg en 1999. (Jean-Pierre Fournier)

- Traitement automatique des langues : Survol de quelques techniques du TALN. In Tutoriel du groupe A3CTE (CHU Pitié-Salpêtrière, 29 janvier, 1999). (Christian Jacquemin)

- IRIN/Bar Ilan Cooperation - Final presentation. In Franco-Israeli Information Superhighway Program (Juan-Les-Pins, 1er février, 1999). (Christian Jacquemin)

- Indexation automatique pour la constitution de sites thématiques. In Séminaire de l'Équipe Langage Naturel (France Télécom CNET, 1er mars, 1999 (Christian Jacquemin)

- Extraction de variantes de termes. In Séminaire du LRI (Université Paris XI, 7 avril, 1999). (Christian Jacquemin)

- Labourage de corpus et butinage sur la toile pour l'acquisition lexicale de noms propres. In Journée d'étude << Noms propres >>, ATALA (Paris, 29 mai, 1999). (Gabriel Illouz, Benoît Habert, Christian Jacquemin)

- Variation en corpus spécialisé : reconnaissance automatique et applications. In Séminaire de l'Équipe Praxiling (Université Montpellier III, 18 octobre, 1999) (Christian Jacquemin)

Actions de vulgarisation

- Publication en 1997, avec retirage en 1998, d'un livre intitulé << Passeport pour l'algorithmique objet >>, chez Vuibert Informatique, dont le but était de montrer l'évolution de l'algorithmique dans les dernières années et comment la transition des conceptions classiques vers l'objet s'effectue. (Jean-Pierre Fournier)

- À paraître à l'automne 2000, aux éditions Eyrolles, << Programmer objet en C++ >> qui présente les principaux algorithmes classiques et le langage C++ en s'appuyant sur les techniques << objet >>. (Jean-Pierre Fournier)

- Participation aux journées << logiciel libre >> de la Cité des Sciences et de l'Industrie, avril 1999.

- Tutoriel sur la génération : << Natural Language Processing >>, Pacific Rim Symposium, Beijing (Michael Zock)

- Formation aux systèmes multi-agents auprès de Thomson-CSF (Xavier Briffault)

Relations nationales

Responsabilités institutionnelles

$\bullet$ Jean-Pierre Fournier

- Chef Adjoint du Département Informatique de l'IUT d'Orsay depuis mai 1998

- Membre de la Commission de Spécialistes 27e section de l'Université Paris-Sud

$\bullet$ Brigitte Grau

- Membre de la Commission de spécialistes 27e section du CNAM

$\bullet$ Gérard Ligozat

- Vice président de la CSE Informatique de Paris XI

- Vice président du département Informatique de Paris XI

- Membre de la Commission de Spécialistes 27e section de l'Université de Paris-Sud

- Membre de la Commission de Spécialistes 27e section de l'Université de Paris-Nord

- Membre de la Commission de Spécialistes 27e section de l'Université de Caen

$\bullet$ Gérard Sabah

- Membre suppléant de la Commission de Spécialistes 27e section de l'Université Nancy 2

- Membre suppléant de la Commission de Spécialistes 27e section de l'Université de Chambéry

- Membre du bureau de l'AFIA (Association Française d'Intelligence Artificielle) et rédacteur en chef de son bulletin.

$\bullet$ Jean-Paul Sansonnet

- Membre de la Commission de Spécialistes 27e section de l'Université d'Orléans

- Membre de la Commission de Spécialistes 27e section de l'Université de Versailles - St. Quentin

- Vice président recherche du Département d'Informatique de Paris XI.

- Membre de la Commission pédagogique de la Division de la Recherche de Paris XI.

- Membre du comité de l'Institut des Sciences Cognitives et de la Communication (ISCC).

- Membre du Comité Mixte Franco-Tunisien pour la Coopération Universitaire (CMCU).

- Membre du comité du GDR Information, Interaction, Intelligence (I3).

$\bullet$ Anne Vilnat

- Membre élu du Conseil Scientifique de l'Université Paris-Sud, et à ce titre membre des commissions de la Pédagogie et de la Pédagogie 3e cycle

- Membre élu du Conseil de Laboratoire du LIMSI

- Membre du Conseil de Département Informatique de la Faculté d'Orsay

- Membre suppléant de la Commission de Spécialistes 27e section de l'Université Paris-Sud

Relations scientifiques

- Jean-Baptiste Berthelin : Collaboration avec David Piotrowski, de l'INaLF, sur le thème << Hypertextes universitaires >>.

- Gaël de Chalendar, Christian Jacquemin, Brigitte Grau : participation au projet biennal de Paris-Sud sur une problématique proche de celle du nouveau GdR I3

- Christian Jacquemin : Équipe SILEX, Université de Lille 3 (Georgette Dal). Thème : construction semi-automatique d'une base morphologique pour le français contemporain.

- Christian Jacquemin : Équipe de Recherche en Syntaxe et Sémantique de l'Université de Toulouse Le Mirail (Cécile Fabre, Nabil Hathout, Didier Bourigault, Marie-Paule Pery Woodley). Thème : analyse sémantique des variantes nomino-verbales, regroupement des termes en acquisition terminologique, analyse linguistique des contextes définitoires et des énumérations dans les documents structurés.

- Christian Jacquemin : IRIT, Université Paul Sabatier (Jacques Virbel). Thème : représentation et analyse des documents structurés.

- Christian Jacquemin : Laboratoire LANDISCO, Université de Nancy 2 (Fiammetta Namer). Thème : construction semi-automatique d'une base morphologique et lemmatisation du français contemporain.

- Christian Jacquemin : IRIN, Université de Nantes (Emmanuel Morin et Béatrice Daille). Thème : recherche des variantes sémantiques à partir de relations hyperonymiques, évaluation de l'indexation automatique.

- Gérard Sabah Élu au bureau de l'AFIA (Association française d'Intelligence Artificielle) en 1995, réélu en 1998.

- Jean-Paul Sansonnet, coresponsable avec V. Benzaken (Professeur LRI) du projet << ActiveWeb >> (financé par le BQR Recherche de Paris XI) - autres participants : X. Briffault (CR LIMSI) et G. Vidal-Naquet (Professeur ESE) - 10 février 99

Relations industrielles, conventions de recherche et contrats

- Intégration du groupe Langage et Cognition du LIMSI dans le projet EUREKA << PVS'98 >>. Ce projet vise au développement d'une plate-forme multi-agents générique en collaboration avec la société AEGIS. L'ANVAR soutient cette aide au transfert. Ce projet devrait avoir une suite sous la forme du projet << Agentworks >>, actuellement soumis au Ministère de l'Industrie. (Xavier Briffault)

- Contrat avec la Direction des Études et Recherche de EDF pour le couplage LEXTER/FASTER. Montant : 15kF. (Christian Jacquemin)

- Coanimation avec Claire Nédellec (LRI) d'un BQR financier entre le LIMSI et le Laboratoire de Recherche en Informatique (Paris 11) sur l'acquisition de schémas de sous-catégorisation et de classe sémantiques. Montant : 100 KF sur 1 an. (Christian Jacquemin)

- Contrat du Ministère de l'Enseignement Supérieur et de la Recherche (Action Blanche). Thème : Construction d'une base morphologique du fran çais contemporain (morphologie dérivationnelle). G. Dal (SILEX) (contractante), C. Jacquemin, N. Hathout (ERSS) et F. Namer (Université Nancy II). Montant : 500kF, durée 3 ans. (Christian Jacquemin)

- Contrat du Ministère de l'Enseignement Supérieur et de la Recherche (Cognitique). Thème : analyse de documents structurés, application aux pages Internet. Claudine Garcia-Debanc (ERSS) (contractante), Ch. Luc (IRIT), C. Jacquemin, M. Mojahid (IRIT), M-P Pery-Woodley (ERSS) et J. Virbel (IRIT). Montant : 300kF, durée 2 ans. (Christian Jacquemin)

- Coopération avec l'INIST-CNRS. Thème : industrialisation de FASTER. (Christian Jacquemin)

- Contrat de coopération scientifique avec la Société ICDC dans le cadre de l'encadrement de la thèse de Frantz Vichot. Montant : 50kF par an sur 3 ans. Thème : évolution diachronique de la terminologie et maintenance de filtres pour le routage de l'information. (Christian Jacquemin)

- Projet << MediaWorks >> (collaboration avec TF1, l'INRIA, Aegis et EML sur l'indexation et la recherche de documents vidéos multimédias) a été soumis dans le cadre de PRIAMM ; il est actuellement en cours de négociation (responsable scientifique Christine Golbreich, en délégation dans le groupe Langage et Cognition, intervention de Xavier Briffault, Brigitte Grau, Martine Hurault-Plantet et Gérard Ligozat)

Relations internationales

Responsabilités institutionnelles

- Jean-Pierre Fournier responsable, pour le compte du service des relations internationales, de crédits Epicure, destinés à favoriser les premiers contacts avec des partenaires étrangers et à préparer le dépôt de demandes spécifiques dans le cadre de Socrates. Avec les partenaires actuels, une demande d'IP (Intensive Programme) est en préparation.

- Gérard Sabah évaluateur extérieur du Fonds FCAR (gouvernement canadien)

- Michael Zock évaluateur de projets auprès de la communauté européenne (Bruxelles)

- Brigitte Grau responsable scientifique (ou pédagogique) des échanges d'étudiants entre l'IIE et Aston University (Birmingham-UK)

Relations scientifiques

- Jean-Pierre Fournier a co-encadré, en 1999, un projet réunissant des étudiants de la Fiifo (Formation d'Ingénieurs en Informatique de la Faculté d'Orsay) et des étudiants de la Fachhochschule de Darmstadt (Allemagne). Ce projet, baptisé Alpha, est un prototype de futurs TER internationaux. Il est d'ores et déjà prolongé et un nouveau groupe d'étudiants allemands, espagnols et français sera de nouveau au travail dans des conditions similaires au printemps prochain. Les étudiants impliqués dans ces projets participent d'abord à un séminaire dans un des pays participants, puis travaillent via Internet (Mél, ftp, visioconférences), et se rencontrent à nouveau finalement à l'occasion d'un séminaire de bilan et de prospective.

- Christian Jacquemin, contacts avec Judith Klavans, Directrice du Center for Research on Information Access, Université de Columbia, New York. Thème : exploitation des métadonnées en indexation et en accès à l'information.

- Gérard Ligozat est co-responsable d'un projet franco-polonais POLONIUM.

- Gérard Ligozat est co-responsable d'un projet franco-canadien dans le cadre du réseau d'excellence GEOIDE.

Relations industrielles

Christian Jacquemin : Avec Evelyne Tzoukermann, chercheuse au Multimedia Communications Language Modelling Research, Lucent Technologies, Bell Labs Innovation, Murray Hill. Thème : analyse morphologique du français et regroupement de variantes en recherche d'information.

Conventions de recherche et contrats

- 1999-2001 Projet Européen CLASS. Thème : coordination des activités intra et inter-cluster des projets RTD établis à la suite de l'appel IST'99. Partenaires : SDU-NIS (contractant principal), DFKI, ITC-IRST, CNRS-LIMSI. Montant : 560kE, durée 20 mois. (responsable LIMSI : Joseph Mariani, participants LIMSI : Patrick Paroubek et Christian Jacquemin).

DptCHM

Sommaire

Présentation

visiteurs.