Groupe LANGAGE ET COGNITION

_______________________

Gérard SABAH

Exemples d'Activités de Recherche du groupe

INTRODUCTION

Les thèmes généraux du groupe Langage et Cognition s'organisent autour du traitement automatique des langues, de l'analyse et de la génération, de la représentation des connaissances et de l'apprentissage. On se reportera au rapport d'activité de 1996 pour une présentation plus détaillée des activités du groupe.

Thèmes de recherche

THÈME 1 : ARCHITECTURE

Gérard Sabah, Xavier Briffault, Jean-Pierre Fournier, Martine Hurault-Plantet, Isabelle Robba, Sylvain Surcin

Ce thème aborde une question dont l'importance naît de l'approche même de l'intelligence artificielle et de la linguistique informatique : celles-ci tentent de définir a priori des mécanismes de représentation et des processus de raisonnement, afin de réaliser des systèmes de compréhension et de production des langues. Or, c'est le langage même qui donne à l'homme ses facultés de représentation et de raisonnement qui augmentent significativement ses capacités cognitives (qui à leur tour servent au langage...). La mémoire humaine n'est pas seulement associative, elle est aussi prospective et réflexive. Ainsi, l'intelligence artificielle purement symbolique semble-t-elle prendre le problème à l'envers, le rendant ainsi peut-être impossible par nature... Beaucoup d'arguments contre la possibilité d'une intelligence désincarnée ont d'ailleurs été avancés. Il est alors naturel d'envisager que soit erronée l'hypothèse selon laquelle on peut construire a priori des mécanismes de raisonnement élaborés sans une capacité de langage. Le présent thème tente donc de proposer une architecture prédéfinie (nommée CARAMEL) qui permettrait un processus d'amorçage expliquant le développement, de façon récursive et imbriquée, de mécanismes d'apprentissage, de la faculté de langage et de capacités symboliques. Nous avons développé le modèle du carnet d'esquisses, et une extension des tableaux noirs permettant l'établissement automatique de boucles de rétroaction des niveaux supérieurs vers les niveaux inférieurs. Une mise en oeuvre, réalisée en Smalltalk, a permis de montrer comment ces collaborations s'étendent des modules morphologiques et lexicaux aux modules syntaxiques et sémantiques. Nous avons donc développé un modèle cognitif général (et en conséquence, nous proposons la nouvelle interprétation du sigle CARAMEL : Conscience, Automatismes, Réflexivité et Apprentissage pour un Modèle de l'Esprit et du Langage). Dans ce nouveau modèle, la conscience vue comme un pont entre les processus inconscients et les processus contrôlés ; elle a ainsi une fonction constructive qui donne son unité à l'entité modélisée. Nous développons une plate-forme multi-agent générale, la mise en oeuvre du modèle Caramel fondée sur cette plate-forme et l'analyse de l'émergence des capacités symboliques et du langage entre plusieurs entités communicantes.

THÈME 2 : REPRÉSENTATIONS SÉMANTIQUES

Françoise Forest, Nelly Bensimon, Karim Chibout, Stéphane Ferrari, Lidia Fraczak, Nadine Lucas, Nicolas Masson, Anne Vilnat

Dans le cadre général de l'élaboration d'un système de compréhension, nous nous intéressons au problème de la représentation des connaissances nécessaires à la compréhension d'un énoncé, à la fois sous l'angle du choix des structures de connaissances, de la nature de leur contenu, de leur construction, de leur évolution. Les principales caractéristiques de notre approche sont d'abord qu'il existe trois types de granularité linguistique du point de vue sémantique qui sont le mot, la proposition et le texte. Ensuite, notre intérêt va en priorité vers l'aspect dynamique des constructions sémantiques. Cet aspect est lié à l'objectif poursuivi dans le cadre de la résolution d'un problème. On s'intéresse donc aux processus d'évolution des connaissances au cours du temps d'acquisition de l'expérience individuelle ainsi qu'au cours de la construction d'une situation. Enfin, l'accent est mis sur l'importance du contexte. En effet, le travail de compréhension s'effectuant dans un contexte de communication entre individus, le contexte inclut à la fois l'expérience de l'individu, son lien à l'apprentissage de la langue, le problème à résoudre, l'objectif poursuivi par "celui qui comprend", ainsi que des modèles des interlocuteurs (locuteur ou scripteur, interlocuteur ou lecteur). Nous avons proposé et réalisé une modélisation de description d'itinéraires permettant de passer d'un croquis à une expression linguistique et inversement ; l'utilisation des graphes conceptuels pour représenter les valeurs aspectuo- temporelles d'une phrase ; la mise au point d'un logiciel d'étude de réseaux à propagation d'activités dans le cadre de la modélisation de l'étape de construction de concepts à partir de l'expérience ; le développement d'un logiciel de repérage automatique des métaphores dans un texte (STK), actuellement en cours d'évaluation dans le cadre d'un projet CNRS et d'un projet Aupelf-Uref. Nous poursuivons ces travaux sur l'approche dynamique des constructions sémantiques, aux trois niveaux de granularité, notamment sous l'angle de l'apprentissage et sous l'angle de différentes formalisations des aspects spatiaux et temporels exprimés par la langue.

THÈME 3 : APPRENTISSAGE

Brigitte Grau, Stéphane Ferrari, Olivier Ferret, Françoise Forest, Jean-Pierre Gruselle, Isabelle Robba

L'objectif général dans lequel se situent les travaux relatifs à ce thème consiste à élaborer une structuration de la mémoire à long terme permettant d'intégrer apprentissage et compréhension. Ces travaux sont centrés sur deux types de connaissances : les concepts, appartenant à un réseau sémantique, et les situations concrètes, formant un réseau de schémas. Le type d'apprentissage qui est visé pour former ces deux niveaux de connaissances repose sur un principe d'accumulation d'expériences. Il est donc nécessaire d'ajouter une mémoire des expériences à ces deux niveaux classiques. Un modèle hybride d'apprentissage, MoHA, a été défini afin d'intégrer de façon cohérente ces connaissances de nature différente (numériques et symboliques). Les différentes méthodes de mémorisation développées pour l'apprentissage de concepts et de schémas ont été testées plus largement. En ce qui concerne la constitution de la mémoire des expériences, la phase d'amorcage pour constituer des expériences langagières a été testée sur un corpus d'articles du journal "le Monde" et la segmentation de textes en unités thématiques à partir d'indices temporels a été étudiée. L'objectif reste d'intégrer l'acquisition des concepts et des schémas dans l'architecture générale de MoHA. Un autre aspect concerne l'application de cette approche (compréhension/apprentissage) au dialogue homme-machine

THÈME 4 : RAISONNEMENTS SPATIO-TEMPORELS

Gérard Ligozat, Xavier Briffault, Lidia Fraczak, Marie-Rose Gonçalvès, Jacek Marciniak, Jérôme Vapillon

De nombreuses applications mettent en jeu des connaissances de nature qualitative sur le temps et l'espace : en planification, une action doit en précéder une autre ; dans les tâches de diagnostic, une augmentation brusque de la température est significative si elle ne survient pas après la mise en route d'un dispositif de chauffe ; dans un dispositif de guidage automobile, on demande au conducteur de tourner à gauche en face de la grande tour, etc. L'automatisation de ces différents domaines implique donc que l'on sache représenter ces données qualitatives, et modéliser les raisonnements que l'on peut faire à leur propos. Par ailleurs, l'utilisation d'une langue naturelle pour communiquer l'information temporelle et spatiale implique une connaissance approfondie de la façon dont ces données sont représentées dans la langue, et dont elles sont mises en oeuvre dans des tâches spécifiques. Les travaux du thème sont donc essentiellement centrés sur le développement de nouveaux formalismes pour le raisonnement temporel et spatial, ainsi que la mise en place d'une sémantique linguistique du temps et de l'espace.

THÈME 5 : ANALYSE ET GÉNÉRATION DE TEXTES

Michael Zock, Olivier Ferret, Lidia Fraczak, Brigitte Grau, Amal Guha, Nadine Lucas, Nicolas Masson, Nicolay Vazov

Les buts de cet axe recherche sont essentiellement de simuler les processus cognitifs mis en jeu lors de l'analyse et la production de textes d'une part, et d'autre part, de construire des outils assistant des êtres humains en train d'apprendre à parler une langue. Si les travaux en analyse s'articulent essentiellement autour de la question du résumé, ceux de la génération se centrent sur la planification du message, son expression(choix lexicaux, détermination des catégories lexicales et linéarisation) et sur SWIM qui est un système d'aide à l'apprentissage d'une langue étrangère. En ce qui concerne la planification du message, nous avons montré une stratégie possible: le message étant construit incrémentalement en précisant progressivement une idée générale. Ce qui était intéressant c'était le rôle du lexique, les mots pouvant servir de pivot ou de médiateur entre le langage et la pensée. En ce qui concerne l'expression de surface, nous avons montré que le sens des mots pouvait être représenté par le même formalisme que le message. De ce fait, choisir des mots consisterait à superposer deux graphes: celui des mots et celui du messages. En ce qui concerne la planification du message, nous allons préciser la façon dont les contraintes conceptuelles pourraient influer sur la constuction du message, et de ce fait sur la conduite ou l'évolution de la pensée. Pour l'expression de surface, nous allons étudier l'organisation du dictionnaire (taxinomies, treillis) pour faciliter l'accès lexical, et le traitement des cas critiques. En ce qui concerne la grammaire LFG développée au sein de l'équipe, nous allons étudier sa puissance et son adéquation à la génération. Enfin, nous envisageons une refonte complète de SWIM utilisant tous les outils existant dans le groupe.

THÈME 6 : DIALOGUE ÉCRIT

Anne Vilnat, Cécile Balkanski, Laurent Charnay, Lydia Nicaud,

Quels sont les différents encha^nements qui nous permettent de comprendre une intervention dans un dialogue et de produire une autre intervention qui soit pertinente dans le contexte de ce dialogue ? C'est principalement à cette question que tente de répondre ce thème. Le développement des études sur le dialogue Homme-Machine au cours des dernières années a mis en évidence la variété des processus qui interviennent lors de l'élaboration d'une réaction au cours d'un dialogue : il faut resituer chaque intervention dans le schéma général du dialogue (cohérence thématique) et déterminer quelle est l'intention communicative réelle du locuteur. Cette intention correspond à un but particulier qui s'insère dans un plan plus global, qui a conduit le locuteur à s'exprimer lors du dialogue. Les travaux du thème développent diférents modules pour résoudre ces questions diverses et proposent un modèle du dialogue homme-machine qui permette de les intégrer. Les travaux se sont axés selon trois directions. Un modèle très détaillé d'actes de dialogue regroupant les différents niveaux d'interprétation des interventions d'un locuteur a été spécifié (application à des dialogues explicatifs). La modélisation de la structure du dialogue a été précisée et testée sur des corpus divers. Une approche fondée sur les intentions et les croyances des interlocuteurs est en cours de développement (elle est détaillée ci-après dans une pahe de présentation des activités de recherche). La mise en oeuvre de ces modèles va être réalisée, ainsi que l'intégration des deux premiers. Par ailleurs, le modèle de dialogue devra être développé en vue de son utilisation en apprentissage (voir thème 3).

Action transversale : atelier de génie linguistique et visualisation graphique

_____________________

Martine Hurault-Plantet

Xavier Briffault, Olivier Ferret, Brigitte Grau, Martine Hurault-Plantet, Violaine Prince, Gérard Sabah, Jérome Vapillon

L'objectif de ce thème est de développer un atelier de génie linguistique, disposant d'un ensemble de modules de traitement de la langue répondant aux critères suivants :

* production des représentations syntaxique et sémantique de phrases,
* généricité et évolutivité des différents éléments - traitements morphologique, syntaxique et sémantique - de manière à pouvoir les utiliser séparément ou avec des modules de résolution de problèmes spécifiques dans des stratégies globales de communication homme-machine.
* mise en oeuvre en harmonie avec le modèle général développé dans le thème "architecture".

L'optique est donc ici de produire des outils de base réutilisables et évolutifs pour le traitement de la langue, permettant l'expérimentation et la validation informatique des hypothèses prises et des modèles développés pour la résolution de problèmes spécifiques complexes traités dans les différents thèmes du groupe.
Les outils disponibles actuellement sont un analyseur- générateur morphologique, un analyseur de phrases fondée sur une table de sous- chaînes bien formées et une grammaire LFG, un environnement de gestion et de manipulation de graphes conceptuels, et leur articulation avec l'analyseur LFG.
Dans un premier temps, les données utilisées (lexiques, grammaires, graphes) doivent être complétées et le système validé en utilisation opérationnelle. Le système développé se limite pour le moment au traitement des énoncés "bien formés". Une extension vers l'analyse des énoncés libres (en particulier dans le domaine du dialogue oral), avec application aux dialogues d'aide à la navigation automobile (dans le cadre de la plate-forme multimodale du LIMSI), est actuellement à l'étude. Des modèles généraux d'architecture, et en particulier des mécanismes complexes de gestion de la mémoire sont étudiés par ailleurs dans le groupe (voir thème "architecture"). L'intégration des résultats de ces travaux devrait permettre une analyse plus efficace et plus fine en prenant en compte les contraintes liées au contexte (cognitif et situationnel). Fondée sur la norme Corba, la distribution sur réseau de ces outils est également en cours de développement.

DptCHM

+ Sommaire

Présentation