Groupe Langage et Cognition |
---|
Exemples d'Activités de Recherche du groupe
Après avoir souligné l'importance des traitements sur la langue pour la communication homme-machine, nous présenterons diverses conceptions de l'étude de la langue qui permettent de situer les différentes options développées dans le groupe Langage et Cognition. Auparavant, nous tenterons d'articuler les recherches actuelles vis-à-vis de l'hypothèse de représentations mentales, qui débouche sur une analogie forte entre les représentations supposées exister dans le cerveau humain et les représentations symboliques de l'intelligence artificielle. Cette hypothèse est cruciale en ce sens qu'elle implique un niveau d'analyse complètement séparé du niveau neurobiologique comme du niveau sociologique et culturel.
Or, c'est principalement sur ce point que se fondent les plus célèbres attaques contre l'intelligence artificielle : l'hypothèse explicitée ci-dessus est fondamentale, certes, mais est-elle valide ? Issues d'une tradition épistémologique étrangère au monde de l'informatique, ces critiques soulignent que les performances de l'homme, particulièrement pour tout ce qui concerne la compréhension, sont intimement liées à son expérience sensorielle et émotionnelle, éléments considérés comme non formalisables. Une question fondamentale est alors : << quels modèles permettent d'envisager une compréhension où les aspects sémantiques et perceptifs soient réellement pris en considération ? >>. Nous verrons comment certains thèmes du groupe Langage et Cognition tentent d'y répondre.
1deg.) l'analogie symbolique, plus ou moins fondatrice de la discipline, selon laquelle les entités en jeu peuvent se décrire sans référence au cerveau et peuvent être mises en correspondance avec les symboles que savent manipuler les ordinateurs, et les processus mentaux comparés à des manipulations de symboles ;
2deg.) la métaphore des réseaux : l'esprit est ramené au fonctionnement du cerveau et l'intelligence est conçue comme la diffusion d'activations, non symboliques, dans des réseaux ;
3deg.) la pensée est conçue comme un phénomène collectif produit par de nombreux événements élémentaires (ce qui débouche principalement sur les techniques actuelles d'intelligence artificielle distribuée).
Ces trois conceptions, bien que différant essentiellement par les techniques de simulation utilisées, recouvrent grossièrement les mêmes thèmes fondamentaux de recherches :
l'apprentissage ;
l'organisation et l'accès à la mémoire ;
les contraintes fonctionnelles et l'analyse de la connaissance ;
l'amélioration contextuelle de capacités.
En effet, remarquons tout d'abord qu'un système ne peut être réellement intelligent que s'il apprend : l'adaptation à l'environnement et l'amélioration de ses performances au cours du temps est une caractéristique essentielle de l'intelligence.
Cela souligne le rôle essentiel du thème 3 <<apprentissage >> dans nos recherches sur le traitement automatique des langues.
Pour permettre un tel apprentissage aussi bien qu'un traitement efficace, la façon dont un système accède à ses connaissances, et comment il les organise pour optimiser cet accès est également fondamentale.
D'où l'importance du thème 2 << sémantique >>, du rôle significatif de l'analogie pour l'apprentissage, et des questions de mémoire en liaison avec l'architecture générale du système (thème 1).
Cela amène le troisième point, qui distingue fortement l'intelligence artificielle des autres champs : la découverte et l'utilisation des contraintes fonctionnelles, aussi bien que l'analyse des connaissances nécessaires, pour permettre à un système cognitif ce type de comportement.
Cela donne une portée essentielle au thème 1 << architecture >>, soulignant, en particulier l'insuffisance de la simple considération des contenus des connaissances. Cela est particulièrement flagrant également dans le thème 4 << raisonnements spatio-temporels >> où les contraintes d'ordre cognitif sont fondamentales.
Par ailleurs, un système qui se comporterait honorablement seulement dans quelques situations bien cernées ne pourrait prétendre à une intelligence réelle ; on trouve, ici encore, une caractéristique propre de l'intelligence artificielle qui cherche à développer des système capables de traiter un très grand nombre d'exemples, par opposition aux systèmes << jouets >> des périodes précédentes (et le processus consistant à étendre un système pour qu'il passe de la faculté de traiter trois ou quatre exemples à quelques centaines implique tant de contraintes fonctionnelles que, sans ce travail, on peut douter qu'il soit capable de réaliser la tâche pour laquelle il était destiné).
Des applications particulières et les problèmes spécifiques correspondants sont traités dans les thèmes 5 << analyse et génération de textes >> et 6 << dialogue homme-machine >>. Ce point donne également une importance primordiale aux réalisations réalistes en vraie grandeur, aspect central du thème transversal << atelier de génie linguistique et visualisation graphique >>.
Cette évolution des applications informatiques s'accompagne d'une modification profonde des modalités d'interaction homme-machine. Aux modes de communication désormais classiques mais peu flexibles (suites de menus ou de formulaires, grilles, séquences de questions-réponses ou de commandes) se substitue un véritable dialogue coopératif. La langue devient ainsi un outil fondamental et irremplaçable pour la communication. C'est en effet le seul moyen de communication qui permet de créer une nouvelle situation de communication, de modifier dynamiquement la situation de communication courante et de la prendre comme thème du discours même.
Nous ne prétendons pas que toute communication homme-machine doit systématiquement utiliser une langue naturelle, mais il est des situations où celle-ci est indéniablement nécessaire : en particulier quand l'utilisateur est incapable d'expliciter précisément ses besoins, quand il refuse d'apprendre un code rébarbatif, quand la tâche n'est pas bien spécifiée, ou encore pour suppléer à des interfaces non conviviales. Qu'il recherche des informations, veuille les manipuler ou en fournir à la machine, ou encore qu'il attende de cette dernière une aide à la réalisation d'une action, l'utilisateur établit un certain type de relation entre lui et le système : dans certains cas, la machine joue le rôle d'un intermédiaire permettant de remplacer un langage formel pour communiquer avec un autre système informatique. Dans d'autres, elle joue le rôle d'un assistant pour aider à se servir d'un autre système (éventuellement informatique, mais pas forcément). Enfin, toute une classe d'applications demande d'importantes facultés d'accès à l'information. Le principal objectif de l'informatique linguistique est donc d'intégrer au mieux l'ordinateur au sein des sociétés humaines.
L'argument clef en faveur de la langue comme moyen de communication entre l'homme et l'ordinateur réside dans la flexibilité des langues verbales. Mais, il ne faut alors pas l'éliminer ! Au lieu de considérer la flexibilité des langues comme un obstacle à résoudre par une limitation adéquate des domaines d'application, il faut s'y attaquer de front afin de garantir l'ergonomie de la communication, ce qui implique qu'il faut permettre l'usage de toute la langue (c'est-à-dire prendre en considération tous les phénomènes des langues naturelles, des anaphores aux métaphores et métonymies, en passant par les ellipses, déictiques...) ; il est pratiquement impossible, sauf dans des cas spécifiés à l'extrême, de définir des sous-langages limitatifs.
Si l'on souhaite développer des méthodes plus facilement généralisables et qui abordent les vrais problèmes de front, il devient patent qu'une sémantique objective et universelle -- qui considère les connaissances comme des axiomes, et la construction du sens comme un processus exclusivement rationnel -- n'est pas très utile du point de vue technologique, car elle ne conduit pas à des implantations flexibles et ergonomiques (les résultats obtenus dans des conditions d'expérimentation excessivement contrôlées ne peuvent pas s'extrapoler à des situations de communication réelles).
Pour garantir l'ergonomie des interprétations construites par la machine, c'est-à-dire, leur conformité aux attentes des utilisateurs, le fonctionnement du système mis en oeuvre doit être analogue à celui de la cognition humaine. Ainsi, que l'on veuille communiquer avec la machine ou communiquer avec d'autres individus ou d'autres systèmes par son intermédiaire, elle a besoin de facultés lui permettant de dialoguer efficacement.
Le but de l'informatisation d'un tel système est alors de concilier dans un tout cohérent les connaissances sur la cognition, actuellement disponibles de façon très lacunaire, et de révéler ainsi des problèmes difficiles à prévoir au moyen d'une étude in abstracto du modèle proposé. C'est pourquoi l'informatique linguistique ne doit pas être considérée comme une simple technologie au service d'une discipline scientifique déjà bien consolidée : par sa portée heuristique, elle s'inscrit simultanément dans la démarche propre aux sciences de l'ingénieur et dans les sciences cognitives.
[[diamond]] la recherche de régularités structurelles, allant des phonèmes aux textes (principalement le domaine de la linguistique) ;
[[diamond]] la recherche de correspondances entre les structures linguistiques et le monde (abordée par la philosophie du langage et l'intelligence artificielle) ;
[[diamond]] la recherche de régularités pertinentes sur l'ensemble des processus cognitifs (considérée par la psychologie cognitive et l'intelligence artificielle) ;
[[diamond]] les relations avec les perceptions, les actions et les interactions sociales (les recherches les plus récentes dans ces domaines portent essentiellement sur l'étude des engagements produits par ce qu'on dit, vis à vis des partenaires dans la communication).
De façon synthétique, dans ce premier modèle, le rôle essentiel du langage est de représenter un monde qui lui préexiste. La langue elle-même est considérée comme un objet qui possède une structure interne cohérente et peut être étudiée plus ou moins indépendamment de son usage. Pour ce qui concerne les mises en oeuvre informatiques, cela signifie qu'on suppose donc qu'il est possible de créer un système formel de représentation tel que (a) pour chaque fait il existe une formule du système de représentation, (b) chaque phrase peut être liée à une telle formule et (c) des calculs formels sur ces représentations simulent les raisonnements sur les faits du monde. La compréhension est alors vue comme un ensemble de transformations successives d'un langage de représentation dans un autre. Cela correspond aux modèles de traitement automatique des langues purement symboliques développés par l'intelligence artificielle classique. On retrouve ces développements dans les six thèmes du groupe, de façons plus ou moins partielles.
Les opérations réalisées sur les structures de représentations se justifient plus par les correspondances entre ces représentations et le monde représenté que par rapport à la langue (on peut d'ailleurs remarquer que ce modèle correspond à celui pour lequel des philosophes du langage comme Frege (1892) avaient argumenté bien avant l'apparition de l'intelligence artificielle !). Une différence essentielle reste que l'immense majorité des systèmes d'intelligence artificielle est totalement dépourvue de moyens de perception et d'action sur le monde réel : fondamentalement, le programmeur sert d'intermédiaire lors de la construction des représentations, ce qui modifie complètement le processus cognitif que l'on cherche à modéliser. Ces systèmes supposent (généralement implicitement) que les mécanismes d'analyse, production et inférences, fondés sur des systèmes symboliques plus ce lien avec une interprétation humaine implicite et externe peuvent suppléer à cette absence de perception et d'action...
Par ailleurs, si l'on réfléchit aux applications effectives des travaux de traitement automatique des langues, on peut souligner, avec Gazdar (1993) que le plus difficile en ce domaine est : << de trouver des applications à la fois réalisables et utiles ! >>. Comme il le remarque, il ne suffit pas de faire deux listes et d'en prendre l'intersection : on ne peut pratiquement pas savoir avant de l'avoir réalisée si une application fondée sur l'utilisation d'une langue naturelle est faisable ou non ; de même, on ne peut savoir avant de l'avoir commercialisé quel produit issu des industries de la langue sera réellement utile. On a cependant des informations assez solides en ce qui concerne les interfaces en langue naturelle. Les caractéristiques qu'on peut imaginer pour les produits des années à venir dans le court terme sont en gros les suivantes : des produits hautement modulaires, fondés sur une grammaire d'unification, utilisant un langage intermédiaire de représentation fondé sur (ou équivalent à) la logique du premier ordre plus ou moins étendue, et produisant, à partir d'un énoncé en langue naturelle, une requête (de type SQL) à une base de connaissances. Il convient aussi de souligner les différences essentielles que les produits envisageables dans le court terme entretiennent avec le dialogue homme-machine en toute généralité : ils utilisent un modèle du monde figé (ce qui permet de réduire le monde réel à sa représentation, et ainsi de n'être jamais surpris de ce qui s'y passe -- réduction que ne permet pas un monde évolutif comme il devrait l'être), ils n'utilisent pas de modèle fin de l'interlocuteur, et les aspects pragmatiques, quand ils sont pris en considération, sont pratiquement prédéterminés.
L'objet principal des travaux du groupe est, d'un côté de développer jusqu'à leurs limites extrêmes ces programmes classiques dans le cadre des industries de la langue, et d'un autre côté, comme cela est notoirement insuffisant pour une réelle simulation de la compréhension, de proposer des modèles de substitution fondés sur des approches essentiellement différentes.
Le type d'inférence en question n'est pas seulement déductif mais surtout inductif (typiquement, il s'agit surtout de mettre en relation des représentations de faits avérés avec des représentation d'hypothèses expliquant ces faits : ici la mise en relation de sons ou de textes écrits avec l'intention communicative de l'émetteur).
Pour un auditeur, le sens est le résultat d'un processus complexe visant à essayer, non seulement de comprendre ce que dit le locuteur, mais pourquoi il le dit et quelle réaction il espère produire. cela se traduit, pour un système de dialogue homme-machine, par la nécessité de découvrir le but et le plan de l'interlocuteur. Il convient également de noter que cette façon de voir est difficilement compatible avec une sémantique formelle compositionnelle...
L'utilisation d'un modèle de l'interlocuteur est ici essentielle en ce qu'elle modifie radicalement la problématique de la référence : à la question << l'expression linguistique P peut-elle être utilisée pour désigner l'objet X ? >> on substitue << si on utilise l'expression P, l'interlocuteur sera-t-il capable de reconnaître qu'elle désigne l'objet X ? >>; de même, on ne se demandera plus << quel objet l'expression P désigne-t-elle ? >>, mais << quel est l'objet qui, dans l'esprit de l'interlocuteur serait tel qu'il choisirait, de préférence à une autre, l'expression P pour le désigner ? >>. Le système mène ainsi deux raisonnements en parallèle : l'un dans le cadre de son propre monde de référence (généralement assez réduit) et l'autre à propos de la structure de la conversation et de l'état cognitif supposé chez son interlocuteur.
Cet aspect est absolument central pour le thème 6 << dialogue >>, qui vise à donner à la machine les capacités cognitives permettant ce type de comportement et la souplesse dialogique qu'il implique.
Ce point de vue présente par ailleurs une convergence remarquable avec la pensée de Vygotsky : pour lui, la signification des mots se modifie et se développe avec la situation (à l'opposé d'autres théories, fondées sur l'immuabilité de la signification des mots et l'idée que le concept précède le mot). De même que ci-dessus, pour Vygotsky, le but du langage est d'aboutir à une identité de pensée entre les interlocuteurs. Même si cela est un peu trop fort, cela permet d'étudier le langage sous un tout autre angle. La prise en considération des rapports entre raisonnement et histoire spécifique du locuteur et de l'auditeur permet le traitement systématique des phénomènes << non logiques >> du langage, et rend compte du fait que le langage courant est plus proche de la métaphore que des descriptions mathématiques (Lakoff et Johnson 1980) !
Ces considérations sont à l'origine de développements importants également dans les thèmes 2 << sémantique >> et 3 << apprentissage >>.
Avant même l'intelligence artificielle, Turing a suggéré qu'au lieu de se demander si une machine pouvait penser, mieux valait s'interroger sur ses capacités à imiter le comportement humain, spécialement en ce qui concerne ses facultés langagières. Face à cette gageure, les chercheurs se sont concentrés sur des domaines spécifiques du comportement (essentiellement, mathématiques et jeux, logiques, systèmes à base de connaissances), permettant de spécifier clairement ce qu'ils attendaient de leurs ordinateurs et comment évaluer leurs succès. Cela a provoqué des omissions importantes dans les modèles du comportement humain (en particulier en ce qui concerne la coordination perception-action, la nature et l'influence des émotions, de la personnalité ; plus généralement, on peut dire que l'évolution et la conscience restent du domaine de la psychologie, de la biologie ou de la philosophie). Si ces simplifications étaient raisonnables dans les années soixante-dix ou quatre-vingt, il me semble que maintenant, ces aspects ne doivent plus être négligés -- je dirais même plus : doivent être considérés comme centraux -- dans la modélisation qui pourrait conduire à la conception d'un robot autonome...
Bien que la question ne soit pas encore formulée très clairement, le nombre de chercheurs en intelligence artificielle qui se sentent concernés par cet aspect croît, et les critiques des modèles informatiques de planification (Suchman, Agre) ou de raisonnement purement rationnels (Winograd, Flores) soulignent les limites, probablement inhérentes, des programmes fondés sur la seule manipulation de symboles. Bien sûr, cela n'est pas neuf ; c'est même une antienne, récurrente depuis le Dreyfus des années soixante !
Une différence essentielle est que, maintenant, les recherches en intelligence artificielle sont également ancrées dans les recherches en neurobiologie et en neuropsychologie. Les recherches en connexionnisme tentent aussi actuellement d'apporter quelques éléments de réponse à ces questions, grâce à des techniques efficaces pour le traitement des informations floues ou incertaines. Bien qu'on soit encore très loin d'une réelle analogie avec le fonctionnement cérébral, les possibilités de collaboration entre les techniques connexionnistes et les systèmes symboliques restent assez prometteuses (systèmes dits hybrides). Mais, je ne fais pas seulement allusion ici aux algorithmes génétiques ou aux réseaux connexionnistes (qui restent une modélisation simplifiée ne rendant pas encore compte du fait que dans la cellule ou le neurone, ce qui se passe est aussi complexe que dans un ordinateur entier !). L'idée essentielle me paraît plutôt porter ici sur l'interpénétration des systèmes biologiques et sociaux. (Quoiqu'assez neuve en intelligence artificielle et en sciences cognitives, cette idée a une déjà longue histoire en biologie et en anthropologie...). Bien que de niveaux assez divers, les modèles importants à considérer sont ceux d'Edelman, de Rosefield, de Baars ou de Dennet [qui tous mettent la conscience au centre de leurs préoccupations]. Le thème 1 << architecture >> se penche sur l'utilisation de ces réflexions pluridisciplinaires pour proposer un modèle général d'un agent intelligent, permettant de rendre compte des relations entre ces différents aspects.
1) Le sens
. Le rôle des symboles en intelligence artificielle (correspondant à l'actuel problème de l'ancrage des symboles, cette question concerne l'attribution du sens par l'intermédiaire des liens entre perceptions et actions, et, dans le cadre du langage, les relations entre le sens et les concepts, les signes et les symboles ; nous essaierons de voir comment tenter de répondre aux critiques de Searle, Dreyfus...) ;
. La référence (en liaison avec l'évolutivité nécessaire du monde de référence représenté, le traitement de la référence devient extrêmement complexe ; en particulier les référents évolutifs posent des problèmes qu'on ne sait pas bien modéliser et que les techniques informatiques actuelles ne savent pas bien gérer.) ;
2) L'intentionnalité, en ce qu'elle vise à attribuer une signification à un énoncé, est liée au point précédent. Elle demande que l'intention communicative soit réellement découverte et qu'on ne se limite pas au seul sens littéral. Cela impose que la machine sache dégager le sujet général de la discussion, et déduire de ces informations le but et le plan éventuel de l'interlocuteur (quel est son problème réel et comment il envisage de le résoudre). Divers mécanismes de planification et de gestion de la mémoire sont nécessaires pour ce faire ;
3) Le rôle de l'apprentissage dans l'appropriation de la langue. Une réelle compréhension implique une confrontation continuelle entre les énoncés reçus et les connaissances antérieures. Là aussi, les mécanismes de dialogue jouent un rôle tout particulier par rapport à deux questions essentielles : comment on apprend par l'intermédiaire de la langue et comment on apprend à dialoguer par le dialogue lui-même.
Le cadre qui semble actuellement le plus prometteur pour donner des réponses aux trois types de questions évoquées ci-dessus, est celui des sciences cognitives, ce qui explique les rôles importants que divers membres du groupe Langage et Cognition jouent vis-à-vis des sciences cognitives au niveau national (ARC, ISCC, réseau régional Paris-Sud, programme Cognisciences...)
Ce thème aborde une question dont l'importance fondamentale naît de l'approche même de l'intelligence artificielle et de la linguistique informatique : celles-ci tentent de définir a priori des mécanismes de représentation et des processus de raisonnement, afin de réaliser des systèmes de compréhension et de production des langues. La compréhension et le langage sont des phénomènes si complexes qu'on tend à les examiner sans autre complication : on les étudie donc de façon isolée en remettant à plus tard l'étude des interactions avec les autres phénomènes. Cela implique la nécessité d'un ensemble phénoménal de connaissances, de planification, de prises de décision, et une mémoire permettant un stockage et une recherche très efficaces (ce qui représente l'essentiel des travaux d'intelligence artificielle et de traitement automatique des langues, qui n'ont pas réellement essayé de trouver d'autre solution...).
Or, c'est le langage même qui donne à l'homme ses facultés de représentation et de raisonnement qui augmentent significativement ses capacités cognitives (qui à leur tour servent au langage...). La mémoire humaine est organisée autour des choses importantes et nous permet de structurer le monde pour que nous n'ayons pas à nous remémorer des choses inutiles (il ne s'agit pas d'organisation a priori, mais des moyens d'accéder directement à l'information voulue : comment une description nous permet-elle de naviguer dans la mémoire et de retrouver très rapidement les éléments voulus ?). La mémoire humaine n'est pas seulement associative, elle est aussi prospective et réflexive. Ainsi, l'intelligence artificielle purement symbolique semble-t-elle prendre le problème à l'envers, le rendant ainsi peut-être impossible par nature... Beaucoup d'arguments contre la possibilité d'une intelligence désincarnée ont d'ailleurs été avancés. Il est alors naturel d'envisager que soit erronée l'hypothèse selon laquelle on peut construire a priori des mécanismes de raisonnement élaborés sans une capacité de langage. Deux questions essentielles se posent alors :
* la première est que l'apprentissage est le processus de base et doit permettre d'expliquer comment sont compris les effets pragmatiques de nos premières utilisations de mots. Il faut donc un modèle qui explique comment cela permet le développement de la faculté de langage, et ce de façon récursive : de nouvelles capacités de langage donnent de nouvelles capacités symboliques, qui à leur tour résultent en des capacités de langage accrues, qui...
* ainsi, la seconde question qui se pose est : quelle structure prédéfinie permettrait à un tel processus d'amorçage de se produire ?
Changer cette vision de la mémoire remet en cause la plupart des théories en sciences cognitives et en intelligence artificielle (qu'est-ce que la connaissance si elle n'est pas stockée dans la mémoire ? Que signifie, pour le cerveau, représenter quelque chose s'il ne sert pas à conserver des structures stables ?). Notre idée intuitive de mémoire est indissolublement liée à celles de représentation, de raisonnement et de sens (qu'est-ce que raisonner si ce n'est retrouver des connaissances et apparier des connaissances anciennes ? Comment le comportement peut-il être orienté par des buts sans des programmes stockés ? Qu'est-ce que comprendre un texte, si ce n'est l'analyser et l'apparier avec des définitions et des graphes sémantique ?...).
Nous avons proposé un modèle informatique où on distingue deux types de mémoire relativement indépendants : une mémoire volatile très agile mais de faible portée dont le contenu se renouvelle constamment, et où ont lieu les opérations interprétatives, et une mémoire plus stable, qui persiste dans le temps et qui conserve les résultats de ces opérations (la mémoire à long terme). La mémoire volatile peut se diviser à son tour en une partie consciente réduite (la mémoire à court terme), et une partie subliminaire, un peu plus large (à laquelle nous réservons le nom de mémoire de travail). La mémoire à court terme est relativement limitée (certains psychologues parlent de sept << registres >>) pour réutiliser les structures mentales qui n'y sont plus disponibles, il faut qu'elles aient été sauvegardées dans la mémoire à long terme.
Avec cette organisation générale de la mémoire, les connaissances contenues dans la mémoire à long terme sont évoquées par les unités linguistiques (rappel associatif). Elles sont ensuite transférées dans la mémoire de travail où les opérations interprétatives établissent une cohérence vis-à-vis du contexte cognitif (ce qui correspond à la reconnaissance de la cohésion de l'énoncé). Une interprétation cohérente franchit le seuil de la conscience et apparaît dans la mémoire à court terme. Cette perception consciente déclenche un processus d'acquisition automatique et un traitement rationnel contrôlé.
La thèse d'Alejandro Bassi Acuña proposait un mécanisme informatique simulant ce type de comportement. Le sens n'est alors plus conçu comme une représentation symbolique construite de façon compositionnelle à partir des unités lexicales de la langue, mais correspond à un effet contextuel que l'on peut modéliser comme une transition de l'état de la mémoire : le sens est une modification du contexte cognitif de l'auditeur, et l'effet des signes élémentaires est de guider la compréhension en rendant plus accessible les entités sémantiques qui font partie de l'interprétation. Une autorégulation compétitive liée à l'accessibilité des connaissances (un niveau cognitif subliminaire non contrôlé) suffit alors à expliquer la préférence sémantique en contexte, c'est-à-dire, la focalisation de la perception consciente sur les interprétations les plus pertinentes. Les objectifs du système ont également une influence déterminante sur le déroulement même du processus de compréhension (les tâches engendrent des attentes qui influent sur la pertinence des interprétations).
Comme les connaissances se caractérisent par une accessibilité inégale et dynamique, les interprétations cohérentes avec les connaissances les plus accessibles ont le plus de chances de s'imposer, car, étant plus rapides à construire, elles profitent mieux de l'attention que leur accorde le système cognitif. De cette façon, le choix du système se porte de préférence sur les interprétations les plus proches des connaissances actives, c'est-à-dire, les plus pertinentes dans l'état courant du contexte.
L'énoncé en cours de traitement peut admettre plusieurs interprétations candidates construites en parallèle. Individuellement, elles procèdent de façon séquentielle et montante (dirigées par les données). Néanmoins, collectivement, le contexte fait converger le système vers une interprétation résultante, presque toujours unique. En effet, les interprétations sont développées avec une vitesse variable qui dépend de la plausibilité de la branche explorée, c'est-à-dire, en dernier lieu, de l'accessibilité des connaissances qui l'étayent. Cette façon d'opérer permet de les départager, car elles n'ont pas toutes les mêmes chances de prospérer. L'état du contexte cognitif agit alors comme un faisceau d'hypothèses qui favorise l'essor des interprétations les plus cohérentes. C'est un mécanisme prédictif techniquement très différent de l'analyse descendante classique.
Concrétisant ces propositions de la thèse d'Alejandro Bassi Acuña, Gérard Sabah a proposé le modèle du carnet d'esquisses : il s'agit d'une extension des tableaux noirs permettant l'établissement automatique de boucles de rétroaction des niveaux supérieurs vers les niveaux inférieurs. Les modules (non contrôlés) y construisent d'une part leur propre résultat (une esquisse), et d'autre part, renvoient aux modules dont ils utilisent les résultats, une réponse qui traduit leur contentement vis-à-vis de ce qu'ils ont construit. Cela amène les premiers modules à modifier leurs esquisses en vue d'optimiser cette réponse. Ces relations sont généralisées sur l'ensemble des modules utilisés lors de la résolution d'un problème et permettent de construire des esquisses de plus en plus précises, à mesure que les connaissances de l'ensemble du système interviennent. Une mise en oeuvre, réalisée en Smalltalk, a permis de montrer comment ces collaborations s'étendent des modules morphologiques et lexicaux aux modules syntaxiques et sémantiques.
Bien entendu, la pensée rationnelle participe aussi à la compréhension, mais seulement après une perception spontanée du sens (cette division du travail permet de différencier les <<vraies >> ambiguïtés soulevés par la communication, qu'une planification dynamique rationnelle devrait résoudre, et les ambiguïtés artificielles, qui restent inaperçues sans une étude linguistique approfondie).
Partant de là, nous avons proposé deux extensions pour une utilisation efficace de ce type de modèle. Plutôt qu'un ensemble plat d'agents liés chacun à son méta-système, un méta-système peut contrôler plusieurs agents (ce qui équivaut à une décomposition a priori du problème en sous-problèmes, et regroupe ensemble les agents analogues). Cela permet d'utiliser les avantages d'un contrôle semi-centralisé, avec la souplesse des systèmes d'acteurs.
La seconde extension consiste à considérer ces méta- systèmes comme des agents usuels. Ainsi, en appliquant cette << réflexion >> récursivement à plusieurs niveaux, on obtient la possibilité de mettre en place une organisation hiérarchique des agents : pour atteindre un certain but, un agent donné dispose de plusieurs moyens qui sont les autres agents qu'il contrôle (c'est-à-dire qu'il a la possibilité de déclencher). Ces agents peuvent être eux-mêmes des systèmes réflexifs contrôlant d'autres agents, eux-mêmes simples ou à nouveaux réflexifs... La structure d'un tel système, complètement récursive, est illustré par notre premier modèle CARAMEL (Compréhension Automatique de Récits, Apprentissage et Modélisation des Échanges Langagiers).
D'un point de vue psychologique, les analogies entre ce modèle (multi-agent réflexif) et la notion de conscience nous semblent également fondamentales. Certes, Caramel ne prétend pas être un modèle du fonctionnement de la conscience humaine ! Néanmoins des similarités avec des idées qui apparaissent dans le domaine de la méta-cognition peuvent être notées. Malgré nombre de différences, liées aussi bien aux distinctions entre les composants de la machine humaine et de la machine informatique qu'à leur organisation, il semble exister une certaine ressemblance entre le modèle réparti et réflexif, base de Caramel, et une certaine conception de la conscience, particulièrement si l'on se situe au niveau de la séparation entre modules et méta-modules et que l'on s'intéresse aux aspects fonctionnels du contrôle. Cette caractéristique d'auto-représentation et d'auto-référence me semble une qualité déterminante de l'intelligence, ce dont les programmes d'intelligence artificielle doivent tenir compte.
Pour établir un lien entre les niveaux de traitement contrôlés et non contrôlés, la conscience devait bien sûr jouer un rôle fondamental. Nous avons donc développé un modèle cognitif général, et en conséquence, nous proposons alors la nouvelle interprétation du sigle CARAMEL : Conscience, Automatismes, Réflexivité et Apprentissage pour un Modèle de l'Esprit et du Langage. Dans ce nouveau modèle, la conscience vue comme un pont entre les processus inconscients et les processus contrôlées : une donnée du carnet d'esquisses est rendue consciente (<< pop-up >> inconscient) et traitée ensuite par les processus contrôlés ; les résultats pertinents de ce traitement conscient sont également rendus conscients (<< pop-up >> conscient) ; le contrôle de la conscience (l'attention) décide si une donnée ou un problème doit être traité consciemment ou non ; il évalue également les traitements conscients qui, rencontrés plusieurs fois donnent lieu à apprentissage de processus inconscients par compilation. Un rôle important de l'interaction entre le carnet d'esquisses et les processus contrôlés -- par l'intermédiaire de la conscience -- est donc d'unifier des résultats disparates en un tout cohérent. La conscience a ainsi une fonction constructive que ni les processus inconscients, ni les processus contrôlés ne sont capables de réaliser seuls.
--------------------------------------
Une réflexion sur les problèmes de complexité nous a également amenés à envisager la programmation de l'ensemble du système Caramel avec un langage orienté objet. Ce choix est fondé sur la remarque qu'il existe deux grands types de tels langages, selon le critère de décomposition verticale (relations entre module et sous-modules) : cette décomposition exprime soit une classification avec héritage (simple ou multiple) soit des niveaux d'abstraction différents. La première implique un regroupement de tous les aspects communs à différents objets (factorisation) ; les différentes propriétés d'un objet sont alors réparties, ce qui est utile pour la mise au point et le développement, mais une modification d'un ancêtre peut avoir des conséquences très lointaines ; d'où une maintenance qui peut être difficile. La seconde autorise des << zooms >> permettant de voir les mêmes objets à différents niveaux de détails ; cela permet aisément de composer des logiciels standard, immuables. C'est clairement la première solution qui convient au développement de logiciels de recherche et notre choix s'est porté sur Smalltalk, le prototype de tels langages. Ont déjà eu lieu, des actions de formation à l'intérieur du groupe, des prises de contact avec des utilisateurs au niveau national et international, et la récupération de nombreux outils disponibles dans le domaine public. Les développements spécifiques (analyseur morphologique, analyseur LFG, gestionnaire des graphes conceptuels...) déjà réalisés sont décrits plus précisément dans le thème << atelier de génie linguistique et visualisation graphique >> .
Le thème s'est donné pour mission d'explorer la plupart des aspects liés à la notion de représentation sémantique. Il se propose d'abord d'approfondir simultanément la distinction mais aussi la convergence de deux axes méthodologiques : les représentations cognitives, d'une part, l' extraction de données, d'autre part.
C'est dans cet axe que s'inscrivent les travaux de Nelly Bensimon, en collaboration avec le laboratoire LCPE de l'ENS d'Ulm : elle se penche plus spécifiquement sur la notion de catégorisation lexicale sémantique. Partant d'une compilation linguistique qui proposait une classification des verbes du français à partir de régularités de constructions syntaxiques, une étude a été menée avec des psycholinguistes afin d'observer des décalages ou des articulations entre syntaxe et sémantique. Nelly Bensimon a tenté d'appréhender d'un point de vue expérimental et modélisateur les structures des connaissances lexicales et des situations de transfert, mobilisées pendant la tâche d'interprétation. Son but est d'étudier à travers les catégories cognitives liées à un domaine sémantique, la formation d'une sémantique lexicale situant ce domaine dans une langue, et, dans le même temps, la flexibilité de cette sémantique. Dans la perspective d'une implantation, sa réflexion porte sur l'architecture des représentations susceptible de représenter une organisation des connaissances autour de concepts et de catégories.
De la même manière, Françoise Forest et Jean-Pierre Gruselle s'intéressent aux structures émergentes du sens à partir de situations, inspirées des théories de Vygotsky, mais adaptées à l'environnement automatique par le biais de méthodes neuromimétiques. La thèse de Jean-Pierre Gruselle porte plus directement sur l'émergence de concepts et leur formation à partir de verbalisation de situations, à l'intérieur d'un modèle proposé par Françoise Forest qui, par ailleurs, co-dirige un projet de modèle hybride (le modèle MoHA) en liaison avec le thème << Apprentissage >> . L'hypothèse sous-jacente au modèle est la suivante : représenter le sens d'un énoncé nécessite de disposer d'une représentation du monde tel qu'il a été perçu au cours des expériences individuelles accumulées, notamment celles qui ont participé à l'acquisition du langage par le sujet comprenant. On se propose alors de construire une représentation de ces situations : chaque situation est vue comme une représentation géométrique qui préserve les relations topologiques entre actants et qui code l'évolution de ces relations topologiques, ce qui correspond à une mise en oeuvre d'une des morphologies archétypes dont René Thom fait l'inventaire dans Stabilité structurelle et morphogénèse (Interéditions, 1977). Par ailleurs, Françoise Forest dirige un groupe de travail sur les relations entre sens, gestes et langue des signes. Ce groupe, soutenu à sa création en 1991 par le réseau régional Paris-Sud du programme Cognisciences, est essentiellement pluridisciplinaire et permet à divers laboratoires de collaborer sur ce thème important pour les aspects multi-modaux.
A côté de représentations vues comme l'aboutissement d'un processus de construction, notre thème s'intéresse également à l'exploitation de structures a priori, et ce, à tous niveaux de découpage. C'est dans ce cadre que s'inscrivent les travaux dirigés par Anne Vilnat sur l'adaptation et l'extension des graphes conceptuels comme formalisme de représentation du sens pour les granularités large et moyenne. La granularité moyenne couvre un champ assez grand : elle se situe au niveau des mots, des syntagmes et des propositions. Elle correspond à la préoccupation principale de représentation sémantique dans les méthodes d'analyse et d'interprétation de la langue. La granularité large prend comme unité les paragraphes et les textes. Elle reçoit de plus en plus d'intérêt de la part des chercheurs parce que des applications telles que le résumé automatique ou la caractérisation de textes en découlent. L'hypothèse des travaux sur les graphes conceptuels est que le même formalisme peut servir de structure d'analyse et de représentation du sens à différents niveaux. Dans ce cadre, Anne Vilnat, Karim Chibout et Martine Hurault-Plantet se penchent sur le niveau phrastique et propositionnel (en relation avec un groupe de travail du projet << Graphes Conceptuels >> du PRC-Intelligence Artificielle) alors que Nicolas Masson (en liaison avec le thème << analyse et génération de textes >> de notre groupe) tente de réaliser la même opération au niveau des textes. Les travaux d'Anne Vilnat, outre l'animation de ce groupe, portent sur des extensions telles que les << situations >> dans les graphes, ces dernières servant à représenter des phrases avec des modalités, ou des propositions dont l'ordre logique serait supérieur à un (comme dans << Pierre a dit que Marie avait de l'argent >> , ou dans << Jean fait passer un test à Jacques >> ). La thèse de Karim Chibout porte sur la représentation à l'aide de graphes conceptuels de la polysémie verbale : cette dernière induit une modification des relations casuelles associables à chaque signification du verbe et donc, de fait, introduit des variantes dans la hiérarchie des types verbaux, et dans la construction de chaque graphe canonique. Martine Hurault-Plantet a réalisé un éditeur de graphes conceptuels pour la visualisation et l'acquisition de nouvelles structures sémantiques (environnement détaillé dans le thème << outils >> ). Leurs travaux sont directement intégrés, ou en cours d'intégration, dans la plate-forme de traitement de la langue développée sous la direction de Gérard Sabah et Xavier Briffault. C'est aussi au niveau global du texte, mais avec un formalisme différent, que Nadine Lucas cherche à déterminer une << sémantique du style d'un texte >> , qu'elle déduit de la récurrence de structures syntaxiques préférées (par l'auteur du texte).
Si les graphes conceptuels sont intensivement utilisés par le groupe Langage et Cognition pour la représentation du sens pour un grain moyen ou gros, en revanche, ils sont limités lorsqu'on entre dans les polysémies lexicales (par ailleurs essentiellement nominales) dues à des variations micro-sémantiques. C'est pourquoi, nous avons cherché à compléter ce formalisme des graphes conceptuels par des modèles locaux mais compatibles. Dans ce cadre, Violaine Prince avait développé un modèle pour la polysémie des noms courants (modèle EDGAR 1988-1994). Afin d'en tester la faisabilité, ce modèle s'était limité, dans un premier temps, à des significations consensuelles. Ces premières expériences se révélant positives, Sylvain Surcin, dans une thèse qui démarre cette année, cherche à généraliser le modèle pour couvrir au mieux les aspects micro-sémantiques. Conjointement avec le thème << architecture >> , ce travail tente de modéliser des éléments lexicaux dans la mémoire de travail du modèle de Gérard Sabah, de telle façon que l'expression ambiguë ne soit plus un obstacle à l'interprétation.
Sous-thème << Extraction de données >> Les représentations cognitives doivent être alimentées par des indices en provenance du discours. Dès lors, notre thème s'est aussi attelé à une prospection de la constitution d'indices sémantiques à partir de corpus réels de grande taille. Nous nous sommes plus particulièrement penchés sur les méthodes statistiques de recherche de proximité, sur l'étiquetage de corpus, et sur l'extraction de thèmes dans de grands ensembles de données. Cet axe se trouve spécifiquement dans la mouvance de l'ingénierie des langues, qui connaît actuellement un important renouveau.
C'est ainsi que durant l'année 1995, Kumiko Tanaka (doctorante japonaise en stage au LIMSI) et Violaine Prince ont travaillé sur la mise en place de << matrices de proximité sémantique >> sur des corpus de 100 M octets en langue japonaise afin de réaliser des dictionnaires bilingues situés (c'est-à-dire possédant des équivalents actualisés par des extraits journalistiques), travail qui a donné lieu à une communication (Tanaka et Prince 1995). De la même manière, Stéphane Ferrari a ancré sa thèse sur le traitement des métaphores par la mise en place d'une méthodologie de détection, dans de grands corpus, des métaphores selon leur type (conventionnel, innovant). Ses travaux sont largement décrits dans deux << doubles pages >> de ce document. Ses résultats vont donner lieu à des communications en 1996. Il a en outre réalisé une version française de l'étiqueteur d'Eric Brill, qu'il a adapté et entraîné sur un corpus et soumis à évaluation au projet GRACE-I (projet d'évaluation de ressources d'analyse morphologique du Français, action commune SPI-SHS du CNRS). Les résultats issus de cette approche ont donné lieu à deux projets sélectionnés par l'AUPELF-UREF (Association des Universités Partiellement ou Entièrement de Langue Française) sur le thème << informatique et linguistique : analyse et compréhension de textes écrits >>. Le premier projet porte sur l'évaluation de nos méthodes sur des corpus fournis par un organisateurs pour l'extraction de relations sémantiques. Le deuxième porte sur la réalisation, en collaboration avec l'Université Libanaise et l'Université de Tokyo, d'un dictionnaire électronique spécifique multilingue, à partir d'analyse de corpus.
Enfin, Georges Vignaux est responsable d'un projet retenu par les deux cadres programmatiques initiés il y a un peu plus d'an par les Départements SHS et SPI du CNRS, à savoir d'une part, le programme << Cognition, Communication intelligente et Ingénierie des langues >> dont le LIMSI et l'INaLF sont les laboratoires pilotes, et d'autre part, le programme d'informatisation du TLF (Trésor de la Langue Française) entrepris par l'INaLF en collaboration avec différents partenaires. Son projet porte sur la notion d'hypertexte et de dictionnaire. En effet, dans le cadre du programme Cognition, Communication intelligente et Ingénierie des langues, quatre grandes orientations sont proposées :
1. Mise en place du paradigme d'évaluation : application au domaine de l'analyse morphosyntaxique ;
2. Sémantique lexicale et lexicographie informatisée ;
3. Problématique hypertextuelle ;
4. Image, Geste et Langage.
Les objectifs du programme de recherche dirigé par Vignaux, << Hypertextes et Dictionnaires : nouveaux traitements cognitifs, nouveaux usages culturels et didactiques >>, empruntent aux finalités de ces deux cadres programmatiques et s'intéressent particulièrement aux orientations 2 et 3. Une double préoccupation théorique et empirique oriente ainsi en parallèle la conduite de ses travaux ainsi que ceux de ses partenaires (IUFM de Créteil, INALF), la première appliquée aux spécificités lexicographiques, sémantiques et logiques des dictionnaires, la seconde reconsidérant le dictionnaire en tant que système hypertexte ouvrant à des usages multiples pour différents lectorats et constitutifs de divers produits dérivés. Un rapport d'étape pour l'année 1995 a permis de montrer l'avancement de ce travail, sachant qu'une première publication dans les actes des Journées Dictionnairiques de l'AUPELF a diffusé des résultats qui ont retenu l'attention de la communauté scientifique.
Le groupe de travail << Sémantique Lexicale >> Depuis septembre 1994, des membres issus du thème, qui s'intéressent plus particulièrement aux représentations et traitements sémantiques de granularité fine, ont créé un groupe de travail informel sur la sémantique lexicale. Ce groupe réunit sur le même terrain des travaux issus de l'axe << représentations cognitives >> comme ceux de l'axe << extractions des données >>, afin de les confronter, les mettre à jour, et continuer une veille technologique indispensable dans ce domaine où l'état de la recherche évolue rapidement. Le groupe de travail a de nombreux contacts tant en France (Université de Caen, Université Paris XIII, Université de Montpellier) qu'à l'étranger (Université de Montréal, Université de Pennsylvanie). Parmi les membres fondateurs du groupe se trouve Georges Vignaux, qui a été nommé directeur adjoint du Groupement d'Intérêt Scientifique (GIS) << Sciences de la Cognition >>, par le Ministère de la Recherche et de l'Enseignement Supérieur, ministère où il occupe par ailleurs une fonction de chargé de mission pour les sciences cognitives. Georges Vignaux, durant l'année 1995, a permis une valorisation de la recherche sur les représentations sémantiques en suscitant un groupe de travail sur la << sémantique et la mémoire externe >>, et en préconisant deux thèmes directement liés aux représentations sémantiques pour les appels d'offre du GIS : en effet, le << livre électronique >> et << sémantique et mémoire externe >> ont fait partie des thèmes proposés à l'ensemble de la communauté scientifique concernée et ont connu un vif succès par le nombre de projets soumis. Ses propres travaux sur les << themata >>, notions cognitives de base, servent d'ancrage dans l'univers cognitif à plusieurs travaux de sémantique lexicale computationnelle, dont, en particulier, le modèle EDGAR cité dans notre premier sous-thème.
L'objectif général dans lequel se situent les travaux relatifs à ce thème consiste à élaborer une structuration de la mémoire à long terme permettant d'intégrer apprentissage et compréhension. Nous nous centrons sur deux types de connaissances : les concepts, appartenant à un réseau sémantique, et les situations concrètes, formant un réseau de schémas. Le type d'apprentissage que nous voulons mettre en oeuvre pour former ces deux niveaux de connaissances repose sur un principe d'accumulation d'expériences. Il est donc nécessaire d'ajouter à ces deux niveaux classiques une mémoire des expériences. Un modèle hybride d'apprentissage, MoHA, a été défini afin d'intégrer de façon cohérente ces connaissances de nature différente (numériques et symboliques).
L'idée principale que nous voulons tester consiste à faire émerger des notions dès lors qu'un ensemble d'expériences relatives à cette notion a eu lieu et a été mémorisé de manière à les regrouper. L'apprentissage est non supervisé ; les notions sont issues d'expériences qui ne constituent pas des ensembles d'exemples organisés. En fonction des connaissances visées par l'apprentissage, et donc aussi suivant ce que la machine connaît déjà, ces expériences seront de nature différente. Des structures spécifiques ont donc été définies pour les mémoriser, ainsi que des processus de formation pour les faire émerger, tout en veillant à conserver des liens entre elles garantissant une véritable intégration. Les différentes approches que nous étudions sont présentées ci-dessous selon un ordre croissant d'exigence quant aux connaissances préalables requises par l'apprentissage envisagé. Elles illustrent différentes étapes dans la formation des connaissances par le biais du langage, étapes en accord avec la théorie de Vygotsky sur l'apprentissage des concepts spontanés.
Le premier travail porte sur l'acquisition de concepts à partir d'expériences langagières : au cours d'une situation concrète, des phrases sont prononcées. Ce module retient dans leur ordre séquentiel l'ensemble des mots perçus (les noeuds-mots) reliés au noeud-situation correspondant par des liens munis de poids qui représentent l'importance subjective du mot. La mémorisation de ces expériences se fait par l'intermédiaire d'un réseau à propagation d'activité. Ce réseau est constitué de deux niveaux : le niveau de l'expérience et le niveau conceptuel. Le niveau de l'expérience est représenté par le graphe bipartite formé des noeuds-mots alternant avec les noeuds-situations. Un noeud-mot peut donc appartenir à plusieurs situations. Les noeuds-situations permettent de relier d'une part les mots entre eux, et d'autre part les mots aux autres percepts et affects éventuels. Le niveau de l'expérience se construit par accumulation de données élémentaires. À chaque intégration d'une nouvelle situation l'activité est propagée depuis le noeud-situation. Le changement d'activité produit est appris par une réévaluation des poids suivant une règle de Hebb. Le niveau conceptuel se construit par l'intermédiaire d'une propagation d'activité dans le niveau de l'expérience. Nous étudions actuellement la possibilité d'isoler des îlots de noeuds de forte activité en propageant l'activité depuis un noeud-mot et un des noeuds-situations qui l'entourent. Ensuite il s'agira de regrouper ces îlots de forte activité en ensembles qui devraient correspondre aux différents sens du mot, ensembles que nous associerons à des noeuds-conceptuels. Le réseau formé par ces noeuds-conceptuels reliés par des liens munis de poids constituera une première base pour le niveau conceptuel.
Un deuxième travail propose une représentation de l'ensemble des situations associées à l'observation d'une entité particulière (ce que Vygotsky nomme complexes), se situant avant la formation de concepts, qui affine la notion de situation perçue. Chaque situation appartenant au complexe associé à un mot est décomposée en fonction des entités intervenant dans la situation et de l'évolution des relations topologiques qu'elles entretiennent entre elles. L'enrichissement du complexe provient de la multiplication des liens que la mise en évidence des entités et des relations permet. La représentation géométrique proposée (cf. thème 2 << sémantique >>) autorise l'utilisation d'opérations de comparaison de situations et la définition d'une mesure de ressemblance entre situations plus fine que celle qu'on peut construire à partir de la simple cooccurrence pondérée de mots.
Le dernier travail porte sur l'apprentissage de nouvelles situations apparaissant dans des textes narratifs. Son but est de mémoriser et d'agréger des situations similaires dans une mémoire des épisodes afin d'utiliser ce type de connaissances pour améliorer la compréhension de situations nouvelles et de former des schémas par abstraction d'agrégats stables. La mémoire des épisodes repose sur l'accumulation et l'agrégation de représentations de texte (son organisation est détaillée dans la << double page >> de Brigitte Grau et Olivier Ferret). Celles-ci mettent en évidence les situations auxquelles les textes font référence ainsi que la façon dont ces situations sont reliées les unes aux autres. Le travail en cours porte sur la construction de ces représentations dans un contexte où les connaissances pragmatiques sont incomplètes et incertaines. L'utilisation de formes d'analyse reposant sur des connaissances plus faibles, tels que les indices linguistiques par exemple, est une première réponse. Elle ne peut être suffisante à elle seule mais il apparaît tout à fait intéressant de faire appel à ce genre de mécanisme en tant que base de départ minimale pour produire des représentations de texte. Ce rôle d'amorçage doit ensuite être prolongé par un type d'analyse capable de se nourrir de l'expérience qu'acquiert progressivement le système à mesure qu'il est confronté à davantage de textes, capable donc d'exploiter les structures constituant la mémoire des épisodes. Un algorithme de segmentation des textes en situations a été développé sur cette base. Il utilise l'associativité de la mémoire afin de fournir un contexte à la fois aux segments de texte en cours de construction et aux propositions que l'on cherche à rattacher à l'un d'entre eux. Ces deux types d'entités différents peuvent ainsi être caractérisés de façon homogène, facilitant en cela les comparaisons entre eux : une distance entre une proposition et un segment en cours de construction peut être ainsi calculée et représenter une base pour décider si une proposition doit être assignée à un segment déjà existant ou en introduire un nouveau.
Le principe de l'accumulation d'expériences (sur lequel repose donc la forme d'apprentissage mise en oeuvre dans ce thème), fait appel entre autres mécanismes de raisonnements à celui du raisonnement par analogie. Une première maquette utilisant ce type de raisonnement pour la génération de phrases fut réalisée dans le cadre d'un stage de DEA.
Plus généralement, l'analogie joue un rôle primordial, tant au niveau de l'acquisition des concepts qu'au niveau de l'apprentissage et de la compréhension de nouvelles situations. En particulier, la mémoire des expériences est intéressante à deux titres différents : le principe de l'analogie est utile à sa constitution (l'accumulation se fait par étude des similarités entre situations) ; le fait de disposer d'une mémoire des expériences permet de construire un mécanisme de raisonnement par analogie pour interpréter les expériences nouvelles à la lumière des expériences passées.
Les notions de mémoire et d'analogie abordées dans ce thème, le sont aussi dans d'autres thèmes et sont donc centrales pour CARAMEL. Cela nous incite à envisager pour l'avenir une étude plus générale de ces deux notions.
De nombreuses applications mettent en jeu des connaissances de nature qualitative sur le temps et l'espace : en planification, une action doit en précéder une autre ; dans les tâches de diagnostic, une augmentation brusque de la température est significative si elle ne survient pas après la mise en route d'un dispositif de chauffe ; dans un dispositif de guidage automobile, on demande au conducteur de tourner à gauche en face de la grande tour, etc.
L'automatisation de ces différents domaines implique donc que l'on sache représenter ces données qualitatives, et modéliser les raisonnements que l'on peut faire à leur propos.
Par ailleurs, l'utilisation d'une langue naturelle pour communiquer l'information temporelle et spatiale implique une connaissance approfondie de la façon dont ces données sont représentées dans la langue, et dont elles sont mises en oeuvre dans des tâches spécifiques.
Il est également important d'évaluer la complexité des algorithmes liés à ce raisonnement temporel et spatial. Parmi les problèmes fondamentaux en raisonnement temporel et spatial figurent celui de la cohérence des données et la détermination de scénarios. Par exemple, si l'on a une série de mesures de valeurs physiques attachées à des intervalles de temps partiellement connus, le problème de cohérence consiste à savoir si ces données sont compatibles (ou si on est certainement en présence d'erreurs).
Les problèmes correspondants sont NP-complets dans le cas général, ce qui rend intéressante la détermination de sous-classes de problèmes où existent des algorithmes polynomiaux. Dans le cadre des intervalles généralisés, Gérard Ligozat a mis en évidence l'existence de telles sous-classes, qui possèdent par ailleurs des propriétés remarquables (possibilité de déterminer des scénarios sans retour arrière). Un travail de thèse vise à étendre ces investigations à d'autres types de calculs temporels et spatiaux.
De façon complémentaire, les travaux de Xavier Briffault portent sur la sémantique des expressions spatiales et sur l'utilisation de ces dernières dans le << dialogue spatial >>, soit à propos de scènes statiques (description de situations d'objets fixes, regroupement d'objets, choix de points de vue), soit dans un contexte d'objets en déplacement. Ce dernier aspect est directement lié aux travaux décrits par ailleurs sur l'exploitation de corpus de guidage et la réalisation d'outils d'analyse automatique de ces corpus.
Partant du corpus d'Agnès Gryl, Lidia Fraczak s'est attachée à l'étude des connaissances nécessaires à la production de croquis schématiques représentant tout ou partie d'un itinéraire, à partir d'un fragment de description linguistique. Son travail surmonte les obstacles que présente le passage de la modalité linguistique à la modalité graphique, en proposant deux niveaux de représentation, appelés niveau linguistique et niveau conceptuel, ce dernier servant d'entrée à la génération schématique.
Enfin, Marie-Rose Gonçalvès et Agnès Gryl se sont attachées à mettre en évidence les besoins de l'application que représentent les descriptions d'itinéraires en termes de représentation et de raisonnement.
Guidage d'agents dans un monde virtuel : le travail de Jacek Marciniak étudie le traitement des informations spatio-temporelles perçues par un agent cognitif plongé dans un monde virtuel. L'agent cognitif considéré possède une capacité de perception simulée de son environnement (de type bureau), et reçoit des indications en langue naturelle qui l'aident à suivre un itinéraire dans cet environnement. Réalisé dans le cadre d'une collaboration entre l'Université Paris Sud et l'Université Mickiewicz de Poznan, ce projet inclut le recueil d'un corpus de guidage au moyen d'une expérimentation de type magicien d'Oz.
Application à l'enseignement des langues : dans le cadre d'une thèse qui débute cette année, Jérôme Vapillon examine la relation entre les expressions spatiales et les connaissances syntaxiques, sémantiques et pragmatiques qu'elles dénotent, en particulier lors d'une description de scène ou de << dialogue spatial >>.
Les buts de cet axe recherche sont essentiellement de simuler les processus cognitifs mis en jeu lors de l'analyse et la production de textes d'une part, et de construire des outils assistant des êtres humains en train d'apprendre à parler une langue. En essayant de trouver des solutions informatiques différents problèmes ont émergés, les uns étant de nature générale, les autres particuliers à une application donnée. Nous les présenterons successivement à propos de l'analyse, de la génération et des applications envisagées.
Le résumé de textes. Vu l'explosion des savoirs, et vu la quantité des informations que nous devons traiter quotidiennement il s'avère nécessaire d'introduire des filtres entre le texte source et le texte cible. Nicolas Masson travaille sur des textes de vulgarisation scientifique tels qu'on peut les rencontrer dans une revue comme Pour la Science pour en faire de résumés ciblés selon les attentes de l'utilisateur. Étant donné que son système est indépendant du domaine, il s'appuie maximalement sur les connaissances linguistiques (marqueurs de surfaces) et conceptuelles (macropropositionnelles). Son système est constitué de deux modules : un pour la structuration du texte, l'autre pour la génération de résumés. La structuration se fait en trois étapes : dégagement des grands thèmes à l'aide de méthodes statistiques, dégagement des parties qui les développent (phrases ou paragraphes) ; détermination de leur fonction rhétorique respective. Le second module engendre des résumés en sélectionnant, puis en extrayant des phrases de la représentation structurée du texte préalablement obtenue. La mise en oeuvre du système est actuellement en cours.
Nadine Lucas s'intéresse également à la reformulation de textes scientifiques. Elle part d'une hypothèse forte, à savoir que la structure d'un texte porte toutes les informations nécessaires à son interprétation. La reformulation consiste à effacer les éléments parasites (par exemple, les références bibliographiques) et à réduire les phrases complexes pour ne conserver que les traits syntaxiques pertinents. Ainsi, par exemple, un texte composé de 143 phrases est réduit à 9 phrases, structurées en 3 paragraphes. L'analyse syntaxique du texte fait l'objet d'une thèse d'état en linguistique. À l'heure actuelle l'analyse n'est pas automatisée.
Étant donné qu'un résumé est une version condensée d'un texte, il sera également pertinent d'étudier dans quelle mesure ces règles peuvent également servir au développement d'une idée ou d'un thème en production.
Le travail de Nicolay Vazov se situe à un niveau plus microscopique. Il cherche à automatiser l'identification des valeurs aspectuo-temporelles d'un texte contenant de verbes au passé composé. L'analyse s'effectue par exploration contextuelle d'indices linguistiques soit au niveau de la phrase soit celui du paragraphe. Certains verbes changent de valeur selon l'unité dans laquelle ils sont utilisés (phrase, paragraphe). Pour représenter les valeurs associées aux situations l'auteur utilise les primitives fournies par la topologie temporelle : intervalles ouverts et fermés, l'axe temporel et l'origine du système du repérage temporel (T0). Les résultats obtenus jusqu'à présent, permettent d'inférer deux types d'informations concernant le texte analysé : l'état présent du monde décrit par le texte et les relations causales, pertinentes des situations décrites dans le texte. Il s'agit ici d'un travail en cours dont les résultats seront également utilisables en génération.
Soulignons que l'approche du choix de mots et celle de la structure syntaxique utilisent la même méthode : celle de la superposition. Il s'agit là d'un choix méthodologique qui trouve sa justification dans des observations psycholinguistiques : le discours spontané est rapide (3-5 mots par seconde) et les différents niveaux de traitement interdépendants. Le traitement ne peut donc s'effectuer mot par mot. Par ailleurs, les structures conceptuelles peuvent être modifiées en cours de route (rétroaction), soit en ajoutant, transformant ou enlevant de l'information. Cela parce qu'elles ne sont pas intégrables dans la structure produite à un moment donné, ou parce qu'une partie du message a été oublié. À noter également que certaines informations peuvent être exprimées ultérieurement.
Les phénomènes psycholinguistiques auxquels nous nous intéressons dans la partie << problèmes généraux >> sont différents de nature que ceux auxquels nous nous intéressons dans le cadre d'une application destinée à l'apprentissage des langues.
En ce qui concerne l'aspect lexical, nous distinguerons deux aspects : celui du choix de mots et celui de l'accès lexical. Étant donné que la représentation sémantique d'un message doit être une représentation abstraite, donc non lexicale, se pose le problème du choix de mots. Celui-ci se fait selon nous par recouvrement. Étant donné que le sens du message à transmettre et le sens sous-jacent aux mots sont codés dans un même format (graphes conceptuels), il suffit de superposer ces deux structures pour trouver le mot adéquat.
Cette approche a l'avantage de permettre la génération de paraphrases (plusieurs graphes mot peuvent recouvrir un même graphe message), d'éviter des redondances ou incohérences (comme on utilise le même formalisme pour représenter le sens des mots et celui de la phrase, il ne peut y avoir de contradiction entre le message planifié et le message exprimé) et de simuler des phénomènes psycholinguistiques comme le << transport d'information >> (une information non exprimée par un mot peut être transportée au message à exprimer dans le cycle suivant). Ces aspects ont été mis en oeuvre en collaboration avec un chercheur d'IBM.
Un autre problème lié au lexique est celui d'accès lexical. Il arrive fréquemment qu'on n'arrive pas à se souvenir d'un mot, qu'on a pourtant << sur le bout de la langue >>. On notera que ce problème, s'il n'est pas pertinent en génération automatique, est un facteur non négligeable dans la simulation des processus psycholinguistiques. L'accessibilité d'un mot co-détermine la structure syntaxique. Nous avons commencé à réfléchir à la façon de simuler ce phénomène qui déborde d'ailleurs le langage. Nous partons de l'hypothèse que tous les mots sont reliés non pas en termes hiérarchiques, mais plutôt en termes de treillis, et qu'on accède aux mots par filtrage. Les critères étant des associations sémantiques, ou liens entre chacun des éléments. À l'heure actuelle nous disposons d'une liste de primitives organisées par types dont la validation empirique reste encore à faire.
Pour déterminer les structures syntaxiques susceptibles de traduire une structure conceptuelle, il ne suffit pas d'avoir une grammaire générative, encore faut-il disposer de règles spécifiant leurs correspondances respectives. Comme pour le choix des mots nous utilisons l'appariement comme stratégie d'identification de structures syntaxiques potentielles. Autrement dit, nous partons de l'hypothèse qu'il y a certaines relations entre les structures conceptuelles et les structures syntaxiques, et que les locuteurs efficaces savent les reconnaître en travaillant d'emblée sur des structures conceptuelles relativement grandes.
Partant donc de l'idée que la structure syntaxique ne peut être calculée << concept par concept >> ou << mot à mot >>, mais par unités plus larges, nous avons commencé à développer un expert syntaxique, capable de reconnaître des structures syntaxiques potentielles sur la base des caractéristiques formelles de la structure conceptuelle. Ainsi, nous postulons qu'un expert sait reconnaître les catégories de mots (noms, verbes, adjectifs) ainsi que les structures syntaxiques (nominalisation, phrase relative...) sur la base d'indices formels de la structure conceptuelle. Ces indices sont la forme des concepts, leur position relative et la direction des arcs. On peut ainsi reconnaître un candidat pour une phrase relative par le fait qu'une entité est dominée par deux arcs opposés. Bien entendu, cela n'est pas une condition suffisante, car des contraintes lexicales jouent également un rôle (par exemple, si un verbe est passivable, nominalisable, etc.). Cette partie n'est pas encore mise en oeuvre.
Le cadre de SWIM pose deux problèmes particuliers liés entre eux : celui de l'entrée conceptuelle (en quels termes communiquer à la machine l'idée qu'on a à l'esprit ?) et celui du métalangage.
Le problème de l'entrée conceptuelle est très important dans ce cadre étant donné que c'est l'utilisateur qui entre le message que la machine doit << traduire >> ou exprimer en langue. Se pose alors la question de savoir en quels termes communiquer le message, puisqu'on ne parle pas encore la langue cible qu'on veut apprendre. Par ailleurs, SWIM étant un générateur multilingue et non pas un système de traduction, il ne dispose pas d'analyseur. Pour résoudre ce type de problèmes nous avons commencé à travailler sur un éditeur d'arbre relié à un générateur de graphe conceptuel (cf. thèmes 2 << sémantique >> et l'action transversale << atelier de génie linguistique et visualisation graphique >>). En traversant une arborescence conceptuelle l'utilisateur communique au système, petit à petit, le message à transmettre. Le système construit parallèlement le graphe conceptuel correspondant.
À l'heure actuelle la taxinomie ne couvre qu'un sous-ensemble de la langue française. Il existe un éditeur pour la mise à jour des taxinomies. En revanche, il n'existe pas encore de module permettant de construire directement les graphes conceptuels. Ce qui pose problème à ce niveau n'est d'ailleurs pas la génération du graphe conceptuel, mais la présentation du graphe sous forme (facilement) lisible et agréable. En ce sens, notre travail est complémentaire de celui de Martine Hurault Plantet.
Ces résultats sont utilisés dans la << prothèse vocale intelligente >>, produit en cours de développement avec Thomson et Kerpape. Il s'agit d'un dispositif servant d'interface entre un malade et son entourage. L'utilisateur indique les concepts à exprimer (représentation iconique) et la machine (prothèse vocale) traduit le message correspondant.
L'autre problème délicat qui se pose dans l'élaboration d'un système interactif comme SWIM est celui du métalangage. Par exemple, en quels termes communiquer des notions relatives à l'espace et au temps ? Des termes comme passé simple, futur antérieur, ou espace euclidien, géométrique etc. sont beaucoup trop abstraits pour être utilisables par un apprenant. Aussi, avons-nous commencé à traduire sous forme d'icônes ces notions spatio-temporelles. L'utilisateur, au lieu de recourir à un métalangage déplacera un objet sur une trajectoire pour communiquer des notions temporelles (passé, présent, futur). Un module analogue est en cours d'élaboration pour l'espace. Afin de découvrir les paramètres déterminant la forme d'une expression spatiale l'utilisateur construit une scène. La construction s'effectue en choisissant et en positionnant des objets, puis en déterminant un point de vue. Suite à ces choix, le système produit l'expression linguistique correspondante. Dans les deux cas, la validation empirique (mise en oeuvre) n'est pas encore apportée.
Un dernier travail porte sur l'étude des stratégies cognitives mises en jeu par des êtres humains pour la génération d'itinéraires et la description de scènes visuelles. Les stratégies étant fournies par des psychologues, notre travail consistait à les simuler par machine. L'objectif est double : (a) produire automatiquement la description d'une scène visuelle en fixant le point de départ de cette description, (b) fournir un environnement permettant à l'utilisateur de reproduire la figure à partir de sa description en langue naturelle.
Dans un premier temps nous nous sommes limités à des scènes abstraites, en l'occurrence des graphes. Notre tâche consistait alors à déterminer le chemin optimal, puis à verbaliser le parcours. Le système produisait des énoncés dont l'ordre des concepts mentionnés était semblable à celui des êtres humains. Cependant, le générateur manquant de certaines ressources linguistiques (anaphores, ellipses...), les textes produits manquaient de naturel, notamment lorsque les graphes étaient complexes. Cette partie a été programmée.
Désormais nous allons généraliser cette démarche pour l'appliquer à une situation de la vie courante, à savoir, la génération automatique de descriptions de parcours en ville. Les textes produits doivent alors tenir compte d'un certain nombre de facteurs comme le point de départ, des connaissances de l'interlocuteurs (bâtiments, rues connus), la saillance des objets (monuments), etc. Pour ce faire nous avons soumis un projet avec des collègues de Montréal et de Paris-7 qui vient d'être accepté dans le cadre d'une coopération France-Québec.
Quels sont les différents enchaînements qui nous permettent de comprendre une intervention dans un dialogue et de produire une autre intervention qui soit pertinente dans le contexte de ce dialogue ? C'est à cette question que nous tentons de répondre dans ce thème. Le développement des études sur le dialogue Homme-Machine au cours des dernières années a mis en évidence la variété des processus qui interviennent lors de l'élaboration d'une réaction au cours d'un dialogue.
En effet plusieurs facteurs sont à considérer. Il faut resituer chaque intervention dans le schéma général du dialogue, c'est-à-dire établir les liens de cohérence thématique qui existent avec les interventions précédentes, et déterminer quelle est l'intention communicative qui est traduite, à savoir si le locuteur tente de répondre à une question, s'il pose une question nouvelle à laquelle il faudra répondre... Par ailleurs, les dialogues auxquels nous nous intéressons sont des dialogues de recherche d'information : un locuteur s'exprime parce qu'il a une intention précise, et c'est cette intention que le système doit inférer pour répondre correctement. Cette intention correspond à un but particulier qui s'insère dans un plan plus global, qui a conduit le locuteur à s'exprimer lors du dialogue (que ce soit pour faire une réservation, ou obtenir des conseils d'orientation). Après avoir reconnu ce plan, le système doit calculer, par rapport à ses connaissances propres et à des impératifs qu'il peut avoir à satisfaire, quelle est la réaction la plus appropriée pour faire progresser le dialogue.
S'il est clair depuis quelques années que la planification joue un rôle central dans la gestion des dialogues, il nous apparaît que les différents aspects ne doivent pas être gérés par ce seul processus. Les différents travaux menés dans le thème reposent donc sur le principe de traiter dans des modules distincts les différents points de vue qu'il est nécessaire de considérer au cours d'un dialogue, à savoir ceux qui sont cités ci-dessus. En effet ni les connaissances à utiliser, ni les raisonnements à mener ne sont semblables, il semble donc peu judicieux de les traiter dans un même module. Nous proposons donc une première phase d'analyse qui consiste à déterminer l'intention communicative. Celle-ci se fonde sur une analyse informationnelle qui est liée à l'évolution du dialogue en termes de thèmes abordés et une analyse conversationnelle des interventions qui s'intéresse aux aspects dialogiques en termes de structure. Cette phase précède l'analyse proprement intentionnelle.
C'est sur cette première phase d'interprétation qu'ont porté essentiellement nos travaux dans les deux dernières années. En effet, il nous paraît important de la définir précisément pour alléger le travail à réaliser lors de la reconnaissance de plans, qui reste la partie algorithmiquement la plus difficile dans un système de dialogue. Cela est d'autant plus vrai, que nous nous attachons à ne pas poser au départ d'hypothèses restrictives à la fois quant à ce que dit l'utilisateur et à propos de sa façon de gérer le dialogue : nous ne voulons pas limiter a priori la liste des plans à quelques plans potentiels totalement connus, ni faire l'hypothèse qu'il indiquera son but dès la première intervention.
De plus, la reconnaissance des intentions de l'interlocuteur doit bénéficier de l'ensemble des informations disponibles de façon à guider le processus de reconnaissance de plans. C'est pourquoi nous avons introduit un pré-processeur dans ce module, qui tire le maximum de profit possible des informations sémantiques qui ont été reconnues. Ces travaux résultent principalement de l'apport des études menées par Cécile Balkanski. Ces travaux ont montré que l'on peut, sur des indices syntaxiques et sémantiques, déduire des informations pragmatiques sur les connaissances et les croyances de l'utilisateur. En particulier, il est possible en présence de certains types de propositions, d'inférer si l'utilisateur fait une action de façon intentionnelle, ou s'il est obligé de l'accomplir. Ces informations sont très utiles pour guider ensuite le processus de reconnaissance de plans, qui peut ainsi être rendu plus efficace. Nous tentons à présent d'étendre cette étude, pour élargir les indices sémantiques exploitables. L'étape suivante sera de réaliser un véritable module de reconnaissance de plans : nous avons jusqu'ici essentiellement défini son rôle, et spécifié les différentes informations disponibles en entrée, ainsi que les résultats à fournir.
L'intégration de la nouvelle intervention dans un plan de l'utilisateur ayant pu être établie, nous essayons de déterminer quelle est la stratégie du système la plus adaptée. C'est alors que, suivant le type d'applications, le processus peut varier. Si le système n'a d'autre but que d'aider l'utilisateur à atteindre le sien, il reprend à son compte le but déterminé et tente de calculer le plan qui, en fonction de ses connaissances propres, lui semble le plus adapté. Pour respecter les contraintes conversationnelles, le système doit donner satisfaction à l'utilisateur : la sanction des utilisateurs, qui refuseraient alors d'avoir recours au système, serait sinon immédiate. Toutefois le système peut avoir un certain nombre de contraintes propres à respecter, dictées par exemple par l'organisme de renseignement dont il émane. Il faut alors tenir compte de celles-ci pour calculer la stratégie adéquate. Une certaine distance peut alors être observée entre ce que le système reconnaît être le souhait de l'utilisateur et la solution qu'il proposerait. Une négociation plus ou moins difficile peut alors s'engager. On peut observer que, même dans le cas où le système n'a pas d'autre but que de satisfaire l'utilisateur, le fait qu'il utilise des connaissances différentes pour déterminer la solution la plus adaptée pourra l'amener à justifier sa réponse, éventuellement divergeant de la demande explicite de l'utilisateur.
Pour être à même de traiter les phénomènes d'argumentation inhérents à ces dialogues, Jean-Michel Grandchamp a étudié dans sa thèse les travaux réalisés dans différentes disciplines sur ce thème. Après une étude bibliographique pratiquement exhaustive, il a proposé un modèle nouveau qui permet de fonder les bases d'une nouvelle représentation sémantique, où la langue est considérée comme un phénomène essentiellement argumentatif, plutôt que descriptif. S'appuyant sur les travaux de Ducrot, il définit un modèle qui fournit la signification abstraite des phrases, qu'il faudra ensuite interpréter en contexte pour en déterminer le sens.
Les dialogues explicatifs sont un autre domaine d'application auquel nous nous intéressons, et ces travaux font l'objet de la présentation de Laurent Charnay dans une << double page >>.
Tous ces travaux s'intègrent dans le cadre général de l'architecture de Caramel présentée ci-dessus. La séparation en plusieurs processus disposant de leurs propres sources de connaissance et coopérant à l'interprétation d'une intervention, se situe bien dans le cadre proposé. De plus, si l'activité même de dialogue semble de nature consciente, il est évident que certains des processus mis en oeuvre sont inconscients, en suivant la définition donnée dans Caramel. Ils pourront devenir conscients lorsque des problèmes surgissent lors du dialogue, par exemple lorsque le dialogue se déroule de façon non satisfaisante (avec une succession de questions sans réponses). Le processus chargé de gérer le bon déroulement du dialogue passera alors à un état conscient pour examiner pourquoi un problème se pose. Ce passage d'un même processus d'un état conscient à un état inconscient nous paraît un point particulièrement intéressant à étudier pour illustrer certains phénomènes de dialogue.
* intervenants : Jean-Baptiste Berthelin (mise à niveau IA), Xavier Briffault (mise à niveau IA, programmation orientée objet, traitement automatique des langues - 40 heures), Nadine Lucas (initiation a la linguistique 12 heures), Violaine Prince (acquisition et transfert des connaissances), Anne Vilnat (représentation des connaissances et traitement automatique des langues), Georges Vignaux, Gérard Sabah (responsable du module processus de traitement automatique des langues)
-- DEA d'informatique de PARIS XI (Orsay)
* Anne Vilnat responsable de l'option << Langage Naturel >> et de la partie du cours de tronc commun << Fondements de l'IA >>
* Violaine Prince responsable du module acquisition et transfert des connaissances, commun avec le DEA de Sciences Cognitives
-- DEA Processus d'Influence et Interaction de Paris VIII (Ecole doctorale de psychologie)
* Violaine Prince responsable du cours << épistémologie de la recherche et cognition >>
-- DESS << Systèmes et communication homme-machine >> de Paris XI
* Anne Vilnat responsable des modules intelligence artificielle et langage naturel
* Françoise Forest intervient dans le cours et les TD sur le traitement automatique des langues
* Olivier Ferret et Xavier Briffault interviennent dans le cours sur Smalltalk
-- DESS << Intelligence Artificielle et communication homme-machine >> de PARIS VI :
* Violaine Prince participe au cours Pragmatique pour l'analyse automatique et le dialogue Homme-machine. Elle est aussi responsable du module logique pour l'intelligence artificielle (20 heures)
-- DESS Informatique et Ethnométhodologie de Paris VII-Paris VIII
* Violaine Prince responsable du cours << modèles cognitifs et sociaux pour l'informatique >> (48 heures)
Diffusion des connaissances
Participations
à des séminaires externes
-- Séminaire de l'ENS de Lyon (Gérard Sabah)
-- Séminaire du groupe << Explication >> du PRC IA (Violaine Prince, Laurent Charnay)
-- Institut National de Jeunes Sourds, commission de recherche sur les effets de discours (Françoise Forest)
-- Séminaire << multi-agents >>, UTC Compiègne (Françoise Forest)
-- Violaine Prince est présidente du comité de programme de RÉCITAL96
Séminaire bimensuel, organisé par les groupes Communication Parlée, Communication Non Verbale et Langage et Cognition du LIMSI.
-- Séminaires et journées scientifiques de l'ISCC et du réseau régional Paris-Sud.
-- Journées scientifiques, colloques et écoles d'été organisés par l'ARC (Nelly Bensimon appartient au conseil d'administration de l'ARC).
-- Journée << graphes conceptuels >> organisée dans le cadre du projet Graphes conceptuels du PRC IA, organisée par Anne Vilnat.
-- réunions (trimestrielles) de travail du groupe sur le geste de communication (Françoise Forest)
-- Université d'été European Neuroscience Program
(ENP) << The representation of space >> (Xavier
Briffault)
Relations extérieures
-- Coopération France-Bulgarie (accord CNRS / LIMSI - Académie des Sciences de Sofia), l'objectif de cette coopération étant de développer une version russe de SWIM (accueil de chercheurs étrangers).
-- participation au programme européen Learning in Human and Machines (LHM) de l'European Science Foundation (ESF). (Olivier Ferret, Gérard Sabah)
-- projet <<Média >> : développement du même cursus universitaire dans diverses universités et écoles en Europe (fait intervenir actuellement 7 pays) (Jean-Pierre Fournier)
-- Collaboration avec Z. Vetulani (Université de Poznan, Pologne)
-- Membre du réseau européen <<Capital Humain et Mobilité>> <<SpaceNet: A Network for Qualitative Spatial Reasoning>> (partenaire principal: Univ. de Leeds (GB), autres partenaires: Univ. d'Hambourg (Allemagne), IRIT (Toulouse, France), Univ. de Gênes (Italie), EPF Lausanne (Suisse), Univ. technique de Vienne (Autriche), Univ. technique de Munich (Allemagne), Univ. Jaume I (Espagne), Univ. de Fribourg (Allemagne), DRA (GB)).
-- Collaborations avec le département recherche de la SNCF dans le cadre de dialogues homme- machine (bourse CIFRE). PLATON : développement de systèmes d'interrogation des divers services de la SNCF
-- Deux contrats AUPELF-UREF.
* L'ARC A3 << Extraction automatique de relations sémantiques >>
* l'ARP : << Extension et création automatiques de dictionnaires électroniques spécialisés multilingues >>.
-- Contrat dans le cadre du PRC CHM sur le dialogue homme-machine : projet DALI (collaboration avec l'ICP, l'IRISA, l'IRIT et le CRIN) ; Gérard Sabah est le responsable scientifique du projet.
-- Contrat dans le cadre du PRC IA sur les Graphes conceptuels (collaboration avec IBM, l'INSERM, le LIRMM et le LIPN).
-- Contrat dans le cadre du PRC <<sciences cognitives>> sur la réflexivité et le dialogue homme-machine : projet RAPSODIE (collaboration avec les université de Caen et du Mans) ; Gérard Sabah est le responsable scientifique de projet - accepté mais pas encore soutenu financièrement.
-- Animation du groupe inter-laboratoires <<Geste et communication>> basé au Limsi (Françoise Forest)
-- Projet GRACE de CCIIL (Nadine Lucas), Projet Aupelf-Uref/CNRS Silfide (Xavier Briffault)
-- Dans le cadre du GIS Sciences de la Cognition ; Contacts et collaborations avec les équipes de l'ISCC (Institut des sciences cognitives et de la communication, Paris XI), dont Brigitte Grau et Violaine Prince sont membres du conseil. L'ISCC est le coeur du pôle de sciences cognitives créé par le Programme <<Cognisciences>>, programme interdisciplinaire regroupant plusieurs départements du CNRS (Gérard Sabah est responsable de ce pôle) et soutenu par le GIS <<Sciences de la Cognition>>.
-- Dans le cadre du pôle Paris-Sud Informatique (collaborations avec diverses équipes du LRI) :
* avec l'équipe IASI du LRI (comparaison de formalismes de représentation de connaissances) :.
* avec l'équipe parallélisme du LRI (Joffroy Beauquier) : étude sur des agents adaptables parallèles.
-- Françoise Forest participe à un projet du pôle Paris-Sud Informatique avec le LPM (Laboratoire de Physiologie du Mouvement) (responsable : S. Gibet)
Actions incitatives internes du LIMSI :
-- Actions incitatives internes du LIMSI (Atelier de génie linguistique, syntaxe de l'oral) + Plate Forme Multimodale (Xavier Briffault)
-- Françoise Forest en collaboration avec Annelies Braffort : mise en relation d'un énoncé gestuel effectué à l'aide d'un gant numérique et des représentations sémantiques construites et manipulées
-- <<vers une syntaxe de l'oral >> action incitative conjointe avec le groupe TLP (Xavier Briffault, Laurence Devillers, Jean-Luc Gauvain, Gérard Sabah).
-- <<Intention et dialogue homme-machine >> (Samir Bennacef, Laurent Charnay, Laurence Devillers, Hélène Maynard, Sophie Rosset, Anne Vilnat).
--<<Serveur linguistique>> action incitative conjointe avec le groupe TLP (G. Adda, X. Briffault).
_____________________
Martine Hurault-Plantet
L'objectif de ce thème est de développer un atelier de génie linguistique, disposant d'un ensemble de modules de traitement de la langue répondant aux critères suivants :
* production des représentations syntaxique et sémantique de phrases,
* généricité et évolutivité des différents éléments -- traitements morphologique, syntaxique et sémantique -- de manière à pouvoir les utiliser séparément ou avec des modules de résolution de problèmes spécifiques dans des stratégies globales de communication homme-machine.
* mise en oeuvre en harmonie avec le modèle général développé dans le thème << architecture >>.
L'optique est donc ici de produire des outils de base réutilisables et évolutifs pour le traitement de la langue, permettant l'expérimentation et la validation informatique des hypothèses prises et des modèles développés pour la résolution de problèmes spécifiques complexes traités dans les différents thèmes du groupe.
La réalisation de ces outils étant déjà largement entreprise, nous allons détailler les options théoriques et informatiques qui ont été prises pour leur implantation, puis nous décrirons les parties réalisées. Nous précisons que les décisions concernant ces options ont été prises à un niveau plus large et qu'en particulier elles impliquent le thème Architecture.
L'architecture est conçue comme la métaphore d'un agent << cognitif >> gérant les données, les processus et la planification : plus précisément, un agent gère des treillis de types, des connaissances sur ces types (graphes de définition, graphes canonique, schémas...), un ensemble de référents, un lexique, une grammaire... qui lui sont spécifiques, ainsi que la coordination et les échanges entre les modules utilisant ces données.
Visualisation des traits, racines et conjugaisons associés au verbe << contenir >>
Il s'agit d'un langage orienté objet, qui possède l'avantage d'intégrer un outil de gestion des applications facilitant le développement en équipe et un outil de développement d'interfaces graphiques portables (Sun, PC, Macintosh, Silicon Graphics...).
Nous utilisons largement les interfaces graphiques pour accéder aux informations et faire fonctionner les outils : pouvoir visualiser les étapes de construction de l'interprétation de la phrase ou les informations concernant l'environnement d'un agent nous semble important, et une présentation graphique structurée est pour cela plus explicite qu'une présentation textuelle.
L'ensemble du système bénéficie d'une interface complète donnant accès aux différents éléments gérés par un agent. Cette interface se présente sous la forme d'un bloc-notes dont chaque page est une vue sur l'un des éléments de l'architecture interne de l'agent.
La construction des c-structures est fondée sur l'utilisation d'une table de sous-chaînes bien formées (chart parser). Celle des structures fonctionnelles se fait de façon incrémentale (Xavier Briffault, Jérome Vapillon) : un moteur d'unification a été développé à cet effet. Chaque constituant possède sa propre structure de traits. La structure de données utilisée bénéficie des avantages de la structuration orientée objet : étant réifiés, les différents composants du système (règles, structures fonctionnelles, éléments lexicaux, analyses...) peuvent faire l'objet de spécifications et de développements autonomes, être facilement spécialisés ou étendus ; leur gestion (cycle de vie ou interface) est facilitée, ainsi que leur utilisation par différents processus.
Des interfaces spécialisées intégrées ont été développées (Jérome Vapillon), conformément à nos objectifs ergonomiques, pour interagir avec les différents objets de l'analyseur (gestion des règles, du lexique sémantique -avec suivi des versions- visualisation des c- et f-structures et de la table de sous-chaînes bien formées, déroulement de l'analyse, causes d'échecs...).
Visualisation de la table des sous-chaînes, de la f-structure et du graphe conceptuel correspondant à la phrase << un chien mange une pomme >>
Visualisateur d'opérations sur les graphes conceptuels : visualisation graphique du résultat de la jointure maximale de deux graphes visualisés linéairement, et accès aux informations sur les graphes sélectionnés
L'environnement que nous avons développé inclut les outils nécessaires à la gestion et à la manipulation de graphes conceptuels, et à leur intégration dans un système de traitement de la langue (en particulier l'analyseur LFG mentionné ci-dessus).
Plus précisément, il propose :
* une architecture d'accueil, les structures de données, et les principales opérations (copie, projection, contraction/expansion, jointure...), ainsi que la gestion des bases de graphes (X. Briffault) ;
* un outil graphique d'interaction avec les graphes (M. Hurault-Plantet) ;
* un analyseur/générateur de formes linéaires (O. Ferret).
Le système développé se limite pour le moment au traitement des énoncés << bien formés << . Une extension vers l'analyse des énoncés libres (en particulier dans le domaine du dialogue oral), avec application aux dialogues d'aide à la navigation automobile (dans le cadre de la plate-forme multimodale du LIMSI), est actuellement à l'étude.
Des modèles généraux d'architecture, et en particulier des mécanismes complexes de gestion de la mémoire sont étudiés par ailleurs dans le groupe (voir thème << architecture >>). L'intégration des résultats de ces travaux devrait permettre une analyse plus efficace et plus fine en prenant en compte les contraintes liées au contexte (cognitif et situationnel).
Nous nous étions plus spécialement intéressés les années précédentes à la visualisation graphique de structures sémantiques utilisées dans les divers thèmes du groupes. Un éditeur de graphes conceptuels avait été construit en C/X Window. Traduit en Smalltalk, il est intégré dans l'ensemble des outils construits, avec une fonction supplémentaire de visualisation de l'ensemble des graphes référents dans le cas d'un concept du deuxième ordre.
Deux autres structures liées à des problèmes spécifiques pointus en traitement du langage avaient fait l'objet de visualisations / éditions graphiques particulières : il s'agit du modèle EDGAR d'entrées lexicales, munies de leurs vues conceptuelles et attributs, pour la résolution d'ambiguïtés lexicales, modèle actuellement repris et étendu par Sylvain Surcin (voir le thème << sémantique >>), et d'autre part de la représentation des informations temporelles d'un texte par un réseau de contraintes (voir le thème << raisonnements spatio-temporels >>). Ces outils graphiques vont être repris et intégrés à l'ensemble.
Nous nous proposons par ailleurs de développer une plate-forme intégratrice, permettant un accès homogène à différents outils de traitement linguistique, qu'ils soient développés au LIMSI (logiciel STK, outil d'aide à la détection de marqueurs textuels et à l'extraction de lexiques terminologiques par étiquetage de corpus, développé par Stéphane Ferrari en C, à partir de l'étiqueteur de Eric Brill et du lexique BDLex -voir double page correspondante-) ou ailleurs (INTEX du LADL).
DptCHM |
|
Sommaire
|
| Présentation |
|
---|