LANGUES, INFORMATION ET REPRÉSENTATIONS
Thème 1 : Connaissances et
raisonnement
Thème 2 : Documents : indexation, structuration et classification
Thème 3:
Processus d'analyse, génération et dialogue
Action fédératrice :
Question-réponse
Relations extérieures
INTRODUCTION
Le groupe Langues, Information et Représentations (LIR) est essentiellement tourné vers le traitement des données écrites, leur analyse, leur compréhension ou leur génération. Toutefois, les thématiques abordées et la participation à des projets pluri-disciplinaires internes au laboratoire (Actions Incitatives ou Action Sur Programme), à l'Université (Financements Bonus Qualité Recherche) ou nationaux et internationaux, nous ont amenés à travailler sur des données issues de modalités différentes comme des retranscriptions écrites de corpus oraux ou des données géographiques ou spatiales. Le concept de document prend une place croissante avec toutes les informations d'encodage qui l'accompagnent (métadonnées, balises, annotations). Il ouvre naturellement la voie à l'accès intelligent et fin à l'information sur des données locales ou sur les réseaux.
L'activité du groupe consiste à développer de nouvelles techniques d'analyse ou de génération, à développer les programmes qui les implantent et à construire de façon plus ou moins automatique les données qui les alimentent : lexiques, dictionnaires, bases morphologiques et sémantiques, grammaires ou patrons d'extraction d'information. Les outils et les données produits par le groupe LIR trouvent des applications dans de nombreux domaines de la Communication Homme Machine. Les multiples relations nationales et internationales du groupe, les publications de haut niveau qui y sont réalisées, et les projets dans lesquels nous sommes impliqués témoignent de sa vitalité et de l'intérêt de la communauté scientifique pour les activités qui y sont développées.
Sur le plan des cibles applicatives, un effort important a été fait pour construire un système de question-réponse pour des grandes bases documentaires. Par une participation annuelle à la campagne d'évaluation TREC, le groupe s'est progressivement doté d'une chaîne complète intégrant des applications préexistantes enrichies de modules spécifiques. Cette cible applicative convergente permet la mutualisation de ressources logicielles et de leurs données associées. Elle permet également la valorisation réciproque d'outils complémentaires. Enfin, elle dote le groupe LIR d'une plate-forme de démonstration et d'expérimentation.
Le groupe LIR se décompose en trois thèmes complémetaires pour construire des ressources pour le traitement automatique des langues, pour collecter, organiser et apprêter les données textuelles, et pour définir leurs procédés de traitement.
Avant d'envisager toute procédure de traitement automatique d'un texte, il est nécessaire de constituer des ressources qui alimenteront les programmes. Ces ressources sont des bases de connaissances composées de données sémantiques (par exemple des concepts et les liens qu'ils entretiennent ou des prédicats verbaux et leurs patrons de sous-catégorisation), morphologiques ou syntaxiques. Ce sont également des modèles formels permettant d'encoder des informations telles que des données temporelles ou spatiales et de les exploiter dans des raisonnements. Ces modèles de représentation et de gestion des connaissances sont développés dans le cadre du thème Connaissances et raisonnement.
La cible des recherches menées dans le groupe LIR est l'analyse et la compréhension de données textuelles. Afin de faciliter le traitement des textes, il est nécessaire de segmenter ces données et de les organiser en fonction de leur type et de leurs caractéristiques. La notion de document est au coeur de cette organisation. Les documents sont à la fois des unités d'information et un espace d'annotation et de structuration des textes. Les textes sont structurés en fonction du type des différents éléments qui les composent, depuis le caractère jusqu'aux segments rhétoriques. Les documents sont typés au moyen de traits ou catégories issues de traitements statistiques. Le thème Documents : indexation, structuration et classification considérant le texte comme une unité d'information se trouve à la frontière entre accès à l'information et traitement automatique de la langue.
Les données textuelles ainsi constituées et les bases de connaissances formelles ou linguistiques sont prêtes à être exploitées dans des procédures d'analyse visant à en extraire le sens. Les analyses textuelles sont de plus en plus spécialisées quant à leur cible puisque les techniques de classification permettent d'assigner des catégories aux documents. Elles sont également spécialisées par leur fonction (indexation, analyse superficielle, compréhension, extraction d'information...). D'autres procédures automatiques sont développées pour la génération de texte et pour le dialogue. Ces dernières complètent l'analyse dans le cadre d'interface entre l'homme et la machine en permettant la production de réponses à des interactions langagières. Les modèles de dialogues aident à suivre des échanges interactifs, à représenter les plans suivis par les interlocuteurs qu'ils soient humains ou informatiques. Le thème Processus d'analyse, génération et dialogue est centré sur la communication entre l'homme et la machine.
Les trois thèmes sont développés dans la suite de cette présentation du groupe LIR.
THÈME 1 : CONNAISSANCES ET RAISONNEMENT
G. Ligozat, G. de Chalendar, J.-F. Condotta, G. Cotteret, O. Ferret, B. Grau, V.
Maya, E. Przytula-Machrouh, A. Vilnat, M. Zock
Les recherches du thème se situent à l'intersection de l'intelligence artificielle et du traitement de la langue. Elles portent sur l'extraction, la représentation et l'utilisation de connaissances dans les activités complexes que sont l'apprentissage et le raisonnement sur des données spatiales ou temporelles.
Le développement de systèmes de traitement de la langue implique la modélisation et l'utilisation de connaissances ; selon le type d'application visé, ou le type de compréhension étudié, ces connaissances seront de nature différente, c'est-à-dire de type sémantique ou pragmatique, et de niveaux de structuration et de granularité différents. Les études menées dans ce thème visent à acquérir automatiquement certaines de ces connaissances en exploitant des sources largement disponibles : des textes. Nos travaux concernent l'apprentissage de catégories sémantiques, propres à un domaine de spécialité ou non, et de descriptions de situations concrètes. Ces connaissances étant acquises à partir de textes, leur niveau de structuration et de granularité est lié au degré d'élaboration des processus d'analyses utilisés. Les types d'apprentissage mis en oeuvre en découlent aussi :
Ces travaux s'intègrent dans le modèle plus général MoHA, visant à associer apprentissage et compréhension et à rendre compte de leurs interactions via la définition d'une mémoire à long terme permettant de relier les différents types de connaissances.
Les graphes conceptuels constituent un formalisme logique qui permet la description des données sémantiques et le raisonnement pour en déduire de nouvelles valeurs dans des cas de composition. Dans ce cadre, une représentation manuelle des verbes a été réalisée à grande échelle. Elle est fondée sur des observations de dictionnaires, des analyses de corpus de dialogues et des principes de psycholinguistique. Une présentation hiérarchique rend compte des différents sens d'un verbe. Elle a permis d'établir des algorithmes de compréhension des sens proches et métaphoriques, leur codage est en voie de réalisation. Par ailleurs, une grande base de connaissances sémantiques est en cours de constitution à partir de ressources existantes (lexiques de synonymes) afin de réaliser un analyseur sémantique robuste (voir thème 3). Nous travaillons également sur l'accès lexical (simulation du processus cognitif et aide à l'utilisateur lorsqu'il cherche un mot), à la fois sous l'angle linguistique, forme des mots, et sémantique, associations créées en entendant un mot. Cette recherche se fait en collaboration avec des travaux menés en correction orthographique.
L'objectif central est ici de développer des formalismes aptes à représenter les connaissances sur le temps et l'espace qui sont utilisées par les humains dans leurs activités courantes, et en particulier dans leur usage du langage. Il s'agit donc à la fois de concevoir des formalismes, d'étudier leurs propriétés (et en particulier la possibilité de leur mise en oeuvre informatique), d'évaluer leur aptitude à être utilisés dans des tâches particulières, et d'en réaliser et de tester des implantations effectives.
Formalismes temporels et spatiaux. Les intervalles généralisés, introduits pour le raisonnement temporel en 1990, ont été utilisés comme noyau de représentation temporelle dans plusieurs projets récents (représentation de la causalité, génération d'images fixes). Les notions introduites pour leur étude (préconvexité) ont été reprises dans le cadre d'autres contextes et ont permis de montrer des résultats de complexité (existence de classes polynomiales dans de nombreux contextes). Dans le domaine théorique, les efforts actuels se concentrent sur l'élaboration de concepts et la mise au point de techniques applicables à des classes entières de formalismes plutôt qu'à des formalismes particuliers, ainsi que sur l'utilisation de formalismes logiques (logiques modales) pour le raisonnement spatial.
Descriptions d'itinéraires. À la suite des travaux d'Agnès Gryl sur la description d'itinéraires, de Lydia Fraczak sur l'analyse conceptuelle des descriptions langagières et leur génération et de Jacek Marciniak pour le guidage de robots par des indications, sont développées des études sur la visualisation et la génération d'itinéraires dans les systèmes d'information géographique. La thèse de Vincent Maya propose une méthodologie générale de constitution d'une interface entre langue naturelle et base de données géographiques.
THÈME 2 : DOCUMENTS : INDEXATION, STRUCTURATION
ET CLASSIFICATION
B. Habert, G. de Chalendar, N. Gala Pavia, B. Grau, N. Hernandez, M. Hurault-Plantet,
G. Illouz, C. Jacquemin, M. Jardino, E. Le Roux, L. Monceaux
Le travail sur le document constitue, depuis quatre ans, un des thèmes de travail du groupe LIR. Il est structuré autour de quatre axes : visualisation de documents textuels ; analyse thématique ; profilage de documents ; adaptation des traitements aux types de documents. Deux traits réunissent ces axes : l'utilisation de documents annotés, au plan morpho-syntaxique mais aussi sémantique ; la structuration des documents (thèmes, organisation hiérarchique, regroupements en types). La recherche des réponses à des questions est une action transversale du groupe, qui enrichit le travail sur ce thème.
Des techniques d'indexation flexible et structurée sont développées à partir d'analyseurs de langues naturelles. Associées à des algorithmes de classification non supervisée, elles servent à construire des représentations visuelles des documents pour l'accès à l'information textuelle.
Les processus développés sont : 1) une segmentation thématique (découpage d'un texte en différents passages) reposant sur la répétition et la distribution des mots dans un texte (vector space model) pour des articles scientifiques (Cette méthode a également été utilisée pour le résumé (Masson 1998)) ; 2) l'enrichissement de cette segmentation par un réseau de collocations (pour des articles de journaux) (Ferret et al. 1998) ; 3) une segmentation thématique reposant sur la cohésion lexicale, en fonction d'un réseau de collocations (articles de journaux) et permettant l'apprentissage automatique de signatures thématiques (Ferret et Grau 1998) ; 4) l'identification et le suivi de thèmes par des signatures thématiques apprises (Ferret et Grau 2000).
Le profilage de textes utilise un traitement statistique multidimensionnel d'indices linguistiques (emploi du vocabulaire, de catégories morpho-syntaxiques, syntaxiques, sémantiques, structurelles et de patrons morpho-syntaxiques...) dans les parties d'un corpus multiplement annoté, pour regrouper ensuite ces parties en sous-ensembles homogènes sur ces points (Habert et al. 2000). Un environnement de profilage est en cours de développement (étiquetage, transformation des traits issus de l'étiquetage en traits pertinents pour le typage, passage à des vecteurs de traits, traitements statistiques) (Folch et al. 2000).
L'efficacité plus ou moins grande des traitements, par exemple des étiqueteurs (Illouz 1999), de l'analyse syntaxique (Sekine 1997) et de la recherche d'information (Karlgren 1999), dépend en particulier du style des textes, c'est-à-dire de la manière dont ils sont écrits. Des dispositifs sont développés pour obtenir des ensembles homogènes de données textuelles par le style (Illouz 2000) et ainsi améliorer les traitements automatiques, en les spécialisant par apprentissage sur ces ensembles.
THÈME 3 : PROCESSUS D'ANALYSE,
GÉNÉRATION ET DIALOGUE
A. Vilnat, C. Balkanski, J.-B. Berthelin, G. de Chalendar, Y. Girard,
N. Gala Pavia, M. Hurault-Plantet, L. Monceaux, I. Robba, M. Zock
Le dialogue homme-machine constitue le centre des activités de ce thème. Lui sont associés des processus
d'analyse (pour comprendre les entrées) et de génération (pour engendrer les sorties).
Ces activités d'analyse sont également développées pour la
compréhension de textes.
Analyse et génération Plusieurs études sont en cours pour obtenir des analyses syntaxiques et sémantiques robustes. Un premier travail (contrat CIFRE avec Xerox) concerne le développement d'un analyseur syntaxique robuste capable de traiter avec une haute précision (au moins 96%) des corpus variés contenant des phénomènes très hétérogènes (corpus journalistiques, transcriptions de l'oral, rapports scientifiques divers, manuels techniques). Pour en tenir compte, une architecture modulaire effectue l'analyse en deux étapes (noyau puis phénomènes spécifiques) et ajoute des fonctionnalités d'apprentissage.
Le second a pour point de départ les résultats d'un analyseur partiel et robuste (plusieurs ont été testés) et propose de compléter ces résultats partiels pour fournir une représentation sémantique sous la forme d'un ou plusieurs graphes conceptuels. La difficulté est de voir comment constituer ou réutiliser des bases de connaissances sémantiques suffisamment larges pour toujours permettre de dériver les connaissances nécessaires à l'analyse et ainsi lui conserver son caractère robuste.
Nous avons également testé les résultats obtenus en utilisant des analyseurs syntaxiques (Sylex pour le français, Link Parser pour l'anglais) dans une tâche d'acquisition sémantique. Nous souhaitons regrouper ces expertises d'utilisation et de développement d'analyseurs robustes pour la réalisation de processus tels que la compréhension de textes et le dialogue homme-machine.
L'activité de génération est centrée sur l'élaboration d'un outil d'aide à la rédaction. Pour engendrer un texte, une étape préalable est d'en planifier la structure. La question est de savoir sur la base de quelles connaissances un rédacteur est capable de découvrir et d'expliciter des liens entre des idées qui, au départ, n'étaient qu'une suite d'éléments isolés. Nos réflexions nous ont amenés à émettre l'hypothèse que la structure définitive d'un texte n'est pas donnée d'avance, mais construite dynamiquement, et qu'il y a une interaction entre le contenu du message et son organisation. C'est cet aspect dynamique que nous voulons incorporer dans notre outil d'aide à la rédaction.
Dialogue et annotation Nous avons développé un modèle de dialogue qui repose sur la théorie du discours et des plans partagés de Grosz et Sidner et des extensions apportées par Lochbaum. Le but est de permettre la modélisation de situations où la collaboration entre agents pour la réalisation d'une tâche commune est essentielle. Il faut pour cela modéliser l'ensemble des croyances et des intentions que les agents d'un dialogue doivent avoir pour que leur collaboration puisse réaliser leur but commun. Nous nous sommes plus particulièrement intéressés à la génération des réponses de l'agent modélisé ainsi qu'à la planification nécessaire en amont. Un algorithme d'avancement dans la tâche permet à l'agent modélisé de déterminer quand il doit exécuter une action, planifier de nouvelles actions, ou produire un énoncé, suivant des règles liées à l'état des différentes actions du plan. La modélisation des croyances permet l'établissement et la mise à jour des croyances individuelles ainsi que des croyances communes aux agents du dialogue.
Afin d'améliorer l'interaction, nous avons également développé un modèle fondé sur la représentation dynamique de la structure d'un dialogue, en analysant à la fois l'intention communicative (liée à la fonction d'un énoncé) et l'intention informative (reposant sur les relations thématiques entre énoncés) véhiculées par les interventions des interlocuteurs. Ce modèle nous permet d'observer les stratégies suivies par les interlocuteurs et d'influer sur les stratégies à adopter par un système, de façon à prévenir les risques d'incompréhension.
Nous avons ainsi annoté, puis évalué plusieurs corpus de dialogues. De leur étude parallèle, on a tiré
l'observation d'invariants. Ainsi, à chaque difficulté correspondent des stratégies (humaines) de réparation.
Ces aptitudes au rattrapage se déclinent sur un certain nombre de dimensions de l'interaction, auxquelles
nous faisons correspondre des «observateurs» élémentaires, chargés de détecter les phénomènes, et des
«inspecteurs» qui décident de la suite à leur donner.
Perspectives d'avenir Les activités que nous menons autour de l'analyse trouvent une application immédiate dans le système de Questions-Réponses développé dans le groupe LIR. Cette activité, tournée jusqu'ici plutôt vers la syntaxe, va se poursuivre en tentant d'intégrer également la sémantique, et des éléments de pragmatique dans les applications de dialogue. Nous allons également nous intéresser à la gestion de questions enchaînées ouverte dans le cadre des évaluations TREC. Il s'agit de trouver alors des réponses à des séries de questions liées thématiquement. Nous pourrons ainsi progressivement appliquer des idées restées jusqu'ici dans un cadre plutôt ;SPMlt;;SPMlt;d'application-jouet;SPMgt;;SPMgt;. Parallèlement, nous continuons à mener des recherches à plus long terme à la fois dans le domaine de la planification et dans celui de la modélisation des dialogues, dans le but d'intégrer les travaux menés sur ces deux thématiques.
ACTION
FÉDÉRATRICE : QUESTION-RÉPONSE
B. Grau, J.-B. Berthelin, G. de Chalendar, O. Ferret, M. Hurault-Plantet,
G. Illouz, C. Jacquemin, L. Monceaux, I. Robba, A. Vilnat
Les systèmes de recherche d'information, pour être vraiment utilisables, doivent être capables de répondre à des besoins précis en matière d'information. En effet, face à une question telle que ;SPMlt;;SPMlt;Quelle est la voiture la plus chère du monde ?;SPMgt;;SPMgt;, les moteurs de recherche traditionnels renvoient tous les documents où figurent les mots de la question et c'est l'utilisateur qui doit explorer ces documents afin de trouver la réponse. Répondre à des questions précises requiert une analyse plus en profondeur des documents afin d'en extraire l'information pertinente. À cette fin, nous avons développé le système QALC qui allie des techniques issues de la recherche d'information et du traitement automatique des langues (cf page de présentation pour une description détaillée).
Depuis trois ans, le système QALC participe à la tâche Question Answering de la conférence d'évaluation TREC (Text REtrieval Conference). La tâche est modifiée chaque année, en évoluant vers des réponses plus précises, ou d'une autre forme comme les réponses sous forme de liste ou en contexte. Cette participation nous permet en plus d'accéder à des corpus et des outils d'évaluation, fournis par TREC, que nous utilisons pour améliorer le système.
QALC offre une plate-forme de développement et de test pour le groupe, et constitue un cadre d'application privilégié des travaux qui y sont menés. Ces travaux portent sur :
PERSPECTIVES
Le groupe LIR, dont la majeure partie était issue du groupe Langage et Cognition, entame sa deuxième année d'activité. La responsabilité en est assurée successivement par Michèle Jardino et Christian Jacquemin. Michèle Jardino a joué un rôle important dans la mise en place du groupe LIR au cours de l'année 2001 pour la définition des thématiques et des activités de ce nouveau groupe.
Les travaux de recherche se sont orientés vers des applications en vraie grandeur et sur la mise en relation de modules développés dans les différents thèmes. La participation aux évaluations TREC a permis de tester les outils et les méthodes développées dans le groupe dans le cadre d'une compétition internationale. Dans le futur, le groupe poursuivra son effort de développement d'environnements intégrés servant de démonstrateur des technologies que nous développons et de support d'intégration.
L'autre piste de recherche importante pour le groupe est la combinaison de recherches sur le traitement automatique des langues avec des travaux sur d'autres modalités, en particulier l'image et la parole. Ces activités sont orientées aussi bien vers l'analyse, par exemple l'indexation de documents audios avec l'aide de ressources textuelles, que vers la génération, par exemple la réalisation de modèles géométriques 3D pour la visualisation d'informations textuelles.
La bonne cohérence des activités développées dans LIR, leur complémentarité, l'apport de nouvelles forces avec le recrutement de Jean-François Condotta en 2001, ont montré que cette mise en place a été une réussite.
L'ouverture à des travaux sur des modalités complémentaires (parole, image, données spatiales...) permettra au groupe de prendre une place au sein du projet de Réalité Virtuelle VENISE et de participer à des projets pouvant s'insérer, par exemple, dans le cadre du Pôle Commun de Recherche en Informatique qui se met en place sur le Plateau de Saclay.
Enseignement et diffusion des connaissances
DEA de Sciences Cognitives et DEA I3 de Paris XI, enseignement d'Informatique Linguistique dans diverses écoles d'ingénieurs (EPITA, ECE, etc).
Co-responsabilité du DEA de Sciences Cognitives de l'UPS.
Responsabilité du module Informatique du DEA de Sciences Cognitives, et co-responsabilité de l'option Dialogue commune entre le DEA de Sciences Cognitives et le DEA I3.
Responsabilité des DESS d'Informatique de l'Université Paris Sud
(Systèmes et Communication Homme Machine et Ingénierie
Informatique).
Responsabilités universitaires
Un membre élu au Conseil Scientifique de l'Université Paris-Sud.
Depuis juillet 2001 : responsabilité de la Commission de la Pédagogie 3ème cycle de l'UPS.
Un membre du Conseil du Département Informatique, un membre au
Bureau du Département Informatique, un membre élu au Département
Recherche du Département Informatique, deux membres suppléants de
la CSE 27ème section de L'UPS.
Relations Nationales
ATILF, ex-INaLF et LANDISCO, (Nancy), CAMS (Paris 4), CEA
(Orsay), INA, IRIN (Nantes), IRIT (Toulouse), LIA (Avignon), Lille 3,
LORIA (Nancy), LIP6 (Paris 6), PRC-I3, XRCE (Grenoble), CNRS-ILF,
Maison des Sciences de l'Homme à Paris.
Conventions de recherche et contrats
Trois projets MENRT (une action blanche et deux projets cognitiques), deux projets RNRT et plusieurs actions au niveau national (action Bio-Informatique, TyPWeb).
MORTAL Constitution d'une base morphologique pour le français contemporain (Action Blanche MENRT -- avec Lille~III, Nancy~II et ERSS)~; Cognition spatiale, structures spacio-linguistiques du texte (action Cognitique MENRT -- avec Toulouse-le-Mirail, Université de Nice et IRIT)~; Outiller les Alliances (projet RNRT -- avec la Fondation pour le Progrès de l'Homme, Xerox Research Center Europe et LIP6).
Modèle pour l'exploration sémantique de texte orientée par les points de vue du lecteur (projet cognitique MENRT -- avec équipe LaLIC du CAMS, UMR LATTICE, CEA / DIST).
TyPWeb sur la typologie des sites Web professionnels et personnels (avec France Télécom, Paris~III et Paris~X).
Action Spécifique CNRS "Interaction Langagière et Apprentissage"
(ASILA).
Relations internationales
Bell Labs, Lucent Technologies (USA), Université Chiao-Tung
(Taiwan), Université Columbia (N.Y.,USA), Université Laval
(Québec), A. Mickiewicz (Pologne), NACSIS (Japon) et Université
Pompeu Fabra (Espagne).
Actions au niveau international (GEOIDE, POLONIUM, PAPILLON).