Indexation automatique du contenu de messages écrits guidée par un modèle du domaine - Application à la gestion de projet

_____________________

J.-P. Kotowicz, X. Briffault

Figure

Objet

Les systèmes d'information sont de plus en plus complexes et nécessitent d'accéder rapidement à des données difficiles d'accès. De plus, les acteurs de l'entreprise communiquent à propos de ces données, et il est donc important de fournir au destinataire d'un message un accès direct à ces données. Pour cela, nous avons décidé d'indexer les messages échangés par les objets dont ils parlent (notre domaine applicatif est la gestion de projet, les objets sont donc : projets, tâches, ressources...). Dans notre approche, le système d'information est modélisé par un système multi-agents (conforme aux spécifications FIPA - Foundation for Intelligent Physical Agent) qui transmet les messages via un langage de communication entre agents de type KQML (Knowledge Query and Manipulation Language) et donne un accès aux ressources du système. L'indexation va consister à retrouver les parties des messages qui référencent un ou plusieurs de ces objets en construisant une représentation sémantique du message et en recherchant les objets dont la représentation correspond à celle construite. L'intérêt de ce type d'index, outre un accès plus direct aux données, est la possibilité de rechercher a posteriori tous les messages qui traitent d'un élément donné.

Description

Nous nous limitons aux objets décrits par les groupes nominaux du message ; la première étape est donc de récupérer ces syntagmes ainsi que certaines informations linguistiques qui vont nous permettre d'en construire la représentation sémantique (un graphe conceptuel). Nous définissons un processus d'analyse complet utilisant une chaîne d'outils linguistiques développés au LIMSI : analyse morphologique (Pitrat, Brill), lexicale, syntaxique (LFG) et sémantique. À cela nous ajoutons des fonctionnalités en termes d'IHM et d'ingénierie linguistique pour pallier les différents problèmes (traitement des mots inconnus, associations mots-concepts, sélection des structures les plus pertinentes...) ainsi que des éléments spécifiquement liés au domaine (lexiques spécialisés, règles de grammaire minimales prenant en compte les expressions du domaine...). L'analyse sémantique est orientée par les données. En effet, les attributs définissant les objets du modèle vont contraindre la construction du graphe conceptuel du syntagme puisque nous ne retenons parmi les termes du message que ceux qui correspondent à un des attributs d'un des objets. Nous obtenons ainsi une représentation à la fois conforme aux objets du modèle et plus générale que celle des objets représentés. Ensuite, il ne reste qu'à sélectionner, parmi tous les objets du système d'information, ceux qui correspondent au graphe résultant de l'analyse sémantique.

Résultats et perspectives

Les résultats actuels sont satisfaisants en temps et en terme d'identification de groupe nominaux et de construction de la représentation sémantique d'un syntagme. Cependant, d'une part, nous nous limitons à des syntagmes relativement simples, et d'autre part le modèle de projet est assez restreint (80 concepts hiérarchisés sur 5 niveaux). De plus ayant construit nous-mêmes le modèle du domaine, nous n'avons que peu de problèmes d'incomplétude du lexique et des associations mot-concept. C'est pourquoi nous pensons plutôt nous diriger vers la définition d'un processus d'aide à l'analyse où le système propose les structures de représentation les plus pertinentes et où l'utilisateur intervient pour fournir les informations manquantes.

Références

[1] Briffault X., Chibout K., Sabah G., Vapillon J. : `` A Linguistic Engineering Environment using LFG and CG '', Proceedings of the LFG97 Conference University of California, San Diego, 1997.
[2] Kotowicz J.-P., Briffault X. : `` Linguistic engineering for conception of multi-agents systems '', Proceedings of the ICEIS99, Setubal, 1999.


Gpe Langage et Cognition

Dpt CHM

+ Sommaire

Présentation