_____________________
Objet
L'objet de ce travail est de montrer comment une tâche d'analyse de textes, en l'occurrence de nature thématique, peut être abordée avec différents niveaux de connaissances et comment la coopération entre analyse et apprentissage permet de passer progressivement de niveaux de connaissances peu élaborés vers des niveaux plus structurés.
Description
Le système ANTHAPSI est une tentative pour marier l'analyse thématique et l'apprentissage de connaissances sur les situations prototypiques du monde en exploitant la notion d'amorçage. Cette association repose sur un modèle de mémoire spécifique [1] qui réalise le trait d'union entre ces deux dimensions. D'un côté, il fournit à l'analyse thématique les connaissances qui lui sont nécessaires afin de segmenter les textes en unités thématiquement homogènes, appelées Unités Thématiques (UTs). Une UT est plus précisément la représentation que l'on peut construire d'une situation à partir de son évocation par un texte. De l'autre, il recueille les connaissances qui sont produites par le processus d'apprentissage qui opère à partir des UTs construites par l'analyse thématique. Il s'agit d'un apprentissage de type regroupement conceptuel dans lequel des UTs similaires sont agrégées pour former des UTs agrégées. Au sein de celles-ci, les composants identiques sont fusionnés et un poids leur est attribué en fonction de leur degré de récurrence dans les différentes UTs regroupées. L'analyse thématique reposant sur ces UTs agrégées, il y a identité entre connaissances apprises et connaissances utilisées. Cette boucle offre ainsi la possibilité d'étendre un noyau initial de connaissances à l'aide des informations contenues dans les textes sans se limiter à la simple spécialisation de ce noyau, comme souvent dans le cadre de l'apprentissage de connaissances pragmatiques. Il s'agit là de la première forme d'amorçage mise en oeuvre dans ANTHAPSI. Celui-ci explore également la façon dont ce noyau initial peut être constitué à partir d'un niveau de connaissances moins élaborées. ANTHAPSI est formé de deux composantes fonctionnellement similaires. MLK applique les principes exposés ci-dessus en s'appuyant sur une représentation sémantique des propositions des textes sous forme de graphes conceptuels tandis que ROSA se contente de les mettre en oeuvre en restant au niveau des mots. Ce dernier module travaille de fait à partir des résultats d'un étiqueteur morpho-syntaxique. Le second type d'amorçage caractérisant ANTHAPSI définit comment la dimension thématique de ROSA contribue au démarrage de la dimension thématique de MLK en lui fournissant des capacités d'analyse minimales. Celles-ci permettent à MLK de construire ses premières UTs, lesquelles, même si elles sont dans un premier temps imparfaites, peuvent ensuite être exploitées par le processus d'analyse de MLK. À mesure que des textes sur le domaine considéré sont ainsi traités, des UTs agrégées de plus en plus sûres sont formées et un passage de relais s'opère naturellement de ROSA vers MLK. Il est à noter que cette démarche s'applique récursivement puisqu'au sein de ROSA, SEGCOHLEX [2], qui n'utilise comme connaissance qu'un réseau de cooccurrences lexicales, permet également d'amorcer de façon similaire SEGAPSITH, qui travaille comme MLK en utilisant des UTs, formées dans ce cas non pas de graphes conceptuels mais de simples mots.
Résultats et perspectives
Les différentes composantes d'ANTHAPSI ont été implantées en Smalltalk en s'appuyant sur des outils externes existants pour le pré-traitement morpho-syntaxique des textes dans ROSA. L'amorçage de SEGAPSITH par SEGCOHLEX est opérationnel. Celui entre ROSA et MLK doit encore être validé par l'utilisation d'une analyse sémantique véritablement automatique.
Références
[1] Ferret O. and Grau B. : <<An episodic memory for
understanding and learning>>. Recent Advances
in Natural Language Processing, édité par R. Mitkov et N. Nicolov,
1997.
[2] Ferret O. et Grau B. : <<A Thematic Segmentation Procedure for Extracting Semantic Domains from
Texts>>. Soumis à ECAI98, 1998.
Gpe Langage et Cognition |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|