_____________________
Objet
Le but de ce travail est de réaliser l'abstraction d'agrégats de représentations de situations concrètes décrites par des textes. Cela conduit à faire émerger des représentants des situations prototypiques du monde. La sémantique des représentations de textes est portée par les graphes conceptuels. Le type des représentations traitées nous a amenés a développer un algorithme de généralisation de graphes inspiré de techniques d'apprentissage automatique.
Description
Ces travaux constituent la couche supérieure du modèle MLK [1] qui mémorise les situations concrètes provenant de textes en renforçant les événements similaires. Après l'analyse d'un certain nombre de textes, la mémoire est formée d'un ensemble de représentations appelées unités thématiques agrégées (UTA) contenant, en résumé, des groupes de graphes conceptuels pondérés. On détermine si les UTAs sont suffisamment stables pour pouvoir être abstraits par le nombre d'occurrences qu'ils contiennent et par l'évaluation du degré d'émergence des graphes (c'est-à-dire que, parmi ces graphes, seuls sont inclus dans les schémas ceux qui sont pertinents pour la situation décrite). On a défini pour cela une mesure de pertinence, appelée coefficient d'émergence, qui mesure la distance du poids des graphes par rapport au poids moyen et à leur dispersion. Les graphes émergents sont ceux dont le coefficient est supérieur à un seuil choisi empiriquement. Ayant décidé d'abstraire une UTA, il est nécessaire, du fait du mode de formation de celle-ci, de généraliser certains graphes. Cela se fait en utilisant une méthode d'induction, inspirée de l'Espace des Versions de Mitchell [2], dont le biais consiste en des heuristiques. L'induction est nécessaire du fait que l'on ne dispose d'aucune connaissance pragmatique a priori. Un arbre de généralisation est développé à partir de chaque graphe émergent. Les opérations de généralisation sont la généralisation d'un concept ou d'une relation ou leur suppression. Le rôle des exemples négatifs de l'Espace des Versions est joué par les coûts associés aux opérations de généralisation. Quand plusieurs ensembles de généralisations sont trouvés, nous choisissons celui dont le coût global est le plus faible. L'explosion combinatoire liée à ce type d'algorithme est évitée grâce à l'utilisation des heuristiques que sont les coûts et par l'élagage préalable des arbres de dérivation.
La création des schémas finals est réalisée comme cela est détaillé dans [3].
Résultats et perspectives
La méthode d'induction développée est générale et peut s'utiliser avec tout graphe conceptuel. Le seul élément dépendant de la tâche est l'ensemble d'heuristiques. Le projet, réalisé en Smalltalk, s'inscrit dans un environnement existant permettant de manipuler les graphes conceptuels, les représentations de textes ainsi que la mémoire. Le tout a été validé partiellement sur une dizaine de représentations de textes construites manuellement. L'étape suivante de ce travail qui vise à s'intégrer au projet MoHA sera de développer des techniques permettant de créer automatiquement les représentations initiales pour effectuer une validation à grande échelle.
Références
[1] Ferret O. & Grau B. : <<An Aggregation Procedure for Building
Episodic Memory>>. Actes
IJCAI'97, Nagoya (Japan), 1997.
[2] Mitchell Tom M. : <<Generalization as Search>>.Artificial
Intelligence, 18(2):203-226, 1982
[3] de Chalendar G. : <<Abstraction de Schémas à partir de Situations
Agrégées>>.
Mémoire du DEA de Sciences Cognitives de l'Université Paris XI,
1997.
Gpe Langage et Cognition |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|