Indexation sémantique de documents XML
_____________________
H. Zargayouna, S. Salotti1
Objet
Les documents semi-structurés contiennent deux types d'informations: des champs (ou encore balises, on parle de meta-données) et de l'information brute (textes, des images, etc). Une recherche efficace dans ces documents doit exploiter le contenu (l'information brute) ainsi que la structure (représentée par les champs). Nous cherchons à définir une méthode d'indexation et de re-indexation de documents XML. Nous centrons nos recherches autour de l'ICT (Ingénierie de Connaissances à partir de Texte) : Traitement Automatique des Langues (TAL), Représentation de Connaissances (RC), Raisonnement à Partir de Cas (RàPC).
Description
Nous nous restreignons à l'étude de corpus spécialisés permettant l'utilisation d'une ontologie du domaine. La méthode d'indexation proposée est hybride ; elle combine l'ontologie avec une structure d'index en graphe où les noeuds sont les balises et où les feuilles sont des pointeurs vers des termes du domaine (Fig.1). Ces termes, si l'ontologie du domaine est à construire, sont extraits du texte brut par des outils de TAL et sont structurés en ontologie (Fig.2). Nous étudions particulièrement le problème de la révision de l'ontologie en fonction de l'évaluation de réponses à des requêtes par un utilisateur (ou expert) (Fig. 3) avec la possibilité de définir différents profils d'utilisateurs du corpus. Nous proposons d'exploiter des algorithmes de raisonnement à partir de cas et d'apprentissage de concepts à partir d'exemples pour la re-indexation et la recherche. Ces algorithmes utilisés dans [Zargayouna, 2001], reposent essentiellement sur la notion de similarité. Une mesure de similarité est efficace si elle permet d'identifier :
Nous définissons un cadre d'évaluation de nos propositions, en précisant les requêtes types, le corpus (base documentaire, ontologie du domaine, thésaurus, etc). Nous nous orientons vers le domaine médical, nous pourrons ainsi profiter des corpus qui ont déjà servi à plusieurs études (Menelas par exemple). Nous travaillons actuellement avec une représentation formelle de l'ontologie en Logique de Description (LD). Une première représentation de la similarité que nous utilisons consiste à calculer le concept le plus spécifique qui subsume deux concepts donnés : c'est le Plus Petit Généralisant [Salotti et Ventos, 1999] (PPG). Cette mesure pourra être réévaluée suite au retour de l'expert.
Résultats et perspectives
Notre thème de recherche se situe dans la problématique de l'indexation et de la recherche d'information. La méthode d'indexation que nous définissons permet une recherche plus précise qu'une recherche dite classique (recherche par mots clefs par exemple) car elle combine à la fois la structure du document et son contenu. L'utilisation d'une ontologie permet une recherche de plus haut niveau. L'adaptation par apprentissage de cette ontologie au modèle cognitif de l'utilisateur permet de personnaliser la recherche. Nous envisageons de définir par les expérimentations le type de représentation formelle ainsi que la similarité qui seraient plus adéquats à notre application.
Références
[1] S. Salotti et V. Ventos : "Une approche formelle du
raisonnement à partir de cas dans une logique de descriptions".
Revue d'Intelligence Artificielle, vol. 13, pp 37-72, 1999.
[2] H. Zarg Ayouna : "Raisonnement par similarité pour l'aide à l'indexation et
la recherche des documents multimédia".
Rapport interne LIMSI, 2001-12, 2001.
--------------
1 LIPN, Université Paris-Nord
Groupe AMI |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|
visiteurs.