La structuration thématique au service de la consultation rapide de documents

_____________________

N. Masson

Figure

Objet

La masse grandissante de textes numérisés en circulation impose de mettre en oeuvre des stratégies de consultation rapide de documents. Pour ce faire, nous avons travaillé sur l'automatisation du résumé de texte [1]. Nous montrons ici comment la prise en considération d'un processus automatique de structuration thématique de texte [1,2] permet de contrôler la cohérence et la concision des extraits produits.

Description

D'une part, nous avons travaillé sur l'automatisation de processus de résumé que l'on peut qualifier de << statiques >> (c'est-à-dire que le système est capable de produire un ou plusieurs résumés, en appliquant au texte source un ensemble de règles et de stratégies figées) et d'autre part, nous avons envisagé le résumé comme une tâche concertée entre l'utilisateur et le système. Dans ce dernier cas, les stratégies et les règles appliquées ne sont plus figées mais << dynamiques >>, c'est-à-dire qu'elles sont choisies selon les actions de l'utilisateur. Quel que soit le mode choisi, les processus n'utilisent pas de connaissances sur les domaines abordés par les textes (qui sont du type vulgarisation scientifique) et les extraits à valeur de résumés sont constitués par extraction de phrases du texte source sur la base du repérage de certaines marques linguistiques de surface.

Lors de la production de résumés << statiques >>, il faut être capable de contrôler la concision des extraits produits. Pour un résumé court, le système privilégie la sélection d'éléments se rapportant au thème général du texte et le moins possible d'éléments liés aux développements spécifiques d'un point particulier mineur. Les éléments généraux sont trouvés dans les développements de faible imbrication (voir figure 1) alors que les éléments spécifiques sont trouvés dans les développements très imbriqués. Pour engendrer un résumé long destiné à remplacer le texte source, le système sélectionne des éléments dans tous les développements. Par ailleurs, le résumé produit doit être cohérent, c'est-à-dire que les éléments apparaissant comme thématiquement liés dans le résumé doivent effectivement l'être dans le texte source. Par exemple, le système doit percevoir si une présentation d'expérience et une conclusion sont liées à la même expérience ou non. En s'appuyant sur le fait que ces deux éléments appartiennent au même bloc thématique, le système d'extraction de phrases peut contrôler si ces deux éléments sont effectivement liés.

En ce qui concerne la production << dynamique >> de résumés en interaction avec un utilisateur, nous voulons que le système présente à l'utilisateur tout ou partie des éléments du texte source se rapportant à un même sujet. Cet objectif est atteint par la sélection des éléments qui appartiennent à un même bloc thématique, même s'ils ne sont pas contigus dans le texte, du fait de la présence de blocs imbriqués.

Résultats et perspectives

L'utilisation des processus de structuration thématique a été spécifiée sous forme de règles pour la production de résumés << statiques >>. Les perspectives actuelles s'orientent sur des développements liés à la consultation interactive de documents et à la navigation hypertexte.

Références

[1] Masson, N. : << Méthodes pour une génération variable de résumés automatique : vers un système de réduction de texte >>, Thèse de Doctorat en Sciences Cognitives de l'Université Paris-Sud Orsay, 1998.
[2] Masson, N. : << Structuration thématique de texte >>, page de présentation, rapport scientifique du LIMSI-CNRS, 1999.

Gpe Langage et Cognition

Dpt CHM

+ Sommaire

Présentation