UN SYSTÈME POUR LE RÉSUMÉ AUTOMATIQUE DE TEXTES

_____________________

N. MASSON

Figure

Objet

Ces dernières années, nous avons assisté à une véritable explosion de la diffusion d'informations par les réseaux informatiques. De manière à en faciliter la lecture, nous sommes en train de développer un système de résumé automatique de textes. Notre but est de traiter des textes de vulgarisation scientifique de n'importe quel domaine, du type de ceux que l'on peut rencontrer dans la revue Pour la Science. Cette contrainte d'indépendance du domaine nous a amené à concevoir un système travaillant sans connaissances sur le domaine en utilisant une méthode d'analyse de textes orientée par la tâche.

Contenu

A propos de l'analyse de textes, nous faisons le postulat suivant : l'auteur veut se faire comprendre, il fait donc en sorte que l'effort cognitif du lecteur soit le plus faible possible (principe d'économie cognitive) Comment ? En utilisant une forme d'argumentation qui permet de suivre la logique des arguments développés. En balisant le texte d'indices de surface qui aident à sélectionner des groupes de macropropositions (ou phrases) importantes pour la compréhension et quant au contenu informationnel du texte. En utilisant un modèle de texte partagé conjointement par l'auteur et le lecteur, c'est-à-dire que la structure du texte est déterminée par la fonction communicative qu'elle doit servir. Il dérive de cela que l'on considère que la sémantique d'un texte est portée, d'une part, par le contenu même du texte (le signifiant), mais aussi par un ensemble de marques et phénomènes de surface (le signifié).

En conséquence, notre approche porte sur la recherche, l'analyse et la formalisation des phénomènes de surface du texte qui permettent d'en construire une représentation à partir de laquelle on pourra engendrer des résumés [1]. Nous proposons alors un système de résumé automatique constitué de deux modules : un pour la structuration du texte, l'autre pour la génération de résumés. La structuration se fait en trois phases.

Une première phase qui consiste à dégager les grands développements thématiques contenu dans le texte. La méthode est fondée sur une analyse statistique de la distribution des occurrences nominales inspirée des techniques de recherche automatique d'informations.

La deuxième phase consiste à dégager des groupes de phrases ou de paragraphes reliés qui constituent des sous-développements à l'intérieur des grands développements. La présence de liaisons est conditionnée par le repérage et l'analyse de marques de surfaces telles que les relateurs de phrases, les marques argumentatives, les portées temporelles...(voir Fig. 1)

La troisième phase est la mise en relation des différentes phrases et groupes de phrases par détermination de liens typés. Ces relations ou liens typés sont du type conclusion, illustration, cause et reflètent le rôle qu'ont les différents éléments les uns par rapport aux autres. Nous avons développé un modèle linguistique d'analyse fondé sur la détection d'indices lexicaux tels que des connecteurs (e.g. donc), des expressions variables (e.g. groupe prépositionnels antéposés) ou invariables (e.g. en conclusion), verbes (e.g. introduire). (voir Fig. 2)

Le second module engendre des résumés en sélectionant puis en extrayant des phrases de la représentation structurée du texte préalablement obtenue (voir Fig. 2). Notre but et d'engendrer plusieurs résumés différents par texte (résumé de type indicatifs, informatif, "résultats") pour répondre au mieux aux attentes de l'utilisateur. Pour chaque type de résumé nous avons déterminé un ensemble d'heuristiques de sélection (définies sous forme de règles), chaque ensemble contenant environ une vingtaine de règles. Les phrases sélectionées sont engendrées sous la forme d'un texte (voir Fig. 3).

Situation

La mise en oeuvre informatique du système est en cours . L'analyse morphologique et la détection des marques devraient, à terme, être implantées grâce au système INTEX. Le système à base de règles sera implanté dans un environnement Smalltalk.

Références

(1) N. Masson : "An Automatic Method for Document Structuring". Proccedings of the 18th Annual International ACM-SIGIR Conference on Research and Developement in Information Retrieval . Seattle, WA, USA . July 9-13 1995 . pp. 372-373 . 1995.

Gpe Langage et Cognition

DptCHM

+ Sommaire

Présentation