Collecte et analyse de documents semi-structurés : application à l'acquisition d'entités nommées sur Internet

_____________________

C. Jacquemin , C. Bush

Figure

Objet

Les ressources accessibles sur Internet constituent un gisement de connaissances sur des domaines multiples et en constant renouvellement. Ces données ont deux caractéristiques essentielles : (1) elles ne sont accessibles que par des liens avec d'autres documents ou par des moteurs de recherche et (2) elles sont plus fortement structurées que les corpus journalistiques ou scientifiques fréquemment utilisés en linguistique de corpus. Nous présentons ici une technique d'acquisition de connaissances à partir de textes sur Internet qui collecte les documents au moyen de requêtes sur des moteurs de recherche et qui les analyse en combinant des indices linguistiques et structuraux.

Description

Les noms propres sont des données lexicales trop volumineuses pour être acquises une fois pour toutes. L'ensemble des noms de famille de la planète ne peut pas être stocké dans un dictionnaire électronique pour le traitement automatique des langues. En revanche, il est nécessaire de connaître, pour chaque application, la partie active de ces données. Afin de mettre à jour régulièrement les noms propres qui apparaissent dans les corpus étudiés sous la pression des événements et de leur médiatisation, nous proposons un système composé d'un moissonneur collectant des corpus supposés contenir des noms propres d'un type particulier et un ensemble d'analyseurs superficiels extrayant les noms propres de ces corpus (figure 1).

Le moissonneur s'appuie sur une requête composée d'une classe de noms propres et d'un marqueur linguistique telles que la liste des universités ou les universités suivantes pour retrouver des pages qui contiennent une collection de noms propres. Ce travail prolonge, dans le cas de corpus de documents structurés, l'acquisition de relations hyperonymes de (Hearst 1998).

Comme indiqué dans la figure 2, les collections pouvant suivre la chaîne d'une requête dans une page sont de types variés, essentiellement des énumérations syntaxiques (exemple 1.), des listes ou des tables à une colonne (exemples 2. et 3.) et des hyperliens (exemple 4.). Pour prendre en compte cette diversité, les pages sont analysées au moyen de trois analyseurs superficiels parallèles, dédiés chacun à l'acquisition des noms propres à partir d'un des trois types précédents (figure 1).

Un filtre terminal traite les données produites par les analyseurs afin d'épurer les séquences candidates et de les comparer à un anti-dictionnaire de noms communs. Il produit en sortie des noms propres candidats et leurs types.

Résultats et perspectives

Les noms propres candidats ont été acquis sur 34 classes de noms propres, 4 marqueurs linguistiques et 2 moteurs de recherche : un moteur avec des requêtes riches mais limitant le nombre de documents en un moteur avec des requêtes pauvres sans limite de documents. Les 272 corpus ainsi collectés (2,96 Go) ont permis d'acquérir 31 759 candidats avec une précision de 55,0%.

Ce travail montre que l'acquisition des noms propres sur le web fournit des volumes importants de candidats. Comme dans le cas de l'acquisition des termes sur les corpus techniques (Bourigault 1996), ceux-ci doivent passer par un contrôle humain avant exploitation. Les candidats ainsi filtrés permettent d'alimenter les outils de reconnaissance de noms propres. Ils sont utilisables dans des tâches d'étiquetage telles que celle définies dans la conférence d'évaluation des systèmes de reconnaissance de la parole (Hub4). La reconnaissance des noms propres sert également dans les applications d'accès à l'information comme les systèmes de question-réponse de TREC (voir la description des projets du groupe Langage et Cognition et (Ferret et al. 99)).

Références

Ferret, O., Grau, B., Illouz, G., Jacquemin, C., et Masson, N. (1999). ``QALC - the Question-Answering program of the Language and Cognition group at LIMSI-CNRS.'' In Workshop Question-Answering track at the Text REtrieval Conference (TREC8), Gaithersburgh MD.

Gpe Langage et Cognition

Dpt CHM

+ Sommaire

Présentation