Apprentissage de classes de noms en contexte

Apprentissage de classes de noms en contexte

_____________________

G. de Chalendar et B. Grau

Objet

Le système SVETLAN (figure 1) apprend des catégories de noms en contexte. Il est fondé sur une approche distributionnelle : des noms jouant le même rôle syntaxique pour un verbe dans des phrases liées au même thème, ou domaine, sont agrégés en une classe. SVETLAN se fonde sur des connaissance sémantiques portant sur les domaines automatiquement apprises par SEGAPSITH [1].

Description

SEGAPSITH segmente automatiquement des textes et crée de façon incrémentale des représentations de leur sujet constituées de mots valués. Les textes étudiés sont des articles de journaux provenant de deux corpus : Le Monde et AFP. Un prétraitement permet de ne conserver que les mots pleins lemmatisés. Comme dans ASIUM, les verbes permettent de classer les noms par catégories, définies par les noms qui jouent un même rôle relativement à un même verbe. Afin d'apprendre des classes très homogènes, nous ne conservons que les mots appartenant au domaine correspondant. Nous définissons une unité thématique syntaxique (UTS) comme un ensemble de structures <Verbe $\rightarrow$ relation syntaxique $\rightarrow$ Nom> (figure 2) qui sont trouvées par l'analyseur syntaxique Sylex dans un segment de texte appartenant à un domaine. Un domaine structuré (DS) est un ensemble de structures <Verbe $\rightarrow$ relation syntaxique $\rightarrow$ Nom₁..., Nom_n > (figure 3). L'agrégation d'une unité thématique syntaxique avec un domaine ajoute ou met à jour les verbes avec leurs arguments et incrémente le nombre d'occurrences des éléments. Les classes de noms dans ces domaines syntaxiques voient leur homogénéité réduite par la présence de certains mots qui appartiennent en fait à des parties des textes peu liées au sujet décrit. Cela correspond à une signification du verbe peu utilisée dans ce contexte. Nous pouvons donc améliorer considérablement la cohérence des classes obtenues en supprimant les noms inintéressants en fonction d'un critère de poids, représenté par un seuil. Par cette sélection, nous renforçons l'apprentissage de classes de mots avec comme biais leur utilisation en contexte.

Résultats et perspectives

Les premières expériences que nous avons entreprises permettent d'apprendre des classes de mots qui appartiennent très clairement au même concept dans le domaine (figure 4). Ces résultats ont été obtenus par l'analyse d'un mois de dépêches de l'AFP (Agence France Presse), qui forment un corpus stylistiquement cohérent mais de sujets variés et qui utilisent des verbes très polysémiques et non spécifiques. L'obtention de classes significatives avec un tel corpus montre l'efficacité de notre méthode. Nous avons effectué des expériences avec plusieurs seuils fixés de manière empirique (figure 5). Après filtrage, et si nous ignorons les erreurs dues à Sylex, la précision de SVETLAN est de 77% avec un seuil de 0,05 et de 87% avec un seuil de 0,1. C'est un bon résultat qui montre l'intérêt de choisir un seuil adapté. Nos premières expériences construisent des classes contenant peu de mots. Nous devons maintenant poursuivre nos expériences avec plus de textes afin d'augmenter la taille des classes.

Références

[1] Ferret O. and Grau B. : << A Thematic Segmentation Procedure for Extracting Semantic Domains from Texts >>. ECAI'98 (European Conference on Artificial Intelligence), 1998.

Gpe Langage et Cognition

Dpt CHM

Sommaire

Présentation