_____________________
G. de Chalendar et B. Grau
Objet
Le système SVETLAN (figure 1) apprend des catégories de noms en contexte. Il est fondé sur une approche distributionnelle : des noms jouant le même rôle syntaxique pour un verbe dans des phrases liées au même thème, ou domaine, sont agrégés en une classe. SVETLAN se fonde sur des connaissance sémantiques portant sur les domaines automatiquement apprises par SEGAPSITH [1].
Description
SEGAPSITH segmente automatiquement des textes et crée de façon
incrémentale des représentations de leur sujet constituées de
mots valués. Les textes étudiés sont des articles de journaux
provenant de deux corpus : Le Monde et AFP. Un
prétraitement permet de ne conserver que les mots pleins lemmatisés.
Comme dans ASIUM, les verbes permettent de classer les noms par
catégories, définies par les noms qui jouent un même rôle
relativement à un même verbe. Afin d'apprendre des classes très
homogènes, nous ne conservons que les mots appartenant au domaine
correspondant. Nous définissons une unité thématique syntaxique
(UTS) comme un ensemble de structures
<Verbe
relation syntaxique
Nom>
(figure 2) qui sont trouvées par l'analyseur syntaxique Sylex dans un
segment de texte appartenant à un domaine. Un domaine structuré (DS)
est un ensemble de structures
<Verbe
relation syntaxique
Nom1..., Nomn >
(figure 3). L'agrégation d'une unité thématique syntaxique avec
un domaine ajoute ou met à jour les verbes avec leurs arguments et
incrémente le nombre d'occurrences des éléments. Les classes de
noms dans ces domaines syntaxiques voient leur homogénéité
réduite par la présence de certains mots qui appartiennent en fait
à des parties des textes peu liées au sujet décrit. Cela
correspond à une signification du verbe peu utilisée dans ce
contexte. Nous pouvons donc améliorer considérablement la
cohérence des classes obtenues en supprimant les noms inintéressants
en fonction d'un critère de poids, représenté par un seuil. Par
cette sélection, nous renforçons l'apprentissage de classes de mots
avec comme biais leur utilisation en contexte.
Résultats et perspectives
Les premières expériences que nous avons entreprises permettent d'apprendre des classes de mots qui appartiennent très clairement au même concept dans le domaine (figure 4). Ces résultats ont été obtenus par l'analyse d'un mois de dépêches de l'AFP (Agence France Presse), qui forment un corpus stylistiquement cohérent mais de sujets variés et qui utilisent des verbes très polysémiques et non spécifiques. L'obtention de classes significatives avec un tel corpus montre l'efficacité de notre méthode. Nous avons effectué des expériences avec plusieurs seuils fixés de manière empirique (figure 5). Après filtrage, et si nous ignorons les erreurs dues à Sylex, la précision de SVETLAN est de 77% avec un seuil de 0,05 et de 87% avec un seuil de 0,1. C'est un bon résultat qui montre l'intérêt de choisir un seuil adapté. Nos premières expériences construisent des classes contenant peu de mots. Nous devons maintenant poursuivre nos expériences avec plus de textes afin d'augmenter la taille des classes.
Références
[1] Ferret O. and Grau B. : << A Thematic Segmentation Procedure for Extracting Semantic Domains from Texts >>. ECAI'98 (European Conference on Artificial Intelligence), 1998.
Gpe Langage et Cognition |
| Dpt CHM |
| ![]()
|
| ![]() |
|
---|