_____________________
Objet
La détection de certaines figures de style peut être considérablement amélioriée lors du traitement de corpus électroniques de grandes tailles. Ainsi, une méthode fondée d'une part sur l'existence de régularités d'énonciation liées à la métaphore, d'autre part sur des hypothèses simples relatives à la fréquence d'emploi des termes, permet notamment de guider le choix du type de traitement sémantique à apporter à chaque phrase. Cette méthode fait l'objet d'une présentation dans la double page suivant celle-ci.
Nous avons de ce fait développé un outil d'aide au traitement de corpora dans le but de permettre la mise en oeuvre de ce type d'approche.
Contenu
Les marqueurs textuels liés à la métaphore sont pour la plupart caractérisés par des structures syntaxiques et, pour tous ceux trouvés, par l'emploi d'un terme lexical particulier. Le marqueur lexical seul peut être source d'ambiguïtés. De ce fait, la détection du marqueur textuel en tant que tel nécessite a priori plus que la recherche d'un simple mot, et serait parfaite en disposant du résultat d'une analyse syntaxique qui permettrait la détection de la structure globale.
STK est un outil permettant d'exploiter les catégories grammaticales des mots, sans pour autant fournir d'analyse syntaxique. L'approche précédente peut alors être partiellement satisfaite par détection des formes fléchies désambiguïsées des marqueurs lexicaux seuls. L'analyse syntaxique des phrases résultant de cette recherche demeure évidemment possible en vue d'un affinement du résultat. Sous sa forme actuelle, STK est utilisé pour l'évaluation des régularités issues d'une première analyse manuelle d'un corpus de 26 textes à caractère explicatif d'environ 300 mots chacun. L'évaluation se fait sur un corpus électronique d'environ 450 000 mots, constitué d'articles de bourse ou d'économie extraits du jounal "Le Monde sur CD-ROM".
STK permet en outre l'extraction d'un lexique de formes fléchies accompagnées de leur catégorie grammaticale et de leur fréquence d'occurrence, afin d'extraire un lexique spécifique à un domaine. Des heuristiques sont à l'étude pour lemmatiser et obtenir un lexique de formes canoniques ou de racines terminologiques.
Situation
Dans sa version actuelle, STK est une commande UNIX, décrite dans la page ci-contre. Il permet la segmentation, l'assignation de catégories lexicales et le calcul des fréquences d'occurrences. Une interface avec le corpus est fournie, incluant notamment une procédure annexe de formatage. Une option d'étiquetage particulière est en cours de réalisation, dans le but d'associer la catégorie grammaticale, la fréquence d'emploi et signaler un éventuel marqueur textuel.
L'assignation de catégories grammaticales se fait par appel à l'étiqueteur de Brill (1). Celui-ci a été spécialement entrainé sur un échantillon du corpus électronique étiqueté manuellement. Il exploite les fichiers segmentés par STK. L'étiqueteur est soumis à la session d'évaluation GRACE-I des assignateurs de catégories grammaticales. STK dans son ensemble est présenté à une action de recherche concertée de l'AUPELF-UREF dans le thème "extraction automatique de terminologie".
Références
(1) Brill E. : "A simple rule-based part of speech tagger ". Proceedings of the Third Conference on Applied Natural Language Processing, Trento. ACL.1992.
(2) Ferrari S. : "Traitement automatique des métaphores : une approche par marquage textuel ". Actes du Deuxième Colloque Jeunes Chercheurs en Sciences Cognitives, Presqu'ile de Giens, 1996 -à paraître.
Gpe Langage et Cognition |
| DptCHM |
|
Sommaire
|
| Présentation |
|
---|