_____________________
O. Ferret, B. Grau, G. Illouz, C. Jacquemin, N. Masson
Objet
Le groupe L&C a participé à l'évaluation TREC8 avec le système QALC (Question-Answering system of the Language and Cognition group), pour la tâche QA (Question-Answering). Le but de cette tâche consiste à trouver les réponses à 200 questions au sein des volumes de la collection TREC (environ 525 000 documents), réponses qui doivent être longues de 50 ou de 250 caractères. Toutes les questions ont une réponse dans le corpus.
Description
L'architecture de QALC comporte six modules principaux, deux pour le traitement des questions, trois agissant sur le corpus et un sixième module d'appariement entre la question et des phrases, qui propose cinq réponses par ordre décroissant de pertinence. Le schéma de la figure 1 reprend les principaux composants de QALC et leur organisation. QALC repose essentiellement sur l'utilisation de composants relevant du traitement automatique des langues. La plupart de ses composants partent d'une version étiquetée et lemmatisée des documents du corpus. Le système est fondé sur les six modules suivants :
Analyse des questions : L'analyse des questions est effectuée par l'application de règles permettant de discriminer les types de questions et de leur assigner une (ou des) catégorie(s). Ces catégories décrivent les types d'entités qui devront constituer la réponse (cf. figure 2).
Extraction de termes : L'extraction de termes utilise des patrons syntaxiques décrivant des groupes nominaux complexes. Nous cherchons l'appariement maximal de ces modèles sur les phrases afin de reconnaître de tels groupes nominaux dans les questions.
Indexation automatique et reconnaissance de variantes : L'indexation automatique se fonde sur l'utilisation de FASTR, un analyseur transformationnel qui reconnaît les occurrences de termes et leurs variantes dans le corpus (cf. figure 3). Les termes et les variantes constituent un index des documents, et sont utilisés dans le processus de classement des documents et des réponses.
Reconnaissance des entités nommées : Les entités nommées sont recherchées dans les documents afin de produire des indices permettant d'évaluer le degré de similarité entre une question et une phrase candidate pour la réponse (cf. figure 4). Ces entités sont extraites grâce à des patrons lexico-syntaxiques et à l'exploitation de lexiques.
Ordonnancement des documents et sélection : Les documents sont ordonnés selon un poids calculé à partir des termes et des types de variantes qu'ils contiennent. Seuls les n premiers sont retenus. Une sélection plus fine est appliquée ensuite si la courbe des valeurs de pertinence des documents correspond à un plateau.
Appariement Question/Réponse : Toutes les données extraites des documents et des questions sont utilisées pour évaluer le degré de similarité entre chaque question et les phrases des documents sélectionnés pour chacune d'elles. La similarité tient compte des mots, des termes des variantes et des catégories d'entités nommées communes
Résultats et perspectives
Le système fournit cinq propositions de réponse. La note finale est la moyenne des inverses des rangs des bonnes réponses. Avec cette évaluation, QALC a obtenu une note de 0.34, avec 90 réponses trouvées, et se situe à la 11e place sur 18 participants.
Références
O. Ferret, B. Grau, G. Illouz, C. Jacquemin, N. Masson : `` QALC, the question answering system of the L&C group at LIMSI '', Q/A track of the Trec8 conference, 1999.
Gpe Langage et Cognition |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|