Corpus et évaluation

Next: Modèles n-grammes Up: No Title Previous: Aspects multilingues

Corpus et évaluation

Le matériau permettant l'estimation des modèles de langage est le texte. Afin qu'il soit utilisable, il est nécessaire de le normaliser, c'est-à-dire de définir quelle sera l'unité retenue (qu'est-ce qu'un mot), puis de normaliser les textes afin d'estimer au mieux les distributions de ces unités dans les textes. Nous abordons, pour le français, des styles de textes différents (rapports médicaux, journaux, magazines, transcriptions commerciales ou fines d'émissions radio-télédiffusés, textes issus de recherche sur le Web), mais également des langues différentes (anglais, allemand, espagnol, chinois).

L'évaluation des modèles de langages dans le cadre de l'action de recherche concertée de l'AUF-UREF se poursuit. Une deuxième campagne d'évaluation a été programmée qui va nous permettre de valider le protocole mis en place lors de la première campagne. Ce protocole sera complété par une évaluation plus proche des systèmes de reconnaissance qui utilisera des treillis de mots issus de systèmes de reconnaissance.

En parallèle, des recherches sont menées pour étudier l'apport possible des méthodes d'analyse textuelles (analyse morpho-syntaxique et analyse syntaxique robuste) à la constitution de modèles de langage, et pour définir des critères d'évaluation pour ces méthodes d'analyse (organisation de la campagne d'évaluation GRACE). Autour de l'évaluation, la production des ressources linguistiques validées et de qualité comme sous-produits des campagnes d'évaluation est une activité en cours d'exploration (projet CNRS Multitag) ainsi que l'étude des aspects formels de l'évaluation appliquée aux systèmes d'analyse du langage, considérée en tant que sujet de recherche propre.

Next: Modèles n-grammes Up: No Title Previous: Aspects multilingues

rapporta
2000-06-30