Les méthodes statistiques que nous utilisons pour la modélisation linguistique utilisent les corpus comme matériau principal. Ces méthodes sont d'autant plus efficaces que ces ressources linguistiques existent en grande quantité et sous une forme d'une qualité suffisante. Ceci nous a donc amener à fournir un effort important dans la création, et la mise à disposition de ces ressources :
Dans le cadre des actions de recherches concertées ``Linguistique, informatique et corpus oraux'' mises en place par l' AUPELF-UREF, nous avons mis à disposition des participants à l'action B1 portant sur la dictée vocale, des corpus écrits de grande taille (40M de mots). Ces corpus correspondent à plusieurs années d'archives des journaux Le Monde et Le Monde Diplomatique, prétraitées de manière à faciliter la construction des modèles de langages probabilistes. Des lexiques et des modèles de langage construits à partir de ces textes ont également été distribués aux participants.
Ce groupe de travail a vocation à prendre une part active dans certains projets dans lesquels le LIMSI est impliqué, comme SILFIDE, dont le but est de développer un réseau de serveurs sur lesquels seront mis à disposition de la communauté francophone un certain nombre de corpus (dont le corpus de journaux précédemment cité), de lexiques et dictionnaires, ainsi que des outils génériques d'analyse et de traitement de données textuelles, ou encore GRACE, MULTITAG ou ELSE (voir partie Evaluation).