Analyse, représentation et interprétation de structures 3d du génome

_____________________

R. Gherbi, J. Hérisson, F. Kettaf, A. Braffort

Figure

Objet

L'objectif général du projet est la recherche de nouvelles approches pour appréhender le ``langage structural'' des génomes, dans la perspective d'interpréter de manière aussi exhaustive que possible les informations qu'ils contiennent. A terme, notre but est le développement d'outils logiciels pour l'analyse bioinformatique des séquences génomiques. Ceci passe entre autre par une meilleure modélisation, en termes de représentation de données 3d et de processus de reconnaissance à base d'apprentissage stochastique, des informations génomiques.

Description

En lançant le séquençage systématique de génomes de nombreux organismes, les biologistes espèrent bien découvrir comment les cellules sont orchestrées. Ils disposent maintenant d'une masse de données (séquences génomiques) encore plus riche de promesses que ce qui était initialement prévu. Les biologistes ont maintenant besoin de clés et de méthodes pour décrypter les codages et reconnaître les séquences ou motifs informatifs.

Dans cette perspective, un groupe multidisciplinaire d'Orsay allie des informaticiens du LRI et du LIMSI à des biologistes de l'IGM pour mettre au point des méthodes d'analyse fondées sur une approche synergique alliant les outils de la théorie des langages à des algorithmes basés sur l'apprentissage stochastique. Les outils existant font appel principalement à deux types de critères, souvent utilisés conjointement, pour différencier les constituants des génomes :

Notre projet consiste à ajouter à ces critères classiques des informations relatives à la structure tri-dimensionnelle des chromosomes. Ceci nécessite une nouvelle modélisation, en termes de représentation de données 3d et de processus de reconnaissance à base d'apprentissage stochastique, des informations génomiques.

Dans ce cadre, la découverte de critères nouveaux pour l'analyse des génomes doit nécessairement être inférée à partir de données biologiques réelles et d'une expertise sur l'interprétation de ces données, notamment les structures géométriques et dynamiques 3d de l'ADN. L'apport de la représentation et la visualisation 3d dans un premier temps, permet au biologiste d'analyser la contribution des structures géométriques du génome dans l'interprétation des séquences génomiques. On pourra par exemple savoir s'il existe des liens entre la structure 3d et les annotations des gènes. On commencera bien évidemment par traiter les données des organismes sur lesquels on possède déjà des résultats vérifiés et les plus complets possibles concernant le séquençage et l'annotation. Dans un second temps, cette analyse humaine (biologique) servira de base à une étude de quantification des caractéristiques structurales pertinentes des deux points de vue analytique et algorithmique. Ceci rendra possible la conception de systèmes d'apprentissage et de reconnaissance automatique de formes. Les approches stochastiques (de type HMM) sont bien adaptées à ce type de problème où l'on possède de grands corpus (masses de données énormes, annotées ou non).

Résultats et perspectives

La première étape de ce travail s'achève. Un outil informatique de représentation et de visualisation 3d stéréoscopique de l'ADN a été développé au LIMSI et mis à la disposition des biologistes de notre groupe. Les aspects analyse biologique et reconnaissance automatique sont en cours de développement.

Gpe Interaction et Multi-Modalités

Dpt CHM

+ Sommaire

Présentation

visiteurs.