logo CNRS

GDR CNRS 3003
Bioinformatique Moléculaire

GDR CNRS 3003 -Bioinformatique Moléculaire

Les enjeux

La biologie moléculaire étudie le fonctionnement moléculaire d'un organisme, de ses organes et cellules au cours de son développement. La nature des objets biologiques que sont les molécules, leurs conformations spatiales, leur dynamique dans la cellule, leurs réseaux d'interaction ou de régulation, ainsi que leur histoire évolutive permet de les modéliser par des concepts discrets, informatiques : séquence, arbre, graphe, réseau, etc. La bioinformatique moléculaire s'entend comme l'ensemble des techniques et méthodes d'informatique, de mathématique et de physique qui permettent d'étudier ou d'analyser in silico ces modèles discrets pour inférer des connaissances biologiques vérifiables expérimentalement.

Séquençage Haut-Débit (SHD)

L'avènement en 2005 de nouvelles méthodes de séquençage à haut-débit, qui surpassent l'ancienne méthode en capacité, en vitesse et en coût, permettent l'acquisition rapide de 1000 génomes humains (fin du projet prévue en 2009), alors que le projet Génome Humain s'est étalé sur plus d'une décennie. On pourrait dès lors croire que ces nouvelles technologies induisent seulement un changement pratique dans la quantité de données produites et obligent la bioinformatique à adapter ses algorithmes et ses méthodes pour les rendre capables de traiter en temps raisonnable un, deux, voire trois ordres de grandeur supplémentaires de données, ce que l'on appelle « passer à l'échelle ». Certes, le passage à l'échelle est inévitable et exige, soit une adaptation ou une conception ab initio de méthodes, soit l'exploitation de ressources parallèles de calcul intensif, mais plus vraisemblablement l'un et l'autre simultanément. En réalité, la conséquence fondamentale de l'existence des techniques de séquençage haut-débit s'avère être une diversification et une amplification de la capacité expérimentale en biologie. En effet, ces techniques de séquençage et leurs formidables capacités sont mises à profit, non seulement pour séquencer de nouveaux génomes, mais pour aborder des questions aussi diverses que les variations génomiques entre individus, populations ou espèces, l'activation et la régulation des gènes dans une lignée cellulaire, les états conformationnels de l'ADN cellulaire et ses conséquences épigénétiques, ou encore la biodiversité. Par amplification de la capacité expérimentale, nous entendons que là où il y a encore quelques années, on étudiait l'expression d'un sous-ensemble de gènes ou l'occupation par une protéine d'un groupe de sites génomiques, on peut sonder l'ensemble des sites du génomes qui sont transcrits ou liés à une protéine. La sensibilité de détection de ces techniques confère à ces procédures expérimentales une profondeur inégalée, qui entraîne une complétude des expériences : on peut sonder « toutes » les régions d'un génome (les expériences sont alors qualifiées de « genome wide » en anglais). Cette diversification et cette amplification modifient la nature des expériences et des inférences qui en sont le fruit. La bioinformatique est donc confrontée à de nouvelles questions biologiques, qui exigent de nouvelles recherches en mathématiques et en informatique fondamentale pour leur apporter des solutions, d'autant plus que l'accroissement gigantesque des volumes de données exclue un traitement manuel ou approximatif. Il faut concevoir professionnellement des algorithmes pertinents, efficaces et robustes. Tout l'enjeu de ce GdR sera d'instiguer et de promouvoir, en collaboration avec les réseaux de plate-formes en bioinformatiques, des structures d'animation et de coordination de la recherche en bioinformatique pour relever les défis de la biologie haut-débit. A l'heure actuelle, le traitement des données de SHD est un, sinon le, problème majeur des laboratoires de biologie. En effet, quelques centres de recherche français se sont équipés de séquenceurs et en France de très nombreux projets prévoient d'acquérir des données SHD sur des questions biologiques diverses (état de la chromatine (Boyle et al. Cell, 2008), transcriptomique (Morrissy et al. Genome Res., 2009), « DNA barcoding » (Taberlet et al. NAR, 2007), métagénomique (Krause et al. NAR, 2008), etc). Parmi ces projets, peu incluent une part de traitement bioinformatique ou mesurent l'ampleur de la tâche et la difficulté à traiter autant de données. Par exemple, comment inférer des SNPs et d'autres variations structurelles du génome avec fiabilité pour une souche d'une espèce lorsqu'on connaît un génome d'une souche voisine (il existe par exemple un projet de ce type sur des souches de vignes) ? Quelle est l'influence des erreurs de séquençage et comment éviter les fausses inférences qui en découlent ? Même l'étape initiale de re-positionnement des « reads » sur le génome, qui a reçu une certaine attention sur le plan de la recherche en bioinformatique et pour lequel plusieurs équipes ont publié des algorithmes, reste complexe (Philippe et al., 2009; Rivals et al. 2009). Ces nouvelles questions doivent être étudiées en bioinformatique pour pouvoir produire des solutions satisfaisantes et permettent l'aboutissement de ces projets biologiques basés sur des données SHD.

Biologie intégrative, biologie systémique, biologie synthétique

Encore récemment, l'acquisition de connaissances en biologie moléculaire était réalisée par des recherches focalisées (sur un ou quelques gènes, une famille de protéines, etc.). Aujourd'hui, les recherches considèrent ces mêmes objets, par ex. les gènes, mais aussi leurs interactions de régulation, leurs interactions fonctionnelles, leur profil phylogénétiques : l'investigation doit intégrer plusieurs types d'information, concernant plusieurs niveaux d'organisation biologique (par ex. des séquences, des interactions structurales, et variations au sein d'une population). Un autre signe de cela est la multiplication d'approches comparatives (El Karoui et al. 2007). La recherche s'effectue dans un contexte plus vaste. En outre, la capacité d'expérimentation augmentant, il est possible de mener des études à grande échelle, dite aussi « genome wide », sur un grand nombre d'objets en même temps. L'acquisition des données s'effectue par une technologie très efficace, suivi d'un traitement bioinformatique à grande échelle, puis on en vient aux vérifications biologiques qui sont souvent contraintes de procéder expérimentalement gène par gène, protéine par protéine, etc. Un enjeu important concerne le développement des méthodes bioinformatiques ou biostatistiques pour enchaîner les étapes d'analyses à grande échelle, vérifier les premières prédictions par des croisements avec d'autres données biologiques disponibles dans les banques publiques. Par exemple, les études de transcriptomiques peuvent en quelques expériences établir la carte génomique transcriptionnelle d'une cellule dans différentes conditions : on en déduit de gigantesques listes de nouveaux transcrits présents dans une condition, mais la vérification de chacun demande la conception d'amorces spécifiques, plusieurs réactions, l'examen des résultats. Si bien que des recherches incluant des étapes technologiques pharaonesques mesurant l'activité de millions de sondes, prédisant des dizaines de milliers de transcrits potentiellement nouveaux, se terminent par l'exploration de quelques dizaines d'entre eux (Bertone et al., Science, 2004 : 134 DNA arrays, 51 millions de sondes, 13000 transcrits nouveaux prédits, expériences de PCR sur 96 transcrits). Cet aspect là n'est pas qu'une question de développement de plate-formes, de « workflow » (chaînes d'analyses). En outre, d'autres aspects sont de nature plus théorique. La recherche doit fournir les concepts nouveaux pour les approches multi-échelles, multi-niveaux, ou systémiques. Comment étudier non plus les objets indépendamment les uns des autres, mais dans leurs interactions, comme un système, et produire les méthodes pour comprendre comment le comportement du système émerge de ces interactions (Sanchez et al. 2008). Ces questions sont toujours d'acualité. Enfin la biologie synthétique, dont un des objectifs est de reconstruire la vie, est un domaine en plein développement. Ces recherches ont des enjeux industriels et économiques, tels que la construction de bactéries capables par ex. de détecter des explosifs (Garmendia et al. Microbial Biotechnology, 2008), mais aussi fondamentaux pour comprendre ce qui caractérise la vie et l'importance de la création d'information durant l'évolution (Lorenzo, Danchin, 2008; Danchin, http://www.deliciouspaper.com/2009/02/quelles-cellules-saurons-nous-construire/).

Enjeux : interaction pluridisciplinaire et structuration

Aujourd'hui, la Bioinformatique Moléculaire est une composante clef de la biologie, dont elle concerne de nombreuses branches. Pour se convaincre de l'importance de la bioinformatique moléculaire, il suffit de consulter l'International Citation Index de l'ISI : les articles les plus cités dans de nombreux domaines (biologie, biochimie, évolution, informatique, mathématiques) sont très souvent des articles de bioinformatique. Si on prend les données de Essential Science Indicators, on peut constater que parmi les 10 papiers les plus cités des 10 derniers dans tous les domaines scientifiques confondus, 4 sont des articles de bioinformatiques et un autre, celui du génome humain, dépend beaucoup de ces méthodes (cf. page oueb isi). L'augmentation du nombre et du facteur d'impact des journaux de bioinformatique est aussi significative. Des trois premiers en 2008, deux n'existaient pas il y a 10 ans. Ils sont les trois parmi les 10 journaux de plus fort impact en Mathématiques et en Informatique. Le changement d'échelle de la biologie rend en effet ces approches absolument incontournables. Et les enjeux sont considérables, aussi bien dans la recherche fondamentale, que dans le domaine de la santé (par exemple, la conception de médicaments), que de l'agronomie (par exemple l'amélioration des plantes), ou des biotechnologies (par exemple, la dé-pollution). Il existe actuellement en France une importante communauté se consacrant à la recherche dans ces différents domaines de la bioinformatique. Celle-ci est en constant développement et ses travaux sont reconnus au niveau international. Cette communauté occupe en 2008 le 4ème rang en nombre de publications dans les revues « Bioinformatics », « PLOS Computational Biology » et « BMC Bioinformatics », juste après les USA, le Royaume Uni, et la RFA. Au niveau national, les « Journées Ouvertes de Biologie Informatique Mathématiques » réunissent chaque année au moins 350 participants francophones. Dans le passé, cette communauté a reçu l'appui d'un certain nombre d'actions structurantes : du premier GdR Informatique et Génomes en 1992 jusqu'à la récente ACI IMPBio (2004-2008). Celles-ci ont financé de nombreux projets de bioinformatique regroupant des équipes provenant d'horizons multiples (Biologie, Informatique, Mathématiques, Physique notamment) et ont ainsi favorisé l'éclosion de nombreuses interactions entre les diverses disciplines qui caractérisent la communauté. Ces actions ont de surcroît épaulé et amplifié jusqu'en 2004 le développement de cette interdisciplinarité par le financement de nombreuses activités de formation et d'animation qui jouent un rôle essentiel pour la circulation de l'information et pour le développement des contacts entre disciplines. Le GdR BIM a ensuite pris le relais. La communauté des « bioinformaticiens moléculaires » couvre un très large spectre de spécialités, en biologie, en informatique, en mathématiques, en physique. En France, un des éléments de la richesse de cette communauté réside dans le caractère résolument interdisciplinaire d'un certain nombre de chercheurs et d'équipes qui, originaires d'une discipline, franchissent le pas pour appréhender et s'approprier les problématiques d'autres disciplines. Cette démarche d'appropriation est indispensable pour que les modèles théoriques qui sont développés soient en adéquation avec la réalité biologique et pour qu'ils répondent à de réels problèmes. La construction de cette recherche pluri-disciplinaire est un processus long, peu valorisé, voire risqué pour ceux qui s'y engagent et il est donc capital de la soutenir de manière continue. Aujourd'hui par exemple aucune ANR n'est dédiée à la bioinformatique. Ainsi, la bioinformatique a besoin à la fois d'une recherche disciplinaire forte et d'une profonde réflexion aux interfaces des disciplines qui la composent. La réorganisation du CNRS en instituts met des barrières à l'interaction scientifique interdisciplinaire. En effet, la communauté bioinformatique sera partagée entre cinq instituts (INSB, INEE, INSMI, INSP, INST2I) : Biologie (génomique, transcriptomique, protéomique), Environment et écologie (phylogénie, évolution), Informatique, Physique et Mathématiques. Le rôle d'animation du GdR BIM n'en devient que plus important : il sera indispensable pour établir les liens entre les chercheurs et pour permettre à la nouvelle structure de produire des avancées interdisciplinaires.


Administrateur du site : Jérôme Azé (Équipe Bioinformatique - LRI)