Thèmes de Recherche

Nous pouvons classer l'ensemble de nos approches selon deux points de vue. D'une part, les approches de modélisation "bottom-up" utilisent les connaissances des biologistes pour bâtir des réseaux de régulation ; différentes techniques d'analyse, reposant sur une expertise mathématique des modèles, sont ensuite appliquées à ces réseaux et intégrées à des logiciels associés. D'autre part, les approches de fouille de données "top-down" partent des données biologiques produites à grande échelle, représentées sous la forme de très grands réseaux d'interactions ; la complexité de ces derniers nécessite le développement d'outils mathématiques et algorithmiques d'exploration et de classification adaptés. Ces deux points de vue correspondent respectivement aux deux thèmes présentés ci-dessous.

Modélisation discrète des réseaux de régulation

Mots-clés : réseaux booléens, graphes, systèmes dynamiques discrets, fonctions booléennes

La modélisation de réseaux de régulation a pour objectif une compréhension mécanistique des comportements observés ; elle donne lieu à des simulations et à des prédictions en biologie. Nous utilisons dans ce but un formalisme qualitatif pour représenter les réseaux d'interactions, la "modélisation logique". Dans ce formalisme discret, un graphe de régulation logique est la donnée d'un graphe d'interactions dont les sommets sont des composants, et d'une famille de paramètres qui détermine les règles de coopération entre composants interagissant sur un composant fixé. Une dynamique discrète est alors définie, permettant de simuler l'évolution des états, définis par les niveaux d'expression discrétisés des différents composants. Du point de vue mathématique, dans le cas booléen, il s'agit d'un outil d'analyse des transformations de l'ensemble des sommets d'un hypercube, les paramètres définissant les influences réciproques des coordonnées.

L'analyse de la dynamique des réseaux de régulation consiste en l'étude des attracteurs, des bassins d'attraction, et plus généralement de la structure du graphe de transition d'états. Elle se heurte rapidement à un problème d'explosion combinatoire. Une première stratégie consiste alors à étudier des techniques de réduction du nombre de composants. Nous avons proposé une méthode qui, d'un point de vue dynamique, revient à donner priorité en terme de délai au composant, disons au "gène", qui a été supprimé ([17], 2009). On peut itérer cette procédure, la seule limitation étant les gènes auto-régulés que l'on s'interdit de réduire. Par cette méthode, nous pouvons assurer la préservation de certaines structures du graphe de transition d'états, en particulier les attracteurs (états stables et attracteurs cycliques). En revanche, les trajectoires sont affectées par cette transformation, puisque la réduction revient à élaguer des arcs du graphe de transition. En conséquence, la méthode ne permet pas de garantir la conservation des propriétés d'atteignabilité. De même, de nouveaux attracteurs complexes peuvent apparaître, provenant de composantes fortement connexes non terminales dont les transitions sortantes ont été supprimées. De ce fait, cette méthode de réduction met en valeur en retour des composantes transientes robustes - dans un certains sens - , et potentiellement biologiquement pertinentes.

Une deuxième stratégie consiste à étudier le rôle dans la dynamique de petits motifs de régulation, récurrents et dont on connaît la fonction dans les réseaux biologiques. Leurs contextes de fonctionalité sont des sous-espaces dans lesquels ces motifs sont les maîtres du jeu : ils s'y comportent comme lorsqu'ils sont isolés. Ainsi, nous étudions au préalable leur dynamique propre ([18], 2003, et [6]). Il s'agit ensuite de comprendre dans quelle mesure leurs comportements locaux dans leurs contextes de fonctionnalité concourent à la description de la dynamique globale du système [3].

Pour faire face à l'explosion exponentielle de la taille des graphes à analyser, le développement d'algorithmes pour la compaction intelligente des systèmes dynamiques joue également un rôle important. Indépendamment de la difficulté de générer le graphe de transition d'états, il est aussi difficile d'en avoir une vision globale à partir d'une exploration des trajectoires. Aussi avons-nous construit un graphe donnant une vision "compressée" de la dynamique, qui procure une précieuse information en mettant en évidence les attracteurs, leurs bassins d'attraction, et certaines propriétés transientes [2]. Tous ces développements méthodologiques sont implémentés dans GINsim, logiciel dédié à la modélisation et à l'analyse des réseaux de régulation logiques. Nous sommes en contact étroit avec les développeurs de ce logiciel.

E2F_RG_small.png

Analyse des réseaux d'interactions à grande échelle

Mots Clés: graphes, modularité, classification, communautés

Une deuxième part de nos travaux concerne les réseaux d'interactions qui ont été produits à grande échelle depuis l'avènement de l'ère post-génomique et des techniques de screening à haut-débit. Ces réseaux contiennent des centaines, voire des milliers d'interactions entre macromolécules biologiques. A condition de disposer d'outils adéquats, ils offrent une possibilité d'accès à une quantité sans précédent d'information sur les fonctions des gènes et des protéines, à l'échelle de la cellule.

Considérant ces grands réseaux comme des graphes simples non orientés, une façon d'aborder leur analyse consiste à y rechercher par des méthodes combinatoires des partitions en communautés ; il s'agit ensuite d'analyser les communautés obtenues pour qu'elles prennent sens en biologie. Dans ce contexte, nous avons développé diverses méthodes et outils. Plusieurs algorithmes originaux permettent de construire des communautés, chevauchantes ou disjointes. Identifier le meilleur partitionnement d'un graphe est un problème intrinsèquement NP-difficile. Nous avons donc développé plusieurs heuristiques d'optimisation combinatoire ayant pour but de maximiser une mesure de la structure en communautés du graphe. La mesure choisie est le critère de modularité (Newman, 2006). L'un de ces algorithmes, une méthode de partitionnement en classes chevauchantes, a abouti à l'identification de protéines multifonctionnelles [1]. Nos outils sont accessibles en ligne et couramment utilisés, entre autres comme applications au sein du logiciel international Cytoscape dédié à l'étude de ces réseaux [20]. Nous avons par ailleurs développé une méthode de bootstrap en partitionnement de graphe afin de donner une indication sur la robustesse des classes [9, 12], ainsi qu'une approche d'enrichissement fonctionnel basée sur le calcul de distances dans le réseau [10].

Networkjolihsp27_small.png

Enfin, dernièrement, nous avons adapté la définition de la modularité à la prise en compte simultanée de plusieurs réseaux partageant des noeuds, appelés réseaux multiplex. Il s'agit d'intégrer divers points de vue sur un même ensemble de protéines, reflétant le caractère hétérogène de leurs interactions. Nous avons appliqué cette méthode à la détection de communautés dans des réseaux multiplex simulés, modélisés comme des réalisations indépendantes de différents Stochastic Block Models (SBM) partageant les mêmes variables latentes d'appartenance aux communautés ; la comparaison de cette approche à l'agrégation simple des réseaux met en valeur son efficacité. Ce travail, dont le but in fine est de définir et d'annoter plus finement des modules fonctionnels de protéines, a été appliqué avec succès à un réseau multiplex résultant de la prise en compte simultanée de quatre réseaux biologiques [5].

Perspectives communes aux deux thèmes de recherche

Nos deux approches, bottom-up et top-down, nous donnent des visions différentes et complémentaires du fonctionnement cellulaire. Nous travaillons au rapprochement de ces deux axes, qui partagent entre autres l'utilisation des données d'expression des gènes et des protéines produites par la transcriptomique et la protéomique. Dans le cadre de nos projets en cours, nous utilisons les données biologiques à grande échelle afin d'étoffer ou de paramétrer les modèles booléens ; inversement, les grands réseaux statiques bénéficient d'une contextualisation les rendant plus dynamiques. La prise en compte simultanée de ces deux échelles d'interactions nous pousse à développer de nouvelles approches mathématiques, comme modéliser les expressions des protéines d'un grand réseau d'interactions via des modèles spatiaux de type champs de Markov.

Applications à la biologie

Un objectif commun très fort, et qui est la raison d'être de nos travaux, est de rester au plus proche d'applications concrètes à la biologie. Cet objectif est atteint via des collaborations souvent internationales, et qui ont déjà porté leurs fruits à travers des publications dans des journaux à fort facteur d'impact.

Nous avons ainsi étudié un modèle booléen de réseau de régulation impliqué dans les cancers de la vessie, et proposé une explication aux mutations co-occurentes et mutuellement exclusives observées dans ces cancers [19]. Un modèle booléen nous a également permis de prédire des synergies entre médicaments anti-cancéreux utilisés en thérapie ciblée contre les cancers gastriques. Ces prédictions ont été validées expérimentalement par nos collaborateurs [8]. Nous avons également travaillé à la prédiction fonctionnelle pour les protéines impliquées dans les cancers à partir de données à grande échelle (cancer de la prostate [14], cancer gastrique [22]), et à l'étude des relations entre les maladies humaines à travers leurs comorbidités (projet en cours et preuve de concept [13, 21]).

Nos projets plus récents incluent la modélisation du système d'homéostasie des clusters Fer/Soufre chez la bactérie E.coli, et l'étude de la différentiation et du vieillissement des cellules souches hématopoïétiques.

La spécificité de chacune de ces applications et leur diversité font évoluer nos outils et émerger de nouvelles questions mathématiques.