Inférence de réseaux de régulation de gènes à partir de données dynamiques multi-échelles

Inférence de réseaux de régulation de gènes à partir de données dynamiques multi-échelles

Inférence de réseau de régulation de gènes (RRG) à partir de données d’expression

On attribue aux systèmes vivants, et en particulier les cellules, la capacité de « prise de décision » pour modier leur comportement suite aux variations de leur environnement. Cette propriété est essentielle pour le bon fonctionnement d’un organisme multicellulaire ou unicellulaire. Le comportement d’une cellule peut se dénir par l’adaptation de ces capacités fonctionnelles suite aux modications de son environnement ou de son état interne. Ces fonctions étant en grande partie réalisées par des protéines, il convient donc pour la cellule de réguler l’expression des gènes codant pour les protéines appropriées. C’est ce qui est réalisé par la cellule dans le cas d’une diérenciation. Cette régulation se fait en partie par une série d’interactions entre gènes qui s’activent ou s’inhibent. La connaissance de ces réseaux de régulation de gènes (RRG) permettrait donc en théorie de comprendre, de prédire, et potentiellement d’inuencer le comportement d’une cellule et ainsi proposer des nouveaux traitements dans le cas de pathologies impliquant une dérégulation des RRG. Beaucoup de travaux ont été menés depuis 20 ans pour répondre à ce dé, et malgré quelques réussites, le problème d’inférence des RRG reste largement ouvert. Toutes ces approches ont en commun l’analyse de données d’expression à l’aide de modèles statistiques ou mécanistes de RRG an d’inférer les relations de corrélation ou de causalité.

RRG et diérenciation

Dans cette partie nous présentons les mécanismes et les rôles des RRG avant de détailler le cas précis de la diérenciation. Après un aperçu de la vision classique du processus de diérenciation, nous verrons comment les RRG sont impliqués dans une vision plus moderne.

Les RRG coordonnent l’expression des gènes

Le contrôle de l’expression génétique

Toutes les cellules d’un organisme multicellulaire contiennent le même code génétique contenu dans leurs molécules d’ADN (à de rares exceptions près comme des cellules immunitaires ou les gamètes), et pourtant elles présentent des phénotypes extrêmement variés. Cette propriété s’explique par le contrôle diérentiel des gènes exprimés. Il est utile à cette étape de dénir plus précisément la notion d' »expression d’un gène » qui sera utilisée dans ce manuscrit. Nous supposons qu’un gène correspond à une séquence d’ADN codante pour une protéine. Nous excluons de fait tous les gènes qui ne produisent pas des ARNm, bien que les ARN non codant jouent aussi un rôle important comme il a été montré pour les miARN, siARN, lncARN, etc [2, 3]. Lorsqu’un gène est exprimé on suppose que son ARNm est transcrit de façon détectable et signicative. Nous convenons toutefois que cette dénition est très inappropriée à l’échelle de la cellule unique à cause de la stochasticité de l’expression comme nous le verrons plus tard. Une cellule peut donc contrôler l’expression de ces gènes et ainsi produire des protéines nécessaires à son fonctionnement. On estime qu’à tout moment une cellule humaine exprime entre 30% et 60% de ces 25 000 gènes [4]. Cependant, beaucoup de processus sont communs à tous les types de cellules, ainsi seules une partie des gènes sont spéciques à un type cellulaire. Par exemple, on retrouve les protéines de la chromatine (histones), les ARN polymérases, des enzymes importantes du métabolisme ou encore des protéines du cytosquelette dans toutes les cellules, même si leur niveau d’expression peut varier. En revanche, l’hémoglobine n’est détectable que dans les érythrocytes, elle est donc spécique à ce type cellulaire et participe à sa dénition. Le contrôle de l’expression des gènes chez les eucaryotes peut se faire à diérents niveaux allant de l’ADN à la protéine. Le niveau le plus en amont et le plus étudié est celui de la transcription. La transcription de l’ARNm à partir de l’ADN implique une série d’acteurs, comme les facteurs de transcription généraux et spéciques, qui doivent se coordonner dans l’espace et le temps pour amorcer et entretenir le processus de transcription. Mais la régulation de l’expression peut aussi se faire plus en aval lors de la maturation de l’ARNm, de 11 son transport dans le cytoplasme, de sa traduction ou de sa dégradation [5]. Au niveau de la protéine il peut aussi y avoir des régulations dites post-traductionnelles qui altèrent son activité ainsi que sa stabilité [6, 7]. A ces diérences de niveaux de contrôle, il faut rajouter les diérences de dynamique. Il existe des contrôles stables et persistants, comme dans certains cas de régulations épigénétiques qui induisent du « silencing » de chromosome [8], contrairement aux contrôles plus dynamiques par facteurs de transcription qui exigent que les protéines régulatrices soient présentes en permanence. Bien que la plupart des études sur l’inférence des RRG se limitent à la régulation transcriptionnelle, nous attirons l’attention sur le fait que dans ce manuscrit nous considérons plusieurs niveaux de régulation. Cependant nous ne considèrerons pas les régulations de type persistante comme les mécanismes épigénétiques.

Définition des RRG

Lorsqu’une cellule modie l’expression de ces gènes suite à un changement d’environnement ou d’un stimulus, il est très rare qu’un seul gène soit impacté. C’est un ensemble de gènes fonctionnellement liés qui est régulé comme dans le cas des cellules hépatiques qui répondent aux glucocorticoïdes en sur-exprimant une série de protéines spécialisées dans la production de glucose [9]. Il y a donc une coordination du contrôle de l’expression des gènes qui est-elle même dépendante des gènes exprimés. En eet, seules quelques types cellulaires sont capables de répondre aux glucocorticoïdes contrairement aux autres types cellulaires aussi exposés. On parle alors de RRG comme l’ensemble des interactions des gènes qui contrôlent l’expression d’autres gènes à tous les niveaux (transcription, traduction, etc). Nous allons maintenant détailler des concepts importants de structures et d’états des RRG pour les dénir précisément. On nomme « structure » du RRG l’ensemble des interactions possibles entre gènes. On nomme « état », pour une cellule donnée à un instant T, l’ensemble des niveaux d’expression des ARNm et protéines de tous les gènes. La structure d’un RRG est constante dans le temps et ne dépend pas du type cellulaire, contrairement à l’état d’une cellule. C’est cette diérence fondamentale qui dénit ces 2 notions. La structure d’un RRG inclus les conditions pour qu’une interaction soit eective. Dans l’exemple précédent, pour que les gènes cibles des glucocorticoïdes soient induits, il faut d’une part la présence de l’hormone, et d’autre 12 part la présence de protéines spéciques aux cellules hépatiques qui autorisent la réponse des gènes cibles. Dans le cas d’une cellule de peau, qui a la même structure de RRG pour la réponse aux glucocorticoïdes que la cellule hépatique, son état est diérent et n’autorise pas l’activation de cette interaction. On peut alors dénir la tâche d’inférence de RRG comme l’identication de la structure du RRG à partir de mesures expérimentales de l’état du RRG dans diérentes conditions ou lors d’une cinétique. Il est utile de préciser ici que seule une petite partie de la structure du RRG sera explicite, et qu’une partie importante sera cachée comme illustré dans la gure 1. Pour comprendre cette limite reprenons l’exemple des cellules hépatiques. Si on cherche à retrouver la série d’interactions qui mènent à l’activation des gènes cibles suite à la présence de l’hormone, il ne sera certainement pas possible de connaitre toutes les conditions nécessaires pour que ce RRG soit opérationnel. Si un gène A active un gène B, il est fort probable que cette interaction nécessite la présence de gènes constamment et spéciquement exprimés dans ce type cellulaire. La notion de RRG est donc relative et restreinte aux gènes dont l’expression varie au cours du processus étudié.

Approximation des interactions géniques par la séparation des échelles de temps

Nous allons maintenant dénir plus précisément la notion d’interaction entre gènes qui est en soit une abstraction et cache des mécanismes complexes. Comme citée plus tôt dans cette introduction, la régulation de l’expression des gènes peut se faire à de multiples niveaux. Chaque niveau contribue à la régulation, ce qui a priori complexie la régulation globale du RRG. Cependant, nous allons voir qu’en appliquant une hypothèse de séparation des échelles de temps, on peut ramener la régulation globale du RRG à ses processus les plus lents, que nous supposerons être la transcription et la traduction. Dans notre étude on supposera que les interactions entre gènes se font via les protéines. De fait, nous négligeons délibérément et par souci de simplication la régulation eectuée par les ARN non-codants, notamment au niveau de la dégradation. Une fois que la protéine régulatrice est produite dans le cytoplasme, elle peut subir des cascades de modications post-traductionnelle, comme des phosphorylations. Elle peut aussi induire à son tour un cascade de phosphorylation sur d’autres protéines qui in ne vont aboutir à l’activation d’un facteur de transcription qui va réguler l’expression d’un gène cible comme montré dans la gure 2. Nous faisons l’hypothèse que les temps caractéristiques des réactions qui ont lieu dans le cytoplasme sont très courts par rapport à la dynamique de production/dégradation des ARN et protéine qui sont de l’ordre de plusieurs heures. De fait, une fois la protéine régulatrice produite, toutes ces réactions intermédiaires, qui agissent aussi comme des ltres, atteignent très vite leur régime stationnaire et le transfert global se limite au gain statique engendré par ces réactions. Nous allons donc nous concentrer sur l’étude des dynamiques lentes du RRG et négliger 14 les plus rapides. Cette hypothèse de séparation des échelles de temps est justiée par les points suivants. Les processus de diérenciation durent généralement plusieurs jours, ce qui sous-tend une dynamique équivalente pour que le RRG se stabilise. L’autre raison est liée aux contraintes expérimentales. Les techniques actuelles de mesures des observables du système des RRG se limitent aux ARN et protéines. Étant donné la dynamique de ces molécules, il est inutile de les mesurer toutes les minutes. Enn, le nombre de points expérimentaux est en pratique limité par leur coût.

Table des matières

1 Introduction
1.1 Inférence de réseau de régulation de gènes (RRG) à partir de données d’expression
1.2 RRG et différenciation
1.2.1 Les RRG coordonnent l’expression des gènes
1.2.1.1 Le contrôle de l’expression génétique
1.2.1.2 Définition des RRG
1.2.1.3 Approximation des interactions géniques par la séparation des échelles de temps
1.2.2 Le processus de différenciation
1.2.2.1 La vision historique du processus de différenciation
cellulaire
1.2.2.2 Caractéristiques du processus de différenciation érythrocytaire
1.2.2.3 La différenciation et les RRG dans la vision moderne
1.3 Inférence des RRG à partir de données en population
1.3.1 Les données d’expression en population
1.3.2 Les approches Bayésiennes
1.3.2.1 Les réseaux Bayésiens
1.3.2.2 L’inférence Bayésienne
1.3.2.3 Les réseaux Bayésiens Dynamiques
1.3.2.4 Avantages et limites
1.3.3 Les approches par la théorie de l’information
1.3.3.1 L’information mutuelle
1.3.3.2 Principe de l’inférence
1.3.3.3 Avantages et limites
1.3.4 Les approches Booléennes
1.3.4.1 Les réseaux Booléens .
1.3.4.2 Inférences de réseaux Booléens
1.3.4.3 Avantages et limites
1.3.5 Les approches par EDO
1.3.5.1 Les modèles EDO
1.3.5.2 Inférence des modèles EDO
1.3.5.3 Avantages et limites
1.4 Inférence des RRG à partir de données en cellule unique
1.4.1 Les données d’expression en cellule unique
1.4.2 Adaptation des algorithmes d’inférence de RRG pour l’analyse des données en cellule unique
1.4.3 Utilisation de modèles stochastique en cellule unique pour l’inférence des RRG
1.5 Stratégies alternatives pour l’inférence de RRG
1.6 Performances et limites de l’inférence des RRG
2 Résultats
2.1 Article 1 : Single-Cell-Based Analysis Highlights a Surge in Cell-to-Cell
Molecular Variability Preceding Irreversible Commitment in a Differentiation Process
2.1.1 Principaux résultats de l’article
2.1.2 Principales conclusions de l’article
2.1.3 Article 1
2.2 Article 2 : Inferring gene regulatory networks from single-cell data : a mechanistic approach
2.2.1 Principaux résultats de l’article 2
2.2.2 Principales conclusions de l’article 2
2.2.3 Article 2
2.3 Article 3 : WASABI : a dynamic iterative framework for gene regulatory network inference
2.3.1 Le processus de différenciation vu comme un processus dynamique de traitement du signal par les RRG
2.3.2 Principaux résultats de l’article 3
2.3.3 Principales conclusions de l’article 3
2.3.4 Article 3
2.4 Article 4 : A Cloud-aware autonomous workow engine and its application to Gene Regulatory Networks inference
2.4.1 Principaux résultats de l’article
2.4.2 Principales conclusions de l’article
2.4.3 Article 4
3 Discussion et perspectives
3.1 L’utilisation d’approches et de concepts de l’ingénierie repoussent les
limites de l’inférence des GRN
3.1.1 La causalité trahie par le transitoire
3.1.2 Briser le réseau (et la malédiction de la combinatoire) pour le reconstruire fidèlement au fils du temps
3.1.3 Capitalisation et intégration de données dynamiques multi échelles
3.2 Nouvelle vision de l’organisation des RRG
3.2.1 La stochasticité, force motrice guidée par les RRG
3.2.2 Une topologie de RRG originale
3.3 Perspectives
3.3.1 Amélioration de la pertinence biologique du modèle mécaniste de RRG
3.3.2 Amélioration des performances de l’inférence itérative
3.3.3 Applications potentielles de WASABI