Exemple de la synthèse protéique cap-dépendante de la cellule œuf chez
l’oursin
Je présente maintenant un exemple un peu plus conséquent qui servira de fil rouge pour illustrer les concepts introduits : la modélisation dynamique par équations différentielles mais aussi l’analyse de l’équilibre des flux. On verra en particulier que même sur cet exemple concret de taille très réduite on rencontre immédiatement de nombreux problèmes en particulier en ce qui concerne la détermination des lois cinétiques et l’identification des paramètres.
Le choix de cet exemple est motivé par une étroite collaboration de mon équipe de recherche avec les biologistes de la station de recherche marine de Roscoff (France). Cette collaboration a entraîné d’intéressantes discussions dans lesquelles nous avons pu nous confronter directement aux difficultés de la modélisation dynamique par équations différentielles.
La synthèse des protéines chez les procaryotes et les eucaryotes se décompose de manière très simplifiée en deux étapes :
la transcription au cours de laquelle un gène est lu et transcrit en ARN messager (ARNm) et la traduction au cours de laquelle un ARN messager est traduit en protéine.
La cellule œuf de l’oursin contient initialement une réserve d’ARN messagers prêts à être traduits au moment de la fécondation. Les biologistes de la station de Roscoff s’intéressent donc au système qui permet cette traduction et plus spécifiquement ils s’intéressent au mécanisme de la synthèse protéique cap-dépendante [BPSC10]. En effet, la plupart des ARN messagers présents dans la cellule œuf possèdent une coiffe qui les oblige à être traités par un mécanisme spécifique de synthèse. Un modèle simplifié [LRML+14] de ce mécanisme de synthèse est décrit par le réseau de réaction suivant.
Limites : lois, paramètres et passages à l’échelle
Les approches par équations différentielles sont pratiques car elles utilisent un formalisme simple et facile à comprendre. Comme montré dans les exemples précédents, on peut dans certains cas obtenir une solution analytique pour les trajectoires. Dans les autres cas il est en général possible d’utiliser des algorithmes classiques de résolution numérique (Runge-Kutta, . . .) pour produire des simulations correctes. Dans le contexte de cette thèse qui est celui de la comparaison d’un modèle, le réseau de réactions, et de données, les sériestemporelles expérimentales, il suffirait donc de comparer les séries temporelles obtenues par simulation numérique et celles obtenues par l’expérience pour conclure. Toutefois certaines limites, concernant la détermination des lois de flux et de leurs paramètres, méritent d’être soulignées. Elles nous conduiront dans un premier temps à considérer des approches par contraintes qui sont au cœur de cette thèse. Nous verrons par la suite les limites liées au déterminisme qui nous amèneront dans le chapitre suivant à considérer les approches stochastiques.
Détermination des lois Une limite très importante de l’approche présentée est que le modélisateur doit d’une part déterminer quelles lois cinétiques il associe à chaque réaction et d’autre part déterminer les valeurs des paramètres de ces lois. La loi d’action de masse est adaptée aux réactions élémentaires d’un système chimique homogènes à l’équilibre thermodynamique. Cependant, l’organisation du vivant est bien plus complexe et ne peut se résumer en une suite de tubes à essais. Un autre point est que les réactions ne représentent pas nécessairement des réactions chimiques élémentaires entre molécules dans un milieu homogène. On peut par exemple considérer l’exemple suivant de la régulation d’un gène [Wil06] .
Dynamiques par équations différentielles
Nous allons maintenant définir la dynamique d’un réseau de réactions c’est-à-dire comment obtenir l’évolution temporelle des quantités de chaque espèce. En réalité nous devrions plutôt affirmer que nous allons définir une dynamique possible car il existe dans la littérature de nombreuses propositions. Il existe bien d’autres possibilités plus qualitatives que quantitatives dont nous reparlerons plus loin mais que l’on peut citer tout de suite : des dynamiques booléennes avec les réseaux booléens (Boolean networks) [Kau69, Kau93] et leur version stochastique les réseaux booléens probabilistes (probabilistic Boolean networks) [SDZ02], les réseaux de Thomas [Tho73], les frappes de processus [PMR12], . . . À l’heure actuelle, le paradigme le plus largement répandu chez les biologistes mais aussi chez les modélisateurs est celui des équations différentielles ordinaires dans lequel les quantités de matières sont représentées de manière continue sous forme de concentrations et déterminées par un système autonome d’équations différentielles ordinaires couplées. Cette approche a de nombreux avantages. C’est celle habituellement utilisée dans le domaine de la chimie, elle paraît donc à première vue adaptée à la description de phénomènes chimiques qui se passent au sein de la cellule. Un point non négligeable est qu’elle est conceptuellement simple : les équations différentielles font partie du langage commun à toutes les disciplines scientifiques et elles permettent donc une collaboration plus facile entre mathématiciens, informaticiens, physiciens, chimistes et biologistes. Elle a aussi le mérite de conduire à des simulations informatiques faciles grâce à aux algorithmes de résolution numérique qui peuvent aujourd’hui être réalisées rapidement sur n’importe quel ordinateur de bureau. Toutefois cette approche pose aussi de nombreuses limites autant sur ses hypothèses de départ (quantités continues, hypothèses cinétiques) que sur sa mise en pratique des cas concrets.
Exemple de la synthèse protéique chez l’oursin
Explication de la synthèse protéique Revenons à l’exemple du modèle de la synthèse protéique cap-dépendante de la cellule œuf de l’oursin. Ce modèle est une très bonne illustration des difficultés rencontrées, décrites dans [LRML+14], lorsqu’on souhaite développer des modèles différentiels. Le but de ce modèle était de tester deux hypothèses pour expliquer les courbes de synthèses protéiques après fécondation à disposition : la déstabilisation du complexe 4E-BP (intensification de la R2) et l’augmentation de la dégradation de BP (intensification de la R7). Ces deux hypothèses ont été interprétées en tant qu’augmentation des constantes cinétiques associées à ces deux réactions, augmentation d’un facteur restant à déterminer. Les facteurs corrects doivent permettre d’obtenir les courbes de synthèses protéiques observées par des méthodes de western blot. Le problème est qu’il est nécessaire d’identifier en premier lieu la valeur des constantes initiales. Pour cela, on a utilisé trois méthodes :
la reprise de valeurs chez une espèce voisine, des mesures de certaines constantes par un dispositif physique de résonance plasmique de surface, l’exploitation de mesures de concentrations à l’équilibre avant la fécondation.
Malgré la combinaison de ces trois méthodes aucune constantes multiplicatives n’a permis d’expliquer correctement la synthèse protéique. Il a alors fallu considérer une modification progressive de ces constantes avec un facteur multiplicatif changeant de valeur sur un intervalle de temps [0,T ]. Autrement dit, on a considéré dans cet étude un système d’équations différentielles non autonome. Grâce à l’ajout de ce paramètre, les auteurs de l’étude ont pu mettre en évidence que la synthèse protéique observée n’est possible que lorsqu’on combine simultanément les deux hypothèses (déstabilisation du complexe 4EBP et de la dégradation de BP). Ce résultat est intéressant biologiquement mais on note que la phase d’apprentissage des paramètres cinétiques est difficile même pour ce modèle de taille réduite.
Cas de la cyclineB, passage à l’échelle Une autre question des biologistes au sujet de cette synthèse protéique est de comprendre le cas particulier de la protéine de cyclineB. En effet, l’expérience montre que sa synthèse se comporte différemment : le début de sa synthèse est retardée par rapport aux autres protéines, le taux de synthèse semble être environ double par rapport à la moyenne des autres protéines. Pour comprendre cette exception, les biologistes ont imaginé un réseau de réactions plus complexe en intégrant un second mécanisme de synthèse de la cyclineB. Cette extension oblige alors à distinguer les types d’ARN messagers ce qui conduit à un réseau bien plus grand comportant 26 réactions et 21 espèces . Vu les difficultés rencontrées pour inférer les paramètres du petit modèle, il n’a pas été possible de procéder à une étude similaire pour tenter de valider ou d’invalider ce nouveau modèle plus complexe.
Les limites du déterminisme
Dans ce chapitre, nous avons présenté les réseaux de réactions ainsi que leur modélisation dynamique par équations différentielles. Nous avons mis en évidence les difficultés rencontrées lorsqu’on souhaite utiliser en pratique de tels modèles, principalement en raison du problème de l’inférence des paramètres cinétiques. Nous avons illustré ces difficultés sur l’exemple concret de la modélisation de la synthèse protéique cap-dépendante dans la cellule œuf de l’oursin. Ainsi, les approches différentielles souffrent d’un problème de passage à l’échelle. Un des moyens d’étudier de plus grands réseaux est de considérer les approches stationnaires, dont la plus connue est le flux balance analysis, et qui permettent tout de même d’étudier les réseaux de réactions en régime stationnaire sans connaissances des lois et constantes cinétiques, en exploitant uniquement l’information stœchiométrique du réseau. En particulier nous avons montré comment on peut obtenir des contraintes sur les flux stationnaires en exploitant des mesures de pentes moyennes de production des espèces. Lorsque les systèmes de contraintes obtenus n’admettent pas de solutions alors on peut considérer (sous réserve d’existence du régime stationnaire) que le réseau peut être réfuté. Dans cette thèse on considérera donc que le problème du passage à l’échelle est résolu dans ce cas grâce aux méthodes par contraintes.
Toutefois, une limite importante de la sémantique différentielle sont les caractères continus et déterministes de la dynamique. L’avantage de l’utilisation des concentrations continues est qu’elles résument en une seule valeur un grand nombre d’informations (quantités de molécules, positions, vitesses, etc). L’inconvénient est que la dynamique par action de masse présuppose une homogénéité du système, son équilibre thermodynamique et des populations suffisamment grandes. En effet, puisque une seule valeur des concentrations à un instant t modélise un grand nombre d’états réels possibles, il y a plusieurs concentrations possibles à l’instant t + ∆t et donc fondamentalement cette modélisation ne devrait pas être déterministe. Les équations différentielles doivent donc être comprises comme un modèle traitant de valeurs moyennes et qui est justifié quand les quantités de matières sont suffisantes. Dans les cas de faibles concentrations ou de compartiments de petits volumes il n’est plus satisfaisant. Ce cas n’est pas rare en biologie puisque des études [Wil09, ARM98, GZRI+06, MA97] montrent l’importance des comportements stochastiques en biologie.
Table des matières
Introduction
I Préliminaires, état de l’art
1 Modèles dynamiques et stationnaires différentiels
1.1 Réseaux de réactions
1.1.1 Définition
1.1.2 Représentations
1.1.3 Petits exemples
1.1.4 Exemple de la synthèse protéique cap-dépendante de la cellule œuf chez l’oursin
1.2 Dynamiques par équations différentielles
1.2.1 Définition
1.2.2 Lois de flux
1.2.3 Limites : lois, paramètres et passages à l’échelle
1.2.4 Exemple de la synthèse protéique chez l’oursin
1.3 Analyse stationnaire des flux et réfutation
1.3.1 Cône d’équilibre des flux stationnaires et utilisation de données de pentes
1.3.2 Méthodes par contraintes reposant sur l’équilibre des flux
1.3.3 Réfutation d’un modèle 1 voie dans le modèle oursin
1.4 Les limites du déterminisme
2 Modèles dynamiques probabilistes
2.1 Modélisation dynamique Markovienne
2.2 De l’équation maîtresse aux moments
2.3 Comparaison avec la dynamique différentielle
2.4 Résolution de l’équation maîtresse
2.4.1 Résolution exacte
2.4.2 Approximations des moments
2.4.2.1 Méthodes des moments clos
2.4.2.2 L’approximation de bruit linéaire
2.4.2.3 Conclusion
2.4.3 Méthode de Monte-Carlo
2.5 Conclusion
II Approximation de Bernoulli du régime stationnaire en dynamique stochastique et applications
3 Approximation de Bernoulli du régime stationnaire
3.1 Discrétisation de la dynamique stochastique
3.1.1 Définition
3.1.2 Validité
3.1.3 Illustration
3.2 Dynamique de Bernoulli
3.2.1 Définition
3.2.2 Expression analytique des espérances et variances
3.2.3 Théorème central limite pour la dynamique de Bernoulli
3.2.4 Interprétation en tant que marches aléatoires
3.3 Analyse stationnaire et validité de l’approximation
3.3.1 Probabilités de réactions stationnaires
3.3.2 Comparaison des espérances
3.3.3 Comparaison des matrices de covariances
3.4 Conclusion
4 Applications à la validation de modèles
4.1 Méthodes par contraintes pour les moments d’ordre 1 et 2
4.1.1 Table des contraintes
4.1.2 Effet d’un bruit blanc expérimental
4.1.3 Exemples
4.1.3.1 Illustration de l’intérêt des contraintes de moments d’ordre 2
4.1.3.2 Exemple d’un réseau métabolique jouet
4.2 Ellipsoïdes de confiance
4.2.1 Définition
4.2.2 Étude des cas dégénérés de la loi limite
4.2.2.1 P-invariants
4.2.2.2 Cas du processus de comptage
4.2.2.3 Caractérisation
4.2.3 Application à la réfutation de modèles
4.3 Contraintes par l’exploitation d’un rapport de taux de production
4.3.1 Convergence du rapport de taux de production
4.3.2 Nouveau tableau de contraintes
4.4 Conclusion
5 Vérification de propriétés asymptotiques sur les réseaux stationnaires
5.1 Syntaxe et sémantique
5.1.1 Syntaxe
5.1.2 Sémantique
5.2 Satisfaisabilité et validité
5.3 Exemple
5.4 Conclusion
Conclusion
Contexte
Résultats
Perspectives
Bibliographie