Modélisation et analyse prédictive des risques et des conséquences post accident vasculaire cérébral

Modélisation et analyse prédictive des risques et des conséquences post accident vasculaire cérébral

Modèles et modélisation

Les modèles sont utilisés dans la plupart des disciplines scientifiques comme substituts de la réalité. Il se peut qu’il soit pratiquement impossible de mener des expériences sur un système physique, et donc faire recours à un modèle soit pour remplacer le dit système ou bien le généraliser à de nouvelles situations. Un modèle d’évolution décrit le comportement d’un système à l’aide d’un langage mathématique. Ce dernier pourrait être un ensemble d’équations différentielles comme il pourrait être une règle pour combiner des observations passées. Les modèles mathématiques présentent un intérêt et une utilisation particuliers pour l’ingénierie et la science. Étant donné qu’ils sont utilisés et revêtent une importance dans tant de domaines différents, il existe bien entendu une grande variété de types de modèles et de techniques de modélisation. Il existe également plusieurs domaines étudiant l’acte de modélisation, chacun avec sa propre nomenclature. L’art de la modélisation consiste à trouver un équilibre permettant de répondre aux questions posées ou de se poser de nouvelles questions. La complexité du modèle dépendra alors du problème et de la réponse requise, de sorte que différents modèles et analyses peuvent être appropriés pour un même ensemble de données. Dans cette thèse, l’intérêt est porté particulièrement à la modélisation statistique avec ses différents approches et modèles. La modélisation statistique peut être considérée comme un outil puissant pour développer et tester des théories à travers l’explication causale, la prédiction et la description. Dans de nombreuses disciplines, il existe une utilisation quasi-exclusive de la modélisation statistique pour l’exploration causale, selon laquelle les modèles à fort pouvoir explicatif sont d’un pouvoir prédictif élevé. Dans différents domaines, tels que l’économie, la psychologie, l’éducation et les sciences de l’environnement, les modèles statistiques sont majoritairement utilisés pour l’explication causale, et les modèles possédant un pouvoir explicatif élevé jouissent d’un pouvoir prédictif inhérent. Dans des domaines tels que le traitement du langage naturel, la bio-informatique et l’épidémiologie, l’accent mis sur l’explication causale par rapport à la prédiction empirique est plus mitigé. La caractéristique clé d’un modèle statistique est que la variabilité est représentée à l’aide de distributions de probabilités. Ces distributions forment les éléments de base à partir desquels le modèle est construit. En règle générale, le modèle doit tenir compte des variations aléatoires et systématiques. Le caractère aléatoire associé à la distribution de probabilité explique la dispersion aléatoire dans les données, tandis que le modèle systémique est supposé être généré par la structure du modèle. Concernant le volet modèles et modélisation, nous nous intéressons majoritairement au modèle linéaire à effets mixtes et au modèle espace-état.Ces différentes approches de modélisation ont largement servi à l’obtention des résultats clés de cette thèse. C’est pourquoi nous présentons et décrivons soigneusement les modèles, l’intuition, les hypothèses et les compromis derrière chacune des méthodes que nous considérons. En premier lieu, nous examinons le modèle linéaire (LM), qui est le point de départ fondamental de tous les modèles d’analyse prédictive. Nous présentons également des extensions de ce modèle, à savoir, le modèle linéaire généralisé (GLM), le modèle additif (AM) et le modèle additif généralisé (GAM). La figure 1.1 donne un aperçu général des liens existants entre différents modèles d’analyse prédictive. Elle montre également que nous pouvons combiner des modèles mixtes et additifs pour obtenir une classe de modèle plus sophistiquée à savoir le modèle additif mixte généralisé (GAMM). En second lieu, nous donnons une emphase spéciale au modèle linéaire à effets mixtes (LMM). Dans ce sens, nous définissons le (LMM) et les notions d’effets fixes et aléatoires. Nous estimons les paramètres de variance de ce modèle via la méthode du maximum de vraisemblance (ML) et celle du maximum de vraisemblance restreint (REML). Nous décrivons et comparons trois algorithmes permettant d’optimiser le calcul de ces estimations : Espérance-maximisation (E-M), Newton-Raphson (NR) et Score de Fisher (Fisher scoring). Nous généralisons le (LMM) au modèle linéaire mixte généralisé (GLMM). Finalement, nous fournissons une description des modèles espace-état que nous jugeons nécessaire à la compréhension du chapitre 4. Des méthodes d’estimation de tels modèles sont ensuite expliquées en deux temps : l’estimation des variables cachées avec le filtre de Kalman, puis celle des paramètres avec l’algorithme E-M.

Modèle linéaire

Le modèle linéaire (LM) est le modèle statistique de base que l’on utilise pour analyser une expérience où l’on étudie sur n unités expérimentales les variations d’une variable réponse y en fonction de facteurs qualitatifs ou quantitatifs, appelés aussi variables explicatives. Le modèle linéaire s’écrit : Yi = µi + i . (1.1) i est le numéro de l’unité expérimentale. µi est l’espérance de Yi et inclut l’effet de variables explicatives. i est une variable aléatoire résiduelle, appelée erreur, incluant la variabilité du matériel expérimental, celle due aux variables explicatives non incluses dans le modèle, et celle due aux erreurs de mesure. Selon la nature des variables incluses dans la partie explicative µi du modèle, on distingue trois grandes catégories de modèle linéaire : Lorsque les variables explicatives sont quantitatives, le modèle est appelé modèle de régression : simple s’il n’y a qu’une seule variable explicative, multiple sinon. Lorsque les variables explicatives sont qualitatives, elles sont appelées facteurs et le modèle ainsi construit est un modèle d’analyse de la variance. Lorsque les variables explicatives sont à la fois de nature quantitatives et qualitatives, le modèle ainsi construit est un modèle d’analyse de la covariance. Structure aléatoire Nous supposerons que la variable aléatoire Yi a une distribution normale avec une moyenne µi et une variance σ 2 , : Yi ∼ N

Propriétés de l’estimateur

Les estimateurs des moindres carrés sont non biaisés : E(βˆ) = β. (1.7) On peut également montrer que si les observations ne sont pas corrélées et ont une variance constante σ 2 , la matrice de variance-covariance de l’estimateur MCO s’écrit : var(βˆ) = (X0X) −1 σ 2 . (1.8) Une autre propriété de l’estimateur MCO est que sa variance est la plus faible parmi tous les estimateurs non biaisés, c’est-à-dire c’est le meilleur estimateur linéaire sans biais (BLEU). Puisqu’aucun autre estimateur sans biais ne peut avoir une variance plus faible pour une taille d’échantillon fixe, nous disons que les estimateurs MCO sont efficaces.

Table des matières

Introduction générale
Chapitre 1 : Revue bibliographique
1.1 Modèles et modélisation
1.1.1 Modèle linéaire
1.1.2 Modèle linéaire généralisé (GLM)
1.1.3 Modèle additif (MA)
1.1.4 Modèle additif généralisé (GAM) .
1.1.5 Modèle linéaire à effets mixtes (LMM)
1.1.5.1 Présentation générale et hypothèses .
1.1.5.2 Estimation jointe des effets fixes et aléatoires : Paramètres de la matrice de covariance connus
1.1.5.3 Estimation des paramètres de variance
1.1.5.4 Algorithmes de maximisation du Maximum de vraisemblance
1.1.6 Modèle linéaire mixte généralisé (GLMM)
1.1.7 Modèle mixte additif généralisé (GAMM)
1.1.8 Modèle espace-état
1.1.8.1 Présentation générale et hypothèses
1.1.8.2 Estimation des variables d’état par le filtre de Kalman
1.1.8.3 Estimation des paramètres par le maximum de vraisemblance : Algorithme EM
1.2 Sélection de variables et techniques de régularisation
1.2.1 Méthodes de régularisation
1.2.1.1 La régression ridge
1.2.1.2 Lasso
1.2.1.3 La régression Elastic-net
1.2.1.4 La régression Weighted fusion
1.2.1.5 Adaptive-lasso
1.2.1.6 La régression Fused lasso
1.2.1.7 La régression Smooth lasso .
1.2.2 Chemins de régularisation .
1.2.2.1 Algorithme « Coordinate Descent »
1.2.2.2 Algorithme « Coordinate Descent » pour le lasso
1.2.2.3 Algorithme « Coordinate Descent » pour l’adaptive lasso
1.2.2.4 Algorithme « Coordinate Descent » pour Elastic-net
1.2.3 Aperçu des méthodes de régularisation existantes dans la littérature
1.3 Construction et conceptualisation d’un modèle de prédiction clinique avec application à l’accident vasculaire cérébral
1.3.1 Concept d’un modèle de prédiction clinique
1.3.1.1 Méthodes et processus de construction de modèles de prédiction clinique
1.3.1.2 Établissement, évaluation et validation de modèles de prédiction clinique
1.3.1.3 Les conditions nécessaires pour construire un modèle de prédiction clinique du point de vue des cliniciens
1.3.1.4 Problèmes actuellement rencontrés dans le développement du modèle de prédiction
1.3.2 Application : Accident vasculaire cérébral (AVC)
1.3.2.1 L’accident vasculaire cérébral et ses conséquences cliniques
1.3.2.2 Déficience cognitive
1.3.2.3 Facteurs de risque
1.3.2.4 Modélisation statistique pour la prédiction des conséquences
post-AVC : « Courbes de récupération »
Chapitre 2 : Une approche problème inverse pour les modèles de régression régularisés avec application à la prédiction de la récupération fonctionnelle après un AVC .
2.1 Introduction
2.2 Methodologie
2.2.1 Problème inverse statistique dans un contexte de régression
2.2.2 Lien avec le cadre bayésien
2.2.3 Méthode proposée : Nouvelle fonction de régularisation (hybride)
2.2.4 Colinéarité, Conditionnement et test de Belsley, Kuh et Welsch
2.3 Simulations
2.4 Application : Prédiction de la récupération fonctionnelle après un AVC
2.4.1 Données et approche de modélisation
2.5 Discussion
Chapitre 3 : Prédiction du risque de déclin cognitif post-AVC
3.1 Introduction
3.2 Cadre théorique
3.2.1 Modèle linéaire mixte et lien avec la régularisation
3.2.2 Modèle linéaire mixte génralisé et lien avec la régularisation
3.3 Stratégie de modélisation
3.4 Méthodologie
3.4.1 Source des données
3.4.2 Les participants
3.4.3 Résultat et prédicteurs
3.4.4 Données manquantes
3.4.5 Méthodologie et analyses statistique
3.4.5.1 Sélection de variables
3.4.5.2 Mesures des performances du modèle
3.4.5.3 Courbes de récupération régularisées
3.4.5.4 Développement et validation du modèle
3.4.5.5 Éthiques
3.5 Résultats
3.5.1 Caractéristiques des participants
3.5.2 Performance du modèle
3.6 Discussion
3.7 Implications
3.8 Conclusion
Chapitre 4 : Séries temporelles structurelles : de la formulation espaceétat à la représentation en modèle à effets mixtes
4.1 Modèle espace-état linéaire gaussien
4.2 Formulation générale
4.3 « Local level model »
4.4 Les séries chronologiques structurelles
4.4.1 Composante tendancielle : « local linear trend model »
4.4.2 Composante saisonnière
4.4.3 « Local linear trend model » avec composante saisonnière
4.4.4 Composante cyclique
4.4.5 Variables explicatives et effets d’intervention
4.5 Matrice de transition avec paramètres
4.5.1 Cas d’un seul paramètre : « local linear trend model » avec facteur d’amortissement
4.5.2 Cas de deux paramètres
4.6 Validation par simulation
4.7 Application : Récupération fonctionnelle post AVC . 98
4.7.1 Exemple 1
4.7.3 Interpretation du modèle
4.8 Discussion
Conclusion générale et perspectives
Appendice Chapitre 2 : Codes Chapitre
2.1 Simulations : cas (p n)
2.2 Simulations : cas (n > p)
2.3 Stroke data (12 weeks)
2.4 Stroke data (26 weeks)
2.5 Stroke data (52 weeks)
Appendice Chapitre 3 : Codes Chapitre 3
3.1 Construction du modèle | Figure 3.1
3.2 Analyse par sous groupes | Figure 3.3
3.3 Performance du modèle à différents seuils (Figure 3.4)
3.4 Analyse de la courbe de décision (DCA) (Figure 3.5) 148
Appendice Chapitre 4 : Codes Chapitre 4
4.1 Simulations : Figure 4.1 | Figure 4.2 1
4.2 Application
4.2.1 Figure 4.3 | Figure 4.4
4.2.2 Barthel index (age > 65) : Figure 4.5|Figure 4.6|Figure 4.7