Méthode du group-lasso pour la sélection de variables dans le modèle de Cox pour les données en clusters
L’approche non-paramétrique
L’approche non-paramétrique est utilisée lorsqu’aucune hypothèse n’est faite sur la distribution des temps de survie. Il s’agit dès lors d’un problème d’estimation fonctionnelle, avec les équivoques que cela implique par exemple, la fonction de survie sera estimée par une fonction discontinue, sachant qu’elle est continue.
L’approche non-paramétrique
L’inconvénient d’une telle approche est la nécessité de disposer d’un nombre important d’observations, le problème de l’estimation d’un paramètre fonctionnel étant délicat puisqu’il est non décrit par un nombre fini de paramètres, c’est à dire il appartient à un espace de dimension infinie.
Estimation du risque cumulé
L’une des fonctions qui caractérisent la distribution des temps d’événements est la fonction de risque cumulé. Nous traiterons donc de l’estimation de la fonction de risque cumulé, avec l’estimateur de Nelson-Aalen.
Estimateur de Nelson-Aalen Ab(t)
Lorsque X admet une densité f, on a défini la fonction du risque cumulé noté dans cette section par A(t) = Z t 0 h(u)du = Z t 0 f(u) S(u) du. Dans le cas où la distribution de X n’admet pas de dérivée en tout point de R+, on peut toujours écrire le risque cumulé .
L’approche semi-paramétrique
Elle peut être vue comme une sorte de médiation entre l’approche nonparamétrique et l’approche paramétrique. En effet, on utilise cette approche lorsque la famille de lois à laquelle appartient la loi de la variable de durée X n’est pas totalement spécifiée. Apparue au cours des années soixante-dix, cette approche est très répandue en analyse de la survie, notamment à travers le modèle de régression de [26]. Le modèle de régression semi-paramétrique à risques proportionnels de Cox est l’un des modèles de régression de durée les plus utilisés en statistique médicale. Il permet en particulier d’identifier les facteurs de risque d’une maladie, de comparer des traitements, d’estimer des probabilités de survenue d’un événement (décès, rechute) chez un individu identifié par un vecteur donné de variables explicatives. Le modèle de durées de vie accélérées (Accelerated failure time model ou ATF détaillé dans [27] et le modèle additif de hasard [38] sont présentés comme des alternatives du modèle de Cox. Tous ces modèles ne considèrent que la survenue d’un seul événement tel que le décès, la première récidive, l’apparition de la démence ou la survenue d’un diabète… Le modèle de Cox classiquement utilisé en analyse de survie suppose l’indépendance des temps de survie (au moins conditionnellement à un ensemble de variables explicatives observées). Or cette hypothèse s’avère quelque fois irrecevable au cas de l’existence de ”cluster” ou groupes d’individus au sein desquels les durées sont corrélées. Ces groupes peuvent représenter les individus d’une même famille, les patients traités au sein d’un même hôpital.
Les organes d’un même patient
Les clusters peuvent également représenter des durées observées de manière répétée sur le même individu : date de rechute, date de réapparution d’un symptôme donné [78]. L’utilisation sur des données corrélées d’un modèle de Cox conçu pour l’analyse de données indépendantes peut biaiser les paramètres de régression et lorsque la variable explicative est spécifique à chaque groupe, elle conduit à une sous-estimation de la variance de l’estimateur du paramètre. D’où l’introduction du modèle de Cox avec « fragilité ».
Les modèles à risques proportionnels
Pour utiliser ces modèles exprimant un effet multiplicatif des diverses covariables sur la fonction de hasard (modèle à structure multiplicative), on introduit une fonction de hasard de base (appelée encore fonction de risque de base) et qui est commune à tous les individus. En d’autres termes on se place dans un contexte où l’objectif est le positionnement de différentes populations les unes par rapport aux autres, sans considération du niveau absolu du risque. Cela motive l’intérêt pour une spécification partielle, étudiée ici.
La vraisemblance partielle de Cox
Le modele de Cox, [26], est un modèle semi-paramétrique à risques proportionnels puisqu’il est paramétré par un vecteur de paramètres réels .Il est très important de comprendre que le terme : ( hi(ti) P j2R(ti) hj (ti) ) représente la probabilité qu’un individu i connaisse l’événement du temps ti sachant q’il s’est produit un événement à cette durée parmi tous les individus à risque R(ti). On note Zi le vecteur associé des coéfficients de régression.
Dédicaces |