Le sujet de cette thèse (publier sur clicours.com) est d’essayer d’adapter des techniques de sélection de modèle à un cadre particulier : celui des processus ponctuels. Plus précisément, on veut montrer que, pour certains processus ponctuels, les estimateurs par projection pénalisés sont adaptatifs, soit parmi une famille d’estimateurs par projection, soit pour le risque minimax. En fait, on s’est restreint à deux cas de processus ponctuels: les processus de Poisson inhomogènes et les processus de comptage à intensité multiplicative d’Aalen. Dans cette introduction, nous allons tout d’abord présenter ces deux types de processus. Puis nous exposerons la méthode dans un cadre très simple. Ensuite nous généraliserons et présenterons nos résultats principaux.
Un processus ponctuel est un ensemble aléatoire au plus dénombrable de points d’un espace X.
Processus de Poisson. Les processus de Poisson sont les processus ponctuels les plus simples à étudier. Definition 1. Soit (X, X ) un espace mesurable. Soit N un processus ponctuel. On dit que N est un processus de Poisson sur (X, X ) si et seulement si
• pour tout A de X , le nombre de points de N apparus dans A est une variable aléatoire NA qui suit une loi de Poisson de paramètre ν(A).
• pour toute famille finie d’ensemble disjoints A1, …, An de X , NA1 , …, NAn sont des
variables indépendantes. La fonction ν sur X définie ci-dessus est en réalité une mesure, appelée mesure moyenne du processus. Si elle est absolument continue par rapport à une mesure de référence connue µ, la dérivée de Radon-Nykodym de ν est appelée l’intensité du processus de Poisson par rapport à µ. L’intensité du processus sera notée s. Le processus est considéré comme homogène si cette intensité est constante, inhomogène sinon. L’étude des processus de Poisson est très florissante : les livres [40] et [43] en donnent une bonne vision d’ensemble. En effet, les processus de Poisson peuvent modéliser une grande quantité de situations. Les processus de Poisson temporels (i.e. définis sur R +) peuvent modéliser les instants de pannes dans la vie d’une machine (les pannes étant réparées immédiatement après), ou les instants de réception de rayons Gamma par la Terre [41]. Les processus spatiaux (i.e. définis sur un ouvert de R 2 ou R 3 ) peuvent quant à eux modéliser les lieux d’émission d’appels téléphoniques dans une ville, les lieux d’émission de protons dans le cerveau au cours d’une radiographie RMN, et plein d’autres encore. Dans chacun de ces cas, la fréquence locale des instants ou la “densité” locale de points est représentée par l’intensité du processus de Poisson qui caractérise complètement sa loi. C’est cette fonction que nous cherchons à estimer à partir de l’observation de N .
Processus de comptage temporels. Un processus de comptage est une fonction (Nt ,t ≥ 0) en escalier, aléatoire croissante issue de 0 et de sauts égaux à 1. Ils sont “de comptage” car généralement ils représentent, en fonction du temps t, un nombre d’événements ayant eu lieu jusqu’à t. Un processus de comptage peut être facilement associé (et donc identifié) au processus ponctuel temporel représentant l’ensemble de ses instants de sauts. Un processus de Poisson temporel peut donc être vu comme un processus de comptage où à t fixé, Nt est le nombre de points du processus de Poisson tombés avant t, c’est-à-dire avec les notations du paragraphe précédent N[0,t] . De manière générale, la fonction aléatoire en escalier (Nt ,t ≥ 0) engendre de manière classique une filtration (Ft ,t ≥ 0). Comme la fonction est croissante, on lui associe dorénavant un compensateur (Λt ,t ≥ 0) croissant de telle sorte que (Mt = Nt − Λt ,t ≥ 0) soit une martingale. Pour un processus de Poisson temporel, dΛt (mesure associée au sens de l’intégrale de Stieljes à (Λt ,t ≥ 0)) est la mesure moyenne du processus, dν. Pour un processus de comptage général, si I et J sont deux intervalles disjoints, ce qui se passe dans I peut dépendre de ce qui se passe dans J si J est avant I. Les processus de comptage permettent donc de modéliser plus de situations que les processus de Poisson. Une construction précise ainsi que les propriétés probabilistes des processus de comptage sont données dans le livre [17]. Une étude très poussée des nombreuses applications statistiques de ces processus a été faite dans le livre [2].
Processus à intensité multiplicative d’Aalen. Les processus de comptage que nous allons étudier ici sont dits à intensité multiplicative d’Aalen car leur compensateur vérifie dΛt = Yts(t)dt, où dt représente la mesure de Lebesgue, (Yt ,t ≥ 0) est un processus prévisible observé et s est une fonction déterministe inconnue, que l’on va chercher à estimer avec les observations de N et Y .
Les processus de Poisson temporels en sont un cas particulier : s est l’intensité du processus de Poisson par rapport à la mesure dµ = Y dt où Y est une constante déterministe dans ce cas. Il y a plusieurs autres exemples classiques de ces processus (voir [2] pour une liste détaillée). Rappelons ici quelques uns des exemples les plus étudiés.
Taux de hasard
Il y a des processus avec un seul saut. L’exemple le plus simple est le suivant : si X est une variable positive de densité f, (Nt ,t ≥ 0), donné par (1IX≤t ,t ≥ 0), est un processus de comptage à un seul saut avec une intensité multiplicative où Yt = 1IX≥t est un prévisible observable et où s(t) est f(t)/P(X ≥ t). On dit que s est le taux de hasard (hazard rate) de X. Cette quantité est très importante en médecine ou en fiabilité. Si X est une durée de vie, s(t) représente la probabilité de rester en vie un peu après t sachant qu’on était vivant en t. On a souvent un n-échantillon de ces durées de vies : X1, …, Xn, chacun de taux de hasard s. A chacun correspond un processus de comptage N i et un prévisible Y i . Le processus N qui est la somme des N i est lui aussi un processus de comptage à intensité multiplicative avec Y qui est la somme des Y i et avec toujours s, le taux de hasard, comme fonction déterministe. Dans ce cas, Yt représente le nombre d’événements qui vont avoir lieu après t. Il est borné par n, le nombre total d’événements.
Modèles Markoviens
Ces modèles sont eux aussi très fréquents : on dispose de (X(t),t ≥ 0) processus de Markov à espace d’états finis. Le processus de comptage (N hj t ,t ≥ 0) est celui qui compte le nombre de transitions de l’état h vers l’état j avant l’instant t. Il a une intensité multiplicative de la forme Y h t shj(t) où shj(t) est l’intensité de transition de h vers j et où Y h t est 1IX(t)=h. Comme précédemment, on peut avoir un n-échantillon, à chacun d’eux associer un processus de comptage et faire la somme : le nouveau Y h t correspond alors au nombre de personnes dans l’état h, il est toujours majoré par le nombre total de processus individuels. Ces modèles Markoviens modélisent par exemple les passages d’état sain à état malade puis guérison de certains patients (processus de Markov à deux états, malade et sain).
Censure
La censure permet de modéliser le fait que certaines informations ou certains temps d’apparition exacts manquent. Cela revient à dire qu’au lieu d’observer N on observe Nc processus censuré qui ne contient qu’une partie de l’information. Il y a énormément de types de censure [2].
Introduction |