Les dernières décennies ont connu un fort essor des interactions entre les statistiques mathématiques et de nombreux domaines de recherche (génétique, écologie, imagerie médicale, finance, …). De la modélisation à l’analyse de données complexes, ces relations ont permis de meilleures approches de certains phénomènes. Cependant, elles ont aussi grandement étendu le champ de recherche des statisticiens. Ce lien entre les statistiques et le milieu des sciences appliquées trouve souvent sa source dans le souhait du non-statisticien d’avoir accès à des outils et des procédures lui permettant de formaliser son étude dans un cadre mathématique et de pouvoir traiter convenablement les données observées. Cela se traduit pour lui par la construction de modèles simples à expliquer mais assez riches pour prendre en compte la complexité du phénomène observé. C’est dans cette recherche de compromis entre adéquation aux données et relative simplicité du modèle que la théorie de la sélection de modèle trouve, entre autres, un vaste champ d’application.
Lors des interactions entre statisticiens et expérimentateurs, une des premières étapes consiste à prendre les probabilités comme langage commun. En particulier, ils doivent s’accorder sur une modélisation probabiliste satisfaisante pour les uns comme pour les autres. A la base de tout ce qui se construira ensuite, cette étape est cruciale et doit rendre compte de la connaissance du phénomène dont disposent les expérimentateurs.
Bien que les récents progrès des statistiques aient permis d’envisager des modèles de plus en plus généraux, le paramètre de variance des variables aléatoires introduites lors de cette étape de modélisation reste encore souvent supposé connu et constant. Dans le monde de l’expérimentateur, cette quantité est, malheureusement, bien souvent inaccessible et doit être approchée pour mettre en place les procédures proposées par le statisticien. Cela donne lieu à des méthodes utilisées en pratique mais dont les propriétés mathématiques peuvent être difficiles (voire impossibles) à établir. Ce constat fait apparaître la nécessité de prendre en compte la nature inconnue et potentiellement variable de la variance dans la construction de nouveaux outils statistiques.
Régression hétéroscédastique. L’analyse des modèles régressifs est un sujet mathématique ancien. Les premiers travaux dans le domaine sont dus à Legendre [Leg05] et à Gauss [Gau09] pour l’estimation des orbites de certains corps du système solaire. Etant données deux variables X ∈ X ⊂ Rd et Y ∈ Y ⊂ R, les modèles régressifs permettent d’expliquer les variations de Y en fonction de celles de X. De façon générale, ces modèles se présentent sous la forme
Y = s(X) + σ(X)ε (1.1.1)
où ε est un terme de bruit (ou d’erreur), s : X → Y est appelée fonction de régression et σ : X → R∗ + s’appelle le niveau de bruit. La variable ε est supposée centrée et de variance unitaire conditionnellement à X (mais pas forcément indépendante de X), ce qui donne une autre définition de la fonction de régression, s(x) = E[Y |X = x], x ∈ X .
Ainsi, expliquer comment Y fluctue en fonction de X revient à déterminer des fonctions s et σ de telle sorte que (1.1.1) décrive au mieux la réalité du phénomène. D’un point de vue statistique, étant données des observations X1, . . . , Xn ∈ X et Y1, . . . , Yn ∈ Y, le problème consiste à construire de telles fonctions uniquement à partir des couples (Xi , Yi). Nous supposons donc qu’il existe deux fonctions s et σ inconnues telles que Yi = s(Xi) + σ(Xi)εi , i = 1, . . . , n , (1.1.2)
et l’objectif est d’en donner des estimateurs construits à partir des observations. Lorsque les Xi sont des variables aléatoires, ce problème de régression est dit à support aléatoire. Inversement, lorsque les Xi sont déterministes et connues, nous parlons de support fixe. Les résultats présentés dans la suite de cette thèse sont tous établis dans le cadre de la régression à support fixe. Pour plus de précisions sur ces deux situations, le lecteur pourra consulter [Bar00] et [Bar02]. Désormais, les variables du support seront notées en lettres minuscules afin de garder à l’esprit leur nature déterministe. Considérons donc les observations (x1, Y1), . . . ,(xn, Yn) ∈ X × Y et supposons, dans un premier temps, qu’elles sont indépendantes et que le niveau de bruit σ(·) ≡ σ > 0 est constant. Un tel cas est appelé régression homoscédastique. Il est possible de reformuler (1.1.2), Yi = si + σεi, i = 1, . . . , n, (1.1.3) .
Chapitre 1. Introduction |