Processus gaussien a posteriori pour données fonctionnelles
Les données fonctionnelles
Généralités
L’analyse de données fonctionnelles [102] consiste à mettre en place des méthodes statistiques dans lesquelles les observations sont des fonctions, c’est-à-dire des courbes. Beaucoup de domaines d’application font appel à des courbes et des signaux, comme la spectrométrie ou lors de l’étude de courbes de croissance. Avec le développement actuel du phénotypage où les données sont recueillies en temps continu, de plus en plus d’utilisateurs ont besoin d’outils capables de classer des courbes. Une variable aléatoire est dite fonctionnelle si ses valeurs sont dans un espace de dimension infinie. Une observation d’une variable fonctionnelle est appelée donnée fonctionnelle. Le plus souvent, une donnée fonctionnelle est définie comme la trajectoire d’un processus stochastique Y = (Yt)t∈[0,T]. Sauf mention explicite, dans toute la suite de cette thèse, nous considérerons uniquement des processus dont les trajectoires appartiennent à l’espace L2 ([0,T]), espace des fonctions de carré intégrable sur [0,T]. Cet espace étant polonais 1 , il nous garantit l’existence des probabilités conditionnelles d’après Dudley . En pratique, une donnée fonctionnelle n’est jamais observée continûment, mais en un nombre fini de temps d’observation. Il est donc possible de résumer chaque courbe comme un vecteur et ainsi de transformer le problème en dimension finie, mais cette approche néglige l’aspect fonctionnel. L’utilisation de modèles fonctionnels présente l’avantage de pouvoir prendre en compte la corrélation temporelle des données. Une des spécificités des données fonctionnelles est également la possibilité d’utiliser l’information contenue dans les dérivées. Certains auteurs [19] ont montré qu’elles pouvaient révéler des caractéristiques importantes des jeux de données.
Les processus gaussiens
Les processus gaussiens jouent un rôle crucial dans la théorie des processus stochastiques car : 1. beaucoup de processus stochastiques peuvent être approchés par des processus gaussiens, 2. beaucoup de calculs sont facilités dans le cadre des processus gaussiens. Rappelons que les processus gaussiens sont la généralisation des lois normales multivariées aux espaces de dimension infinie et qu’un processus est gaussien si, et seulement si, toutes ses lois fini-dimensionnelles sont des lois normales multivariées. Un processus gaussien de loi Pm,K est défini par le biais de deux fonctions qui sont sa fonction moyenne m et sa fonction de covariance K, qui est symétrique et définie positive (voir annexe A.3). Rappelons qu’une fonction de deux variables K définie sur [0,T]×[0,T] est dite : (i) définie positive si pour tout entier non nul n ∈ N\{0}, tous t1,…,tn ∈ [0,T] et a1,…,an ∈ R, Xn i=1 Xn j=1 ai ajK(ti ,tj) ≥ 0, (2.1.1) (ii) symétrique si pour tous s,t ∈ [0,T], K(s,t) = K(t,s), (2.1.2) Dans la littérature, les processus gaussiens sont souvent notés GP(m,K), mais pour des raisons de commodité, nous les noterons Pm,K dans toute la suite. La fonction de covariance influe sur la régularité des trajectoires du processus. Le lecteur pourra se référer par exemple à Cramér & Leadbetter ou encore Shi & Choi concernant le choix de cette dernière.
Densité d’un processus gaussien
Objectif
Notons Y = (Yt)t∈[0,T] un processus gaussien quelconque et PY sa mesure de probabilité associée (voir annexe A.3). Notre objectif est de trouver une mesure de référence P pour laquelle on puisse exprimer la dérivée de Radon-Nikodym dPY dP , c’est-à-dire une expression de la densité de probabilité de PY par rapport à P. Un problème récurrent en traitement du signal, et qui rejoint notre but initial, est de pouvoir extraire un signal depuis une observation bruitée. Formellement, cela revient à considérer deux processus stochastiques X = (Xt)t∈[0,T] et ² = (²t)t∈[0,T], le premier étant appelé « signal » et le second « bruit ». En notant Y = X+² le processus observé, l’un des objectifs en traitement du signal est de déterminer dPX+² dP² . Ce problème est en particulier équivalent au problème de test d’hypothèse suivant : 50 2.2. Densité d’un processus gaussien (H0) Y = ², (H1) Y = X+², dans lequel le rapport de vraisemblance est égal à dPX+² dP² (Y), que nous noterons L(Y) dans toute la suite et que nous appellerons processus de vraisemblance 2 . Pour la bonne compréhension de la suite, le lecteur peut se référer à l’annexe A.4 pour une brève définition d’une intégrale d’un processus.
Travaux précurseurs pour un bruit blanc gaussien
Parmi les travaux précurseurs, Price [100, 101] est le pionnier dans le cas où ² est un bruit blanc gaussien P0,R, pour lequel la fonction de covariance R est donnée par : R(s,t) = δs(t). Supposons de plus X ∼ P0,K avec X et ² indépendants. Historiquement, à condition que : 1. la fonction K(•,•) soit continue sur [0,T]×[0,T], (2.2.1) 2. R T 0 K(t,t)d t < ∞, (2.2.2) Price a montré que l’on pouvait écrire : L(Y) = 1 p B(Y) e 1 2 R T 0 R T 0 H(s,t)YsYtd sd t , où B(Y) est un terme déterministe de biais et H(•,•) est une fonction appelée résolvant de Fredholm de K, solution de l’équation intégrale : H(s,t)+ Z T 0 H(τ,t)K(s,τ)dτ = K(s,t). Dans le courant des années 1960, Stratanovich & Sosulin [119–121] et Schweppe [111] ont voulu généraliser cette formule en introduisant un processus stochastique noté Xc1, qui est une fonction du passé de Y, c’est-à-dire que Xc1(t) dépend uniquement des valeurs {Ys ,s < t}. Cependant, le calcul de Xc1 n’est la plupart du temps pas réalisable hormis par approximations, et ces approches souffrent d’un problème pratique. Il est possible de s’affranchir de la condition d’indépendance entre le signal et le bruit. Dans ce cas, on écrira Cov(Ys ,Yt) = δs(t)+K(s,t), où : K(s,t) = E(XsXt)+E(Xs²t)+E(²sXt). Dans ce cas, la fonction K reste symétrique mais n’est plus forcément définie positive au sens de l’équation (2.1.1). Pour pallier ce problème, il nous faut supposer que : 1. la fonction (s,t) 7→ Cov(Ys ,Yt) est définie positive sur [0,T]×[0,T], (2.2.3) 2. R T 0 R T 0 K 2 (s,t)d sd t < ∞. (2.2.4) 2. Il s’agit bien d’un processus, en tant que dérivée de Radon-Nikodym de deux processus. 51 2. PROCESSUS GAUSSIEN A POSTERIORI POUR DONNÉES FONCTIONNELLES Remarquons que les conditions (2.2.1) et (2.2.2) ci-dessus impliquent les conditions (2.2.3) et (2.2.4). Sous ces conditions, une nouvelle expression du rapport de vraisemblance a été donnée par Shepp [113] en 1966, sous la forme : L(Y) = 1 p C(Y) e J(Y)e R T 0 R T 0 H(s,t)K(s,t)d sd t , où C(Y) est une fonction déterministe et J(Y) fait intervenir l’intégrale double de Wiener centrée. Dans un rapport de 1969, Kailath [56] a montré l’expression suivante : L(Y) = e R T 0 Xc1(t)Ytd t− 1 2 R T 0 Xc1(t) 2d t , où R désigne l’intégrale d’Itô et Xc1(t) = E(Xt |{Ys ,s < t}). Des détails sur l’intégrale d’Itô se trouvent par exemple dans le livre de Doob [31]. Toutes ces formules ne sont pas facilement explicitables et restent donc très peu utilisées en pratique. Remarquons simplement que dans cette dernière formule, si X est déterministe et égal à la fonction m, alors Xc1 = m et on retrouve la formule du rapport de vraisemblance pour le problème de test suivant : (H0) Y = ², (H1) Y = m +².
Travaux précurseurs pour un bruit gaussien quelconque
Supposons dans cette sous-section que ² est le processus gaussien quelconque P0,R et que X est déterministe et égal à la fonction continue m. Dans la littérature, une première approche due à Grenander [46] a été de considérer les développements de Karhunen-Loève. A condition que la fonction R soit continue sur [0,T] × [0,T] et que R T 0 R T 0 R 2 (s,t)d sd t < ∞, on sait que l’on peut trouver des valeurs propres (λk )k≥1 et des fonctions propres (ψk )k≥1 vérifiant pour tout entier k ≥ 1 : Z T 0 R(s,t)ψk (s)d s = λkψk (t), et on a alors la décomposition suivante : ²t = X∞ k=1 ²kψk (t), ²k = Z T 0 ²tψk (t)d t. La convergence ci-dessus est une convergence en moyenne quadratique pour chaque t ∈ [0,T]. Les coefficients ²k sont des variables aléatoires non corrélées, de moyenne nulle et de variance λk . Il est alors possible de déduire : L(Y) = e P∞ k=1 mk Yk λk − 1 2 P∞ k=1 m2 k λk , où mk = R T 0 m(t)ψk (t)d t et Yk = R T 0 Ytψk (t)d t. En posant de plus a(t) = P∞ k=1 mk λk ψk (t), l’expression peut également s’écrire : L(Y) = e R T 0 a(t)Ytd t− 1 2 R T 0 a(t)m(t)d t . 52 2.2. Densité d’un processus gaussien En revanche, même si la fonction a est solution d’une équation difficile, celle-ci est souvent peu explicitable. La théorie des espaces de Hilbert à noyau reproduisant (RKHS) permet de contourner de nombreux problèmes. Nous allons voir en quoi cette théorie offre un cadre de travail plus simple pour expliciter des densités de processus gaussiens. 2.2.4 Espaces de Hilbert à noyau reproduisant Commençons par donner quelques définitions et propriétés générales sur les espaces RKHS, abréviation de Reproducing Kernel Hilbert Space en anglais. Rappelons avant tout qu’un espace vectoriel H, muni d’un produit scalaire (•,•)H, est un espace de Hilbert si c’est de plus un espace complet pour la norme induite par le produit scalaire, c’est-à-dire la norme définie par ||u||H = p (u,u)H. Un théorème énoncé par Moore [85] en 1935 et démontré, entre autres, par Aronszajn [5] en 1950 justifie l’existence des espaces RKHS et peut se résumer de la façon suivante : Théorème 2.1 (Moore, 1935) Soit K la fonction de covariance d’un processus gaussien sur [0,T]. Alors il existe un unique espace de Hilbert, que l’on note H(K) et que l’on appelle espace de Hilbert à noyau reproduisant et de noyau K, défini comme l’espace des fonctions réelles f sur [0,T] vérifiant : (i) ∀s ∈ [0,T], K(•,s) ∈ H(K), où K(•,s) est la fonction s0 7→ K(s 0 ,s), (ii) ∀t ∈ [0,T], ∀f ∈ H(K), f (t) = (f ,K(•,t))K. (•,•)K désigne le produit scalaire dans l’espace H(K). Remarque 2.1 La propriété (ii) est dite propriété reproduisante et justifie le nom de la théorie RKHS. Une question naturelle est alors la suivante : comment expliciter le produit scalaire ? Pour trouver un produit scalaire, le plus simple reste de le construire. A chaque fonction de covariance étant associé un unique espace RKHS, on peut dans certains cas proposer un produit scalaire et montrer qu’il vérifie les propriétés (i) et (ii) précédentes ; l’espace étant unique, il s’agira alors du produit scalaire de H(K). Kailath, Geesey & Weinert [57] ou encore Weinert [135] proposent des écritures de produits scalaires pour différentes fonctions de covariance. Les auteurs y décrivent également de nombreux espaces RKHS. Précisons qu’il est aussi possible d’approcher numériquement un produit scalaire. Nous le verrons à la fin de cette sous-section.