Quelques lois univariées importantes
On dit qu’une variable aléatoire continue X est distribuée selon la loi Normale de moyenne J-L E IR et de variance (J2 > ° si sa densité est donnée par 1 { 1 (x -J-L )2} fx( x) = –exp — — , (J..j27i 2 (J x ER On note alors X rv N(J-L, (J2) , où J-L est la moyenne de X et (J2, sa variance. La distribution Normale est une des plus importantes et une des plus utilisées. À noter que si X rv N(J-L, (J2), alors la variable aléatoire centrée réduite définie par Z = (X – J-L) / (J est telle que Z rv N(O, 1). Le calcul de probabilités concernant X peut donc toujours s’effectuer à partir de la loi N(O, 1). Spécifiquement, on a ( IPx(a:::; X :::; b) = IPz -a(-JJ–L: ::; Z ~ -b(-JJ–L) . Une autre distribution importante en statistique est la loi Khi-deux. Celle-ci est caractérisée à partir de variables aléatoires Normales centrées réduites indépendantes. De façon précise, soient Zl , » » Zv, des variables aléatoires indépendantes telles que Zj rv N(O, 1), j E {1, .. . , l/}. Alors la variable aléatoire X = Zr + … + Z~ suit une loi Khi-deux à li degrés de liberté ; on note alors X t’V X~. La loi de Student, très utile en inférence statistique, possède une représentation basée sur les lois Normale et Khi-deux. Spécifiquement, soient les variables indépendantes Z t’V N(O, 1) et Y t’V X~. On dit que la variable aléatoire X= Z .jY/lI suit une loi de Student à li degrés de liberté; on note X t’V Tv. Visuellement, la densité de Student s’apparente à celle de la loi Normale, avec pour différence que celle-ci varie en fonction du nombre li de degrés de liberté. Lorsque ce nombre est supérieur ou égal à 30, la distribution de Student est très prés de la distribution de la loi Normale centrée réduite, ce qui la rend utile pour approximer une telle distribution. À noter que les fonctions de répartition ont volontairement été laissées de côté pour les distributions de Student et Khi-deux compte tenu de leur complexité et de leur faible pertinence.
Vecteurs aléatoires, lois jointes et corrélation
On verra que la théorie des copules intervient dans le cas où on s’intéresse simultanément à plusieurs variables aléatoires. Dans ce cas, on considère la notion de vecteurs aléatoires. Formellement, on dit simplement que (Xl , … ,Xd ) est un vecteur aléatoire de dimension d si Xl , … , Xd sont des variables aléatoires. Pour les rappels qui suivent, on se concentrera sur le cas bidimensionnel où on a une paire (X, Y) de variables aléatoires continues qui prennent leurs valeurs dans des ensembles X et lY, respectivement. De la même façon que dans le cas d’une variable aléatoire continue, on peut définir une densité h sur l’ensemble produit X x lY ç JR2 telle que IP’x,y(X E A , Y E B) = il h(s , t) dt ds. En posant Ax = (-00, xl et By = (-00, y], la fonction de répartition bivariée associée à la densité h est définie par Hx,y(x, y) = lP’x,Y(X E Ax, y E By) = 1~ 1~ h(s, t) dt ds. On peut montrer que toute fonction de répartition bivariée Hx,y dont les marges sont Fx = lP’x(X :s: x ) et Gy = lP’y(Y :s: y) est telle que pour tout (x, y) E JR2, Hinf(X, y) :s: Hx,Y(x , y) :s: Hsup(x , y) , (1.1) où Hinf( X, y) = max{Fx(x)+Gy(y)-I ,O} et Hsup(x, y) min {Fx( x ), Gy(y)}. Pour démontrer ce résultat, considérons d’abord des événements A et B. On peut alors établir que lP'(A n B) :s: min{lP'(A), lP'(B)} , car à la fois lP'(A n B) :s: lP'(A) et lP'(A n B) :s: lP'(B). De plus, les lois de de Morgan impliquent lP'(A n B) 1 – lP'(AC U BC) 1 – {lP'(AC) + lP'(BC) -lP'(AC n BC)} lP'(A) + lP'(B) – 1 + lP'(AC n BC) > lP'(A) + lP'(B) – 1, où AC et BC représentent respectivement les complémentaires de A et de B. Comme une probabilité est nécessairement non-négative, on obtient lP'(A n B) ~ max{lP'(A) + lP'(B) – 1, O}. Donc, max {lP'(A) + lP'(B) – 1, O} :s: lP'(A n B) :s: min {lP'(A) , lP'(B)} . Ensuite, en posant Ax = {X :s: x} et By = {Y :s: y} et en remarquant que lP'( Ax) = F x et lP'( By) = Gy, on tire que toute fonction de répartition bivariée H est telle que pour tout (x, y) E JR2, max {F(x ) + G(y) – 1, O} :s: H(x, y) :s: min {F(x ), G(y)}.
Mise en contexte Une famille de copules qui mérite une attention approfondie est la famille Khi-deux. En effet, ce sont ces copules qui nous intéresseront lorsque viendra le temps de présenter nos modèles pour modéliser des données spatiales. C’est pourquoi il est primordial de bien définir cette famille de copules et de décrire certaines de ses propriétés. Comme il a été mentionné précédemment, cette classe de copules a été décrite initialement par [1], puis utilisée par [10] et [18] pour modéliser des données spatiales. Nous verrons que cette copule représente une alternative intéressante à la copule Normale. La copule Normale présente plusieurs points forts, ce qui la rend attirante dans plusieurs situations. En particulier, elle permet la modélisation en grandes dimensions et chaque paire est spécifiquement paramétrisée. De plus, le fait qu’elle utilise une matrice de corrélation la rend appropriée pour la statistique spatiale, car on peut relier le niveau de dépendance entre deux stations en fonction de la distance qui les sépare. Cependant, la classe des copules Normales comporte aussi quelques désavantages. D’abord, elle ne permet pas de modéliser des structures de dépendance dont les queues inférieures et supérieures sont différentes; en effet, la copule Normale possède la propriété de symétrie radiale, ce qui peut être assez limitatif en pratique. On verra dans ce chapitre que la famille des copules Khi-deux préserve les propriétés souhaitables de la copule Normale, tout en permettant de l’asymétrie radiale. Dans ce chapitre, nous verrons donc les étapes pour construire la copule Khi-deux; les cas bivarié et multidimensionnel seront traités séparément. Plusieurs propriétés de cette famille de modèles seront décrites, incluant le calcul de mesures de dépendance comme le tau de Kendall et le rho de Spearman. Sauf indications contraires, les résultats présentés dans ce chapitre ont été obtenus par [19] .
Propriétés de la copule Khi-deux bivariée
Après avoir construit la copule Khi-deux pour le cas bivarié et s’être intéressé aux formes sous lesquelles elle peut se présenter, il est primordial de s’attarder sur certaines propriétés de cette famille de copules qui sont très utiles en pratique et qui permettent de simplifier son utilisation. De plus, cela amènera une connaissance et une familiarisation accrues de ces mêmes copules. En premier lieu, on se rappelle que la copule Khi-deux bivariée possède trois paramètres, à savoir p, al et a2. On peut s’intéresser au comportement de la copule lorsque ces paramètres changent de signe. On trouve alors un cas particulier pertinent qui mérite notre attention dans le lemme qui suit. Lemme 2.2. Pour tout p E (-1 , 1) , (al , a2) E JR2 et (UI , U2) E [0 , 1]2, nous avons En d’autres mots, la copule Khi-deux est invariante sous le changement de szgne d’exactement deux de ses paramètres Une conséquence immédiate de ce lemme est le fait que pour la copule Khi-deux bivariée centrée, on a C~ = C~p’ Alors, dans ce cas précis, nous pouvons restreindre p à se situer entre ° et 1 sans perte de généralité. De façon générale, on dit que la copule C est dominée par la copule D si C(UI , U2) ::; D(UI , U2) , V(UI , U2). À la lumière de cette dernière remarque, intéressons-nous à la famille des copules Khi-deux centrées. Une propriété intéressante spécifique à cette famille réside dans le fait qu’elle soit ordonnée stochastiquement selon Ipl E [0 , 1).
Proposition 2.1. Pour tout Ipl ::; Ip’l E [0 , 1), nous avons l’inégalité suivante: On sait que toute copule C est bornée par les bornes de Fréchet-Hoeffding W et M correspondant à la dépendance négative et positive parfaite, respectivement. Ces deux copules font partie de la famille des copules Normales car la copule Normale tend vers W lorsque p -+ -1 et vers M lorsque p -+ 1. On dit alors que la famille des copules Normales est complète. Afin d’étudier les copules Khi-deux sous cet angle, on considérera d’abord la copule Khi-deux centrée. On note d’abord que si p = 0, alors de l’Équation (2.4), on déduit C6 = I1(UI ‘ U2). Similairement, on montre que limp–+l C~(UI , U2) = M(UI ‘ U2) . À partir de la Proposition 2.1, on peut établir que pour tout (UI ,U2) E [0, IF, I1(UI , U2) ::; C~(UI , U2) ::; M(UI ,U2) ‘ Autrement dit, la famille des copules Khi-deux centrées ne permet que de la dépendance positive. Dans le cas général d’un paramètre de décentralisation (al , a2) non-nul, les choses se compliquent quelque peu. Lorsque p = 0, on obtient toujours que la copule Khi-deux C~al ,a2 correspond à la copule d’indépendance peu importe les valeurs de al et a2· En revanche, lorsque p -+ 1, on a Zl = Z2 presque sûrement dans la représentation de la copule Khi-deux. En posant x V y = max(x, y) et x À y = min(x, y) et en se remémorant le fait que ha ( u) = <I> 0 ha ( u), on montre alors que JP> {hal (-UI) V ha2 ( -U2) ~ Zl ~ hal (UI) 1\ ha2 (U2)} max { 0, (hal(UI) 1\ ha2 (U2)) – (hal(-UI) Vha2 (-U2))}’ Cette dernière expression n’est pas, en général, la borne supérieure de Fréchet-Hoeffding. Proposition 2.2. Pour tout U E [0, 1], on a ha(u) – ha( -u) = u. En utilisant ce dernier résultat, on peut déduire que max {o, (ha(UI) 1\ ha(U2)) – (ha ( -UI) V ha( -U2) ) } max {o, ha(UI 1\ U2) – ha( -(UI 1\ U2))} min(UI , U2) ‘ Enfin, pour traiter du cas p —+ – 1, on peut invoquer le Lemme 2.2 et utiliser le fait que la copule Khi-deux bivariée est invariante sous le changement de signe de deux de ses paramètres pour écrire
Avant-propos |