Utilisation de la fonction caractéristique empirique pour l’inférence
Au même titre qu’il y a deux approches pour représenter le comportement d’un vecteur aléatoire, c’est-à-dire via Fx ou ‘ljJx, il Y a deux catégories générales de statistiques pour tester des hypothèses relatives au comportement de X : celles basées sur Fn, et celles basées sur ‘ljJn. Dans la suite, on énumérera plusieurs travaux qui se sont servis de la fonction caractéristique pour élaborer des méthodologies statistiques. Tout d’abord, des tests pour l’hypothèse de symétrie de X autour d’un point a E ]Rd ont été développés par Henze et al. [40] ; ils exploitent le fait que sous l’hypothèse nulle Ho : X – a d a – X, on a ‘ljJy(t) = ‘ljJy( -t), où Y = X-a. Spécifiquement, leur test est basé sur le fait que ‘ljJy(t) – ‘ljJy( – t ) = 2E {sin (tyT )}. Pour tester l’égalité en loi de deux vecteurs aléatoires X et Y , Alba Fernàndez et al. [1] ont utilisé la forme de l’hypothèse basée sur les fonctions caractéristiques ‘ljJx(t) = E(eitXT ) et ‘ljJy(t) = E(eityT ) respectives à X et à Y , à savoir Ho : ‘ljJx(t) = ‘ljJy(t). Enfin, Meintanis et Iliopoulos [53] ont élaboré des tests pour l’indépendance entre les composantes d’un vecteur X = (Xl, … , X d ). Plusieurs tests d’adéquation basés sur la fonction caractéristique ont également été développés. Par exemple, Epps et Pulley [21] ont proposé des tests de normalité dans le cas unidimensionnel, alors que Baringhaus et Henze [6] élargissent leur applicabilité pour la normalité multidimensionnelle. Des tests d’adéquation pour des mélanges de lois normales sont offerts par Klar et Meintanis [49], alors que les travaux de Kim et Genton [47] se concentrent sur les mélanges de distributions normales asymétrisées et Epps [20] sur les lois unidimensionnelles de type lieu-échelle. Des tests pour la loi de Cauchy sont proposés par Gürtler et Henze [39] et par Matsui et Takemura [51], alors que Fragiadakis et Meintanis [26] se concentrent sur la distribution de Laplace multidimensionnelle. Une approche unificatrice permettant de tester une famille arbitraire de modèles est élaborée par Jiménez-Gamero et al. [44]. Une version plus rapide du point de vue calculatoire a été décrite par Jiménez-Gamero et Kim [43].
Objectifs et structure du mémoire
Plusieurs des tests décrits à la Section 1.4 sont plus performants que des versions similaires basées sur la fonction de répartition. Malgré ces succès, peu de chercheurs se sont attardés jusqu’ici à l’utilisation de fonctions caractéristiques dans un contexte de modélisation par les copules. Ce travail de maîtrise vise à combler en partie cette lacune en développant de nouveaux tests d’adéquation à une copule basés sur des fonctions caractéristiques définies à partir de la variable aléatoire Transformation intégrale de probabilité (TIP) multidimensionnelle. Formellement, pour un vecteur aléatoire X E IRd de fonction de répartition Fx, la TIP est la variable aléatoire W = Fx(X ). Les tests de Genest et Rivest [35] et de Genest et al. [33] sont d’ailleurs basés sur W. Toutefois, leur méthodologie concernant les tests est construite autour de la fonction de répartition de W, à savoir Fw(w) = lP'(W :::; w). Ce mémoire propose donc de travailler plutôt avec la fonction caractéristique de W, c’est-à-dire ‘l/Jw(t) = E(eitW ). Cette idée n’a jamais été exploitée auparavant dans la littérature sur les copules. On espère ainsi, à l’instar des tests décrits à la Section 1.4, que des approches utilisant ‘l/Jw plutôt que Fw seront plus performantes. En outre, une version pondérée de ‘l/Jw sera proposée, dans la lignée d’une suggestion récente faite par Meintanis et al. [52]. Le mémoire est structuré comme suit.
Au Chapitre 2, le concept de copule est introduit et plusieurs propriétés sont ensuite décrites; de nombreux modèles sont ensuite détaillés. Le lecteur qui est familier avec les copules pourra passer directement au chapitre suivant. Les chapitres 3 et 4 constituent la contribution originale de ce travail de maîtrise. Au Chapitre 3, on définit deux types de fonctions caractéristiques associées à la variable aléatoire de la transformation intégrale de probabilité multidimensionnelle; ces fonctions sont ensuite utilisées pour élaborer de nouvelles méthodologies pour l’adéquation à une famille de copules. Le Chapitre 4 étudie les propriétés échantillonnales des nouveaux tests; en particulier, des comparaisons sont effectuées avec deux tests d’adéquation très populaires. Une illustration sur de vraies données multidimensionnelles est également fournie. Pour permettre une lecture plus fluide, les technicalités mathématiques, de même que certains tableaux et certaines figures, sont consignés dans une annexe.
Stratégie pour l’obtention des valeurs critiques Pour faciliter la présentation des résultats, les modèles de copules considérés sous l’hypothèse nulle IHIo seront restreints aux familles Normale, Clay ton et Gumbel; ces modèles de dépendance sont présentés au Chapitre 2. Dans une étude de simulations, le nombre de répétitions nécessaires pour obtenir des estimations fiables des probabilités de rejet doit être élevé (par exemple, l 000 répétitions). Dans le cas des tests basés sur les statistiques S~ N’ T~ N’ V:N et Vn c , , , ,N , chacune de ces répétitions doit à son tour mettre en marche un grand nombre de répétitions de la méthode du bootstrap paramétrique. Ainsi, le temps d’exécution d’une telle démarche est astronomique! Il est donc impossible d’envisager une telle possibilité pour cette étude. Pour contourner ce problème et ainsi être en mesure d’étudier les statistiques de test sous plusieurs scénarios intéressants, on a construit des tableaux de valeurs critiques pour les trois familles de copules considérées sous IBIo, c’est-à-dire Normale, Clay ton et Gumbel. Le Tableau B.I présenté en annexe montre les valeurs critiques de rejet d’une copule Normale au seuil Cl! = 0, 05 (i.e. le 95ème percentile) en fonction du tau de Kendall T(C), estimées à l’aide de l 000 répétitions pour les dix tests étudiés et lorsque la taille d’échantillon est n E {100, 250}. Une façon d’utiliser ces tableaux serait d’interpoler linéairement entre deux valeurs possibles.
Ainsi, si la valeur du tau de Kendall pour un jeu de données est Tn = 0,48, la valeur critique du test serait obtenue en interpolation entre les valeurs critiques estimées lorsque T( C) = 0,45 et T( C) = 0,50. Cette façon de faire est assimilable à une version approximative de l’inversion du tau de Kendall; une telle manière de chercher dans une liste peut cependant s’avérer fastidieuse, surtout lorsqu’elle est répétée un grand nombre de fois. Pour augmenter la vitesse d’exécution, on ajustera les valeurs critiques en fonction de T( C) à l’aide de régressions polynomiales. En effet, l’usage de cette méthode permet certains avantages plutôt pratiques dont la simplicité des modèles polynomiaux obtenus. On obtiendra alors un modèle prédictif de la valeur critique VC en fonction de T = T(C) de la forme Pour chaque statistique, chaque taille d’échantillons n E {100,250} et chacun des trois modèles de copules sous IHIo, on a choisi le modèle adéquat entre p = 2 et p = 3 selon la valeur du R2 . Quelques exemples de telles courbes ainsi obtenues et passant à travers les valeurs critiques se retrouvent à la Figure 4.1. Les courbes présentées sont respectivement (de gauche à droite et de bas en haut), VC(T) VC(T) VC(T) VC(T) 0, 0232 + 0,0001 T – 0,0678 T2 + 0,0444 T3 , 0, 0499 – 0, 0036 T – 0, 1207 T2 + 0, 0719 T3 , 0, 0744 + 0, 0327 T – 0,2926 T2 + 0, 1916 T3 , 0, 0849 – 0,0347T – 0,0590T2 . Par exemple, si on obtient Tn = 0,48 pour un jeu de données de taille n = 100, alors la valeur critique du test basé sur S~!, J pour tester la copule Normale est estimée à VC = 0, 0232 + 0, 0001(0,48) – 0,0678(0,48)2 + 0, 0444(0,48)3 = 0,0125. On rejettera donc IHIo si S~!, J > 0,0125. La Figure B.1 en annexe superpose ces courbes pour les trois modèles de copules considérés sous IHIo lorsque n = 100; la Figure B.2 est similaire, mais pour n = 250. En résumé, l’estimation d’une probabilité de rejet P d’un test d’adéquation basé sur une statistique Sn pour tester une hypothèse nulle IHIo lorsque le modèle est sous IHII se fera ainsi: Étape 1. On simule un échantillon (Xl, YI) , … , (Xn , Yn ) i.i.d. C; Étape 2. À partir de (Xl, YI), … , (Xn, Yn), on calcule la statistique de test Sn sous IHIo, ainsi que le tau de Kendall empirique Tn ; Étape 3. On détermine la valeur critique du test à partir de la courbe des valeurs critiques, c’est-à-dire VC(Tn ); Étape 4. On rejette IHIo si Sn > VC( Tn). On répète les étapes 1- 4 un nombre élevé B de fois, et P est estimée par
Avant-propos |