Matrices aléatoires matrices de covariance empirique

Matrices aléatoires matrices de covariance empirique

Matrices de covariance empirique et applications

Dans ce paragraphe, on étudie un type particulier de matrices aléatoires : les matrices de covariance empirique. Ce type de matrices aléatoires admet des applications multiples en statistiques (Analyse de données), en télécommunication, en nance, en génétique etc, [Joh01c, BNMD09, PPR06]. Wishart, [Wis28], était le premier à regarder ces matrices en dimensions quelconques. Etant donné un échantillon multivarié (k variables réelles) de taille N, il cherchait à estimer la variance de chacune des variables ainsi que les corrélations entre elles. Wishart parvient à expliciter la loi jointe de la matrice de covariance empirique en supposant que l’échantillon est formé de N Gaussiennes k-variées.

Lorsque N est très grande par rapport à k xée, la matrice de covariance empirique converge vers la matrice de covariance théorique des k variables en question. Par conséquence, cela permet d’avoir une bonne estimation des diérentes variances et corrélations, [And03]. A l’époque, il était courant de supposer k petit par rapport à N considérant, qu’une expérience peut être répétée le nombre de fois que l’on souhaite. Mais ceci n’est pas vrai pour tous les phénomènes étudiés. Une expérience liant un très grand nombre de paramètre peut être dicilement réalisable car très coûteuse par exemple ou tout simplement à cause de la durée entre deux réalisations.

Pour cette raison, les scientiques de nos jours s’intéressent encore plus au cas où le nombre de variables et la taille de l’échantillon sont du même ordre, (voir [Joh01c, EK05]). Dans ce cas, la matrice de covariance empirique n’est guère une bonne approximation de la matrice de covariance. La convergence de la mesure spectrale vers la loi de Marchenko-Pastur en est une bonne preuve. Pour cela, les mathématiciens ont cherché à connaître le comportement du spectre d’une matrice de covariance empirique lorsque N et k sont proportionnelles. Les données récoltées sur le comportement asymptotique de ce spectre fournissent de multiples informations sur la matrice de covariance théorique.

Résultats connus : modèle blanc

Les résultats sur les matrices aléatoires concernent essentiellement deux objets : l’intégralité du spectre représenté par ce qu’on appelle la mesure spectrale empirique et les valeurs propres extrémales. L’étude asymptotique de la mesure spectrale fournit une information très importante sur le comportement de la matrice aléatoire W. Néanmoins, une partie non négligeable de l’information est contenue aussi dans les valeurs propres extrémales. Ces valeurs sont quelque part mises à l’écart lorsqu’on examine la mesure spectrale. On fera donc un résumé des résultats en tenant compte de ces deux points de vue.

On distingue dans la littérature plusieurs types de matrices de covariance empirique qui correspondent à des types diérents de données : on distingue notamment les matrices à entrées réelles et celles à entrées complexes, les matrices non-perturbées (modèle blanc) et celles avec perturbations (modèle non blanc) et enn les matrices Gaussiennes et celles avec des entrées quelconques. On est donc face à huit cas distincts au minimum avec des résultats pour chacun d’entre eux. An de faciliter l’exposition, on énoncera les théorèmes dans le cas réel Gaussien ou complexe Gaussien et ensuite on donnera l’état des lieux de l’universalité. Le modèle non-blanc sera traité dans un paragraphe à part.

Résultats connus : modèle non-blanc

Lorsque les scientiques regardent simultanément un certain nombre de variables, ils estiment que ces variables sont liées entre elles et cherchent à en dégager la corrélation. Pour cette raison, on s’attend souvent à ce que Σk ne soit pas l’identité. Dans cette partie, on résume les résultats connus sur les valeurs propres de W lorsque Σk 6= I.

Dans un premier temps, le but est de pouvoir dire, en analysant W, si Σk vaut l’identité ou pas. Cela constitue un test d’indépendance des variables en étude. Ensuite, on cherche à calculer les plus grandes valeurs propres de Σk en fonction de celles de W. Ces valeurs propres correspondent aux directions principales ; celles qui résument une grande partie de l’information sur les variables. 102 Chapitre 5 : Matrices aléatoires : matrices de covariance empirique Johnstone a proposé un modèle où les valeurs propres de Σk valent 1 sauf un nombre ni xé, i.e. Σk = diag(l1, l2 . . . , lr, lr+1 = 1, . . . , lk = 1). Cela veut dire que l’information sur les diérentes corrélations se résume à un nombre ni de directions. On parle alors d’un modèle perturbé de rang r.

Ce modèle, au vaste champ d’applications, a été soigneusement étudié durant la dernière décennie. Les mathématiciens ont examiné, comme pour le modèle blanc, la limite de la mesure spectrale, la limite des valeurs propres extrémales, les uctuations et les grandes déviations de celles-ci. Je cite notamment les travaux de Bai et Silverstein [BS98], Baik, Ben Arous et Péché [BBAP05], Baik et Silverstein [BS06], El Karoui [EK07] et Bai et Yao [BY08].