Indices d’autocorrélation et d’autocorrélation croisée
En analyse des séries temporelles (voir par exemple Box et Jenkins, 1976), la corrélation croisée mesure la corrélation entre deux signaux numériques univariés, dont un est décalé d’un certain temps (lag) par rapport à l’autre. Quant à l’autocorrélation, elle mesure la corrélation croisée entre un signal et lui-même. Les indices d’autocorrélation et d’autocorrélation croisée présentés dans ce chapitre ont une double visée : d’une part, étendre l’analyse des séries temporelles à des problèmes numériques multivariés, ainsi qu’à des variables catégorielles multimodales (via la dissimilarité du khi2) ; et d’autre part, généraliser la notion de décalage à une notion de voisinage. Soit i, j = 1, . . . , n, des positions ordonnées, et D = (Dij ), la matrice des dissimilarités euclidiennes carrées entre ces positions. Plus précisément, ces dissimilarités sont calculées par rapport aux caractéristiques k des unités localisées sur ces positions. En définissant un voisinage par l’intermédiaire d’une matrice d’échange E = (eij ) (section 3.1), l’indice d’autocorrélation (section 3.2) va mesurer la différence entre la variabilité des dissimilarités sur l’ensemble des positions et la variabilité locale dans un voisinage, tel que défini par E. L’indice d’autocorrélation croisée (section 3.3) généralise celui d’autocorrélation en considérant deux jeux de données et mesure la similarité entre les positions de ces deux jeux, par rapport aux caractéristiques k de chacun de ces jeux, selon le voisinage défini par E.
Matrice d’échange
Les voisins j de la position i sont déterminés par une matrice d’échange E = (eij ), de taille n × n, qui a pour propriétés d’être : — non négative, — symétrique, — compatible avec le poids des individus ei• = e•i = fi , — et normalisée e•• = 1. Ainsi, eij peut s’interpréter comme la probabilité jointe de sélectionner les positions i et j, sans considération de l’ordre de ces positions ; et ei• = fi , comme la probabilité de sélectionner la position i. On peut aussi remarquer que wij = eij fi correspond aux composantes de la matrice W = (wij ) de transition d’une chaîne de Markov de distribution stationnaire f.
Exemples
En toute généralité, les « positions » i, j réfèrent à des objets (localisés dans l’espace, dans le temps, ou plus généralement simplement identifiés par leurs indices i, j) exempts de relations mutuelles particulières a priori, ces dernières étant précisément définies par la matrice d’échange E. Dans cette thèse, le cas particulier des séries temporelles est abordé, ce qui signifie que les indices i et j peuvent être mis en correspondance au moyen de relations de la forme j = i + r, où r est un entier relatif. Parmi les nombreuses matrices d’échange potentiellement pertinentes dans ce contexte particulier, trois familles seront présentées ici et utilisées par la suite. La première matrice d’échange E˚, qu’on appellera matrice d’échange itérée, considère des voisinages à r itérations avec corrections dans les bords (Bavaud, Cocco et Xanthos, 2012). Pour r = 1, la matrice d’échange vaut 1 : ˚e (1) ij := 1 2n [1(j = i ± 1) + 1(i = j = 1) + 1(i = j = n)] (3.1) Puis, pour r > 1, on définit E˚(r) = ΠWr , avec Π = diag(f). Étant donné que cette matrice produit des poids uniformes, tels que fi = 1/n, alors wij = n˚eij , avec ˚eij = ˚e (1) ij , et donc E˚(r) = 1 nWr = n (r−1)E˚r . La deuxième est une matrice d’échange périodique, E˘, qui considère les voisins j à une distance (lag) r (à gauche et à droite) de la position i (Cocco et Bavaud, accepté pour publication) : e˘ (r) ij = 1 2n [1(j = (i ± r) mod n) + 1((i ± r) mod n = 0) · 1(j = n)] (3.2) Comme la matrice d’échange itérée, cette matrice d’échange produit des poids uniformes. De plus, comme le voisinage est périodique, alors E˘(r) = E˘(n−r) . Finalement, la matrice d’échange à fenêtres mobiles, E˙ , considère toutes les positions dans deux fenêtres de largeur r, l’une à gauche et l’autre à droite (Bavaud et al., 2012) : e˙ [r] ij = c [r] ij c [r] •• c [r] ij := 1(|j − i| ≤ r) · 1(i 6= j) (3.3) Contrairement aux deux autres matrices, les poids résultants ne sont pas uniformes, mais plus petits pour les positions de bord que pour les autres. Toutes ces matrices d’échange dépendent principalement de la différence |j − i| des positions i et j (à des effets de bord près), et l’on s’attend à ce que leur utilisation permette de révéler d’autant mieux un phénomène que la loi le gouvernant soit stationnaire, i.e. invariante par translation |j − i|. Ce qui, on peut le préciser, n’affecte en rien la question de la légitimité de leur utilisation dans le cadre d’une analyse exploratoire de données, telle qu’effectuée aux chapitres 6 et 8. Deux exemples (r = 1 et r = 2) de chacun de ces trois types de matrices d’échange sont présentés dans la table 3.1 pour 5 positions ordonnées. Le réseau non pondéré et non orienté correspondant à chacun de ces six exemples est exposé dans la table 3.2. On remarque que les matrices d’échange périodique et à fenêtres mobiles sont assez similaires, cependant elles présentent deux différences essentielles : — premièrement, comme son nom l’indique, la matrice d’échange périodique considère que les positions sont périodiques et donc que la position 1 se trouve après la position n, contrairement à la matrice d’échange à fenêtres mobiles ; 1. Comme déjà mentionné (cf. chapitre 2, note 1), 1(A) représente la fonction caractéristique associée à l’événement A.
Indice d’autocorrélation
— deuxièmement, avec la matrice d’échange à fenêtres mobiles toutes les positions des deux fenêtres de largeur r sont considérées, à l’inverse de la matrice d’échange périodique pour laquelle on ne considère que deux positions à une distance r d’une position donnée, sans prendre en compte les positions intercalaires qui les séparent. r E˚ (itérée) E˘ (périodique) E˙ (fenêtres mobiles) Table 3.1 – Exemples pour les trois matrices d’échanges étudiées, avec n = 5. 1 2 3 4 5 r E˚ (itérée) E˘ (périodique) E˙ (fenêtres mobiles) r = 1 r = 2 Table 3.2 – Réseau non pondéré et non orienté des trois matrices d’échange étudiées, représentant les liens non nuls (eij > 0) entre les n = 5 positions. 3.2 Indice d’autocorrélation L’indice d’autocorrélation se définit comme (Bavaud et al., 2012) : δ := ∆ − ∆loc ∆ ∈ [−1, 1] (3.4) où ∆ est l’inertie (globale) qui se calcule, à partir de la matrice des dissimilarités euclidiennes carrées entre les positions Dij , par (1.16) et ∆loc est l’inertie locale, telle que : ∆loc := 1 2 X ij eijDij Cet indice d’autocorrélation généralise le I de Moran (Moran, 1950), la mesure standard de l’autocorrélation spatiale d’une variable numérique, ou son complémentaire, le c de Geary (Geary, 1954; Lebart, 1969), au cas multivarié. Concernant l’interprétation, comme le montre l’équation (3.4), δ sera élevé si les individus sont plus similaires dans le voisinage défini par E qu’en prenant des positions choisies aléatoirement, et inversement. Rappelons que la dissimilarité euclidienne carrée Dij est basée sur les caractéristiques des unités apparaissant en i et j. Dans le cas de caractéristiques catégorielles, Dij ne sera autre que la dissimilarité du khi2 entre les lignes (ou les colonnes) i et j de la table de contingence associée, calculée par (1.6) (ou (1.7)), ou encore par (1.9) : voir le chapitre 8. Le chapitre 6 décrit d’autres applications impliquant des dissimilarités euclidiennes carrées distinctes de celles du khi2.
Test d’autocorrélation
L’espérance de l’indice d’autocorrélation sous l’hypothèse H0 d’absence d’autocorrélation vaut (voir par exemple Bavaud, 2013) : E0(δ) = trace(W) − 1 n − 1 (3.5) avec W = (wij ), la matrice de transition de Markov, telle que définie dans la section 3.1. Concernant les exemples de la section 3.1.1, l’espérance sous indépendance de la matrice d’échange itérée est variable selon r et vaut E (r) 0 = (trace(Wr ) − 1)/(n − 1), alors qu’elle a une valeur fixe pour les deux autres matrices d’échange, soit E (r) 0 = −1/(n − 1). La variance correspondante s’écrit (voir par exemple Cliff et Ord, 1981) : Var0(δ) = 2 n2−1 h trace(W2 ) − 1 − (trace(W)−1)2 n−1 i Sous approximation normale, on peut ainsi évaluer la significativité statistique de l’indice d’autocorrélation au niveau α en effectuant le test suivant : δ − E0(δ) p Var0(δ) ≥ u1−α/2 (3.6) où u1−α/2 est le α-ème quantile de la loi normale standardisée.