Validation et correction des séries temporelles d’états de mer et de niveaux d’eau
Outils statistiques pour la comparaison de séries temporelles
Nous considérons dans cette partie deux séries temporelles univariées (xt)t∈T1 et (yt)t∈T2 qui peuvent, par exemple, respectivement correspondre à des observations in situ et à des simulations numériques au même lieu. Dans la première section, nous expliquons comment ces deux séries peuvent être comparées lorsque les ensembles de dates T1 et T2 sont identiques. Dans le deuxième section, nous nous intéressons au cas plus général où T1 et T2 ne sont pas nécessairement identiques. Enfin, dans la dernière section, nous présentons une méthode de correction d’une série temporelle à partir d’une autre afin que la première puisse récupérer certaines caractéristiques statistiques de la seconde. Le lecteur pourra se rapporter au livre de Saporta [32] pour plus de détails.
Comparaison de deux séries temporelles à dates communes
L’outil le plus simple pour comparer (xt)t∈T1 et (yt)t∈T2 lorsque T1 = T2 est graphique. Il s’agit du nuage de points {(xt , yt) : t ∈ T1}. Plus les points (xt , yt), t ∈ T1, sont concentrés autour de la droite d’équation y = x, plus les deux séries temporelles sont similaires. Cette similarité peut également être évaluée à l’aide de plusieurs indicateurs numériques. Notons T1 = {t1,…,tn}. La différence, en moyenne, entre (xt)t∈T1 et (yt)t∈T1 , peut être évaluée par la formule Bi ai s[(xt)t∈T1 , (yt)t∈T1 ] = 1 n X tn t=t1 (xt − yt), laquelle, lorsque (xt)t∈T1 représente des observations in situ et (yt)t∈T1 des simulations correspondantes, peut s’interpréter comme le biais de simulation, c’est-à-dire, l’erreur moyenne faite par la simulation considérée. Cette quantité mesure la tendance globale des valeurs simulées à sur- ou sous-estimer la grandeur réelle. Une valeur de zéro (resp. positive, négative) s’interprète comme l’absence d’erreur en moyenne (resp. une sous-estimation, sur-estimation) de la réalité, en moyenne. Il est également possible de normaliser le biais en calculant le biais en pourcentage comme suit : Bi ai s%[(xt)t∈T1 , (yt)t∈T1 ] = Bi ai s[(xt)t∈T1 , (yt)t∈T1 ] 1 n Ptn t=t1 xt ×100 = x¯ − y¯ x¯ ×100. L’erreur de simulation peut être évaluée par la racine de l’erreur quadratique moyenne : RMSE[(xt)t∈T1 , (yt)t∈T1 ] = vuut 1 n X tn t=t1 (xt − yt) 2 . C’est une mesure de précision mélangeant l’erreur moyenne et la variation au sein des erreurs individuelles. Notons que cette mesure est plutôt sensible aux valeurs aberrantes. En complément des indicateurs précédents, il est d’usage de calculer également le coefficient de détermination : R 2 [(xt)t∈T1 , (yt)t∈T1 ] = Cor r [(xt)t∈T1 , (yt)t∈T1 ] 2 où Cor r [(xt)t∈T1 , (yt)t∈T1 ] est le coefficient de corrélation linéaire entre les deux séries. Cette quantité mesure la force de l’association linéaire entre (xt)t∈T1 et (yt)t∈T1 . Plus les points (xt , yt), t ∈ T1, se concentrent sur une droite (pas nécessairement, la droite d’équation y = x), plus le R2 sera proche de 1. En cas de biais nul, le R2 pourra être interprété comme le degré de concentration autour de la droite d’équation y = x.
Comparaison de deux séries temporelles à dates non nécessairement communes
Dans le cas où les ensembles de dates T1 et T2 ne sont pas nécessairement identiques, les deux séries (xt)t∈T1 et (yt)t∈T2 peuvent être comparées en terme de distribution. En supposant que (xt)t∈T1 et (yt)t∈T2 sont des réalisations de séries temporelles stationnaires, une première approche consiste à comparer les fonctions de répartitions empiriques correspondantes : Fˆ x (z) = 1 |T1| X t∈T1 1(xt ≤ z) et Fˆ y (z) = 1 |T2| X t∈T2 1(yt ≤ z), z ∈ R, (4.1) où |T1| et |T2| désignent les cardinaux des ensembles T1 et T2, respectivement. Pour tout z ∈ R, Fˆ x (z) (resp. Fˆ y (z)) correspond simplement à la proportion de xt , t ∈ T1 (resp. yt , t ∈ T2) inférieurs à z. Il s’agit ainsi, sous l’hypothèse de stationnarité mentionnée précédemment, d’une estimation que le phénomène aléatoire sous-jacent prenne une valeur inférieure à z. La stationnarité d’une série temporelle est une propriété stipulant que la distribution de la variable considérée ne change pas en fonction du temps. Sous une hypothèse de continuité supplémentaire sur la distribution du phénomène aléatoire sous-jacent, il est possible de comparer des estimations de densités à la place d’estimations de fonctions de répartition. Il s’agira par exemple de comparer des estimations à noyaux des densités sous-jacentes : ˆfx (z) = 1 h|T1| X t∈T1 K ³ z − xt h ´ et ˆf y (z) = 1 h|T2| X t∈T2 K ³ z − yt h ´ , (4.2) où h ≥ 0 est la largeur de la fenêtre spécifiant le degré de lissage de la densité estimée et K est un noyau. Un choix usuel est le noyau Gaussien donné par : K(z) = 1 p 2π e − 1 2 z 2 , z ∈ R. Dans la pratique, les fonctions quantiles estimées Fˆ−1 x et Fˆ−1 y seront également utilisées. Pour une proportion p donnée, un quantile d’ordre p peut ainsi être calculé par Fˆ−1 x (p) = qxp pour la série (xt)t∈T1 (resp. Fˆ−1 y (p) = qyp pour la série (yt)t∈T2 ). À partir d’un vecteur de proportions (pi) et grâce aux fonctions Fˆ−1 x et Fˆ−1 y , il est ainsi possible d’obtenir deux séries de quantiles correspondants aux séries (xt)t∈T1 et (yt)t∈T2 . La représentation graphique par diagramme quantiles-quantiles permet de comparer graphiquement les quantiles de deux séries. L’égalité en distribution des deux séries temporelles correspond à la situation où les points du diagramme quantiles-quantiles sont, approximativement, sur la droite y = x. Les outils décrits ci-dessus peuvent tous être implémentés à l’aide du langage de programmation R [65], lequel permet également aisément les représentations graphiques correspondantes, comme les diagrammes quantiles-quantiles ou les densités estimées données dans (4.2).
Correction d’une série temporelle à partir d’une autre
Si les étapes précédentes mettent en valeur une différence entre les distributions stationnaires des séries (xt)t∈T1 et (yt)t∈T2 , il est possible de corriger une série à partir de l’autre en utilisant des versions empiriques de la transformation en probabilité et de la transformation quantile. Soit X une variable aléatoire de fonction de répartition FX, donnée par FX(z) = Pr(X ≤ z), z ∈ R. Si FX est continue, alors la transformation en probabilité nous indique que la variable aléatoire FX(X) suit une loi uniforme sur l’intervalle ]0, 1[. Soit F−1 X la fonction quantile de X (qui est simplement l’inverse de FX si FX est continue strictement croissante) et soit U une variable aléatoire uniforme sur l’intervalle ]0, 1[. La transformation quantile nous indique alors que la variable aléatoire F −1 X (U) a alors FX pour fonction de répartition. Des versions empiriques de ces transformations peuvent être utilisées par exemple pour corriger une série temporelle de simulations (yt)t∈T2 à partir d’observations in situ (xt)t∈T1 . La première étape consiste à calculer les fonctions de répartitions Fˆ x et Fˆ y données par (4.1). La version corrigée de (yt)t∈T2 est alors (y˜t)t∈T2 , où y˜t = F −1 x (Fy (yt)), t ∈ T2. (4.3) La série temporelle résultante (y˜t)t∈T2 aura alors approximativement la même distribution stationnaire que la série (xt)t∈T1 .
Comparaisons des simulations avec des observations in situ
À l’aide des outils présentés dans la section précédente, nous pouvons évaluer l’adéquation entre les séries simulées disponibles et des observations in situ en certains lieux. Nous considérons ainsi successivement les points correspondants aux bouées d’Anglet et de Saint-Jean-de-Luz pour les séries d’états de mer ainsi que le point du marégraphe de Socoa pour les données de niveaux d’eau. Cette comparaison entraînera, en cas de détection de biais de simulation, la correction des séries temporelles issues des simulations afin de permettre une analyse des dommages plus pertinentes dans le dernier chapitre.
Au point de la bouée d’Anglet
Le point correspondant à la bouée d’Anglet est situé à environ cinq kilomètres de la côte, en face du phare de Biarritz. Les séries temporelles d’états de mer, appelées BOUEE.ANG et WWMII.ANG d’une part, et BOUEE.ANG et HOM.ANG d’autre part, seront comparées dans cette section. Rappelons que BOUEE.ANG fait référence à des observations d’états de mer in situ au point de la bouée d’Anglet et que les séries temporelles WWMII.ANG et HOM.ANG font référence aux simulations numériques décrites dans les sections 3.1.2.ii et 3.1.2.i, respectivement, restreintes au point de la bouée d’Anglet. Le point de la bouée d’Anglet étant situé à une profondeur de 50 mètres, cette valeur sera utilisée pour le calcul du flux P défini par la formule (2.6). Pour le Runup R2% défini par (2.7), la valeur de la pente β a été prise égale à 0.007%. Cette valeur correspond en fait à la mesure de la pente de la Grande Plage de Biarritz obtenue entre l’hiver 2017 et l’hiver 2019 [15]. Bien qu’il soit peu probable que cette valeur soit constante au cours du temps, elle sera néanmoins utilisée pour les trois jeux de données considérés dans cette section. Les comparaisons entre valeurs simulées et observées au point de la bouée d’Anglet ont été effectuées pour les variables Hs , Tp, Tm10, P et R2% introduites dans la section 2.4. Le tableau 4.1 donne les statistiques descriptives pour chacunes de ces variables et les trois jeux de données considérés. Le tableau 4.2 fournit les indicateurs présentés dans la section 4.1.1 .ordres de grandeurs pour les variables Hs , Tp, Tm10 et R2% sont globalement comparables d’un jeu de données à l’autre, ce qui semble indiquer que les plages des valeurs simulées sont relativement réalistes. En ce qui concerne le flux P, on constate néanmoins qu’il est clairement sous-estimé, en moyenne, dans la simulation WWMII. Ce dernier point est confirmé par le tableau 4.2 qui montre un biais de simulation très important pour le flux P, en particulier pour la simulation WWMII qui a ainsi tendance à très fortement sous-estimer le flux en moyenne. Les panneaux de gauche des figures 4.1, 4.2, 4.3 et 4.4 montrent les diagrammes quantiles-quantiles obtenus en comparant les valeurs simulées et observées de Hs , Tm10, P et R2%, respectivement. Ces diagrammes ont été réalisés comme décrit dans la section 4.1.2. Les panneaux de droite de ces mêmes figures donnent les densités estimées des valeurs observées et des valeurs issues des deux simulations. Pour chacune des variables Hs , Tm10, P et R2%, les densités estimées à partir d’observations et de simulations semblent relativement proches. Ce sont les diagrammes quantiles-quantiles qui sont les plus informatifs et révèlent globalement une tendance des simulations à sous-estimer les quantiles modérés à élevés des quatre variables considérées. En inspectant la figure 4.1, on observe clairement que Hs est sous-estimée pour des hauteurs significatives de vagues supérieures à 2.5 m. Sans surprise au vue de la formule (2.6), la sous-estimation du flux P est encore plus marquée dans la figure 4.3 car Hs intervient au carré dans le calcul de P. La simulation WWMII est particulièrement affectée avec des quantiles simulés approximativement 50% inférieurs aux quantiles observés lorsque P > 200 J.m−1 .s −1 .