Télécharger le fichier original (Mémoire de fin d’études)
Analyse de données : concepts
Il existe de nombreuses définitions pour l’analyse des données. En géneral, on pourrait la définir comme un processus mathématique par lequel on essaie de décrire, de la fa¸con la plus réaliste possible, l’état d’un système en combinant toute l’information dont on dispose (modèle, observations, incertitudes, etc.). L’analyse est le résultat de ce processus mathématique. La complexit´ de la méthode d’analyse utilisée dépend des caractéristiques physiques du système etudié, de la quantité et de la distribution spatio-temporelle des observations, de l’objectif de l’analyse, etc. Le cas le plus simple est celui o`u l’on fait l’hypothèse que les observations décrivant le système sont parfaites. Dans ce cas, on peut simplement produire une analyse en substituant les observations aux simulations du modèle. C’est le principe de la méthode d’insertion directe (Walker, 1999). Cependant, dans la réalit´ soit (i) les observations ne co¨ıncident pas avec cet état du modèle dans l’espace ou dans le temps, ou bien (ii) à cause du processus d’observation, des erreurs de représentativit´ ou les erreurs instrumentales, les observations sont imparfaites. On peut classer les méthodes d’analyses de données en fonction de la quantité d’information qu’elles utilisent (observations, incertitudes sur les observations, du modèle, etc.).
Méthodes d’analyse de données
Interpolation classiques, fonctions d’interpolation
Quand l’état du modèle est complètement caractéris´ par les observations (supposées par-faites), le problème d’analyse se réduit à un problème d’interpolation. Des méthodes d’inter-polation qui n’utilisent que les observations peuvent ˆetre utilisées pour estimer la distribution d’une variable inconnue.
Voisin le plus proche (Proximal/Nearest Neighbours)
Il s’agit essentiellement de substituer, pour chaque variable du modèle, chaque point de l’estimation par la valeur de l’observation la plus proche. Dans ce type d’interpolation rentre aussi les polygones de Thiessen (Thiessen, 1911) et les méthodes Pycnophylactic (Tobler, 1979).
Interpolation linéaire
L’interpolation linéaire est une technique simple pour laquelle la valeur d’une variable f à un point particulier X est calculée à partir des observations qui l’encadrent dans l’espace et/ou dans le temps. Elle consiste à relier les deux observations, x0 et x1, avec une ligne droite et à en déduire la valeur au point inconnu X par des triangles équivalents de Newton :
Cependant, le principal problème de l’interpolation linéaire est qu’elle n’est pas très précise. Pour l’interpolation linéaire, l’erreur d’estimation est proportionnelle au carré de la distance entre les observations. D’autres méthodes d’interpolation, comme l’interpolation par polynˆomes ou ”spline interpolation” (décrits ci-dessous), permettent d’obtenir des fonctions d’interpolation plus lisses, o`u l’erreur d’estimation est inférieure à celle de l’interpolation linéaire.
Interpolation par polynˆomes
L’interpolation par polynˆomes est la généralisation de l’interpolation linéaire. Dans l’exemple précédent d’interpolation linéaire, on fait une erreur en approximant une courbe avec une ligne droite. Cette estimation peut ˆetre améliorée si on introduit certaines courbures à la ligne qui joint les deux observations. Le plus simple est un polynˆome d’ordre deux : polynˆome quadratique. Pour cela on a besoin de trois observations x0 , x1 et x2 . Dans ce cas, en utilisant les triangles de Newton, la valeur d’une variable quelconque au point X est donnée par :
Ce type d’interpolation surmonte les problèmes de l’interpolation linéaire, et permet d’obtenir une estimation plus lissée et ayant une erreur d’estimation inférieure à l’interpolation linéaire. Cependant, elles sont généralement coˆuteuses en temps de calcul et l’interpolation peut ne pas ˆetre exacte, notament aux extrémités (”end points problem” ou ”phénomène de Runge”, voir par exemple Isaacson et Bishop Keller, 1994).
Interpolation par splines
L’interpolation par splines utilise des polynˆomes de bas-degr´ par intervalles et choisit les morceaux des polynˆomes qui s’adaptent le mieux aux observations, c.à.d., les polynˆomes qui sont les plus proches des observations. Par exemple, l’interpolation cubique par splines est cubique par segments. La fonction interpolante est plus facile à évaluer et sa dérivée seconde est nulle aux extrémités, ce qui évite le problème cité précédemment.
Autres fonctions d’interpolation
On peut construire toute une famille de fonctions interpolantes en choisissant différents types de fonctions : fonctions trigonométriques, fonctions rationnelles, etc. Si l’analyse comprends plusieurs variables, il existe des méthodes d’interpolation multivariées : interpolation bilinéaire, trilinéaire, etc. (Isaacson et Bishop Keller, 1994).
Problèmes de l’analyse par fonctions d’interpolation
L’analyse par fonctions interpolantes pose plusieurs problèmes : dans les systèmes non-linéaires, l’interpolation linéaire est une fa¸con très brutale d’approximer la valeur d’une variable entre deux observations, surtout si les observations sont distantes dans le temps ou dans l’es-pace. Dans l’interpolation par polynˆomes, les extrˆemes du champ peuvent donner des valeurs sans aucun sens physique. Un autre aspect important est la représentativité des valeurs inter-polées : si la densit´ des observations est inférieure à celle de la grille du modèle, cela conduit à des analyses linéaires par morceaux. Si un point de la grille du modèle est très eloigné de l’observation la plus proche, l’interpolation sera très incertaine. L’interpolation peut aussi poser des problèmes si, au contraire, la densit´ d’observations est supérieure à celle de la grille. Les points d’analyse seront le résultat de l’interpolation des points au voisinage des points de grille, tandis que les observations qui sont eloignées des point de grille n’auront aucune influence, de sorte que l’analyse ne prendra pas en compte la distribution des observations.
Interpolation avec ébauche
On rentre ici dans une nouvelle catégorie d’interpolation lorsque on ajoute un terme supple-mentaire issu d’une estimation à priori ou ébauche. Cela permet de résoudre en partie quelques-uns des problèmes précédents de l’interpolation. La base de ce type d’interpolation est l’analyse de Cressman, qui consiste à déterminer un état du modèle qui est égal aux observations au voi-sinage de l’endroit o`u elles sont disponibles, et qui est relax´ vers un état arbitraire xb ailleurs. o`u di,j est la distance entre les point i et j, et R est appel´ ”rayon d’influence”, de fa¸con que si la distance entre deux points est plus grande que R les observations n’ont pas de poids par rapport `a l’ébauche. Les observations plus proches du point de grille ont un poids plus important. A mesure que la distance augmente, le poids des observations diminue. Notons que si le point de grille est au mˆeme endroit que l’observation, alors di,j = 0 et wi,j = 1. La méthode de corrections successives ou de nudging (Bratseth, 1986) est une amélioration de la méthode de Cressman, en permettant que la fonction poids w soit inférieure `a 1 lorsque i=j, et en conséquence relˆachant le poids des observations par rapport `a l’ébauche. De plus, elles prennent en compte la dimension temporelle de l’assimilation.
Les principaux avantages de ces techniques d’analyse de données sont la simplicité et la rapidité du calcul numérique, et en géneral elles sont plus précises que d’autres méthodes d’in-terpolation plus simple. Par contre, elles peuvent provoquer des problèmes de stabilité si la densit´ des points de grille est plus grande que les observations disponibles. Elles sont aussi assez sensibles aux erreurs d’observation, et ne prennent pas en compte les corrélations spatiales entre les observations. Le principal problème est que l’on ne sait pas bien comment spécifier les poids des corrections de manière optimale et donc ces fonctions sont caractérisées par leur empirisme (Bouttier et Courtier, 1999).
Méthodes statistiques
Les méthodes décrites dans les sections précédentes sont assez faciles à mettre en œuvre. Par contre, elles présentent certains problèmes identifiés précédemment que l’ont peut (diffici-lement) résoudre avec des approches empiriques. Par contre, il est possible de développer des systèmes optimaux qui prennent en compte la qualité de l’information dont on dispose sur le système etudié, l’ébauche et les observations. Ce type de méthodes doit ˆetre capable d’accorder davantage de confiance au modèle lorsque les observations sont de mauvaise qualité et inverse-ment. Cette approche probabiliste consiste, fondamentalement, à minimiser la distance qui existe entre les observations et l’estimation du modèle sous contrainte des informations disponibles. Par exemple, on peut citer la méthode de Krigeage (Journel, 1977), dont le principe est le mˆeme que pour la méthode de Cressman, mais la fonction de poids est définie en prennant en compte les caractéristiques statistiques des variables à analyser. La section suivante se consacre à l’étude plus détaillée des méthodes d’interpolation statistique. En particulier, on va présenter la théorie statistique d’estimation linéaire qui aboutit aux équations générales d’estimation optimale.
Estimation statistique linéaire
Le problème de l’estimation des valeurs inconnues d’un processus stochastique relatif à un ensemble d’observations se posait déj`a au début du XIXIèME siècle, quand le célèbre astronome Karl Friedrich Gauss essayait d’établir l’orbite de la planète Ceres (aujourd’hui un astéro¨ıde). Gauss trouvait cette orbite en ajustant un ensemble d’observations astronomiques y0 à une fonction mathématique f , et en déterminant les paramètres de f qui minimisaient la somme des carrés des distances entre les observations y0 et la fonction f . Cet approche par moindres carrés constitue la base et le point de départ pour la recherche des méthodes d’assimilation optimale. Cette partie du chapitre a pour but d’expliquer, d’une fa¸con pédagogique et simplifiée, des fondements de la théorie d’estimation statistique linéaire qui constitue la base des méthodes d’assimilation de données. Les développements mathématiques seront appliqués à un exemple pratique, pour les rendre plus compréhensibles aux lecteurs qui ne sont pas familiarisés avec cette théorie.
Définition d’un problème d’estimation
Le problème que l’on aborde ici est l’estimation d’un ensemble d’inconnues x d’un processus aléatoire ou stochastique à partir d’un ensemble d’observations y0 d’un autre processus, aléatoire lui aussi. Imaginons, par exemple, le parcours d’une route passant à cˆoté d’un village appel´ Villarejo, constituant un point dangereux de la route et soumis à une limitation de vitesse fixée à 100 km/h. Deux agents de police contrˆolent avec un radar la vitesse vt des véhicules passant par ce point. L’inconnue x est la vitesse de la voiture vt. Est-ce que les policiers devront arrˆeter et verbaliser le véhicule uniquement à partir de la mesure donnée par le radar ?
Cas trivial
A un instant donné les agents de police re¸coivent une lecture radar v0 d’une voiture roulant à une vitesse de 105 km/h. Forts de cette information, les policiers arrˆetent la voiture pour un excès de vitesse, en lui montrant qu’il a roulé à plus de 5 km/h au dessus de la vitesse autorisée. Le conducteur de la voiture affirme qu’il roulait à 97 km/h, selon son tableau de bord. Les agents de police n’ayant pas d’autre source d’information, pour eux, la meilleure estimation vˆa de la vitesse réelle vt de la voiture à l’instant t est donnée par v0. En conséquence, le conducteur est condamné à une amende pour excès de vitesse. Or, à la mesure v0 du radar routier est associée une incertitude. Sur les spécifications du radar, suite à un grand nombre de mesures, l’écart type de ces mesures est fixé à 10 km/h. Cet écart type détermine l’erreur absolue d’observation du radar. En conséquence, la vitesse réelle n’est définie qu’`a une incertitude près dans l’intervalle compris entre 95 km/h est 115 km/h et, l’automobiliste n’aurait peut-ˆetre pas dˆu ˆetre verbalis´.
Estimateurs linéaires `a partir de deux observations
Imaginons que la Police ait re¸cu plusieurs contestations d’amendes établies au mˆeme endroit proche de Villarejo. Ils décident donc d’installer un autre radar, indépendant du premier, au mˆeme endroit. Ce nouvel appareil, plus précis, a une incertitude de mesure de 5 km/h. Le problème qui consiste à trouver le meilleur estimateur vˆa de la vitesse de la voiture devient maintenant un peu plus complexe. Les policiers seront tentés maintenant d’utiliser la moyenne des deux mesures radar. Par exemple, si la lecture du deuxième radar donne 98 Km/h, la moyenne des deux observations est de 101.5 Km/h, et le conducteur sera encore verbalis´. Par contre, cette estimation sera incomplète tant qu’ils n’utiliseront pas l’information sur l’erreur des deux radars. Une bonne estimation doit tenir compte des incertitudes sur la mesure. Maintenant on va développer trois approches différentes de l’estimation ”optimale” de la vitesse réelle de la voiture vt avec toute l’information dont nous disposons. On verra que les trois approches coincident en proposant des estimateurs identiques si on fait des hypothèses sur les moments statistiques et sur la forme de la fonction de distribution de probabilité des erreurs d’observation et d’estimation.
Cet exemple simple met en lumière trois résultats importants : (1) la précision totale est la somme des précisions individuelles, (2) les observations plus précises contribuent avec un poids plus important à l’estimateur optimal, (3) mˆeme si on a des observations avec des poids faibles, elles contribuent tout de mˆeme à améliorer la précision de l’estimation.
Moindres carrées pondérées
Les résultats précédents ont et´ obtenus à partir d’hypothèses sur la nature des erreurs d’observation, c.à.d., une espérance mathématique nulle et une matrice diagonale. Si on veut éviter de s’appuyer sur des hypothèses probabilistes pour estimer la vitesse de la voiture, on peut aussi utiliser un principe déterministe. Dans ce cas, on minimise une fonction quadratique J qui mesure la distance aux observations et qui prend en compte la précision de la mesure.
Maximum de vraisemblance
Jusqu’ici on a vu deux approches différentes pour estimer la vitesse vt de la voiture. L’ap-proche déterministe est basée sur la minimisation d’une fonction quadratique J qui mesure l’écart entre les observations et l’estimation du modèle. L’approche probabiliste fait des hy-pothèses sur les moments d’ordre 1 et 2 des erreurs d’observation. Dans notre exemple, les radars routiers estiment la vitesse d’un véhicule en utilisant l’effet Doppler, pour lequel la vi-tesse du véhicule est proportionnelle à la différence de fréquence entre l’onde émise contre la voiture et l’onde re¸cue après la réflexion.
Convergence des trois approches
Dans la section précédente on a traité trois approches différentes pour obtenir une estimation optimale de la vitesse vt de la voiture. On est arrivé à l’importante conclusion que les trois approches convergent vers les estimateurs linéaires, moyennant quelques hypothèses : dans une approche de type moindres carrés si le poids associé à une observation est égal à l’inverse de la variance (c.à.d., la précision), alors l’estimateur obtenu est équivalent à celui déduit de l’approche BLUE avec observations non biaisées et non corrélées. Egalement, si Ψ(v, Δν0) est une fonction de distribution normale, les estimateurs du maximum vraisemblance sont équivalents aux estimateurs obtenus avec les deux autres approches.
Maintenant, on va généraliser la théorie pour un nombre p d’observations et un vecteur d’estimation composé de n variables.
Généralisation
On va maintenant définir le vecteur x comme celui qui contient toutes les variables qui décrivent l’état d’un système. Ce vecteur aura pour dimension n × 1 si le nombre des variables d’état est égal `a n. Par exemple, on pourra imaginer que pour une application hydrologique, ce vecteur peut ˆetre composé par les températures et humidités des différentes couches du sol d’un modèle de surface et en chaque point de grille d’un domaine limité. Concernant les observations, on va maintenant définir le vecteur y comme celui composé par toutes les observations disponibles et de dimension p×1. Le vecteur d’état x et le vecteur d’observations y sont liés par un opérateur d’observation H, qui généralement est non-linéaire, et lui associe `a chaque état x décrit par ses n composantes, un état observable du système décrit par ses p observations :
Introduction de l’ébauche dans les estimateurs linéaires
Imaginons maintenant un schéma de surface bi-couche appliqué à toute la France. On considère que le nombre de variables d’état est réduit à quatre par point de grille : humi-dités et températures de deux couches à chaque point de grille, avec une résolution de quelques kilomètres. On peut imaginer que le vecteur d’état sera assez grand et que le nombre d’observa-tions peut ˆetre inférieur au nombre de variables d’état. De plus, ces observations sont irrégulières dans le temps et dans l’espace. Pour résoudre le problème d’estimation, il faut fournir d’autres sources d’information qui permettent de déterminer le problème d’estimation. Typiquement, cela peut ˆetre possible grˆace à l’utilisation d’une information a priori, par exemple une simulation précèdente du modèle de surface, qui constitue une premi`re solution, et non la seule, de l’état de la surface et de la mˆeme dimension. En ajoutant les observations à l’ébauche du modèle, l’information totale est forcément de dimension supérieure à la dimension de l’état du système, et en conséquence, le problème d’estimation devient déterminé. Etant donné que l’ébauche est aussi une estimation imparfaite de l’état réel de notre système, on peu l’exprimer comme suit : xB = I • xT + ǫb (2.56) [n×1] [n×n] [n×1] [n×1]
On remarque que dans ce cas l’équivalent de l’opérateur d’observation H est la matrice iden-tité de mˆeme dimension que le nombre de variables d’état. De plus, on pourra se servir d’autres sources d’information disponibles, comme des mesures des variables de la surface fournies par des capteurs satellitaires. Pour l’exemple que l’on a expos´ dans ce chapitre, on pourrait imaginer que la Police souhaite mettre en place un système automatique de contrˆole de vitesse sur tous les points noirs du réseau routier fran¸cais. Imaginons que l’on ait 1000 points très fréquentés `a contrˆoler entre autoroutes et routes nationales. Le budget disponible ne permettant pas la mise en œuvre de 1000 radars de la dernière technologie, nous allons ajouter aux 50 radars dont on dis-pose et aux autres mesures manuelles de toutes sortes, le calcul de vitesses déduites du système GPS (Global Positioning System). L’idée est d’obtenir la plus grande quantité d’information possible avec une estimation de leur incertitude.
Pour prendre en compte une ébauche dans les équations que l’on a développées ultérieurement, on va ajouter l’exposant (0) `a tous les vecteurs et matrices qui se référent aux observations, z sera le vecteur qui rassemble tout les types d’information (ébauche et observations), H et ǫ répresentent respectivement les opérateurs d’observation et la matrice d’erreur de covariance d’ébauche et d’observation .
Table des matières
Chapitre 1 Introduction
1.1 Contexte général
1.2 Le rˆole des systèmes d’assimilation
1.3 Objectifs
1.4 Contexte particulier de l’étude
1.5 Plan de manuscrit
Chapitre 2 Vers l’assimilation de données dans les modèles de surface
2.1 Analyse de données : concepts
2.2 Méthodes d’analyse de données
2.2.1 Interpolation classiques, fonctions d’interpolation
2.2.1.1 Voisin le plus proche (Proximal/Nearest Neighbours)
2.2.1.2 Interpolation linéaire
2.2.1.3 Interpolation par polynˆomes
2.2.1.4 Interpolation par splines
2.2.1.5 Autres fonctions d’interpolation
2.2.1.6 Problèmes de l’analyse par fonctions d’interpolation
2.2.2 Interpolation avec ébauche
2.2.3 Méthodes statistiques
2.3 Estimation statistique linéaire
2.3.1 Définition d’un problème d’estimation
2.3.2 Cas trivial
2.3.3 Estimateurs linéaires `a partir de deux observations
2.3.3.1 BLUE’s : Best Linear Unbiased Estimators
2.3.3.2 Moindres carrées pondérées
2.3.3.3 Maximum de vraisemblance
2.3.3.4 Convergence des trois approches
2.3.4 Généralisation
2.3.5 Introduction de l’ébauche dans les estimateurs linéaires
2.4 Modèles dynamiques
2.5 Assimilation de données
2.5.1 Filtres de Kalman
2.5.2 Méthodes variationnelles
2.6 Modèles non-linéaires
Chapitre 3 SMOSREX et ISBA-A-gs
3.1 Le site expérimental. Caractéristiques principales
3.2 évolution temporelle des variables de for¸cage atmosphérique
3.3 Humidité du sol et biomasse de la végétation
3.4 Mesures des instruments de télédétection
3.4.1 Températures de brillance en bande L
3.4.2 Réflectances
3.4.2.1 Réflectances journalières sur SMOSREX
3.4.2.2 Indices de végétation
3.4.3 Température infrarouge de la surface
3.5 Heating Rates
3.6 Le modéle de surface
3.6.1 ISBA-A-gs
3.6.2 Simulations d’ISBA-A-gs
Chapitre 4 Méthodes d’assimilation des observations de wg dans ISBA-A-gs
4.1 Introduction
4.2 ”From near-surface to root-zone soil moisture using different assimilation techniques.”
4.2.1 Résumé
4.2.2 Article
4.2.2.1 Introduction
4.2.2.2 Méthodologie
4.2.2.3 Résultats et discussion
4.2.2.4 Résumé et conclusions
4.2.2.5 Bibliographie
4.3 Une méthode dérivée de l’EnKF
Chapitre 5 Assimilation des observations de wg et LAI dans ISBA-A-gs en mode interactif
5.1 Introduction
5.2 Assimilation des wg avec LAI interactif
5.2.1 Stratégie défensive
5.2.2 Stratégie offensive
5.2.3 Fenˆetre séquentielle vs fenˆetre glissant pour le 1D-VAR simplifié
5.2.4 Conclusion
5.3 Assmilation d’observations de LAI
5.4 ”Joint assimilation of surface soil moisture and LAI observations using a simplified 1D-VAR : The SMOSREX case study.”
5.4.1 Résumé
5.4.2 Article
5.4.2.1 Introduction
5.4.2.2 Méthodologie
5.4.2.3 Résultats
5.4.2.4 Résumé et discussion
5.4.2.5 Conclussion
5.4.2.6 Bibliographie
5.5 Assimilation d’observations des instruments de télédétection
5.5.1 Températures de brillance
5.5.1.1 Méthode directe
5.5.1.2 Inversion des TB
5.5.2 Réflectances
5.5.3 Erreur des pseudo-observations
5.5.4 assimilation des produits de télédétection
5.5.5 Conclusion
Chapitre 6 Conclusions
6.1 Conclusions
6.2 Perspectives
Bibliographie
Annexe A For¸cage Atmosphèrique 2001-2004
Annexe B Variables manquants du for¸cage atmosphèrique
Annexe C Conversion des unités de l’humidité du sol
Annexe D Correction des éclairements et luminances sur SMOSREX
Glossaire
Table des figures
Liste des tableaux