Méthodes statistiques d’interpolation spatiale
L’interpolation spatiale se définie par la prévision de la valeur d’une variable en un site à partir de valeurs mesurées en des sites voisins. Elle peut s’effectuer par une méthode déterministe ou stochastique. Les polygones de Thiessen, la méthode de l’inverse de la distance et les splines sont des exemples de méthodes déterministes (Arnaud et Emery, 2000). Dans ce projet, ces méthodes ont été mises de cˆoté au profit des méthodes stochastiques, qui proposent toutes un modèle probabiliste pour formaliser le comportement du phénomène physique à l’étude. Les surfaces de tendance, la régression locale, le krigeage et les méthodes bayésiennes ont été recensés comme méthodes stochastiques. Cependant, les surfaces de tendance ont été considérées trop simplistes pour ˆetre approfondies. Cette méthode est en fait une régression classique reposant sur une hypothèse d’indépendance des observations qui est rarement vérifiée avec des données spatialisées. Les erreurs de prévision ou les tests sur les paramètres de la tendance que la méthode permet de calculer ne sont donc pas fiables (Ripley, 1981, p.29-35). D’autre part, bien que les méthodes bayésiennes semblent très prometteuses (Gaudard et al., 1999), elles n’ont pas été étudiées en raison de leur complexité et des moyens à disposition. De plus, ces méthodes sont relativement nouvelles et peu de logiciels sur le marché permettent de les utiliser. Ainsi, ce projet se concentre sur la régression locale et le krigeage, qui sont ici décrits brièvement.
Régression locale
La régression locale est une méthode de lissage qui permet d’ajuster une surface de régression (Cleveland et Devlin, 1988). Pour répondre à une problématique d’interpolation spatiale, la variable d’intérˆet est modélisée par une fonction linéaire ou quadratique des coordonnées spatiales x et y. Cette fonction est ajustée par la méthode des moindres carrés pondérés. Ce qui différencie la régression locale des surfaces de tendance est cette pondération des données, qui est fonction de la distance géographique entre les sites d’observation et le site pour lequel une prévision est voulue. Certains nomment « régression pondérée géographiquement » ce type de régression locale permettant de faire de l’interpolation spatiale (Fotheringham et al., 2002). Pour utiliser cette technique, il faut préalablement choisir une fonction de poids et Chapitre 6. Interpolation statistique multivariable de données de précipitations 79 spécifier la taille du voisinage. La fonction de poids détermine dans quelle mesure les observations les plus proches ont plus d’importance dans l’interpolation. Dans ce projet, la fonction Epanechnikov est toujours employée. Ainsi, pour effectuer une prévision au point s0 = (x0, y0), le poids de l’observation prise au point si = (xi , yi) est 1 − |s0−si| h(s0) 2 pour 0 ≤ |s0 − si |/h(s0) < 1, et 0 sinon. L’expression |s0 − si | représente la distance euclidienne entre les points s0 et si , et h(s0) est la distance au-delà de laquelle les observations se voient accorder un poids nul. Ainsi, h(s0) constitue la limite du voisinage de s0. Une pratique courante en régression locale est de spécifier ce voisinage par la fraction des points d’observation que l’utilisateur désire inclure dans la prévision. Plus cette fraction est grande, plus la surface ajustée est lisse. En interpolation spatiale par régression locale, l’intégration de données autres que celles de la variable d’intérˆet se fait par l’ajout de variables auxiliaires dans la tendance. Les poids des données restent cependant fonction des coordonnées spatiales seulement.
Krigeage
En krigeage, la valeur de la variable d’intérˆet est prévue en un point par une somme pondérée des observations ponctuelles disponibles. Les poids des données sont choisis de fa¸con à ce que l’interpolation soit sans biais et à variance minimale. Cette technique a été introduite par le Fran¸cais G. Matheron en 1962 (Matheron, 1962, 1963b). Il s’agit de la première méthode d’interpolation à tenir compte de la structure de dépendance spatiale des données. Notons que le krigeage repose sur les mˆemes bases théoriques que l’« interpolation optimale » employée en météorologie (Gandin, 1963). Il existe plusieurs types de krigeage, qui diffèrent selon la forme postulée pour l’espérance de la variable d’intérˆet. Par exemple, lorsqu’il est supposé que l’espérance soit constante et connue, on parle de krigeage simple. S’il est postulé que l’espérance soit constante mais inconnue, il s’agit de krigeage ordinaire. Enfin, le krigeage universel repose sur l’hypothèse que cette espérance soit une fonction des coordonnées spatiales. Ainsi, ce dernier type de krigeage n’est pas stationnaire par rapport à l’espérance contrairement aux deux autres. La stationnarité se définie ici par la constance de l’espérance, mais aussi par la covariance entre deux observations qui dépend uniquement de la distance entre ces observations. Tous les types de krigeage postulent la stationnarité de la covariance, ou, plus généralement, du semi-variogramme. Cette fonction, qui représente la structure de dépendance spatiale des données, doit ˆetre estimée et modélisée avant d’effectuer l’interpolation. La modélisation de cette fonction cause parfois des problèmes en pratique car cette étape demeure difficilement automatisable. Le krigeage propose principalement deux fa¸cons d’intégrer des variables auxiliaires : le krigeage avec dérive externe et le cokrigeage. En krigeage avec dérive externe, il est supposé que l’espérance de la variable d’intérˆet dépende des variables auxiliaires. La théorie de ce krigeage est en fait la mˆeme que la théorie du krigeage universel, qui comporte aussi une espérance non constante. Pour sa part, le cokrigeage suggère de prévoir la variable d’intérˆet par une combinaison linéaire pondérée de ses observations et des observations des variables auxiliaires. Cette technique requiert l’étude de la dépendance spatiale entre les variables en plus de l’étude des dépendances spatiales simples. Pour plus de détails sur la théorie du krigeage, le lecteur est référé au livre de (Cressie, 1993).
Données de test et site d’étude
Suite à l’étude théorique, des techniques de régression locale et de krigeage ont été testées en pratique. Les données employées pour cette expérimentation couvrent le bassin versant de la rivière Gatineau pendant le mois d’aoˆut 2003. Tel que mentionné précédemment, 16 stations météorologiques se situent à l’intérieur ou à proximité de ce bassin versant d’une superficie de 21400 km2 . Ces stations appartiennent au Ministère de l’environnement du Québec, à Environnement Canada, à Hydro-Québec ou à la Société de protection des forˆets contre le feu (SOPFEU). Les données de base de ce projet proviennent de ces stations. Il s’agit de mesures ponctuelles de précipitations cumulées sur 6 heures. Le graphique de gauche de la figure 6.1 permet de localiser les stations et présente le champ moyen de précipitations observées pour une période de 6 heures en aoˆut 2003. En plus des stations météorologiques, une autre source de données a été considérée : le modèle numérique de prévision météorologique, ou modèle atmosphérique, GEM (Global Environnemental Multi-échelles) d’Environnement Canada. Les données générées par ce modèle qui ont été employées dans l’interpolation sont des prévisions de précipitations cumulées sur 6 heures. Ces données se présentent sur une grille de 10km par 10km dont les points sont représentés sur le graphique de droite de la figure 6.1. Ce graphique présente aussi le champ moyen des précipitations 6h prévues par GEM en aoˆut 2003. Il indique que le modèle GEM a tendance à surestimer les précipitations comparativement aux stations.