Etude statistique de la variabilité des teneurs atmosphériques en aérosols désertiques en Afrique de l’Ouest

Etude statistique de la variabilité des teneurs atmosphériques en aérosols désertiques en Afrique de l’Ouest

Méthodes et approche statistique utilisées 

 Introduction

 Le but de cette thèse est de développer une approche statistique permettant d’étudier la variabilité des aérosols désertiques en Afrique de l’Ouest et de comprendre les mécanismes météorologiques qui la contrôlent. Ainsi deux grandes parties ont été retenues. La première consiste à analyser le cycle saisonnier et le cycle diurne des aérosols sur la période de 2006 à 2010, des données disponibles pour les trois stations sahéliennes du « Sahelian Dust Transect » (SDT) afin de comprendre les phénomènes météorologiques locaux qui les contrôlent. La deuxième consiste à réaliser une analyse climatologique en types de temps en saison sèche sur les trois stations afin de trouver à l’échelle de l’Afrique de l’Ouest la relation entre la mesure de la concentration massique au sol PM10 et la mesure de l’épaisseur optique des aérosols. Cette relation permettra de pouvoir modéliser et prévoir les concentrations massiques en PM10 à partir des mesures d’épaisseurs optiques. Nous décrirons dans cette partie les différents développements statistiques permettant de réaliser notre étude. Nous présenterons d’abord la méthode de filtrage des données. Un cycle saisonnier très fort est connu dans notre zone d’étude capable de masquer certains phénomènes. Il est alors intéressant de le filtrer afin de pouvoir étudier des phénomènes à plus petite échelle. Nous présenterons aussi l’analyse Factorielle des Correspondances (A.F.C) utilisée dans le chapitre 5 afin de caractériser les types de temps obtenus. Nous détaillerons enfin une méthode, non linéaire de Subspace clustering utilisée avec des tests statistiques pour développer une approche de classification avec sélection de variable utilisée dans le chapitre 5.

Méthode de filtrage de données 

Si l’on veut éliminer la composante saisonnière d’un paramètre météorologique représenté sous la forme d’une série temporelle, on peut effectuer une dessaisonalisation. Elle permettra de disposer d’une série temporelle (communément appelée série anomalie) où les signaux de faible fréquence ont été éliminés en grande partie. Dans le cadre de cette thèse, on travaillera avec un type de données dessaisonnalisées, celle dont on a éliminé le cycle saisonnier moyen sur les données brutes. ☞ Elimination du cycle saisonnier moyen. Pour cela, on élimine, pour chaque année, le cycle saisonnier moyen estimé sur les 5 années de données brutes ; il se présente de la sorte : Notons : 42 Chapitre 3. Méthodes et approche statistique utilisées S an, la série temporelle d’une variable S de l’année an, CSan la composante saisonnière moyenne sur les 5 années de la série S et Aan la série temporelle désaisonnalisée recherchée. Alors on estimera la série temporelle Aan par la formule : A an = S an − CSan (3.1) 

 Analyse Factorielle des Correspondances

 L’Analyse Factorielle des Correspondances (A.F.C) est une méthode factorielle de la Statistique Descriptive Multidimensionnelle. Son objectif est d’analyser la liaison existant entre deux variables qualitatives (si on dispose de plus de deux variables qualitatives, on aura recours à l’Analyse des Correspondances Multiples. Il est utilisé dans ce travail afin de caractériser les régimes de temps par rapport aux mois de l’année afin de trouver une liaison entre les différents régimes de temps des trois stations. Ainsi, avant de mettre en Œuvre une A.F.C, il faut s’assurer que cette liaison existe bien. Pour cela, il existe des graphiques et des caractéristiques numériques (indice khi-deux et ses dérivés) permettant de mettre en évidence une telle liaison lorsqu’elle existe. On notera qu’on dispose aussi d’un test statistique, le test du khi-deux d’indépendance, basé sur l’indice khi-deux, permettant de tester s’il existe ou non une liaison significative entre deux variables qualitatives. L’A.F.C est, en fait, une Analyse en Composantes Principales (A.C.P) particulière, réalisée sur les profils associés à la table de contingence croisant les deux variables considérées. Plus précisément, l’A.F.C consiste à réaliser une A.C.P sur les profils-lignes et une autre sur les profils-colonnes. Les résultats graphiques de ces deux analyses sont ensuite superposés pour produire un graphique de type nuage de points, dans lequel sont réunies les modalités des deux variables considérées, ce qui permet d’étudier les correspondances entre ces modalités, autrement dit la liaison entre les deux variables. L’A.F.C étant une A.C.P particulière, nous n’en donnons que les grandes lignes. 

 Les données

 L’AF C s’applique essentiellement à des tableaux de contingence (voir Tableau 3.1). C’est un tableau d’effectifs qui contient à l’intersection de la ligne i et de la colonne j des individus zij . Il s’agit de la distribution d’une population totale M selon deux caractères quelconques X en ligne et Y en colonne. Ce sont donc des caractères qualitatifs nominaux et/ou ordinaux. Dans un tableau de contingence, les modalités des caractères sont exclusives les unes par rapport aux autres et exhaustives. Il en résulte que les sommes en ligne et en colonne du tableau ont un sens. Considérons deux variables qualitatives : X à r modalités notées (x1, . . . , xl , . . . , xr);Y à c modalités notées (y1, . . . , yh, . . . , yc). On les observe simultanément sur n individus (ayant ici obligatoirement tous le même poids 1/n ). On sait que ces données peuvent être présentées sous la forme d’une table de contingence, ou tableau à double entrée présenté comme suit : 3.4. Méthodes de Classification 43 Tableau 3.1 – Le tableau de contingence croisant les caractèresX et Y y1 . . . yh . . . yc somme x1 n11 . . . n1h . . . n1c n1+ . . . . . . . . . . . . . . . xl nl1 . . . nlh . . . nlc nl+ . . . . . . . . . . . . . . . xr nr1 . . . nrh . . . nrc nr+ sommes n+1 . . . n+h . . . n+c n 

 Le problème et la méthode 

On suppose qu’il existe une liaison entre X et Y, et on cherche à décrire, à expliciter, cette liaison. Pour cela, on se base sur l’étude des profils-lignes et des profils-colonnes. La définition du l ieme profil-ligne est : ( nl1 nl+ , . . . , nlh nl+ , . . . , nlc nl+ ) et celle du h ieme profil-colonne : ( n1h n+h , . . . , nlh n+h , . . . , nrh n+h ) Rappelons que la liaison entre les deux variables est d’autant plus grande que les profils (lignes ou colonnes) sont différents. C’est alors par l’étude des ressemblances et des différences entre profils-lignes et entre profils-colonnes que l’on peut analyser la liaison entre les deux variables. La méthode consiste à réaliser l’A.C.P du tableau des profils-lignes (les individus de cette A.C.P. sont les lignes de la table de contingence, c’est à dire les modalités de X) et l’on fait la représentation graphique des individus, donc des modalités de X. On a un seul graphique si on ne conserve que deux dimensions, plusieurs dans le cas contraire. On réalise d’autre part l’A.C.P du tableau des profils-colonnes (les individus de cette A.C.P sont maintenant les colonnes de la table de contingence, c’est à dire les modalités de Y ) et l’on fait la représentation graphique des individus, donc des modalités de Y . On montre que ces deux A.C.P se correspondent et qu’il est donc légitime de superposer les deux représentations graphiques. On obtient ainsi un graphique de type nuage de points (ou un ensemble de graphiques si on conserve plus de deux dimensions), représentant à la fois les modalités de X et celles de Y . C’est l’interprétation de ces graphiques, pour lesquels on dispose d’un certain nombre d’indicateurs, qui permet d’expliciter la liaison entre les deux variables considérées. En particulier, on s’attache à étudier les correspondances entre les modalités de X et celles de Y . 

 Généralités sur les méthodes de classification 

Les méthodes de classification non-supervisées (ou clustering) permettent d’explorer des données non-labélisées dans le but de trouver des groupes d’observations homogènes et bien séparés. Les récentes avancées technologiques en termes de capacité de stockage d’informations d’une part, et la multiplication des sources d’informations d’autre part, contribuent à la mise en place de bases de données complexes et de grande dimension. Dans des domaines tels que la génétique, la finance et les études météorologiques par utilisées exemple, on rencontre des données de très grande dimension. De plus ces données peuvent présenter une structure en plusieurs blocs de variables caractérisant chacune une vue particulière sur les données recueillies selon une thématique spécifique, on parle de données multi-vues ou multi-blocs. Cependant la majorité des mesures de distance perdent leur pouvoir discriminant au fur et à mesure que la dimension augmente ; les observations étant pratiquement tout équidistantes les unes par rapport aux autres [Parsons et al., 2004] . En outre, en l’absence d’une structure globale de corrélation entre les variables (ce qui est souvent le cas en grande dimension à cause de la présence possible de variables souvent distribuées uniformément), la similarité entre deux observations est souvent portée par un nombre limité de variables. Les classes sont donc à rechercher dans des sous-espaces de l’espace initial, on parle alors de méthode de subspace clustering. Le principe des méthodes de subspace clustering reposent sur la recherche de sous espaces de l’espace initial permettant une meilleure détection et interprétation des groupes d’individus [Agrawal et al., 1998]. Ces méthodes peuvent être classées en deux grandes familles : Les méthodes de hard subspace clustering qui déterminent le sous-espace exact permettant de déterminer les classes d’une partition et les méthodes de soft subspace clustering qui affectent des poids aux variables. 

Les méthodes de hard subspace clustering

 Elles utilisent en général les méthodes de classification basées sur un maillage de l’espace des observations en définissant pour chaque dimension un histogramme. Puis, les intervalles ayant une densité d’observations supérieure à un seuil fixé a priori définissent des classes pour chaque variable. Les auteurs font ensuite l’hypothèse que si un espace de q dimensions présente une forte densité d’observations alors tout espace composé de q-1 dimensions de cet espace est aussi dense. Ce principe conduit à des classes qui se chevauchent. Cette famille de méthodes comprend entre autres les méthodes CLIQUE, ENCLUS [Agrawal et al., 1998]. On peut citer aussi les méthodes de Bi-partitionnement ou de Co-clustering qui recherchent une partition des observations et une partition des variables dont les classes caractérisent les observations. Cette famille de méthodes a suscité beaucoup d’intérêt dans les domaines tels que l’analyse de données textuelles et la génétique où l’objectif est de définir des classes de documents (par des classes de mots) ou de gènes. Elles visent à obtenir des blocs individus/variables ou lignes/colonnes les plus homogènes selon des critères métriques ou probabilistes. Il existe plusieurs algorithmes de bi-partitionnement [Charrad and Ahmed, 2011]. On retrouve d’une part, les méthodes de bi-partitionnement simple qui appliquent un algorithme de classification simple sur les lignes et sur les colonnes séparément. Les bi-classes sont construites à partir des classes obtenues sur les lignes et sur les colonnes. Cette famille inclut les méthodes Croeuc, Croki2, Crobin et Cromul présentées par Govaert [1983, 1984] dont la difficulté réside dans le choix du nombre de classes en ligne et en colonne. Nadif and Govaert [1993], présentent un formalisme du problème de la classification croisée sous l’approche modèle de mélange pour mieux appréhender les résultats fournis par ces algorithmes, Jollois [2003] présente ensuite une extension des algorithmes Croeuc et Crobin aux modèles de mélange permettant ainsi de surmonter les difficultés liées au choix du nombre de classes. D’autre part, les méthodes divisives procèdent par découpage itératif afin d’aboutir à des classes. Cette famille inclut les méthodes one-way splitting et two-way splitting de Hartigan [1975]. Dans le cas des cartes topologiques, Allab et al. [2011] proposent Bi−SOM un algorithme de bi partitionnement basé sur les cartes auto-organisatrices (SOM, Kohonen [1998]), qui traite simultanément les individus et les variables dans une seule carte et qui fournit un outil de visualisation des classes dans une structure topologique. Le principal 

Méthodes de Classification

inconvénient de l’approche Bi − SOM concerne le chevauchement des classes d’individus qui engendre des difficultés supplémentaires d’interprétation des classes d’individus.

Méthode de soft subspace clustering

La deuxième famille concerne les méthodes de soft subspace clustering qui affectent des poids aux variables, puis les sous espaces sont déterminés par les variables ayant les plus forts poids. Huang et al. [2005] dans W − K − Means puis Jing et al. [2007] dans Entropy weighting K-Means (EWKM) proposent de définir un système de pondération par modification de la fonction de coût associée à l’algorithme des K-Moyennes en y introduisant des poids. Dans la méthode EWKM, les auteurs minimisent simultanément, l’inertie intra-classe et maximise un terme d’entropie négatif dans le processus d’apprentissage. EWKM calcule pour chaque variable des poids inversement proportionnels à leur variance dans chaque classe. Le sous-espace de variables pertinentes pour chaque classe est défini en se basant sur ces poids, facilitant ainsi l’interprétation des classes. Dans le cas particulier des données initialement structurées en blocs de variables où chaque bloc à sa spécificité, la perturbation apportée par les variables de bruit d’un bloc peut être atténuée par l’information globale apportée par le bloc d’où la nécessité de définir des poids sur les blocs initiaux. Cependant, peu de méthodes de subspace clustering prennent en compte la structure initialement multi-blocs des données en classification sans perdre la notion de spécificité des blocs. Des approches récentes basées sur l’introduction dans la méthode des K − moyennes d’une pondération des variables ou des blocs permettent de prendre en compte en plus de la grande dimension, la structure multi-blocs [Chen et al., 2012]. Plus récemment, ces approches ont été étendues, à travers une nouvelle méthode 2S − SOM Ouattara [2014], aux cartes auto-organisées ou self organizing maps(SOM) [Kohonen, 1998] permettant ainsi d’exploiter les propriétés de visualisation de SOM. La méthode 2S − SOM repose sur l’introduction d’un système de pondération sur les variables et sur les blocs par modification de la fonction de coût de SOM, constituant ainsi une méthode de soft subspace clustering. Par rapport à notre problématique dans ce travail et la structure de nos données, nous nous somme intéressé à cette nouvelle approche de subspace clustering. Ainsi, nous avons proposé une approche hiérarchique de classification avec sélection de variables fondée sur une double utilisation de 2S − SOM Kaly et al. [2014 b]. 

Présentation de l’Algorithme (2S-SOM) Notation 

Nous disposons de N observations zi décrites par p variables divisées en B blocs. On recherche une partition des observations en K classes. Les notations suivantes seront utilisées : — Z la matrice de N observations zi ∈ R p avec i = 1, . . . , N. — V = {z j , j = 1, . . . , p} l’ensemble des variables divisé en B blocs de pb variables tels que p1 + . . . + pb + . . . + pB = p. — α est une matrice K × B où K désigne le nombre de classes c dans Z, αcb est le poids du bloc b dans la classe c de Z. — β = [β1, . . . , βB] est une matrice K × p où βb est une matrice de dimension K × pb définissant les poids βcbj (j = 1, . . . , pb) sur les variables du bloc b pour chaque c de Z. 46 Chapitre 3. Méthodes et approche statistique utilisées 3.4.2.1 La méthode des cartes auto-organisatrices de Kohonen (SOM) Les cartes topologiques ou auto-organisatrices font partie de la famille des méthodes neuronales, à « apprentissage non supervisé ». Cela signifie que, dans une première approche, ces méthodes seront utilisées dans un but descriptif. Les données à analyser sont constituées d’observations dont on cherche à comprendre la structure : il n’y a pas de but précis à atteindre, ni de réponse souhaitée [Kohonen, 1998]. Le but de ces cartes est de représenter des observations multidimensionnelles sur un espace discret de faible dimension (en général 1D ou 2D) qui est communément appelé la carte topologique. Dans ces méthodes, chaque classe est représentée par un neurone qui est caractérisé par un vecteur dit référent. La présentation de l’algorithme de Kohonen permet de comprendre la méthode utilisée dans ce travail. ☞ L’algorithme de Kohonen La Figure 3.1 suivante présente une carte topologique en une grille 2D. Un réseau de Kohonen est composé de 2 couches ; la première appelée couche d’entrée sert à la présentation des observations et contient exactement n cellule(s), n étant la dimension de l’espace des observations ; la deuxième appelé couche d’adaptation est formée du treillis des cellules formant la carte topologique. Notons que l’algorithme cherche une partition de l’ensemble z en K sous ensembles de sorte que toute cellule c de la carte soit connectée à une cellule (ou observation) j de la couche d’entrée. Cette connexion est quantifiée par wij appelé poids synaptique. Chaque sous-ensemble, noté i ∈ C, est associé un vecteur dit référent ou représentant wc défini dans le même espace que les données de l’ensemble Z. Soit W={wc ;c = 1,. . . ,K} l’ensemble des vecteurs référents. Dans le cas des méthodes de quantification vectorielle, la partition C est souvent définie par une fonction d’affectation χ permettant de définir les sous-ensembles c de la partition C tel que c={zi ∈ Zχ (zi =c)} . L’ensemble C est constitué d’un ensemble de neurones interconnectés et le lien entre les neurones se fait par l’intermédiaire d’une structure de graphe non-orienté (Figure 3.1). La structure de la carte C est induite par une distance souvent discrète σsurC définie comme étant la longueur du plus court chemin. Pour chaque neurone c ∈ C , la distance δ permet de définir la notion de voisinage d’ordre d de c : Vc(d) = {r ∈ C, δ(r, c) ≤ d} Plus précisément, le lien entre deux neurones r et c de la carte C est introduit par une fonction noyau κ positive et symétrique telle que lim κ(x) = 0 . Cette fonction noyau définit une zone d’influence autour de chaque neurone c de la carte :{r, κ(δ(r, c)) < α} où α est le seuil d’activation d’un neurone comme faisant partir du voisinage de c. Dans la littérature, il existe plusieurs manières de définir la fonction κ.

Table des matières

Table des figures
Liste des tableaux
Introduction
1 Généralités sur la circulation atmosphérique et les aérosols désertiques en Afrique de l’ouest
1.1 Introduction
1.2 Généralités sur la circulation atmosphérique en Afrique de l’Ouest
1.2.1 La circulation en saison sèche
1.2.2 La circulation en saison des pluies (saison de Mousson) .
1.2.2.1 Circulation dans les basses couches
1.2.2.2 Circulations dans les couches moyennes et dans la haute troposphère
1.2.2.2.a Jet d’Est Africain (JEA) et ondes d’Est
1.2.2.2.b Jet d’Est Tropical (JET )
1.2.2.2.c Jet d’Ouest Subtropical (JOST)
1.2.3 Zone de Convergence Inter Tropicale (ZCIT)
1.3 Généralités sur les aérosols désertiques
1.3.1 Sources de Production et cycle de vie des aérosols désertiques
1.3.1.1 Sources
1.3.1.2 Cycle de vie des aérosols
1.3.1.2.a Les émissions en zones source
1.3.1.2.b Le transport des particules
1.3.1.2.c Le dépôt des particules
1.3.2 Variabilité des contenus atmosphériques en aérosols désertiques
1.3.2.1 Variabilité journalière
1.3.2.2 Variabilité annuelle et intra saisonnière
1.3.2.3 Variabilité interannuelle
1.4 Impacts des aérosols désertiques
1.4.1 Impacts sur le climat
1.4.2 La visibilité
1.4.3 Impacts sur la santé, la biogéochimie et la biodiversité
1.5 Conclusion et hypothèses méthodologiques
2 Présentation des données d’étude
2.1 Introduction
2.2 Présentation des stations de mesures et des données in-situ
2.2.1 Présentation des stations de mesures
2.2.2 Mesures in situ
2.2.2.1 Mesures de concentrations en PM
2.2.2.2 Mesures de l’Epaisseur Optique en Aérosol
6 Table des matières
2.2.2.3 Mesures météorologiques in situ
2.3 Données météorologiques à grande échelle
2.4 Aerosol Index (AI)
3 Méthodes et approche statistique utilisées
3.1 Introduction
3.2 Méthode de filtrage de données
3.3 Analyse Factorielle des Correspondances
3.3.1 Les données
3.3.2 Le problème et la méthode
3.4 Méthodes de Classification
3.4.1 Généralités sur les méthodes de classification 3
3.4.1.1 Les méthodes de hard subspace clustering 44
3.4.1.2 Méthode de soft subspace clustering 45
3.4.2 Présentation de l’Algorithme (2S-SOM) 45
3.4.2.1 La méthode des cartes auto-organisatrices de Kohonen (SOM) 46
3.4.2.2 2S-SOM
3.5 Evaluation des variables pertinentes pour chaque classe de la CAH 1
3.6 Les critères d’évaluation d’une classification
3.6.1 Critères d’évaluation interne
3.6.2 Critères d’évaluation externe
4 Variabilité temporelle des aérosols mesurés au sol au Sahel
4.1 Introduction
4.2 Variabilité des concentrations en poussières minérales
4.3 Analyse Comparative des cycles saisonniers des concentrations en PM et de l’AOT
5 Relations AOT-PM en fonction des régimes de temps d’Afrique de L’Ouest
5.1 Présentation de la méthodologie
5.1.1 Objectifs et stratégie
5.1.2 Présentation des données d’études
5.1.3 Présentation de la méthodologie de filtrage
5.1.4 Présentation de la méthodologie de classification par types de temps
5.1.5 Sélection de Variables
5.2 Régimes de temps bruts
5.2.1 Détermination du nombre de régimes de temps bruts
5.2.2 Caractérisation des régimes de temps
5.2.2.1 Matrices de confusion
5.2.2.2 Distribution diurne à inter-annuelle
5.2.2.3 Persistances et transitions inter-classes
5.2.2.4 Structures spatiales et interprétations météorologiques et climatiques
5.2.3 Relation AOT- PM avec et sans régimes de temps
5.2.4 Conclusion
5.3 Régimes de temps obtenus sur les données en enlevant le cycle saisonnier moyen
5.3.1 Caractérisation des régimes de temps
5.3.1.1 Matrices de confusion
5.3.1.2 Distributions diurnes à inter-annuelles
5.3.1.3 Persistances et transitions inter-classes
5.3.1.4 Structures spatiales et interprétations météorologiques et climatiques
5.3.2 Relations AOT-PM avec et sans régimes de temps
5.3.3 Travail exploratoire sur un système d’alerte opérationnel
5.3.4 Conclusion
5.4 Conclusion
6 Conclusion générale et perspectives
Bibliographie
A Quelques figures
A.1 Figures régimes de temps bruts
A.1.1 régimes de temps bruts
A.1.2 régimes de temps desaisonalisés
A.1.3 Système d’alerte
A.2 Poster et Article

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *