Manipulation des bases de données avec Excel

Manipulation des bases de données avec Excel

En premier lieu, les données issues des différents établissements sont tous sous format, soient « .txt », soient « .dat ». Les logiciels utilisés requièrent certaines spécifications sur les formats et les dispositions des données dans les fichiers. Et vue l’importance de la quantité de données à traiter cela demanderait un temps relativement long pour les traitements manuels, mieux vaut choisir la procédure automatique. Pour se faire, Excel sera employé en vue de faire toutes les modifications possibles des bases de données. Pour cela, plusieurs fonctions d’Excel seront employées comme les fonctions bases de données, les tableaux croisées dynamiques, les requêtes de classeurs et de feuilles, les transpositions, les fonctions statistiques de bases et bien d’autres qui dépendent de la disposition voulue. Après modification avec Excel, les fichiers seront reconvertis sous leur format initial pour que les logiciels puissent les lire correctement.

Contrôle de qualité sous RClimdex

Dans le cadre du contrôle de qualité, l’objectif est que l’ensemble des données atteigne le meilleur niveau possible avant leur utilisation. Le RClimDex QC effectue les procédures suivantes : I. Codage des valeurs manquantes Communément connues comme lacune dans les séries pluviométrique. Ici, le progiciel remplace toutes les valeurs manquantes (actuellement codées comme -99,9) dans un format interne que R reconnaît, c’est-à-dire NA (Not Available), puis produit un schéma sur tout le jeu de donnée.

Données et Méthodologie

Les valeurs négatives R va identifier toutes les valeurs déraisonnables dans NA. Ces valeurs sont les valeurs précipitations quotidiennes qui s’élève à moins de zéro (négatives) III. Détection des valeurs aberrantes Ce sont des valeurs quotidiennes en dehors d’une région définie par l’utilisateur. Actuellement, cette région est définie comme la moyenne plus ou moins n fois l’écart type de la valeur pour la journée, ce qui est, [moyenne – n * std, signifie + n * std]. StD (Standard Deviation) représente l’écart type de la journée et n est une entrée de l’utilisateur et la moyenne est calculée à partir de la climatologie de la journée (dans notre simulation, nous utiliserons n=4) IV. Simulation sous RClimdex Le contrôle de qualité des données se fait à partir de la fonction Run QC de l’interface graphique GUI du progiciel RClimdex. Mais avant, on charge les données sous forme de format Texte par la fonction Load data. La procédure sera présentée avec l’interface GUI dans l’Annexe X. Section 3 Correction des erreurs connues Nous présenterons ici les procédures implantées dans RClimdex. I. Elimination des lacunes de longue période Dans cette section, nous allons procéder à l’élimination des mois et des années contenant respectivement plus de 10 jours et 3 mois de manques selon les normes de l’OMM. II. Analyse des valeurs aberrantes Ici, nous examinerons les données aberrantes, si elles ont une quelconque relation avec l’état du climat au moment de l’observation. Si oui, nous ne les modifieront pas. Si non, on les éliminera. III. Restitution des valeurs manquantes Cette étape sera envisagée si les périodes ne sont pas trop longues, conforme à ce qui a été mentionné dans la section 3.I. Le traitement des données manquantes est très compliqué, il dépend de leur nature et des traitements statistiques que nous souhaitons réaliser par la suite (ex. un remplacement n’a pas le même impact selon que l’on fait une ACP ou une régression par la suite) [77]. Pour traiter les valeurs manquantes, nous allons suivre trois étapes : la répartition des valeurs manquantes, la classification et les méthodes de traitement. Mais avant cela, on va présenter les critères établis par l’OMM concernant les séries des précipitations manquantes. Les critères sur les données manquantes sont expliqués dans l’Annexe XI. Partie II : Données et Méthodologie 56 1. Répartition des valeurs manquantes La répartition des données manquantes révèle leurs natures. On distingue généralement trois types de « pattern » pour les données manquantes (Figure 22). Figure 22 : Schéma de la répartition des données manquantes Source ..

Classification des données manquantes

Dans la littérature, il existe trois hypothèses distinctes sur l’origine du mécanisme des données manquantes : ❖ MCAR (Missing Completely At Random) : les données sont manquantes complètement aléatoirement si la probabilité d’avoir une valeur manquante pour une variable donnée ne dépend pas de celle-ci, mais uniquement des paramètres extérieurs indépendants de cette variable. ❖ MAR (Missing At Random) : les données sont manquantes aléatoirement si la probabilité d’avoir une valeur manquante peut dépendre des observations mais pas des données manquantes. ❖ MNAR (Missing Not At Random) : les données sont manquantes non aléatoires lorsque la probabilité de non-réponse est liée aux valeurs prises par la variable ayant des données manquantes. Dans le cas des données de précipitations les données manquantes sont de classe MCAR puisque les séries manquantes ne dépend pas d’eux-mêmes, mais uniquement des paramètres extérieurs indépendants, notamment les conséquences des erreurs aléatoires et systématiques.