Détection d’Anomalies Multiples par Apprentissage
Automatique de Règles dans les Séries Temporelles
Description des datasets
SGE datasets
Le domaine d’application traité dans ce mémoire est le réseau de capteurs du Service de gestion et d’exploitation (SGE) du campus de Rangueil rattaché au rectorat de Toulouse. Ce service exploite et entretient le réseau de distribution à partir des données liées aux différentes installations. Plus de 600 capteurs de différents types de fluides (calories, eau, air comprimé, électricité et gaz), disséminés dans plusieurs bâtiments, sont gérés par les systèmes de supervision du SGE. Dans nos expérimentations nous nous sommes concentrés sur les données de calories et d’électricité. Les mesures de ces capteurs sont rassemblées à une fréquence régulière et représentent les index (lectures de capteurs). Ces derniers sont ensuite utilisés pour mesurer les quantités d’énergie consommées (par différences de valeurs d’index successives). Nous avons pu identifier les types d’anomalies et les points concernés (points remarquables) présents dans les données de capteurs de calorie grâce aux connaissances acquises auprès des experts du SGE et à travers une inspection manuelle d’un ensemble de capteurs de même type que les capteurs étudiés. Les mesures de calories collectées chaque jour pendant plus de trois ans par 25 capteurs déployés dans différents bâtiments soit environ 33536 observations au total. Ces mesures contiennent 586 anomalies de différents types tels que des pics positifs (PP), des pics négatifs (PN), des variations soudaines (VN, VP) et des constantes (CST). Ces anomalies représentent 1.75% des données. Les défauts présentés dans la figure I.2.4 sont extraits de ces mêmes ensembles de données. Les mesures d’électricité sont collectées toutes les heures depuis 10 ans (96074 observations au total). Elles présentent une consommation électrique, d’un compteur, dans un bâtiment. Différents types d’anomalies existent, par exemple, des constantes (CST) ou des pics (PP, PN). Il y a au total 10343 anomalies dans le jeu de données sur l’électricité soit 10.77% des données. L’anomalie prédominante dans ces données est constituée par les valeurs constantes suite à un arrêt de capteurs. Nous avons également trouvé parmi ces valeurs plusieurs constantes avec un décalage. Généralement, une constante avec un décalage de niveau commence par un pic positif ou négatif. Ensuite, il existe beaucoup de changements anormaux tels que des pics positifs ou négatifs. Enfin, il existe des changements de niveau dus au changement de capteur. Nous avons utilisé les données d’index et de consommation de calorie pour évaluer CoRP quant à CDT, nous avons utilisé les données de consommation de Calorie et d’électricité.
ARIMA datasets
Afin d’évaluer l’algorithme CoRP dans un autre contexte, nous avons utilisé les ensembles de données proposés dans le package d’implémentation de la méthode ARIMA (Tsay , 1988). Parmi ces données, nous avons exploré : — les données de HIPC (Harmonised Indices of Consumer Prices). Ces ensembles de données représentent les indices harmonisés des prix à la consommation dans la zone euro. — les données IPI (Industrial Production Indices). Ces données représentent les indices de la production industrielle dans le secteur manufacturier des pays de l’Union monétaire européenne (Tsay , 1988). Chacun de ces ensembles de données contient plusieurs séries temporelles qui présentent des données mensuelles de 1995 à 2013. Chacune de ces séries contient 229 mesures avec 5 anomalies en HIPC comme illustré dans la figure III.1.1, et 4 anomalies en IPI. Ces anomalies sont variées : AO (Additive Outlier), TC (Temporary Changes) ou LS (Level Shift). Nous avons rapporté ces anomalies par rapport à notre typologie d’anomalies dans le tableau I.2.1. Ainsi, AO correspond à des pics, TC correspond au bruit et LS correspond à un changement de niveau. Figure III.1.1 – Exemple de DataSets HIPC avec des anomalies de types AO et TC.
Yahoo’s S5 Webscope
Dataset Yahoo a créé un programme « Yahoo Webscope » qui est une bibliothèque de référence d’ensembles de données intéressants pour une utilisation non commerciale par des universitaires et d’autres scientifiques. L’ensemble de données Webscope S5, qui est accessible au public sur (Laptevand et Amizadeh, 2015), se compose de 371 fichiers répartis en quatre catégories, nommées A1 / A2 / A3 et A4, chacune contenant respectivement 67/ 100 / 100/ 100 fichiers. A1 Benchmark est basé sur le trafic de production réel des services Web réels, tandis que les classes A2, A3 et A4 contiennent des données d’anomalies synthétiques. Ces ensembles de données sont représentés par des séries chronologiques en unité d’une heure. Les informations sur les anomalies de vérité terrain sont disponibles pour toutes les séries chronologiques. Les valeurs anormales dans A1 Benchmark ont été étiquetées manuellement et les données présentent une variation de trafic relativement importante par rapport aux autres ensembles de données disponibles dans les autres catégories (A2, A3, A4). Il y a total 94778 valeurs de trafic dans 67 fichiers différents dont 1669 sont anormales (soit 1.76% des données). Les anomalies dans les jeux de données synthétiques sont insérées à des positions aléatoires. A2 Benchmark contient 142002 observations avec 466 anomalies (soit 0.33% des données) tandis que 168000 valeurs existent dans les Benchmarks A3 et A4 avec respectivement 943 et 837 anomalies (soit 0.56% et 0.20% des données respectivement). Dans ce mémoire, nous avons utilisé les données de toutes les catégories (A1, A2, A3 et A4) pour évaluer notre algorithme CDT. Les caractéristiques de tous les ensembles de données sont décrites dans le tableau III.3.1.
Remerciements |