Détection d’Anomalies Multiples par Apprentissage Automatique de Règles dans les Séries Temporelles

Détection d’Anomalies Multiples par Apprentissage
Automatique de Règles dans les Séries Temporelles

Description des datasets

SGE datasets

Le domaine d’application traité dans ce mémoire est le réseau de capteurs du Service de gestion et d’exploitation (SGE) du campus de Rangueil rattaché au rectorat de Toulouse. Ce service exploite et entretient le réseau de distribution à partir des données liées aux différentes installations. Plus de 600 capteurs de différents types de fluides (calories, eau, air comprimé, électricité et gaz), disséminés dans plusieurs bâtiments, sont gérés par les systèmes de supervision du SGE. Dans nos expérimentations nous nous sommes concentrés sur les données de calories et d’électricité. Les mesures de ces capteurs sont rassemblées à une fréquence régulière et représentent les index (lectures de capteurs). Ces derniers sont ensuite utilisés pour mesurer les quantités d’énergie consommées (par différences de valeurs d’index successives). Nous avons pu identifier les types d’anomalies et les points concernés (points remarquables) présents dans les données de capteurs de calorie grâce aux connaissances acquises auprès des experts du SGE et à travers une inspection manuelle d’un ensemble de capteurs de même type que les capteurs étudiés. Les mesures de calories collectées chaque jour pendant plus de trois ans par 25 capteurs déployés dans différents bâtiments soit environ 33536 observations au total. Ces mesures contiennent 586 anomalies de différents types tels que des pics positifs (PP), des pics négatifs (PN), des variations soudaines (VN, VP) et des constantes (CST). Ces anomalies représentent 1.75% des données. Les défauts présentés dans la figure I.2.4 sont extraits de ces mêmes ensembles de données. Les mesures d’électricité sont collectées toutes les heures depuis 10 ans (96074 observations au total). Elles présentent une consommation électrique, d’un compteur, dans un bâtiment. Différents types d’anomalies existent, par exemple, des constantes (CST) ou des pics (PP, PN). Il y a au total 10343 anomalies dans le jeu de données sur l’électricité soit 10.77% des données. L’anomalie prédominante dans ces données est constituée par les valeurs constantes suite à un arrêt de capteurs. Nous avons également trouvé parmi ces valeurs plusieurs constantes avec un décalage. Généralement, une constante avec un décalage de niveau commence par un pic positif ou négatif. Ensuite, il existe beaucoup de changements anormaux tels que des pics positifs ou négatifs. Enfin, il existe des changements de niveau dus au changement de capteur. Nous avons utilisé les données d’index et de consommation de calorie pour évaluer CoRP quant à CDT, nous avons utilisé les données de consommation de Calorie et d’électricité.

ARIMA datasets

Afin d’évaluer l’algorithme CoRP dans un autre contexte, nous avons utilisé les ensembles de données proposés dans le package d’implémentation de la méthode ARIMA (Tsay , 1988). Parmi ces données, nous avons exploré : — les données de HIPC (Harmonised Indices of Consumer Prices). Ces ensembles de données représentent les indices harmonisés des prix à la consommation dans la zone euro. — les données IPI (Industrial Production Indices). Ces données représentent les indices de la production industrielle dans le secteur manufacturier des pays de l’Union monétaire européenne (Tsay , 1988). Chacun de ces ensembles de données contient plusieurs séries temporelles qui présentent des données mensuelles de 1995 à 2013. Chacune de ces séries contient 229 mesures avec 5 anomalies en HIPC comme illustré dans la figure III.1.1, et 4 anomalies en IPI. Ces anomalies sont variées : AO (Additive Outlier), TC (Temporary Changes) ou LS (Level Shift). Nous avons rapporté ces anomalies par rapport à notre typologie d’anomalies dans le tableau I.2.1. Ainsi, AO correspond à des pics, TC correspond au bruit et LS correspond à un changement de niveau. Figure III.1.1 – Exemple de DataSets HIPC avec des anomalies de types AO et TC.

Yahoo’s S5 Webscope

Dataset Yahoo a créé un programme « Yahoo Webscope » qui est une bibliothèque de référence d’ensembles de données intéressants pour une utilisation non commerciale par des universitaires et d’autres scientifiques. L’ensemble de données Webscope S5, qui est accessible au public sur (Laptevand et Amizadeh, 2015), se compose de 371 fichiers répartis en quatre catégories, nommées A1 / A2 / A3 et A4, chacune contenant respectivement 67/ 100 / 100/ 100 fichiers. A1 Benchmark est basé sur le trafic de production réel des services Web réels, tandis que les classes A2, A3 et A4 contiennent des données d’anomalies synthétiques. Ces ensembles de données sont représentés par des séries chronologiques en unité d’une heure. Les informations sur les anomalies de vérité terrain sont disponibles pour toutes les séries chronologiques. Les valeurs anormales dans A1 Benchmark ont été étiquetées manuellement et les données présentent une variation de trafic relativement importante par rapport aux autres ensembles de données disponibles dans les autres catégories (A2, A3, A4). Il y a total 94778 valeurs de trafic dans 67 fichiers différents dont 1669 sont anormales (soit 1.76% des données). Les anomalies dans les jeux de données synthétiques sont insérées à des positions aléatoires. A2 Benchmark contient 142002 observations avec 466 anomalies (soit 0.33% des données) tandis que 168000 valeurs existent dans les Benchmarks A3 et A4 avec respectivement 943 et 837 anomalies (soit 0.56% et 0.20% des données respectivement). Dans ce mémoire, nous avons utilisé les données de toutes les catégories (A1, A2, A3 et A4) pour évaluer notre algorithme CDT. Les caractéristiques de tous les ensembles de données sont décrites dans le tableau III.3.1.

Table des matières

Remerciements
Introduction générale
Contexte de travail
Domaine d’application : Réseau de capteurs du SGE
Objectifs de la thèse
Contributions de la thèse
Organisation du mémoire
Publications liées à la thèse
I État de l’art
1 Exploration des séries temporelles
1.1 Série temporelle
1.1.1 Extraction de motifs
1.1.2 Les fenêtres glissantes
1.2 Apprentissage automatique
2 Détection d’anomalies dans les séries temporelles
2.1 Introduction .
2.2 Contexte
2.3 Domaines d’applications
2.4 Type d’anomalies
2.4.1 Anomalies de point
2.4.2 Anomalies contextuelle
2.4.3 Anomalies collectives
2.4.4 Type d’anomalies dans les déploiements réels
2.5 Apprentissage automatique pour la détection d’anomalies
2.6 Taxonomie des techniques de la détection d’anomalies
2.6.1 Techniques basées sur les connaissances
2.6.2 Techniques basées sur les statistiques
2.6.3 Techniques basées sur la régression
2.6.4 Techniques basées sur la classification
2.6.5 Techniques basées sur l’exploration de motifs
2.6.6 Techniques basées sur les plus proches voisins
2.6.7 Techniques basées sur le partitionnement
2.6.8 Techniques basées sur la théorie d’information
2.6.9 Techniques basée sur l’analyse spectrale
2.7 Méthodes d’évaluation
2.7.1 Matrice de confusion
2.7.2 Métrique d’évaluation
2.8 Synthèse
2.9 Conclusion
II Méthodes basées sur les motifs pour la détection d’anomalies
1 Introduction
1.1 Contexte et motivation
1.2 Types d’anomalies
1.3 Notations utilisées
2 CoRP : Composition of Remarkable Points
2.1 Introduction
2.2 Contexte et motivation
2.3 Description de CoRP
2.3.1 Détection des points remarquables
2.3.2 Composition de motifs
2.4 Application sur les données du SGE
2.5 Synthèse de la première contribution : CoRP
2.6 Conclusion
3 CDT : Composition-based Decision Tree
3.1 Introduction
3.2 Contexte et motivation
3.3 Méthodologie CDT
3.3.1 Prétraitement des séries chronologiques
3.3.2 Étiquetage des séries chronologiques
3.3.3 Composition-based Decision Tree
3.3.4 Simplification des règles
3.3.5 Mesure de qualité
3.3.6 Sélection automatique des hyper-paramètres
3.4 Synthèse de la deuxième contribution : CDT
3.5 Conclusion
III Implantation et expérimentation des propositions
1 Introduction
1.1 Aperçu des expérimentations réalisées
1.2 Description des datasets
1.2.1 SGE datasets
1.2.2 ARIMA datasets
1.2.3 Yahoo’s S5 Webscope Dataset
2 Expérimentation de la méthode basée sur les motifs CoRP
2.1 Introduction
2.2 Méthodologie de l’expérimentation
2.2.1 Exploration des méthodes de détection existantes
2.2.2 Protocole expérimental
2.3 Expérimentation sur les données du SGE
2.4 Expérimentation sur des données de la littérature
2.5 Conclusion
3 Expérimentation de la méthode CDT pour la génération des règles
3.1 Introduction
3.2 Protocole d’expérimentation
3.2.1 Processus d’évaluation
3.2.2 Mesure d’évaluation
3.3 Expérimentation avec des algorithmes de motifs
3.4 Expérimentations avec des algorithmes de règles
3.5 Conclusion
Conclusion générale
Synthèse des propositions
Champs d’application de notre approche
Perspectives de recherche
Bibliographie
Liste des figures
Liste des tables