Contextualisation des secteurs de mesure
Les données provenant de capteurs de mesure sont effectuées à intervalle de temps régulier : nous pouvons donc utiliser ces flux de données pour identifier les anomalies dans les mesures. En outre, disposer des horodatages des mesures permet de récupérer d’autres informations temporelles liées, afin de détecter les origines des irrégularités précédemment décelées.La détection d’anomalies peut être réalisée en employant diverses mé- thodes mathématiques et/ou statistiques, en fonction du type de mesure étudiée. Cette contribution a majoritairement été réalisée par l’un de nos partenaires, mais nous pouvons dresser une liste des principales méthodes employées. Certaines sont simples, et applicables indépendamment du type de mesure : vérification de dépassement de valeurs seuil, et la comparaisons de moyennes de mesures. Cette dernière technique peut être effectuée sur des périodes de temps plus ou moins longues ; dans le cadre de notre projet, elle est effectuée généralement durant la nuit, lorsqu’il n’y a pas de risques de gros écarts de consommation. Il existe d’autres méthodes plus complexes, telle que la comparaison deux à deux, qui vise à mettre en parallèle les consomma- tions de deux secteurs sur une longue période en utilisant un graphe. En présence d’éventuels groupes de points isolés, on peut déduire la présence d’un problème dans les mesures, et tenter de le contextualiser.
En plus de ces méthodes, il est possible d’étudier l’évolution des mesures dans le temps, en analysant les relevés suivants afin de déterminer leur impor- tance et de mieux identifier leur origine. Une erreur ponctuelle (par exemple, un dépassement de seuil pour une seule mesure) ne sera vraisemblablement pas jugée critique, tandis qu’une anomalie prolongée (répétée sur plusieurs mesures de suite) sera évaluée plus grave. La visualisation de notre projet permet également de voir si l’anomalie augmente en intensité dans le temps (une baisse de pression de plus en plus élevée), ou si elle est liée à d’autres paramètres (dans le cas d’une fuite, on aura une augmentation de la consom- mation, et une baisse de pression). Les données ont déjà subi un nettoyage grâce au système de filtrage situé en amont de l’architecture du projet, par conséquent les déficiences des capteurs n’entrent pas en compte : il n’y a que les origines extérieures à prendre en compte (fuite, surconsommation…).Ces analyses permettent donc d’identifier les incohérences dans les me- sures, et de les caractériser ; mais elles n’aident en rien à trouver les causes de ces anomalies. L’étude des données temporelles n’est donc qu’une moti- vation : il est nécessaire de trouver les origines de ces anomalies. Pour cela, nous avons besoin de caractériser les secteurs de consommation, afin d’orien- ter nos recherche.
Par exemple, supposons que dans notre cas d’usage, nous détections une chute de pression : l’analyse seule des données temporelles nous permet d’en déterminer l’importance, mais pas la source. S’il ne s’agit pas d’une fuite, mais d’un simple écart par rapport à la moyenne habituelle, envoyer des agents sur le terrain serait une perte de temps, financière et de ressources. Mais le simple fait de savoir si l’erreur est due à un problème ma- tériel ou un événement extérieur n’est pas facile. L’un des exemples évoqué par notre partenaire expert du cas d’usage était un écart de valeur causé par la vidange et le remplissage d’une piscine municipale ; l’origine de l’anomalie n’a malheureusement été identifiée qu’après l’intervention d’experts sur le terrain, qui ont échoué à identifier l’origine matérielle du problème. Ce genre de détail peut potentiellement être repéré en analysant les sources de don-Le profilage géographique s’effectue en prenant en compte les caractéris- tiques des zones étudiées. En calculant la proportion des différents types de surface présentes sur chaque secteur de consommation, nous pouvons établir le niveau d’urbanisation de chaque zone, et ainsi affiner les sources d’ori- gine identifiées.
La figure 11 présente l’architecture simplifiée du système de profilage adopté : dans un premier temps, nous extrayons depuis les sources d’information les données géographiques pour la zone étudiée, puis nous ré- cupérons les données pertinentes à notre cas d’usage, en nous servant d’un fichier décrivant les données utiles. A partir de ces dernières, deux types de profilages sont réalisés, en utilisant des éléments différents : les points d’in- térêt, et les polygones. Une fois les résultats obtenus, ils sont ajustés voire combinés pour une meilleure précision, à partir des statistiques des données récupérées (afin de juger des plus utiles). Le résultat est ensuite envoyé au module parent, qui se charge de son interprétation. Nous détaillons la sélec- tion et la récupération des données géographiques dans cette section, et nous développons les explications sur les méthodes de profilage dans le chapitre suivant.