Contextualisation des secteurs de mesure

Contextualisation des secteurs de mesure

Les données provenant de capteurs de mesure sont eﬀectuées à intervalle de temps régulier : nous pouvons donc utiliser ces ﬂux de données pour identiﬁer les anomalies dans les mesures. En outre, disposer des horodatages des mesures permet de récupérer d’autres informations temporelles liées, aﬁn de détecter les origines des irrégularités précédemment décelées.La détection d’anomalies peut être réalisée en employant diverses mé- thodes mathématiques et/ou statistiques, en fonction du type de mesure étudiée. Cette contribution a majoritairement été réalisée par l’un de nos partenaires, mais nous pouvons dresser une liste des principales méthodes employées. Certaines sont simples, et applicables indépendamment du type de mesure : vériﬁcation de dépassement de valeurs seuil, et la comparaisons de moyennes de mesures. Cette dernière technique peut être eﬀectuée sur des périodes de temps plus ou moins longues ; dans le cadre de notre projet, elle est eﬀectuée généralement durant la nuit, lorsqu’il n’y a pas de risques de gros écarts de consommation. Il existe d’autres méthodes plus complexes, telle que la comparaison deux à deux, qui vise à mettre en parallèle les consomma- tions de deux secteurs sur une longue période en utilisant un graphe. En présence d’éventuels groupes de points isolés, on peut déduire la présence d’un problème dans les mesures, et tenter de le contextualiser.

En plus de ces méthodes, il est possible d’étudier l’évolution des mesures dans le temps, en analysant les relevés suivants aﬁn de déterminer leur impor- tance et de mieux identiﬁer leur origine. Une erreur ponctuelle (par exemple, un dépassement de seuil pour une seule mesure) ne sera vraisemblablement pas jugée critique, tandis qu’une anomalie prolongée (répétée sur plusieurs mesures de suite) sera évaluée plus grave. La visualisation de notre projet permet également de voir si l’anomalie augmente en intensité dans le temps (une baisse de pression de plus en plus élevée), ou si elle est liée à d’autres paramètres (dans le cas d’une fuite, on aura une augmentation de la consom- mation, et une baisse de pression). Les données ont déjà subi un nettoyage grâce au système de ﬁltrage situé en amont de l’architecture du projet, par conséquent les déﬁciences des capteurs n’entrent pas en compte : il n’y a que les origines extérieures à prendre en compte (fuite, surconsommation…).Ces analyses permettent donc d’identiﬁer les incohérences dans les me- sures, et de les caractériser ; mais elles n’aident en rien à trouver les causes de ces anomalies. L’étude des données temporelles n’est donc qu’une moti- vation : il est nécessaire de trouver les origines de ces anomalies. Pour cela, nous avons besoin de caractériser les secteurs de consommation, aﬁn d’orien- ter nos recherche.

Par exemple, supposons que dans notre cas d’usage, nous détections une chute de pression : l’analyse seule des données temporelles nous permet d’en déterminer l’importance, mais pas la source. S’il ne s’agit pas d’une fuite, mais d’un simple écart par rapport à la moyenne habituelle, envoyer des agents sur le terrain serait une perte de temps, ﬁnancière et de ressources. Mais le simple fait de savoir si l’erreur est due à un problème ma- tériel ou un événement extérieur n’est pas facile. L’un des exemples évoqué par notre partenaire expert du cas d’usage était un écart de valeur causé par la vidange et le remplissage d’une piscine municipale ; l’origine de l’anomalie n’a malheureusement été identiﬁée qu’après l’intervention d’experts sur le terrain, qui ont échoué à identiﬁer l’origine matérielle du problème. Ce genre de détail peut potentiellement être repéré en analysant les sources de don-Le proﬁlage géographique s’eﬀectue en prenant en compte les caractéris- tiques des zones étudiées. En calculant la proportion des diﬀérents types de surface présentes sur chaque secteur de consommation, nous pouvons établir le niveau d’urbanisation de chaque zone, et ainsi aﬃner les sources d’ori- gine identiﬁées.

La ﬁgure 11 présente l’architecture simpliﬁée du système de proﬁlage adopté : dans un premier temps, nous extrayons depuis les sources d’information les données géographiques pour la zone étudiée, puis nous ré- cupérons les données pertinentes à notre cas d’usage, en nous servant d’un ﬁchier décrivant les données utiles. A partir de ces dernières, deux types de proﬁlages sont réalisés, en utilisant des éléments diﬀérents : les points d’in- térêt, et les polygones. Une fois les résultats obtenus, ils sont ajustés voire combinés pour une meilleure précision, à partir des statistiques des données récupérées (aﬁn de juger des plus utiles). Le résultat est ensuite envoyé au module parent, qui se charge de son interprétation. Nous détaillons la sélec- tion et la récupération des données géographiques dans cette section, et nous développons les explications sur les méthodes de proﬁlage dans le chapitre suivant.