Classification et prévision de séquences catégorielles

Classification et prévision de séquences catégorielles

Dans le chapitre précédent, une étape de discrétisation des courbes de consommation a per- mis de concevoir deux bases de données catégorielles incorporant l’évolution des habitudes (jour- nalières et hebdomadaires) de consommation de l’ensemble des compteurs (voir figure 3.1). Ce chapitre se focalise dans un premier temps sur le regroupement de ces séquences d’habitudes de consommation ; chaque groupe étant caractérisé par une évolution similaire de ses séquences dans le temps. Ensuite, l’objectif visé est de prédire les habitudes de consommation au sein des classes obtenues. Dans le cas des données de consommation d’eau potable, plusieurs études ont montré que certains facteurs exogènes peuvent impacter la dynamique des habitudes de consommation au fil du temps. Parmi ceux-ci, on peut citer les attitudes liées à l’environnement et à la préservation de l’eau (WILLIS et collab., 2011), aux variables climatiques (HOUSE-PETERS et collab., 2010; ZHOU et collab., 2000), aux informations socioéconomiques et démographiques (DOMENE et SAURÍ, 2006) ainsi qu’aux évènements calendaires (ZHOU et collab., 2002). La prise en compte de ces facteurs peut contribuer à une modélisation plus réaliste de l’évolution des habitudes de consommation.Pour modéliser la dynamique conjointe de l’évolution des habitudes de consommation, nous proposons une méthodologie fondée sur un modèle de mélange ; chaque composante étant un modèle de Markov non homogène. La spécificité des modèles de Markov non homogènes se tra- duit par leur capacité à modéliser conjointement le comportement dynamique au fil du temps. Ce modèle permet dans un premier temps de regrouper les compteurs en classes ; chaque classe étant caractérisée par sa propre dynamique markovienne. Les facteurs de contexte peuvent égale- ment être utilisés comme variables d’entrée. Dans un second temps, en exploitant les paramètres estimés du modèle, les futures habitudes de consommation peuvent également être prédites au sein de chaque classe.

Cette section commence par un état de l’art sur les méthodes de classification permettant de regrouper les séquences temporelles de nature catégorielle. Nous nous intéressons plus particu- lièrement aux méthodes basées sur des modèles probabilistes. Ensuite, quelques méthodologies utilisées dans le domaine des Smart Grids sont décrites. Les chaînes de Markov constituent un cadre adapté pour modéliser les séries temporelles. Une chaîne de Markov est un processus de Markov à temps discret, ou à temps continu et à espace d’états discret. Un processus de Markov à temps discret est une séquence de variables aléatoires à valeurs dans un espace d’états fini noté E. Une chaîne de Markov d’ordre 1 (voir figure 3.2) est définie par :désigne un état du modèle de Markov associé à l’instant t . Les chaînes de Markov d’ordre 1 supposent que chaque état à l’instant t ne dépend que de l’état à l’instant t ¡ 1. Dans la suite, on ) est la distribution conjointe des données observées appartenant à une classe g et Á est l’ensemble des paramètres du modèle qui sera estimé de manière itérative à l’aide de l’algorithme EM. L’étape E de cet algorithme consiste à calculer la probabilité a posteriori d’appar- tenance d’une observation i à une classe g comme suit :

Une fois les probabilités a posteriori calculées, l’étape M de l’algorithme EM consiste à mettre à jour l’ensemble des paramètres du modèle. Cette méthode s’est révélée particulièrement per- tinente pour le regroupement des utilisateurs de website selon leur comportement dynamique (accès aux pages Web) et en fonction de leur caractéristiques statiques (age et genre).Une fois les paramètres du modèle estimés, les séquences peuvent être affectées aux classes la- tentes. Ce modèle permet de regrouper les séquences en se basant sur la proportion des modalités observées sur toute la période et ne tient pas compte de la dépendance temporelle des variables observées. Une extension de ce modèle permettant d’intégrer les variables quantitatives est pro- posée par AGRESTI et KATERI (2011).et collab. (2014) ont proposé une méthodologie pour regroupement des consommateurs d’élec- tricité. Cette méthode utilise dans un premier temps un dictionnaire pour encoder les profils de consommation d’électricité. En se basant sur ce dernier, les consommateurs sont regroupés en fonction d’une mesure de variabilité (entropy of shape). Cette étude a conduit à une segmentation des consommateurs en fonction de leur variabilité (stable, modéré et variable).WANG et collab. (2016) ont proposé une méthodologie constituée de deux étapes : les don- nées de consommation sont d’abord discrétisées à l’aide d’une approximation symbolique agré- gée (SAX) (LIN et collab., 2003), ce qui permet de réduire la taille des données, et dans un second temps, un modèle de Markov est utilisé pour modéliser le comportement évolutif des consomma- teurs. Le partitionnement des consommateurs est effectué en utilisant une technique de classifi- cation basée sur la densité des observations. Cette méthode opère sur une matrice de similarité calculée en utilisant la distance Kullback-Liebler entre chaque paire de matrices de transition. L’influence des variables exogènes telles que la température et les évènements calendaires n’a pas été étudiée.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *