Prévision long terme de l’affluence des passagers avec prise en compte de données événementielles

Prévision long terme de l’affluence des passagers avec prise en compte de données événementielles

Processus de la prévision long terme

Notre objectif est de prévoir le nombre de passagers entrant à chaque instant de la journée dans chaque station d’un réseau de transport jusqu’à un an à l’avance en prenant en compte les événements prévus (e.g., sportifs, culturels, etc.). Nous avons comparé l’utilisation de différents jeux de données en entrée des modèles de prévision ainsi que différents types de modèles de prévision. La section 3.4.1 détaille la mise en forme des données et l’ensemble des données d’entrée comparées. Les méthodes de prévision comparées sont décrites en section 3.4.2. Enfin, les méthodes d’évaluation sont décrites dans la section 3.4.3.

Mise en forme des données pour la prévision de l’affluence

Afin d’évaluer l’importance de chaque ensemble de données contextuelles, nous avons entraîné les modèles de prévision avec quatre groupes de données distincts (D1, D2, D3 et D4). Chacun de ces groupes de données correspond à une concaténa tion spécifique des 4 ensembles de caractéristiques suivants : • A:Mois et jour de la semaine, encodage one-hot. • B:Vacances, 24 et 31 décembre, vacances scolaires de Noël, vacances universi taires 1 et 2, période de rénovation de la station Beaubien. Ces caractéristiques ont été encodées dans des vecteurs one-hot.

• C: Information sur les horaires de l’événement à savoir l’horaire de début, de fin de l’événement ainsi que la période de l’événement sous condition que l’information de fin d’événement soit disponible, en chaque station qui accueille au moins un événement (29 stations).

Pour chaque station accueillant un événement, à chaque pas de temps de la journée, nous avons compté le 49 3.4 Processus de la prévision long terme nombre d’événements qui débutent, terminent ou se déroulent pendant ce pas de temps. • D : Catégorie de l’événement (10 catégories d’événements). Pour chaque station avec événement, à chaque pas de temps de la journée, nous avons compté le nombre d’événements par catégorie lié à l’horaire de début, de fin ainsi que la période de l’événement si la fin de l’événement est disponible.

Méthodologie

Notre objectif est de prévoir la demande passager avec des données calendaires et événementielles disponibles en avance (un an à l’avance dans notre cas) avec une résolution temporelle fine (agrégation par quart d’heure). Dans ce contexte, il n’est 50 Chapitre 3 Prévision long terme de l’affluence des passagers avec prise en compte de données événementielles Fig. 3.4.: Exemple d’un échantillon d’entrée (xi ∈ X) et de sortie (yi ∈ Y ) des modèles de prévision long terme. pas possible d’utiliser les modèles d’analyses de séries temporelles classiques comme les modèles auto-régressifs (ARIMA, SARIMAX, etc.) en raison du trop grand nombre de variables à prendre en compte lors de l’entraînement et du trop grand nombre de pas de temps de prévision.

Nous avons donc comparé différents modèles bien connus qui peuvent être utilisés pour des problèmes de régression. Nous avons comparé un modèle qui utilise la moyenne historique, un modèle de régression linéaire nommé Elastic Net, des modèles d’apprentissage automatique Forêts aléatoires et Gradient Boosting Decision Trees et des modèles basés sur des méthodes à noyaux, Support Vector Regressor et Gaussian Process. Le détail de ces méthodes est donné dans la section 2.4. Afin d’obtenir les meilleures performances de prévision, nous avons optimisé chacun des modèles de prévision.

Ce processus d’optimisation ainsi que les hyperparamètres testés sont définis dans la section 3.4.4.2. Concernant la méthode de régression Elastic Net, nous utilisons en entrée plus d’une variable explicative et nous prédisons plus d’une variable dépendante (total de 96 variables dépendantes), dans ce contexte nous avons utilisé une régression linéaire multivariée. Afin d’éviter le phénomène de colinéarité sujet à perturber l’apprentissage de la méthode de régression linéaire, causé par des caractéristiques catégorielles telles que le jour de la semaine, nous avons restructuré les données en supprimant une des catégories.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *