Optimisation temps réel des tables horaires
Limites de l’approche hors-ligne
Les tables horaires sont conçues pour des conditions d’exploitation optimales où aucune perturbation de trafic ne se produit. Cependant, dans un cas réel d’exploitation les aléas sont inévitables du fait de la présence de facteurs humains qui influent sur le fonctionnement de la ligne de métro automatique. L’optimisation hors-ligne des paramètres d’exploitation permet de définir un ou plusieurs points de fonctionnement de la ligne jugés comme optimaux d’un point de vue énergétique, mais s’avère inefficace dès lors que le système s’écarte de ces points de fonctionnement. En pratique, des marges de régulation sont prévues pour assurer la stabilité de l’horaire de passage des trains vis à vis des perturbations mineures qui peuvent être rencontrées. Néanmoins, la régulation n’a pas pour objectif d’assurer un optimum de consommation énergétique et il s’avère alors nécessaire d’insérer de nouvelles règles de fonctionnement pour assurer la réalisation de cet objectif.
Enjeux de l’approche temps réel
L’enjeu de ce chapitre est de définir une méthode pour rendre les travaux présentés précédemment applicables en temps réel, en considérant des conditions réelles d’exploitation intégrant des perturbations de trafic. Les défis scientifiques et techniques à relever peuvent être synthétisés par la problématique générale suivante : Comment réaliser une aide à la décision capable de s’adapter aux perturbations d’un système dynamique et de fournir une réponse optimale en temps réel ? ou en d’autre termes plus spécifiques au sujet de thèse : Comment effectuer une replanification en temps réel des temps de stationnement des trains pour minimiser la consommation énergétique du carrousel ? 1 Nous décrirons donc dans ce chapitre une méthodologie capable de déduire une politique décisionnelle optimale du fonctionnement nominal d’un système, puis de modifier celle-ci pour qu’elle s’adapte aux perturbations rencontrées par ce système. Concrètement, cela implique de prendre en compte les modifications des conditions de trafic dans la boucle d’optimisation, mais également d’atteindre un temps de calcul pour la boucle d’optimisation qui soit suffisamment faible pour que celle-ci puisse être mise en œuvre en temps réel sur la ligne en exploitation. Dans la première partie du chapitre, une introduction à l’intelligence artificielle (IA) et au principe de fonctionnement d’un réseau de neurones artificiels (RNA) est réalisée. Cette introduction présente d’une part nos attentes vis à vis de l’implémentation d’une IA, d’autre part des exemples concrets d’applications qui justifient l’adéquation des RNA pour concrétiser les enjeux visés. Ensuite les différentes méthodes d’apprentissage sont passées en revue pour déterminer celle qui est la plus adaptée pour résoudre 1. Dans ces travaux, toutes les actions de replanification sont assimilées à des modifications de temps d’arrêt en station par rapport aux temps de stationnement nominaux. la problématique. La deuxième partie du chapitre est dédiée à la méthodologie de conception d’un estimateur neuronal. L’objectif est de synthétiser la méthode de résolution itérative des flux de puissance dans un RNA. Le RNA serait alors capable d’estimer les flux de puissance qui se produisent sur le réseau électrique entre les trains et les sous-stations en fonction du déplacement des trains et de fournir une approximation de ces flux en un temps très court. La troisième partie s’intéresse quant à elle à la résolution de la problématique d’optimisation dynamique. En effet, au chapitre précédent, il a été montré que l’exploration d’une solution du problème d’optimisation des temps de stationnement nécessite environ une dizaine de secondes de temps de calcul, ce qui est incompatible avec un objectif d’optimisation en temps réel. Pour ce faire, le principe d’apprentissage par renforcement (AR) est introduit. Cette méthode permet de déduire une politique décisionnelle d’une suite d’essais et d’erreurs issus d’interactions successives d’un agent apprenant avec son environnement. Enfin la dernière partie du chapitre est consacrée à l’implémentation de la méthode d’apprentissage par renforcement, et de sa mise en œuvre pour fournir une aide à la décision optimale sur la valeur du temps de stationnement que doit effectuer chaque train pour respecter les contraintes d’exploitation, tout en minimisant la consommation énergétique de la ligne. Une étude des performances de cette méthode est alors effectuée pour en évaluer la capacité à effectuer une optimisation temps réel d’une ligne de métro.
Cahier des charges Objectifs
• Optimisation temps réel de la consommation énergétique d’une ligne de métro Contraintes • Marge de variation des temps d’arrêt en station • Temps de battement • Prise de décision optimale en temps réel • Aléas d’exploitation Moyens d’action • Apprentissage des solutions issues d’optimisations Indicateurs • Taux de réutilisation du freinage électrique • Déviation par rapport à la table horaire initiale • Temps de calcul Tableau 4.1 – Cahier des charges de l’optimisation énergétique temps réel d’une ligne de métro automatique Le cahier des charges de l’optimisation énergétique temps réel est résumé dans le tableau 4.1 et présente les objectifs, les contraintes de l’étude, les moyens d’actions pour réaliser l’optimisation ainsi que les indicateurs utilisés pour évaluer le niveau d’atteinte de l’objectif. Dans ce chapitre, l’objectif se limite à effectuer une optimisation temps réel des temps de stationnement, car il est considéré que l’intervalle d’exploitation est une contrainte imposée par l’exploitant et que les profils de vitesse ne sont pas des variables d’ajustement puisqu’imposés par la régulation du trafic.
Etat de l’art sur l’optimisation temps réel ferroviaire
Dans le domaine ferroviaire, la notion de replanification en temps réel adopte de nombreuses interprétations. Il convient ici de différencier les Systèmes Légers sur Rails (SLR, dérivé du terme anglais light rail), des autres systèmes ferroviaires (comme le fret, les réseaux intercités, …). La gestion du trafic dans les SLR présente généralement beaucoup moins de contraintes d’exploitation du fait de sa faible longueur et de sa relative simplicité par rapport à un grand réseau ferroviaire présentant des interconnections. Ainsi dans un SLR, des contraintes/actions comme la priorisation des trains aux nœuds d’un réseau, les rotations courtes, le saut de station ou le surstationnement pour réduire le coût opérationnel de transport des passagers ne sont pas mises en œuvre. Dans cette section, tous les travaux portant sur la replanification temps réel dans le domaine ferroviaire sont traités sans distinction. Cependant il est à noter que certaines actions de replanification mentionnées n’ont pas de raison d’être ou ne peuvent pas être appliquées dans des réseaux ferrés de type métro automatique. Néanmoins, il reste intéressant d’étudier les procédés explorés dans ces travaux pour traiter le problème de replanification. Gestion de conflits. Dans [109–112], la replanification temps réel consiste à gérer les conflits d’itinéraires dûs aux aléas d’exploitation pour suivre une table horaire de référence. Des algorithmes d’optimisation sont implémentés pour re-concevoir des tables horaires optimales et robustes après détection d’une perturbation de trafic, afin de continuer à assurer le maximum de connections aux nœuds du réseau ferroviaire tout en réduisant le temps d’attente des usagers. Respect de la qualité de service et de l’intervalle. [73] tente d’utiliser un système expert à base de logique floue pour effectuer une replanification en temps réel visant à respecter un certain taux de service après aléa 2 . [113] et [114] réalisent une régulation de trafic afin de garantir un intervalle d’exploitation constant entre les trains. Les mesures de régulation ont essentiellement pour objectif d’optimiser les services offerts aux usagers, notamment le temps moyen d’attente. [115] propose un modèle de contrôle temps réel de l’intervalle d’exploitation par couples de trains consécutifs, visant à modifier les horaires de départs de station pour minimiser la variance de l’espacement temporel entre les trains à chaque station. Néanmoins, avec cette méthode, l’erreur de prédiction peut être propagée et amplifiée au fil de l’optimisation lorsque le nombre de stations augmente. Une approche similaire est également explorée par [116] pour effectuer un contrôle de l’intervalle moyen entre les trains et une minimisation du temps moyen d’attente des passagers, tout en intégrant la notion de réduction de la consommation énergétique de la ligne dans la fonction objectif du problème d’optimisation. 2. Cependant cette technique présente le grand désavantage de nécessiter l’expertise d’un humain pour réaliser des règles floues et des fonctions d’appartenance qui décrivent les contraintes opérationnelles inhérentes à la ligne étudiée. Dans [117] et [118], Lin propose également de définir des régulations automatiques de trafic pour augmenter la robustesse des tables horaires face aux aléas et assurer la stabilité de l’intervalle d’exploitation par programmation dynamique. Le principe retenu concerne la modification du temps de parcours interstation et la modification des temps de stationnement. Cependant comme l’indique l’auteur dans [119], la résolution par programmation dynamique nécessite de réaliser des recherches vers l’avant qui peuvent engendrer une explosion du temps de calcul. Ainsi, dans [119] et [120], il suggère d’utiliser un processus d’apprentissage par renforcement avec une architecture acteur-critique afin de réaliser les mêmes objectifs que dans ses travaux précédents. Maximisation de la récupération du freinage électrique. Dans [121], Qu présente un algorithme pour recalculer en temps réel les profils de vitesse optimaux que doivent suivre les trains en interstation pour minimiser la dissipation du freinage électrique, en mettant particulièrement l’accent sur l’analyse de la topographie de la voie pour définir des consignes d’éco-conduites. [122] et [123] prennent aussi le parti de réduire la consommation énergétique de transports urbains en optimisant les profils de vitesses des trains par alternance de phases de traction, de freinage, de maintien de vitesse et de marche sur l’erre. Dans [124] et [125], Yin se propose de résoudre le problème de minimisation de la consommation par un processus d’apprentissage par renforcement, en modifiant dynamiquement les profils de vitesse et les temps de stationnement. Les travaux présentés dans [126] [127] utilisent une approche sensiblement différente : la notion de replanification en temps réel implique qu’aucune table horaire ni aucun intervalle d’exploitation ne sont définis au préalable. L’optimisation a alors pour but de minimiser les coûts opérationnels, le temps de trajet total des passagers ainsi que la consommation énergétique de la ligne. Le principe retenu est la modification des horaires de départs, des temps d’arrêt en station des trains et la modification des profils de vitesse interstation. Dans ces articles, l’auteur fait le choix de proposer des algorithmes qui exploitent de nombreux degrés de liberté pour réaliser un double objectif : satisfaire le client ainsi que l’exploitant.