Apprentissage par renforcement avec un réseau de neurones

Apprentissage par renforcement avec un réseau de neurones

Une méthode d’apprentissage par renforcement comme celle définie par l’algorithme 9 est adaptée pour traiter des problèmes de taille raisonnable, cependant, quand la taille du problème considéré augmente, des difficultés d’implémentation surgissent. Premièrement, la mémoire nécessaire pour stocker les valeurs de la fonction Q pour tous les couples état-action visités explose rapidement et deuxièmement, il est possible que le temps nécessaire pour explorer tous les couples état-action afin de caractériser correctement l’évolution de la fonction Q du système ne soit trop important. Cette deuxième difficulté est particulièrement problématique dans les problèmes à espace d’état continu où il est alors impossible d’expérimenter un nombre infini de fois tous les couples état-action. Pour rappel, si l’algorithme d’apprentissage n’expérimente pas plusieurs fois un même état, les valeurs apprises de la fonction Q ne seront pas représentatives du système étudié. Pour ces raisons, l’utilisation d’une fonction d’approximation est régulièrement mise en œuvre dans les problèmes où une implémentation tabulaire classique n’est pas en- visageable. Comme il a été montré dans les sections précédentes, une fonction d’ap- proximation telle qu’un réseau de neurones est un outil puissant pour approximer des fonctions non linéaires complexes et stocker un grand nombre d’informations dans les coefficients synaptiques.

Exemple pratique des limites d’une implémentation ta- bulaire

Dans les travaux de [130], les auteurs ont pour ambition d’appliquer un processus d’apprentissage par renforcement à un robot qui recherche une source de lumière : dans un environnement 2-D possédant une source de lumière, un robot-agent tente de développer une stratégie efficace pour trouver l’emplacement de cette source de lumière. L’agent reçoit ainsi des récompenses positives croissantes lorsqu’il se rapproche dela source de lumière et des récompenses négatives croissantes lorsqu’il s’en éloigne. Deux discrétisations de l’espace d’état sont effectuées pour simuler un problème de Dans une première approche, un algorithme de Q-learning est implémenté, où les valeurs de la fonction Q sont stockées dans une table. Puis, le même algorithme est développé avec un stockage des résultats dans un réseau de neurones. Les différentes expériences ont montré la supériorité de l’implémentation tabulaire pour le problème de faible dimension alors que l’implémentation neuronale est plus efficace quand la dimension du problème est pluBien que le problème explicité dans [130] soit assez simpliste, ces travaux constituent une bonne illustration des limites de l’implémentation tabulaire lorsque la dimension de l’espace d’état augmente.Ainsi, dans la suite des travaux la vision tabulaire de l’apprentissage par renforce- ment est abandonnée au profit d’une approche utilisant une fonction d’approximma- tion, plus connue sous le nom d’approche connexionniste.

Dans le cadre d’un apprentissage par renforcement mettant en œuvre un réseau de neurones, l’objectif est d’utiliser le réseau pour effectuer une approximation de quelques unes des caractéristiques essentielles déduites par AR afin d’appliquer une politique décisionnelle au problème considéré.Dans ces travaux, nous nous intéressons à l’application d’une fonction d’approxi- mation à un algorithme de TD-learning classique de type SARSA. L’estimateur a alors pour but principal d’apprendre la récompense 10 reçue après avoir effectué l’action a dans l’état s en suivant la politique π. Ainsi, le couple {s, a} représente les entrées de l’estimateur, tandis que Qπ(s, a) est la sortie souhaitée.L’une des difficultés majeures de l’approche connexionniste est de savoir comment effectuer l’entraînement du réseau de neurones pour apprendre la politique souhaitée. Dans l’approche tabulaire, l’apprentissage s’effectue en ré-écrivant la valeur de Qπ(s, a) dans la table de stockage, cependant la manœuvre est plus délicate dans le cas d’un approximateur neuronal puisqu’il est nécessaire de conserver les propriétés de généra- lisation et la précision sur l’estimation fournie.Dans l’éventualité d’un espace état-action continu, il peut s’avérer nécessaire d’effec- tuer une discrétisation pour pouvoir représenter l’espace d’état de manière synthétique. Or, le coût de discrétisation de l’espace d’état croît exponentiellement avec la dimen- sion de cet espace, ce qui a pour effet majeur de mener à une explosion de la complexité de résolution du PDM. Ce phénomène est connu sous le nom de malédiction de la di- mension (ou curse of dimensionality en anglais).

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *