Principe de la programmation dynamique

Télécharger le fichier original (Mémoire de fin d’études)

Problème de contrôle stochastique

Les problèmes de contrôle optimal stochastique ont un grand nombre d’appli-cations dans les domaines de l’économie et à la …nance et reposent sur la méthode de la programmation dynamique. L’idée principale de cette méthode consiste à considé-rer une famille de contrôles à di¤érents états initiaux et d’établir des relations entre les fonctions valeurs associées. L’équation de la programmation dynamique conduit à une équation aux dérivées partielles (EDP) non linéaire appelée équation d’Ha-milton -Jacobi-Bellman (HJB). Lorsque cette EDP peut être résolue par l’obtention explicite ou théorique d’une solution régulière, le théorème de véri…cation valide l’op-timalité de ce candidat, solution d’HJB, et permet aussi de caractériser un contrôle optimal, voir (Pha07).

Forme standard d’un problème de contrôle stochastique

Le concept d’équation di¤érentielle stochastique généralise celui d’équation dif-férentielle ordinaire aux processus stochastiques. La formalisation théorique de ce problème à elle seule a posé problème aux mathématiciens, et il a fallu attendre les années 40 et les travaux du mathématicien japonais Itô Kiyoshi pour la dé…nition de l’intégrale stochastique. Il s’agit d’étendre la notion d’intégrale de Lebesgue aux pro-cessus stochastiques selon un mouvement brownien, ainsi on peut donner un sens à l’expression Rst f(u; !)dBu, où f(u; 🙂 est un processus stochastique muni de proprié-tés de régularités su¢ santes. On rappelle dans cette section quelques résultats sur les équations di¤érentielles stochastiques (EDS) à coe¢ cient aléatoires par rapport à un mouvement brownien.
Soit ( ; F; F = (Ft)t 0; P ) un espace de probabilité …ltré satisfaisant les condi-tions habituelles1, et soit (Bt)t un Ft-mouvement brownien à valeurs dans Rd. On se donne un sous ensemble U de Rk, on note par U0 l’ensemble de tous les processus progressivement mesurables v = fvt; t 0g à valeurs dans U. Les éléments de U0 sont appelés les processus de contrôles.
Les éléments de U sont appelés les processus de contrôles admissibles. Cette condition assure l’existence d’un processus contrôlé pour des données initiales, sous la condition uniforme de Lipschitz sur b et . C’est une conséquence d’un théorème d’existence plus général des EDS à coe¢ cients aléatoires, voir (Pro05).
Théorème I.1 Supposons que v 2 U. Alors sous la conditions (1.3) et pour toute variable aléatoire 2 L2( ); F0 mesurale, il existe un unique processus X F adapté véri…ant (1.4) avec la condition initiale X0

Principe de la programmation dynamique

Le principe de la programmation dynamique (PPD)2 est un principe fonda-mental pour la théorie du contrôle stochastique (Kry80), (FS06). Dans le contexte de contrôle de processus de di¤usion décrit au paragraphe précédent, et même plus généralement pour des contrôles de processus de Markov3,

Equation d’Hamilton-Jacobi-Bellman

L’équation d’Hamilton-Jacobi-Bellman HJB est la version in…nitésimale du principe de la programmation dynamique : elle décrit le comportement local de la fonction valeur V (t; x) lorsqu’on fait tendre le temps d’arrêt dans (1.13) vers t.
Dans cette section, nous dérivons formellement l’équation d’HJB en supposant que la fonction valeur V est su¢ samment régulière (Yon00), (Pha07).
Considérons le temps = t+h et un contrôle constant s = a, avec a arbitraire dans U, on a, d’après la relation de la programmation dynamique,

Théorème de vérification

L’étape la plus importante dans la programmation dynamique consiste à mon-trer, étant donnée une solution régulière à l’équation d’HJB, sous des conditions su¢ santes, coïncide avec la fonction valeur. Ce résultat est appelé théorème de véri-…cation et permet aussi d’obtenir un contrôle optimal. Il repose essentiellement sur la formule d’Itô (Yon00).
Dans le cas général où il n’y a pas forcément de solution régulière au problème de Cauchy (1.28)-(1.29), on peut donner un sens à cette EDP avec un concept de solution faible appelée solution de viscosité.
Remarque I.5 Lorsque l’ensemble des contrôles est réduit à un singleton fa0g, c’est à dire qu’il n’y pas de contrôle sur l’état du système, l’équation HJB se réduit au problème d’EDP linéaire de Cauchy et donc le théorème de véri…cation se réduit à la formule de Feynman-Kac.

Solutions de viscosité

La méthode de la programmation dynamique suppose a priori que la fonction valeur soit régulière, ce qui n’est pas toujours le cas même dans les cas très simples. Pour surmonter cette di¢ culté, Crandall et Lions (Lio83) ont introduit dans les an-nées 80 la notion de solution de viscosité pour les équations du premier ordre. Cette théorie a été ensuite généralisée aux équations du second ordre, voir (ePL92) et (FS06). Ce concept fournit un moyen très puissant pour étudier en toute généralité les problèmes de contrôle stochastique et permet de donner une formulation rigou-reuse à l’équation d’HJB pour des fonctions supposées seulement localement bornées. En combinant avec des résultats de comparaison pour les solutions de viscosité, on obtient ainsi une caractérisation de la fonction valeur comme l’unique solution de viscosité de l’équation de la programmation dynamique associée.

Existence d’une solution par la méthode de Perron

Nous expliquons dans cette partie comment construire une solution de viscosité d’une équation lorsque l’on en connait une sous- et une sursolution et que l’on sait que l’équation possède un “principe de comparaison”. Cette méthode est connue sous le nom de méthode de Perron.
En fait, le procédé très général décrit ici permet, pratiquement sans hypothèse, de construire des solutions “très faible”: des solutions dites discontinues.
Définition II.7 On dit qu’une fonction u : ! R est une solution de viscosité discontinue de (2.8) si u est une sous-solution de (2.8) tandis que u est sursolution de cette équation.
Remarque II.8 Il ne manque donc à une solution discontinue que la continuité pour être une solution continue.

La méthode de Perron

Nous décrivons maintenant la méthode de Per-ron bien plus que le résultat-qui est assez formel-, il convient de retenir de cette partie la technique de construction d’une solution.
Théorème II.9 On suppose que u : ! R est une sous-solution de (2.8) tandis que v : ! R est une sursolution de cette équation. On suppose de plus u v dans . Alors il existe une solution de viscosité discontinue w : ! R telle que u w v.

Existence d’une solution de viscosité continue

A…n de récupérer la continuité de la solution, nous allons supposer que l’équation véri…e un principe de comparaison :
Dé…nition II.10 On dit que l’équation (2.8) véri…e un principe de comparaison dans si, pour toute sous-solution u et pour toute sursolution v de (2.8), si u v dans @ , alors u v dans .
L’unicité est une conséquence directe du principe de comparaison car, si w1 et w2 sont deux solutions du problème de Dirichlet, alors w1 = w2 sur le bord de , et comme w1 est une sous-solution et w2 est une sursolution, on a w1 w2. L’inégalité inverse est obtenue en intervertissant les rôles de w1 et w2.

Principe de comparaison

On dit que l’on a un principe de comparaison fort (pour les solutions discon-tinues) pour l’EDP (2.3) dans le cas d’un ouvert borné si l’énoncé suivant est vrai : Si u est une sous-solution de viscosité de (2.3) et v est une sursolution de viscosité de (2.3) tel que u v sur @.
On donne ci-dessous quelques exemples de fonctions H pour lesquels il y a un principe de comparaison fort. Des résultats généraux avec leurs preuves peuvent être trouvées dans Crandall, Ishii et P.L.Lions (ePL92) ou (Bar95).
On considère d’abord le cas où est un ouvert borné de Rn.
1. H(x; s; p; X) = r + F (x; p) 12 tr( 0(x)X) avec > 0, : ! Rn d Lipschitziennne et F :Rn ! R véri…ant l’hypothèse suivante : (A1) jF (x; p) F (y; p)j m(jx yj(1 + jpj)), où m(z) tend vers zéro quand z tend vers zéro.
2. H(x; s; p; X) = F (x; p) avec F : Rn ! R véri…ant (A1) et les hypothèses supplémentaires : (A2) F (x; p) est convexe en p, pour tout x 2 (A3) Il existe une fonction ‘ 2 C1( ), continue sur , et > 0 telle que F (x; D'(x)) sur .

Problèmes d’investissement optimal

Dans ce chapitre, nous exposons la structure de base d’un problème de contrôle optimale issu des mathématiques …nancières. De façon générale, un problème de contrôle se formule selon les caractéristiques suivantes :
Etat du système : On considère un système dynamique caractérisé par son état à tout instant. Le temps peut être discret ou continu. Nous considérons ici qu’il varie de façon continue et dans des conditions d’incertitude. L’état du système repré-sente l’ensemble des variables quantitatives constituant une description ‘exhaustive’ du système. Les variables sont supposées en nombre …ni à valeurs réelles. On notera Xt(!) l’état du système à l’instant t dans un scénario du monde ! 2 espace mesurable muni d’une probabilité P .
Une fois dé…ni l’état, il s’agit de décrire les lois d’évolution de cet état en fonc-tion du temps. L’application t ! Xt décrit l’évolution du système. Cette évolution est fournie par un modèle probabiliste.
Contrôle : La dynamique Xt de l’état du système est in‡uencée par un contrôle que nous modélisons comme un processus (ut)t dont la valeur peut être décidée à tout instant t en fonction des informations disponibles à cet instant, c’est à dire que u est adapté par rapport une certaine …ltration, et prend ses valeurs dans un espace de contrôle U.
Les objectifs seront de déterminer d’une part la fonction valeur, et d’autre part les in…ma pour ces critères et les contrôles optimaux, s’ils existent, qui les réalisent. Deux modélisations sont couramment utilisées : le critère d’espérance d’utilité et le critère moyenne-variance. Dans le premier critère reposant sur une théorie du choix en univers incertain, l’individu compare des revenus aléatoires dont il connait les lois de probabilité. Sous certaines conditions sur ses préférences, Von Neumann et Morgenstern montrent qu’elles peuvent se représenter par l’espérance d’une fonc-tion, dite d’utilité. En notant U la fonction d’utilité de l’individu, cela signi…e qu’un revenu aléatoire X sera préféré à un revenu aléatoire X0 si E[U(X)] E[U(X0 )]: Cette fonction d’utilité est croissante, ce qui exprime l’amour de la richesse de l’indi-vidu. Elle est aussi supposée usuellement concave pour formaliser l’aversion pour le risque de l’individu. En e¤et, si l’individu n’aime pas le risque, à un revenu aléatoire X, il préfère obtenir avec certitude l’espérance E[X] de ce revenu. Autrement dit, sa fonction d’utilité U vérifie.
Le critère moyenne-variance, initié par Markowitz (Mar52), repose sur l’hy-pothèse que les préférences de l’individu ne dépendent que de la moyenne et de la variance de ses revenus aléatoires. Pour exprimer le fait que l’individu aime la richesse et a une aversion au risque, le critère moyenne-variance s’intéressera aux portefeuilles MV-e¢ caces, c’est à dire minimisant la variance à espérance donnée.

Table des matières

Introduction
I. Problème de contrôle stochastique
1.1 Forme standard d’un problème de contrôle stochastique
1.2 Principe de la programmation dynamique
1.3 Equation d’Hamilton-Jacobi-Bellman
1.4 Théorème de vérification
1.5 Formule de Feynman-Kac
II. Solutions de viscosité
2.1 Rappel d’analyse convexe
2.2 Présentation et définitions
2.3 Solutions de viscosité et dérivées généralisées
2.4 Existence d’une solution par la méthode de Perron
2.4.1 La méthode de Perron
2.4.2 Existence d’une solution de viscosité continue
2.5 Principe de comparaison
III. Problèmes d’investissement optimal
3.1 Classe des modèles à volatilité constantes
3.2 Classe des modèles à volatilité stochastique
IV. Analyse asymptotique
4.1 Equation de Poisson
4.2 Processus d’Ornstein-Uhlenbeck
4.2.1 Propriété de décorrélation, théorème ergodique
4.3 Fonction valeur corrigée
4.4 Validation asymptotique
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *