Apprentissage de modèles de comportement pour le contrôle d’exécution et la planification robotique
Modèles Stochastiques Causaux
Dans ce chapitre, nous allons nous servir d’une généralisation des modèles de Markov cachés, dans laquelle la structure causale peut être entièrement explicitée. Ce type de modèle garde des HMMs la représentation temporellement repliée, et l’on n’explicite que la causalité entre deux pas de temps successifs, cette structure restant statique au cours du temps. L’utilisation de représentation plus structurée que le cadre HMM dans le cadre de notre application à la navigation robotique a pour but de mettre en évidence les effets des paramètres contrôlables du robot. Nous avons en effet en vue de pouvoir utiliser une modélisation pour optimiser finement le comportement du robot, et ceci n’est pas directement faisable en utilisant des HMMs. Nous verrons au chapitre V comment utiliser les modèles complexes étudiés dans ce chapitre pour cela. Nous allons dans un premier temps présenter formellement ce type de modèles, puis nous allons expliciter les différences fondamentales que cette représentation entraîne par rapport au cadre HMM. Nous montrerons ensuite une formalisation originale de la manière d’apprendre quantitativement un tel modèle, qui constitue la contribution principale de cette partie. Puis nous parlerons de l’apprentissage de la structure causale elle-même. Nous évoquerons ensuite des pistes pour l’apprentissage incrémental d’un tel modèle. Enfin nous montrerons une application que nous avons réalisée.
Réseau Bayésien Dynamique
Un réseau bayésien dynamique (DBN pour Dynamic Bayesian Network) ou réseau probabiliste dynamique [Dean et Kanazawa, 1990] est constitué d’un ensemble de variables cachées, de variables observables, ainsi que d’une structure causale entre ces variables (c’est-à-dire un ensemble de liens causaux). C’est un réseau bayésien dans lequel les variables sont indicées par le temps, et donc chaque variable a une instance à chaque pas de temps, et dans lequel la structure causale se répète indéfiniment, c’est-à-dire que les liens causaux sont les mêmes quelque soit le pas de temps. On peut voir les DBN comme une généralisation des modèles de Markov cachés, dans lequel on n’aurait plus une seule variable cachée et une observable liées par la structure très simple détaillé dans la section II.1, mais N variables cachées et M variables observables, avec quasiment n’importe quel type de structure causale entre elles. La seule contrainte est que les liens causaux cycliques sont interdits, comme dans un réseau bayésien (et sont généralement dépourvus de sens), et que l’hypothèse de Markov reste applicable, c’est-à-dire que les liens causaux influençant une variable à l’instant t ne peuvent provenir que de variables à l’instant t ou à l’instant t−1. Ceci nous permet d’avoir une représentation très compacte et visuelle d’un réseau baysien dynamique, puisqu’il suffit de représenter les variables aux instants t et t − 1 avec leurs liens causaux pour visualiser tous les liens causaux de la structure. Finalement, comme pour les modèles de Markov cachés, les liens causaux sont constants tout au long du temps autant en structure qu’en quantité (ils sont probabilistes, et les probabilités sont indépendantes du temps). Définition Un DBN est un modèle discret de transitions stochastiques entre un certain nombre de variables aléatoires, et qui décrit une étape de la dynamique de transition du processus. L’hypothèse d’invariance temporelle nous assure que ce modèle représente la dynamique du processus à n’importe quel instant. Le modèle de transition est décrit comme un k−TBN, c’est-à-dire un réseau bayésien temporel à k tranches. Un k−TBN est un fragment de réseau bayésien sur un ensemble de variables corrélées temporellement, et qui représente une transition stochastique semi-Markovienne d’ordre k −1, c’est-à-dire les distributions de probabilités conditionnelles sur les variables étant données les k − 1 valeurs précédentes. Le terme réseau Bayésien dynamique est utilisé pour parler d’un 2-TBN, qui est forcément Markovien. Un réseau bayésien temporel à k tranches temporelles (un k−TBN) défini sur un ensemble de variables U = {U1, .. . ,Un} est un couple B = (G, Θ), constitué des composants suivants : 1. un graphe direct acyclique (DAG) G = (S, A), dont les sommets (∈ S) sont organisés en k tranches. Les tranches sont repérées par leur indice temporel relatif dans {−k + 1, .. . , −1, 0} ou de façon équivalente par leur indice temporel absolu dans {t − k + 1, .. . ,t − 1, t}, avec t la référence temporelle spécifiée∗ . S est tel que pour chaque variable u ∈ U corresponde un et un seul sommet u (t) dans la tranche d’index t et au plus un sommet u (t−d) dans chaque tranche d’index t − d avec 0 < d < k. A définit une relation binaire acyclique dans laquelle toutes les arêtes doivent appartenir à S × S (t) , et S (t) est la dernière tranche de V d’index t † . 2. une paramétrisation ou quantification Θ, qui associe à chaque sommet u (t) de la dernière couche de S une distribution conditionnelle de probabilités P u (t) |Pa(u (t) ) (et Pa(u (t) ) sont les parents de u (t) par A). La sémantique des DBNs est facilement compréhensible si l’on déroule un k−TBN (tel que présenté sur la figure III.1(a)) en réseau bayésien ordinaire. Comme on peut le voir sur la figure III.1(b), on peut transformer un k−TBN en réseau bayésien simplement en dupliquant les noeuds de la dernière colonne au long du temps, ainsi que leurs probabilités conditionnelles.
Comparaison aux modèles de Markov cachés
Ce type de modèle peut être comparé aux modèles de Markov cachés. Reprenons un exemple robotique pour détailler cela. Précédemment, nous avons défini un HMM à un état caché présentant l’état interne du robot parmi les classes début, fin, échec, hésitation, progrès . . . . Nous avons ensuite défini des sous-classes (voir section II.4), et les états sont donc dans l’espace classe × sous − classes, et les sous-classes sont juste des numéros (variable muette). L’observation était alors un agrégat de différentes variables mesurées et traitées, avec en particulier distance depuis le début (dd), distance curviligne sur la fenêtre temporelle (dc), changement de cap (cc) . . . (nous ne reprenons pas toutes les variables pour alléger l’argumentaire). L’observation du HMM est donc dans cet espace dd × dc × cc. Le HMM (en version simplifiée) est donc celui de la figure III.2.Comme nous sommes dans le cadre des modèles de réseau bayésien dynamique, la structure est à définir, en particulier en terme de nombre de variables. Nous pouvons donc très bien ne pas agréger classes et sous-classes, ni non plus les différentes observations en une seule. Cette façon de voir les choses correspond à une factorisation de l’espace défini pour les HMMs. En effet, chaque variable définie pour le HMM est représentée ici par plusieurs variables qui sont ses différentes “coordonnées”, i.e. ses différentes composantes, séparées en ses différents facteurs. On peut donc construire un DBN explicitant la causalité d’un HMM juste en redécoupant les états du HMM suivant les facteurs que l’on a été obligé d’agréger pour se plier à la structure fixe. Dans un HMM, on est obligé de représenter en extension l’espace classe × sous − classe, alors qu’il est représenté en intention dans cette représentation factorisée. Un état au sens classique du terme est alors représenté par une instanciation de l’ensemble des différentes variables, des différents facteurs qui constituent l’état. On passe donc d’un état global à un ensemble de variables qui peuvent être de sémantiques différentes, comme dans l’exemple classe et sous-classe. De la même façon, on passe d’un système de transition d’états à un système de liens causaux précis plus fins entre chaque composante. On obtient alors le DBN de la figure III.3, qui est strictement équivalent, en ayant bien sûr les quantification adéquates. En effet, chaque variable est déductible des mêmes composantes que précédemment, et les probabilités jointes sont respectées.
I Préliminaires |