Réseaux bayésiens
Nous avons vu que les réseaux bayésiens sont un formalisme pertinent pour mo déliser la dégradation de systèmes à espace d’états discrets. L’objectif de ce chapitre est de présenter les réseaux bayésiens, et plus particulièrement le modèle graphique de durée. Nous allons d’abord exposer brièvement des généralités sur les réseaux bayésiens,
puis sur les réseaux bayésiens dynamiques. Ensuite nous présenterons les modèles graphiques de durée, qui sont un cas particulier des réseaux bayésiens dynamiques.Nous introduirons ensuite brièvement des approches permettant d’apprendre un ré seau bayésien, et enfin nous expliquerons ce qu’est l’inférence, et comment l’effectuer.
Historique
Les réseaux bayésiens (RB) ont été nommés ainsi par Pearl en 1985. Ils se situent à l’intersection entre la théorie des graphes [Gross et al. 2004] et la théorie des pro babilités [Rao 1984]. Les premières avancées théoriques ont été constituées par les travaux de Judea Pearl à l’Université de Californie à Los Angeles et de Finn Jen sen à l’Université d’Aalborg [Jensen 1996; Pearl 1985].
Les développements de l’usage des réseaux bayésiens sont directement liés à l’augmentation de la puissance de calcul des ordinateurs. Dès leur mise en place, les réseaux bayésiens ont donné lieu à de nombreuses applications opérationnelles, telles que le décodage du génome, dans le cadre du projet Human Genome [Becker et al. 1998; Naïm et al. 2007], ou le traitement de la parole [Bach et Jordan 2005].
Le développement de méthodes basées sur les réseaux bayésiens doit par ailleurs beaucoup à la section recherche de Microsoft, qui y a beaucoup contribué dans le milieu des années 1990 [Heckerman 1995]. Microsoft a ainsi mis en place son célèbre « trombone », dont le fonctionnement sera expliqué en 2.1.3, après une présentation des réseaux bayésiens et de leur fonctionnement.
Les réseaux bayésiens [Jensen 1996] sont des outils mathématiques reposant sur la théorie des probabilités et la théorie des graphes. Ce sont des modèles gra phiques probabilistes qui permettent de représenter intuitivement la distribution d’un ensemble de variables aléatoires. Ils représentent graphiquement loi jointe d’un ensemble de variables aléatoires, exploitant la relation d’indépendance condition nelle entre ces mêmes variables aléatoires.
C’est une représentation factorisée de cette loi jointe. Le formalisme des réseaux bayésiens sera explicité plus en détail dans la partie théorique du chapitre, dans la section 2.2. Les trois points clefs de la mise en place d’un réseau bayésien sont l’apprentissage de la structure, l’apprentissage des probabilités et enfin l’inférence.
L’apprentissage de la structure consiste à définir les nœuds et les arcs, c’est à dire les variables et les liens parents-enfants. Ceci ne fera pas l’objet d’une présentation détaillée dans le cadre de cette thèse. L’apprentissage des probabilités permet de quantifier les relations entre les variables définies par la structure apprise précédemment.
Les choses seront présentées plus en détail dans la section 2.2.4. Enfin, l’inférence consiste à propager l’information dans le réseau bayésien. L’inférence permet de calculer les probabilités marginales des variables, c’est à dire les probabilités a priori.
Elle permet aussi, à partir d’une connaissance partielle ou totale de certains éléments du graphe, d’affiner la connaissance d’autres éléments du graphe, en propageant de proche en proche l’information disponible. L’inférence fera l’objet de la section 2.2.5.