Genéralités sur l'inférence bayésienne

Genéralités sur l’inférence bayésienne

Nous présentons dans ce chapitre les fondements de l’inférence bayésienne. L’inférence bayésienne est un domaine des statistiques très riche et ouvrant la voie à diverses applications. Nous parlons d’inférence “bayésienne” lorsque l’on se donne une distribution a priori sur ce qu’on cherche à inférer. Ce qu’on cherche à inférer peut être le paramètre θ d’un modèle paramétrique p(y; θ), mais on peut également utiliser l’inférence bayésienne pour estimer la réalisation cachée d’un modèle à données latentes. Dans un modèle à données latentes, le signal observé est considéré comme la réalisation y d’un processus Y et ce que l’on cherche est la réalisation x d’un processus X, les deux processus étant liés par une loi de probabilité p(x, y). Ce chapitre se divise en deux sections. La première amène le formalisme bayésien dans sa généralité. Dans la deuxième section, nous nous intéressons au choix de l’a priori et au choix de la loi p(x, y) dans les modèles à données latentes. Concernant l’inférence bayésienne dans un modèle paramétrique p(y; θ), nous y abordons deux types de lois a priori. Les deux lois a priori abordées sont les lois conjuguées à une famille paramétrique et les mesures de Jeffreys. Les premières présentent un intérêt algorithmique car la loi a posteriori est dans la même famille paramétrique que la loi a priori. Les lois conjuguées sont souvent utilisées en estimation des paramètres par échantillonnage de Gibbs car la règle de Bayes est simple à implémenter [36]. Quant aux mesures de Jeffreys, elles font partie de la catégorie des mesures a priori dites “non informatives”. On choisit d’utiliser un a priori non informatif lorsque l’on ne dispose d’aucune connaissance sur le paramètre. Concernant les modèles à données latentes, les lois a priori seront choisies de fa¸con à ce que les modèles p(x, y) permettent d’utiliser les algorithmes d’inférence bayésienne tels que les algorithmes de Baum-Welsh et de Viterbi. Ces modèles devront être suffisamment simples pour pouvoir utiliser ce type d’algorithmes, et suffisamment riches pour pouvoir modéliser certaines propriétés comme la markovianité, la semi-markovianité ou la dépendance longue dans les observations.

Principe de l’inférence bayésienne

On considère Y une variable aléatoire à valeurs dans un R-espace vectoriel de dimension finie Y muni de sa tribu borélienne BY . Un modèle statistique paramétrique pour la loi de Y est une famille de densités de probabilité {y ∈ Y → p(y; θ) : θ ∈ Θ} par rapport à une mesure ν sur Y. La fonction de Y × Θ dans R + qui à (y, θ) associe p(y; θ) est appelée vraisemblance. L’ensemble Θ est l’ensemble des paramètres du modèle ; on considèrera dans la suite que Θ ⊂ R k . Muni de sa tribu borélienne BΘ, (Θ, BΘ) est un espace mesurable, il sera également muni d’une mesure de référence. Lorsque Θ est un sous-ensemble discret, la mesure de référence est la mesure de décompte et lorsque Θ est un ouvert non vide de R k , ce sera la mesure induite par la mesure de Lebesgue λRk . Une stratégie de décision est une fonctionnelle ϕ de Y dans Θ. On l’appelle aussi estimateur de θ.

Fonction de coût et risque

Une fonction L : Θ ×Θ → R + est dite “fonction de coût” si elle vérifie L(θ, ˆθ) = 0 lorsque ˆθ = θ. Soit ϕ : Y → Θ une stratégie de décision. On appelle risque la quantité R(θ, ϕ) = Eθ [L(θ, ϕ(Y ))] , (1.1) o`u Eθ est l’espérance. Pour tout θ ∈ Θ, le risque est le coût moyen induit par ϕ. 1.1.2 Des stratégies admissibles aux stratégies bayésiennes Définition 1.1.1 (Relation de préférence et stratégies admissibles). Notons Φ l’ensemble des stratégies de décisions. Une relation de préférence est une relation d’ordre sur Φ. La relation “ϕ1 préférée à ϕ2” (resp. strictement préférée) est notée ϕ1 & ϕ2 (resp. ϕ1 > ϕ2) et on dit que ϕ1 et ϕ2 sont équivalentes si ϕ1 & ϕ2 et ϕ2 & ϕ1. On dit que ϕ est une stratégie admissible s’il n’existe pas de stratégie qui lui soit strictement préférée. La relation “ϕ & ϕ 0 ⇔ ∀θ, R(θ, ϕ) ≤ R(θ, ϕ0 )” n’est pas une relation d’ordre total ; en effet, pour certaines valeurs de θ, on peut avoir R(θ, ϕ) ≤ R(θ, ϕ0 ) tandis que pour d’autres valeurs de θ, on a R(θ, ϕ) ≥ R(θ, ϕ0 ). On peut alors considérer le risque bayésien qui ne dépend pas de θ mais d’une mesure µ sur l’espace des paramètres (Θ, BΘ) appelée “mesure a priori”. On notera f la densité de la mesure a priori par rapport à la mesure de référence de Θ. La mesure a priori n’est pas obligatoirement une mesure de probabilité. De plus, elle peut vérifier µ(Θ) = +∞, on dit alors qu’elle est impropre. On exigera par contre que la quantité pµ(y) =def Z Θ p(y; θ)dµ(θ) soit finie. Dans ce cas, la densité θ → p(y; θ)f(θ) pµ(y) définit une mesure de probabilité sur (Θ, BΘ) appelée mesure a posteriori que l’on notera µ(.|y). Sa densité sera notée f(.|y). La formule : f(θ|y) = p(y; θ)f(θ) pµ(y) est parfois appelée “la règle de Bayes”. Le risque bayésien est ensuite défini par : ρ(µ, ϕ) = Eµ [R(θ, ϕ)] , (1.2) o`u Eµ est l’intégration sous la mesure µ. La mesure a priori quantifie la connaissance que l’on a avant toute expérience sur le paramètre θ. Nous détaillerons à la section 1.2 le choix de cet a priori. Dans le cadre bayésien, on dit que ϕ est préférée à ϕ 0 si ρ(µ, ϕ) ≤ ρ(µ, ϕ0 ). Dans ce cas la stratégie admissible ϕµ, si elle existe, est appelée “stratégie bayésienne”.