Classifieur basé sur un ensemble de profils lorsque les observations ne sont pas identiquement distribuées
Introduction
L’apprentissage statistique présenté dans la première partie de cette analyse (voir chapitre III) est élaboré sous l’hypothèse d’indépendance et de distribution identique (i.i.d) des éléments aléatoires (Yi , Xi)i=1,…,n qui ont généré les observations. Dans le présent chapitre, nous cherchons à adapter notre procédure d’apprentissage dans une situation où les données, en plus d’être déséquilibrées, sont réparties entre m clusters (groupes ou blocs) tirés aléatoirement à partir d’une population donnée. On suppose que chaque cluster admet une distribution [Y, X]h; h ∈ {1, · · · , m} indépendantes des autres. Etant donné que l’indicateur de performance au tour duquel la procédure d’apprentissage a été élaborée est la valeur prédictive positive, nous proposons un estimateur Bayésien de la valeur prédictive positive de tout profil U conditionnellement à la distribution [Y, X]h des observations dans un cluster h donné. Cette approche nous permet de tenir en compte l’effet du cluster dans les résultats de l’analyse. Les méthodes d’analyse classiques permettant de traiter des données groupées (essais multicentriques) introduisent en général la variable d’échantillonnage (groupe, cluster ou centre) comme variables explicatives en autorisant les interactions. Cependant elles ont des limites : (1) Lorsque le nombre de groupes est important, les introduire tous dans le modèle devient problématique. (2) Puisque l’un des groupes est utilisé comme groupe de référence, on ignore les écarts de chaque groupe à la moyenne. (3) Les groupes participant à l’essai constituent un échantillon d’une population plus large de groupes, on peut souhaiter faire des prédictions pour un groupe n’ayant pas participé à l’essai. (4) On peut aussi souhaiter avoir une mesure d’hétérogénéité entre les groupes. Le modèle Bêta-binomiale figure parmi les méthodes alternatives les plus utilisées dans la littérature. Ce dernier permet à la fois d’estimer l’espérance de la probabilité de succès conditionnellement à un profil U(X) dans la population et sa variabilité d’un groupe à un autre. De plus, il permet d’inférer sur la probabilité de succès conditionnellement à l’événement [U(X) = 1] dans n’importe quel groupe, pas seulement ceux échantillonnés.
Modèle hiérarchique pour le calcul des valeurs prédictives positives
Nous étudions dans ce chapitre un modèle statistique correspondant au cas où les données sont générées par une suite (Yi , Xi)i=1:n d’éléments aléatoires non identiquement distribués. Il en résulte alors une hétérogénéité des données dont il faudrait tenir compte dans le modèle statistique sur lequel l’analyse du classifieur sera basée. Nous considérons ici la situation particulière où la suite (Yi , Xi)i=1:n est structurée suivant une partition de m sous-ensembles (Yih, Xih)h=1:m i=1:nh telles que les éléments de la suite (Yih, Xih)i=1:nh soient indépendants et de même loi [Y, X]h. Nous supposons que les éléments de la suite [Y, X] L = {[Y, X]h, h = 1 : m} sont générés de façon indépendante suivant une loi µ sur l’ensemble P rob(Y, X) des lois de probabilités sur Dom(Y ) × Dom(X) muni de la tribu associée à la topologie de la convergence faible. Si on se donne U(X), un profil défini par X, on a alors – [Y |θ U h , [Y, X]h] = Bernoulli(θ U h ), où θ U h = Pr(Y = 1|U(X) = 1, [Y, X] L = [Y, X]h) – la suite θ U h h=1:m est un échantillon iid. On considère désormais que la suite θ U = θ U h h=1:m est issue de la loi Bêta de paramètres (αU , βU ). On désigne par h Y, θU , [Y, X] L i et h θ U , [Y, X] L i les lois de probabilité respectives de Y, θU , [Y, X] L et θ U , [Y, X] L . Le principe de la factorisation permet d’écrire h Y, θU , [Y, X] L i = h Y |θ U , [Y, X] L i hθ U , [Y, X] L i h Y, θU , [Y, X] L i = h Y |θ U , [Y, X] L i hθ U |[Y, X] L i h[Y, X] L i Ym h=1 h Y, θU h , [Y, X]h i = Ym h=1 hY |θ U h , [Y, X]h i hθ U h |[Y, X]h i [[Y, X]h] On peut remplacer la loi h θ U h |[Y, X]h i par la loi h θ U h |αU , βU i dans l’expression précédente puisqu’il s’agit de la même distribution. Pour réduire la complexité du problème, nous allons nous intéresser pour la suite à la distribution h Y |θ U h , [Y, X]h i et à la distribution h θ U h |αU , βU i . Le modèle hiérarchique à étudier est alors le suivant : h Y |θ U h , [Y, X]h i = Bernoulli θ U h h θ U h |αU , βU i = Beta(αU , βU )Ce modèle permet d’estimer la probabilité Pr(Y = 1|U(X), [Y, X]h) qui n’est rien d’autre que la valeur prédictive positive (VPP) du profil U(X) sous la contrainte [Y, X]h.
Lois a posteriori des paramètres relatifs aux clusters approche Bayésienne empirique
Pour alléger les notations dans cette section, on pose τU = 1/γU − 1. Dans la suite, nous avons choisi d’écrire le modèle en fonction des paramètres {πU , τU }. Cependant les résultats seront présentés en fonction des paramètres {πU , γU }. On pose le modèle suivant : h Y |θ U h , [Y, X]h i = Ym k=1 θ U h 1l[Y =1](y)δ{1,[Y,X]h}(U(X),[Y,X]h) 1 − θ U h (1−1l[Y =1](y))δ{1,[Y,X]h}(U(X),[Y,X]k) h θ U h |πU , τU i = Γ(τU ) Γ(πU τU )Γ((1−πU )τU ) θ U h πU τU −1 1 − θ U h (1−πU )τU −1 1l[0,1] θ U h 3.1 Détermination de la loi a posteriori du paramètre θ U h par une approche Bayésienne empirique Dans une approche bayésienne complète, la détermination de la loi a posteriori de θ U h nécessite la spécification d’une loi a priori pour le couple (πU ,γU ). En défaut de la spécification d’une telle loi a priori, on peut adopter une approche empirique pour la détermination a posteriori du vecteur (θ U h )h=1:m et de ses éléments marginaux. 3.2 Loi a posteriori : approche bayésienne empirique La méthode de Bayes empirique est très souvent utilisée lorsqu’il s’agit d’un problème d’estimation de paramètres multiples où les relations connues (i.i.d.) entres les composantes du vecteur de paramètres inconnus θ U h h=1:m suggèrent de partager les informations entre les différentes réalisations similaires du couple (Y, X) pour obtenir une meilleure estimation de chaque paramètre θ U h . L’approche de Bayes empirique a été classée en deux catégories par Morris, C.N.[1983][7] dont : le cas non paramétrique (voir [8] pour plus de détails) et le cas paramétrique. Dans le cas paramétrique, on suppose que la loi a priori du paramètre θ U h est dans une classe paramétrique h θ U h |πU , γU i , où les hyperparamètres πU et γU sont inconnus. L’idée principale consiste à estimer les hyperparamètres d’abord et de les replacer dans la loi a priori avant d’estimer la loi a posteriori (pour plus de détails, consulter [2, 3]). On considère, (Yi , Xi)i=1:nh , une suite de nh réalisations indépendantes de [Y, X]h. On note nhU = Xnh i=1 1l (U(Xi) = 1) le nombre d’observations i telles que U(Xi) = 1. On suppose que nhU est un entier connu et supérieur strictement à un. On note ShU = nXhU i=1 1l (Yi = 1, U(Xi) = 1) une variable aléatoire qui détermine le nombre d’observations i telles que U(Xi) = 1 et Yi = 1. On suppose que (ShU |θ U h )h=1:m est une suite de variables aléatoires indépendantes mais pas nécessairement identiquement distribuées. Pour tout cluster h donné, on suppose que h ShU |θ U h i = Binomiale(nhU , θU h ) L’objectif est de trouver une estimation ponctuelle pour θ U h à partir des observations ShU . On commence par déterminer la loi a posteriori de θ U h |πU , γU qui dépend des données par ShU . La loi a posteriori est donnée par : h θ U h |ShU , πU , γU i = h ShU |θ U h i hθ U h |πU , γU i [ShU |πU , γU ] En supposant que les hyperparamètres πU et γU sont inconnus, nous les estimerons à partir de la distribution marginale de toutes les données, [ShU |πU , γU ]. On obtient la distribution a posteriori estimée : h θ U h |ShU , πbU , γbU i où πbU et γbU sont des fonctions de ShU (i.e., πbU (ShU ) et γbU (ShU )). Ces estimateurs sont habituellement obtenus par la méthode du maximum de vraisemblance (MLE) ou la méthode des moments (MOM) à partir de la distribution marginale [ShU |πU , γU ]. Une fois les estimateurs {πbU , γbU } obtenus, nous pouvons estimer alors bθ U h comme étant la moyenne de la distribution a posteriori estimée. Notons que, bθ U h dépend de toutes les données par le biais de πbU et γbU . Dans cette analyse, nous proposons d’estimer les hyperparamètres πbU et γbU par la méthode des moments.