L’estimation de la densité de probabilité par la méthode d’entropie croisée généralisée
Rappels et concepts de base pour l’estimation statistique
Présentation
En mathématiques, un estimateur est une statistique permettant d’évaluer un paramètre inconnu relatif à une loi de probabilité(comme son espérance ou sa variance). Il peut par exemple servir à estimer certaines caractéristiques d’une population totale à partir des données obtenues sur un échantillon comme, par exemple, lors d’un sondage. La dénition et l’utilisation de tels estimateurs constitue la statistique inférentielle. généralized cross Entropy Méthod Estimation Soumaïla KANE c Université Cheikh Anta Diop de Dakar / 2013 Rappels et concept de base pour l’estimation statistique 7 1.2 Illustration de la notion Si l’on cherche à évaluer la taille moyenne des enfants de 10 ans, on peut eectuer un sondage sur un échantillon de la population des enfants de 10 ans(par exemple en s’adressant à des écoles réparties dans plusieurs milieux diérents). La taille moyenne calculée sur cet échantillon, appelée moyenne empirique, sera un estimateur de la taille moyenne des enfants de 10 ans. Si l’on cherche à évaluer la surface totale occupée par la jachère dans un pays donné, on peut eectuer un sondage sur plusieurs portions du territoire de même taille, calculer la surface moyenne occupée par la jachère et appliquer une règle de proportionnalité. Si l’on cherche à déterminer le pourcentage d’électeurs décidés à voter pour le candidat A, on peut eectuer un sondage sur un échantillon représentatif. Le pourcentage de votes favorables à A dans l’échantillon est un estimateur du pourcentage d’électeurs décidés à voter pour A dans la population totale. Si l’on cherche à évaluer la population totale de poissons dans un lac, on peut commencer par ramasser n poissons, les baguer pour pouvoir les identier ultérieurement, les relâcher, les laisser se mélanger aux autres échantillons de poissons du lac, on calcule la proportion p de poissons bagués. La valeur n p est un estimateur de la population totale de poissons dans le lac. S’il n’y a aucun poisson bagué dans l’échantillon, on procède à un autre tirage. Un estimateur est très souvent une moyenne, une population totale, une proportion ou une variance.
Définition
Un estimateur du paramètre inconnu θ d’un modèle ou loi de probabilité est une fonction qui fait correspondre à une suite d’observations X1, X2, …, Xn issues du modèle ou de la loi de probabilité, la valeur ˆθ que l’on nomme estimé ou estimation. 1.3.2 Dénition ˆθn = f(x1, x2, …, xn) (1.1) généralized cross Entropy Méthod Estimation Soumaïla KANE c Université Cheikh Anta Diop de Dakar / 2013 Rappels et concept de base pour l’estimation statistique 8 1.4 Qualité d’un estimateur La qualité des estimateurs s’exprime par leur convergence, leur biais, leur ecacité et leur robustesse. Diverses méthodes permettent d’obtenir des estimateurs de qualités diérentes ; Un estimateur est une valeur ˆθ calculée sur un échantillon tiré au hasard, la valeur ˆθ est donc une variable aléatoire possédant une espérance E ( ˆθ) et une variance opérateur nommé V ar( ˆθ). (1.2) On comprend alors que sa valeur puisse uctuer selon l’échantillon. Elle a de très faibles chances de coïncider exactement avec la valeur θ qu’elle est censée représenter. L’objectif est donc de maîtriser l’erreur commise en prenant la valeur de ˆθ pour celle de θ.
Biais
Une variable aléatoire uctue autour de son espérance. On peut donc souhaiter que l’espérance de ˆθ soit égale à θ, soit qu’en 00 moyenne 00 l’estimateur ne se trompe pas. Biais(ˆθ) = E[ ˆθ] − θ (1.3) Lorsque l’espérance E( ˆθ) de l’estimateur est égale θ, c’est à dire. le biais est égal à zéro, l’estimateur est dit sans biais. L’estimateur choisi précédemment sur la taille moyenne des enfants de 10 ans est un estimateur sans biais mais celui des poissons comporte un biais : le nombre de poissons estimé est en moyenne supérieur au nombre de poissons réels. Dans son ouvrage Dynamic programming, Richard Bellman s’en prend violemment à la recherche trop systématique des estimateurs sans biais en rappelant à l’aide d’exemples que des estimateurs avec biais ont dans plusieurs cas une convergence plus rapide, et donc une ecacité pratique bien plus grande. 1.4.2 Erreur quadratique moyenne L’erreur quadratique moyenne est l’espérance du carré de l’erreur entre la vraie valeur et sa valeur estimée. Dénition : MSE(ˆθ) = E ( ˆθ − θ)
Convergence
On souhaite aussi pouvoir, en augmentant la taille de l’échantillon, diminuer l’erreur commise en prenant ˆθ à la place de θ. Si c’est le cas, on dit que l’estimateur est convergent (on voit aussi consistant), c’est à dire qu’il converge vers sa vraie valeur. La dénition précise en mathématique est la suivante : Dénition 1 : L’estimateur ˆθn est convergent s’il converge en probabilité vers θ, soit : limn→∞ P(| ˆθn − θ| > ε) = 0 ∀ ε > 0. (1.5) On l’interprète comme le fait que la probabilité de éloigner de la valeur à estimer de plus que ε tend vers 0 quand la taille de l’échantillon augmente. Cette dénition est parfois écrite de manière inverse : Dénition 2 : L’estimateur ˆθn est convergent s’il converge en probabilité vers θ, soit : limn→∞ P(| ˆθn − θ| ≤ ε) = 1 ∀ ε > 0. (1.6) Il existe enn un type de convergence plus forte, la convergence presque sûre, dénie ainsi pour un estimateur par la dénition suivante : Dénition 3 : L’estimateur ˆθn est fortement convergent s’il converge presque sûrement vers θ, soit : P limn→∞ ˆθn = θ = 1 (1.7) Exemple : La moyenne empirique est un estimateur convergent de l’espérance d’une variable aléatoire. La loi faible des grands nombres assure que la variable converge en probabilité vers l’espérance et la loi forte des grands nombres assure qu’elle converge presque sûrement. 1.4.4 Ecience Dénition : La variable aléatoire uctue autour de son espérance. Plus la variance Var(θ) est faible, moins les variations sont importantes. On cherche donc à ce que la variance soit la plus faible possible. C’est ce qu’on appelle l’ecient d ‘un l’estimateur
Robustesse
Il arrive que lors d’un sondage, une valeur extrême et rare apparaisse (par exemple un enfant de 10 ans mesurant 1,80 m). On cherche à ce que ce genre de valeur ne change que de manière très faible la valeur de l’estimateur. On dit alors que l’estimateur est robuste. Exemple : En reprenant l’exemple de l’enfant, la moyenne n’est pas un estimateur robuste car ajouter l’enfant très grand modiera beaucoup la valeur de l’estimateur. La médiane par contre n’est pas modiée dans un tel cas. 1.5 Estimateur classique On se placera dans le cas simple d’un tirage aléatoire de n individus dans une population qui comportant N éléments. On s’intéresse au caractère quantitatif Y de moyenne Y et de variance V (Y ). Dans l’échantillon tiré, le caractère quantitatif est y, sa moyenne est yet sa variance est σ 2 = 1 n Xn i=1 (yi − y) 2 . (1.8) Les valeurs de y et σ 2 varient selon l’échantillon et sont donc des variables aléatoires possédant chacune une espérance, une variance et un écart type.
Estimateur de la moyenne
On prend en général comme estimateur de Y la valeur y = 1 n Xn i=1 yi . (1.9) E(y) = Y qui montre qu’on a un estimateur sans biais et l’équation précédente est l’équation de la moyenne empirique. 1.5.2 Estimateur de la variance de Y On pourrait penser que σ 2 est un bon estimateur de V (Y ). Cependant des calculs (voir écart type) prouvent que cet estimateur est biaisé, l’espérance de σ 2 est toujours inférieure à V (Y ). On prouve qu’un estimateur sans biais de V (Y ) est : − n n − 1 σ 2 (1.10) généralized cross Entropy Méthod Estimation Soumaïla KANE c Université Cheikh Anta Diop de Dakar / 2013 Rappels et concept de base pour l’estimation statistique 11 dans le cas de tirage avec remise N − 1 N n n − 1 σ 2 (1.11) dans le cas de tirage sans remise (qui vaut bien σ 2 lorsque n = N). On peut remarquer que, pour N plus grand, le calcul avec remise et le calcul sans remise donnent des résultats presque équivalents. (le quotient N−1 N est alors proche de 1). On prend donc en général, pour estimateur sans biais de V (Y ) la valeur : s 2 = 1 n − 1 Xn i=1 (yi − y) 2 (1.12) appelée variance empirique sans biais de Y. 1.6 Ecacité et Intervalle de conance La manière dont y uctue autour de son espérance E(Y ) dépend de sa variance V (y). Cette variance se calcule grâce à V (Y ). V (y) = V (Y ) n (1.13) dans le cas d’un tirage avec remise V (y) = N − n N − 1 V (Y ) n (1.14) dans le cas d’un tirage sans remise on peut remarquer que, pour N très grand devant n, les deux valeurs sont très voisines. Par la suite, on ne s’intéressera donc qu’au cas du tirage avec remise en considérant que N est très grand. On s ‘aperçoit que plus n est grand, plus V (y) est petit. Donc, plus la taille de l’échantillon est grande, plus l’estimateur y est ecace. L’inégalité de Bienaymé-Tchebychev précise que, pour tout réel strictement positif ε, P .
Introduction générale |