DEUX TESTS D’HYPOTHÈSES SIMPLES POUR LES PROCESSUS DE POISSON NON HOMOGÈNES
Tests d’hypothèses
Dans ce chapitre, nous donnons quelques notions de base des problèmes de tests d’hypothèses. Pour une étude exhaustive, on pourra se référer à Ingster et Suslina [15] . Il convient de rappeler qu’en statistique mathématique, les modèles ne sont pas connus. Si nous observons l’échantillon X(n) = (X1, …, Xn) sur l’espace (Ω, F, Pθ, θ ∈ Θ), le problème est de connaitre le paramètre θ et la loi Pθ que les Xj peuvent suivre. Pour ce faire, il existe deux grandes classes de problèmes qui sont : problèmes paramétriques et problèmes non-paramétriques. Dans les problèmes paramétriques, on suppose que Xj suit une loi F(θ, x) connue et le paramètre θ est inconnu. Il existe des cas intermédiaires où on ne connait pas F(x) mais on connait la moyenne. Pour ces cas, il est plus dicile d’avoir de bons résultats. Dans l’approche semiparamétrique (sous-ensemble des problèmes non paramétriques), on a deux problèmes qui sont d’une part paramétriques où on cherche soit à faire l’estimation ˆθn de θ, soit à faire le test d’hypothèses H0 : θ = θ0 contre H1 : θ 6= θ0 et d’autre part non paramétriques où on cherche soit à faire l’estimation Fˆ n(x) de F(x) ou l’estimation de la densité f(x), soit à faire le test d’hypothèses H0 : Xj suit la loi N (0, 1) contre H1 : Xj suit une autre loi ou le test d’hypothèses H0 : Xj suit la loi N (0, σ2 ) avec σ 2 > 0 contre H1 : Xj suit une autre loi. 2.2 Hypothèses Simples Soit (χ, B(χ), F) n , n ≥ 1 un modèle statistique identiable. Les observations sont X(n) = (X1, …, Xn), où les Xj sont indépendantes dénies sur (χ, B(χ), F) de même loi de probabilité inconnue F(x) = (F1(x), F2(x), …, Fr(x)). Nous avons ainsi r lois diérentes et 20 Xj peut suivre une des r lois données. Problème : décider quelle loi correspond mieux à ces observations ? Pour cela, on fait l’hypothèse suivante Hypothèse : Xj ∼ Fl(x), avec l = 1, 2, …, r. On introduit une fonction de décision qu’on appelle aussi test statistique ou règle de décision qui est une fonction mesurable bornée sur χ et dénie par δ(X(n) ) = Hl , l = 1, 2, …, r. On désigne par H = {H1, H2, …, Hr} l’ensemble des hypothèses. En faisant l’hypothèse Hl , nous pouvons commettre une erreur. Nous notons cette erreur par αl(δ) = Pl(δ(X(n) ) 6= Hl). Désignons par {α1(δ), α2(δ), …, αl(δ)} l’ensemble des erreurs. Si αl(δ1) ≤ αl(δ2) ∀ l = 1, 2, …, r ; on a au moins une fois l’inégalité stricte et donc δ1 est meilleur que δ2. Cette notion de « meilleur » nous emmène à introduire directement ci-dessous l’approche des tests les plus puissants dans une classe donnée. Approche des tests les plus puissants dans une classe Nous distinguons ici deux approches qui sont l’approche bayésienne et l’approche minimax. Le principe consiste à xer r − 1 erreurs dans la classe Kα1,α2,…,αr−1 = {δ : α1(δ) = α1, …, αr−1(δ) = αr−1}. Question : Trouver αr? Dénition : Un test ˆδ(X(n) ) est dit le test le plus puissant dans la classe Kα1,α2,…,αr−1 si ˆδ ∈ Kα1,α2,…,αr−1 et pour tout test δ ∈ Kα1,α2,…,αr−1 on a αr( ˆδ) ≤ αr(δ). On suppose Q(Hl) = q(l), l = 1, 2, …, r; q(l) > 0 avecXr l=1 q(l) = 1. Erreur moyenne : Soit αQ(δ) = Xr l=1 q(l)αl(δ). δ = δQ est un test bayésien si αQ(δQ) = min δ αQ(δ). Soit α ∗ (δ) = max l=1,2,…,r αl(δ) δ = δ ∗ est un test mini-max si α ∗ (δ ∗ ) = min δ α ∗ (δ).
Test bayésien
soit X(n) = (X1, …, Xn) l’échantillon observé sous les hypothèses H1, H2, …, Hr. Soit αl(δ) = Pl(rejeter Hl). soit αQ(δ) = Xr l=1 q(l)αl(δ) = P rob(Dδ) où Dδ = {X (n) ; ∪ r i=1{θ = l, δ(X (n) ) 6= Hl}}. Alors on a P(Dδ) = E[P(Dδ/X(n) )] = E[ Xr l=1 P(θ = l; δ(X n ) 6= Hl/X(n) )]. Nous savons que P(A) = Eχ{X∈A} et P(A, B) = Eχ{X∈A}.χ{X∈B} alors P(Dδ) devient : P(Dδ) = E[ Xr l=1 P(θ = l.χ{δ(X(n))6=Hl}/X(n) )] = E[ Xr l=1 P(θ = l/X(n) ).χ{δ(X(n))6=Hl} ] = E[ Xr l=1 P(θ = l/X(n) ).(1 − χ{δ(X(n))=Hl} )]. A l’aide de la formule de Baye P(A/B) = P(A,B) P(B) , nous avons l’expression P(θ = l/X(n) ) = q(θ = l/X(n) ) = q(l).Vl(X(n) ) X l i=1 q(i)Vi(X (n) ) où fl(X) est la loi de X et Vl(X(n) ) = Πn i=1fl(Xi). P(Dδ) devient donc P(Dδ) = E( Xr l=1 q(l/X(n) )) − E( Xr l=1 q(l/X(n) ).χ{δ(X(n))=Hl} ) = 1 − E( Xr l=1 q(l/X(n) ).χ{δ(X(n))=Hl} ) ≥ 1 − E( max l=1,…,r q(l/X(n) )) car Xr l=1 q(l/X(n) ).χ{δ(X(n))=Hl} = 1. Et par conséquent αQ(δ) ≥ 1 − E( max l=1,…,r q(l/X(n) )). Théorème 2.2.1. . Le test δQ(δ) = Hl est bayésien. En eet, χ{δ(X(n))=Hl} = 1 si q(l/X(n) ) = max l=1,…,r q(l/X(n) ). Ce qui implique que αQ(δ) = 1 − E( max l=1,…,r q(l/X(n) )). . δ(X(n) ) = Hl si X(n) ∈ Ωl . En eet, q(l1/X(n) ) = q(l2/X(n) ) > max l6=l1,l6=l2 q(l/X(n) ). Dans ce dernier cas de gure, on peut choisir n’importe lequel des tests c’est-à-dire Hl1 avec la probabilité Πl1 ou Hl2 avec la probabilité Πl2 . Le choix des tests étant aléatoire, il convient d’introduire un test dit » test randomisé ou test aléatoire ou encore test de Neyman » qui permet de réguler ce choix.
Test randomisé
Dans la pratique, utiliser un test randomisé permet de ne pas avoir de parti pris pour l’une ou l’autre des hypothèses, quand celles-ci ne sont pas vraiment discernables ou séparables. En théorie , si un test optimal est randomisé sur un ensemble de mesure non nul, cela signie que les hypothèses à tester ne sont pas distinguables, alors, il est préférable de choisir au hasard les hypothèses. Soit Π(X(n) ) = (Π1(X(n) ), …, Πr(X(n) )) l’ensemble des probabilités avec Πi(X(n) ) ≥ 0 et Xr l=1 Πl(X (n) ) = 1. Soit Πi(X(n) ) la probabilité d’accepter l’hypothèse Hi ayant X(n) . On a Πi(X(n) ) = χ{δ(X(n))=Hi} . Soit αQ(Π) = Xr l=1 q(l).αl(Π) et αj (Π) = Pj (rejeterHi) = 1 − Ej (Πi(X (n) )). Théorème 2.2.2. αj (Π) ≥ 1 − E( max l=1,…,r q(l/X(n) )). Nous rappelons que αQ(X(n) ) est la probabilité d’accepter Hl si q(l/X(n) ) = max i=1,…,r q(i/X(n) ). Théorème 2.2.3. Soit Q¯ et δQ¯ respectivement une distribution et le test bayésien tel que α1(δQ¯) = α1, …, αr−1(δQ¯) = αr−1. Alors le test ˆδ = δQ¯ est le plus puissant dans la classe Kα1,α2,…,αr−1 c’est-à-dire ∀ ¯δ ∈ Kα1,α2,…,αr−1 , αr( ˆδ) ≤ αr( ¯δ) (αQ¯( ¯δ) ≥ αQ¯( ˆδ)). Preuve Nous cherchons Q¯ tel que Xr l=1 q¯(l).αl( ¯δ) ≥ Xr l=1 q¯(l).αl( ˆδ). On a Xr−1 l=1 q¯(l).αl( ¯δ) + ¯q(r).αr( ¯δ) ≥ Xr−1 l=1 q¯(l).αl( ˆδ) + ¯q(r).αr( ˆδ) et par suite αr( ¯δ) ≥ αr( ˆδ). Théorème 2.2.4. Soit Q¯ et δQ¯ respectivement une distribution et le test bayésien tel que α1(δQ¯) = α2(δQ¯) = … = αr(δQ¯) = αr−1. Alors le test δ ∗ = δQ¯ est mini-max. Preuve ∀δ α∗ ( ¯δ) = max i=1,…,r αl( ¯δ) ≥ Xr l=1 q¯(l).αl( ¯δ) = αQ¯( ¯δ) ≥ αQ(δQ¯). La première inégalité montre que le max est supérieur à la moyenne et on a α ∗ ( ¯δ) ≥ αQ(δQ¯) = Xr l=1 q¯(l).αl(δQ¯) = αl(δQ¯) = max i=1,…,r αl( ¯δ) = α ∗ (δQ¯)
Deux hypothèses simples
Nous considérons un échantillon d’observation X(n) = (X1, …, Xn) où les Xj sont indépendantes dénies sur (χ, B(χ), F) de même loi de probabilité inconnue F(x) = (F1(x), F2(x)). Nous avons ainsi 2 lois diérentes et Xj peut suivre une des 2 lois données. Notre problème consiste à décider quelle loi correspond mieux à ces observations. Pour cela, nous faisons les deux hypothèses suivantes : H1 : f(x) ∼ f1(x) et H2 : f(x) ∼ f2(x). Soit Π(X(n) ) = (Π1(X(n) ), Π2(X(n) )) l’ensemble des probabilités ; Π1(X(n) ) + Π2(X(n) ) = 1. Π(X(n) ) = Π2(X(n) ) est la probabilité d’accepter l’hypothèse H2 La qualité d’un test est le plus souvent caractérisée par les probabilités de prise d’une fausse décision. Dans notre cas, nous pouvons commettre deux types d’erreurs : erreur de première espèce : Elle est la probabilité de refuser l’hypothèse H1 alors que H1 est vraie et est dénie par α(Π) = E1(Π(X(n) )). erreur de seconde espèce : Elle est la probabilité d’accepter l’hypothèse H1 alors que H1 est fausse et est dénie par α2(Π) = 1 − E2(Π(X(n) )). La puissance du test est la probabilité de ne pas choisir l’hypothèse H1 sachant que H1 est fausse et est dénie par β(Π) = E2(Π(X(n) )) = 1 − α2(Π). Soit Z(X(n) ) = V2(X(n) ) V1(X(n)) = Yn j=1 f2(Xj ) f1(Xj ) le rapport de vraisemblance. Théorème 2.2.5. 1. Soit c = q(1) q(2) , alors Πc,p = 1 si Z(X(n) ) > c −→ accepter l’hypothèse H2 p si Z(X(n) ) = c 0 si Z(X(n) ) < c −→ accepter l’hypothèse H1 Πc,p est le test bayésien pour p ∈ [0, 1]. 2. Soit P1(Z(X(n) ) > c) ≤ ε alors Πc,p est le plus puissant dans la classe Kε = {Π : E1(Π(X (n) )) ≤ ε} avec c, p solutions de l’équation P1(Z(X(n) ) > c) + p.P1(Z(X(n) ) = c) = ε. 3. Le test Πc,p avec c, p solutions de P1(Z(X (n) ) > c) + P2(Z(X (n) ) > c) + p.[P1(Z(X (n) ) = c) + P2(Z(X (n) ) = c)] = 1 est mimi-max. 24 Preuve 1. Π = 1 si q(l/X(n) ) = max{q(1/X(n) ), q(2/X(n) )}. On accepte H2 si q(2/X(n) ) > q(1/X(n) ) =⇒ l’hypothèse H2 est plus probable. q(2/X(n) ) V2(X(n) ) q(1/X(n) ) V1(X(n) ) + q(2/X(n) ) V2(X(n) ) > q(1/X(n) ) V1(X(n) ) q(1/X(n) ) V1(X(n) ) + q(2/X(n) ) V2(X(n) ) et ceci implique q(1/X(n) ) q(2/X(n) ) < V2(X(n) ) V1(X(n) ) et donc c < Z(X(n) ). D’où on accepte l’hypothèse H2 si Z(X(n) ) > c. 2. Soit Q¯ et δQ¯. On a α1(Π) = E1[Π(X (n) )] = 1.P1(Z(X (n) ) > c) + p.P1(Z(X (n) ) = c) = ε. Il faut montrer que cette équation a une solution unique. Posons τ (c) = P1(Z(X(n) ) > c) = 1 − P1(Z ≤ c) avec F(c) = P1(Z < c) est la fonction de répartition de Z. τ (c) est décroissante et continue à droite donc admet une limite à gauche. Alors c existe et on peut le trouver. On a τ (c) ≤ ε ≤ τ (c−) = τ (c) + P1(Z = c). Si τ (c) est continue en c, il est clair que P1(Z = c) = 0 et cette équation dévient α1(Π) = E1[Π(X (n) )] = P1(Z(X (n) ) > c) = ε. Si τ (c) est discontinue en c, alors on peut prendre p comme p = ε−τ(c+) τ(c−)−τ(c+) avec τ continue à droite et cette équation dévient P1(Z(X (n) ) > c) + p.P1(Z(X (n) ) = c) = τ (c+) + ε − τ (c+) τ (c−) − τ (c+) [τ (c−) − τ (c+)] = ε.
Deux hypothèses simples : Approche asymptotique
La problématique de l’approche asymptotique découle de la diculté qu’on a pour construire un test d’après l’observation du phénomène dans une durée nie et de déterminer ses paramètres , y compris le seuil ε , la partie randomisée et la puissance. C’est pour cette raison qu’on fait recours à des méthodes approximatives basées d’une part sur la recherche des paramètres par une approche asymptotique et d’autre part sur le comportement asymptotique de la suite βn(ψn) des fonctions puissances des statistiques de test ψn, n ≥ 1 de H1 contre H2 quand la dimension n du vecteur d’observations de X(n) = (X1, …, Xn) croît indéniment. Dans ce cas, on exige d’habitude que la suite des tests (ψn)n≥1 construits soit consistante, c’est-à-dire que lim n→+∞ βn(ψn) = 1 25 ce qui signie que, quand n croît indéniment (n → +∞), les hypothèses H1 et H2 sont distinguables (séparables) avec une grande certitude. Soit donc l’observation X(n) = (X1, …, Xn) où les Xj sont indépendantes dénies sur (χ, B(χ), F) de même loi de probabilité inconnue F(x) = (F1(x), F2(x)). Considérons ψn = φ(X(n) ), n ∈ N, une suite de tests destinés à se prononcer sur l’acceptation ou le rejet d’une hypothèse simple contre une hypothèse simple , c’est la probabilité d’accepter l’hypothèse H2. Nous testons les deux hypothèses suivantes : H1 : f(x) ∼ f1(x) et H2 : f(x) ∼ f2(x). Désignons par K0 ε la classe des tests de seuil asymptotique ε c’est-à-dire K0 ε = {φn : lim n→+∞ E1 φn(X (n) ) = ε}. soit Πc,p = 1 si Z(X(n) ) > c −→ accepter l’hypothèse H2 p si Z(X(n) ) = c 0 si Z(X(n) ) < c −→ accepter l’hypothèse H1 On cherche la valeur de c par une approche asymptotique. Pour cela, on choisit c tel que α1(Πc,p) = P1(Z(X(n) ) > c) −→ ε lorsque n −→ ∞. P1(Z(X(n) ) > c) est la probabilité d’accepter H2 sous l’hypothèse H1. P1( Yn j=1 f2(Xj ) f1(Xj ) > c) = P1( Xn i=1 Yj > `nc) avec Yj = `nf2(Xj ) f1(Xj ) . E1(Yj ) = E1(`nf2(Xj ) f1(Xj ) ) = Z `nf2(x) f1(x) f1(x) dµ(x) = a avec a > 0. P1( Xn i=1 (Yj + a) > `nc + na) = P1( 1 √ n σ1 Xn i=1 (Yj + a) > 1 √ n σ1 (`nc + na)) avec σ 2 1 = V ar1(Yj ) = E1(Yj + a) 2 . D’après le théorème central limite, nous avons √ 1 n σ1 Xn i=1 (Yj + a) =⇒ N (0, 1). Notons par zε le quantile 1 − ε de la loi standard gaussienne, i.e., P(ξ > zε) = ε, ε ∈ [0, 1], ξ =⇒ N (0, 1). On pose zε = `nc+na σ1 √ n =⇒ `nc = zεσ1 √ n − na =⇒ c = e zεσ1 √ n−na . Si c = e zεσ1 √ n−na alors le test ψn = χ{Z(X(n))>c} ∈ K0 ε . α2(ψn) est la probabilité d’accepter l’hypothèse H1 alors qu’on est sous l’hypothèse H2 et H2 est vraie. Ici ψn = Πc,p. α2(ψn) = P2(Z(X (n) ) < c) = P2( Xn i=1 Yj < −na + zεσ1 √ n). 26 or E2(Yj ) = Z `nf2(x) f2(x) f2(x) dµ(x) = b > 0 donc P2( Xn i=1 (Yj − b) < −na + zεσ1 √ n − nb) = P2( 1 √ n σ2 Xn i=1 (Yj − b) < − √ n(a + b) σ2 + zεσ1 √ n √ n σ2 ). 1 √ n σ2 Xn i=1 (Yj − b) =⇒ N (0, 1) d’après le TCL, avec σ2 = V ar2(Yj ). Ceci implique que P2(Z < −∞) = 0 lorsque n −→ ∞. D’où en conclusion, nous avons : α1(ψn) −→ ε et α2(ψn) −→ 0 lorsque n −→ ∞. La puissance β(ψn) = E2(ψn(X(n) )) = 1 − α2(ψn) −→ 1. α2(ψn) = e −na+o(1) −→ 0 lorsque n −→ ∞, avec o(1) la vitesse exponentielle. Si β(ψn) −→ 1, alors on dit que le test est consistant.
Introduction générale |