ECHANTILLONNAGE
On considère par exemple l’expérience suivante consistant à lancer plusieurs fois un dé et à noter si la face supérieure affichée est un 4 ou un autre nombre. La valeur supposée et théorique de la probabilité d’obtenir un 4 est.. La mise en défaut ou non de cette expérience, nous permettra d’affirmer s’il est raisonnable de penser que le dé est pipé ou ne l’est pas. En réalisant l’expérience un certain nombre de fois (échantillon), on mesure la fréquence d’apparition du 4. Si la fréquence et la valeur théorique sont trop « éloignées » (dépassent un seuil fixé) alors on peut rejeter la valeur théorique et considérer que le dé est pipé. Dans le cas inverse, on considère qu’il ne l’est pas. I. Notion d’échantillon Exemple : Si, sur l’ensemble des cartes à puce produites par une entreprise en une semaine, on en prélève 200, on dit que cet ensemble de 200 cartes à puce constitue un échantillon de taille 200 de la population de toutes les cartes à puce produites en une semaine. Définition : Un échantillon de taille n est constitué des résultats de n répétitions indépendantes de la même expérience sur l’ensemble des personnes ou objets sur lesquels porte l’étude statistique (la population). Un échantillon issu d’une population est donc l’ensemble de quelques éléments de cette population.
On suppose que 22% des cartes à puce produites par l’entreprise sont défectueuses. La proportion théorique p est donc égale à 22%. On prélève un échantillon de taille 200 parmi cette production et on compte le nombre de cartes à puce défectueuses parmi cet échantillon. Ce nombre est égal à 41. Dans ce cas, la fréquence observée f est égale à . Pour un échantillon de taille 200, l’intervalle de fluctuation de la fréquence p des cartes à puce défectueuses au seuil de 95 %, est un intervalle de centre 0,22 tel que les fréquences observées se trouvent dans cet intervalle pour 95 % des échantillons de taille 200. Définition : L’intervalle de fluctuation au seuil de 95% d’une fréquence d’un échantillon de taille n est l’intervalle centré autour de la proportion théorique p tel que la fréquence observée f se trouve dans l’intervalle avec une probabilité égale à 0,95. Propriété : Pour 0,2 < p < 0,8 et n > 25, l’intervalle de fluctuation au seuil de 95% de f est l’intervalle . Cela signifie qu’on a une probabilité de 0,95 pour que la fréquence observée se trouve dans l’intervalle . Remarque : L’amplitude de cet intervalle est égale à . Dans l’exemple précédent, l’intervalle de fluctuation au seuil de 95% de p = 0,22 est soit de façon approchée [0,15 ; 0,29]. Méthode : Prendre une décision à partir d’un échantillon Vidéo https://youtu.be/BllBtFIVUAY Deux entreprises A et B recrutent dans un bassin d’emploi où il y a autant de femmes que d’hommes, avec la contrainte du respect de la parité. Dans l’entreprise A, il y a 100 employés dont 43 femmes (soit 43 %). Dans l’entreprise B, il y a 2500 employés dont 1150 femmes (soit 46 %).
Or, 46 % est plus proche de 50 % que 43 % : les chiffres parlent d’eux-mêmes ! Si on admet que la parité, c’est exactement 50 % de femmes, il est vrai que B est plus proche que A. Peut-on alors affirmer que l’entreprise B respecte mieux la parité que l’entreprise A ? (D’après document ressource « Prob-stat » – Juin 2009) La proportion théorique p est égale à 0,5 (50% de femmes). Pour l’entreprise A : La taille de l’échantillon n est égale à 100. La fréquence observée f est égale à 0,43. Pour l’entreprise B : La taille de l’échantillon n est égale à 2500. La fréquence observée f est égale à 0,46. Pour chaque entreprise, peut-on affirmer que la fréquence de femmes respecte la parité ? Pour y répondre, on va vérifier dans chaque cas si la fréquence observée f se situe dans l’intervalle de fluctuation au seuil de 95%.La valeur 43% est donc dans l’intervalle de fluctuation de l’entreprise A alors que la valeur 46% n’est pas dans l’intervalle de fluctuation de l’entreprise B. La proportion de 46% s’observe donc dans moins de 5% des échantillons de taille 2500. On peut alors rejeter l’hypothèse que l’entreprise B respecte la parité. Par contre, pour l’entreprise A, on peut accepter cette hypothèse. Un jeu consiste à tirer 100 billes d’un sac contenant 300 billes noires et 300 billes blanches. L’expérience peut être simulée avec un tableur afin d’effectuer rapidement un grand nombre de tirage. Pour cet échantillon de taille 100, on compte le nombre de billes noires et on calcule la fréquence observée f. On pourrait ainsi vérifier que, dans 95 % des cas.