Cours statistiques de la variabilité, tutoriel & guide de travaux pratiques en pdf.
Statistiques de la variabilité
Les mesures de tendances centrales vues précédemment sont informatives, mais insuffisantes pour décrire une distribution. Il est aussi utile de connaître la dispersion des données.
Il existe plusieurs façons de calculer la dispersion des données brutes. Par exemple, on pourrait calculer la distance entre les deux extrêmes (l’étendue, que nous avons vu dans le cours 1). Cependant, seulement deux données sont utilisées (Min(X) et Max( X)), rendant cette mesure très sensible aux erreurs d’échantillonnage (données extrêmes). Une autre façon de mesurer la variabilité serait de calculer la moyenne des distances entre toutes les paires de scores. Cependant, nous serions confrontés à un nombre astronomique de paires de scores possibles (pour n données, il existe n × (n – 1) /2 pairs, un nombre qui devient rapidement énorme; essayez avec n = 100).
La méthode la plus usitée prend comme point de départ que la moyenne se situe au centre de la distribution. On peut donc l’utiliser comme point de référence. Imaginons que l’on calcule la distance entre chaque point Xi et la moyenne des points X . Si on fait la somme de toutes ces distances et divisons par n, noté 1 ∑(Xi − X) , nous n’aurons malheureusement n i pas une valeur de dispersion. En effet, la somme des distances entre chaque donnée brute et sa moyenne est toujours nulle. En effet, en terme mathématique .
Autrement dit, à cause de la position centrale de la moyenne, les distances négatives des données plus petites que la moyenne sont exactement contrebalancées par les distances positives des données plus grandes. Pour vous en convaincre, faites le test avec ces données : X = {1, 2, 3, 4, 5, 6, 7}.
(Si on ignore la multiplication par 1/n, ce résultat stipule que la sommes des écarts à la moyenne donne toujours zéro. C’est un résultat qui va revenir souvent par la suite pour simplifier des formules plus complexes.)
Pour contourner le problème, nous élevons chaque distance au carré, obtenant ainsi une série de carrés ayant tous des valeurs positives. Le résultat est appelé la variance.
Comme nous allons le voir dans l’encadré _ du cours 5, la variance d’un échantillon est biaisée. En effet, même si l’échantillon reflète dans une certaine mesure la variabilité de la population dont il est tiré, il est probable que parmi ce petit nombre de données brutes (par rapport à la taille de la population entière), les données les plus extrêmes soient sous représentées (simplement parce qu’il y en a peu dans la population). En conséquence, la variabilité de la population sera sous-estimée par la variabilité de l’échantillon.
Pour éviter ce biais, il faut augmenter la valeur de cette estimation. Cependant, cette correction doit s’atténuer lorsque la taille de l’échantillon est très grand. Cette correction est donc fonction de n. On démontrera à l’encadré u du cours 5 que la correction adéquate est de n multiplier la variance de l’échantillon par n −1 de façon à obtenir une variance qui reflète le fait que notre échantillon soit forcément affecté par une espèce de régression vers la moyenne. Si n est petit, la correction est appréciable et la variance estimée de la population est plus grande. Si n est très grand, la correction devient négligeable. Dans la suite, l’on va distinguer la variance corrigée pour le biais d’un échantillon, notée n−1 X 2 de la variance biaisée d’un t échantillon, notée n X 2 .
Prenez le temps de vérifier que votre calculatrice de poche peut calculer la variance d’un échantillon corrigée pour le biais (parfois, le bouton est noté Sn-12 ou encore σn-12). C’est la seule mesure d’intérêt.
La variance étant une mesure au carré, on rapporte souvent la racine carrée de la variance, que l’on appelle l’écart type non-biaisé (ou corrigé pour le biais) d’un échantillon, et noté d’Une façon simple de bien comprendre ce qu’est la variabilité mesurée par l’écart type n X est de se poser la question suivante : Supposons que je prends une mesure de mon échantillon au hasard, à quelle distance de la moyenne se trouvera-t-il approximativement?
Encadré Y L’erreur type
Une estimation basée sur un échantillon restreint de données brutes qui exclut donc la majorité des valeurs de la population contient une certaine marge d’erreur. Cette erreur, nous l’appelons l’erreur type. Il existe deux sources d’imprécision pour estimer l’erreur type. a) Imaginons que nous choisissons aléatoirement deux échantillons de même taille à l’intérieur d’une même population. Nous obtiendrons assurément deux moyennes légèrement différentes tout simplement parce que nos échantillons ne sont pas identiques. Or, la dispersion de ces moyennes dépend de la taille des échantillons sélectionnés. Des échantillons extrêmement petits ont une plus grande variabilité et sont donc imprécis pour estimer la moyenne de la population. D’un autre côté, si on choisit deux échantillons très grands, les moyennes qui en résultent varieront très peu. Pour exprimer ceci, on dira que l’erreur d’estimation est inversement proportionnelle à n (c’est à dire proportionnel à 1 / n).
Le deuxième déterminant de la précision d’un estimé est la variabilité qui existe à l’intérieur même de la population. Si la population ne contient que des mesures constantes, les échantillons seront composés de cette même constante, et la variance sera zéro, ce qui signifie pas d’erreur dans l’estimé. Par contre, si la variabilité est très grande dans la population, nos deux échantillons seront aussi sans aucun doute très différents. De fait, les échantillons reflètent plus ou moins bien la dispersion de la population. Ainsi, l’erreur type sera proportionnelle à la variance de la population (inconnue mais que l’on peut estimer par t la variance non biaisée n−1 X 2 .
Section 1. Savoir n’est pas comprendre
Section 2. Statistiques de la tendance centrale
Encadré ? Note sur la nomenclature
Encadré ? Comment faire un graphe.
Section 3. Statistiques de la variabilité
Encadré ? L’erreur type
Section 4. Relations fondamentales sur les moments statistiques
Section 5. Autres moments statistiques et leur représentation visuelle
Section 6. Quantiles
Section 7. Conclusion
Exercices