Statistique descriptive et statistique mathématique

Statistiques

La statistique est l’ensemble des instruments et de recherches mathématiques permettant de déterminer les caractéristiques d’un ensemble de données (généralement vaste).
Ce domaine des mathématiques ne doit pas être confondu avec une statistique qui est un nombre calculé à partir d’observations. Pour un article (plus technique) sur une statistique consultez l’article statistique. Les statistiques sont le produit des analyses reposant sur l’usage de la statistique. Cette activité regroupe trois principales branches :
• la collecte des données ;
• le traitement des données collectées, aussi appelé la statistique descriptive ;
• l’interprétation des données, aussi appelée l’inférence statistique, qui s’appuie sur la théorie des sondages et la statistique mathématique.
Cette distinction ne consiste pas à définir plusieurs domaines étanches. En effet, le traitement et l’interprétation des données ne peuvent se faire que lorsque celles-ci ont été récoltées. Réciproquement, la statistique mathématique précise les règles et les méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées.
John Tukey disait qu’il y a deux approches en statistiques, entre lesquelles on jongle constamment : les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics) :
• on explore d’abord les données pour avoir une idée qualitative de leurs propriétés ;
• puis on fait des hypothèses de comportement que l’on confirme ou infirme en recourant à d’autres techniques statistiques.

Domaines d’application

Les statistiques sont utilisées dans des domaines très variés comme :
• en géophysique, pour les prévisions météorologiques, la climatologie, la pollution, les études des rivières et des océans ;
• en démographie : le recensement permet de faire une photographie à un instant donné d’une population et permettra par la suite des sondages dans des échantillons représentatifs ;
• en sciences économiques et sociales, et en économétrie : l’étude du comportement d’un groupe de population ou d’un secteur économique s’appuie sur des statistiques. C’est dans cette direction que travaille l’INSEE. Les questions environnementales s’appuient également sur des données statistiques ;
• en sociologie : les sources statistiques constituent des matériaux d’enquête, et les méthodes statistiques sont utilisées comme techniques de traitement des données ;
• en marketing : le sondage d’opinion devient un outil pour la décision ou l’investissement ;
• en physique : l’étude de la mécanique statistique et de la thermodynamique statistique (cf Physique statistique) permet de déduire du comportement de particules individuelles un comportement global (passage du microscopique au macroscopique) ;
• en métrologie, pour tout ce qui concerne les systèmes de mesure et les mesures elles-mêmes ;
• en médecine et en psychologie, tant pour le comportement des maladies que leur fréquence ou la validité d’un traitement ou d’un dépistage ;
• en archéologie, appliquée aux vestiges (céramologie…)
• en écologie (étude des communautés végétales et des écosystèmes)
• en assurance et en finance (calcul des risques,…)

Statistique descriptive et statistique mathématique

Le but de la statistique est d’extraire des informations pertinentes d’une liste de nombres difficile à interpréter par une simple lecture. Deux grandes familles de méthodes sont utilisées selon les circonstances. Rien n’interdit de les utiliser en parallèle dans un problème concret mais il ne faut pas oublier qu’elles résolvent des problèmes de natures totalement distinctes. Selon une terminologie classique, ce sont la statistique descriptive et la statistique mathématique. Aujourd’hui, il semble que des expressions comme analyse des données et statistique inférentielle soient préférées, ce qui est justifié par le progrès des méthodes utilisées dans le premier cas.
Considérons par exemple les notes globales à un examen. Il peut être intéressant d’en tirer une valeur centrale qui donne une idée synthétique sur le niveau des étudiants. Celle-ci peut être complétée par une valeur de dispersion qui mesure, d’une certaine manière, l’homogénéité du groupe. Si on veut une information plus précise sur ce dernier point, on pourra construire un histogramme ou, d’un point de vue légèrement différent, considérer les déciles. Ces notions peuvent être intéressantes pour faire des comparaisons avec les examens analogues passés les années précédentes ou en d’autres lieux. Ce sont les problèmes les plus élémentaires de l’analyse des données qui concernent une population finie. Les problèmes portant sur des statistiques multidimensionnelles nécessitent l’utilisation de l’algèbre linéaire. Indépendamment du caractère, élémentaire ou non, du problème il s’agit de réductions statistiques de données connues dans lesquelles l’introduction des probabilités améliorerait difficilement l’information obtenue. Il est raisonnable de regrouper ces différentes notions :
• statistique descriptive pour les notions élémentaires ;
• analyse en composantes principales ;
• analyse factorielle des correspondances ;
• analyse discriminante ;
• visualisation des données ;
• etc.
Un changement radical se produit lorsque les données ne sont plus considérées comme une information complète à décrypter selon les règles de l’algèbre mais comme une information partielle sur une population plus importante, généralement considérée comme une population infinie. Pour induire des informations sur la population inconnue il faut introduire la notion de loi de probabilité. Les données connues constituent dans ce cas une réalisation d’un échantillon, ensemble de variables aléatoires supposées indépendantes (voir Loi de probabilité à plusieurs variables). La théorie des probabilités permet alors, entre autres opérations :
• d’associer les propriétés de l’échantillon à celles qui sont prêtées à la loi de probabilité, inconnue en toute rigueur, c’est l’échantillonnage ;
• de déduire inversement les paramètres de la loi de probabilité des informations que donne l’échantillon, c’est l’estimation ;
• de déterminer un intervalle de confiance qui mesure la validité de l’estimation ;
• de procéder à des tests d’hypothèse, le plus utilisé étant le Test du χ² pour mesurer l’adéquation de la loi de probabilité choisie à l’échantillon utilisé ;
• etc.

Cours gratuitTélécharger le cours complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *