Cours d’initiation aux statistiques

Cours d’initiation aux statistiques

L’étymologie ne nous apprend pas grand chose : « status »… Utilisées dans le passé pour la collecte des impôts par les états, les Stats prennent une importance majeure dans la recherche moderne. Ex : en 1987, la FDA donne le feu vert pour la mise sur le marché de l’AZT en un temps record de 21 mois de recherche clinique (au lieu des ~9 ans habituels) étant donné la situation dramatique des victimes du SIDA. L’AZT avait des effets secondaires mais la preuve statistique d’une réduction du nombre de morts justifiait son utilisation. On peut distinguer 2 sortes de Stats : 1) Stats descriptives : il s’agit d’organiser et résumer des observations. On ne fait pas de comparaisons et on s’intéresse en général à un seul groupe, échantillon ou population. 2) Stats inférentielles (ou inductives) : on peut ici viser 2 buts : a) Déduire les propriétés d’une population à partir de l’étude d’un échantillon. C’est par ex le principe des sondages. Il est important que l’échantillonnage soit fait au hasard (random). On met ici le doigt sur la notion de variabilité, principe inhérent à tout phénomène biologique. b) Comparer 2 ou plusieurs populations ou échantillons ; si une différence existe, on se demandera si cette différence est due à la variabilité (hasard), ou à un facteur différenciant les groupes étudiés.

Un troisième type de Stats à la charnière entre S descriptives et inférentielles a trait aux notions de corrélation et prédiction (voir chapitre concerné). Dans toute démarche utilisant les Stats, il convient d’abord de poser une question « de recherche » (ex. AZT freine-t’elle la léthalité du SIDA ?), laquelle est différente de la question statistique où ce qui est traité, ce sont des données numériques. Les Stats font partie du plan (design) expérimental généré par la question de recherche. Ce plan fait en général intervenir 4 types de paramètres : 1) La variable indépendante : il s’agit du X, ex. le stimulus dans une étude stimulus-réponse ; exx. influence du stress dans un test de labyrinthe. 2) La variable dépendante : c’est Y, ce que l’on mesure, la réponse, le nombre de bons (ou mauvais) choix dans le labyrinthe. 3) Le ou les facteurs sujets d’étude : ex. effet d’un tranquillisant sur les relations entre stress et performance dans le labyrinthe. 4) Variables parasites : ex. coton autour du muscle en TP de LSV2 ; influence du cycle jour/nuit sur un dosage hormonal. Il faut faire en sorte que les variables parasites soient les mêmes pour tous les groupes. Après un test, on tire une conclusion statistique d’ordre quantitatif (ex. il y a 5% de chances que tel résultat soit dû au hasard). Il ne s’agit pas d’une estimation qualitative : on ne peut pas dire par ex. que les groupes A et B sont différents. Après exécution du plan expérimental, lequel comprend plusieurs tests (parfois un grand nombre), on peut espérer atteindre à une conclusion « de recherche » d’ordre qualitatif.

Les Stats mentent-elles ? En dehors de la manipulation délibérée, la possibilité existe de faire des erreurs de « design », par ex en ne contrôlant pas certaines variables parasites ou en effectuant inconsciemment un échantillonnage non-aléatoire. D’autre part, la quasi-totalité des résultats publiés dans les journaux scientifiques sont des résultats « positifs » obtenus en général avec un seuil de significativité (significance) de 0,05. Cela signifie que si 20 équipes travaillent sur le même sujet de recherche, dont 19 ne trouvent pas de résultat positif, il existe 1/20 chances qu’un résultat « faux » soit publié… ! (ex des plannaires et des engrammes). Les erreurs d’échantillonnage sont les plus communes, particulièrement en rapport avec la taille. Une trop petite ou trop grande taille d’échantillon peut amener à des conclusions statistiques qui faussent la conclusion de recherche.

Pour avoir un coup d’œil d’ensemble sur un grand nombre de données, on peut les représenter en distributions de fréquences, dont une forme commune est l’histogramme de fréquence. Dans ce dernier, le rapport de l’aire de chaque barre sur l’aire totale de l’histogramme donne la fréquence de l’intervalle par rapport au nombre total de cas dans la distribution. Un intervalle adéquat peut se calculer à partir de la formule de Sturge : 1+(3,3 log10 n) ; ou de Yule : 2,5 .l’échantillon. NB : i) ) = 0. ii) La moyenne est sensible aux extrêmes de la distribution. iii) Est utilisée pour les tests statistiques si la distribution est normale car c’est le paramètre qui varie le moins d’un échantillon à l’autre. Dans une distribution asymétrique, la médiane est la meilleure représentation de la tendance centrale. iv) Dans une distribution symétrique, le mode, la médiane et la moyenne ont la même valeur. d)

 

initiation aux statistiquesTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *