La méthode d’évaluation de toutes les régressions possibles
On considère l’ensemble de toutes les régressions possibles entre la variable endogène et les combinaisons des variables exogènes. La méthode consiste :
– A calculer les 2 régressions possibles – De répartir ces régressions en 1 groupes correspondant chacun à un nombre différent de variables explicatives, et pour chacun de ces groupes, de retenir comme critère, le meilleur , on obtient alors la répartition des pour chacun des groupes et la méthode consiste à retenir le le meilleur de tel sorte que les autres ne soit pas significativement différent de lui. Avec 10 variables explicatives, on obtient 1023 (2 1) régressions. Les statisticiens préfèrent les méthodes « pas à pas »
La régression pas à pas descendante
Cette procédure considère d’abord la régression complète puis élimine la variable qui correspond au le plus petit ou la variable qui accroît le moins le carré des résidus. Cette méthode et les suivantes possèdent des critères d’arrêts, sinon, elles se poursuivent jusqu’à élimination ou récupération de toutes les variables. Cette méthode est une méthode en 4 étapes :
– Estimation de la régression complète – Calcul des , pour chaque variables explicatives – On retient la valeur la plus petit du , on la note et on la compare à un pour un seuil choisi. Si correspond au on conserve la variable et a fortiori toutes les autres. Si est inférieur au , alors on élimine la variable – On recalcule la régression avec les 2 variables explicatives restantes, et on réitère l’algorithme à partir de la deuxième étape. S’il n’y a pas de critère d’arrêt, la méthode peut éliminer toutes les variables.
Sélection ascendante des variables explicatives
Méthode symétrique à la précédente, elle consiste à introduire pas à pas les variables explicatives. Les étapes de calculs sont donc les suivantes.
– Calcul des coefficients de corrélation simple entre et toutes les variables exogènes. On retient l’exogène qui a le plus fort coefficient de corrélation – On calcule le résidu de la régression précédente, puis les coefficients de corrélation avec les variables explicatives restantes. On sélectionne celle qui possède le plus fort coefficient de corrélation – chaque pas de l’algorithme, on peut calculer par exemple le coefficient de détermination du modèle correspondant. On peut aussi le . Cela permet de construire un critère d’arrêt, par exemple, la nouvelle variable introduite à un non significatif, ou encore, considérer un critère (par exemple 10 ) et si le du modèle n’est pas supérieur dans son accroissement à ce critère, l’algorithme s’arrête. Cette procédure est souvent utilisée, car, avec un critère d’arrêt, elle peut être très rapide. Mais cette procédure n’indique pas l’effet que peut produire l’introduction d’une nouvelle variable sur les variables antérieurement introduites.
La sélection progressive avec possibilité d’élimination
Cette procédure fonctionne comme la précédente mais à chaque pas elle s’interroge sur la signification de la variable précédente introduite. C’est donc une version améliorée de la régression pas à pas, ascendante ou progressive. Les étapes de calcul sont donc entièrement identiques au précédente et possède aussi un critère d’arrêt. La différence vient du fait qu’à partir du second pas (et au suivant ensuite) on teste la signification le coefficient de régression de la seconde et de la première variable. Si le coefficient de la seconde variable n’est pas significatif, on s’arrête à la première. Si le coefficient de la première variable n’est pas significatif alors que la seconde l’est, on élimine la première variable et la procédure se poursuit avec une troisième variable. Ces procédures sont commodes lors des études qui comportent beaucoup de variances explicatives mais elles peuvent être décevantes sur le plan du résultat. Cela tient de l’automaticité de la technique qui en effet sélectionne un ensemble de variable mais qui ne garantit pas qu’ils soient le meilleur, surtout sur un plan économique. Parmi toutes ces méthodes de sélection, y compris d’autres, rien ne permet d’affirmer que l’une d’entre elles est meilleure qu’une autre.