Proc REG – SAS / Insight

Proc REG – SAS / Insight

Proc REG

Modèle :  pour  observations et  descripteurs, la proc REG de SAS traite le modèle de régression :où    désigne le vecteur dépendant ;  la matrice des  descripteurs ;  le terme d’erreur ;
et les paramètres du modèle que l’on souhaite estimer. Le modèle s’écrit aussi sous la forme matricielle : (cf page 262) et par la méthode des moindres carrés ordinaires, nous obtenons un estimateur sans biais et de variance minimale pour  : La syntaxe de la proc REG est donnée dans la séance n°2. On pourra trouver un résumé dans l’annexe 1 page 342 ; pour prolonger notre étude, nous décrivons les sorties et nous donnons quelques options liées à la procédure :

  • SORTIES 

Lisez ce qui suit, un exemple simple permettra ensuite de se familiariser avec toutes ces notions.

  1. Table d’analyse de la variance

 

  • DF : degrés de liberté associés au modèle et à l’erreur ;
  • Sum of Squares (SS) ; Traduction : SCE, Somme des carrés des écarts.
  • MSE : Mean Square Error (cf page 233)
  • Mean Square (MS) :  ;
  • F Value : valeur de la statistique de Fisher du test du modèle où tous les coefficients sont nuls contre le modèle complet de régression ;
  • Prob>F : probabilité que la valeur d’une statistique suivant la loi de Fisher dépasse la valeur du « F Value » ;
  • Root MSE : estimation de ,  ;
  • Dep Mean : valeur de ;
  • V. : coefficient de variation,  ;
  • R-Square : part de la variance expliquée par le modèle, ;
  • Adj R-Sq : estimation sans biais de R2,

Estimation des paramètres

  • INTERCEP : paramètre Intercept ;
  • Parameter Estimate : estimateur du vecteur ,  ;
  • Standard Error : estimation de l’écart type de l’erreur ;
  • T for H0: Parameter=0 : test de Student de nullité du coefficient ;
  • Prob>|T| : probabilité que la valeur d’une statistique suivant la loi de Student dépasse T en valeur absolue ;
  • OPTIONS liées à l’instruction MODEL :
  • COVB : matrice des variances et covariances des estimateurs de ;
  • CP : la valeur prise par le « Cp » de Mallows ;
  • P : les valeurs prédites ;
  • R : pour obtenir une analyse des résidus ;
  • DW : pour calculer la statistique de test de Durbin-Watson ;
  • TOL, VIF : colinéarité d’un descripteur vis à vis des autres ;
  • Influence : analyse détaillée de l’influence de chaque observation sur les valeurs estimées et prédites.

Sélection des descripteurs.    En particulier, la proc REG offre des possibilités supplémentaires en ce qui concerne le choix automatique des descripteurs et la recherche de corrélations en termes d’erreurs.

  • SELECTION = < méthode >; pour sélectionner les descripteurs du modèle où méthode peut prendre les valeurs suivantes :
  • stepwise pour une sélection progressive (« pas à pas ») des descripteurs ;
  • forward pour une sélection ascendante ;
  • backward pour une élimination descendante…
  • rsquare calcule tous les modèles possibles avec   On peut aussi se restreindre à la recherche du meilleur modèle à 1 puis 2 puis 3, …, puis  descripteurs au sens du critère du Cp de Mallows à l’aide de l’option                                 selection=rsquare best=1 cp;. À  fixé, on choisira le modèle qui donne le plus grand R2.

Étude des résidus

 L’étude des résidus est une étape essentielle pour valider un modèle. En effet, les résidus sont des estimateurs des termes d’erreur qui doivent vérifier les hypothèses sous-jacentes au modèle : indépendance, moyenne nulle, variance constante (critère d’homoscédasticité) et éventuellement de distribution Gaussienne. Pour ce faire, la proc UNIVARIATE calcule la moyenne ; et apporte des tests de normalité avec l’option NORMAL : Shapiro-Wilk, Kolmogorov-Smirnov, Cramér-von Mises, Anderson-Darling ou encore la « droite de Henri ». Une étude du graphe des résidus par rapport aux valeurs prédites de la variable dépendante ne doit laisser apparaître aucune tendance. L’option DW de la proc REG fournit la valeur de la statistique de Durbin-Watson pour tester l’autocorrélation des résidus. Pour le critère d’homoscédasticité, l’option SPEC de la proc REG produit un test du Chi2. L’étude des résidus permet aussi de repérer d’éventuelles observations « aberrantes » ou des observations qui jouent un rôle important dans la détermination de la régression.

Sauvegarde des résultats
Il est possible de conserver dans une table SAS certains résultats de l’analyse tels que, par exemple, les résidus (residual ou R) et les valeurs prédites de la variable dépendante Y (predicted ou P). Pour cela, nous ajoutons après la définition du modèle la ligne :OUTPUT OUT = < nom_tab > R = < nom_var1 > P = < nom_var2 >;
Exemple
DATA tension;

INPUT age tension;

CARDS;
35  114
45  124
55  143
65  158
75  166
;

RUN;
PROC REG DATA=tension CORR SIMPLE OUTEST=estcoeff;
MODEL tension = age / SPEC DW R CLI;
PLOT tension*age p.*age / overlay symbol = ‘.’;
OUTPUT OUT=sorties P=P R=R;
RUN;
QUIT;

La commande « OUTEST= » permet de créer une table SAS qui conserve les valeurs estimées des coefficients de la régression. L’option CLI donne un intervalle de confiance à 95% pour chacune des valeurs prédites de la variable dépendante. La seconde ligne de la proc REG définit la modélisation souhaitée. Dans la troisième ligne, nous proposons aussi un graphique qui superpose le nuage de points et la droite d’ajustement.

Exercice  Exécuter le programme ci-dessus et observer les sorties.
Essayez en rajoutant la ligne suivante :
PLOT rstudent.*obs. / vref= –1.714 1.714 cvref=blue lvref=1
href= 0 to 30 by 5 chref=red  cframe=ligr;

Cours gratuitTélécharger le cours complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *