Modélisation statistique analyse de variance et de covariance

Cours modélisation statistique analyse de variance et de covariance , tutoriel & guide de travaux pratiques en pdf.

Régression linéaire simple

Simulation
Cet exercice est à réaliser sous R.
On considère dans cet exercice le modèle de régression simple suivant
y_i = β₀ + β₁x_i + ǫ_i i = 1, . . . , n
avec ǫ_i ∼ N(0, σ² ). On choisit β₀ = 3 et β₁ = 2. Les x_i sont supposés être répartis uniformément sur l’intervalle [0, 1].

Simuler les couples (x_i , y_i)_i_=1,…,n pour une taille d’échantillonn = 10 et une variance résiduelleσ² = 1. Stocker vos résultats dans deux vecteursX et Y.
Dans l’écriture matricielle du modèle de régressionY = Xβ + ǫ avec β = (β₀, β₁), comment est définie la matrice X ? Construisez-la à partir de votre vecteur X.

(iii) Nous avons vu en cours que le meilleur estimateur de β étaitβˆ = (X′X)−1 X′Y. Calculer cet estimateur.
Que pensez-vous de vos résultats ? Recommencez la simulation et l’estimation plusieurs fois.
Indication : la fonction solve(A) sous R permet de calculer l’inverse de la matrice A.

Représentez graphiquement le nuage de point (fonctionplot) ainsi que la droite de régression (avec la fonction lines puis avec la fonction abline).
Estimer la variance résiduelleσ² .
Calculer un intervalle de confiance sur β₀ et β₁, de niveau 95%.
Créer une fonctionmylm(x,y,plot,alpha), qui pour un vecteur x et y effectue la régression dey sur x. La fonction devra retourner les estimations des coefficien ts β₀ et β₁, des intervalles de confiance sur ces derniers de niveau alpha, l’estimation de la variance résiduelle, ainsi qu’une représentation graphique du nuage de point et de la régression lorsque l’optionplot est à TRUE.
Recommencer avec une taille d’échantillon de 100, 1000.
Retrouvez vos résultats avec la fonctionlm de R : res=lm(y∼x)

summary(res)
Explorer toutes les informations que contient le résultat d’une procédurelm à l’aide de la fonction str : str(res)

Revenus immobiliers
Cet exercice est à réaliser sous SAS.
Le fichier immeublesUSA.dat contient pour 47 immeubles d’appartements locatifs d’une grande ville améri-caine, le revenu net en fonction du nombre d’appartements (Jobson, 1991). L’objectif est de modéliser le revenu net des immeubles (première colonne) en fonction du nombre d’appartements (seconde colonne), par une régression linéaire.

Analyse préliminaire

Représenter graphiquement les variables (histogramme, boxplot), et donner une estimation de la densité par la méthode du noyau.
Les variables vous semblent-elles gaussiennes ?
Refaire la même chose en transformant les variables (log et racine). Quelles variables choisir pour notre régression linéaire ?

Première modélisation On considère le modèlerevenu = β₀ + β₁ nb_appart.

Estimer les paramètres du modèle.
Représenter le nuage de points ainsi que la droite de régression.
Effectuer des tests de significativité des paramètres.
Calculer les résidus studentisés ainsi que la distancede Cook. Quel est votre diagnostic ?

Seconde modélisation
On considère le modèlelog(revenu) = β₀ + β₁log(nb_appart).

Estimer les paramètres du modèle.
Représenter le nuage de points ainsi que la droite de régression.
Effectuer des tests de significativité des paramètres.
Calculer les résidus studentisés ainsi que la distancede Cook. Quel est votre diagnostic ?
Comparer la qualité d’ajustement des deux modèles, et conclure.

Tests sur le modèle linéaire
Comme pour le modèle linéaire simple, les hypothèses de régression linéaire doivent être vérifiées (normalité des variables ou des résidus, non corrélation des résidus,omoscédasticitéh des résidus). La démarche est identique celle de la régression simple (paragraphe 4.1). Nous nous plaçons dans le cadre des hypothèses fortes.

Sélection de variables et choix de modèle
Parmi l’ensemble des p variables disponibles, toutes n’ont pas nécessairement unintérêt dans la modélisation de Y , et il peut alors être néfaste de les utiliser. De plus, il estpossible d’hésiter entre l’utilisation d’une variable X_j ou une certaine transformation de cette variable (ln X_j ,X_j²…). Nous sommes alors en présence de différents modèles possibles parmi lesquels il faut faire un choix.
Un modèle:

trop peu complexe (pas assez de variables) aura un biais for t (et une variance faible),
trop complexe (trop de variables) aura une variance forte ( et un biais faible), tout l’intérêt étant d’avoir un modèle ayant unM EQM le plus faible possible, c’est-à-dire réalisant le meilleur compromis biais/variance possible.

Malheureusement ce critère théorique n’est pas calcul ableen pratique (h(X ) inconnue) et des critères approximatifs doivent être utilisés.

Critères de comparaison de modèle

Remarque. La sélection de variables par tests d’hypothèses (paragraphe 2.3.1) n’est pas pertinente pour deux raisons : le grand nombre de tests à effectuer rend peu puissante la stratégie globale, et cette stratégie n’est applicable que pour comparer des modèles emboités (l’ensemble des variables d’un modèle doit être inclus dans celui de l’autre).
Remarque. Lorsque l’échantillon dont on dispose est de très grande taille, une façon simple d’évaluer la qualité d’un modèle, et donc de choisir parmi plusieurs modèles candidats, est de séparer l’échantillon global en une partie apprentissage (2/3 de l’échantillon global) et une partie test (le1/3 restant) servant à l’évaluation (par calcul de la somme des carrés des erreurs par exemple). Malheureusement, les échantillons sont souvent de tailles réduites, et ce procédé n’est pas toujours applicable.
Nous présentons ci-après plusieurs critères évaluant la qualité d’un modèle utilisantd variables parmi les p disponibles (d ≤ p)

Limitation du coefficient de détermination R²
Le coefficient de détermination est une fonction croissante de la complexité du modèle. Il conduira donc toujours choisir le modèle qui épouse le mieux les données, autremendit le modèle le plus complexe. Son utilisation n’est donc pas recommandée sauf dans le cas de modèle à nombres de variables identiques.

1 Régression linéaire simple
1.1 Le modèle théorique
1.2 Le modèle statistique
1.3 Estimation des paramètres
1.4 Tests sur le modèle de régression linéaire
1.5 Prédiction
1.6 Détection d’observations atypiques
1.7 TP 1 : Régression linéaire simple
2 Régression linéaire multiple
2.1 Le modèle
2.2 Estimation des paramètres du modèle
2.3 Tests sur le modèle linéaire
2.4 Prédiction
2.5 Sélection de variables et choix de modèle
2.6 Multicolinéarité des variables
2.7 TP 2 : Régression linéaire multiple
3 Analyse de variance et de covariance
3.1 Analyse de variance à un facteur
3.2 Graphiques préliminaires
3.3 Analyse de variance à deux facteurs
3.4 Problèmes spécifiques
3.5 Analyse de covariance
3.6 TP 3 : Analyse de variance et de covariance
3.7 Un exemple d’application de l’ANOVA et l’ANCOVA
4 Régression logistique
4.1 Le modèle logistique dichotomique (K=2)
4.2 Estimation des paramètres et prédiction
4.3 Tests, intervalles de confiance et choix de modèle
4.4 Un outil d’interprétation : la courbe ROC
4.5 Le modèle logistique polytomique (K>2) et ordinal
4.6 TP 4 : Régression logistique
5 Analyse discriminante probabiliste
5.1 Formalisme de la discrimination probabiliste
5.2 Discrimination paramétrique gaussienne
5.3 Analyse discriminante pour variables qualitatives
5.4 Mise en oeuvre informatique
5.5 TP 5 : Analyse discriminante probabiliste
6 Annexes