Le nuage de régression permet de connaître l’information concernant les individus du tableau. Par exemple, on visualise le point 1 proche du point 5 et le point 1 loin du point 2. Il est possible aussi de quantifier cette information en calculant toutes les distances au carré (théorème de Pythagore) entre les paires de points et de les classer par ordre croissant.
Le graphe de régression montre que le nuage de point est inséré dans une ellipse aux bords aplatis , ce qui signifie que ce nuage peut être résumé au moyen d’une droite de régression. Cette observation est confirmée par le calcul du coefficient de corrélation 99.0r = , ce qui signifie qu’il existe une relation étroite et positive entre X et Y. Il est donc possible de substituer au nuage de régression, la droite 71.2X17.2Yˆ
−= ou encore la droite sur variables centrées x17.2yˆ = qui a pour origine le point )Y,X(G . (Cf le tableau précédent pour le détail des calculs)
On peut donc calculer les projections au sens des moindre carrés (parallèlement à l’axe des ordonnées) des 5 points sur la droite de régression.
Par conséquent, l’information concernant les 5 points sur l’axe Yˆ est conservée par rapport à celle du nuage de régression. On peut donc dire que l’analyse de données a eu lieu puisque l’information est pratiquement identique sur l’axe que dans le plan.
On peut aussi résumer l’information contenue dans le nuage de points en utilisant non pas les projections sur la droite de régression des points au sens des MCO, mais leurs projections orthogonales sur cette même droite, en conservant pour origine de l’axe, le point G et en construisant un vecteur unitaire dont on connaît les coordonnées dans l’espace R² ; les projections orthogonales des 5 points sur cette droite dont données par le produit scalaire entre le vecteur unitaire et un vecteur qui a pour origine le point G et pour extrémité le point à projeter. On pourrait constater que, dans ce cas aussi, la distance au carré par exemple entre le point 1 et le point 5 projetés est approximativement identique à celle du plan entre les mêmes points. L’analyse de données est donc encore réalisable en procédant de la sorte.
L’analyse en composantes principales cours et exercices (288 KO) (Cours PDF)