Interprétation des résultats de l’ACP sur les Iris de Fisher à l’aide du logiciel R

Méthode mixte

La méthode mixte peut être vue comme une combinaison des deux premières méthodes. Elle procède par ajout d’une nouvelle variable, puis par élimination de variables précédemment introduites dans le modèle. Elle permet de prendre en compte le degré de significativité de toutes les variables à chaque étape de l’algorithme. Par exemple, une variable peut être la plus significative à une étape de l’algorithme et devenir non significative après introduction d’autres variables dans le modèle. Après l’introduction d’une nouvelle variable dans le modèle, la procédure mixte effectue un test de Student sur toutes les variables anciennement introduites. Ensuite, s’il y a des variables non singnificatives, alors on retire du modèle la variable la moins significative. Le processus s’arrête lorsque toutes les variables anciennement introduites sont significatives après l’introduction d’une nouvelle variable dans le modèle. Par conséquent, parmi ces trois méthodes de sélection présentées, la méthode mixte semble être la meilleure procédure.

Recherche des axes factoriels

Considérons n individus sur lesquels on a mesuré p variables quantitatives. Posons X = (Xl , X2 , .. . , X n)T et l: = Var (X ) : la matrice de variances-covariances. La première composante principale est donnée par : YI = u[ X = l:f=lUliXi, où Ul de norme 1 (u[ UI = 1) est choisi pour maximiser Var (Y1) = U[l:UI ‘ Le problème revient donc à maximiser la fonction suivante : où À est le multiplicateur de Lagrange. Sa solution s’obtient en dérivant par rapport à U11 , U12 , … , Ulp et À. On a IluI 11 = 1 car 8F~u;,>,) = -(U[UI – 1) = 1 – U[UI = O. 8F (UI, À) = (8F (UI’ À) 8F (Ul , À) 8F (UI’ À)) 8U1 8U11′ 8U12 ‘ … , 8UIp . Après avoir dérivé par rapport à UI, on aura : 8F~Ul ,À) = 2l:Ul – 2ÀUI = o. Ul Donc l:U1 = ÀUI. Donc Ul est un vecteur propre normé de l: et À est la valeur propre correspondante. De plus Var(Yd = U[l:U1 = Uf(ÀU1) = ÀU[ UI = À puisque u[ Ul = l. Ainsi À = À1 la plus grande valeur propre de l: est celle qui maximise Var (Yi). Chapitre 2. Extraction de caractéristiques 15 Le vecteur propre associé à la valeur propre )’1 est U1. La deuxième composante principale est donnée par 12 = ur X définie telle que: Var(12) = urI.:u2 est maximale, ur U2 = 1 et Cov(YJ. , Y2) = ufI.:U2 = o. On détermine donc le vecteur U2 qui maximise la fonction suivante : F(U2, À, 1/) = urI.:u2 – À(ur U1 – 1) – I/(ur U2 – 0). En effet, Cov(Y1 , 12) = Cov(uf X , ur X) Donc Cov(Y1, Y2) = UfI.:U2 = urI.:u1 = À1 ur U1 · , âF(U2 À v) 1 T 0 U2 est norme car â; , = – u 2 U2 = . Ul et U2 sont linéairement indépendants car On a: On a : Or Puisque Var(Y2 ) = urI.:u2 = ur ÀU2 = À , donc Var(Y2 ) est maximale si À = À2 qui représente la deuxième plus grande valeur propre de I.:. Ainsi, U2 est le vecteur propre normé correspondant. En maximisant successivement Var (Y) , on aura donc la kème composante principale Yk = ur X , où Uk est le vecteur propre normé associé à Àk . De façon générale, les composantes principales sont : Y=ATX , où La matrice A a pour colonnes les vecteurs propres de 2.: avec AT A = AAT = Ip, AT = A – 1. 2.:A = AA, où A = diag(À1 , À2’ . .. , Àp). 16 On a : Var (Y) = AT2.:A = A de telle sorte que Cov (Yi, Yj) = 0 si i =J j et Var (Yi) = Ài 2: Var(Yj) = Àj ssi i :::; j. En résumé, la recherche des axes factoriels consiste à diagonaliser la matrice de variances-covariances 2.:. Le kème axe factoriel correspond au kème vecteur propre associé à la kème plus grande valeur propre de 2.: , avec k = 1, 2, … ,p. Les données de départ sont reconstruites par la formule suivante: X = 2.:f=l A ViU? avec Vi = k,X Ui, k < p tel que (p – k) valeurs propres sont très petites.

Interprétation des résultats de l’ACP sur les Iris de Fisher à l’aide du logiciel R Puisque nous avons quatre variables actives, donc le nombre maximal d’axes factoriels possible sera quatre. Nous avons calculé les valeurs propres et leurs pourcentages d’inertie décrits dans le tableau 2.2. Les deux premiers axes factoriels contribuent respectivement à 72 ,96% et 22 ,85% de l’inertie, soit 95 ,81% au total. Autrement dit, ils restituent plus de 80% de l’information contenue dans le jeu de données. Ainsi, d’après le critère du taux d’inertie, nous pouvons retenir ces deux axes pour visualiser nos données. Le tableau 2.3 présente le cos2 des variables longueur du sépale, largeur du sépale, longueur du pétale et largeur du pétale. Les variables longueur du pétale, largeur du pétale et longueur du sépale sont respectivememt bien représentées sur l’axe 1. En effet , elles ont de fortes valeurs sur cet axe. Par contre sur l’axe 2, c’est la variable largeur du sépale qui est bien représentée. Le tableau 2.4 présente la contribution des variables longueur du sépale, largeur du sépale, longueur du pétale et largeur du pétale.

Si on se place sur les deux premiers axes factoriels, on constate que les variables longueur du pétale, largeur du pétale et longueur du sépale sont respectivememt les plus contributives à la formation du premier axe. En ce qui concerne le deuxième axe, c’est la variable largeur du sépale qui contribue le plus à sa formation, soit 85,25%. Par ailleurs, seule la longueur du sépale apporte une plus grande contribution à la formation du troisième axe, soit 51,78%. On note aussi que c’est la variable longueur du pétale qui contribue le plus à la formation de l’axe 4 (64,23%). La figure 2.1 illustre le cercle de corrélation de l’ACP appliquée sur les Iris de Fisher. L’analyse du cercle de corrélation montre que le premier axe factoriel est caractérisé par la longueur du pétale, la largeur du pétale et la longueur du sépale, tandis que le deuxième axe factoriel est caractérisé par la largeur du sépale. Ce qui confirme les constats précédents

Architecture

On peut décomposer un autoencodeur en deux parties, à savoir un encodeur, je, suivi d’un décodeur, 91/; ‘ L’encodeur permet de calculer le code Zj = je(Xi) pour chaque échantillon d’apprentissage en entrée (Xij), avec i allant de 1 jusqu’à n, n étant le nombre de lignes et j allant de 1 jusqu’à p , p étant le nombre de colonnes. Le décodeur vise à reconstituer l’entrée à partir du code Zi : Xi = 91/; (Zi ). Les paramètres de l’encodeur et du décodeur sont appris simultanément pendant la tâche de reconstruction, tout en minimisant la fonction objectif: n n n JAE(f), ‘ljJ) = L L(Xi, 91/; (fe(Xi)) = L L(Xi, 91/; (Zi )) = L L(Xi , Xi)· i= l i=l i = l L étant une fonction de coût permettant de mesurer la divergence entre l’échantillon d’apprentissage en entrée et les données reconstruites. je et 91/; sont des fonctions de transition : je : X —-t F 91/; : F —-t X où X et F sont respectivement les ensembles d’entrée et de sortie de l’encodeur ; fo, g’lj; = arg min Ilx – (foog’lj; )(x)112 où (foog’lj; )(x) = fo[glj> (x)] pour tout x E X ; O,’Ij; Dans le cas où il n’y a qu’une seule couche cachée, l’étape d’encodage prend l’entrée x E lRP = X et l’associe à z E lRk = F , p ~ k : z = fo( vVx + b) où z est généralement appelé code, variable latente ou représentation latente, e est une fonction d’activation (e.g., sigmoïde, ReLU … ), West une matrice de poids du réseau de neurones et b un vecteur de biais. Ensuite, l’étape de décodage associe z à la reconstruction x de forme identique à x : x = g’lj; (W’z + b’) où W’ et b’ pouvant être différents ou non de W et b de l’encodeur, selon la conception de l’autoencodeur.

La figure 4.8 illustre l’architecture d’un autoencodeur. L’encodeur représente la partie du réseau qui compresse l’entrée dans un espace latent représentant la couche code. Le code est la couche cachée qui est généralement représentée sous forme compressée dans une dimension réduite. Il constitue aussi l’entrée alimentée du décodeur. Le décodeur est la partie du réseau qui tente de reconstruire l’entrée à partir de l’espace latent. Exemple : Soit une entrée X sous forme d’une image en noir et blanc d’un chiffre manuscrit de dimension 28 par 28 soit 784 pixels. Chaque pixel est représenté par O(noir) ou l (blanc). L’encodeur procède au codage des données qui sont en 784 dimensions dans un espace de représentation latent Z de dimension plus petite. C’est ce qu’on appelle goulot d’étranglement. En effet, l’encodeur doit apprendre une compression efficace des données dans ce petit espace. Le décodeur prend pour entrée la représentation Z et sort les paramètres de la probabilité de distribution des données et le biais b en cours d’exécution. La probabilité de la distribution d’un seul pixel peut être représentée par exemple à l’aide d’une loi de Bernoulli. La distribution du décodeur obtient en entrée une représentation latente du chiffre et en sortie 784 paramètres de Bernoulli pour chacun des 784 pixels dans l’image représentée dans Z. Une partie de l’information est perdue en ce sens qu’on part d’un espace de petite dimension vers un espace de grande dimension.

Table des matières

Avant-propos
Table des matières
Liste des tableaux
Liste des figures
Introduction
1 Réduction de dimensionnalité
1 Sélection de caractéristiques
1.1 Méthodes de régression pas à pas
1.1.1 Méthode ascendante
1.1.2 Méthode descendante.
1. 1.3 Méthode mixte
1.2 Exemple pratique avec la méthode mixte
2 Extraction de caractéristiques
2.1 Analyse en composantes principales
2.1.1 Reèherchedes axes factoriels.
2.1.2 Aides à l’interprétation
2.1.3 Mise en éléments supplémentaires de variables
2.1.4 Règles pour retenir les axes
2.2 Exemple pratique en Analyse en Composantes Principales
2.2.1 Interprétation des résultats de l’ACP sur les Iris de Fisher à l’aide du logiciel R
2.2.2 Mise en éléments supplémentaires
3 Positionnement multidimensionnel
3.1 Méthode classique
3.2 Méthode non métrique
3.3 Exemple pratique sur le positionnement multidimensionnel
3.3.1 Application de la méthode classique
3.3.2 Application de la méthode non métrique
II Réseaux de neurones artificiels et Autoencodeur. Etude comparative entre l’ACP et l’autoencodeur
4 Réseaux de neurones artificiels et autoencodeur
4.1 Généralités sur les réseaux de neurones artificiels.
4.1.1 Définition
4. 1.2 Fonction d’activation
4. 1.3 Descente du gradient
4.2 Autoencodeur
4.2.1 Définition
4.2.2Architecture
4.2.3Lien avec l’ACP
4.2.4Paramètres à définir pour entraîner un autoencodeur
4.2.5Types d’auto encodeurs
4.2.6Application de l’autoencodeuraux Iris de Fisher.
5 Etude comparative de l’ACP et de l’Autoencodeur
5.1 Mise en oeuvreà l’aide des données « Wine»
5.1.1 Présentation des données et de la démarche utilisée
5. 1.2 Présentation des résultats
5.2 Mise en oeuvre à l’aide des données « Mnist»
5.2.1 Présentation des données et de la démarche utilisée
5.2.2 Présentation des résultats
Conclusion et perspectives
Références bibliographiques
Bibliographie
A Régression pas à pas sur le jeu de données Swiss avec Rstudio
B Application de l’ACP sur les Iris de Fisher avec Rstudio
C Positionnement multidimmensionnelavec RStudiosur 10 villesQc
D Application de l’autoencodeursur les Iris de Fisher avec Python
E L’ACP et l’Autoencodeuravec Rstudio : Données Wine
F L’ACP et l’Autoencodeur avec Rstudio : Données Mnist

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *