L’ACP DE DONNEES DE TYPE INTERVALLE
L’ACP classique traite des tableaux de données de la forme I × J où I représente l’ensemble des objets et J celui des variables. La case du tableau, croisement de la ième ligne et de la jème colonne, contient la valeur observée xij supposée unique, de la jème variable quantitative pour le ième objet.xij sont respectivement, la plus petite et la pluls grande valeur observée, de la jème variable pour le ième objet.
Données du Problème et Ob jectif :
Classiquement, étant donné un ensemble d’objets décrits chacun par un vec- teur (xi1, …, xin), l’objectif de toute méthode de réduction de dimension en particulier, l’ACP es de réduire le nombre de variables descriptives, tout en préservant la « structure de distribution » des objets [chapitre 1].Soient Y1, …, Yp (p < n) les nouvelles variables descriptives obtenues après réduction : chaque objet Si sera décrit par un vecteur (yi1, …, yip) dans un espace de dimension plus faible.De façon similaire, partant d’un ensemble d’objets Si caractérisés chacun par un n-uple ([xi1, ¯xin]), l’objectif est de pouvoir décrire cesobjets par un nombre restreint de variables nouvelles. Ces variables nouvelles devront non seulement préserver la structure de distribution des objets mais également conserver l’information de variation ou d’imprécision apportée par les variables de départ. Il sagit en fait de décrire la structure de distribution des Si dans un espace de dimension faible défini par des variables de type intervalle Y1, …, Yp (p < n) ; chaque objet Si sera alors décrit par un p-uplexn]), cet objet peut- être visualisé dans l’espace de description, par un hypercube a 2n sommets. La longueur des côtés de l’hypercube est donnée par l’étendue des intervalles associés à chaque variable de description.
Algorithme de la méthode des sommets
Chaque objet Si est décrit par une matrice de données numériquessommets des hypercubes associés.2 – Puis on construit une nouvelle matrice M à 2n ×m lignes et n colonnesDe plus, à chacune des lignes de M (i.e à chaque sommet), on attribue un poids, à savoir pi/2n ; s’il s’agit d’une ligne de la sous matrice Mi de M , on donne ainsi la même importance à chacun des 2n sommets associés à Si.Soient Y1, Y2, …, Yp (p ≤ n) les p premières composantes principales (à valeurs numériques) issues de cette ACP et λ1, …, λp les valeurs propres as- sociées.p à partir des composantes numériques Y1, …, Yp. Soit LS, la valeur de la jème composante principalenumérique Yj associée au somme de l’objet Si correspondant à la kème lignej pour l’objet Si est alors yI• Explication des étapes de l’algorithme précédent 1 – Chaque objet Si = ([xi1, ¯xin]) est décrit par une matrice de données numériques Mi à 2n lignes et n colonnes• Qualité de Représentation des individusComme nous l’avons vu au 1er chapitre. La représentation du nuage N (I) = {(Xk, pk); k = 1, …, m.2n} ⊂ Rn dans le sous-espace factoriel, de dimen-sion p, Ep en donne une image approximative. La qualité globale de cette représentation est mesurée par le pourcentage d’inertie pris en compte parλ1 + λ2 + … + λp Ep =× 100. tr(VS).
• Paramétres d’aide à l’interprétation
Avant de préciser ces paramètres, nous présentons maintenant les notions qu’ils utilisent :Maintenant, les paramètrs d’interprétation se généralisent très naturelle- ment : Pour mesurer la qualité de la représentation de l’objet Si sur l’axe factoriel ∆uj de direction uj, on peut proposer :- ou bien la formule qui correspond à la moyenne des cosinus carrés des angles entre chacun des 2n sommets k de LSvariables descriptives est élevé. Nous proposons une nouvelle approche qui se base pour la détermination des axes factoriels sur l’information apportée par les centres d’hypercubes. Les intervalles de variation des composantes principales seront déterminés à partir des variations des variables de départ. On considère ici la matrice des centres d’hypercubes donnée en 1.3 – Déduire pour chaque objet les intervalles de variation sur les axes fac-ik la coordonnée (numérique) sur le kième axe principal du point Ci (centre de l’hypercube associé à l’objet Si) de coordonnées (xcu est la moyenne de la variable XcEn utilisant la formule (19) on obtient que les coordonnées du point Ci (centre de l’hypercube associé à l’objet Si) dans l’espace constitué par les axes fac- toriels obtenu après avoir appliqué l’ACP classique sur la matrice Sc, sontik (coordonnée du point xr. Sur l’axe factoriel k) quand les variables .