ANALYSE EN COMPOSANTES PRINCIPALES DES SOMMETS

ANALYSE EN COMPOSANTES PRINCIPALES DES SOMMETS

L’extension des ACP aux données d’intervalles a été proposée par Carlo N Lauro et francesco Palumbo sur «ACP des Sommets» en 2000. En fait l’Analyse en Composantes Principales des Sommets consiste à ex écuter l’ACP classique sur la matrice normalisée Z. . De nos jours l’analyse de données symboliques est basée sur des traitements numériques d’objets symboliques convenablement codés suivant une interprétation symbolique des résultats ou des méthodes qui traitent directement les descripteurs symboliques. Dans cette dynamique, Lauro et Palembo ont pr ésenté le premier cadre d’approche permettant d’analyser les objets symboliques décrits seulement par des variables quantitatives d’intervalles.

ACP de la matrice normalisée Z [2]

Dans cette partie nous allons rechercher un sous -espace approprié pour représenter ledes N objets symboliques. En tenant compte des conclusions relatives à la démarche de l’ACP sur une matrice de données quantitatives nous allons directement procéder à la diagonalisation de la matrice de Les remarques 1 et 2 nous permettent de construire les projections des nuages N(I) et N (J) sur les axes principaux respectifs i sur l’axe générique m est donné par le segment contenant toutes les projections des sommets. Adoptant le même critère dans un espace bidimensionnel formé par les axes m et m’ alors les projections extrêmes des sommets vont définir un rectangle appelé MCAR. Par conséquent si la représentation MCAR des objets symboliques est faite dans le plan alors on aurait des hypercubes associés à chaque objet symbolique mais souvent . Afin de surmonter inconvénient, Lauro et Palembo ont proposé de réduire les représentations, les sommets ayant une très bonne qualité de représentation.

Application de la méthodologie de l’ACP des sommets sur un tableau de données d’huiles

Dans cette partie nous traitons une illustration concrète de la méthodologie proposée sur un ensemble réel de données . Nous prenons un ensemble de données d’huiles (ICHINO,1998) représenté dans le tableau ci- dessous ,en grande partie utilisé dans les applications d’Analyses de Données Symboliques où les caractéristiques sont bien connues par les chercheurs de ce domaine.,décrites par quatre variables quantitatives d’intervalles: Y1 = «densité» ; Y2 = «point de congélation» ; Y3 = «valeur d’iode» et Y4 = «saponification» Dans la suite, nous nous limitons à la représentation graphique des résultats de la méthode proposée dans ce mémoire (ACPS). Dans la figure suivante, nous montrons les résultats réalisés par l’ACPS en considérant les deux premiers axes (premier plan). Notons que 88,4 % de toute l’inertie est expliquée par les deux premiers axes. Notons que 88.4% de toute l’inertie est expliquée par les deux premiers axes . Dans la figure, la proximité entre les MCAR est principalement indiquée par les OS influencés par les mêmes descripteurs. Nous ne pouvons donner aucune interprétation sur la similitude entre les MCAR relativement à la taille et la forme. Comme points supplémentaires nous avons aussi représenté les variables, même si elles étaient représentées dans l’espace RN.

La question qui a donné naissance à l’ACP est: comment avoir une intuition rapide des effets conjoints? En dimension plus grande que deux, une ACP va toujours déterminer les axes (si on est en dimension 256, i l y a ura 256 a xes à déterminer) qui expliquent le mieux la dispersion du nuage de points disponibles (de la photographie de ces points). Elle va aussi les ordonner par l’inertie expliquée (dans l’image l’homme au pistolet à gauche, l’axe expliquant le plus d’inertie est l’axe vertical). Si on décide de retenir que les deux premiers axes de l’ACP, on pourra alors projeter notre nuage de dimension 256 sur un plan, et le visualiser. sont un meilleur choix du point de vue de l’inertie expliquée. L’ACP a p our but de comprendre et de visualiser comment les effets de phénomènes a priori isolés se combinent. Lorsque l’on ne considère que deux effets, il est usuel de caractériser leurs effets conjoints via le coefficient de corrélation ( son seul défaut est de ne prendre en compte que des effets conjoints linéaires, ce qui se r emarque en regardant les coefficients d’une régression linéaire).Lorsqu’on se place en dimension deux, les points représentés sur un plan. Le résultat d’une ACP sur ce plan est de déterminer les deux axes qui expliquent le mieux la dispersion des points disponibles. Les figures ci-dessous représentent ces deux axes si on p rend comme points ceux d’une photographie.

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *