Réaliser une classification automatique d’un ensemble d’individus

Réaliser une classification automatique d’un ensemble d’individus

Application a des données phytoécologiques

Le but de cette session de Travaux Dirigés est de réaliser une classification automatique d’un ensemble d’individus (espèces ou relevés en phytoécologie) dans des groupes homogènes. Dans un premier temps, nous présenterons une méthode possible de classification, la Classification Ascendante Hiérarchique (CAH), algorithme largement utilisé en écologie. Ensuite, nous appliquerons cette méthode au cas de données phytoécologiques, ceci afin de créer des groupes d’espèces ou de relevés (exercice de typologie des stations).

On pourra utiliser les résultats obtenu par l’AFC sur le jeu de données des montagnes du Lomont pour illustrer la méthode de CAH. Classification : Faire k groupes « optimaux » dans un ensemble E à n éléments. Les différentes possibilités de constituer k groupes dans un ensemble de n individus sont des combinaisons appelées partitions de l’ensemble E. Définition d’une partition : tout éléments de E ne peut appartenir qu’à un seul groupe à la fois et chaque éléments appartient obligatoirement à un groupe, de sorte que la somme des éléments contenus dans les différents groupes d’une partition est égale à la totalité des éléments de E. Soit un ensemble E de 10 individus dont on veut extraire 4 groupes.

Le nombre total de combinaisons possibles de diviser E en 4 groupes différents peut être approché par la formule suivante :Très rapidement l’on atteint des chiffres astronomiques, on parle d’explosion combinatoire. Par exemple pour classer 85 espèces en 6 groupes, on compte 2.1063 possibilités. Il est impossible, même pour un ordinateur très puissant d’examiner l’ensemble des partitions possibles, de les comparer une à une, et d’en sélectionner la plus optimale suivant des critères prédéfinis. L’examen complet des possibilités étant impossible, il est nécessaire de passer par des méthodes sub-optimales de classification.

La CAH est une méthode de classification parmi d’autres et ne constitue donc pas la seule manière de classer des individus dans des groupes. Néanmoins il s’agit d’une méthode simple qui permet à partir d’un algorithme simplifié, d’étudier des distances entre individus et groupes. Comment mesurer la « distance » entre 2 groupes ? 1.2.2 Classification dans un espace métrique : choix d’une distance et d’un critère Une distance : Pour regrouper les individus les plus proches, il faut pouvoir connaître la distance qui sépare les différents individus entre eux, d’où la nécessité de choisir une distance. Par exemple en phytoécologie, on travaille avec une distance euclidienne sur les axes factoriels.

Un critère de choix : De manière intuitive, la meilleure façon de faire des groupes d’individus homogènes entre eux et bien différents d’un groupe à l’autre, c’est de faire des paquets d’individus en fonction des distances qui les séparent. C’est à dire minimiser les distances qui séparent les différents individus à l’intérieur d’un paquet tout en maximisant les distances qui séparent les individus appartenant à des paquets différents :On utilise le critère d’inertie comme une mesure de la dispersion des individus autour du centre de gravité G de l’ensemble E (inertie totale) ou bien autour du centre de gravité du groupe auquel ils appartiennent (inertie intra-groupe).

Plus l’inertie est faible, plus les individus sont ramassés autour du centre de gravité considéré. L’inertie totale de E est constante étant donné que les éléments constituant E ne bougent pas, tandis que l’inertie intra-groupe est variable au sein de chaque groupe à k fixé, suivant les partitions considérées de n éléments parmi k groupes. Le but sera donc de comparer ces différentes inerties intra-groupe pour chaque partition possible et de conserver la partition qui minimise l’inertie intra-groupe dans le maximum de groupes, ce qui équivaut à trouver la configuration des k groupes dans E qui maximise l’inertie inter-groupe (différence entre l’inertie totale et la somme, sur les groupes, des inerties intra-groupes).

Par conséquent, la CAH utilise les distances euclidiennnes et le critère de Ward, qui minimise l’inertie intra-groupe pour constituer des groupes d’individus homogènes entre eux. L’algorithme de la CAH est simple, il consiste à partir de la situation initiale où chaque individu de E constitue un groupe à lui tout seul, soit un total de n groupes. Par conséquent les conditions initiales en termes d’inertie sont les suivantes : Iintra = 0 Iinter = Itot Etape 1, n groupes : L’algorithme recherche les 2 individus les plus proches en terme de distance euclidienne pour former un premier couple, ce qui provoque une augmentation de l’inertie intra-groupe (augmentation la plus faible parmi l’ensemble des augmentations possible étant donné que l’algorithme à sélectionné les 2 individus les plus proches).

L’algorithme remplace les 2 individus par le couple placé au barycentre des 2 individus qui le compose, le nombre d’individus diminue (n-1). Etape 2, (n-1) groupes : L’algorithme recalcule les distances entre tous les individus (n-1). A nouveau, l’algorithme regroupe les 2 individus les plus proches en formant un nouveau couple ce qui provoque une nouvelle augmentation de l’inertie intra-groupe couplée d’une diminution du nombre d’individus (n-2).

 

Réaliser une classification automatique d’un ensemble d’individusTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *