Clustering prédictif du premier type
Prédictives afin de comparer sa performance avec d’autres algorithmes de la littérature. Ce chapitre est divisé en deux grandes parties. La première partie est consacrée au premier type du clustering prédictif (voir Section 6.2). Pour ce type d’algorithmes, l’axe de prédiction est privilégié. Dans ce cadre d’étude, afin d’atteindre notre objectif, nous allons comparer les performances prédictives de l’algorithme des K-moyennes prédictives avec celles obtenues par les algorithmes les plus répandus dans la littérature. La deuxième partie de ce chapitre est consacrée au deuxième type du clustering prédictif (voir Section 6.3). Pour ce type d’algorithmes, aucun axe n’est pri- vilégié par rapport à l’autre. Il s’agit ici de réaliser un bon compromis entre la description et la prédiction sous la contrainte d’interprétation des résultats. Dans cette partie expérimentale, on cherche à connaître, pour un jeu de données illustratif, la capacité de notre algorithme des K-moyennes prédictives à découvrir la structure interne de la variable cible et donc à découvrir les différentes raisons qui peuvent mener à une même prédiction.Note : L’ensemble des approches présentées dans les sections précédentes ont été codées sur le logiciel R. Des spécifications de codes ont également été fournies à un prestataire afin de faire intégrer les approches proposées dans le logiciel interne Khiops Ennéade. Ce dernier est disponible sur le site suivant : www.khiops.predicsis.com. Il est à signaler donc que l’ensemble des résultats obtenus dans cette thèse sont reproductibles.
Clustering prédictif du premier type
Le clustering prédictif du premier type englobe l’ensemble des algorithmes du clustering modifiés permettant de prédire correctement la classe des nouvelles instances sous la contrainte d’avoir un nombre minimal de clusters. Dans ce cadre d’étude, l’axe de prédiction est principalement privilégié. L’algorithme des K-moyennes prédictives du premier type proposé dans cette thèse est donc l’algorithme incorporant les méthodes de prétraitement et d’initialisation des centres les plus performants en termes de prédictions. En s’appuyant sur les résultats présentés dans la figure 6.1, l’algorithme des K-moyennes prédictives du premier type proposé est l’algorithme intégrant la méthode supervisée du prétraitement des données Conditional Info (CI) et la méthode supervisée d’initialisation des centres Rocchio-And-Split (RS). Pour un nombre fixe de clusters (K), l’algorithme 8 présente sous forme des lignes de code l’algorithme des K-moyennes prédictives du premier type.
Cette section est consacrée à la comparaison des performances prédictives de cet algorithme des K-moyennes prédictives avec celles d’autres algorithmes du clustering prédictif les plus ré- pandus dans la littérature. Cette section expérimentale est divisée en deux grandes parties. Dans la première partie (Section 6.2.1), on considère le nombre de clusters (K) comme une entrée de l’algorithme. Pour chaque jeu de données, on considère que le nombre de clusters (K) est égal au nombre de classes (J). Dans ce cas, le problème du départ devient un problème de classification supervisée. L’objectif de cette première partie est de tester la capacité de l’algorithme des K- moyennes prédictives présenté ci-dessus à atteindre l’objectif des algorithmes de la classification supervisée (i.e., prédire correctement la classe des nouvelles instances).
Le nombre de clusters (K) est une entrée
Dans cette partie expérimentale, on cherche à tester la capacité de l’algorithme des K- moyennes prédictives présenté dans l’algorithme 8 à atteindre l’objectif des algorithmes de la classification supervisée. Les performances prédictives de l’algorithme des K-moyennes prédictives seront d’une part comparées à celles de l’algorithme des K-moyennes standard. Cette comparai- son nous permet de savoir à quel point la version modifiée parvient à dépasser la version originale dans le contexte de la classification supervisée. D’autre part, l’algorithme des K-moyennes prédictives sera comparé à un des algorithmes de la classification supervisée le plus interprétable et le plus répandu dans la littérature, à savoir l’arbre de décision. Ce dernier est considéré comme une hiérarchie de clusters où chaque feuille représente un cluster. Pour une comparaison cohérente, le nombre de feuilles généré par l’arbre de décision est contrôlé de telle sorte d’avoir un nombre égal au nombre de classes du jeu de données utilisé (la taille du modèle est fixé K = J). Pour évaluer la performance prédictive de ces trois algorithmes, le critère « Variation d’Information » (VI) est utilisé. Plus la valeur de VI est proche de 0, meilleure est la performance prédictive du modèle.
Les deux figures 6.4 et 6.5 présentent les performances prédictives (en termes de VI) des trois algorithmes d’apprentissage lorsque le nombre de clusters (K) est égal au nombre de classes (J). Les résultats des deux figures montrent que l’algorithme des K-moyennes prédictives parvient à atteindre soit de meilleures performances prédictives par rapport à l’arbre de décision (résultats de la figure 6.4) ou des performances compétitives avec celles de l’arbre de décision (résultats de la figure 6.5). De plus, l’algorithme des K-moyennes prédictive arrive à atteindre des performances prédictives significativement meilleures que celles obtenues par l’algorithme des K-moyennes standard sachant que ce dernier est exécuté 100 fois avec différentes initialisations (en utilisant la même méthode K++) pour choisir la meilleure partition.