Approche Data Miningpar WEKA
Les concepts
•Un tableau des données ou une collection d’exemples (dataset). •Chaque ligne de ce tableau représente une observation qui est décrite par un vecteur (instance) •Chaque colonne représente une variable (attribute) qui peut être quantitative (numeric), qualitative (nominal) ou textuelle (string).
Explorer : Interface «utilisation des méthodes »
Objectifs: •Le Weka Explorer permet de lancer une méthode àpartir d’un fichier ARFF. •Les résultats sont mis sous la forme d’un fichier texte normalisé. •Permet de sélectionner la méthode la mieux adaptée ou la plus efficace.
Les descriptions suivent une loi normale
Le descripteur X des exemples est constitué de p descripteurs numériques et que sa distribution, conditionnellement aux classes, suit une loi normale multidimensionnelle centrée sur le vecteur et de matrice de variance-covariance.
Qualité d’un score
•Chaque sortie du réseau est associée à une classe a priori. •L’objectif est d’analyser les scores de cette sortie •Les exemples sont les observations de la classe a priori associée à cette sortie •Les contre-exemples sont les observations des autres classes.
Courbe ROC (ReceiverOperating Characteristiccurve
Pour un score s nous avons quatre comptages •(A) Les Vrais Positifs sont les exemples ayant une valeur supérieure às. •(D) Les Vrais Négatifs sont les contre-exemples ayant une valeur inférieure à s. •(B) Les Faux Négatifs sont les exemples ayant une valeur inférieure às. •(C) Les Faux Positifs sont les contre-exemples ayant une valeur supérieure à s.
•On se fixe la classe a priori G et F est l’ensemble des autres classes a priori •La sensibilitédu score s est égale àP[S>s/G], la sensibilité est le pourcentage de Vrais Positifs •La spécificité du score s est égale àP[S<s/F], la spécificité est le pourcentage de Vrais Négatifs Groupe à détecter : H
specificite(x) sensibilite(x)
Quand le score augmente la sensibilité diminue cela signifie que le % d’exemples dépassant cette valeur diminue: A/(A+C) La spécificité augmente cela signifie que le % de contre exemples en dessous de cette valeur augmente: D/(B+D)