Contexte de la distribution déséquilibrée des données

Contexte de la distribution déséquilibrée des données

Récemment, le problème de déséquilibre de classes a attiré l’attention de plusieurs chercheurs, cela dus à l’importance de l’équilibrage de données pour la création d’un bon classifieur.

La plupart des données réelles sont déséquilibrées, le nombre d’une classe est largement grand par rapport à l’autre, c’est spécialement le cas pour le diagnostic médical, où les personnes malades sont toujours rares (classe minoritaire) en les comparent avec les non-malades (classe majoritaire). De plus, lors de l’émergence d’une nouvelle maladie, elle est d’un impact amoindri à ses débuts, ses causes sont inconnues et ses symptômes peuvent être communs avec ceux des autres maladies déjà existantes, par suite, il est difficile de la reconnaître et peut être facilement assimilée à ces dernières.

La distribution des instances de classes joue un rôle très important pour atteindre une bonne classification. Une base de données est dite déséquilibrée quand le nombre des instances d’une classe est petit par rapport aux autres classes .De manière plus simple, le nombre d’instances négatives (majoritaires) est largement supérieur au nombre d’instances positives (minoritaires). Dans le domaine médical, le médecin s’intéresse au cas minoritaire aux quels il n’a pas beaucoup d’exemple pour l’étude approfondie.

Notions de déséquilibre et d’asymétrie

Dès l’utilisation des données réelles en fouille de données, on est généralement en présence d’un très grand nombre d’individus, d’un très grand nombre de descripteurs, ou encore de données manquantes, éparses, ou bruitées. Un problème de plus en plus considéré par la communauté scientifique depuis quelques années : ce problème est l’asymétrie des classes.

Or la plupart des problèmes industriels concernent les classes distribuées de manière asymétrique. En apprentissage supervisé, l’asymétrie peut être en deux formes principales : le déséquilibre des classes, et l’asymétrie des coûts. Le déséquilibre de classes concerne les problèmes où l’une des modalités de la variable cible est beaucoup moins représentée que les autres, ce qui perturbe les algorithmes d’apprentissage. Ce problème est souvent rencontré dans les problèmes de diagnostic médical. L’asymétrie des coûts concerne les cas où les coûts des erreurs ne sont pas symétriques [Mar08].

L’asymétrie est devenue un défi majeur de l’apprentissage supervisé, le déséquilibre de données pouvant atteindre 1 pour 100, 1 pour 1000, 1 pour 10000 et souvent encore plus. Comme le notent Verhein & Chawla [VC06] dans des applications comme le diagnostic médical ou la détection de fraudes, les jeux de données déséquilibrés sont la norme et non l’exception [HAF13].

Dans le cas de déséquilibre, il est difficile de répondre à la première hypothèse, si 99% des données appartient à une seule classe, il sera difficile de faire mieux que 1% d’erreur obtenu en classant tous les individus dans cette classe Weiss [Wei04] propose de distinguer plus précisément les différents problèmes de déséquilibre :

1. Métrique inapproprié : Les mesures utilisées au cous du processus d’apprentissage ne sont pas adaptées au classes déséquilibrées .

2. Manque absolu de données : c’est le problème principal du déséquilibre, le nombre d’instances d’une classe est peut nombreux (rare) pour représenté un concept .

3. Manque relatif de données : Les objets d’une classe ne sont pas rares au sens absolu mais moins représenté par rapport au autre classe .

4. Données bruité : Le bruit a plus d’impact sur les classe rare que sur les classe fréquente .

5. Petites disjoint : la classe minoritaire est divisée en petit ensembles séparés .

Table des matières

Introduction générale
1 Contexte de la distribution déséquilibrée des données
1 Introduction
2 Définition
3 Notions de déséquilibre et d’asymétrie
4 Problématique
5 Motivations
6 Conclusion
2 État de l’art
1 Introduction
2 Approches par modification au niveau des données
3 Approches par modification au niveau des algorithmes d’apprentissage
3.1 Apprentissage sensible aux coûts
3.2 Méthodes d’ensemble
4 Objectifs de ce travail
5 Conclusion
3 Matériels et méthodes
1 Introduction
2 Méthodes d’échantillonnages
2.1 Sur-échantillonnage
2.2 Sous-échantillonnage
3 Méthodes d’ensemble
3.1 Méthodes d’ensemble parallèle
3.2 Méthodes d’ensemble séquentielles
3.3 Types d’agrégation de classifieurs
3.4 Comparaison entre les méthodes d’ensemble
3.5 Le Boosting face aux données déséquilibrées
4 Les méthodes hybrides
4.1 Échantillonnage combiné avec Boosting
4.2 Échantillonnage combiné avec Bagging
5 Conclusion
4 Expérimentations et Résultats
1 Introduction
2 Bases de données
2.1 Haberman
2.2 Liver-disorder
2.3 Breast Cancer (Wisconsin)
2.4 EEG eye
2.5 Breast Tissue
2.6 Heart
3 Matériels et méthodes
4 Mesures de performance
5 Expérimentation 1 : Étude comparative entre différentes méthodes
d’ensembles
6 Expérimentation 2 : Application de l’approche SMOTE sur différents
degrés de déséquilibres
7 Expérimentation 3 : La combinaison de SMOTE et sous échantillonnage avec Adaboost
8 Conclusion
Conclusion générale