Auto-apprentissage
Dans l’auto-apprentissage (self training) [50] nous entrainons un classi_eur supervisé avec les données de DE. Ensuite ce classi_eur est utilisé pour prédire les étiquettes manquantes de DNE. Les données étiquetées avec un haut degré de con_ance sont ajoutées à DE. Le classi_eur est ré-entrainé sur les nouvelles données de DE et cette procédure est répétée jusqu’à satisfaire un critère d’arrêt (convergence). Dans [10], Isaac Triguero et al. ont présenté un état de l’art de tous les algorithmes semi-supervisés existants, ils ont classé les algorithmes d’auto-apprentissage en trois catégories : incremental, batch et amending. Mode incrémental : Les algorithmes semi supervisés de catégorie incrémentale commencent par traiter les données de DNE instance par instance si l’une d’elle véri_e un certain critère d’addition, elle sera ajoutée à DE. Généralement dans ce type d’algorithme le degré de con_ance est calculé par la probabilité d’appartenance à chaque classe.
L’un des points les plus importants est le nombre d’instances ajouté à chaque itération. Ce nombre peut être dé_ni comme une constante ou bien il peut être choisi comme un nombre proportionnel au nombre d’instances de chaque classe. L’avantage de cette catégorie est la rapidité du calcul au cours de la phase d’apprentissage. Par contre, cette catégorie peut ajouter des instances erronées lors d’apprentissage. On note que l’algorithme standard d’auto-apprentissage [50] appartient à cette catégorie. Mode batch : Dans cette catégorie le test se fait sur toutes les données de DNE et les instances qui véri_ent les critères d’addition sont ajoutées à la fois à DE. Cette catégorie sou_re de la lenteur de calcul comme l’APSSC [51]. Mode amending : Cette catégorie est apparue comme une solution à l’inconvénient de la catégorie incrémentale. Les algorithmes de cette catégorie sont itératifs et peuvent ajouter ou supprimer une instance de DNE qui véri_e un certain critère spéci_que et même permettent de corriger quelques étiquettes qui sont déjà ajoutées à DE selon d’autre crit ère. Cette catégorie évite l’ajout des instances bruitées à DE. SETRED [6] et SNNRCE [7] sont les algorithmes de référence de cette catégorie.
Les travaux actuels [7], [52], [48], [49] et [10] se sont focalisés d’avantage sur la conception d’une méthode d’auto-apprentissage _able que sur la recherche de métriques pertinentes pour la mesure de con_ance, et présentent des mesures simples sou_rants de cas dégénérés, et d’un manque de pouvoir discriminant. Dans ce contexte, l’objectif de ce travail est de proposer une évaluation des di_érentes métriques existantes et relever la plus pertinente. Ce chapitre introduit principalement une étude approfondie et une comparaison des di_érentes métriques existantes adressées au problème de mesure de similarité, dans cette étude, nous discutons l’in_uence de la métrique de distance dans la classi_cation semi supervisé en utilisant l’algorithme d’auto-apprentissage SNNRCE. L’objectif majeur est de comparer les mesures de similarités pour un type de données. Pour cela, il faut choisir sur quel point de vue on souhaite comparer les mesures. Plusieurs méthodologies sont possibles. Par exemple, on peut comparer les mesures d’un point de vue applicatif comme l’ont fait Penney et al. [53] pour des images médicales ou Chang et al. [54] dans un algorithme de clustering appliqué à des données issues d’électrocardiogrammes ou bien encore Weken et al. [55] et [56] pour comparer des images modélisées par des ensembles _ous. Nous avons opté pour le premier angle de comparaison qui considère une comparaison « quantitative » des mesures de similarité.
Renforcement de la con_ance en auto-apprentissage 1 Objectifs
La complexité ainsi que le coût de l’étiquetage manuel des données posent un besoin croissant d’automatiser les tâches requérant une expertise humaine essentiellement dans des applications médicales. Cependant, la mise en ÷uvre du semi-supervisé est devenue cruciale, son avantage réside sur le fait qu’il requiert une faible quantité étiquetée d’informations. En e_et, plusieurs approches de classi_cation semi-supervisée ont vu le jour ces derniers temps. Dans ce chapitre nous nous sommes intéressés plus particulièrement à l’auto-apprentissage. Ces techniques d’auto-apprentissage utilisent le même principe que celles du supervisées mais avec une mesure de con_ance qui permet de sélectionner uniquement les données classées avec un grand degré de con_ance. Dans le contexte médical, les méthodes modernes d’acquisition des données médicales permettent d’obtenir de nombreuses variables sur de nombreux patients avec un faible coût. Toutefois, l’annotation des variables d’intérêt est souvent plus di_cile à obtenir, car cette di_culté est due à plusieurs causes (l’expertise humaine, manque des experts compétents, temps, coûts …).
Ceci est particulièrement réel dans les problèmes de la classi_cation supervisée. Et généralement, les données non-expertisées sont plus nombreuses que les données expertisées. Dans ce chapitre, un nouvel algorithme d’auto-apprentissage est proposé, nommé RCOSET (Reinforced con_dence in self-training). R-COSET introduit le graphe de voisinage relatif sur deux niveaux de construction, et la technique de CEWS [4] dans la mesure du niveau de con_ance, dans le but d’améliorer les performances de classi_cation. Les avantages de cette proposition portent sur la simplicité et l’e_cacité de sélection des échantillons de con_ance dans l’apprentissage semi-supervisé. Concernant cette sélection, une nouvelle formule de con_ance est proposée, elle se base sur le poids statistique de graphe de voisinage, cette mesure a permis d’améliorer la classi_cation semi-supervisée. Ce chapitre introduit l’algorithme R-COSET, ce qui nous mène à organiser ce chapitre comme suit : Une revue de quelques méthodes d’auto-apprentissage dans le domaine semi-supervisé est e_ectuée. Nous présentons en détail l’évolution de ces dernières ainsi que leurs avantages et leurs limites. Nous exposons ensuite dans la section 3, le processus général de notre approche proposée et ses di_érentes étapes. Nous validons notre algorithme et les choix que nous avons réalisés par une phase d’expérimentation. Nous montrons la capacité de notre méthode dans l’amélioration des performances de classi _cation, ceci par une comparaison avec les méthodes représentatives de la littérature. Finalement, nous terminerons par une conclusion présentant une synthèse des contributions apportées ainsi que les pistes dé_nissant des perspectives possibles pour de futurs travaux.
Le semi supervisé par le principe d’auto-apprentissage
L’idée principale de la classi_cation semi-supervisée est d’exploiter un petit nombre de données étiquetées DE pour construire une hypothèse robuste qui peut prédire correctement les classes des données non étiquetées DNE. La classi_cation semi-supervisée peut être appliquée dans deux concepts légèrement diff érents : apprentissage transductif et apprentissage inductif. L’apprentissage transductif a pour but de classer les instances non marquées DNE de l’ensemble d’apprentissage DA, où DA = DE [ DNE. Ceci est en contraste avec l’apprentissage inductif, qui s’intéresse à construire une fonction de prédiction _nale utilisant les données issues de la phase transductive. L’application de cette fonction consiste à classer correctement les instances de l’ensemble de test DT , ce qui n’a pas été utilisé lors de l’apprentissage semi supervisé. Le premier développement concernant l’utilisation des données étiquetées et non étiquet ées est l’algorithme d’auto-apprentissage dé_ni par D. Yarowsky [14], ce dernier est appliqué pour la détection de désambiguïsation des textes anglais en utilisant un classi- _eur appris sur les données étiquetées et non étiquetées. Le processus d’auto-apprentissage « Self-Training », comme c’est décrit dans la _gure 2. Dans l’auto-apprentissage, un classi_eur est d’abord généré avec la petite quantité de données étiquetées. Le classi_eur est ensuite utilisé pour classer les données non étiquetées. Les points non labellisés les plus con_ants avec leurs étiquettes prédites sont ajoutés à l’ensemble d’apprentissage. Le classi_eur est reconstruit sur l’ensemble de ces nouvelles données. A noter que le classi_eur utilise ses propres prédictions pour le ré- apprentissage. Dans l’algorithme standard d’auto-apprentissage, la règle de probabilité à posteriori est appliquée pour mesurer le niveau de con_ance sur les exemples non étiquetés [14]. Figure 2 _ Processus d’auto-apprentissage.
Le processus standard d’auto-apprentissage peut enrichir la base d’apprentissage par les données non étiquetées nouvellement labélisées de façon incrémentale, les exemples mal classés introduits à l’ensemble d’apprentissage à chaque itération peuvent conduire à des faibles taux de performances, en utilisant des données erronées dans le réapprentissage du processus. Bien que certaines techniques, telles que l’addition en mode Batch [6,7], a été employée pour atténuer ce problème. Triguero et al. [10] ont regroupé les mécanismes d’addition en trois catégories Incremental, Batch et Amending (Voir chapitre 1). L’auto-apprentissage est une technique couramment utilisée en apprentissage semi-supervisé grace à sa simplicité et son e_cacité. Plusieurs travaux ont été proposés dans la littérature pour améliorer ce processus. Dans ce contexte, nous citons : Self-training with Editing (SETRED) [6] est un algorithme d’auto-apprentissage amé- lioré. La mesure de con_ance de cet algorithme est basée sur le principe de _ltrage des données bruitées. Cet algorithme appartient à la catégorie Amending, donc à chaque ité- ration la méthode de _ltrage CEWS [4] est appliquée, cela pour supprimer les données mal classées et identi_er les données bien classées avec un certain degré de con_ance. Wang et al. ont développé une autre méthode d’apprentissage semi-supervisé (SNNRCE) [7], basée sur la règle du plus proche voisin et le principe de _ltrage CEWS [4]. Le processus de cet algorithme est divisé en quatre étapes : la première étape exploite tous les échantillons étiquetés dans la construction d’un graphe de voisinage relatif pour chaque donnée non étiquetée, et si une donnée non étiquetée dans le graphe est reliée à des données de la même classe, cela veut dire que cette donnée est classée avec con_ance. Les échantillons nouvellement classés sont ensuite ajoutés à la base d’apprentissage comme données étiquetées. Dans la deuxième étape, les auteurs ont mis au point une formule mathématique Eq.3.1 en fonction de la règle de plus proche voisin pour prévoir la con_ance de la classi_cation en calculant la quantité CL, cette étape est répétée jusqu’à satisfaire un critère d’arrêt.
Résumé |