Apprentissage d’un classifieur binaire par règles d’association

Apprentissage d’un classifieur binaire par règles d’association

Introduction

Dans le présent travail, nous proposons une approche consistant à déterminer les profils, expression d’interactions entre les covariables, corrélés avec la variable réponse pour construire une fonction de classement. Cette approche est en étroite liaison avec la notion de règles d’association. Des approches similaires ont été proposées dans la littérature du domaine de l’intelligence artificielle ces dernières années [6–8]. L’idée principale consiste à rechercher un ensemble optimal de profils à partir d’un ensemble de profils fréquents. La stratégie consiste à élaguer les profils redondants et les profils de faible performance en se basant essentiellement sur les mesures statistiques suivantes : la sensibilité, la spécificité et les valeurs prédictives. Le présent travail vise à insérer cette approche dans le cadre de la statistique traditionnelle et à montrer la pertinence de son application dans un problème réel. 2 Profils et classement basé sur un profil On considère un couple de variables aléatoires (Y, X), où Y est une variable de Bernoulli et X = (Xj )j=1:p est une suite finie de p variables aléatoires où chaque Xj est une variable non numérique à qj modalités mh(j) , h(j) = 1 : qj ; j = 1 : p. 

Profil 

Définition 1. On appelle profil toute suite finie d’événements  Xj = mh(j)  j∈J , où J ⊆ 1 : p et mh(j) est une modalité de la variable Xj . La longueur du profil  Xj = mh(j)  j∈J est égale à la taille (cardinal) de l’ensemble J ⊂ 1 : p. Pour simplifier les notations dans la suite, on écrit m Xj h pour désigner la modalité mh(j) de la variable Xj et on note  m Xj h  j∈J pour désigner le profils  Xj = mh(j)  j∈J .Un profil peut être vu comme la réalisation conjointe de |J| variables (Xj )j∈J . Plus la taille du profil est grande, plus le nombre de variables conjointement réalisées augmente. Dans le domaine de l’intelligence artificielle et de l’apprentissage automatique, un profil est plus connu sous le nom d’itemset. Un profil de taille k est un k-itemset. Un profil  m Xj h  j∈J peut être compris comme l’expression d’une interaction entre les différentes variables non numériques (Xj )j∈J qui le définissent. La taille d’un profil est équivalente à la complexité d’une interaction dans un modèle paramétrique tel que la régression logistique. La gestion des interactions existant entre les covariables est l’un des avantages d’un profil par rapport aux modèles paramétriques. Un profil est pertinent lorsque sa probabilité d’occurrence est significative. 

Définition 2.

 Soient  m Xl h  l∈L et  m Xj h  j∈J deux profils. On dit que  m Xj h  j∈J est emboîté dans  m Xl h  l∈L si les conditions suivantes sont vérifiées. a) L ⊂ J b) ∀ l ∈ L, ∀h ∈ {1 : ql} ∃ ! j ∈ J, ∃ ! k ∈ {1 : qj} tel que m Xl h = m Xj k Ils sont disjoints si L ∩ J = ∅. 

Classement associé à un profil et paramètres de performance

 On peut associer à tout profil U =  m Xj h  j∈J une fonction indicatrice φ(·, U) définie par : φ(X, U) = Y j∈J 1l Xj=m Xj h (X) Par définition φ(·, U) est un classifieur binaire. φ(X, U) = 1 si tous les événements [Xj = m Xj h ] sont conjointement réalisés. Dans le domaine de l’intelligence artificielle, on appelle couverture du profil U =  m Xj h  j∈J la probabilité Pr {φ(X, U) = 1} et on appelle support du profil U =  m Xj h  j∈J la probabilité Pr {φ(X, U) = 1, Y = 1}. Dans cette analyse, nous nous plaçons dans le cadre de la statistique pour aborder le problème. A chaque profil U, un seul classifieur φ(X, U) lui est associé. Par la suite, on peut remarquer que la pertinence d’un profil est étroitement liée avec la performance du classifieur qui lui est associé. Ainsi on peut donc utiliser les indicateurs de performance des classifieurs associés pour sélectionner un ensemble réduit de profils pertinents dont on se servira pour construire une règle de classement efficace. Cependant plusieurs indicateurs de performance ont été proposés dans la littérature pour évaluer les performances d’un classifieur donné. Parmi les plus utilisés figure l’erreur de classement. L’erreur de classement Err(U, Y ) d’un classifieur φ(X, U) engendré par un profil U est définie par : Err(U, Y ) = Pr {φ(X, U) 6= Y } = Pr {φ(X, U) = 1, Y = 0} + Pr {φ(X, U) = 0, Y = 1} On peut en déduire alors l’expression suivante : Err(U, Y ) = Pr {Y = 1} + Pr {φ(X, U) = 1} − 2 Pr {Y = 1, φ(X, U) = 1} On constate que l’erreur de classement est gouverné par le support Pr {Y = 1, φ(X, U) = 1} du profil U. L’erreur de classement est une fonction décroissante du support du profil. Pour deux profils de même couverture, l’erreur de classement décroît avec le support des profils. Par conséquent, plus le support du profil est élevé meilleur est le profil. On s’intéressera alors aux profils pour lesquels les classifieurs associés réalisent des probabilités Pr(Y = 1, φ(X, U) = 1) supérieurs à un seuil s0. Pour un classifieur binaire, on considère en particulier la sensibilité et la spécificité définie par Sensib(U, Y ) = Pr(φ(X, U) = 1, Y = 1) Pr(Y = 1) Spécif(U, Y ) = Pr(φ(X, U) = 0, Y = 0) Pr(Y = 0) On observe que la sensibilité croît avec la probabilité Pr(φ(X, U) = 1, Y = 1). Deux autres paramètres pourront aider à l’évaluation de la qualité du classifieur φ(X, U) donc à la sélection du classifieur dans un ensemble de classifieurs : la valeur prédictive positive (VPP) et la valeur prédictive négative (VPN). V P P(U, Y ) = Pr(φ(X, U) = 1, Y = 1) Pr(φ(X, U) = 1) V P N(U, Y ) = Pr(φ(X, U) = 0, Y = 0) Pr(φ(X, U) = 0) On peut établir les relations suivantes : Sensib(U, Y ) = V P P(U, Y ) Pr(φ(X, U) = 1) Pr(Y = 1) Spécif(U, Y ) = 1 − [1 − V P P(U, Y )] Pr(φ(X, U) = 1) 1 − Pr(Y = 1) V P N(U, Y ) = [1 − V P P(U, Y )] Pr(φ(X, U) = 1) Pr(φ(X, U) = 0) Pour deux profils U1 et U2 de même probabilité d’occurrence (couverture), la spécificité croît avec la valeur prédictive positive du classifieur. Il en résulte que parmi les profils U de même couverture Pr(φ(X, U) = 1), on pourra s’intéresser à ceux pour lesquels les valeurs prédictives positives des classifieurs associés sont au dessus d’un seuil c0 . La valeur prédictive positive d’un profil est communément appelée confiance dans le domaine de l’intelligence artificielle et de l’apprentissage automatique.

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *