Apprentissage statistique et Data Mining

Apprentissage Statistique & Data Mining

CHOIX DE MODELE

Recherche pas à pas

Principalement deux critères (test du rapport de vraisemblance et test de Wald, cf. bibliographie), sont utilisés de facon analogue au test de Fisher du modèle linéaire gaussien. Ils permettent de comparer un modèle avec un sous-modèle et d’évaluer l’intérêt de la présence des termes complémentaires. On suit ainsi une stratégie descendante à partir du modèle complet. L’idée est de supprimer, un terme à la fois, la composante d’interaction ou l’effet principal qui apparait comme le moins signiﬁcatif au sens du rapport de vraisemblance ou du test de Wald. Les tests présentent une structure hiérarchisée. SAS facilite cette recherche en produisant une décomposition (Type III) de ces indices permettant de comparer chacun des sous-modèles excluant un des termes avec le modèle les incluant tous. Attention, du fait de l’utilisation d’une transformation non linéaire(logit),même si des facteurs sont orthogonaux, aucune propriété d’orthogonalité ne peut être prise en compte pour l’étude des hypothèses. Ceci impose l’élimination des termes un par un et la ré-estimation du modèle. D’autre part, un terme principal ne peut être supprimé que s’il n’intervient plus dans des termes d’interaction.

Critère L’approche précédente favorise la qualité d’ajustement du modèle. Dans un but prédictif, certains logiciels, comme S plus/Rou Enterpirse Miner, proposent d’autres critères de choix(AIC,BIC).Une estimation de l’erreur de prévision par validation croisée est aussi opportune dans une démarche de choix de modèle.

Illustration élémentaire

Les données

On étudie l’inﬂuence du débit et du volume d’air inspiré sur l’occurence (codée 1) de la dilatation des vaisseaux sanguins superﬁciels des membres inférieurs. Un graphique élémentaire représentant les modalités de Y dans les coordonnées de X1×X2 est toujours instructif. Il montre une séparation raisonnable et de bon augure des deux nuages de points. Dans le cas de nombreuses variables explicatives quantitatives, une analyse en composantes principales s’impose. Les formes des nuages représentés, ainsi que l’allure des distributions (étudiées préalablement), incitent dans ce cas à considérer par la suite les logarithmes des variables. Une variable un ne contenant que des “1” dénombrant le nombre d’essais est nécessaire dans la syntaxe de genmod. Les données sont en effet non groupées.

Régression logistique ordinale On étudie les résultats d’une étude préalable à la législationsur le port de la ceinture des écurité dans la province de l’Alberta à Edmontonau Canada(Jobson,1991).Un échantillon de 86769 rapports d’accidents de voitures ont été compulsés a ﬁn d’extraire une table croisant : i. Etat du conducteur : Normal ou Alcoolisé ii. Sexe du conducteur iii. Port de la ceinture : Oui Non iv. Gravité des blessures : 0 : rien à 3 : fatales Les modalités de la variable à expliquer concernant la gravité de l’accident sont ordonnées.

AUTRES EXEMPLES

Les exemples sont décrits dans cette section à titre illustratif avec SA SouR, une comparaison systématique des performances de chaque méthode est développée dans le dernier chapitre conclusif. 6.1 Cancerdusein Lesdonnées(Wisconsin BreastCancer Database)sont disponibles dans la librairie mlbench du logiciel R. Elles servent très souvent de base de référence à des comparaisons de techniques d’apprentissage. Les variables considérées sont : Cl.thickness Clump Thickness Cell.size Uniformity of Cell Size Cell.shape Uniformity of Cell Shape Marg.adhesion Marginal Adhesion Epith.c.size Single Epithelial Cell Size Bare.nuclei Bare Nuclei Bl.cromatin Bland Chromatin Normal.nucleoli Normal Nucleoli Mitoses Mitoses Class ”benign” et ”malignant”. La dernière variable est celle à prédire, les variables explicatives sont ordinales ou nominales à 10 classes. Il reste 683 observations après la suppression de 16 présentant des valeurs manquantes. Ce jeu de données est assez particulier car plutôt facile à ajuster. Une estimation utilisant toutes les variables conduit à des messages critiques indiquant un défaut de convergence et des probabilités exactement ajustées. Enfait le modèle s’ajuste exactement aux données en utilisant toutes les variables aussi l’erreur de prévision nécessite une estimation plus soignée. Une séparation entre un échantillon d’apprentissage et un échantillon test ou une validation croisée permet une telle estimation (voir le chapitre 5). On trouve alors qu’un modèle plus parcimonieux et obtenu par une démarche descendante, de sorte que les paramètres soient signiﬁcatifs au sens d’un test du Chi2, conduit à des erreurs de prévision plus faibles sur un échantillon test indépendant qu’un modèle ajustant exactement les données. La qualité de l’ajustement du modèle se résume sous la forme d’une matrice de confusion évaluant les taux de bien et mal classés sur l’échantillon d’apprentissage tandis que l’erreur de prévision est estimée àpartir de l’échantillon test.

Pic d’ozone

Plutôt que deprévoir la concentration de l’ozone puis un dépassement éventuel d’unseuil,il pourrait être plus efﬁcace de prévoir directement ce dépassement en modélisant la variable binaire associée. Attention toutefois, ces dépassements étant relativement peu nombreux (17%), il serait nécessaire d’en accentuer l’importance par l’introduction d’une fonction coˆut ou une pondération spéciﬁque. Ceci est un problème général losqu’il s’agit de prévoir des phénomènes très rares : un modèle trivial ne les prévoyant jamais ne commettrait ﬁnalement qu’une erreur relative faible. Ceci revient à demander au spécialiste de quantiﬁer le risque de prévoir un dépassement du seuil à tord par rapport à celui de ne pas prévoir ce dépassement à tord. Le premier à des conséquences économiques et sur le confort des usagers par des limitations de traﬁc tandis que le 2ème a des conséquences sur l’environnement et la santé de certaines populations. Ce n’est plus un problème ”statistique”. La recherche descendante d’un meilleur modèle au sens du critère d’Aka¨ıke conduit au résultat cidessous.