Entre la prédiction et la description

Entre la prédiction et la description

Introduction

 Au cours de ces dernières décennies, le monde a connu une véritable explosion du volume des données. La multiplication des systèmes et d’appareils capables de générer et de transmettre automatiquement des données est l’un des principaux facteurs à l’origine de ce phénomène. Chaque individu peut générer quotidiennement une multitude d’informations diverses et variées (e.g., images, films, textes, sons, etc.) via le web, les réseaux sociaux et les appareils nomades. L’innovation continue des techniques de stockage figure également parmi les principaux facteurs de cette croissance exponentielle du volume des données. Par exemple, les grandes entreprises comme Orange et Amazon récoltent et stockent quotidiennement une avalanche de données concernant les comportements de leurs clients. Les résultats d’analyses médicales et les mesures effectuées un peu partout dans le monde comme les mesures météorologiques remplissent aussi d’importantes bases de données numériques. Les données récoltées par ou pour les entreprises sont devenues un atout important. Les informations présentes, mais à découvrir au sein des grands volumes de données, sont devenues pour ces entreprises un facteur de compétitivité et d’innovation. Par exemple, à travers la connaissance des comportements des consommateurs, les entreprises peuvent avoir un aperçu de leurs attentes et de leurs besoins. L’étude des résultats médicaux peut également aider à mieux identifier les patients à risque, permettant ainsi de prévenir plutôt que de guérir. De ce fait, il existe un grand intérêt à développer des techniques permettant d’utiliser au mieux les gisements de données afin d’en extraire un maximum de connaissances utiles. Dans la littérature, de nombreuses techniques d’analyse issues de diverses disciplines scientifiques (e.g., statistique, Intelligence Artificielle, Informatique) ont été proposées. Par exemple, l’analyse multivariée regroupe l’ensemble des méthodes statistiques qui s’attachent à l’observation et au traitement simultané de plusieurs variables en vue d’en dégager une information synthétique pertinente. Les deux grandes catégories de méthodes d’analyse statistique multivariées sont, d’une part, les méthodes dites descriptives et, d’autre part, les méthodes dites prédictives. Les méthodes descriptives ont pour objectif d’organiser, de simplifier et d’aider à comprendre les phénomènes existant dans un ensemble important de données non étiquetées. Cet ensemble est organisé en instances constituées de plusieurs variables descriptives, où aucune des variables n’a d’importance particulière par rapport aux autres. Toutes les variables sont donc prises en compte au même niveau. Les trois grandes catégories de méthodes descriptives sont : la description, la segmentation et l’association.

  1. La description  consiste à dégager les aspects les plus intéressants de la structure des données. Par exemple, les techniques d’analyse factorielles consistent à dégager des variables cachées dites « facteurs » à partir d’un ensemble de mesures. L’utilité de ces facteurs réside dans le fait qu’un nombre réduit de ces derniers explique aussi bien les données que l’ensemble des variables descriptives. Parmi les techniques factorielles, on citera celles les plus connues : Analyse en Composantes Principales (ACP) pour les variables quantitatives, Analyse des Correspondances Multiples (ACM) pour les variables qualitatives, Analyse Factorielle des Correspondances (AFC) pour les variables qualitatives et Analyse Factorielle Multiple (AFM) pour des groupes de variables quantitatives et/ou qualitatives. 
  2. La segmentation (le clustering ou la classification non supervisée) cherche à discerner une structure dans un ensemble de données non étiquetées. L’objectif est de trouver une typologie ou une répartition des individus en groupes distincts. Chaque groupe (ou 12 cluster) doit contenir les individus les plus homogènes possible. Il s’agit donc de construire un modèle permettant de mieux présenter les observations de manière à la fois précise et compacte (voir section 2.2). Parmi les méthodes permettant d’atteindre cet objectif, on trouve par exemple : l’algorithme des K-moyennes, la classification hiérarchique ascendante/descendante et les réseaux de Kohonen, etc.

3. L’association consiste à mesurer le degré d’association entre deux ou plusieurs variables. Les relations découvertes sont exprimées sous forme de règles d’association. Cette analyse est appelée aussi analyse d’affinité. Elle est très utile par exemple pour détecter les produits achetés simultanément, dans une grande surface, par un très grand nombre de clients. Cette information sert à mieux fixer les assortiments et les offres promotionnelles. Les algorithmes utilisés dans ce cadre ont comme principe de détecter les propriétés qui reviennent fréquemment dans l’ensemble des données afin d’en déduire une catégorisation. Dans ce cadre d’étude, l’algorithme Apriori est l’algorithme le plus utilisé. Les méthodes prédictives permettent de prévoir et d’expliquer à partir d’un ensemble de données étiquetées un ou plusieurs phénomènes observables. Dans ce cadre, deux types de techniques se distinguent : la régression et la classification supervisée.

1. La régression a pour but de trouver à partir d’un ensemble de données, le lien entre les prédicteurs et une variable cible « numérique » à prédire. Parmi les méthodes permettant d’atteindre cet objectif, on trouve par exemple : la régression linéaire simple, la régression multiple, la régression logistique et le modèle linéaire généralisé (GLM) [88, 35], etc.

2. La classification supervisée est une estimation qui consiste à découvrir le lien entre une variable cible « catégorielle » et des variables descriptives. L’idée de base est de proposer un modèle permettant de prévoir l’appartenance des nouveaux individus à des classes prédéterminées. Les méthodes les plus répandues dans ce cadre sont : les réseaux de neurones (ANN), les machines à vecteurs de support (SVM) et forêts aléatoires (RF). Dans la littérature sur le sujet d’extraction des connaissances utiles, le terme d’apprentissage automatique est souvent utilisé. Comme l’indique son nom, cette technique consiste à programmer la machine pour qu’elle apprenne à effectuer des tâches difficiles à travers des moyens algorithmiques. L’idée de base est de construire un modèle à partir d’un jeu de données, duquel les performances peuvent être évaluées en utilisant des méthodes de validation. Ces méthodes diffèrent selon le type d’apprentissage suivi (e.g., la précision pour la classification supervisée et l’inertie intra\inter clusters pour le clustering). L’apprentissage automatique se décline en plusieurs variantes en fonction de la nature des données dont on dispose (supervisé, non supervisé, etc.). On peut donc placer la classification supervisée dans le domaine de l’apprentissage supervisé et le clustering dans le domaine de l’apprentissage non supervisé. Dans cette thèse, nous nous intéressons exclusivement à la classification supervisée et non supervisée qui ont historiquement permis d’extrapoler de nouvelles informations à partir des informations présentes ou bien de découvrir et d’expliquer certains phénomènes existants mais noyés dans le volume de données.Depuis quelques années, les chercheurs ont concentré leur attention sur l’étude d’un nouvel aspect d’apprentissage. Ce dernier fusionne à la fois les caractéristiques de la classification supervisée (la prédiction) et du clustering (la description). Les algorithmes appartenant à ce type d’apprentissage cherchent à décrire et à prédire simultanément. Il s’agit ici de découvrir la structure interne de la variable cible. Puis, munis de cette structure, de prédire la classe des nouvelles instances. Cette technique permet à l’utilisateur d’améliorer sa compréhension vis-à-vis des données. En effet, contrairement à la classification supervisée, les algorithmes descriptifs et prédictifs à la fois permettent à l’utilisateur de connaître les différentes voies qui peuvent mener à une même prédiction : deux instances très différentes peuvent avoir la même prédiction de classe. L’obtention d’une telle information est très utile dans plusieurs domaines d’application, notamment, dans les domaines critiques où l’interprétation des résultats issus des algorithmes d’apprentissage est une condition primordiale. A titre d’exemple, dans le domaine médical, deux patients X1 et X2 ayant comme prédiction un test positif (la classe {+} de la figure 2.1) pour l’AVC (i.e., une grande probabilité d’avoir un Accident Vasculaire Cérébral) n’ont pas forcément les mêmes causes et\ou les mêmes symptômes de l’AVC : il se peut que le patient X1 soit une personne âgée, qui souffrait de la fibrillation auriculaire et qui par conséquent a eu des maux de têtes et des difficultés à apprendre (par exemple, X1 appartient au groupe A de la figure 2.1). Tandis que le patient X2, pourrait être une jeune personne qui consommait de l’alcool d’une manière excessive et, par conséquent a perdu l’équilibre (par exemple, X2 appartient au groupe B de la figure 2.1).

Cours gratuitTélécharger le cours complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *