COURS DE DATA MINING
Qu’est-ce que le data mining ?
La fouille de données Le datamining est l’ensemble des: méthodes scientifiques …destinées à l’exploration et l’analyse …de (souvent) grandes bases de données informatiques …en vue de détecter dans ces données des profils-type, des comportements récurrents, des règles, des liens, des tendances inconnues(non fixées a priori),des structures particulières restituant de façon concise l’essentiel de l’information utile …pour l’aide à la décision On parle d’extraire l’information de la donnée SelonleMIT,c’estl’unedes10technologiesémergentes qui «changeront le monde» au XXIe siècle.
Les 2 types de méthodes de data mining
Les méthodes descriptives (recherche de « patterns ») : visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse) réduisent, résument, synthétisent les données il n’y a pas de variable à expliquer Les méthodes prédictives (modélisation) : visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) expliquent les données il y a une variable à expliquer.
Qu’est-ce que la classification ?
Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que : 2 objets d’un même groupe se ressemblent le plus possible 2 objets de groupes distincts diffèrent le plus possible le nombre des groupes est parfois fixé les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération Méthode descriptive : pas de variable à expliquer privilégiée décrire de façon simple une réalité complexe en la résumant Utilisation en marketing, médecine, sciences humaines… segmentation de clientèle marketing Les objets à classer sont : des individus des variables les deux à la fois (biclustering)
Qu’est-ce que le Big Data ?
L’explosion de la production de données Donnéessignalétiquesetsociodémographiques Données de comportement (utilisationdutéléphone,dela cartebancaire,duvéhicule…) Données CRM (contactavecunserviceclient,fidélisation…) Données externes provenant des méga bases de données privées ou des administrations(OpenData) Informations remontées parles capteurs industriels,routiers, climatiques,puces RFID,NFC,objets connectés (caméras, compteurs électriques,appareils médicaux,voitures…) Géolocalisation par GPS ou adresse IP Données de tracking sur Internet(sites visités,mots-clés recherchés…) Contenu partagé sur Internet (blogs,photos,vidéos…) Opinions exprimées dans les réseaux sociaux(sur une entreprise, une marque,un produit,un service…)
Caractérisation des Big Data : les 3 «V»
Volume L’ordre de grandeur est le péta octet(1015octets)L’accroissement du volume vient de l’augmentation: du nombre d’individusobservés(plusnombreuxouàun niveau plus fin) de la fréquence d’observation et d’enregistrement des données(mensuel->quotidien,voirehoraire) du nombre de caractéristiquesobservées Cetaccroissementvientaussidel’observationdedonnées nouvelles,provenant notamment d’Internet:pages indexées, rechercheseffectuées,éventuellement avec des données de géolocalisation Cet aspect est peut-êtreleplusvisibleetleplusspectaculaire, maisiln’estpasleplusnouveau(grandedistribution,banque, téléphoniemanipulentdegrandsvolumesdedonnées)