Au cours des dernières années, la taille des bases de données n’a pas cessé d’augmenter ce qui rend l’extraction de l’information plus difficile. La méthode traditionnelle de l’extraction de connaissances repose sur l’analyse et l’interprétation manuelle. Par exemple, dans l’industrie des soins de santé, il est courant pour les spécialistes d’analyser périodiquement les tendances actuelles et les changements dans les données de soins de santé, sur une base trimestrielle. Les spécialistes fournissent ensuite un rapport détaillant l’analyse de l’organisation des soins de santé. Ce rapport devient la base des futures prises de décision et de la planification de la gestion des soins de santé.
Cependant, cette approche classique d’analyse des données repose fondamentalement sur un ou plusieurs analystes qui doivent être familiarisés avec les données et doivent servir d’interface entre les données, les utilisateurs et les produits. Cette méthode d’extraction de données est lente, coûteuse et très subjective pour plusieurs domaines. En fait, bien que le volume de données augmente de façon très rapide, ce type d’analyse manuelle des données devient totalement impraticable.
C’est pour cela que les chercheurs et les informaticiens ont décidé de trouver une méthode d’extraction de données plus efficace. En effet, durant les années 60, les spécialistes ont découvert une nouvelle approche d’extraction de données, que l’on appelle le forage de données ou le Data mining. Cette approche est appelée aussi fouille de données et consiste à l’extraction de connaissances intéressantes à partir d’une base de données.
FORAGE DE DONNES ET EXTRACTION DE DONNEES
PROCESSUS DE L’EXTRACTION DE CONNAISSANCES
Le processus de l’extraction de connaissances dans les bases de données, implique l’utilisation de la base de données ainsi que toute sélection, le prétraitement, le sous échantillonnage, les transformations, l’application de méthodes de forage de données pour énumérer des classes de celle-ci; et l’évaluation des produits de l’exploitation de données pour identifier le sous-ensemble des motifs énumérés jugés connaissances.
Le processus de l’extraction de connaissances des bases de données est un processus interactif et itératif impliquant de nombreuses étapes avec de nombreuses décisions prises par l’utilisateur. Brachman et Anand (1996) ont donné une vue pratique de ce processus, qui souligne sa nature interactive [11]:
-étape 1 : développement d’une compréhension du domaine d’application et de connaissances préalables pertinentes et identification de l’objectif du processus de l’extraction de données du point de vue du client.
-étape 2 : création d’un ensemble de données de cible à sélectionner un ensemble de données, ou se concentrant sur un sous-ensemble de variables ou des échantillons de données, sur laquelle une découverte va être faite.
-étape 3 : nettoyage des données et de prétraitement. Opérations de base comprennent la suppression du bruit, le cas échéant, la collecte des informations nécessaires pour la modélisation des classes de données.
-étape 4 : réduction des données et de projection: trouver les fonctionnalités utiles pour représenter les données en fonction de l’objectif de la tâche. Avec la réduction de la dimensionnalité ou des méthodes de transformation, le nombre effectif de variables considérées peut être réduit, ou des représentations invariantes pour les données peuvent être trouvées.
-étape 5 : fixer les objectifs du processus de l’extraction de connaissances pour une méthode d’exploration de données particulière. Par exemple : la synthèse, la classification, la régression, le regroupement, et ainsi de suite…
-étape 6 : choix de l’algorithme d’extraction de données et sélectionner la méthode qui doit être utilisée pour la recherche de modèles de données. En effet, on détermine les paramètres des modèles qui pourraient être appropriés et correspondants à une méthode d’exploration de données particulière avec les critères globaux du processus de l’extraction de connaissances.
-étape 7 : Forage de données (Data mining) : rechercher les classes (les modèles) suite à l’application de règles de classification, de clustering, de régression,… L’utilisateur peut aider de façon significative la méthode d’exploration de données en effectuant correctement les étapes précédentes.
-étape 8 : interpréter les classes extraites.
-étape 9 : utiliser les connaissances extraites directement, en les intégrant dans un autre système, en les utilisant dans nos prochaines recherches ou tout simplement les documenter ou les utiliser dans nos rapports.
LE FORAGE DE DONNEES (DATA MINING)
Le forage de données est une étape, dans le processus de l’extraction de connaissances des bases de données, qui consiste à appliquer l’analyse de données et la découverte des algorithmes qui produisent une énumération particulière de classes (ou modèles) sur les données. C’est un terme ambigu qui a été utilisé pour désigner le processus de trouver des informations intéressantes dans de grands dépôts de données. Il consiste à trouver les modèles intéressants (les classes) dans les données qui ne font pas explicitement partie des données [11]. Il s’agit de l’application de l’ensemble des méthodes et des algorithmes spécifiques pour l’exploration et l’analyse de (souvent) grandes bases de données; en vue de détecter dans ces données des règles, des associations, des tendances inconnues, des structures restituant l’essentiel de l’information utile… et on parle de connaissances afin de faciliter la prise de décisions.
Par exemple, dans les banques, afin de détecter les fraudes et le vol de cartes de crédit, les analystes appliquent les techniques de forage de données. En effet, selon les données historiques recueillies, ils construisent un modèle de comportement frauduleux. Puis ils élaborent la base de données des comportements, et en appliquant les techniques avancées de forage de données ils détectent les comportements frauduleux similaires.
Le grand l’intérêt actuel pour le forage de données et l’extraction de données est le résultat de succès de nombreuses applications d’extraction de données d’intérêt médiatique. Par exemple, les articles d’intervention pendant les dernières années dans Business Week, Newsweek, Byte, PC Week, et d’autres périodiques à large diffusion [11]. Donc le forage de données est utilisé pour des taches d’analyse très complexes, et pour l’extraction des informations très importantes.
CHAPITRE 1 INTRODUCTION |