Extraction de connaissances à partir des données (ECD)
ECD et théorie des règles d’association
L’extraction de connaissances à partir des données (ECD) est un axe de recherche très actif, qui a vu le jour au cours des trois dernières décennies (Fayyad et al., 1996a). La progression de la technologie du matériel informatique dans la même période nous a amené à une puissance accrue des ordinateurs et à de nouveaux des équipements de collecte des données. Cette technologie a donné un grand coup de pouce à l’industrie de bases de données et de l’information et a permis la gestion de transactions, à la recherche d’informations et à l’analyse de données de très grand volume. La croissance rapide et l’énorme quantité de données collectées et stockées dans les bases de données ont excédé notre habilité humaine. Pour faire face à ce problème, de nombreux travaux ont dû trouver de nouvelles méthodes de gestion des données permettant de traiter ces volumes de manière plus rapide. La fouille de données est l’étape centrale du processus de l’extraction de connaissances consistant à découvrir de nouveaux modèles au sein de grandes quantités de données. Avant de développer l’ECD, il est nécessaire de rappeler ce qu’est une fouille de données.
Fouille de données
Avant de développer la fouille de données, il s’avère utile de définir tout d’abord le terme donnée. Définition 1 (Les données) D’un point de vue informatique, une donnée est un élément contenant une information. Ces informations de différentes natures peuvent prendre différents formats : données numériques, données binaires, données textuelles, ⋯ Définition 2 (La base de données) Une base de données désigne alors un ensemble d’informations stockées sur un système informatique. Une base de données répond à de nombreuses problématiques dont le stockage efficace, le tri et la sélection des données. On discerne donc deux organisations distinctes : l’organisation logique, qui désigne le modèle sémantique selon lequel les données sont stockées et l’organisation physique, qui désigne la manière dont les données sont organisées sur le disque dur (Basque, 2005). Définition 3 (la fouille de données) La fouille de données est un processus d’extraction d’informations recevables, compréhensibles, afin de distinguer des relations et des motifs préalablement inconnus dans les données afin de nous aider dans la prise des décisions (Friedman, 1997). Définition 4 La fouille de données est un ensemble de méthodes utilisées dans le processus d’extraction de connaissances afin de distinguer des relations et des motifs préalablement inconnus dans les données (Cios, K.J., Pedrycz, W. and Swiniarski, R.W, 1998). Définition 5 Sur le plan théorique, la fouille de données est une étape dans le processus d’extraction et de connaissances, qui consiste en l’application d’algorithmes de découverte et d’analyse de données qui, avec des limites computationnelles acceptables, produit une certaine énumération de motifs (ou modèles) à partir des données (Fayyad et al., 1996a). Définition 6 La fouille de données est un processus inductif, itératif et interactif dont l’objectif est la découverte de modèles de données valides, utiles et compréhensibles dans de larges bases de données (Talbi, 2000) Définition 7 La fouille de données est un ensemble de techniques d’exploration de données permettant d’extraire d’une base de données des connaissances sous la forme de modèles de description afin de décrire le comportement actuel des données et/ou prédire le comportement futur des données (ESPINASSE, 2008). 8 Sur certaines fractions rationnelles indexées par les graphes 17 La fouille de donnée est l’exploration et l’analyse de grandes quantités de données afin d’y découvrir des motifs et de faire émerger, par des méthodes algorithmiques, des tendances ou des schémas à partir d’un grand volume de données prétraitées. La fouille de données tire son nom à la locution anglaise data mining qui est un domaine nouveau qui trouve sa source dans les années 1980. Elle consiste à rechercher et extraire de l’information utile et inconnue à partir de gros volumes de données stockées dans des bases ou des entrepôts de données (Preux, 2011). Pour la suite, nous employons de façon indifférente la locution fouille de données et data mining.
Différentes tâches effectuées lors des fouilles de données (Data Mining)
Le Data Mining désigne en réalité un ensemble de traitements très différents, menant à la découverte de connaissances variées. Ces traitements sont : – La classification supervisée (tâche de prédiction) : affecter une classe à chaque instance, chaque classe associée à un concept ou comportement spécifique à identifier. – Le clustering (ou classification non supervisée) (tâche descriptive) : identifier des groupes d’instances. – La découverte de règles d’associations (tâche descriptive) : rechercher des implications entre attributs, ou entre classes d’ attributs. – La découverte de séquences : similaire à la recherche de règles d’association avec insertion de la notion de temps. – La détection de déviation / la détection d’écart : identifier des valeurs exceptionnelles. – La recherche de similitudes : identifier des séquences communes entre instances (domaine de la bio-informatique). La fouille de données est une appellation qui regroupe donc plusieurs techniques très différentes les unes des autres. Le domaine est vaste ; nous avons choisi de porter plus particulièrement notre attention sur la recherche de règles d’association. Après avoir fouillé les données, il va falloir extraire les connaissances souhaitées à partir des données. C’est l’objet du paragraphe suivant.