Le forage de donnees (data mining)

Facebook Tweet Pin Email

Au cours des dernières années, la taille des bases de données n’a pas cessé d’augmenter ce qui rend l’extraction de l’information plus difficile. La méthode traditionnelle de l’extraction de connaissances repose sur l’analyse et l’interprétation manuelle. Par exemple, dans l’industrie des soins de santé, il est courant pour les spécialistes d’analyser périodiquement les tendances actuelles et les changements dans les données de soins de santé, sur une base trimestrielle. Les spécialistes fournissent ensuite un rapport détaillant l’analyse de l’organisation des soins de santé. Ce rapport devient la base des futures prises de décision et de la planification de la gestion des soins de santé.

Cependant, cette approche classique d’analyse des données repose fondamentalement sur un ou plusieurs analystes qui doivent être familiarisés avec les données et doivent servir d’interface entre les données, les utilisateurs et les produits. Cette méthode d’extraction de données est lente, coûteuse et très subjective pour plusieurs domaines. En fait, bien que le volume de données augmente de façon très rapide, ce type d’analyse manuelle des données devient totalement impraticable.

C’est pour cela que les chercheurs et les informaticiens ont décidé de trouver une méthode d’extraction de données plus efficace. En effet, durant les années 60, les spécialistes ont découvert une nouvelle approche d’extraction de données, que l’on appelle le forage de données ou le Data mining. Cette approche est appelée aussi fouille de données et consiste à l’extraction de connaissances intéressantes à partir d’une base de données.

FORAGE DE DONNES ET EXTRACTION DE DONNEES

PROCESSUS DE L’EXTRACTION DE CONNAISSANCES

Le processus de l’extraction de connaissances dans les bases de données, implique l’utilisation de la base de données ainsi que toute sélection, le prétraitement, le sous échantillonnage, les transformations, l’application de méthodes de forage de données pour énumérer des classes de celle-ci; et l’évaluation des produits de l’exploitation de données pour identifier le sous-ensemble des motifs énumérés jugés connaissances.

Le processus de l’extraction de connaissances des bases de données est un processus interactif et itératif impliquant de nombreuses étapes avec de nombreuses décisions prises par l’utilisateur. Brachman et Anand (1996) ont donné une vue pratique de ce processus, qui souligne sa nature interactive [11]:

-étape 1 : développement d’une compréhension du domaine d’application et de connaissances préalables pertinentes et identification de l’objectif du processus de l’extraction de données du point de vue du client.
-étape 2 : création d’un ensemble de données de cible à sélectionner un ensemble de données, ou se concentrant sur un sous-ensemble de variables ou des échantillons de données, sur laquelle une découverte va être faite.
-étape 3 : nettoyage des données et de prétraitement. Opérations de base comprennent la suppression du bruit, le cas échéant, la collecte des informations nécessaires pour la modélisation des classes de données.
-étape 4 : réduction des données et de projection: trouver les fonctionnalités utiles pour représenter les données en fonction de l’objectif de la tâche. Avec la réduction de la dimensionnalité ou des méthodes de transformation, le nombre effectif de variables considérées peut être réduit, ou des représentations invariantes pour les données peuvent être trouvées.
-étape 5 : fixer les objectifs du processus de l’extraction de connaissances pour une méthode d’exploration de données particulière. Par exemple : la synthèse, la classification, la régression, le regroupement, et ainsi de suite…
-étape 6 : choix de l’algorithme d’extraction de données et sélectionner la méthode qui doit être utilisée pour la recherche de modèles de données. En effet, on détermine les paramètres des modèles qui pourraient être appropriés et correspondants à une méthode d’exploration de données particulière avec les critères globaux du processus de l’extraction de connaissances.
-étape 7 : Forage de données (Data mining) : rechercher les classes (les modèles) suite à l’application de règles de classification, de clustering, de régression,… L’utilisateur peut aider de façon significative la méthode d’exploration de données en effectuant correctement les étapes précédentes.
-étape 8 : interpréter les classes extraites.
-étape 9 : utiliser les connaissances extraites directement, en les intégrant dans un autre système, en les utilisant dans nos prochaines recherches ou tout simplement les documenter ou les utiliser dans nos rapports.

LE FORAGE DE DONNEES (DATA MINING)

Le forage de données est une étape, dans le processus de l’extraction de connaissances des bases de données, qui consiste à appliquer l’analyse de données et la découverte des algorithmes qui produisent une énumération particulière de classes (ou modèles) sur les données. C’est un terme ambigu qui a été utilisé pour désigner le processus de trouver des informations intéressantes dans de grands dépôts de données. Il consiste à trouver les modèles intéressants (les classes) dans les données qui ne font pas explicitement partie des données [11]. Il s’agit de l’application de l’ensemble des méthodes et des algorithmes spécifiques pour l’exploration et l’analyse de (souvent) grandes bases de données; en vue de détecter dans ces données des règles, des associations, des tendances inconnues, des structures restituant l’essentiel de l’information utile… et on parle de connaissances afin de faciliter la prise de décisions.

Par exemple, dans les banques, afin de détecter les fraudes et le vol de cartes de crédit, les analystes appliquent les techniques de forage de données. En effet, selon les données historiques recueillies, ils construisent un modèle de comportement frauduleux. Puis ils élaborent la base de données des comportements, et en appliquant les techniques avancées de forage de données ils détectent les comportements frauduleux similaires.

Le grand l’intérêt actuel pour le forage de données et l’extraction de données est le résultat de succès de nombreuses applications d’extraction de données d’intérêt médiatique. Par exemple, les articles d’intervention pendant les dernières années dans Business Week, Newsweek, Byte, PC Week, et d’autres périodiques à large diffusion [11]. Donc le forage de données est utilisé pour des taches d’analyse très complexes, et pour l’extraction des informations très importantes.

Table des matières

CHAPITRE 1 INTRODUCTION
1.1 CONTEXTE DE RECHERCHE
1.2 LES BOTS
1.3 LES JEUX VIDÉO MULTI-JOUEURS EN LIGNE
1.4 Contribution de la mémoire
1.5 Méthodologie de la mémoire
1.6 Organisation du mémoire
CHAPITRE 2 LE FORAGE DE DONNEES (DATA MINING)
2.1 INTRODUCTION :
2.2 FORAGE DE DONNES ET EXTRACTION DE DONNEES
2.2.1 PROCESSUS DE L’EXTRACTION DE CONNAISSANCES
2.2.2 LE FORAGE DE DONNEES (DATA MINING)
2.3 LES OPERATIONS DE FORAGE DE DONNEES (DATA MINING) (utilisées dans le
projet) :
2.3.1 LA CLASSIFICATION SUPERVISEE
2.3.2 LA CLASSIFICATION NON SUPERVISEE : LE CLUSTERING
2.4 CONCLUSION :
CHAPITRE 3 LES APPROCHES EXISTANTES POUR LA DETECTION DES BOTS DANS LES JEUX VIDEO MULTI-JOUEURS EN LIGNE
3.1 ARCHIVE DE TRACE DE JEU
3.1.1 EXIGENCE1 : COLLECTE DE TRACES :
3.1.2 EXIGENCE 2: CONVERSION DE TRACES ET ANONYMISATION:
3.1.3 EXIGENCE 3 : TRAITEMENT DE TRACES :
3.2 LE FORMAT DE TRACE DE JEU
3.2.1 L’ensemble de données de la relation graphique (Relationship graph dataset)
3.2.2 L’ensemble de données de nœud (Node Dataset)
3.2.3 L’autre ensemble de données liées au jeu (Other Game-Related Dataset)
3.3 UTILISATION DE TRACES HUMAINES PAR LES BOTS
3.3.1 NAVIGATION DE BOTS VIA LA LECTURE DES TRACES HUMAINES
3.3.2 PROGRAMMATION DES AGENTS JOUEURS DE FOOT EN MODELESANT LE
COMPORTEMENT HUMAIN
3.4 LES TECHNIQUES UTILISEE POUR LA DETECTION DE BOTS
3.4.1 DETECTION DE BOTS EN UTILISANT LES PREUVES HUMAINES
3.4.2 DETECTION DE BOTS EN UTILISANT LES ACTIONS REPETITIVES
3.4.3 DETECTION DE BOTS EN SE BASANT SUR L’ANALYSE DE TRAJECTOIRE
3.4.4 DETECTION DE BOTS EN UTILISANT LE RESEAU DE NEURONES BAYESIEN
3.4.5 DETECTION DE BOTS EN UTILISANT L’APPROCHE D’ANALYSE DE TRAFIC
3.4.6 DETECTION DE BOTS EN UTILISANT LES TESTS CONTINUS INTEGRES NON
INTERACTIFS :
3.5 PREVENTION CONTRE LES BOTS
CHAPITRE 4 APPROCHES PROPOSEES POUR LA DETECTION DES BOTS DANS LES JEUX VIDEO MULTI-JOUEURS EN LIGNE BASEE SUR LE FORAGE DE DONNEES
4.1 INTRODUCTION :
4.2 DESCRIPTION DE DONNEES :
4.2.1 QUAKE2 :
4.2.2 LES TRACES HUMAINES:
4.2.3 LES TRACES DE BOTS:
4.3 ANALYSE DE DONNEES :
4.3.1 LA VITESSE :
4.3.2 COURBES DE VITESSES
4.4 VITESSES SUR DES INTERVALLES DE 200 S
4.4.1 COURBES DE VITESSES
4.4.2 CLASSIFICATION DES VITESSES DE 200 S
4.5 CALCUL DE RATIOS DE VITESSES SUR DES INTERVALLES DE 200 S
4.5.1 COURBES DE RATIOS DE VITESSES
4.5.2 CLASSIFICATION SELON LES RATIOS DE VITESSES:
4.6 VARIATION DE VITESSES
4.6.1 TRAVAIL PLUS DETAILLÉ SUR LAVARIATION DE VITESSES
4.6.2 CLASSIFICATION SELON LES VARIATIONS DE VITESSES
4.7 ACCELERATION MOYENNE DE LA TRACE
4.8 ECART TYPE ABSOLU DE LA TRACE
4.9 LONGUEURS D’ONDES POUR LES TRACES
4.10 ONDES MOYENNES DES TRACES
4.11 POURCENTAGES DE VITESSES PAR RAPPORT A LA VITESSE MOYENNE
4.12 LES MODÈLES DES AGENTS
4.12.1 LE RESEAU DE NEURONES
4.12.2 L’ALGORITHME DBSCAN
4.13 ANALYSE DE DEPLACEMENTS DES AGENTS
4.14 CONCLUSION
CHAPITRE 5 CONCLUSION