Elaboration d’un modele pour l’optimisation des traitements en big data

ETAT DE L’ART

Introduction sur les Big Data

L’explosion quantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation des données.

Littéralement, ces termes signifient Big Data, méga données, grosses données ou encore données massives.

Big Data est maintenant présentée par de nombreux articles comme une nouvelle révolution industrielle semblable à la découverte de la vapeur (début du 19e siècle), de l’électricité (fin du 19e siècle) et de l’informatique (fin du 20e siècle). D’autres, un peu plus mesurés, qualifient ce phénomène comme étant la dernière étape de la troisième révolution industrielle, laquelle est en fait celle de « l’information ».

Dans un système Big Data, il n’y a pas de schéma explicite de la donnée, la donnée n’est pas structurée. L’objectif est de stocker l’intégralité de la donnée brute, sans transformation et sans choix car on ne sait pas à l’avance ce que l’on va en faire.

Dans tous les cas, le Big Data est considéré comme une source de bouleversement profond de la société. Le but de chapitre est d’appréhender la notion Big Data.

Concept Big Data

L’expression « Big Data » date de 1997 selon l’Association for Computing Machinery. En 2001, l’analyste du cabinet Meta Group (devenu Gartner) Doug Laney décrivait les Big Data d’après le principe des « trois V » à savoir [1.01]:
● le Volume de données de plus en plus massif ;
● la Variété de ces données qui peuvent être brutes, non structurées ou semi structurées ;
● la Vélocité qui désigne le fait que ces données sont produites, récoltées et analysées en temps réel.

Tous les experts sont d’accord que la lettre V caractérise le Big Data. Cependant, certains n’est pas d’accord sur le « trois V » de base mais ajoute d’autres V selon le type d’entreprises.

Les 3 V de base

Volume

Le volume décrit la quantité de données générées par des entreprises ou des personnes. Dans les systèmes d’information en place dans les entreprises, les volumes de données traités se mesurent en téraoctets, voire en pétaoctets (1 pétaoctet = 1000 téraoctets = 1 million de gigaoctets =10¹⁵ octets).

Les entreprises sont submergées de volumes de données croissants de tous types. 90% des données dans le monde ont été créées au cours des deux dernières années. Et 2,5 trillions d’octets de données sont générés chaque jour. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d’images numériques et de vidéos publiées en ligne, d’enregistrements transactionnels d’achats en ligne et de signaux GPS de téléphones mobiles, etc.

Les données numériques créées dans le monde seraient passées de 1,2 zettaoctets (1 zetaoctet =10²¹ octets) par an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et s’élèveront à 40 zettaoctets en 2020.

En janvier 2013, Facebook générait 10 téraoctets de données chaque jour et twitter 7 teraoctets [1.02].

Le volume de données traité est considéré comme le premier critère pour qu’un ensemble de données relève du Big Data. Pourtant, ce premier V est le moins opérant et le plus variable en fonction du secteur et de l’organisation concernés.

Variété

Texte, images, photos, vidéos, quel que soit le format de l’information, les données, structurées ou non structurées, requièrent un nouveau savoir-faire pour être assimilées puis analysées. La prolifération de types de données provenant de sources comme les médias sociaux, les interactions Machine to Machine et les terminaux mobiles, crée une très grande diversité au-delà des données transactionnelles traditionnelles. Les données ne s’inscrivent plus dans des structures nettes, faciles à consommer. Les nouveaux types de données incluent contenus, données géo spatiales, points de données matériels, données de géo localisation, données de connexion, données générées par des machines, données de mesures, données mobiles, points de données physiques, processus, données RFID, données issues de recherches, données de confiance, données de flux, données issues des médias sociaux, données texte et données issues du Web.

Agréger ces données pour les traiter ensemble est la première difficulté que rencontrent entreprises et organisations et souligne l’enjeu primordial de l’interopérabilité des données. En conséquence, une approche d’indexation, de recherche sémantique et de navigation intra- et inter- applications s’impose pour l’exploitation de ces nouveaux médias, sans oublier la nécessité de modélisation de phénomènes complexes.

Vélocité

La vitesse décrit la fréquence à laquelle les données sont générées, capturées et partagées. Du fait des évolutions technologiques récentes, les consommateurs mais aussi les entreprises génèrent plus de données dans des temps beaucoup plus courts. L’importance de l’immédiateté et de l’instantanéité pour recevoir ou émettre des informations par chacun d’entre nous et pour toutes les activités, professionnelles ou personnelles, du quotidien contraigne les organisations à améliorer leurs vitesses de réaction et d’anticipation. À ce niveau de vitesse, les entreprises ne peuvent capitaliser sur ces données que si elles sont collectées et partagées en temps réel.

Table des matières

INTRODUCTION
CHAPITRE 1 ETAT DE L’ART
1.1 Introduction sur les Big Data
1.2 Concept Big Data
1.2.1 Les 3 V de base
1.2.2 Encore plus de V
1.3 Plateformes Big Data
1.3.1 Systèmes de fichiers parallèles
1.3.2 Les bases de données NoSQL
1.3.3 NewSQL en route vers la base de données moderne
1.3.4 L’efficacité des moteurs de traitement existants
1.3.5 Les bases de données non-relationnelles
1.3.6 BigTable et HBase
1.3.7 GFS et HDFS
1.3.8 Les modèles de données non-relationnels
1.3.9 L’activité principale des systèmes distribués
1.4 Infrastructures Big Data
1.4.1 Clusters
1.4.2 Grilles
1.4.3 Clouds
1.5 Applications du Big Data
1.6 Illustration du Big Data : Cas de l’e-commerce
1.6.1 Cas e-commerce Amazon
1.6.2 Cas e-commerce Cdiscount
1.6.3 Cas e-commerce Fnac
1.6.4 Big Data en e-commerce
1.7 Conclusion
CHAPITRE 2 LE TRAITEMENT PARALLELE EN BIG DATA
2.1 Introduction
2.2 Classification des architecture de parallélisation
2.2.1 Taxonomie de Flynn
2.2.2 Architectures conventionnelles
2.2.3 Architectures distribuées
2.3 Bases de données parallèles
2.4 Partitionnement des données dans les bases de données
2.4.1 Définition
2.4.2 Types
2.4.3 Stratégie de Partitionnement
2.4.4 Techniques
2.5 Les techniques de calcul parallèle
2.5.1 Partitionnement et allocation des données
2.5.2 L’équilibrage de charge
2.5.3 Réplication
2.5.4 Tolérance aux pannes
2.6 Objectif du système parallèle
2.6.1 Facteur de rapidité (speed up)
2.6.2 Facteur de passage à l’échelle (scale up)
2.7 Les sources du parallélisme
2.7.1 Parallélisme des données
2.7.2 Parallélisme des tâches
2.7.3 Parallélisme de flux
2.8 Granularité du parallélisme : petits grains et gros grains
2.9 Conclusion
CHAPITRE 3 MAP REDUCE COMME TRAITEMENT PARALLELE EN BIG DATA
3.1 Introduction
3.2 Modèle de programmation
3.2.1 Processus d’un traitement MapReduce
3.2.2 Exemple d’utilisation de MapReduce
3.2.3 Optimisation des clés intermédiaires
3.3 Implémentation dans MapReduce
3.3.1 Propriétés communes recherchées
3.3.2 Mise en oeuvre classique
3.3.3 Extensions pour le matériel non commercial
3.3.4 Extension de stockage non standard
3.4 Variations du modèle MapReduce
3.4.1 Iterative MapReduce
3.4.2 Twister
3.4.3 HaLoop
3.4.4 iMapReduce
3.4.5 iHadoop
3.5 Opérateurs relationnels dans MapReduce
3.5.1 L’opération de jointure
3.5.2 Implémentation de l’algorithme de jointure
3.5.3 L’algorithme de jointure de base dans MapReduce
3.6 Conclusion
CHAPITRE 4 TRAITEMENT DE DONNEES SUIVANT LES TECHNIQUES DES FILTRES DE BLOOM ET MODELISATION D’UN FILTRE D’INTERSECTION
4.1 Introduction
4.2 Bloom Filter
4.3 Spectral Bloom Filter
4.3.1 Construction et maintenance de base d’un SBF
4.3.2 Requête au SBF
4.3.3 Suppression au SBF
4.3.4 Traitement distribué au SBF
4.3.5 Requêtes sur les jointures d’ensemble
4.3.6 Mémoire externe SBF
4.3.7 Mise en œuvre du SBF
4.3.8 Optimisation
4.4 Compressed Bloom Filters
4.4.1 Filtres de Bloom compressés: théorie
4.4.2 Filtres de bloom compressés: pratique
4.4.3 Compression delta
4.4.4 Résultat
4.5 Dynamic Bloom Filters
4.5.1 Construction d’un DBF
4.5.2 Probabilité de faux positifs de DBF
4.5.3 Opérations d’algèbre sur les filtres de Bloom dynamiques
4.5.4 Résultat
4.6 Bloomjoin
4.6.1 Mise en œuvre de Bloomjoin
4.6.2 Résultat
4.7 Modélisation de l’intersection des filtres
4.7.1 Approche 1: intersection des filtres de Bloom non partitionnés
4.7.2 Approche 2: intersection des filtres de Bloom partitionnés
4.7.3 La probabilité de fausse intersection
4.8 Conclusion
CONCLUSION