Les principaux acteurs du Big Data
La Fondation Apache est ainsi particulièrement active dans ce domaine, en lançant ou en recueillant plus d’une dizaine de projets, matures ou en incubation tels que Hadoop, Lucene/Solr, Hbase, Hive, Pig, Cassandra, Mahout, Zookeeper, S4, Storm, Kafka, Flume, Hama, Giraph, etc. Outre les sociétés du Web, le secteur scientifique sont également historiquement très ouverts à l’open source , et ont logiquement effectué des contributions importantes dans le domaine du Big Data. La plupart de ces technologies open source ont par ailleurs donné lieu à la création de startups, massivement financées pour certaines. Par exemple, autour de Hadoop, on peut citer : Cloudera , Hortonworks, Datameer, Zettaset, Drawntoscale, etc. Les grands acteurs des logiciels et systèmes d’entreprises ne sont pas épargnés par cette vague du Big Data open source : Oracle a mis Hadoop au coeur de son big data appliance lancé en octobre 2011 ; Microsoft a annoncé en novembre 2011 l’arrêt de son projet interne de MapReduce pour Azure (baptisé « Dryad ») au profit d’Hadoop 5 ; IBM, EMC et Netapp ont également intégré Hadoop dans leur offre de big data.
L’origine des données du Big Data
Les données traitées par le Big Data proviennent notamment du web. On peut citer les journaux d’accès, les réseaux sociaux, le e-commerce, le stockage de documents , de photos, de vidéos etc.Comme exemple nous avons Google qui traitait en 2009 24 pétaoctets de données par jour avec MapReduce . Plus généralement, elles proviennent de l’internet et des objets communicants à savoir le RFID, réseaux de capteurs, des journaux des appels en téléphonie des sciences comme la génomique, l’astronomie, la physique subatomique, la climatologie avec l’exemple du centre de recherche allemand sur le climat qui gère une base de données de 60 pétaoctets , etc.
Elle proviennent aussi des données commerciales comme exemple on peut citer l’historique des transactions dans une chaîne hypermarchés. Elles peuvent aussi provenir des données personnelles (ex : dossiers médicaux), des données publiques (open data).
La Solution Hadoop
Hadoop est un framework libre et open source écrit en Java destiné à faciliter la création d’applications distribuées (au niveau du stockage des données et de leurs traitements) et échelonnables permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Ainsi chaque nœud est constitué de machines standard regroupées en grappe. Tous les modules de Hadoop sont conçus dans l’idée fondamentale que les pannes matérielles sont fréquentes et qu’en conséquence elles doivent être gérées automatiquement par le framework.
Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Le noyau d’Hadoop est constitué d’une partie de stockage : Hadoop Distributed File System (HDFS), et une partie de traitement appelé MapReduce. Hadoop fractionne les fichiers en gros blocs et les distribue à travers les nœuds du cluster. Pour traiter les données, Hadoop transfère le code à chaque nœud et chaque nœud traite les données dont il dispose. Cela permet de traiter l’ensemble des données plus rapidement et plus efficacement que dans une architecture super calculateur plus classique qui repose sur un système de fichiers parallèle où les calculs et les données sont distribués via les réseaux à grande vitesse. Apache hadoop est un framework logiciel open source qui prend en charge des applications nativement parallèles capables de traiter des données massives.Pour beaucoup de gens, hadoop est devenu synonyme de big data. Il permet d’exécuter des applications sur de grands clusters de matériels standard dit commodity hardware.
Il met en œuvre le paradigme de traitement nommé Mapreduce, dans lequel une application est divisée en nombreux petits fragments, chacun d’eux pouvant être exécuté ou ré exécuté sur n’importe quel nœud du cluster. En outre, il possède un système de fichiers distribué nommé HDFS qui stocke les données sur les nœuds de calcul ce qui fournit une bande passante agrégée très importante dans le cluster. Mapreduce et HDFS sont conçu de telle sorte que les défaillances des nœuds soient gérées automatiquement par le framework. Cela permet aux applications de fonctionner avec de millier d’ordinateurs indépendants et des pétaoctets de données. On considère communément que la plateforme Apache hadoop est composée de noyau Hadoop, de Mapreduce, de HDFS et d’un certain nombre de projets associés dont Apache hive Apache HBASE et d’autre. Le framework Hadoop de base se compose de Hadoop Common , Hadoop Distributed File System (HDFS), de Hadoop YARN ,de Hadoop MapReduce .
Pourquoi avoir choisi Oracle Big Data SQL
Avec l’augmentation du volume de données à gérer, les entreprises se sont tournées vers des solutions bien adaptées à la gestion des Big Data comme Hadoop et NoSQL. Cependant, chaque outil peut entrainer un cloisonnement des données qui va en compliquer l’accès ainsi que l’analyse, et pénaliser ainsi l’extraction d’informations à forte valeur ajoutée. Pourtant, en entreprise, ces outils se partagent couramment la scène avec d’autres systèmes de gestion de données.
De plus, pour analyser les données, les entreprises sont obligées d’avoir recours à plusieurs compétences et outils, pour par exemple bâtir des requêtes distinctes (relationnelles et non relationnelles) pour chaque plateforme pour ensuite tenter de relier les résultats, ou encore transférer les données et les analyser avec un langage basé sur MapReduce.
Pour pallier à cela, Oracle propose Oracle Big Data SQL pour permettre aux entreprises de transformer leur architecture de gestion des données en un véritable système de gestion Big Data, capable d’intégrer de façon transparente tous les types de données issues des sources les plus diverses, y compris Hadoop, NoSQL et les données relationnelles. La solution s’exécute sur Oracle Big Data Appliance et peut fonctionner avec Oracle Exadata Database Machine.
Doté d’une technologie de Smart Scan issue d’Oracle Exadata, Oracle Big Data SQL promet d’offrir aux utilisateurs la possibilité d’interroger toutes les formes de données structurées et non structurées, tout en garantissant la sécurité et les performances.
Au-delà des bases de données relationnelles, les entreprises utilisent des sources de données toujours plus diversifiées telles que Hadoop et NoSQL. Mais cette évolution entraîne un cloisonnement accru des données, qui pénalise leur analyse et restreint le potentiel Big Data », déclare Andrew Mendelsohn, Executive Vice President, Database Server Technologies chez Oracle. Oracle Big Data SQL s’appuie sur le langage de requête extrêmement populaire que représente aujourd’hui SQL pour décloisonner les données et intégrer les Big Data avec les outils classiques de l’entreprise .
Oracle Big Data SQL permettra donc d’exécuter des requêtes SQL sur Hadoop, NoSQL et Oracle Database, en minimisant les déplacements de données tout en augmentant la performance. Selon Oracle, sa solution permet de faciliter et accélérer la découverte d’informations à forte valeur ajoutée, tout en protégeant la sécurité des données et en assurant leur gouvernance.
Réduction des risques du big data
Pertes de données : La perte ou le vol de données à cause d’une mauvaise maîtrise des nouvelles solutions, la dépendance à des fournisseurs, des applications ou des technologies jeunes et mouvantes, l’interception de données, ou encore la perte des infrastructures informatiques sont des risques existant déjà dans les systèmes actuels de traitement de données, mais qui se trouvent amplifiés par le phénomène Big Data. Dès lors, quelles approches faut-il aujourd’hui privilégier pour maîtriser ces risques ? Quelles solutions peut-on adopter ?
La solution sera d’évaluer l’impact des risques. Une fois les risques identifiés, il va s’agir de les traiter, notamment en trouvant des moyens de s’en prémunir. S’assurer que les technologies sont maîtrisées et il faudra être en mesure de proposer des solutions techniques de sécurisation. Parmi ces solutions nous avons la protection des données, le contrôle des accès , le chiffrement intégral des bases de données et la gestion des identités ainsi que des accès centralisées par groupe d’utilisateurs ou par rôles.
Authentification : Initialement destinée à des traitements massifs de données publiques web, la confidentialité n’était pas un élément structurant du cahier des charges du Big data. En outre, réalisés par des clusters de confiance, les traitements ne nécessitaient pas de mettre en place des dispositifs d’audit ou de contrôle d’accès évolués pour une authentification. Mais Depuis 2010, la communauté Hadoop a réagi et a déployé des mécanismes jugés adaptés comme l’authentification Kerberos, l’acces Control List sur les objets, le système de fichiers HDFS. Enfin, début 2013, une initiative majeure Open Source a été lancée par Intel (projet Rhino) pour améliorer les fonctionnalités natives de sécurité avec chiffrement et gestion des clés, les framework d’autorisation.
Pour protéger un système d’information, il est essentiel d’intégrer un outil permettant l’identification de la personne ou un processus, avant de lui permettre de se connecter. Une fois connectée, la personne n’est pas autorisée à tout faire ou à accéder à l’ensemble des ressources.
Plusieurs techniques peuvent être utilisées. La plus ancienne est celle utilisant ABAC (Attribute Based Access Control) : contrôle d’accès basé sur les attributs. Une autre technique, la plus répandue, est celle des RBAC (Role Based Access Control) qui permet de contrôler les accès en se basant sur les rôles.
Table des matières
INTRODUCTION GÉNÉRALE
1 GÉNÉRALITÉ SUR LE BIG DATA
1.1 Le BIG DATA
1.1.1 C’est quoi le Big data ?
1.1.2 Les principaux acteurs du Big Data
1.1.3 L’origine des données du Big Data
1.1.4 Le stockage
1.2 Hadoop et son écosystéme
1.2.1 La Solution Hadoop
1.2.2 Ecosystéme d’hadoop
1.2.3 Pourquoi avoir choisi Oracle Big Data SQL
2 ORACLE BIG DATA APPLIANCE ORACLE BIG DATA SQL
2.1 Oracle big data Appliance
2.2 Oracle big data sql
3 PROPOSITION D’UNE STRATÉGIE DE SÉCURITÉ POUR LE BIG DATA
3.1 L’évaluation des risques
3.2 Réduction des risques du big data
3.2.1 Pertes de données
3.2.2 Authentification
3.2.3 Introduction de données malveillant
4 DEPLOIEMENT ET TEST
4.1 Achitecture
4.2 Configuration de Oracle Big Data Lite
4.3 oracle big data sql : exemples
4.3.1 Exemple 1 : requêter des données entre la base de données
oracle et Hadoop avec oracle big data sql
4.3.2 Exemple 2 :requêter des données entre la base de données
oracle NOSQL et Hadoop avec oracle big data sql à partir de la base de données oracle
4.4 la sécurité avec oracle big data sql
CONCLUSION GÉNÉRALE
A ANNEXES