BIG DATA POUR LE PILOTAGE DE LA GESTION DES FINANCES PUBLIQUES

BIG DATA POUR LE PILOTAGE DE LA GESTION DES FINANCES PUBLIQUES

 Concept large aux différentes acceptations

La terminologie et les frontières du Big Data sont floues parce que ce concept connaît des champs d’applications très différentes. La difficulté à définir ce qu’est le Big Data provient de la diversité des acteurs qui se sont emparés de cette expression. Chaque définition est ainsi colorée différemment en fonction d’objectifs et d’intérêts. Ainsi, il n’est pas surprenant de constater que la définition d’Oracle met l’accent sur l’infrastructure qui constitue le cœur de son activité : « Le Big Data est le résultat de l’exploitation d’une base de données traditionnelles, enrichie par des données non structurées. » De la même manière, Intel fonde la sienne sur son expérience avec ses clients : « Les opportunités offertes par le Big Data sont issues des organisations générant environ 300 terabytes de données par semaine. Le type le plus répandu de données analysées de cette façon sont les transactions commerciales, suivies des documents, emails, données capteur, blogues et medias sociaux. » Microsoft, quant à lui, insiste sur le besoin en puissance de calcul : “Big Data est le terme de plus en plus employé pour décrire le processus qui applique la puissance informatique: machine learning et intelligence artificielle à un jeu massif et souvent très complexe d’informations ». 

Définition par le procédé

Les deux points précédents illustrent la difficulté à définir le Big Data comme un fait statique. Pour mieux appréhender la notion, il conviendrait de distinguer ce qui est nouveau, autrement dit nombre 4 de données et nouvelles opportunités technologiques, de ce qui ne l’est pas : son principe de fonctionnement. 

Fonctionnement traditionnel en trois temps

On peut définir le Big Data comme un processus de traitement de la donnée qui comporterait trois étapes : collection, agrégation et analyse. Ce n’est qu’à travers ces trois actions que des ensembles de données, si vastes et véloces soient-ils, deviennent du Big Data. [2] a. Collection des données Construire une base de données nécessite de récolter une multitude d’informations générées tant par la navigation en ligne (du clic au surlignage d’un texte), les objets connectés de notre quotidien, les organisations publiques ou privées qui libèrent des jeux de données (Open Data), etc. b. Agrégation L’objectif est de préparer une base de données opérationnelles à partir de données initialement hétérogènes et non exploitables telles quelles. Cette étape est essentielle car elle conditionne le travail d’analyse : seules des données nettoyées et cohérentes peuvent délivrer du sens. L’agrégation de données provenant de sources différentes constitue le défi majeur. c. Analyse À ce stade, les données sont interopérables entre elles et prêtes à être analysées. Les applications Big Data varient naturellement d’un secteur et d’un acteur à l’autre. On peut distinguer trois utilisations majeures :  Détecter et optimiser : L’afflux et le croisement de données en temps réel permettent une compréhension fine de l’environnement. La prise de décision est facilitée et les activités peuvent être pilotées plus efficacement.  Tracer et cibler :  La granularité des données analysées autorise la découverte et le suivi à un niveau très fin, par exemple l’individu dans le cadre d’une population d’un pays.  Prévoir et prédire : Les vastes données disponibles sur un phénomène ou une population permettent de construire des modèles prédictifs. Leurs capacités sont puissantes mais présentent des limites dans l’anticipation de phénomènes nouveaux. Ce fonctionnement s’inscrit dans les pas du datawarehousing – une technique vieille de plus de trente ans. En effet, un datawarehouse (ou entrepôt de données) est un serveur informatique dans lequel est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d’une entreprise. L’organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l’information stratégique dont elles ont besoin pour la prise de décision. 

Origines du Big Data

Data déluge

A la base du Big Data, il y a donc ces fameuses données… Un « data déluge » comme le dit le terme consacré, car la production de données numériques aujourd’hui se mesure en exaoctets. Ce déluge est illustré par la figure ci-dessous. Ce qui interpelle, c’est essentiellement la croissance exponentielle de ces données : on estime que tous les deux ans, il se crée autant de données que depuis le début de l’humanité, ce qui amène les prévisionnistes à parler de 40 zettaoctets pour 2020 ! D’où proviennent ces données et comment expliquer cette explosion soudaine ? Il y a bien sûr la mise à disposition généralisée d’outils numériques de plus en plus performants et connectés, tels que les ordinateurs et les smartphones reliés à Internet en permanence. L’accès à l’information instantanée s’est démocratisé par les réseaux sociaux et, dans un nombre important de pays, les administrations publiques lèvent le voile sur leurs données à travers le mouvement d’Open Data. Mais au-delà, on envisage de plus en plus la multiplication de données issues d’objets interconnectés, de type capteurs ou puces mobiles : ce qui avait été approché avec le RFID (par exemple au sein des cartes de transport ou par code-barres dans les chaînes logistiques) pourrait être généralisé dans les années à venir à travers l’Internet des Objets. 6 Concrètement, il est aujourd’hui technologiquement possible de connecter entre eux les objets de son quotidien, par exemple son réveil avec son calendrier Outlook, ou bien son véhicule avec les applications de stationnement, ou encore son réfrigérateur avec son panier de courses en ecommerce. Des perspectives technologiques qui restent encore expérimentales mais pourraient vite exploser : Ericsson a ainsi estimé le nombre d’objets connectés dans le monde à 50 milliards en 2020 (12 milliards aujourd’hui). Figure 1.01 : Déluge de données

Variété des données : données multi structurées

Cette mutation dans l’univers numérique n’est pas seulement quantitative : au-delà de leur nombre, les données mises à disposition sont également de plus en plus variées et de plus en plus distribuées. Les données textuelles, les données de logs, les données mobiles, les vidéos, etc. sont ainsi venues perturber les technologies de traitement traditionnelles, car ce ne sont pas des données structurées telles qu’on pouvait en trouver auparavant (comme par exemple les données chiffrées ou transactionnelles…). On parle alors de données non-structurées ou bien multi structurées. Tout l’enjeu technologique des années 2000 a donc résidé dans la captation et le traitement de ces nouveaux formats de données. 7 Au-delà d’un volume gigantesque, c’est la diversité des sources de données qui donne au Big Data toute son ampleur. Deux leviers principaux soutiennent cette croissance de la production de données: l’effacement de la frontière entre comportements online et offline et la mise à disposition des données publiques. On identifie aujourd’hui quatre grands facteurs responsables de l’explosion de la production de données par nos comportements connectés.

Les réseaux sociaux

A chaque minute écoulée, on compte sur internet au niveau mondial : 98 000 tweets, 695 000 mises à jour de statuts et onze millions de messages instantanés sur Facebook. Ce dernier s’occupe également de la gestion de 50 milliards de photos. 

Les objets connectés

Selon la Commission européenne, un Européen dispose en moyenne de deux objets connectés en 2012. En 2015, il en disposera sept. En 2020, il y aurait entre 30 et 80 milliards de nouveaux objets connectés dans le monde. 

Les technologies mobiles

On considère qu’un smartphone génère environ 60 gigabytes chaque année. Si on multiplie ce chiffre par le nombre de smartphones dans le monde soit environ un milliard, on obtient une production de données par an de 56 exabytes soit la totalité de la bande passante consommée en 2013, dans le monde. Le terme Big Data prend alors tout son sens. En 2018, les prévisions estiment qu’il y aura 3,3 milliards de smartphones dans le monde.

Les comportements numériques scrutés, analysés et stockés

A chaque minute écoulée, on compte sur Internet 700 000 recherches Google, 12 000 annonces sur Craigslist, 600 nouvelles vidéos Youtube et 1 500 articles de blogues. Selon IDC, on comptera en 2016 dans le monde plus de deux milliards d’ordinateurs connectés à Internet. La figure 1.02 montre les types de données générées dans plusieurs secteurs d’activités.

Table des matières

INTRODUCTION GENERALE
CHAPITRE 1 ETAT DE L’ART DU BIG DATA
1.1 Introduction
1.2 Historique
1.3 Définition
1.3.1 Concept large aux différentes acceptations
1.3.2 Définition par le procédé
1.4 Origines du Big Data
1.4.1 Data déluge
1.4.2 Variété des données : données multi structurées
1.5 Principales caractéristiques du Big Data
1.5.1 Volume
1.5.2 Variété
1.5.3 Vélocité
1.6 Mouvement NoSql
1.6.1 Relationnel versus NoSql
1.6.2 Caractéristiques du NoSQL
1.6.3 Classification des moteurs NoSQL
1.7 Infrastructures du Big Data
1.7.1 Cluster
1.7.2 Grid
1.7.3 Cloud
1.8 Enjeu du Big Data
1.9 Perspectives du Big Data
1.9.1 Marketing
1.9.2 Pilotage d’entreprise
1.9.3 Recherche
1.9.4 Information
1.9.5 Les données mobiles
1.10 Conclusion
CHAPITRE 2 BIG DATA : DEMARCHE ANALYTIQUE
2.1 Introduction
2.2 Big Data Analytique
2.2.1 Définition
2.2.2 Outils d’analyse du Big Data
2.2.3 Comparaison des techniques analytiques traditionnelles et du Big Data analytique
2.3 Data science
2.3.1 Présentation
2.3.2 Data mining
2.4 Analyse des données
2.4.1 Définition
2.4.2 Cycle de vie d’un projet d’analyse de données
2.4.3 Analyse prédictive
2.4.4 Utilisation de l’analyse prédictive
2.5 Machine learning
2.5.1 Définition
2.5.2 Théorie du machine learning
2.5.3 Indicateurs d’écart en Machine Learning
2.5.4 Qualité d’un algorithme de machine learning
2.5.5 Performance d’un modèle et surapprentissage
2.5.6 Différents types de machine learning
2.6 Conclusion
CHAPITRE 3 OUTILS DU BIG DATA ANALYTIQUE
3.1 Introduction
3.2 Présentation des outils de Big Data
3.2.1 Hadoop
3.2.2 Spark
3.3 Comparaison des solutions de Big Data
3.3.1 Comparaison des bases de données NoSQL
3.3.2 Hadoop vs Spark
3.4 Technologie Apache Spark
3.4.1 Ecosystème
3.4.2 Architecture
3.4.3 Spécificités
3.4.4 Atouts
3.5 Langage R
3.5.1 Présentation
3.5.2 Philosophie de R
3.5.3 Concepts du langage
3.6 Architecture proposée
3.6.1 Sparklyr
3.6.2 Oracle Database
3.6.3 Schéma de l’architecture
3.7 Conclusion
CHAPITRE 4 CONCEPTION ET REALISATION
4.1 Introduction
4.2 Gestion des finances publiques
4.2.1 Définition
4.2.2 Terminologies
4.2.3 Phases de la GFP
4.3 Configuration de Spark dans R
4.4 Etapes de l’analyse
4.4.1 Revue de détail du problème posé
4.4.2 Travaux préliminaires sur les données
4.4.3 Cycle de modélisation
4.5 Conclusion
CONCLUSION GENERALE
ANNEXES
ANNEXE 1 : EXTRAITS DE CODE
ANNEXE 2 : MCD DEPENSES
BIBLIOGRAPHIE

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *