Pentaho Data Integration

Pentaho Data Integration

Pentaho Data Integration (PDI) est une solution permettant de faire la phase d’ETL. Les avantages de PDI sont :
 c’est une solution gratuite et open source ;
 il est entièrement basé sur du java, ce qui le rend portable sur les différents systèmes d’exploitation ;
 il peut communiquer avec plusieurs sources de données (MySQL, SQL Server, Postgres, etc…)2
 SQL Server Integration Service (SSIS)3
C’est un outil de Microsoft disponible avec la licence SQL Server (Editions Business Intelligence et Enterprise). Il permet de faire la chaîne ETL. Il peut prendre en entrée plusieurs sources de données (MySQL, Oracle, SQL Server, Access, Excel, fichiers plats, etc.).
Les principaux avantages de SSIS sont :
 il est intégré dans visual studio ;
 il a de nombreux connecteurs disponibles (Oracle, Teradata, SAP, etc.) ;
 facile à prendre en main ;
 il offre la possibilité de créer de nouveaux modules.

Pentaho Mondrian Analysis

Mondrian est un moteur OLAP écrit en Java par Julian Hyde qui permet la conception, la publication et le requêtage de cubes multidimensionnels.
Mondrian permet l’exécution de requêtes en langage MDX sur des entrepôts de données s’appuyant sur des SGBDR, d’où sa caractérisation de ROLAP. En matière de ROLAP, Mondrian est la référence open source.
Mondrian est particulièrement puissant et permet d’optimiser les temps de réponse en utilisant des tables d’agrégats, créées au préalable, mais permet aussi de faire des calculs complexes.

SQL Server Analysis Services

SQL Server Analysis Services (SSAS) est un produit Microsoft qui appartient à la suite SQL Server.
Il est dédié à la mise en place de cubes d’analyse multidimensionnelle appelés cubes OLAP ainsi que de bases In memory grâce au mode tabulaire désormais présent depuis les versions Microsoft BI 2012.
Les principales fonctionnalités de SSAS sont :
 la création et la gestion de structures multidimensionnelles ;
 la création d’indicateurs de performances ;
 la création de membres calculés ;
 l’intégration des hiérarchies dans les dimensions ;
 la gestion des rôles d’accès aux cubes ;
 le Data Mining (exploration de données) ;
 la création de bases In Memory via le mode tabulaire
 l’intégration des cubes dans Excel.

REPORTING

SQL Server Reporting Services (SSRS)

SSRS est une plateforme de reporting complète faisant partie de la chaîne décisionnelle Microsoft SQL Server.
Les rapports sont développés via Visual Studio pour être publiés sur un portail Web.
Il inclut aussi un outil de génération de rapports ad-hoc. Il s’agit de Report Builder, un concepteur de rapports intuitifs à destination des utilisateurs finaux. Il offre un plus grand niveau d’autonomie aux utilisateurs finaux dans la conception de leurs rapports.
Les principales fonctionnalités principales de SSRS :
 la centralisation de la gestion et du stockage des rapports ;
 la gestion de la sécurité d’accès aux rapports en se basant sur des rôles ;
 la création de différents types de rapports (interactifs, tabulaires, graphiques, matrices, tableaux de bord, …) ;la création de rapports à partir de différentes sources de données (Excel, fichiers plats, SGBD relationnels, Olap, …) ;
 l’exportation des rapports vers d’autres applications ;
 la publication des rapports via le portail web SSRS ou portail SharePoint ou par le biais d’autres applications spécifiques ;
 la diffusion automatique, planifiée et paramétrée des rapports via l’outil d’abonnement aux rapports ;
 la définition de la navigation entre les rapports afin d’optimiser l’exploitation des rapports volumineux ;
 l’exploitation des données spatiales.
Les avantages de SSRS sont :
 la mise en place simple et rapide d’infrastructures de Reporting centralisées en se basant sur différent types de sources de données (relationnelles et multidimensionnelles) ;
 la standardisation de l’utilisation des rapports ;
 le développement SSRS ne nécessite pas des compétences techniques pointues ;
 les objets SSRS développés (rapports, sources de données et datasets) sont sous format XML ;
 le développement SSRS se fait via Visual Studio, donc la création d’applications spécifiques utilisant des rapports se fait dans un même environnement (Exemple : générer des rapports à partir d’une application Asp.Net personnalisée) ;
 la simplification et la standardisation de la gestion et de l’utilisation des sources de données de type SQL Server Analysis Services ;
 la possibilité d’exporter les rapports dans plusieurs formats (Excel, Word, Texte, XML, PDF, TIFF, MHTML, …) ;
 l’intégration dans SharePoint.

Pentaho Report Designer

Pentaho Report Designer (PRD) est un outil de reporting open-source qui permet de créer des rapports d’analyse basés sur différentes sources de données. Il génère les rapports aux formats PDF, HTML, XML, CSV, RTF, XLS.

Présentation des inputs

Présentation des fichiers de données

Pour alimenter notre entrepôt, nous recevons des fichiers de données sous format SPSS. Ces fichiers contiennent les données recueillies lors du RGPHAE. Ils se présentent sous forme de matrice. Chaque ligne représente des informations sur un fait étudié (individu, habitation, décès, émigration, agriculture et élevage). Chaque colonne représente une variable, chaque cellule contient la valeur d’une variable. Il faudra aussi noter que pour certaines variables, leurs valeurs sont prises dans une liste de modalités établies au préalable comme par exemple la variable région.

Présentation des métadonnées

La métadonnée est une information sur la donnée. Elle permet de savoir par exemple : le processus d’obtention de la donnée, sa signification (ce qu’elle représente), sa nature (qualitative ou quantitative), etc.
Dans chaque fichier de données reçu, nous distinguons deux types de variables : celles qui puisent leurs valeurs à partir de listes préétablies appelées modalités et celles pour lesquelles les valeurs possibles ne sont pas connues à l’avance. Les métadonnées nous permettent donc d’avoir des informations sur les variables. Pour les variables avec des modalités, la métadonnée peut être séparée en deux parties : les informations de la variable et les modalités de la variable.

Chargement des données

Dans cette partie, nous détaillons le processus de chargement des données.
La mise en oeuvre de la phase ETL commence par le recueil des différentes sources (fichiers SPSS). S’en suit la conversion des fichiers source au format EXCEL pour permettre leur chargement à partir de SSIS. On procède par la suite au chargement des données des fichiers source dans une base de données temporaire sur différentes tables conçues de manière à contenir toutes les informations valides ou non. Les colonnes de ces tables sont déclarées de type chaine de caractères sur un maximum de positions et ces tables sont appelées tables source.
Après cette étape, nous chargeons les informations des tables source dans les tables opérationnelles (avec les bons types de données). Dans ce processus, des transformations sont parfois nécessaires pour des besoins d’harmonisation et de substitution (remplacement de NULL par une information pertinente).

Conception base de données multidimensionnelles

Les données utilisées dans notre solution multidimensionnelle proviennent des tables de dimensions et de faits.
Dans l’implémentation, l’option prise a été de constituer un cube pour chaque sujet, à l’exception des sujets agriculture et élevage qui ont été regroupés. Ainsi, les cubes Individu, Emigration, Décès, Habitat, et Agriculture et Elevage ont été obtenus (voir schéma ci-dessous).
Dans certaines dimensions, des hiérarchies ont été définies pour permettre de réaliser des opérations d’agrégation et/ou désagrégation entre les différents attributs. En termes d’illustrations, pour les localités, la hiérarchie entre les régions, départements, communes et milieux de résidence permet d’agréger la mesure à différents niveaux (selon les communes, départements et régions).
Notre base de données multidimensionnelle repose sur la structure de stockage MOLAP car les résultats aux requêtes possibles y sont déjà stockés. Ce choix se justifie du fait que les temps de réponse aux requêtes sont meilleurs et que nous n’avons pas de contrainte particulière en termes d’espace disque pour le stockage.

Conclusion

Dans cette partie, nous vous avons présenté pourquoi nous avons choisi la suite BI de Microsoft aux dépens de la panoplie d’outils disponibles. Nous avons aussi montré comment nous avons implémenté notre solution. Dans la partie qui suit, nous vous présenterons quelques résultats que nous avons obtenus.