Langage d’interrogation des données dimensionnelles à contraintes

Télécharger le fichier original (Mémoire de fin d’études)

Caractéristiques des systèmes décisionnels

Les systèmes d’information se sont souvent développés par domaine d’activité : financier, commercial, marketing, etc. L’information accumulée est très diverse et elle est gérée par des systèmes hétérogènes (Gardarin, 1999). Le but de ces systèmes est de fournir aux organismes l’infrastructure nécessaire pour réaliser leurs tâches quotidiennes.
Un grand besoin d’intégration de ces systèmes, dit transactionnels « OLTP : On-Line Transactional Processing », est ressenti afin de permettre à tous les acteurs de disposer des informations relatives à leurs centres d’intérêts (Gardarin, 1999). Ces informations doivent pouvoir être accessibles et faciles à interroger par le décideur en fonction de son secteur d’activité (marketing, économique, …) (Codd et al, 1993) (Kimball et al, 2002).
L’approche adoptée pour répondre à ce besoin est de regrouper les informations disparates, après les avoir pré-traitées, au sein d’un unique espace de stockage de données intégrées par sujet. L’analyse de ces données par des requêtes interactives devient alors possible et permet de prendre rapidement de meilleures décisions. Différents outils d’analyse peuvent être greffés sur cet espace tels que les outils d’analyse interactive, les outils de fouille de données permettant l’extraction de nouvelles connaissances et les requêteurs fournissant des tableaux de bord aux différents acteurs de la décision.
Ainsi, le système décisionnel obtenu est basé sur deux composantes, un espace de stockage de données de synthèse, intégrées et historisées et des outils d’analyse qui assurent la présentation des données à l’aide d’interfaces graphiques.

Définition

Un système décisionnel est un système d’information qui regroupe les données d’aide à la décision et facilite leur exploitation en fournissant les outils adéquats.
Dans le contexte des systèmes décisionnels, nous avons étudié les systèmes OLAP
On-Line Analytical Processing » (Codd et al, 1993) qui proposent de : − collecter les données pertinentes,
− les organiser selon des structures adaptées à la prise de décision, − les interroger d’une manière interactive et dynamique.
Une plus ample description de ces systèmes est présentée dans la section suivante.

Systèmes OLAP

Dans la littérature, plusieurs définitions sont proposées pour les systèmes OLAP (Codd et al, 1993) (Villacampa, 2002) (OLAP Report1). Dans ces définitions, les caractéristiques de base sont la structure dimensionnelle des données, les données forment des points dans un espace à plusieurs dimensions, et l’interactivité de l’interrogation afin de s’approcher de la perception du décideur et de l’aider au mieux dans son processus de prise de décision. Nous proposons alors de définir les systèmes OLAP comme suit :
Définition
Un système OLAP est un système d’information décisionnel qui organise les données dans un espace dimensionnel. Il regroupe un ensemble d’outils en interaction qui réalisent la synthèse dynamique, l’analyse interactive et l’agrégation d’un grand volume de données afin d’améliorer le processus de prise de décision.
Ce système réunit un ensemble de nouvelles fonctionnalités décrites par 12 règles (Codd et al, 1993). Les principales caractéristiques extraites de ces règles sont :
la vision dimensionnelle des données, la transparence entre l’outil de visualisation et l’espace de stockage des données dimensionnelles, l’interopérabilité (l’outil rend invisible à l’utilisateur l’hétérogénéité des données), la manipulation intuitive des données et la flexibilité des restitutions, le décideur dispose d’une interface ergonomique de consultation.
Les systèmes OLAP visent à combler les lacunes des systèmes transactionnels. En effet, une des principales caractéristiques des systèmes transactionnels, est une activité de modification et d’interrogation fréquentes et répétitives (Kimball et al, 2002). L’accès au système est réalisé par de très courtes transactions. Enfin, la plupart de ces systèmes ne conservent pas les évolutions des données manipulées, seules les versions courantes sont conservées.
Contrairement aux systèmes OLTP, les utilisateurs des systèmes OLAP n’ont aucun besoin de modification des données analysées. Ces utilisateurs ont besoin d’outils interactifs et simples, supportant la prise de décision. Ces besoins s’articulent souvent autour d’un métier particulier (marketing, finance, …) et nécessitent de répondre à des requêtes ad hoc (non prévues par le système) et complexes (agrégation, intégration). L’aide la décision nécessite aussi de conserver l’historique des données afin d’anticiper les décisions futures.
Dans la littérature, nous retrouvons souvent le mot OLAP associé à l’approche des entrepôts de données. Cette approche représente un axe de recherche dans le contexte des systèmes décisionnels. La section suivante présente les caractéristiques de cette approche.

Entrepôts et magasins de données

Les entrepôts de données constituent une solution adéquate pour construire un système décisionnel (Widom, 1995) (Inmon, 1996). Un entrepôt de données est défini comme étant « une collection de données intégrées, orientées sujet, non volatiles, historisées, résumées et disponibles pour l’interrogation et l’analyse » (Inmon, 1996). Cette définition met l’accent sur les caractéristiques suivantes :
Intégrées : Les données alimentant l’entrepôt proviennent de sources multiples et hétérogènes. Les données des systèmes de production doivent être converties, reformatées et nettoyées de façon à avoir une seule vision globale dans l’entrepôt.
Orientées sujet : Les données s’organisent par sujets ou thèmes, contrairement aux données des systèmes de production généralement organisées par processus fonctionnel. L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet, le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.
Non volatiles et historisées : Les données des systèmes opérationnels sont constamment manipulées, modifiées ; elles sont mises à jour à chaque nouvelle transaction. Par opposition, les données de l’entrepôt sont le reflet d’un instantané des données du système opérationnel. Lorsqu’intervient un changement important dans les données, une nouvelle photo est prise de façon à ce que l’entrepôt garde une trace de l’historique des données.
Une architecture générale du système décisionnel, basée sur l’approche des entrepôts de données, est présentée dans la Figure I.1.
Dans l’architecture précédente, un seul espace de stockage est défini pour les données décisionnelles : l’entrepôt de données doit permettre de recueillir, stocker et intégrer un grand volume de données centralisées et, en même temps, de répondre à des requêtes des utilisateurs concernant un thème, un métier ou une analyse spécifique. Nous distinguons là deux problématiques indépendantes : (1) la gestion efficace des données « historisées », « centralisées » (intégration des sources) et (2) la définition d’un sous ensemble de données autour d’un thème particulier afin de répondre aux besoins spécifiques de ses utilisateurs. Aussi, l’architecture des systèmes décisionnels que nous élaborons est basée sur une dichotomie d’espaces de stockage : l’entrepôt et les magasins de données (Ravat et al, 2000a).
Définition
L’entrepôt est le lieu de stockage centralisé et extrait des sources. Il intègre et «historise » l’ensemble des données utiles pour les prises de décisions. Son organisation doit faciliter la gestion des données et la conservation des évolutions.
Chaque magasin est un extrait de l’entrepôt. Les données extraites sont adaptées à un groupe de décideurs ou à un usage particulier. L’organisation des données doit suivre un modèle spécifique qui facilite les traitements décisionnels.
Dans la Figure I.2, nous schématisons l’architecture des systèmes décisionnels tel que nous l’avons définie précédemment (Ravat et al, 2000b).
La construction consiste à extraire les données pertinentes pour la prise de décision et à les recopier dans l’entrepôt de données. Celui-ci constitue une collection centralisée de données matérialisées et historiques (Baril et al, 2003). Le modèle de l’entrepôt doit supporter des structures complexes (Pedersen et al, 1998) et supporter l’évolution des données (Pedersen et al, 1999) (Yang et al, 2000) (Teste, 2000) (Bellahsène, 2002) (Mendelzon et al, 2003).
La réorganisation permet de restructurer les données entreposées en les stockant dans des magasins de données visant à supporter efficacement les processus d’interrogation et d’analyse (Ravat et al, 2001).
L’interrogation consiste à utiliser les données des magasins pour prendre des décisions. La représentation des données doit faciliter leur compréhension et leur manipulation par les décideurs non informaticiens (tableaux à n dimensions, graphiques, …).
Nos travaux se focalisent sur les deux dernières étapes permettant la réorganisation et l’interrogation des magasins de données décisionnelles. Notre approche est basée sur un modèle dimensionnel de données. Nous présentons les concepts de base de ce modèle dans la section suivante.

Concepts de la modélisation dimensionnelle

Le modèle dimensionnel répond aux lacunes des modèles transactionnels. Il vise à présenter les données sous une forme intuitive dont l’objectif est de se rapprocher de la manière dont les décideurs perçoivent les données d’analyse (Codd et al, 1993) (Kimball et al, 2002). Ce modèle propose de visualiser les données représentant les sujets d’analyse comme des points dans un espace à plusieurs dimensions formant les différents axes d’analyse (Choong et al, 2003).
Définition
La modélisation dimensionnelle considère les données comme des points dans un espace à plusieurs dimensions. Ces points représentent les centres d’intérêts décisionnels (sujets) analysés en fonction des différents axes d’analyse.
Le modèle dimensionnel est basé sur la dualité des concepts fait – dimension (Kimball et al, 2002). Un fait représente un sujet d’analyse dans une application décisionnelle. Supposons, par exemple, que nous souhaitons analyser les performances des agences dans une société de location de véhicules. Dans un schéma dimensionnel, ce besoin est modélisé par le fait Location.
Définition
Un fait est un centre d’intérêt décisionnel. Il regroupe un ensemble d’attributs numériques représentant les mesures d’activité.
Afin de calculer la performance des agences, nous définissons les mesures d’activités montant et durée des locations dans le fait Location.
Définition
Une mesure est un indicateur d’analyse de type numérique et cumulable. Une mesure est accompagnée d’un ensemble de fonctions d’agrégation qui permettent de l’agréger en fonction des axes d’analyse.
Les mesures sont réunies dans un même fait si elles peuvent être analysées suivant les mêmes axes d’analyse. Les faits comportent un très grand volume de données pouvant être résumées, lors des interrogations, grâce aux opérations d’agrégation (somme, moyenne, max, min, …) (Kimball et al, 2002). Or, ces opérations ne peuvent être appliquées que sur des données numériques et additives.
Nous souhaitons analyser les mesures du fait Location en fonction des agences. La définition d’une dimension qui regroupe les données relatives à une agence, permet de répondre à ce besoin.
Définition
Une dimension est un axe d’analyse selon lequel sont visualisées les mesures d’activité d’un sujet d’analyse.
Parmi les attributs d’une dimension, nous retrouvons les paramètres de l’analyse. Par exemple, l’analyse du fait Location est réalisée en fonction de la dimension Agence aux niveaux du code, de la ville, de la région ou du pays de l’agence. Ces attributs représentent les paramètres d’analyse de la dimension Agence.
Définition
Un paramètre est un attribut appartenant à une dimension. Il représente un niveau de détail selon lequel sont visualisées les mesures d’activité d’un sujet d’analyse.
Les paramètres peuvent être accompagnés de descripteurs appelés attributs faibles (Teste, 2000). Par exemple, l’identifiant d’une agence Code_Ag peut être accompagné par le nom de celle-ci. L’ensemble composé du paramètre et de ses attributs faibles est appelé niveau hiérarchique.
Définition
Un attribut faible est un descripteur de paramètre. Cet attribut n’est pas utilisé dans les calculs de regroupement lors des opérations d’agrégation ; il a un rôle informationnel permettant de faciliter les analyses.
Les paramètres d’une dimension sont organisés en une ou plusieurs hiérarchies, de la granularité la plus fine vers la granularité la plus générale. Par exemple, les paramètres de la dimension Agence sont organisés suivant la hiérarchie géographique de la granularité Code_Ag vers la granularité Ville, Région, puis Pays. Les hiérarchies sont primordiales dans le modèle dimensionnel puisqu’elles sont employées pour manipuler les mesures lors des opérations d’agrégation. Le changement de paramètre d’une hiérarchie implique le changement de la granularité ; par exemple, le regroupement des montants des locations en fonction du paramètre Ville puis en fonction du paramètre Pays selon la dimension Agence permet de passer d’une analyse par ville vers une analyse par pays des locations.
Définition
Une hiérarchie est une perspective d’analyse définie dans une dimension. Elle regroupe un ensemble de paramètres organisés de la granularité la plus fine vers la granularité la plus générale.
La combinaison de ces différents concepts permet de construire des schémas en étoile ou en constellation (Teste, 2000) (Moody et al, 2000).

Schéma en étoile

Dans un tel schéma, les mesures sont regroupées dans un seul fait relié à plusieurs dimensions regroupant les paramètres de l’analyse.
Exemple 1
Cet exemple vise à définir un magasin dimensionnel permettant d’analyser le montant et la durée des locations de véhicules selon trois axes Agence, Véhicule et Temps. Une agence est caractérisée par son code, son nom et sa localisation décrite par les informations ville, région et pays. Un véhicule est caractérisé par son immatriculation, sa marque, sa catégorie et son type de moteur. Au niveau de l’axe temps, nous souhaitons avoir les montants et les durées des locations journalières, mensuelles et annuelles. Pour répondre à ces besoins, nous avons défini le fait Location de véhicule, comportant les mesures Mt_Loc et Durée_Loc, analysé selon les dimensions Agence, Temps et Véhicule (cf. Figure I.3).
Comme le montre la Figure I.3, cette représentation du schéma en étoile n’explicite pas les hiérarchies des paramètres.
Remarque : Cet exemple servira de base à la présentation des différents travaux relatifs à la modélisation dimensionnelle présentés à la section 2.

Schéma en constellation

Ce schéma est une extension du schéma en étoile (cf. Figure I.4). Il consiste à fusionner plusieurs schémas en étoile qui utilisent des dimensions communes. Un schéma en constellation comprend donc plusieurs faits reliés à un ensemble de dimensions qui peuvent être partagées.
Ce schéma présente l’avantage de pouvoir corréler les sujets d’analyse tels que la comparaison des montants des locations réalisées dans les différentes agences par rapport aux chiffres d’affaires réalisés par son personnel. En outre, le partage des dimensions par plusieurs faits permet d’éviter de les définir plusieurs fois.
Exemple 2
Nous souhaitons comparer les performances des agences en terme de montant et de durée de location avec les performances de ses employées (chiffres d’affaires et marge). Ce besoin est présenté par l’ajout du fait Performance à notre schéma en étoile de l’exemple 1. Ce nouveau fait est analysé en fonction des dimensions Employé, Agence et Temps.

Bilan

Le modèle dimensionnel organise les données d’une manière adaptée aux analyses et vise à aider les décideurs non informaticiens lors de la prise de décision. Ce modèle est représenté par un schéma en étoile ou en constellation. Le premier est composé d’un seul fait (sujet d’analyse) analysé en fonction des différentes dimensions (axes d’analyse dont les paramètres sont organisés en hiérarchies multiples). Le deuxième regroupe plusieurs faits reliés à plusieurs dimensions qui peuvent être partagées.
Cette structure dimensionnelle est souvent accompagnée par une représentation sous forme de cube de données (Codd et al, 1993) visant à faciliter la manipulation des données décisionnelles. Pour répondre à ce besoin, un ensemble d’opérateurs dimensionnels est proposé aux décideurs. Nous décrivons dans la section suivante les différentes opérations de manipulation dimensionnelle.

Manipulation dimensionnelle

Les données dimensionnelles sont représentées au travers d’un cube regroupant à la fois la structure et les valeurs des données (voir Figure I.5). Chaque case dans le cube présente les valeurs des mesures d’un fait (par exemple les montants des locations sont représentées à l’intersection des dimensions Agence, Véhicule et Temps). Chaque arête du cube, représentant une dimension, est composée des valeurs d’un paramètre de la dimension considérée.
La Figure I.5 présente le cube analysant les mesures du fait Location en fonction des paramètres Année de la dimension Temps, Marque de la dimension Véhicule et Ville de la dimension Agence.

Table des matières

INTRODUCTION
Chapitre I. Contexte de l’étude
1. L’aide à la décision
1.1. Caractéristiques des systèmes décisionnels
1.2. Systèmes OLAP
1.3. Entrepôts et magasins de données
1.4. Concepts de la modélisation dimensionnelle
1.5. Manipulation dimensionnelle
2. Modélisation des données dimensionnelles : Etat de l’art
2.1. Niveau conceptuel
2.2. Niveau logique
2.3. Niveau physique
2.4. Synthèse des modèles dimensionnels
3. Expression des contraintes : Etat de l’art
3.1. Contraintes et bases de données
3.2. Contraintes et modèles dimensionnels
4. Méthodes de conception dimensionnelle : Etat de l’art
4.1. Méthodes descendantes
4.2. Méthodes ascendantes
4.3. Méthodes mixtes
4.4. Bilan
5. Notre proposition
5.1. Cadre général
5.2. Existant et limites
5.3. Objectifs
Chapitre II. Proposition d’un modèle dimensionnel contraint
1. Introduction à la modélisation dimensionnelle
1.1. Problématique
1.2. Notre proposition
2. Modèle dimensionnel contraint
2.1. Dimension et hiérarchie
2.2. Fait
2.3. Constellation
3. Dimension temps
4. Contraintes
4.1. Contraintes structurelles
4.2. Contraintes sémantiques
5. Conclusion
Chapitre III. Interrogation des données dimensionnelles sous contraintes
1. Introduction à l’interrogation des données dimensionnelles
1.1. Problématique
1.2. Proposition
2. Langage d’interrogation des données dimensionnelles à contraintes
2.1. Préliminaire
2.2. Opérateurs dimensionnels intégrant les contraintes
2.3. Synthèse de l’impact des contraintes sur les opérateurs
3. Contraintes et vues matérialisées
3.1. Préliminaires
3.2. Construction du treillis dimensionnel
4. Conclusion
Chapitre IV. Méthode de conception d’un schéma dimensionnel contraint
1. Introduction
2. Modèle de l’entrepôt
2.1. Concept d’objet entrepôt
2.2. Concept de classe entrepôt
2.3. Concept d’environnement
2.4. Concept d’entrepôt
2.5. Exemple d’un entrepôt historisé
3. Méthode de conception de base dimensionnelle
4. Démarche descendante
4.1. Collecte des données
4.2. Spécification des besoins
4.3. Formalisation des besoins
4.4. Bilan de la démarche descendante
5. Démarche ascendante
5.1. Détermination des faits
5.2. Détermination des dimensions
5.3. Définition de la dimension temporelle
5.4. Définition de la granularité de l’analyse
5.5. Hiérarchisation des dimensions
5.6. Expression des contraintes
5.7. Bilan de la démarche ascendante
6. Confrontation
7. Conclusion
Chapitre V. Outil d’aide à la conception de magasin dimensionnel contraint
1. Introduction
2. L’outil GMAG
2.1. Architecture de GMAG
2.2. Utilisation de GMAG
3. Le référentiel des méta-données
4. Définition graphique d’un magasin de données dimensionnel contraint
4.1. Exemple d’un entrepôt historisé
4.2. Détermination des faits
4.3. Détermination des dimensions
4.4. Hiérarchisation des dimensions
4.5. Définition de la dimension temporelle
4.6. Expression des contraintes
4.7. Schéma de notre exemple de magasin de données
5. Génération du magasin de données dimensionnelles
5.1. Phase logique
5.2. Phase Physique
5.3. Bilan
6. Conclusion
BILAN ET PERSPECTIVES
BIBLIOGRAPHIE
ANNEXE : OUTILS INDUSTRIELS
TABLE DES FIGURES
LISTE DES TABLEAUX

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *