Cours DW-P2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 59

Cours Entrepôts de données

(Data warehouse)

Chapitre 2 : Modélisation dimensionnelle

Dalel Ayed Lakhal

Année universitaire : 2020-2021


Plan

 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation

2
Définition

 La modélisation dimensionnelle souvent appelée


modélisation OLAP (Codd 1993) se présente comme une
alternative au modèle relationnel. Elle correspond mieux
aux besoins du décideur tout en intégrant la modélisation
par sujet.

 C’est une méthode de conception logique qui vise à


présenter les données sous une forme standardisée
intuitive et qui permet des accès hautement performants.

3
Etapes de conception
Outils
Sources Magasins d'analyse

Entrepôt

 Définition de l'ED
 Alimentation de l'ED
 Définition des MD
 Alimentation des MD
 Analyser les données sources
 Définition des données  Identifier les besoins
nécessaires décisionnels
4
Modélisation Entité/Association
 Avantages :
 Normalisation :
 Éliminer les redondances
 Préserver la cohérence des données
 Optimisation des transactions
 Réduction de l’espace de stockage

 Inconvénients pour un utilisateur final :


 Schéma très/trop complet : : des milliers de tables
 Contient des tables/champs inutiles pour l’analyse
 Pas d’interface graphique capable de rendre utilisable le modèle E/A
 Adaptée aux transactions (ex : mise à jour d’une adresse
client), mais pas aux interrogations
 Inadapté pour l’analyse
5
Exemple
Mode
Transporteur
d’expédition

Produit
Contrat Commande
client
Type de Groupe de
contrat Client produits
Magasin

Famille de
Employé Région de produits
Stock ventes

Fonction Division
Fournisseurs
6 de ventes
Modélisation des DW

 Nouvelle méthode de conception autour des concepts


métiers
 Ne pas normaliser au maximum
 Introduction de nouveaux concepts et types de table :
 Fait, mesure,
 Table de faits, Table de dimensions
 Introduction de nouveaux modèles :
 ME/R, Extension UML, ADHoc
 Modèle en étoile, Modèle en flocon

7
Contexte multidimensionnel
 La modélisation conceptuelle a donné naissance aux
concepts fondamentaux : fait, mesure, dimension et
hiérarchie
 Fait / Mesure : Le sujet analysé est formé de mesures
(indicateurs) correspondant aux informations de l'activité
analysée.
 Dimension / Hiérarchie : Présente le point de vue selon
lequel on veut voir les données décrites par un
ensemble d’attributs  Axe de l’analyse
 Les attributs des dimensions sont organisés en une ou
plusieurs hiérarchies

8
Fait - Définition

 Un fait est la plus petite information analysable. C’est


une information qui contient les données observables
(les faits) que l'on possède sur un sujet et que l'on veut
étudier, selon divers axes d'analyse (les dimensions).

 Un fait est constitué de plusieurs mesures relatives au


sujet traité

 Les « faits » dans un entrepôt de données, sont


normalement numériques, puisque d'ordre quantitatif.

9
Dimension - Définition

 Une dimension est une ‘’table’’ qui représente un axe


d'analyse selon lequel on veut étudier des données
observables (les faits) qui, soumises à une analyse
multidimensionnelle, donnent aux utilisateurs des
renseignements nécessaires à la prise de décision.

 On appelle donc « dimension » un axe d'analyse. Il peut


s'agir des Clients ou des Produits d'une entreprise, d'une
Période de temps comme un exercice financier, des activités
menées au sein d'une société, etc.

 La dimension est le critère suivant lequel on souhaite évaluer,


quantifier, qualifier le fait.

10
Exemples :
 Fait :Vente, Achat, Facturation
 Mesures : Quantité, Revenu, Chiffre d’affaire , Montant …

 Dimension : Date, Client, Produit, Fournisseur, Magasin


 Attributs : Jour, mois, Catégorie, type_Fournisseur

11
Modélisation du schéma de L’entrepôt
 Plusieurs extensions du modèle E/A ont été
proposées pour modéliser le schéma d’un ED.
 StarER (Tryfona et al., 99), ME/R (Sapia et al., 99) et EER
(Franconi et al., 99)
 préconise une représentation graphique pour modéliser les
concepts issus de la modélisation multidimensionnelle.
 StarER :
 constructeur de fait
 constructeur d’entité
 constructeur d’attribut

12
Exemple : StarER

13
Extension d’UML

 Une extension d’UML en se basant sur la notion de


stéréotypes et de tagged value
 pour permettre la modélisation des concepts
multidimensionnels de base.
 Classe fait
 La Classe fait est spécifiée comme une classe composée avec une
relation d’agrégation avec les classes dimension
 Classe dimension
 Les mesures sont définies comme étant des attributs de la
classe fait.
 Les mesures sont additives par default. Pour les mesures non
additives, des règles d’additivités sont représentées sous forme de
contraintes et sont insérées dans la Classe fait.
 classe de base : paramètre

14
Exemple : Extension UML
INVENTORY

FA<<FactAttribute>> Quantity on hand SALES


FA<<FactAttribute>> ……..
FA<<FactAttribute>> Quantity Sold
FA<<FactAttribute>> ……..

z y z y
z y z y
x x
x x
PRODUCT PROMOTION
STORE DATE

B B
ZIP B B Légende
SUBREGION PACKAGE
DAY

B Classe fait

CITY
B B B z y
x
Classe
dimension
REGION SUBGROUP D_NAME
MONTH

B
COUNTRY
B B B B Classe base
BASE
STATE SUBGROUP
YEAR
FA<<FactAttribute>> Mesure

15
Modèles Ad hoc ou personnalisé
 Les principaux constructeurs définis dans le formalisme
DFM sont :
 Le fait représenté graphiquement par un rectangle comportant
deux compartiments : un pour le nom du fait et l’autre pour
ses mesures.
 Une dimension est représentée par des cercles attachées a un
fait par une ligne continue.
 Le paramètre connecté directement à la dimension est son identifiant.
 La hiérarchie est représentée par un arbre orienté acheminé à une
dimension telle que ses nœuds sont tous des attributs qui décrivent
cette dimension.
 Ces attributs modélisent une association 1:N entre les paramètres.
 Les arcs sont représentés par une ligne continue.

16
Modèles Ad hoc ou personnalisé
 L’attribut descriptif (ou attribut faible) :
 spécifie une propriété d’un paramètre,
 représente une information additionnelle n’intervenant pas dans les agrégations.
 Un attribut descriptif est relié par une association un-à-un à un attribut de
dimension.
 Il modélise une feuille dans une hiérarchie et est représenté graphiquement par
une ligne horizontale.
 Arcs multiples. Généralement, les hiérarchies sont formées de paramètres
reliés par des associations N:1.
 D’un autre coté, dans quelques situations il est nécessaire d’introduire des
attributs, pour une valeur prise par l’attribut père, prenant plusieurs valeurs.
 Donc, un arc multiple dans une hiérarchie modélise une association M:N entre
les deux paramètres qu’il connecte.
 Graphiquement il est représenté par une ligne double.
 Avec la présence des associations N:M l’additivité des mesures n’est pas
garantie.
17
Exemple

categorie
prix_unit annee
sous_categ lib_mois
description num_mois
codeP
codeT
PRODUITS
TEMPS
nom
prenom
VENTES
qte CLIENTS codeC ville pays
montant

18
Exemple

Pays Tranche
Region Age
Prenom
Ville
Nom
IdClient
Client Description

Annee Trimestre Jour SALE


Vente
qty IdProduit Categorie
Date
Date revenu Produit
Semestre Mois IdDate Quantite
amount Sous-Categorie
Revenu
Montant

19
Méthodes de conception
Méthodes de conception : Conceptuelle, Logique et
physique
 Conceptuelle :
 Approches ascendantes (dirigée par les sources)
 Approches descendantes (dirigée par les besoins)
 Approches mixtes
 Logique :
 Étoile
 Flocon
 Constellation
 Physique :
 vue matérialisées, index, ….

20
Modèle logique
 Schéma entités-relations (classique)
 Schéma en étoile (star schema)
 Schéma en flocon (snowflake schema)
 Constellation
 Schéma en étoile (STAR)
Une table de fait centrale contient tous les mesures à analyser,

 pour chaque dimension / paramètre de la table des faits, on a
une table qui définit une des clés étrangère de la table de faits.
 Schéma en flocon : même principe que le schéma en Etoile
avec certaines Dimensions sont normalisées
 Schéma Constellation : plusieurs tables de Faits pour décrire
plusieurs Données sur les métiers et plusieurs tables de
Dimensions
21
Les types de modèles

Modèle en étoile Modèle en flocon


22
Table de faits

 Table principale du modèle dimensionnel


 Contient les données observables (les faits) sur le sujet étudié
selon divers axes d’analyse (les dimensions)
Exemple 1 :
Table de faits des ventes
Clés étrangères Clé date (CE)
vers les Clé produit (CE)
dimensions Clé magasin (CE)
Quantité vendue
Mesures Coût
Montant des ventes
23
Table de faits
Exemple 2 :

Mesures des

24
Typologie des mesures des faits (Types des
faits)

 Additif : additionnable suivant toutes les dimensions


 Quantités vendues, chiffre d’affaire
 Peut être le résultat d’un calcul:
 Bénéfice = montant vente - coût
 Semi additif : additionnable suivant certaines dimensions
 Solde d’un compte bancaire :
 Pas de sens d’additionner sur les dates car cela représente des
instantanés d’un niveau
 Σ sur les comptes : on connaît ce que nous possédons en banque
 Exemple : nombre de clients, dimension produit (un même client
peut acheter plusieurs produits) .
 Non additif : fait non additionnable quelque soit la dimension
 Prix unitaire: l’addition sur n’importe quelle dimension donne un
nombre dépourvu de sens

25
Typologie des mesures des faits (Types des
faits)
 Exemple
 quantité vendue, chiffre d ’affaire, coût, nombre de clients, nombre d
’appel ...
 Fait additif
 quantité vendue, chiffre d ’affaire, coût
 Fait semi additif
 niveau de stock, de solde (valeurs instantanées)
 excepté sur la dimension temps
 nombre de transaction, de client
 excepté sur la dimension produit
 Fait non additif
 ex: un attribut ratio
 ex: marge brute = 1 - Coût/CA

26
Typologie des mesures des faits (Types des
faits)

Mesure de Fait Semi-additive : Nombre de Clients, Nombre de


Transactions, ...
 Exemple : le nombre de clients et la dimension Produit
 Soient deux faits (même magasin, même jour)
 (Papier essuie tout, 20 clients) et (Mouchoir, 30 clients)
 La somme du nombre de clients sur la dimension Produit
n ’a pas de signification
 car un client peut avoir acheté des mouchoirs et du papier.
 sert uniquement de contrainte applicative
 nombre de clients ayant acheté des mouchoirs (par mois)

27
Granularité ou finesse la table de faits
 La granularité définit le niveau de détails de la table de faits
 mois, jour, heure du jour
 région ,magasin , rayonnage
 Exemple: une ligne de commande par produit, par client et par jour

- Précision des analyses


+ Finesse
Taille de l’entrepôt

28
Table de dimension
 Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
 Contient le détail sur les faits

Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
Poids
29
Table de dimension (suite)

 Dimension = axe d’analyse


 Client, produit, période de temps…

 Contient souvent un grand nombre de colonnes


 L’ensemble des informations descriptives des faits

 Contient en général beaucoup moins d’enregistrements qu’une table


de faits

 Granularité d’une dimension : nombre de niveaux hiérarchiques


(ex: continent, pays, région, ville)

30
Granularité d’une dimension

 Une dimension contient des paramètres (membres)


organisés en hiérarchie :
 Chacun des membres appartient à un niveau hiérarchique
(ou niveau de granularité) particulier
 Granularité d’une dimension : nombre de niveaux
hiérarchiques
 Temps :
 année – semestre – trimestre - mois

31
Hiérarchie des dimensions

32
La dimension Date

 Commune à l’ensemble du Dimension Date


DW Clé Date (CP)
 Reliée à toute table de faits Jour de la semaine
Jours du mois
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année

33
Modèle en étoile

 Une table de fait centrale et des dimensions


 Les dimensions n’ont pas de liaison entre elles
 Avantages:
 Facilité de navigation
 Performances : nombre de jointures limité
 Gestion des agrégats
 Inconvénients:
 Redondance dans les dimensions
 Toutes les dimensions ne concernent pas les mesures
 Alimentation complexe

34
Modèle en étoile

35
Modèle en étoile
Dimension Temps
ID temps
année
mois
jour Dimension produit
… ID produit
Dimension Magasin
ID magasin nom
description code
Table de faits Achat prix
ville
ID client poids
surface
ID temps groupe

ID magasin famille
ID région …
ID produit
Quantité achetée
Dimension Region Dimension Client
Montant des achats
ID région ID client
pays nom
description prénom
district vente adresse
…. …
36
Modèle en étoile

37
Modèle en étoile

38
Modèle en flocon

 Le schéma en flocon est dérivé du schéma en étoile où les tables


de dimensions sont normalisées (la table des faits reste
inchangée).
 Avec ce schéma, chacune des dimensions est décomposée selon
sa (ou ses) hiérarchie(s).
 Une table de fait et des dimensions décomposées en sous
hiérarchies
 On a un seul niveau hiérarchique dans une table de dimension
 La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait. On dit qu’elle a la granularité la plus fine

39
Modèle en étoile

40
Modèle en étoile

41
Modèle en flocon

42
Modèle en flocon Dimension produit
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour poids Dimension groupe
ID magasin … … ID groupe
description ID famille
ville Table de faits Achat nom
surface ID client …
… ID temps
ID magasin
Dimension Region ID région
ID région Dimension Famille
ID produit
ID division vente ID famille
Quantité achetée
pays nom
Montant des achats
description …
….
Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description
43…. adresse

Modèle en flocon
 Modèle en étoile + normalisation des dimensions
 Lorsque les tables sont trop volumineuses
 Avantages:
 Normalisation des dimensions
 Économie d’espace disque
 Inconvénients:
 Modèle plus complexe
 Requêtes moins performantes
 Navigation difficile,
 Nombreuses jointures

44
Le modèle en constellation
 La modélisation en constellation consiste à fusionner
plusieurs modèles en étoile qui utilisent des dimensions
communes.

 Un modèle en constellation comprend donc plusieurs


tables de faits et des tables de dimensions communes ou
non à ces tables de faits.

45
Le modèle en constellation

46
Transformation : MCDW-MLDW
 Transformation de fait/mesure
 Transformation de dimension
 Identifiant ainsi que les paramètres
 Tout Fait se transforme en une Table de Fait
 Les mesures sont des attributs pour la table de fait

 Toute dimension se transforme en une table de


dimension contenant sont identifiant, ses attributs faibles,
ses paramètres (les attributs faibles)
 L’identifiant de chaque dimension sera inséré dans la table
de fait comme clé étrangère

47
Méthodologie: 9 étapes de Kimball

1. Choisir le sujet
2. Choisir la granularité des faits
3. Identifier et adapter les dimensions
4. Choisir les faits
5. Stocker les pré-calculs
6. Établir les tables de dimensions
7. Choisir la durée de la base
8. Suivre les dimensions lentement évolutives
9. Décider des requêtes prioritaires, des modes de requêtes

48
Avantages de la modélisation
dimensionnelle

 Structure prévisible

 Structure standardisée
 Requêteur simple et optimisé

 Toutes les dimensions sont équivalentes


 Symétrie

49
Exemple de l’agence de voyage
1 - voyages aériens

Quel est le chiffre d’affaires (CA) par client,


par date de voyage (et par mois, trimestre et
année), par compagnie aérienne, par ville de
destination ? Les tableaux de bord doivent
pouvoir présenter les totaux et sous totaux
de CA : tous clients confondus, et/ou toutes
dates, et/ou toutes compagnies, et/ou toutes
destinations

50
Schéma dimensionnel
1 - voyages aériens

Vol

51
Exemple de l’agence de voyage
2- Location de voitures

Dans le cas de la location de voiture, on


souhaite éditer le CA, le nombre de jours de
location, et le kilométrage pour chaque :
client, date de réservation, ville, loueur, et
catégorie de véhicule, ainsi que toutes les
sommations de la même manière que pour les
déplacements.

52
Schéma dimensionnel
2- Location de voitures

Location

53
Exemple de l’agence de voyage
3- Hôtel

Dans le cas de l’hôtellerie, on veut des


tableaux de bord par client, hôtel, ville, date
de début de séjour, faisant apparaître le
nombre de nuitées et le prix total payé .

54
Schéma dimensionnel
3- Hôtel

Séjour

55
Exemple de l’agence de voyage
Regroupement
On veut maintenant regrouper ces trois ED en un seul, afin de
répondre aux questions supplémentaires suivantes :
Quel est le CA total induit par un déplacement en avion ?
Quelle est la durée du séjour ? Quel est le CA en location de voiture ?
En hôtellerie ?

On veut pouvoir éditer les détails de CA par période de temps et par


client, ville, compagnie aérienne, loueur et hôtelier, et faire tous les
regroupements utiles.
Figurer le modèle dimensionnel d’un tel ED, en montrant en particulier
comment l’on peut retrouver location de voiture et/ou hôtellerie, si elles
existent, à partir d’un déplacement en avion. Un voyage en avion
n’implique pas forcément location de voiture et/ou hôtellerie, et
inversement.

56
Exemple de l’agence de voyage
Regroupement
Vol

Location

Séjour

57
Exemple

Temps Géographie
Code Temps Code Géographie
Code Trimestre Code Région
Nom Trimestre Responsable Région
Code Mois Code Etat
Nom Mois
Ventes Code Ville
Date Code Géographie ...
Code Temps
Code Compte
Code Produit
Montant en FF
Unités
Compte Produit
Code Compte Code Produit
... Nom Produit
Code Marque
Nom Marque
Code Ligne Prod.
Nom Ligne Prod.
Schéma en étoile
58
Exemple
... ...
...

Trimestre
Géographie
Code Trimestre
Nom Trimestre Temps
Code Temps
...
Code Trimestre
Mois Code Mois Ventes
Code Mois Code Géographie
Nom Mois Code Temps
Code Compte
Code Produit
Montant en FF
Unités
... Compte
Code Compte
Produit
... ... ...
...

...
Schéma en flocon
...
59

Vous aimerez peut-être aussi