Cours DW-P2
Cours DW-P2
Cours DW-P2
(Data warehouse)
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
2
Définition
3
Etapes de conception
Outils
Sources Magasins d'analyse
Entrepôt
Définition de l'ED
Alimentation de l'ED
Définition des MD
Alimentation des MD
Analyser les données sources
Définition des données Identifier les besoins
nécessaires décisionnels
4
Modélisation Entité/Association
Avantages :
Normalisation :
Éliminer les redondances
Préserver la cohérence des données
Optimisation des transactions
Réduction de l’espace de stockage
Produit
Contrat Commande
client
Type de Groupe de
contrat Client produits
Magasin
Famille de
Employé Région de produits
Stock ventes
Fonction Division
Fournisseurs
6 de ventes
Modélisation des DW
7
Contexte multidimensionnel
La modélisation conceptuelle a donné naissance aux
concepts fondamentaux : fait, mesure, dimension et
hiérarchie
Fait / Mesure : Le sujet analysé est formé de mesures
(indicateurs) correspondant aux informations de l'activité
analysée.
Dimension / Hiérarchie : Présente le point de vue selon
lequel on veut voir les données décrites par un
ensemble d’attributs Axe de l’analyse
Les attributs des dimensions sont organisés en une ou
plusieurs hiérarchies
8
Fait - Définition
9
Dimension - Définition
10
Exemples :
Fait :Vente, Achat, Facturation
Mesures : Quantité, Revenu, Chiffre d’affaire , Montant …
11
Modélisation du schéma de L’entrepôt
Plusieurs extensions du modèle E/A ont été
proposées pour modéliser le schéma d’un ED.
StarER (Tryfona et al., 99), ME/R (Sapia et al., 99) et EER
(Franconi et al., 99)
préconise une représentation graphique pour modéliser les
concepts issus de la modélisation multidimensionnelle.
StarER :
constructeur de fait
constructeur d’entité
constructeur d’attribut
12
Exemple : StarER
13
Extension d’UML
14
Exemple : Extension UML
INVENTORY
z y z y
z y z y
x x
x x
PRODUCT PROMOTION
STORE DATE
B B
ZIP B B Légende
SUBREGION PACKAGE
DAY
B Classe fait
CITY
B B B z y
x
Classe
dimension
REGION SUBGROUP D_NAME
MONTH
B
COUNTRY
B B B B Classe base
BASE
STATE SUBGROUP
YEAR
FA<<FactAttribute>> Mesure
15
Modèles Ad hoc ou personnalisé
Les principaux constructeurs définis dans le formalisme
DFM sont :
Le fait représenté graphiquement par un rectangle comportant
deux compartiments : un pour le nom du fait et l’autre pour
ses mesures.
Une dimension est représentée par des cercles attachées a un
fait par une ligne continue.
Le paramètre connecté directement à la dimension est son identifiant.
La hiérarchie est représentée par un arbre orienté acheminé à une
dimension telle que ses nœuds sont tous des attributs qui décrivent
cette dimension.
Ces attributs modélisent une association 1:N entre les paramètres.
Les arcs sont représentés par une ligne continue.
16
Modèles Ad hoc ou personnalisé
L’attribut descriptif (ou attribut faible) :
spécifie une propriété d’un paramètre,
représente une information additionnelle n’intervenant pas dans les agrégations.
Un attribut descriptif est relié par une association un-à-un à un attribut de
dimension.
Il modélise une feuille dans une hiérarchie et est représenté graphiquement par
une ligne horizontale.
Arcs multiples. Généralement, les hiérarchies sont formées de paramètres
reliés par des associations N:1.
D’un autre coté, dans quelques situations il est nécessaire d’introduire des
attributs, pour une valeur prise par l’attribut père, prenant plusieurs valeurs.
Donc, un arc multiple dans une hiérarchie modélise une association M:N entre
les deux paramètres qu’il connecte.
Graphiquement il est représenté par une ligne double.
Avec la présence des associations N:M l’additivité des mesures n’est pas
garantie.
17
Exemple
categorie
prix_unit annee
sous_categ lib_mois
description num_mois
codeP
codeT
PRODUITS
TEMPS
nom
prenom
VENTES
qte CLIENTS codeC ville pays
montant
18
Exemple
Pays Tranche
Region Age
Prenom
Ville
Nom
IdClient
Client Description
19
Méthodes de conception
Méthodes de conception : Conceptuelle, Logique et
physique
Conceptuelle :
Approches ascendantes (dirigée par les sources)
Approches descendantes (dirigée par les besoins)
Approches mixtes
Logique :
Étoile
Flocon
Constellation
Physique :
vue matérialisées, index, ….
20
Modèle logique
Schéma entités-relations (classique)
Schéma en étoile (star schema)
Schéma en flocon (snowflake schema)
Constellation
Schéma en étoile (STAR)
Une table de fait centrale contient tous les mesures à analyser,
pour chaque dimension / paramètre de la table des faits, on a
une table qui définit une des clés étrangère de la table de faits.
Schéma en flocon : même principe que le schéma en Etoile
avec certaines Dimensions sont normalisées
Schéma Constellation : plusieurs tables de Faits pour décrire
plusieurs Données sur les métiers et plusieurs tables de
Dimensions
21
Les types de modèles
Mesures des
24
Typologie des mesures des faits (Types des
faits)
25
Typologie des mesures des faits (Types des
faits)
Exemple
quantité vendue, chiffre d ’affaire, coût, nombre de clients, nombre d
’appel ...
Fait additif
quantité vendue, chiffre d ’affaire, coût
Fait semi additif
niveau de stock, de solde (valeurs instantanées)
excepté sur la dimension temps
nombre de transaction, de client
excepté sur la dimension produit
Fait non additif
ex: un attribut ratio
ex: marge brute = 1 - Coût/CA
26
Typologie des mesures des faits (Types des
faits)
27
Granularité ou finesse la table de faits
La granularité définit le niveau de détails de la table de faits
mois, jour, heure du jour
région ,magasin , rayonnage
Exemple: une ligne de commande par produit, par client et par jour
28
Table de dimension
Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
Contient le détail sur les faits
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
Poids
29
Table de dimension (suite)
30
Granularité d’une dimension
31
Hiérarchie des dimensions
32
La dimension Date
33
Modèle en étoile
34
Modèle en étoile
35
Modèle en étoile
Dimension Temps
ID temps
année
mois
jour Dimension produit
… ID produit
Dimension Magasin
ID magasin nom
description code
Table de faits Achat prix
ville
ID client poids
surface
ID temps groupe
…
ID magasin famille
ID région …
ID produit
Quantité achetée
Dimension Region Dimension Client
Montant des achats
ID région ID client
pays nom
description prénom
district vente adresse
…. …
36
Modèle en étoile
37
Modèle en étoile
38
Modèle en flocon
39
Modèle en étoile
40
Modèle en étoile
41
Modèle en flocon
42
Modèle en flocon Dimension produit
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour poids Dimension groupe
ID magasin … … ID groupe
description ID famille
ville Table de faits Achat nom
surface ID client …
… ID temps
ID magasin
Dimension Region ID région
ID région Dimension Famille
ID produit
ID division vente ID famille
Quantité achetée
pays nom
Montant des achats
description …
….
Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description
43…. adresse
…
Modèle en flocon
Modèle en étoile + normalisation des dimensions
Lorsque les tables sont trop volumineuses
Avantages:
Normalisation des dimensions
Économie d’espace disque
Inconvénients:
Modèle plus complexe
Requêtes moins performantes
Navigation difficile,
Nombreuses jointures
44
Le modèle en constellation
La modélisation en constellation consiste à fusionner
plusieurs modèles en étoile qui utilisent des dimensions
communes.
45
Le modèle en constellation
46
Transformation : MCDW-MLDW
Transformation de fait/mesure
Transformation de dimension
Identifiant ainsi que les paramètres
Tout Fait se transforme en une Table de Fait
Les mesures sont des attributs pour la table de fait
47
Méthodologie: 9 étapes de Kimball
1. Choisir le sujet
2. Choisir la granularité des faits
3. Identifier et adapter les dimensions
4. Choisir les faits
5. Stocker les pré-calculs
6. Établir les tables de dimensions
7. Choisir la durée de la base
8. Suivre les dimensions lentement évolutives
9. Décider des requêtes prioritaires, des modes de requêtes
48
Avantages de la modélisation
dimensionnelle
Structure prévisible
Structure standardisée
Requêteur simple et optimisé
49
Exemple de l’agence de voyage
1 - voyages aériens
50
Schéma dimensionnel
1 - voyages aériens
Vol
51
Exemple de l’agence de voyage
2- Location de voitures
52
Schéma dimensionnel
2- Location de voitures
Location
53
Exemple de l’agence de voyage
3- Hôtel
54
Schéma dimensionnel
3- Hôtel
Séjour
55
Exemple de l’agence de voyage
Regroupement
On veut maintenant regrouper ces trois ED en un seul, afin de
répondre aux questions supplémentaires suivantes :
Quel est le CA total induit par un déplacement en avion ?
Quelle est la durée du séjour ? Quel est le CA en location de voiture ?
En hôtellerie ?
56
Exemple de l’agence de voyage
Regroupement
Vol
Location
Séjour
57
Exemple
Temps Géographie
Code Temps Code Géographie
Code Trimestre Code Région
Nom Trimestre Responsable Région
Code Mois Code Etat
Nom Mois
Ventes Code Ville
Date Code Géographie ...
Code Temps
Code Compte
Code Produit
Montant en FF
Unités
Compte Produit
Code Compte Code Produit
... Nom Produit
Code Marque
Nom Marque
Code Ligne Prod.
Nom Ligne Prod.
Schéma en étoile
58
Exemple
... ...
...
Trimestre
Géographie
Code Trimestre
Nom Trimestre Temps
Code Temps
...
Code Trimestre
Mois Code Mois Ventes
Code Mois Code Géographie
Nom Mois Code Temps
Code Compte
Code Produit
Montant en FF
Unités
... Compte
Code Compte
Produit
... ... ...
...
...
Schéma en flocon
...
59