Leçon 1 Outils Décisionnels Absec

COURS ETL ET EXTRACTION DE DONNEES
1. Informations générales
- Code et Titre de l’UE : OADxxxx – Outils d’Aide à la Décision
- Auteur : Dr ACHI Harrisson Thiziers, Docteur en Sécurité informatique et en Télémédecine
- Contacts : +225- 07 08 16 76 79 ; thiziers.achi@uvci.edu.ci
- Nombre de crédits : 3 Crédits
- Charge de travail : Charge Total de travail : 75 H :
o Cours : 15 H et Travaux pratiques/pratiques : 15 H
o Travail Personnel de l’Etudiant : 45 H
- Organisation de la formation : 1er semestre
- Début du cours : à consulter sur le calendrier pédagogique
2. Démarche pédagogique : Approche Projet

Dans ce cours, les apprenants réalisent des travaux à rendre en se basant sur des supports de cours,
des lectures et des vidéos qui leur seront recommandées. Les travaux sont réalisés soit
individuellement soit collectivement. Le nombre de personne par groupe est fixé par l’Enseignant.
A cet effet, la participation aux forums et aux activités collaboratives est notée et constitue 15 % de la
note finale. Les travaux rendus sont évalués par l’enseignant et leurs pairs à la fin de chaque leçon.
3. Description du Cours
Ce cours est une initiation aux systèmes d’aides à la décision, et permet de cerner les concepts
d’Informatique décisionnelle (business intelligence), et d’outils décisionnels. Il est obligatoire et
s’adresse à tout apprenant qui désire conduire un projet basé sur le décisionnel.
4. Prérequis
Des notions en gestion de Base de données sont des atouts.
5. Objectifs du cours
Ce cours vise à donner une bonne maitrise de la conception et de l’utilisation des outils d’aide à la
décision.
De façon spécifique, ce cours vise à :

6. Présenter les concepts fondamentaux d’outils décisionnels ;
7. Exposer les différents outils décisionnels ;
8. Manipuler les systèmes OLAP et CUBE ;
9. Concevoir des Systèmes d’Aide à la Décision.
6. Compétences et apprentissages visés

A la fin de cours, l’apprenant est capable de :
- Manipuler les différents outils décisionnels, notamment les systèmes OLAP et CUBE ;
- Concevoir des systèmes d’aide à la décision performants.
7. Contenus du cours
Ce cours est structuré en quatre (04) leçons et se déroule sur quatre (04) semaines :
- Leçon 0 – Leçon inaugurale;
- Leçon 1 – Concepts de Systèmes d’Information d’Aide à la Décision-SIAD (une semaine) ;
- Leçon 2 – Types d’outils d’aide à la décision (une semaine) ;
- Leçon 3 – Manipulation des systèmes OLAP et CUBE; Etude de cas : Conception de systèmes
d’aide à la décision (une semaine) .
8. Règles de fonctionnement du cours (UE/ECUE)

Les apprenants doivent prendre toutes les dispositions pour :
- prendre connaissance des contenus des leçons et des consignes avant les activités
collaboratives (visio-conférence, tchats, etc…) prévus chaque semaine ;
- respecter les délais de remise des travaux. En cas de retard, une pénalité est appliquée (ex. : -
3 pts/j) ;
- participer de façon constructive aux échanges et discussions ;
- rédiger de façon claire et concise les rapports, présentations et devoirs sans plagiat ou auto-
plagiat ;
- rendre tous les travaux demandés car ils sont notés. En cas de non réalisation, la note zéro est
attribuée ;
9. Encadrement
L'encadrement est assuré par l’enseignant ou par un tuteur et est structuré comme suit :
- une visio-conférence d’ouverture du cours programmée lors de la première leçon afin
d’échanger sur les consignes d’apprentissage et d’évaluation ;
- des échanges à travers des forums, des tchats, des webinaires obligatoires ou par courriel
pour les leçons 2, 3, et 4 ;
- Une visio-conférence de révision avant l’examen final.
10.Évaluation
L'évaluation de la progression et des compétences repose sur les points suivants :
- la participation et l’assiduité aux activités d’apprentissage et collaboratives (10 %) ;
- les travaux individuels ou de groupes : exposés, rapports (20 %) ;
- les devoirs à mi-parcours : questions de compréhension, mémoire, exposé : (20%) ;
-les contrôles à mi-parcours et/ou l’examen final : exposé, rapports (50 %). La
moyenne finale est calculée à partir des différentes évaluations.
11.Renseignements technologiques
Ce cours nécessite :
- un équipement informatique (Smartphone, Tablette, Ordinateur);
- une connexion internet;
- l’un des systèmes d’exploitation suivants : Linux, Windows, Mac OS,
Android;
- l’un des navigateurs suivants : Mozilla, Google Chrome;
- et les logiciels / applications tels que : Moodle mobile, Adobe Reader, adobe flash Player et
Kdenlive, MATLAB 2020, POWER BI, TALEND.
12.Ressources bibliographiques
Veuillez consulter les livres et les articles cités ci-dessous pour les lectures complémentaires.
Smile - Open source solutions (2012), « Décisionnel le meilleur des solutions open source, 87p.
Olivier Teste (2009), Modélisation et manipulation des systèmes OLAP : de l’intégration des documents à
l’usager, Institut de Recherche en Informatique de Toulouse (UMR5505), 136 p.
Franck Ravat, « Modèles et outils pour la conception et la manipulation de systèmes
d'aide à la décision », Université de Toulouse I, 2007, 200p.
Les outils de la Business Intelligence,
https://www.piloter.org/business-intelligence/outils- decisionnels.htm, consulté le
10/01/2021.
Liste d'outils décisionnels - Définition et Explications,
https://www.techno-
CCI alpes science.net/definition/7697.html,
De-Haute-Provence, consulté
« Qu’est-ce quele 10/01/2021.
le décisionnel ?
http://www.digne.cci.fr/IMG/pdf/Fiche_36_-_SI-Qu_est_ce_que_le_decision », consulté
nel.pdf
, 10/01/2021. le
Sites de recherche documentaire :
- https://tel.archives-ouvertes.fr/
- http://www.theses.fr/
Liens Vidéos :
1Notions de SIAD :
https://www.youtube.com/watch?v=yoTu9CMwm1M
2 Concept OLAP analyse multidimensionnelle
https://www.youtube.com/watch?v=NJJhlxa
dsD8
Chaque leçon donne une liste de références bibliographiques et webographiques.

Leçon 1 – Concepts de Systèmes d’Information d’Aide à la Décision-SIAD
Situation problème
Vous serez bientôt recrutés dans des administrations publiques ou privées ou le décisionnel fait partie
du quotidien : tableau de bord de management(Dashboard), recherche de PKI (indicateurs clés de
performance), etc. Il est donc important pour tout étudiant de l’UVCI de bien cerner les concepts et
principes fondamentaux du décisionnel, afin d’apporter, si nécessaire son expertise à sa structure.
Consignes du cours :
1. Lire attentivement les ressources pédagogiques
2. Participer à toutes les activités programmées
3. Rendre dans les délais les exercices (devoirs, tests, exposés)
Objectifs d’apprentissage :
4. Définir la notion de système d’information d’aide à la décision (SIAD) ;
5. Présenter le Reporting, l’analyse AD HOC, le système OLAP, les principes d’ETL, les tableaux de bord,
la consolidation des données, le Data mining ;
3. Définir le Master Data Mangement (MDM) et l’analyse de données en masse (Big Data), et les
nouvelles tendances du décisionnel.
Compétences et apprentissages visés :

A l’issu de ce cours, l’étudiant doit être capable :
4. définir le concept de SIAD ;
5. définir les notions fondamentales du vocabulaire du décisionnel ;
6. de définir le Big Data et les nouvelles tendances du décisionnel
Contenu du cours :
Introduction
7.Définitions concepts et principes de SIAD et de Reporting, d’analyse AD HOC, de système OLAP,
des principes d’ETL, des tableaux de bord, de la consolidation des données, du Data mining.
8. Définition du MDM et du Big Data
9. Les nouvelles tendances du décisionnel
10.Que retenir ?
Bibliographie
Liens Vidéos :
1 Différence entre système opérationnel et décisionnel
https://www.youtube.com/watch?v=g8UemDou0p0
2 Méthodologie des projets BI

https://www.youtube.com/watch?v=E33Kaes6Px4
3 Modélisation data warehouse : modélisation décisionnelle

https://www.youtube.com/watch?v=uzBbZP0NPCs
4- Big Data :
https://www.youtube.com/watch?v=O9oL61Iw
4FQ
Chapitre 1 : Définitions concepts et principes de SIAD et de Reporting, d’analyse AD HOC, de
système OLAP, des principes d’ETL, des tableaux de bord, de la consolidation des données, du Data
mining.
1- Rappel de la leçon 0 sur les concepts de SIAD

Introduction
Toutes les entreprises du monde disposent d’une masse de données plus ou moins considérable.
Ces informations proviennent soit de sources internes (générées par leurs systèmes opérationnels au
fil des activités journalières), ou bien de sources externes (web, partenaire, etc.).
Cette surabondance de données, et l’impossibilité des systèmes opérationnels de les exploiter à

des fins d’analyse conduit, inévitablement, l’entreprise à se tourner vers une nouvelle informatique
dite décisionnelle qui met l’accent sur la compréhension de l’environnement de l’entreprise et
l’exploitation de ces données à bon escient.
En effet, les décideurs de l’entreprise ont besoin d’avoir une meilleure vision de leur
environnement et de son évolution, ainsi, que des informations auxquelles ils peuvent se fier. Cela ne
peut se faire qu’en mettant en place des indicateurs « business » clairs et pertinents permettant la
sauvegarde, l’utilisation de la mémoire de l’entreprise et offrant à ses décideurs la possibilité de se
reporter à ces indicateurs pour une bonne prise de décision.
Le « Data Warehouse », « Entrepôt de données » en français, constitue, dans ces conditions, une
structure informatique et une fondation des plus incontournables pour la mise en place d’applications
décisionnelles.
Le concept de Data Warehouse, tel que connu aujourd’hui, est apparu pour la première fois en
1980
; l’idée consistait alors à réaliser une base de données destinée exclusivement au processus
décisionnel. Les nouveaux besoins de l’entreprise, les quantités importantes de données produites par
les systèmes opérationnels et l’apparition des technologies aptes à sa mise en œuvre ont
contribué à
l’apparition du concept « Data Warehouse » comme support aux systèmes décisionnels.
I.1. Les systèmes décisionnels
La raison d’être d’un entrepôt de données, comme évoqué précédemment, est la mise en place
d’une informatique décisionnelle au sein de l’entreprise. Pour cela il serait assez intéressant de définir
quelques concepts clés autour du décisionnel.
Afin de mieux comprendre la finalité des systèmes décisionnels, nous nous devons de les
placer
dans leurs contextes et rappeler ce qu’est un système d’information.
« Le système d’information est l’ensemble des méthodes et moyens de recueil de contrôle et de

distribution des informations nécessaires à l’exercice de l’activité en tout point de l’organisation. Il a
pour fonction de produire et de mémoriser les informations, de l’activité du système opérant (système
opérationnel), puis de les mettre à disposition du système de décision (système de pilotage) »
[Le Moigne, 1977].
Les différences qui existent entre le système de pilotage et le système opérationnel, du point de
vue fonctionnel ou des tâches à effectuer, conduit à l’apparition des « systèmes d’information
décisionnels » (S.I.D.). Ces différences seront clairement illustrées un peu plus loin dans notre
document.
Les origines des SID remontent au début de l’informatique et des systèmes d’information qui ont,
tous deux, connu une grande et complexe évolution liée notamment à la technologie. Cette évolution
se poursuit à ce jour2.
Parmi les différentes définitions du décisionnel « business intelligence B.I. » qui ont été données
on trouve :
• "Le Décisionnel est le processus visant à transformer les données en informations et,
par l'intermédiaire d'interrogations successives, transformer ces
informations en connaissances." [Dresner, 2001].
1.1. La place du décisionnel dans l’entreprise :
Figure I.1 : Le décisionnel au sein du Système d’information [Goglin, 1998].
La figure ci-dessus illustre parfaitement la place qui revient au décisionnel au sein d’une
entreprise. Cette place, com prend plusieurs fonctions clés de l’entreprise. Les finalités décisionnelles,
étant différentes selon le poste et la fonction occupée, ont pour but d’engendrer plusieurs
composantes.
1.2. Les différentes composantes du décisionnel
En relation étroite avec les nouvelles technologies de l’information et des

télécommunications, le système décisionnel se manifeste à différents niveaux selon leurs utilités et
leurs missions principal es, comme illustré dans la figure suivante :
Figure I.2 : Les différentes composantes du décisionnel [Goglin, 1998].
2 MAGASINS DE DONNEES OLAP

Dans le cadre de nos propositions, nous avons défini deux espaces de stockage pour un système
d'aide à la décision : l'entrepôt et les Magasins de Données (MD). Dans cette section, nous nous
focalisons sur ce second espace.
Un magasin de données est un extrait de l'entrepôt orienté vers un thème d'analyse particulier et
destiné à un type de décideurs. De ce fait, la structuration des données dépend de l'outil utilisé par le
décideur lors de ses analyses ou de ses interrogations décisionnelles. De nos jours, les systèmes OLAP
sont considérés comme les plus adaptés pour faciliter les prises de décisions [Kimball & Ross, 2002].
Dans cette section, nous définissons le terme OLAP et nous étudions les travaux relatifs à la
modélisation multidimensionnelle et aux langages de manipulation OLAP.
1. OLAP : ON-LINE ANALYTICAL PROCESSING

Suivant [Pendse, 2006], le terme OLAP, acronyme de On Line Analytical Processing, a été défini en
1993 par EF Codd [Codd et al., 1993], même si certains concepts, technologies voir certains outils ont
été élaborés avant. Par opposition à ses propositions du modèle relationnel reposant sur des
principes
mathématiques, le rapport technique de EF Codd [Codd et al., 1993], commandité par la société Arbor
Software (intitulée actuellement Hyperion Solutions) repose essentiellement sur des considérations
commerciales [Pendse, 2005]. Ces règles sont centrées sur les fonctionnalités d'un outil OLAP et non
sur les spécificités liées à la modélisation multidimensionnelle des données inhérente à un système
OLAP.
Dans ce rapport technique un système est qualifié de OLAP s'il respecte les douze règles énoncées ci-
après. Pour en faciliter la compréhension, nous les avons classées en trois catégories :
 Architecture du système OLAP : (1) accessibilité à de nombreuses sources de
données,
(2) support multi-utilisateurs, (3) architecture client/serveur (4) transparence du
serveur OLAP à différents types de logiciel
 Données du système OLAP : (5) vue conceptuelle multidimensionnelle, (6)
dimensions génériques (principe de hiérarchisation), (7) nombre illimité de
dimensions et de niveaux d’agrégation, (8) gestion dynamique des matrices
creuses
 Manipulation de données des systèmes OLAP : (9) manipulation intuitive des
données
(10) uniformité des performances du système de reporting (restitution), (11)
souplesse et facilité de construction des rapports, (12) calcul au travers des
dimensions.
En réponse à cette première proposition, les auteurs du "OLAP Report" [Pendse, 2005] ont élaboré le
test FASMI pour analyser et classifier les différents outils OLAP :
 Fast : le système doit être capable de fournir en quelques secondes les réponses
aux requêtes décisionnelles simples comme complexes
 Analysis : le système doit être suffisamment flexible pour supporter par défaut
différents modèles d'analyse et/ou de calcul statistique et offrir la possibilité
aux décideurs de faire des calculs ad hoc.
 Shared : le système met en application toutes les conditions de sécurité pour la
confidentialité et les mises à jour concurrentes.
 Multidimensional : cette fonctionnalité essentielle offre aux décideurs une vision
conceptuelle multidimensionnelle avec une hiérarchisation des dimensions
d'analyse.
 Information : les auteurs étudient les différents types de sources possibles pour
alimenter le système OLAP
Les définitions précédentes visent principalement à classifier les outils OLAP du marché. Or, dans le
contexte de nos travaux, nous souhaitons faire abstraction des outils du marché et proposer une
définition mettant en avant la caractéristique de base des systèmes OLAP : la structure
multidimensionnelle des données. Autrement dit, les données forment des points dans un espace à
plusieurs dimensions afin de s'approcher de la perception du décideur. Ces points représentent des
centres d'intérêts décisionnels (également appelés sujets d'analyse) analysés selon différents axes
d'analyse (ou dimensions). Cette représentation multidimensionnelle des données sert de support aux
processus d'aide à la prise de décision. Nous proposons alors de définir les systèmes OLAP comme
suit
:
Définition : Un système OLAP permet de stocker et de présenter de manière
multidimensionnelle les données décisionnelles. Cette structuration multidimensionnelle des
données (indicateurs de performance analysés en fonction de différents axes) sert de support à
l’interrogation, à la synthèse dynamique (tableaux de bord) et à l’analyse interactive (ou OLAP).
Le terme OLAP (On-Line Analytical Processing) désigne une classe de technologies conçue
pour l’accès aux données et pour une analyse instantanée de ces dernières, dans le but de répondre
aux besoins de Reporting et d’analyse. R. Kimball définit le concept « OLAP » comme «Activité globale
de requêtage et de présentation de données textuelles et numériques contenues dans l’entrepôt de
données; Style d’interrogation spécifiquement dimensionnel » [Kimball, 2005].
C’est en continuant sur sa lancée, qui lui a permis de définir le model OLTP pour les bases de
données relationnelles, que le concept OLAP fut introduit et défini6 en 1993 par E.F Codd, le père des
bases de données relationnelles, dans un document technique portant le titre de « Providing OLAP
(On-Line Analytical Processing) to User-Analysts : An IT Man-date »
[Codd, 1993].
2. Architectures des serveurs OLAP
Le noyau d’un système OLAP est son serveur. Ces serveurs sont classés selon la politique régissant
l’architecture du serveur. Ainsi, ces architectures peuvent être distinguées comme suit:
1. Les systèmes à architecture MOLAP

Ces systèmes MOLAP « Multidimentional On-line Analytical Processing » sont conçus
exceptionnellement pour l’analyse multidimensionnelle.
R. Kimball définit ces systèmes comme étant un « Ensemble d’interfaces utilisateur,
d’applications et de technologies de bases de données propriétaire dont l’aspect dimensionnel est
prépondérant » [Kimball, 2005].
Ainsi donc cette base adopte réellement la structure multidimensionnelle, exploitant de ce
fait ces capacités au maximum. En effet MOLAP offre des temps d’accès optimisés et cela en
prédéfinissant les opérations de manipulation et de chemin d’accès prédéfinis.
Autre caractéristique du MOLAP c’est qu’il agrège tout par défaut, pénalisant du coup le
système lorsque la quantité de données à traiter augmente. On parle généralement de volume de
l’ordre du giga-octet pas plus.
Data Warehouse Moteur MOLAP Aide à la décision
Données Traitements Présentation
Stockage des Rapports

données détaillées (et Multi-Dimensionnel
agrégées)
Figure 2.1 : Principe de l’architecture MOLAP [Nakache, 1998].
Data Warehouse Moteur ROLAP Aide à la décision
Données Traitements Présentation

Stockage des Génération de plans Rapports
données
détaillées (et d'exécution SQL Multidimensionnels
agrégées) et afin d'obtenir des
des méta-
données fonctionnalités OLAP.
Figure 2.2: Principe de l’architecture ROLAP [Nakache, 1998].
2. Les systèmes à architecture HOLAP
Les systèmes HOLAP « Hybride On-line Analytical Processing » sont une sorte de compromis
entre les différents systèmes précités. Cette combinaison donne à ce type de système les avantages
du ROLAP et du MOLAP en utilisant tour à tour l’un ou l’autre selon le type de données.
3. Autres architecture OLAP

Bien que les architectures évoquées ci-dessus soient les plus répandues et les plus adoptées
par les fournisseurs de solutions OLAP, d’autres systèmes se basent sur des architectures différentes
telles que l’architecture OOLAP « Object On-line Analytical Processing », ou alors DOLAP « Desktop
On-line Analytical Processing » qui décrit une catégorie de produits qui ne sont pas nécessairement
connectés à un serveur et qui s’appuient sur une source de données (un cube) construites, stockées et
exploitées en local sur la machine de l’utilisateur.
3- ETL (Extractor-Loader-Transformer)
Une fois le Data Warehouse conçu, il faut l’alimenter et le charger en données. Cette
alimentation (le plus souvent appelée processus ETL « Extract-Transform-Load ») se déroule en 3
phases qui sont :
• Extraction des données primaires (issues par exemple des systèmes de production),
• Transformation des données,
• Le chargement des données traitées dans l’entrepôt de données,
Ces trois étapes décrivent une mécanique cyclique qui a pour but de garantir l’alimentation du
Data Warehouse en données homogènes, propres et fiables.
IV.2.1 Les phases de l’alimentation « E.T.L. »
Les phases du processus E.T.L. représentent la mécanique d’alimentation du Data Warehouse.

Ainsi elles se déroulent comme suit :
a) L’extraction des données
« L’extraction est la première étape du processus d’apport de données à l’entrepôt de

données. Extraire, cela veut dire lire et interpréter les données sources et les copier dans la zone de
préparation en vue de manipulations ultérieures. » [Kimball, 2005].
Elle consiste en :
• Cibler les données,

• Appliquer les filtres nécessaires,
• Définir la fréquence de chargement,
Lors du chargement des données, il faut extraire les nouvelles données ainsi que les
changements intervenus sur ces données. Pour cela, il existe trois stratégies de capture de
changement :
•Colonnes d’audit : la colonne d’audit, est une colonne qui enregistre la date d’insertion ou du
dernier changement d’un enregistrement. Cette colonne est mise à jour soit par des triggers ou par
les applications opérationnelles, d’où la nécessité de vérifier leur fiabilité.
•Capture des logs : certains outils ETL utilisent les fichiers logs des systèmes sources afin de
détecter les changements (généralement logs du SGBD). En plus de l’absence de cette fonctionnalité
sur certains outils ETL du marché, l’effacement des fichiers logs engendre la perte de toute
information relative aux transactions.
•Comparaison avec le dernier chargement : le processus d’extraction sauvegarde des copies des
chargements antérieurs, de manière à procéder à une comparaison lors de chaque nouvelle
extraction. Il est impossible de rater un nouvel enregistrement avec cette méthode.
b) La transformation des données
La transformation est la seconde phase du processus. Cette étape, qui du reste est très
importante, assure en réalité plusieurs tâches qui garantissent la fiabilité des données et leurs
qualités. Ces tâches sont :
• Consolidation des données.

• Correction des données et élimination de toute ambiguïté.
• Elimination des données redondantes.
• Compléter et renseigner les valeurs manquantes.
Cette opération se solde par la production d’informations dignes d’intérêt pour l’entreprise et de
et sont donc prêtes à être entreposées.
c) Le chargement des données
C’est la dernière phase de l’alimentation d’un entrepôt de données, le chargement est une étape
indispensable. Elle reste toute fois très délicate et exige une certaine connaissance des structures du
système de gestion de la base de données (tables et index) afin d’optimiser au mieux le processus.
IV.2.2 Politiques de l’alimentation
Le processus de l’alimentation peut se faire de différentes manières. Le choix de la

politique de chargement dépend des sources : disponibilité et accessibilité. Ces politiques sont8 :
• Push : dans cette méthode, la logique de chargement est dans le système de production. Il "
pousse " les données vers la zone de préparation quand il en a l'occasion. L'inconvénient est
que si le système est occupé, il ne poussera jamais les données.
• Pull : contrairement de la méthode précédente, le Pull " tire " les données de la source vers la
zone de préparation. L'inconvénient de cette méthode est qu'elle peut surcharger le système
s'il est en cours d'utilisation.
• Push-pull : c'est la combinaison des deux méthodes. La source prépare les données à envoyer
et indique à la zone de préparation qu'elle est prête. La zone de préparation va alors
récupérer les données.
Aussi, le processus d’alimentation doit répondre à certaines exigences illustrées par la figure
suivante :
Être rapide Être correctif Être sûr
Processus
ETL
Être transparent
Figure 3.1 : Objectif de qualité de données dans un processus ETL [Kimball, 2004].
• Sûr : assure l’acheminement des données et leur livraison.
•Rapide : la quantité de données manipulées peut causer des lenteurs. Le processus

d’alimentation doit palier à ce problème et assurer le chargement du Data Warehouse dans des délais
acceptables.
• Correctif : le processus d’alimentation doit apporter les correctifs nécessaires pour améliorer
la qualité des données.
• Transparent : le processus de l’ETL doit être transparent afin d’améliorer la qualité des
données.
3.2.3 Les outils E.T.L.
Figure 3.2 : Architecture générale d’un ETL
Figure 3.3 : Processus ETL
Les outils E.T.L, en français E.T.C « Extraction-Transformation-Chargement » [Kimball, 2005], sont

des outils qui garantissent la faisabilité et facilitent le déroulement des trois phases citées
précédemment. D’où leur importance dans un projet Datawarehouse.
Figure 3.2 : Architecture d’un Datawarehouse
4 Le Data Mining
1. Définitions
Forage de données, explorations de données ou fouilles de données, ce sont les traductions

possibles du data mining en Français. En règle générale, le terme Data Mining désigne l’analyse de
données depuis différentes perspectives et le fait de transformer ces données en informations
utiles, en établissant des relations entre les données ou en repérant des patterns. Ces informations
peuvent ensuite être utilisées par les entreprises pour augmenter un chiffre d’affaires ou pour réduire
des coûts. Elles peuvent également servir à mieux comprendre une clientèle afin d’établir de
meilleures stratégies marketing.
2. Qu’est-ce qu’un data mining ?
Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse de données.
Ils permettent aux utilisateurs d’analyser des données sous différents angles, de les catégoriser, et de
résumer les relations identifiées. Techniquement, le Data Mining est le procédé permettant de
trouver des corrélations ou des patterns entre de nombreuses bases de données relationnelles. Le
Data Mining repose sur des algorithmes complexes et sophistiqués permettant de segmenter les
données et d’évaluer les probabilités futures. Le Data Mining est également surnommé Knowledge
Discovery in Data (Data mining traduction ? La découverte de savoir dans les données).
Le terme Data Mining est relativement récent, mais la technologie ne l’est pas. Depuis des années, les
entreprises utilisent de puissants ordinateurs pour traiter les larges volumes de données accumulés
par les scanners des supermarchés et pour analyser les rapports de recherches sur les marchés. De
même, les innovations continuelles dans les domaines du calcul informatique, du stockage, et des
logiciels statistiques augmentent fortement la précision des analyses et dirigent la réduction des
coûts.
3. Données, informations et savoir dans le Data Mining
1. Données
Les données sont des faits, des nombres, ou des textes pouvant être traités par un ordinateur.
Aujourd’hui, les entreprises accumulent de vastes quantités de données sous différents formats,
dans différentes quantités de données. Parmi ces données, on distingue :
1. Les données opérationnelles ou transactionnelles telles que les données de ventes, de coûts,
d’inventaire, de tickets de caisse ou de comptabilité.
2. Les données non opérationnelles, telles que les ventes industrielles, les données
prévisionnelles, les données macro-économiques.
3. Les métadonnées, à savoir les données concernant les données elles-mêmes, telles que les
définitions d’un dictionnaire de données.
2. Informations
Les patterns, associations et relations entre toutes ces données permettent d’obtenir des
informations. Par exemple, l’analyse des données de transaction d’un point de vente permet de
recueillir des informations sur les produits qui se vendent, et à quel moment ont lieu ces ventes.
3. Savoir
Les informations peuvent être converties en savoir à propos de patterns historiques ou des
tendances futures. Par exemple, l’information sur les ventes au détail d’un supermarché peut être
analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet des comportements
d’acheteurs. Ainsi, un producteur ou un retailer peut déterminer quels produits doivent faire l’objet
d’une promotion à l’aide du Data Mining.
4.4 On dénombre cinq variétés du Data Mining :
 Association – chercher des patterns au sein desquelles un événement est lié à un autre
événement.
 Analyse de séquence – chercher des patterns au sein desquelles un événement mène à un
autre événement plus tardif.
 Classification – chercher de nouvelles patterns, quitte à changer la façon dont les données
sont organisées.
 Clustering – trouver et documenter visuellement des groupes de faits précédemment
inconnus.
 Prédiction – découvrir des patterns de données pouvant mener à des prédictions raisonnables
sur le futur. Ce type de data mining est aussi connu sous le nom d’analyse prédictive.
4.5 À quoi sert le Data Mining dans le marketing ?
Le Data Mining est actuellement principalement utilisé par les entreprises focalisées sur les
consommateurs, dans les secteurs du retail, de la finance, de la communication, ou du data mining
marketing. Les techniques de Data Mining sont également utilisées dans différents secteurs de
recherche, tels que les mathématiques, la cybernétique ou la génétique. Le Web Mining, utilisé dans
le domaine de la gestion de relation client, vise à identifier des patterns de comportement des
utilisateurs au sein des vastes quantités de données rassemblées par un site web.
Grâce au Data Mining, les entreprises peuvent déterminer les relations entre les facteurs
internes tels que les prix, le positionnement d’un produit, les compétences des employés et les
facteurs externes comme les indicateurs économiques, la concurrence, ou les informations
démographiques sur les consommateurs.
Elles peuvent ensuite déterminer l’impact de ces relations sur les ventes, la satisfaction des
consommateurs, et les bénéfices de l’entreprise. Enfin, ces relations peuvent être converties en
informations pour obtenir des détails sur les données transactionnelles.
Avec le Data Mining, un retailer peut utiliser les enregistrements des achats de clients en point de
vente pour envoyer des promotions ciblées basées sur l’historique d’achat d’un individu. En minant
les données démographiques sur les commentaires des cartes de garantie, le vendeur peut
développer des produits et des promotions pour attirer certains segments de consommateurs.
Exemples concrets de l’utilisation du Data Mining
- À titre d’exemple, une chaîne d’épiceries du Midwest s’est servie des logiciels de Data Mining
d’Oracle pour analyser les modèles d’achats locaux. L’enseigne à découvert que, lorsque les hommes
achètent des couches le jeudi et le samedi, ils ont également tendance à s’acheter des bières. Une
analyse approfondie a également démontré que ces clients font habituellement leurs courses
hebdomadaires le samedi. Le jeudi, ils se contentent d’acheter quelques articles seulement. La chaîne
en a conclu que les clients achètent leurs bières pour qu’elles soient prêtes pour le weekend. Cette
nouvelle information découverte a pu être utilisée de différentes façons pour augmenter le chiffre
d’affaires. Par exemple, le rayon bière a été déplacé plus près du rayon couches. De même, le retailer
s’est assuré que les bières et les couches ne seraient plus soldées le jeudi.
-Suggestions de produits
Par exemple, Blockbuster Entertainment mine sa base de données historique de location de vidéos
pour recommander des films à des clients individuels. De même, American Express peut suggérer des
produits à ses clients en se basant sur leurs dépenses mensuelles.
-Relations fournisseurs
Le géant WalMart se place en précurseur du Data Mining massif pour transformer ses relations avec
les fournisseurs. WalMart collecte des données transactionnelles depuis 2900 boutiques dans 6 pays
différents, et transmet ces données en continu vers sa Data Warehouse 7,5 terabyte fournie par
Teradata. Plus de 3500 fournisseurs de WalMart peuvent accéder aux données relatives à leurs
produits et effectuer des analyses de données. Ces fournisseurs utilisent les données pour identifier
les patterns d’achat des clients à l’échelle du magasin. Ils utilisent l’information pour gérer les
inventaires des magasins locaux et identifier de nouvelles opportunités. En 1995, les ordinateurs de
WalMart ont traité près d’un million de requêtes de données complexes.
-Analyse d’images
La National Basketball Association (NBA) explore une utilisation du Data Mining pouvant être utilisé en
conjonction avec l’enregistrement d’images en provenance de matchs de basket. Le logiciel Advanced
Scout permet d’analyser les mouvements des joueurs, pour aider leurs coaches à orchestrer des
stratégies. Par exemple, une analyse du match entre les New York Knicks et les Cleveland Cavaliers le
6 janvier 1995 révèle que John Williams a marqué quatre paniers quand Mark Price était en défense.
Cette pattern a pu être décelée par Advanced Scout, au même titre que la différence avec le
pourcentage de précision moyen des Cavaliers pendant le match, élevé à 49,30%. En utilisant
l’horloge universelle de la NBA, un coach peut automatiquement visionner les clips vidéo de chaque
tir effectué par Williams quand Price était en défense, sans avoir à visionner des heures de capture
vidéo.
-Permettre aux consommateurs de contrôler leur empreinte numérique
À l’ère du numérique, des réseaux sociaux et du tout connecté, les marketers collectent en
permanence et en temps réel des quantités massives de données. Les entreprises surveillent ce que
les consommateurs postent, aiment, partagent sur les réseaux sociaux, les appareils qu’ils utilisent,
les cartes de crédit avec lesquelles ils dépensent, les villes où ils sont situés. Pour cause, ces
données permettent de promouvoir et de vendre des produits de façon personnalisée.
Désormais, de nombreuses firmes développent leur propre cloud marketing pour collecter des
informations sur leur clientèle cible. Par conséquent, les entreprises et les gouvernements peuvent
aisément utiliser les données personnelles pour leur business sans demander le consentement des
usagers.
Afin de remédier à ce problème, et de permettre aux consommateurs de contrôler leurs données, la

startup Digi.me a été fondée en 2009. Cette startup fournit aux consommateurs des outils leur
permettant de se réapproprier leur empreinte numérique, de collecter et de partager des
informations directement avec les entreprises selon leurs propres conditions. Digi.me se place en
leader de l’ « Internet of Me». Une fois que les utilisateurs prennent le contrôle de leurs données,
elles ont la capacité d’en déterminer le prix et de dresser des barrières pour empêcher quiconque d’y
accéder sans permission. Sans contrôle sur leurs données personnelles, les consommateurs sont tout
bonnement exploités sans le savoir.
La technologie développée par Digi.me permet aux utilisateurs de télécharger leurs données et de
les stocker sur internet. Les données sont nativement stockées sur un appareil individuel, et
empêcher les tiers d’y accéder. La startup a levé 10,6 millions, dont 7 millions en 2016. Elle est
également partenaire de Toshiba et Lenovo, et collabore avec les leaders des secteurs de l’assurance
santé, de la finance et de l’industrie pharmaceutique.
-Empêcher l’évasion fiscale avec le Data Mining
En Inde, le gouvernement est décidé à utiliser le data mining pour empêcher l’évasion fiscale. En effet,
l’Inde est profondément affectée par ce fléau. Pour y remédier, le département des taxes va utiliser
la technologie pour faciliter le paiement des taxes pour les citoyens honnêtes, et pour compliquer la
tâche aux malhonnêtes. On ignore pour l’instant de quelle façon le data mining sera utilisé, mais
davantage de détails devraient être dévoilés dans les mois à venir.
-Recruter les meilleurs employés
Les professionnels du recrutement utilisent de plus en plus les outils de data mining pour localiser
et identifier les employés les plus intéressants pour leur entreprise. En Irlande par exemple, les
entreprises collectent les données en ligne sur les candidats pour dénicher les meilleurs talents. Les
données permettent par exemple de déterminer le niveau de productivité et de satisfaction d’un
candidat. C’est la raison pour laquelle LinkedIn a choisi de construire un nouveau building pour
étendre son hub Irlandais, faisant office de QG européen. 200 nouveaux employés ont été ajoutés à
une équipe rassemblant déjà 1000 personnes.
4.4 Comment fonctionne le Data Mining ?
Les technologies informatiques ont évolué de manière à ce que les systèmes transactionnels et les
systèmes analytiques soient séparés. Le Data Mining assure la jonction entre les deux. Les logiciels de
Data Mining analysent les relations et les patterns des données de transactions stockées en se basant
sur des requêtes d’utilisateurs. Plusieurs types de logiciels analytiques sont disponibles : statistiques,
Machine Learning, et réseaux neuronaux. En général, on dénombre quatre types de relations :
 Classes: Les données stockées sont utilisées pour localiser les données en groupes
prédéterminés. Par exemple, une chaîne de restaurant peut miner les données d’achat des
clients pour déterminer quand ont lieu les visites des clients et quelles sont leurs commandes
habituelles. Cette information peut être utilisée pour augmenter le trafic en proposant des
menus quotidiens.
 Clusters: Les données sont regroupées par rapport à des relations logiques ou aux
préférences des clients. Par exemple, les données peuvent être minées pour identifier des
segments de marché ou des affinités de clients.
 Associations: Les données peuvent être minées pour identifier des associations. L’exemple
des
couches et des bières cité plus haut est un exemple de minage associatif.
 Patterns séquentielles: Les données sont minées pour anticiper les patterns de
comportements et les tendances. Par exemple, un vendeur d’équipement extérieur peut
prédire les probabilités qu’un sac à dos soit acheté en se basant sur les achats de sac de
couchage et de chaussures de randonnée d’un client.
Le Data Mining repose sur cinq éléments majeurs :
 L’extraction, la transformation, et le chargement de données transactionnelles sur le système

de Data Warehouse.
 Le stockage et la gestion de données dans un système de base de données multidimensionnel.
 Fournir l’accès aux données aux analystes de business et aux professionnels des technologies
informatiques.
 Analyser les données grâce à un logiciel applicatif.
 Présenter les données sous un format utile, comme un graphique ou un tableau.
Différents niveaux d’analyse sont disponibles :
 Les réseaux de neurones artificiels: Des modèles prédictifs non linéaires qui apprennent par
l’entraînement et s’apparentent à des réseaux neuronaux biologiques dans leur structure.
 Algorithmes génétiques: Les techniques d’optimisation utilisent des procédés tels que la
combinaison génétique, la mutation, et la sélection naturelle dans un design basé sur les
concepts de l’évolution naturelle.
 Les arbres décisionnels: Ces structures en forme d’arbres représentent des ensembles de
décisions. Ces décisions génèrent des règles pour la classification d’un ensemble de données.
Les méthodes spécifiques d’arbres décisionnels incluent les Arbres de Classification et
Régression (CART), et les Chi Square Automatic Interaction Detection (CHAID). Ces deux
méthodes sont utilisées pour la classification d’un ensemble de données. Elles fournissent un
ensemble de règles pouvant être appliqués à un nouvel ensemble de données pour prédire
quels enregistrements auront un résultat. Le CART segmente un ensemble de données en
créant une division à deux issues, tandis que le CHAID segmente l’ensemble en utilisant des
tests de chi square pour créer des issues à plusieurs voies. En général, CART requiert moins de
préparation de données que CHAID.
 La méthode du voisin le plus proche: Cette technique classifie chaque enregistrement d’un
ensemble de données en se basant sur une combinaison des classes du k, similaire à un
ensemble de données historique.
 L’induction de règle: L’extraction de règles « si-alors » depuis les données, basées sur des
signifiances statistiques.
 Data visualization: L’interprétation visuelle de relations complexes dans les données

multidimensionnelles. Les outils graphiques sont utilisés pour illustrer les relations de
données.
Le Data Mining Process en 5 étapes
Le processus de Data Mining se décompose en 5 étapes. En premier lieu, les entreprises collectent les
données et les chargent dans les Data Warehouses. Par la suite, elles stockent et gèrent les données,
sur des serveurs physiques ou sur le Cloud. Les Business analysts, les équipes de management et les
professionnels de l’informatique accèdent à ces données et déterminent comment ils souhaitent les
organiser. Puis, le logiciel applicatif permet de trier les données en se basant sur les résultats
utilisateurs. Enfin, l’utilisateur final présente les données sous un format facile à partager comme un
graphique ou un tableau.
Les 3 propriétés principales du Data Mining
On dénombre 3 propriétés principales du Data Mining Big Data :
 La découverte automatique de patterns
Le Data Mining repose sur le développement de modèles. Un modèle utilise un algorithme pour agir
sur un ensemble de données. La notion de découverte automatique se réfère à l’exécution de
modèles de Data Mining. Les modèles de Data Mining peuvent être utilisés pour miner les données
sur lesquelles ils sont bâtis, mais la plupart des types de modèles peuvent être généralisés à de
nouvelles données. Le processus permettant d’appliquer un modèle à de nouvelles données est
appelé scoring.
 La prédiction de résultats probables
De nombreuses formes de Data Mining sont prédictives. Par exemple, un modèle peut prédire un
résultat basé sur l’éducation et d’autres facteurs démographiques. Les prédictions ont une probabilité
associée. Certaines formes de Data Mining prédictif génèrent des règles, qui sont les conditions pour
obtenir un résultat. Par exemple, une règle peut spécifier qu’une personne dotée d’un bachelor et
vivant dans un quartier précis a une probabilité d’avoir un meilleur salaire que la moyenne régionale.
 La création d’informations exploitables
Le Data Mining permet de dégager des informations exploitables de larges volumes de données. Par
exemple, un planificateur urbain peut utiliser un modèle pour prédire le revenu en se basant sur les
données démographiques pour développer un plan pour les ménages à bas revenu. Une agence de
location de voiture peut utiliser un modèle pour identifier des segments de consommateurs afin de
créer une promotion ciblant les clients à forte valeur.
4.5 Quelle infrastructure technologique est requise ?
Aujourd’hui, les applications de Data Mining sont disponibles dans toutes les tailles pour mainframe,
serveur ou PC. Les prix des systèmes sont compris entre plusieurs milliers de dollars pour les plus
petites applications et jusqu’à 1 million de dollars par terabyte pour les plus larges. Les applications
d’entreprises sont généralement comprises entre 10 gigabytes et plus de 11 terabytes. NCR a la
capacité de délivrer des applications de plus de 100 terabytes. Il existe deux principaux facteurs
technologiques :
 La taille de la base de données: Plus le nombre de données à traiter et à maintenir est

important, plus un système puissant est requis.
 La complexité des requêtes: Plus les requêtes sont complexes et nombreuses, plus un système
puissant est requis.
Le stockage de bases de données relationnelles et les technologies de gestion sont adéquats pour
beaucoup d’applications de data mining inférieures à 50 gigabytes. Cependant, cette infrastructure
doit être largement augmentée pour prendre en charge des applications plus importantes. Certains
vendeurs ont ajouté des capacités d’indexage plus importantes pour augmenter les performances de
requêtes. D’autres utilisent de nouvelles architectures matérielles telles que les Massiely Parallel
Processors (MPP) pour améliorer le temps de traitement des requêtes. Par exemple, les systèmes
MPP de NCR lient des centaines de processeurs Pentium pour atteindre des niveaux de performance
supérieurs aux meilleurs superordinateurs.
5. Reporting
1. Définition du reporting
Selon le site définitions-marketing, la définition du reporting est la suivante: « Dans le domaine du

management, le reporting est généralement l’activité qui consiste à rendre compte périodiquement
de ses performances à l’égard de sa direction. Dans le cadre du marketing, le reporting peut
également être le fait pour un cadre marketing de rendre compte de ses performances ou actions. »
En quoi consiste le reporting ?
Fondamentalement, le reporting consiste à collecter des données à partir de différentes sources et

les présenter de manière compréhensible afin qu’elles soient prêtes à être analysées.
Dans une certaine mesure, le reporting consiste aussi à présenter des données et des informations, de
sorte qu’il inclut également une analyse, c’est-à-dire que l’audience finale puisse à la fois voir et
comprendre les données, et surtout prendre des décisions d’action en conséquence.
Les différents types de reporting : stratégique, tactique, opérationnel, analytique
La littérature identifie 4 principaux types de reporting :

Figure 5.1 : Les 4 types de reporting
-Reporting stratégique
Il s’agit ici de tableaux de bord axés sur le suivi des stratégies à long terme de l’entreprise, qui
analysent et comparent un large éventail d’informations critiques, basées sur les tendances.
-Reporting tactique
C’est un reporting riche en informations, adaptés aux cadres intermédiaires, qui les aident à formuler
des stratégies de croissance basées sur les tendances, ainsi que les forces et les faiblesses des
équipes.
-Reporting opérationnel
Il s’agit là d’un reporting qui permet de surveiller, mesurer et gérer des processus ou des opérations
avec une échelle de temps plus courte.
-Reporting analytique
Ces tableaux de bord particuliers contiennent de nombreuses sources de données qui permettent aux
analystes d’explorer et d’extraire des informations pour aider l’entreprise à découvrir de nouveaux
gisements de valeur.
Sur quoi les managers demandent-ils le plus de reporting?
En règle général, le reporting demandé en entreprise concerne un des domaines du célèbre tableau
de bord prospectif de Norton & Kaplan :
 Finances
 Clients
 Opérations internes
 Croissance & développement
Figure 5.2 : Tableau de bord prospectif de Norton & Kaplan
Reporting financier
Bien évidemment, le reporting financier est indispensable pour correctement diriger une entreprise.
Du simple compte de résultat & bilan prévisionnel, au reporting d’analyses financières, la direction a
besoin de garder un œil sur les chiffres clés de l’entreprise : la rentabilité & le coût des capitaux, les
ventes, les marges, les charges d’opération, les profits, les investissements et leurs effets, etc.
Reporting commercial
Une entreprise ne vit que si elle a des clients : c’est pourquoi le reporting commercial est important.
Cela peut se rapporter à des métriques concernant vos produits (% de chaque catégorie dans le CA),
la relation que vous entretenez avec vos clients (indice de satisfaction, taux de churn) ou même
l’image de votre marque (notoriété, trafic de marque sur le site).
Reporting fonctionnel
Pour faire un bénéfice, une firme doit bien gérer ses opérations et a donc besoin de les mesurer. Cela
peut être l’analyse de la distribution (revenus par revendeurs), des charges de services clients (temps
moyen de traitement d’une plainte), du portefeuille de produits (croissance par référence) ou bien des
problématiques de ressources humaines (turnover du personnel).
Outils de reporting : quels sont les outils à disposition pour réaliser un tableau de bord ?
Le tableur (Excel ou Google Spreadsheet) reste l’outil n°1
Que celui qui n’a jamais utilisé une feuille de calcul me jette la première pierre…
Les feuilles de calcul, sur Microsoft Excel ou Google Spreadsheet, sont souvent considérées comme
l’outil numéro un pour le reporting, car elles sont couramment utilisées, par tout le monde et il est
simple de les créer.
Prenez une TPE ; certainement qu’une feuille de calcul est déjà assez « puissante » pour réaliser les
calculs et les analyses souhaitées pour le reporting.
Vu leur large adoption, il est tout à fait normal que la première idée que vous ayez pour construire
votre reporting soit d’utiliser une feuille de calcul. Néanmoins, il faut que vous soyez conscient aussi
que cet outil possède de nombreuses limites.
Figure 5.3 : Exemple de reporting sur Google spreadsheet

Pourquoi tenir son reporting sur un tableur n’est pas l’idéal ?
Cependant, à mesure que votre entreprise se développe et que votre base client grossit, il sera difficile
de maintenir votre reporting sur un simple fichier Excel… Les principales limites sont les suivantes :
 les feuilles de calcul sont sujettes aux erreurs humaines : Au fur et à mesure que votre
entreprise se développe, la quantité de données que vous devrez manipuler aussi. Or, tout ou
partie de la saisie et la manipulation de données dans Excel est un processus manuel,
extrêmement sensibles aux erreurs humaines. Une simple cellule avec une mauvaise formule
et votre reporting sera entièrement erroné…
 les feuilles de calcul sont difficiles à maintenir : Même si l’emplacement de source de
données est connu, il n’en reste pas moins qu’identifier des erreurs dans une formule Excel
est un travail
pénible et chronophage.
 les feuilles de calcul ne sont pas agiles : Les feuilles de calcul sont conçues pour évaluer des
données sur deux dimensions (lignes x colonnes). Pour obtenir un aperçu plus détaillé,
d’autres dimensions doivent être créées manuellement.
 les feuilles de calcul ne sont pas si intuitives que cela pour le commun des mortels : La
majorité des utilisateurs de tableurs ont du mal à créer des formules complexes. Leur
connaissance se limite à des fonctions simples comme «somme», «moyenne» et «filtrer»…
Pour des formules avancées, les utilisateurs lambdas doivent se tourner vers des collègues
ayant une formation avancée sur Excel.
 les feuilles de calcul présentent des risques pour la sécurité de vos données : vos données
dans une feuille de calcul peuvent facilement être copiées / collées, voire envoyées à vos
concurrents… Même si vous ajouter un mot de passe à votre tableur, ce dernier peut
facilement être forcé avec des outils tiers.
5.2 Google Data Studio, un outil gratuit pour votre reporting
Le must have pour votre reporting marketing
Idéal notamment pour le reporting marketing, un des outils simple, puissant et gratuit qui existe est
Google Data Studio.
Parce qu’il est simple de connecter des sources de données que la plupart des business utilisent
(Google Analytics, Google Ads, Facebook Ads…) et aussi d’importer ses propres feuilles de calcul,
constuire un dashboard marketing sur Google Data Studio est simple, et ne demande aucune
connaissance informatique particulière.
Simple à utiliser, Google Data Studio possède aussi de nombreux exemples de reporting.
Cet outil permet de créer en quelques clics des rapports automatisés collaboratifs et de visualiser vos
KPIs. La vidéo suivante vous propose une présentation (en anglais) de Google Data Studio, en
seulement 100 secondes :
Vous trouverez sur Internet de multiples exemples de tableau de bord réalisés sur Google Data Studio.
Il existe aussi des connecteurs pour accéder et contribuer à une bilbliothèque de tableaux de bord
enrichie par la communauté.
Les nouveaux outils de reporting: l’exemple de Toucan Toco

Rendre le reporting plus fun
La data visualisation a pour but de rendre lisibles les données afin d’en dégager une ou des
informations clés sur son activité. Seulement, voilà, les outils pour réaliser cette nouvelle vision des
choses sont souvent difficiles à appréhender.
Bien que le reporting soit nécessaire à toutes les entreprises, il n’y a rien de plus détestable que de
passer 5h par semaine à rentrer des données dans une feuille Excel. Sans compter que le rendu
obtenu reste ennuyeux, pénible à pondre et à consulter… Alors que comme nous l’avons vu dans le
paragraphe précédent, le reporting doit être visuel, véhiculer des messages, faire prendre des
décisions… Bref, être « fun »!
Or la montée en puissance des outils de tableau de bord innovants et interactifs a rendu le reporting
plus efficace, rapide, simple et accessible à tous dans l’entreprise.
Une autre expérience du reporting
Avec ce besoin bien identifié, plusieurs startup ont vu le jour. Et par exemple, Toucan Toco a décidé de
créer un Outil de reporting “dont le but est de permettre la démocratisation de l’accès à la
connaissance aux métiers opérationnels“.
Selon un article de Decideo, Toucan Toco permet de « créer des applications de reporting en fonction
des besoins des opérationnels et décisionnaires des grands groupes, sans avoir à écrire une seule ligne
de code. Cette autonomie est garantie par une interface intuitive, qui ne requiert aucune compétence
de développeurs. »
Et vous allez voir sur cette vidéo, le résultat fait son effet !
Le tableau de bord de votre entreprise doit être convivial et constituer une aide de base dans le
processus de prise de décision.
Reporting & Data Visualization : réussir la forme de son reporting
Storytelling + Data visualisation = le bon reporting
Un bon reporting se structure d’abord avec une « histoire ».
Les questions à se poser pour que son reporting « raconte une

histoire »
Rappelez-vous, un bon reporting ne fait pas que « rendre compte », il doit avant tout aider à la
décision. Aussi, avant de vous lancer, posez-vous les questions suivantes pour définir les grandes
lignes de votre histoire.
 Quel message voulez vous faire passer ?

 que cherchez vous à prouver avec les données ?
 combien de dimensions à représenter ?
 quel degré de complexité attendu ?
La manière dont vous montrez vos chiffres sur votre reporting compte énormément
Une fois que vous aurez les réponses à ces différents points, vous devez vous pencher sur la
visualisation des données, c’est à dire une manière de « retranscrire » vos chiffres, votre reporting.
Généralement, les gens utilisent un tableur Excel; ce n’est pas l’idéal car pas assez visuel. Il est donc
plus pénible pour les managers d’extraire des insights qui vont vraiment permettre de prendre des
décisions éclairées.
En reporting, une bonne visualisation vaut mille mots. Le cerveau humain est programmé pour
traiter visuellement les informations. Selon une étude menée par le cabinet IDG Research, 77% des
utilisateurs citent la visualisation de la data comme un moyen d’optimisation du processus de prise
de décision.
L’éditeur Toucan Toco permet de créer des visualisations dynamiques de vos données en quelques clics,
qui aident réellement à la prise de décision
Il y’a graphiques et graphiques… Comment bien les choisir pour un reporting plus impactant?
Il existe différents types de graphiques que vous pouvez insérer dans votre reporting. Comment
choisir le bon ?
Figure 5.4 : Exemples de graphiques de reporting

Prendre en compte la nature des données et ce que vous voulez transmettre avant de penser au look
& feel
Convertir une série de données en graphique dans un tableur Excel n’en fait pas une « idée » à
proprement parler… Les graphiques que vous ajoutez à votre reporting sont des outils extrêmement
puissants qui doivent être réfléchis avec soin.
Tout d’abord, il est important de comprendre le type d’informations que vous souhaitez transmettre,
puis de choisir une visualisation de données adaptée. Il existe 4 catégories d’intention d’analyse, qui
appelle chacune des types de graphiques différents.
 soit vous voulez montrer des relations entre des variables (relationship),
 soit vous souhaitez ventiler la donnée selon une dimension (distribution)
 soit vous voulez comparer des données (comparison)
 soit voulez segmenter / décortiquer un ensemble de données (composition)
En fonction de ce que vous souhaitez communiquer ou montrer, il existe un type de graphique adapté
à vos objectifs. Placer vos objectifs dans l’une des 4 catégories principales ci-dessus vous aidera à
prendre une décision éclairée sur le type de graphique adapté.
Discutons à présent des différentes types de graphiques que vous pouvez considérer pour votre
reporting.
Figure 5.5 : Graphiques en courbe
Les graphiques en courbe sont parfaits lorsqu’il s’agit d’afficher des évolutions en fonction du temps.
Ils sont compacts, clairs et précis. Le format des graphiques en courbes est courant et familier pour la
plupart des gens, ce qui les rend simples à comprendre en un coup d’œil.
Figure 5.6 Histogrammes
Choisissez des histogrammes si vous souhaitez comparer rapidement des éléments de la même
catégorie, par exemple, des pages vues par pays. Encore une fois, ces graphiques sont faciles à
comprendre, clairs et directs. Vous pouvez également les utiliser pour afficher des données
segmentées de manière simple.
Figure 5.7 : Graphiques à secteurs (camemberts)

Les graphiques à secteurs (camemberts) sont souvent de mauvais choix de visualisation. Ils sont peu
précis, car ils ne représentent la taille « absolue » des valeurs. Certes, ils sont simple à comprendre,
mais il sont très limités dans le pouvoir d’explication. Même en terme d’UX design, lorsque les
tranches sont trop petites, elles sont à peine visibles pour l’utilisateur, ce qui les rend impossibles à
lire et à comprendre.
Figure 5.8 : Sparkline
Les graphiques sparkline n’ont généralement pas d’échelle, ce qui signifie qu’ils manquent de lisibilité,
et de précision. En revanche, ils sont utiles lorsque vous avez beaucoup de métriques et que vous
souhaitez afficher uniquement les tendances. Ils sont rapidement scannables et très compacts.
Figure 5.9 : Nuage de points
Il n’est pas non plus facile de déchiffrer les nuages de points. Bien qu’ils soient très puissants pour des
analyses plus exploratoires, ils manquent de précision et de clarté pour du reporting. De plus, la
relation entre les deux variables ne changent pas très fréquemment.
De la même manière, la plupart des experts s’accordent sur le fait que les graphiques à bulles ne
conviennent pas aux tableaux de bord. Ils nécessitent trop d’efforts mentaux de la part de leurs
utilisateurs, même lorsqu’il s’agit de lire des informations simples.
Bonnes pratiques design pour votre reporting : Organisez et structurez votre reporting
Si votre tableau de bord est bien organisé, les utilisateurs trouveront facilement les informations dont
ils ont besoin. Une mauvaise mise en page oblige les utilisateurs à réfléchir davantage pour interpréter
les données.
 Déjà, affichez en premier les informations clés en haut de l’écran, dans le coin supérieur
gauche.
 Commencez par une vue d’ensemble. La tendance majeure devrait être visible en un coup
d’œil.
 Après ce premier aperçu révélateur, vous pouvez continuer avec des graphiques plus détaillés
si nécessaire. N’oubliez pas de regrouper les graphiques par thème avec les métriques
comparables placées les unes à côté des autres. De cette manière, l’interprétation s’en
trouvera grandement facilitée.
La mise en page de ce reporting social media est claire et priorise correctement les données. De plus,
l’alignement des métriques « similaires » rend l’analyse plus simple, plus immédiate
Pas plus de 3 couleurs cohérentes pour votre reporting
En matière de couleur, vous pouvez choisir de rester fidèle à l’identité de votre entreprise (mêmes
couleurs, logo, polices) ou opter pour une palette de couleurs totalement différente. L’important est
de rester cohérent et de ne pas utiliser trop de couleurs différentes (deux ou trois maximum).
Une erreur courante consiste à utiliser trop fréquemment des couleurs très saturées. Les couleurs
intenses peuvent instantanément attirer l’attention des utilisateurs sur une certaine donnée, mais si
un tableau de bord ne contient que des couleurs très saturées, les utilisateurs peuvent se sentir
dépassés et perdus – ils ne sauront pas quoi regarder en premier.
Dans cet esprit, vous devez utiliser le même code couleur pour tous les éléments du reporting qui
doivent être analysés ensemble. Cela minimisera l’effort mental requis du point de vue des
utilisateurs, ce qui rendra votre reporting bien plus compréhensible.
Figure 5.10 : Tableau de bord en couleur
Entre les couleurs mal choisies et les reliefs 3D, ce dashboard provoque immédiatement la fracture de
votre œil droit…
Passez du temps à peaufiner les libellés utilisés dans votre reporting
Soyez judicieux dans le choix des libellés de vos statistiques et les légendes de vos graphiques.
 Faites attention à la police, à la taille et à la couleur. Ils ne doivent pas masquer vos
graphiques et statistiques, mais également être suffisamment grands pour être lisibles.
 Oubliez les fioritures, comme les images, les pictogrammes, etc. En règle générale, la
simplicité et la clarté primeront toujours sur le design.
 Il est essentiel aussi que vos libellés et votre mise en forme soient cohérents, au risque sinon
de se retrouver avec un reporting qui prête à confusion, qui sera plus difficile à interpréter, et
qui peut induire de mauvaises décisions.
Arrondissez les chiffres
Si vous décidez de réaliser un tableau de bord pour votre reporting, ce n’est pas pour reproduire
l’expérience d’un fichier Excel ! Arrondissez systématiquement les chiffres de votre reporting : vous
ne voulez pas que votre public soit inondé de décimales…
Certes, vous voulez rester précis mais, parfois, trop de détails donnent une mauvaise impression. Si
vous voulez présenter vos revenus, vous n’avez pas besoin de le faire en allant en centimes ! 850K
semble plus simple et plus efficace visuellement que 850 010,25€.
En plus de simplifier la lecture de votre tableau de bord, arrondir les nombres ne change rien aux
décisions qui seront prises sur la base de votre reporting.
Le cas échéant, proposez un tableau à télécharger avec les données sources
Pour votre reporting, vous devez aussi penser au cas d’usage où les utilisateurs vont vouloir exporter
vos données pour les manipuler.
C’est pourquoi vous pouvez prévoir sur votre reporting un petit espace (ex: en bas de page) où
l’utilisateur va pouvoir télécharger l’ensemble des données brutes, et ainsi les retraiter dans Excel
pour faire des tableaux croisés dynamiques par exemple.
Reporting & Data : réussir le fond de son reporting
Avant de construire un tableau de bord, pensez à votre audience : qui va consulter votre reporting ?
Les informations ne sont précieuses que lorsqu’elles sont directement exploitables par ceux qui les
consultent
Chaque reporting doit être conçu pour un groupe d’utilisateurs particulier dans le but spécifique de
les
aider dans leur processus décisionnel.
Gardez en tête que la finalité d’un tableau de bord reste d’aider ceux qui le consultent à prendre des
décisions. C’est pourquoi, lorsque vous conceptualisez votre reporting, vous devez vraiment vous
mettre à la place des utilisateurs :
 Quelles données recherchent-il ?

 Quelles informations les aideraient à mieux comprendre la situation actuelle ?
Souvent, il est préférable de créer un reporting différent pour chaque par type de décideur
Dans de nombreux cas, un seul dashboard ne suffira pas pour satisfaire les différents types d’audience
qui accèderont à votre reporting. Pensez alors à décliner votre tableau de bord en plusieurs versions,
en fonction du job de vos utilisateurs.
Considérez votre public comme un groupe d’individus ayant des besoins différents : le directeur des
ventes n’a pas besoin de voir les mêmes données qu’un directeur marketing, qu’un directeur des
ressources humaines ou qu’un directeur financier.
Enfin, il est essentiel de demander des feedbacks précis aux gens qui consultent votre reporting :
 Est-ce clair pour eux ?

 Ont-ils obtenu des réponses claires et rapides aux questions qu’ils se posaient avant de lire
votre reporting ?
En posant les bonnes questions, vous serez en mesure d’améliorer la mise en page, les
fonctionnalités, le look and feel, la convivialité et l’équilibre des KPIs… et ainsi de rendre votre
reporting indispensable
!
Donnez du sens à votre reporting, et véhiculez des messages simples

Contextualisez vos chiffres en ajoutant des benchmarks, des comparaisons avec des périodes
précédentes
Votre reporting contient des chiffres et des graphiques dans tous les sens… Mais comment savoir vos
chiffres sont « bons » ou « mauvais » si vous n’avez pas un seuil de référence ?
Sans benchmark, ou objectif précis, comment savoir si un taux de clics de 6% sur votre campagne e-
mailing induit des actions correctrices, ou au contraire, doit être considéré comme une bonne
pratique
?
Pour donner le contexte nécessaire à votre reporting, utilisez des comparaisons par rapport à une
benchmark, une période précédente ou un objectif fixé par le management…
Figure 5.11 : Dans Google Analytics, le reporting « Benchmarking » montre pour chaque source
de trafic du site si vous recevez plus ou moins de visiteur de chaque canal d’acquisition que la moyenne
de vos concurrents
Un autre point important est d‘ajouter la possibilité pour l’utilisateur de comparer vos
chiffres avec une période précédente. L’ajout d’un taux d’évolution et d’un indicateur de tendance
ajoutera beaucoup de valeur à vos métriques. Vous ne pouvez pas vous attendre à ce que tout le
monde se souvienne des résultats des ventes de l’année dernière ou du taux de rétention du dernier
trimestre…
Privilégiez toujours la clarté et la simplicité, dans toutes les situations
Votre reporting doit leur présenter les données d’une manière claire et accessible.
Une règle d’or est qu’un utilisateur ne devrait pas avoir besoin de faire d’autres calculs par
lui-même
pour connaître l’information qu’il souhaite.
Il ne sert à rien de trop complexifier vos graphiques si cela n’apporte pas de valeur ajoutée,
car cela ne fera qu’alourdir le travail d’analyse des personnes qui regarderont votre reporting.
Pour être clair, un tableau de bord doit aussi être « aéré » et équilibré. Ecartez les
informations non essentielles.
Une astuce est de toujours doubler les marges entourant les principaux éléments de votre
tableau de bord pour vous assurer que chaque élément est encadré avec une zone équilibrée
d’espace négatif, ce qui facilite la lecture des informations.
De la même manière, soyez clairs et précis dans la manière dont vous libellez vos statistiques
et vos graphiques. Par exemple, il est inconcevable d’ajouter à son reporting un graphique sans des
titres d’axes.
Enfin, pensez au contexte & à l’appareil des utilisateurs, car cela peut avoir des conséquences
directes sur la manière dont les informations sont affichées. Le tableau de bord sera-t-il visualisé en
déplacement, tranquillement au bureau ou bien sera-t-il affiché sous forme de présentation devant un
large public?
Figure 5.12 : Voici par exemple un tableau de bord clair et actionnable pour un directeur commercial.
Votre reporting doit seulement rendre compte de KPIs dont la relation de « cause à effet » à été
prouvée
De l’enfer du reporting…
Sous prétexte d’être « data driven« , certains managers abusent du reporting… En plus de gaspiller le
temps d’employés qui pourraient plutôt inventer de nouveaux produits ou communiquer avec des
clients, cette boulimie d’indicateurs s’avère être inefficace :
 soit parce que le reporting demandé n’inspire aucune décision / action,

 soit parce que les métriques « nice to have » qui sont demandées n’ont en réalité pas
d’impact
sur vos performances.
Le reporting doit pouvoir expliquer comment agir sur la situation
La satisfaction de la clientèle ou la capacité des employés, a-t-elle une incidence sur les revenus, les
bénéfices ou le cours des actions ? On le pense évidemment… Mais peu de dirigeants en ont vraiment
la preuve. Pourquoi une mesure non financière est-elle meilleure qu’une autre ? Les mesures non
financières sont excellentes, mais elles sont en fait inutiles si on ne comprend pas leurs
interconnexions avec la performance finale.
Au cours des prochaines années, je suis convaincu qu’un plus grand nombre d’entreprises voudront
des «rapports de cause à effet» plutôt que des reporting avec des milliers d’indicateurs.
C’est comme ça que de grandes entreprises arrivent à surveiller des KPIs qui expliquent vraiment la
performance économique de la société.
 Hilton Hotels, par exemple, a déterminé qu’une augmentation de 5% de la fidélisation de la
clientèle – une mesure clé de la performance de l’entreprise – se traduisait par une
augmentation de 1,1% des revenus l’année suivante.
 Harrah’s, le géant du jeu de hasard, a pu calculer les relations entre le service client, la fidélité
des clients, la part de marché et le cours des actions.
Pour trouver les interconnexions entre les indicateurs (KPIs), menez des analyses de corrélation et des
expérimentations
Il ne suffit plus de demander un reporting sur n’importe quelle métrique; vous devez aussi
comprendre quelles sont les liens entre les variables que vous analysez. Pour trouver les indicateurs
qui comptent, deux méthodes complémentaires existent :
 analyse statistique des données à disposition

 et expérimentation contrôlée pour valider les variables sélectionnées et éliminer les autres
sources de variation.
Du point de vue de l’analyse statistique, il vous suffit de réaliser de simples analyses de corrélation
(utilisez une matrice de corrélation comme le montre l’exemple suivant). Vous identifierez alors
quelles variables ont tendances à évoluer de la même manière.
Figure 5.13 : Dans cette matrice de corrélation par exemple, on évalue par exemple si
la météo a un impact sur le chiffre d’affaires (et donc si cela pourrait être un indicateur à suivre)
Enfin pour confirmer vos hypothèses, faites des tests. C’est une excellente manière, après avoir
déniché quelques corrélations intéressantes, de prouver qu’une variable a bien l’effet attendu sur le
KPI qui vous importe. Sur le web, un simple test A/B est bien représentatif de ce type
d’expérimentation ; vous divisez vos visiteurs en deux groupes (contrôle et test) et ne changez qu’une
seule chose pour en mesurer la performance de manière isolée, et ainsi prouver que l’élément étudié
a un impact sur la performance finale.
Conclusion
Quand on parle de reporting, il faut bien distinguer 3 activités :
 Le reporting collecte & traite les données,

 La mise en forme d’un tableau de bord,
 et l’analyse qui transforme les données en informations, puis en décision.
Votre reporting doit exister pour satisfaire les besoins décisionnels d’un groupe d’utilisateurs bien
identifiés. Le but de votre reporting doit être 100% tourné vers la prise de meilleures décisions :
l’information n’a de valeur que lorsqu’elle est directement exploitable.
Dans le quotidien des entreprises, et notamment pour les métiers opérationnels, le reporting est
nécessaire. Il permet de diriger l’entreprise, et aide à prendre les bonnes décisions. Mais il peut
devenir une véritable corvée si les managers ne réfléchissent pas à la pertinence des indicateurs qu’ils
demandent, et s’ils ne s’équipent pas des bons outils.
Il existe heureusement des outils qui simplifient la tâche et qui ne demandent pas 10 ans
d’expérience
sur Excel.
6 Qu'est-ce que le reporting et l'analyse ad hoc ?
Plus votre entreprise a besoin de données précises, actualisées et accessibles, plus les demandes
ponctuelles de rapports et de business intelligence adressées à votre service informatique
augmentent. Les outils de reporting et d'analyse ad hoc permettent aux employés de votre entreprise
d'accéder et de travailler de manière efficace avec les données en libre-service.
1. Qu'est-ce que le reporting ad hoc ?
Le reporting ad hoc est un rapport créé pour un usage unique. Un outil de business intelligence peut
permettre à quiconque dans une entreprise de répondre à une question commerciale spécifique et de
présenter ces données dans un format visuel, sans pour autant surcharger le personnel informatique.
Les rapports ad hoc diffèrent des rapports structurés à bien des égards. Les rapports structurés
utilisent un grand volume de données et sont produits à l'aide d'un modèle de rapport officiel. Les
rapports ad hoc sont générés selon les besoins, dans un format visuel adapté au destinataire.
Les rapports structurés sont élaborés par des personnes qui ont une grande expérience technique de
l'utilisation des outils de business intelligence pour extraire et regrouper de grandes quantités de
données. Les rapports ad hoc reposent sur des quantités de données beaucoup plus faibles. Il est ainsi
plus facile pour les personnes travaillant dans une entreprise de faire un rapport sur un point de
données spécifique qui répond à une question commerciale spécifique.
2. Qu'est-ce que l'analyse ad hoc ?
L'analyse ad hoc permet à un utilisateur d'extraire des informations à partir d'une petite extraction de
données, selon les besoins, pour répondre à une seule requête commerciale. L'analyse ad hoc est une
solution rapide qui permet de formuler des observations en fonction des besoins, sans avoir à
attendre le rapport programmé.
6.2 Avantages de l'analyse et du reporting ad hoc
Les analyses et le reporting ad hoc permettent de faire avancer la prise de décision des entreprises et
de réduire la charge du service informatique. Les personnes de votre entreprise peuvent recueillir et
examiner des données pour répondre à des questions commerciales spécifiques selon les besoins.
-Agilité accrue pour les utilisateurs
L'analyse ad hoc permet de répondre aux questions à la demande, ce qui accélère la prise de décision
au sein de votre entreprise. Les utilisateurs peuvent rapidement analyser des données particulières et
présenter leurs observations dans un format visuel afin de répondre à des questions commerciales
bien précises.
-Flexibilité dans la présentation des rapports
Les outils de reporting ad hoc permettent à l'utilisateur de naviguer et de choisir facilement les
données pertinentes avec lesquelles il souhaite travailler. Les utilisateurs peuvent alors rapidement
visualiser leurs observations afin de préparer un rapport qui sera analysé et présenté.
-Réduction des engorgements au niveau des analystes
Les équipes informatiques et les analystes sont libérés du fardeau des demandes ponctuelles de
données et de rapports lorsque les personnes sont habilitées à accéder aux données de l'entreprise et
à rendre compte de leurs conclusions pour répondre à une question commerciale spécifique.
3. Exemples d'analyse et de reporting ad hoc
Les analyses et le reporting ad hoc peuvent optimiser les performances d'une entreprise de
différentes façons. Le reporting et l'analyse ad hoc peuvent, par exemple, fournir des informations qui
permettent aux services de vente et de marketing de mieux interagir avec les clients potentiels tout
au long du parcours client.
D'autres exemples de rapports ad hoc consistent à aider les équipes de développement des
entreprises à découvrir une nouvelle source de revenus ou à l'améliorer en analysant les données
opérationnelles nécessaires pour repérer les tendances.
Défis des rapports ad hoc
Si les rapports ad hoc présentent de nombreux avantages, ils ne constituent pas une solution
magique. Les données doivent être utilisées de manière responsable et cohérente pour que les
rapports ad hoc fonctionnent.
Données incomplètes
Le fait d'avoir une partie mais pas la totalité de vos données en un seul endroit est une limitation des
rapports ad hoc. Si vous utilisez des données cloisonnées ou extraites, vos rapports pourraient devenir
obsolètes et vous empêcher de voir la situation dans son ensemble.
Absence de gouvernance des données
La gouvernance des données concerne les personnes, les processus et les technologies nécessaires
pour créer un traitement uniforme et correct des données d'une entreprise au sein de ses activités. Le
reporting ad hoc peut déroger aux mesures, à la logique ou aux données disponibles développées par
l'entreprise, ce qui risque de créer des informations contradictoires aux autres rapports.
Disponibilité des données
Tout le monde doit utiliser les mêmes données de base. Si les données de base sont différentes au
sein d'une même entreprise, cela peut engendrer des données chaotiques et donner lieu à des
réponses contradictoires et à des décisions tardives.
4. Pourquoi l'analyse ad hoc est-elle importante ?
Il est parfois nécessaire de répondre rapidement à des questions commerciales précises. L'analyse ad
hoc est destinée à réduire le temps nécessaire pour atteindre le point de décision en fournissant des
informations plus rapidement.
7- Consolidation de données
1. : Définitions
Dans chaque entreprise, les données sont produites à partir d'une gamme de sources et dans
différents formats. La consolidation des données est le processus qui fusionne toutes ces données,
élimine les redondances et supprime les inexactitudes avant de les stocker dans un seul emplacement,
comme un entrepôt de données ou une base de données.
La consolidation des données permet aux entreprises de planifier, mettre en œuvre et

exécuter efficacement les processus métier et les solutions de reprise après sinistre. En effet, la
présence de toutes les données critiques au même endroit donne aux utilisateurs un Vue degré 360
de tous leurs actifs commerciaux. Cela élimine les risques d'erreurs, accélère l'exécution des
processus et simplifie l'accès aux informations. Prouvant ainsi à quel point la consolidation des
données est nécessaire.
2. Techniques de consolidation des données
Voici les trois techniques de consolidation de données les plus courantes:
-ETL (Extraire, Transformer, Charger)
ETL est l'une des techniques de gestion des données les plus utilisées pour consolider les données. Il
s'agit d'un processus dans lequel les données sont extraites d'un système source et chargées dans un
système cible après transformation (ce qui peut inclure le nettoyage, l'agrégation, le tri des données,
etc.).
L'ETL peut être effectuée de deux manières:
 Traitement par lots: il convient pour exécuter des travaux de données répétitifs à volume
élevé.
 ETL en temps réel: il utilise CDC (Modifier La Saisie De Données) pour transférer les données
mises à jour au système cible en temps réel.
Figure 7.1 : Source: Wisatakuliner
Décomposer les silos de données avec ETL
Simplifiez les processus ETL complexes dans un environnement sans code pour accélérer le processus
Data-to-Insight
-Virtualisation Des Données
La virtualisation des données intègre des données provenant de sources de données hétérogènes sans
les répliquer ni les déplacer. Il offre aux opérateurs de données une vue virtuelle consolidée des
informations.
Contrairement au processus ETL, les données restent à leur place mais peuvent être récupérées
virtuellement par des solutions frontales telles que des applications, des tableaux de bord et des
portails sans connaître son site de stockage spécifique.
-Entreposage de données
L'entreposage de données est le processus d'intégration de données provenant de sources disparates

et de stockage de manière consolidée dans un référentiel central pour faciliter la création de rapports,
la veille économique et d'autres requêtes ad hoc. Il fournit une vue large et intégrée de tous les actifs
de données, avec des données pertinentes regroupées.
Avec les données rassemblées en un seul endroit à l'aide d'un outil de consolidation de données, il
devient plus facile de déterminer les tendances et de créer des plans d'affaires.
-Emballer
Les tâches de consolidation des données offrent aux entreprises de nombreux avantages. Lorsque les
données sont stockées dans un emplacement, elles nécessitent une configuration plus petite pour la
gestion. Cela permet aux entreprises de réduire leurs coûts. Simultanément, en consolidant les
données, vous pouvez bénéficier d'un meilleur contrôle car il y a moins de processus impliqués dans la
récupération des données et vous pouvez accéder aux données directement à partir d'un seul
endroit. Cela garantit un gain de temps significatif. De plus, la planification, la mise en œuvre et
l'exécution de solutions de reprise après sinistre deviennent relativement plus faciles, car toutes les
données critiques se trouvent au même endroit.
Chapitre 2 : Définitions du MDM et du BIG DATA
1. Master Data Management (MDM)

1 .1 Définition
Par définition, le Master Data Management (MDM) ou Gestion des Données de Référence (GDR) est
l’ensemble des outils permettant de stocker, gérer et diffuser les données référentielles au sein d’une
entreprise. Cet ensemble permet de s’assurer que les données de référence soient correctement
identifiées, utilisables sans risque, exempt d’erreur et de bonne qualité.
Plus précisément, le Master Data Management (MDM = PIM + DAM + CMS) centralise les données en
un seul et unique fichier maître, afin de simplifier l’organisation de l’entreprise. Cette méthode permet
ainsi de faciliter le partage de données de façon sécurisée entre les employés et différents services.
Pour faire simple, le rôle du MDM est avant tout l’unicité des données. Autrement dit, grâce à lui,
toutes les données sont liées au sein d’un seul référentiel unique. Mais ce n’est pas tout. Cette
solution offre une sécurité renforcée, le maintien de la qualité et de la gouvernance des données, et
la traçabilité des données.
Le Master Data Management (MDM) est le processus qui permet à une entreprise de s’assurer qu’elle
dispose en permanence d’une seule version des données exactes et à jour, parfois appelée « single
version of the truth » ou « golden records ». Ces données fiables doivent lui permettre de prendre des
décisions plus efficaces.
Ce principe de base peut paraître simple, mais dans les environnements d’aujourd’hui, qui sont
confrontés à une injection constante de données, la gestion des données de référence constitue en
fait l’un des défis les plus complexes de l’entreprise. Pour importer des données en provenance de
différentes sources et les transformer en une source homogène et fiable d’informations temps réel
validée exige une combinaison entre le savoir-faire, les outils et, bien souvent, un partenariat
stratégique.
Figure 1.1 : Architecture d’un MDM
1.2 Pourquoi utiliser une solution de MDM ?

Les outils de Master Data Management répondent à trois problématiques dominantes, auxquelles
votre entreprise est peut-être confrontée actuellement :
 Silos de données et différentes versions de vos données

 Obsolescence, c’est-à-dire des données non mises à jour et donc non fiables
 Erreurs dans les données, en raison d’une maintenance manuelle
1.3 La problématique des silos de données
Beaucoup d’entreprises sont en effet aujourd’hui encore confrontées aux silos, un terme qui désigne
des informations et des applications isolées, déconnectées. Autrement dit, les données sont
éparpillées au sein de l’entreprise et les applications métiers ne communiquent pas entre elles. En
conséquence, l’absence de cohérence et de rationalisation de l’information impacte le bon
fonctionnement d’une organisation.
Cette problématique touche aussi bien les acteurs que la stratégie de l’entreprise. Qu’il s’agisse de
données clients, employés, fournisseurs, produits… Toutes les données doivent être exploitables,
sécurisées, évolutives et réutilisables. La non-qualité de ces données représente en effet un risque
considérable pour votre entreprise. Au-delà d’engendrer des coûts importants, des données
incorrectes et non mises à jour peuvent aussi altérer la connaissance client. De ce fait, les actions
mises en place au sein de l’entreprise à partir de ces données non qualifiées sont faussées.
Figure 1.2 : Agrégation des données du MDM
1.4 La solution apportée par le Master Data Management
La qualité des données demeure un point essentiel au sein de votre entreprise. Les solutions de
Master Data Management résolvent ces problématiques, en permettant de couvrir l’ensemble des
systèmes de l’entreprise. Les données sont ainsi consolidées, nettoyées, catégorisées, sécurisées et
actualisées.
Au lieu que les données soient éparpillées dans plusieurs fichiers, le MDM les centralise, supprime les
doublons et combine les données incomplètes pour créer un “golden record”, qui agit comme une
version unique de la vérité, reliant ainsi les différents systèmes de l’entreprise.
La plupart du temps, les données de référence des entreprises sont dispersées au sein de plusieurs
outils. Avec le Master Data Management, toutes les données sont centralisées dans une base de
données maître. Cette solution englobe également les concepts de :
 DAM (Digital Asset Management), pour organiser et diffuser les ressources numériques.
 PIM (Product Information Management), pour coordonner et diffuser les informations
produits.
 CMS (Content Management System), comme portail de la marque et front-office de votre
plateforme.
Puisque les données sont diffusées en temps réel dans les différents services, toutes les équipes ont
accès à l’exactitude des informations. Il s’agit donc d’un excellent outil pour les services marketing, car
il leur permet de comprendre les habitudes d’achats des clients, de mieux cibler les consommateurs
en fonction de leurs intérêts et de l’historique des achats passés. Il donne alors la possibilité aux
équipes d’optimiser l’expérience client grâce à l’unification des systèmes. Ainsi, cette solution offre
donc un gain de temps considérable et permet à l’entreprise de faire évoluer ses produits en accord
avec les besoins des consommateurs.
Figure 1.3 : Une autre forme de l’agrégation de données dans le MDM
1.5 Quels sont les avantages d’une solution de Master Data Management ?
Le Master Data Management apporte de nombreux avantages aux entreprises soucieuses de leurs
données.
En effet, l’activité de plus en plus numérique des entreprises place l’importance de la gestion des
données au premier rang. Mais quels sont les réels avantages du MDM pour l’écosystème de
l’entreprise ?
-Réduction du coût total d’exploitation
Tous les aspects de votre entreprise susceptibles de générer et consommer des données sont à
prendre en compte. Par exemple, les applications, les opérations des employés, les programmes
d’inventaire et protocoles d’exécution des commandes ou encore les gisements de données. Toute
variation de données provenant de ces sources, déclenche une réaction en chaîne qui a un impact
direct sur le coût d’exploitation. Pour répondre à ce problème, le MDM administre des données
fiables, toujours mises à jour, ce qui limite ainsi les coûts d’exploitation de l’entreprise.
-Vision à 360° degrés des produits
Extraire toute la valeur des données est désormais essentiel pour les entreprises qui souhaitent
personnaliser l’expérience client. L’avantage du processus de Master Data Management est qu’il
permet d’avoir une vue complète en temps réel des produits. Cet outil permet donc aux experts
marketing de pouvoir travailler leur offre, et ainsi fournir les informations attendues aux
consommateurs.
-Lancement rapide de nouveaux produits
Le MDM est aussi réputé pour améliorer l’efficacité tout au long de la chaîne de produit. Les acteurs
de l’entreprise peuvent facilement enrichir chacun des aspects de l’information, tout en la partageant
sur les différents canaux critiques de l’entreprise. Ainsi, tous les services disposent d’un accès en
temps réel des mises à jour des produits.
-Simplification de la conformité aux obligations légales
Le respect de la conformité peut vite devenir une activité à temps plein. En effet, il s’agit d’une
démarche longue et fastidieuse. Aujourd’hui, seul le Master Data Management propose une solution
de gestion de données en concordance avec les obligations légales. Ce processus facilite la génération
des rapports de conformité obligatoires. L’entreprise peut alors intégrer des données sécurisées et
fiables en toute sérénité.
-Élimination des risques de redondance
La quantité trop importante de ressources utilisées peut avoir une incidence directe sur les coûts
d’exploitation et l’architecture réseau de l’entreprise. Par exemple, cela peut avoir un impact sur
l’espace de stockage, le temps de traitement et le débit du réseau. En centralisant les données au sein
d’un référentiel de qualité, il est possible d’éliminer les risques de redondance et de réduire
considérablement les coûts opérationnels de l’IT.
-Accélération des livraisons
Grâce au référentiel de données MDM facilement accessible aux équipes de développement, les
applications s’exécutent bien plus rapidement dans le pipeline de livraison continue. Autrement dit, la
gestion MDM permet d’exploiter les logiciels de manière simplifiée, et donne lieu à des livraisons bien
plus rapides.
Vous l’aurez compris, une solution de Master Data Management est aujourd’hui primordiale pour
exploiter la quantité d’informations créées chaque jour par les entreprises.
Les bénéfices qu’elles peuvent en tirer sont nombreux. D’un côté, les équipes gagnent du temps car
elles retrouvent facilement leurs fichiers, et se concentrent donc plus facilement sur leurs missions
habituelles. De l’autre, les décideurs peuvent mettre en place des stratégies adaptées, grâce aux
bonnes informations véhiculées.
1.6 Gestion MDM dans le cloud – Quatre principaux défis
Avec le cloud et le potentiel infini des opportunités présentées par le cloud, la gestion MDM dans un
environnement de cloud public ou hybride peut faire apparaître un certain nombre de défis. Les lignes
qui suivent présentent quatre défis cruciaux à relever rapidement, en gardant à l’esprit que « l’échec
de la planification est souvent synonyme de planification de l’échec » :
1. Traitement de données extrêmement disparates – compte tenu de la diversité des
équipements virtuels et physiques qu’il est nécessaire de prévoir pour maintenir l’engagement
des clients, il n’est pas possible de limiter la gestion MDM à un seul type de stockage des
données. Les données structurées et non structurées circulent dans les outils de gestion de
l’entreprise, et ces outils doivent être suffisamment souples pour s’adapter à ces différents
types de données.
2. Sécurité – D’abord et avant tout, et comme toujours dans les environnements numériques
performants, la sécurité doit être la première des priorités. Si les avantages de la gestion
MDM sont liés à un référentiel centralisé de données précises et fiables qui facilite les
opérations de
l’entreprise, les risques et menaces entrantes qui ciblent ce référentiel peuvent bloquer
complètement ces opérations. Les piratages, les logiciels malveillants
et les
rançongiciels/ransomwares sont généralement facilités par les solutions MDM incapables de
garantir la sécurité avant tout.
3. Gouvernance – La gestion MDM libère une puissance considérable, mais la responsabilité de
sa gestion est tout aussi monumentale. Bien que la plupart des interactions utilisées pour
présenter une solution de MDM s’exécutent automatiquement en tâche de fond, c’est aux
dirigeants de l’entreprise de décider quelles données sont fortement pondérées et comment
interpréter la Business Intelligence disponible. La bonne approche de gouvernance codifie non
seulement la portée des données, mais aussi qui les conserve/qui les interprète. C’est la
différence entre le simple fait d’avoir un référentiel centralisé de données fiables et le fait
d’utiliser ces données dans des activités performantes.
4. Expertise – Trouver la bonne combinaison d’expérience et d’envie d’apprendre rapidement
est probablement le plus grand défi MDM auquel les entreprises peuvent être confrontées. La
gestion MDM en cloud étant une discipline émergente, la plupart des TPE/PME ne disposent
pas d’un personnel interne capable de concevoir une solution holistique adaptée à leurs
besoins spécifiques. Il y a là une décision qu’il faut prendre rapidement : formation et
perfectionnement ou sous-traitance ?
En gardant ces défis à l’esprit, réfléchissez aux modèles les plus fréquemment utilisés et les mieux
adaptés à vos besoins. Et, tout aussi important, réfléchissez à votre budget.
1.7 Quatre styles d’architecture MDM
Aucune stratégie MDM ne peut répondre à tous les types de besoins. L’avantage des solutions MDM
est leur approche flexible et personnalisable pour la gestion et la gouvernance de votre gisement de
données de référence. Il existe quatre architectures générales dans lesquelles s’inscrivent les
conceptions initiales des solutions MDM.
5. MDM de style Registry
Dans cette approche, MDM travaille avec des enregistrements partiels, ou « stubs », qui fournissent
des détails tels que la source des données et leur emplacement actuel. MDM Registry est
l’architecture la plus rapide et la moins coûteuse à déployer, car elle limite le volume de données qui
traverse les outils MDM (elle se contente de consolider les stubs dans un référentiel fonctionnel).
Inconvénients de MDM Registry : latence plus élevée résultant des opérations de collecte et de
comparaison des enregistrements de référence avec les informations stockées sur les équipements
distants. En outre, MDM Registry effectue une collecte unidirectionnelle : les modifications apportées
aux enregistrements de référence ne sont pas propagées aux sources distantes, ce qui entraîne des
incohérences entre les données de référence et les données distantes.
2. MDM de style Consolidated
L’architecture MDM Consolidated est similaire à celle de MDM Registry, mais elles déplace les
données
Cette approche est privilégiée dans les environnements où l’on peut s’attendre à une forte latence, et
la consolidation est généralement organisée pendant des fenêtres de traitement en batch
programmées. Comme avec MDM Registry, les données du référentiel central ne sont pas
synchronisées avec les sources situées en aval.
3. MDM de style Coexistent
Cette approche architecturale va plus loin que MDM Consolidated en incluant l’étape cruciale de la
synchronisation des données de référence avec les données des sources, ce qui a pour effet de créer
des enregistrements de référence qui coexistent à l’identique dans le référentiel principal et dans les
équipements distants correspondants.
Cette approche est plus complexe et subit également une latence élevée, dans la mesure où les
données doivent être collectées et diffusées en aval à travers des processus batch distincts. Cette
architecture est souvent adoptée par les TPE/PME qui peuvent prendre le temps de relancer la
synchronisation des données de référence plusieurs fois par période définie.
4. MDM de style Transactional
Approche architecturale la plus complète, la gestion MDM Transactional est également la plus
coûteuse au niveau de la charge administrative. Les données de base sont migrées des sources vers le
référentiel principal, dans lequel elles sont traitées, nettoyées et standardisées, puis elles sont
renvoyées vers les sources.
Cette architecture réduit la latence en assurant une coordination directe entre la référence et la
source, et elle présente l’avantage d’appliquer les règles de gouvernance des données à l’échelle de
l’entreprise. Cependant, elle exige un haut niveau d’expertise et des outils adaptés au codage requis
pour garantir une bonne circulation des données et éviter la propagation de données erronées dans
l’environnement.
La plupart du temps, les entreprises adoptent une première architecture de MDM, puis évoluent vers
une autre. L’efficacité, la vitesse et la cohérence avec lesquelles les données de référence sont
déplacées et stockées constituent la mesure du succès d’une solution MDM.
8. Gestion MDM et architecture SOA
Avec le cloud, la gestion MDM prend une nouvelle importance – et une nouvelle puissance – grâce à
sa capacité d’interaction avec les architectures orientées services (Service-Oriented
Architecture/SOA). Lorsque la quasi-totalité de l’environnement, y compris l’infrastructure, est
virtualisée, les coûts des données incohérentes ou altérées peuvent être insurmontables. Les
solutions MDM s’articulent avec les architectures SOA, y compris Internet as a Service (IaaS), ce qui
leur permet de travailler sur des données fiables et de garantir la cohérence du changement à
l’échelle de l’entreprise et en quasi temps réel.
L’un des principaux défis de la gestion MDM dans une architecture SOA est une approche de
gouvernance des données qui standardise la structure et les règles des données entre le référentiel
central et les hôtes distants qui hébergent les systèmes, services et applications. La coordination d’un
protocole actif pour l’échange et l’écrasement de données entre différents systèmes peut présenter
un défi de taille pour des ressources IT souvent limitées : c’est là que le partenariat avec un expert de
confiance peut simplifier votre projet MDM.
9. MDM – Étapes suivantes
Chaque jour ou presque, on peut constater que la gestion MDM dans le cloud améliore les
performances et le champ d’activité de l’entreprise. L’implémentation d’une solution MDM permet
aux entreprises de travailler en quasi temps réel pour livrer les produits aux utilisateurs. Les solutions
MDM transforment les environnements de données en organismes presque vivants qui réagissent et
répondent plus efficacement aux exigences du nouveau monde proposé à l’entreprise.
7 Le BIG DATA
1. Résumé
Aujourd'hui, les entreprises ont des informations provenant de différents canaux pour tous leurs
aspects métier. L'utilisation correcte de ces données permet de créer la valeur et d'avoir un avantage
concurrentiel. Différentes entreprises ont compris la valeur des données et les bénéfices qu'ils
peuvent en tirer, telles que Google, Facebook et Amazon, entre autres. Cependant, d'autres
entreprises ont du mal à comprendre ce que signifie le big data pour eux.
Les entreprises sont habituées à utiliser les SGBDR pour stocker des données structurées sur une
seule machine, qui prennent en charge des centaines d'utilisateurs simultanés. Les SGBDR assurent
les opérations ACID et lorsque les entreprises font face à des problèmes de performance ils utilisent
des solutions de scale verticale (voir l'annexe) en achetant du matériel coûteux comme la mémoire,
de grands processeurs et cela devient très rapidement pesant financièrement.
Pendant des décennies les SGBDR ont permis de stocker, de servir et de traiter des données. Ils sont
également adaptés aux enregistrements transactionnels (OLTP) et de l'analyse (OLAP) pour servir les
exigences de la BI (Business Intelligence).
2. Comprendre les limites des SGBDR
L'approche SGBDR ne respecte pas les exigences des entreprises du Web 2.0 telles que Google,
Amazon, Yahoo, Facebook et LinkedIn. Ces sociétés gèrent une grande quantité de données en raison
de l'explosion des sites, des réseaux sociaux et IdO (Internet des objets). Ils travaillent avec différents
types de données qui doivent être stockées et traitées. Alors, quand il s'agit de volumétrie importante
de données, les propriétés ACID des SGBDR ne sont plus valides, et lors de l'utilisation des solutions de
réplication basées sur des architectures maître/esclave, les données sont répliquées de manière
asynchrone qui signifie que l'opération d'écriture des données prend du temps pour se propager du
maître à l'esclave, causant ainsi la perte de la cohérence des données. Face aux problèmes de
performance, dénormaliser le modèle de données semble la solution, mais nous risquons d'obtenir
des données dupliquées.
3. Pourquoi passer de SGBDR à des solutions big data ?
La plupart des données sont générées par des utilisateurs ou des machines. Ces données générées
sont non seulement volumineuses, ont une vélocité importante, mais aussi diversifiées, ce qui traduit
le terme «big data». big data impose de nouveaux défis à la manière traditionnelle de traiter les
données en utilisant les SGBDR, car ils ne sont pas conçus pour l'échelle de Web comme nous l'avons
mentionné auparavant. Un nouveau mouvement de gestion des données est né collectivement
appelé
« NoSQL » qui est l'abréviation de Not Only SQL. C'est une approche différente des SGBDR qui offre
une mise à l'échelle linéaire en suivant le théorème CDP (Cohérence, Disponibilité, tolérance au
Partitionnement), et peut stocker du big data.
Les bases de données NoSQL peuvent traiter différents types de données, qui ne nécessitent pas un
schéma strict. Le NoSQL a différente catégorisation (Value Key Store, entrepôt orienté colonne,
entrepôt orienté document, base de données orientée graphe) pour répondre aux différents besoins
de stockage du big data.
NoSQL a introduit de nouveaux défis lorsqu'ils traitent avec la modélisation des données. Chaque
catégorie a ses techniques de modélisation, par exemple Apache Cassandra utilise une technique
appelée « Modélisation par Query ».
4. Pourquoi de nouveaux outils statistiques ?
Le besoin de rapidité dans le traitement des données a conduit à l'élaboration de solutions big data
telles que Hadoop. Hadoop a deux composantes principales notamment : HDFS un système de fichiers
Hadoop et MapReduce, une API de traitement. Cependant, il existe de nombreux composants qui
répondent à des besoins différents, tels Sqoop, Kafka, Flume, HBase, ZooKepeer, Strom, etc.
L'un des sujets les plus importants dans la mouvance big data aujourd'hui est l'architecture big data,
en partie parce qu'il y a de nombreux composants open source big data, et les entreprises
commencent à s'intéresser à la façon de construire des plateformes big data, en combinant ces
nombreux composants. De nouveaux modèles d'architecture ont émergé, comme l'architecture
Lambda et l'architecture Kappa pour répondre aux différents besoins des entreprises en termes de
traitements big data, et ont contribué à la définition de l'architecture big data.
Depuis 2009, l'architecture Lambda a été inventée pour répondre à la tolérance aux pannes humaines
au détriment de la tolérance aux pannes logicielles et matérielles. Cette architecture a trois couches :
la couche batch, la couche de vitesse (Speeding) et la couche de service (Serving). Les données
entrantes sont à la fois présentes dans la couche batch et la couche de vitesse. Dans la couche batch
le concept de base est que les données sont immuables dans le data set, les données ne sont jamais
mises à jour dans cette couche, et les nouvelles données sont ajoutées à la fin du fichier. Ensuite,
nous créons des vues de ces données qui répondent aux exigences métier. Dans la couche de vitesse,
nous traitons avec des flux de données provenant des réseaux sociaux. Dans cette couche, nous
pouvons utiliser des frameworks de traitement de flux tels que Stream Spark ou Storm. La nature de
l'architecture Lambda est de traiter une petite quantité de données. Dans la couche de service nous
fusionnons les données des vues batch et celles des vues de la couche de vitesse. L'architecture
Lambda est indépendante des technologies à mettre en œuvre.
Une alternative de l'architecture Lambda est l'architecture Kappa, qui améliore le système de
traitement de flux. Au-delà des différentes architectures et solutions techniques, afin de fournir une
valeur ajoutée, nous devons comprendre la gestion du cycle de vie des données. Ce terme est utilisé
pour décrire les données de bout en bout (de la collecte de données brutes à la visualisation de
données ou d'un produit de données).
La clé pour réussir le choix d'une architecture Big data est dans un premier temps de répondre à la
question « pourquoi a-t-on besoin d'une solution Big data ?». Étudier la valeur métier des données
contre les coûts du stockage, le transport et le traitement des données. Car chaque métier a des
besoins et des attentes différentes et un contexte particulier, et n'y a pas une solution générique qui
permette de traiter les différents besoins métier.
5. Justification de l’avènement du BIG DATA
Après chaque révolution technologique, la question de l'intérêt des nouvelles technologies se pose.
Pourtant, quelle qu'en soit la réponse, le résultat est toujours le même : les avancées technologiques
ne cesseront jamais d'attirer la société de consommation.
Annoncés comme le nouvel Eldorado depuis le début de cette décennie pour créer de la valeur et
acquérir un avantage concurrentiel, les projets « big data » modifient la vie courante des entreprises
et commencent à prendre de l'ampleur. D'abord perçu comme un luxe, le « big data » est aujourd'hui
vu par la plupart des entreprises comme une nécessité, et se retrouve au cœur même de la stratégie
des entreprises comme le confirme l'étude menée par le Club décision DSI à travers son dernier
baromètre de la transformation digitale, bien qu'il ne soit pas encore totalement en production, afin
de créer de la valeur dans différents domaines en valorisant l'information.
Figure 7.1 : Indicateur tiré du dernier baromètre de la transformation numérique JDN / Club Décision
DSI / IT Research
Nous sommes passés des systèmes de gestion des bases de données relationnelles (SBGDR) qui
suivent un modèle rigide pour assurer les besoins de l'informatique de gestion vers un modèle plus
flexible celui du web, centré sur un contenu varié (structuré, semi-structuré et non structuré),
volumineux et qui arrive à des vitesses différentes.
Avec l'arrivée du Web, de nouveaux besoins sont apparus, tels que la scalabilité à l'époque où on
pouvait faire des calculs intensifs sur des grandes quantités de données à l'aide de super calculateur
tel que IBM Roadrunner ou des grilles d'ordinateurs et en cas de besoin, il suffisait d'ajouter du disque
de stockage, RAM et du CPU pour augmenter la puissance (Scale up). Les besoins d'aujourd'hui sont
d'une part d'assurer une grande puissance de stockage, que les SGBDR ne peuvent pas atteindre au
moyen du principe de scalabilité horizontale (Scale out) qui consiste à ajouter des machines à faible
coût, afin de paralléliser les traitements. D'autre part, assurer une grande puissance de calcul de
données très variées qu'on ne peut pas stocker et traiter dans des SGBDR classiques et qui sont de
différentes sources telles que les flux d'évènements, les fichiers de logs et les réseaux sociaux.
Figure 7.2 : Évolution de l'informatique - Du mainframe au cloud computing et big data
Ces besoins de scalabilité de stockage et de traitement de gros volumes de données par les grands
acteurs du Web a donné naissance au terme « big data ».
Loin du buzz médiatique, le big data a pour perspective un usage maîtrisé qui regroupe les nouvelles
technologies de stockage distribué et de traitement parallélisé de données massives (à l'échelle du
pétaoctet) souvent non structurées. Tout en profitant des évolutions matérielles qui se traduisent par
la baisse des coûts de stockage (disque dur, SSD, RAM, et CPU) pour ajouter des machines bon
marché (Commodities hardware en anglais) pour la distribution du stockage et traitement sur
plusieurs nœuds, afin d'assurer la scalabilité (montée à l'échelle) à moindre coût, ce qui peut générer
un retour sur investissement (ROI) important.
Le big data peut être traité sous différents angles, mais le présent cours a pour but de traiter la
problématique de « Comment choisir une architecture big data ? ».
Pour répondre à cette question, nous nous basons principalement sur
• la littérature ;
• les différents apports du web ;
• le retour d'expérience auprès d'architectes qui ont pu mettre en place des POC (Proof Of
Concept) ou ayant travaillé avec des technologies big data.
7
7.6 Émergence et enjeux du Big data
Très souvent les données de l'entreprise proviennent des PGI (Progiciels de données de gestion), GRC (gestion
de relation client), commerce électronique (E-Commerce), GCL (gestion de la chaîne logistique), des entrepôts de
données (Data Warehouse en anglais) et des bases de données issues d'un développement applicatif interne. La
majorité de ces données sont souvent stockées dans un système de gestion de bases de données relationnelles
(SGBDR).
Les SGBDR sont toujours au cœur du système d'information des entreprises et les investissements lourds de ces
dernières dans ces solutions de stockage rendent leurs remplacements problématiques, et toutes les tentatives ont
échoué (à titre d'exemple les bases orientées objet), devant leurs puissances, parce qu'ils ont d'abord de très
nombreux avantages que nous allons expliquer dans la partie « limitations des bases de données relationnelles », de
plus ils sont devenus un référentiel et un mécanisme d'intégration pour la majorité des DSI.
Aujourd'hui, avec le Web 2.0, nous sommes confrontés à une croissance incomparable de la quantité de données que
nous traitons, et qui augmente très rapidement comme on peut le voir sur des sites comme :
http://www.internetlivestats.com/. Le volume des données atteindra certainement l'exabytes ou yottabytes, comme
le montre la figure ci-dessous.
Figure 3 : Quantité et structure des donnéesen 2014, Source : http://air.imag.fr/index.php/EA2014-NoSQL
Les sources des données sont des systèmes d'information traditionnels comme on l'a vu, qui sont jusqu'à présent
bien gérés par les entreprises. Les nouveaux arrivants sont les réseaux sociaux (Facebook, Twitter, Google +, blogs)
où les utilisateurs génèrent d'énormes flux de données et d'évènements semi-structurés, qu'on ne peut pas stocker
dans un SGBDR classique lorsqu'on a des besoins opérationnels avec une très faible latence, et enfin les données des
objets connectés qui envoient de plus en plus d'informations en flux continu et qu'on doit pouvoir stocker et traiter.
Nous allons voir pourquoi les SGBDR ne sont pas adaptés à ces nouveaux besoins.
51
7.7 Limitation des bases de données relationnelles
On va rappeler brièvement les caractéristiques des SGBDR classiques, afin de voir les challenges qu'ils posent
lorsqu'on a des données massives dans le contexte d'applications web à grande échelle.
Les SGBDR reposent sur des fondements mathématiques élaborés par Edgar Frank Codd (1923-2003), qui a publié un
papier intitulé « A relational Model of Data for Large Shared Data Banks », ces théorèmes sont appelés l'algèbre
relationnelle, qui sont principalement des opérations comme la sélection, la projection, l'agrégation, l'union, la
jointure, etc., et définissent des règles de normalisation qui ont pour but d'obtenir un modèle performant et sûr.
Les SGBDR traditionnels assurent, les points suivants :
• la cohérence des données à travers le schéma des bases de données, qui est établie à la phase de la
conception, avec le choix des meilleurs types de données possibles, ce qui évite le risque de changer le
schéma relationnel ;
• les contraintes d'intégrité référentielle, un gage de cohérence du contenu de la base de données, car une fois
les contraintes déclarées, aucune violation de ces règles ne sera permise pas le SGBDR ;
• un mode de fonctionnement transactionnel avec la gestion des transactions caractérisé par l'acronyme ACID
(Atomicité, Cohérence, Isolation, Durabilité), qui garantit que soit toutes les opérations d'une transaction
sont effectuées avec succès, soit aucune opération n'est effectuée.
• bien que le SGBDR soit basé sur l'algèbre relationnelle, l'utilisateur utilise un langage déclaratif SQL, qui
exécute rapidement des requêtes SQL complexes avec une optimisation automatique des plans d'exécutions,
sur des volumes de données raisonnables.
Lorsqu'on a de grands volumes de données, des solutions peuvent être envisagées :
• la montée en charge verticale (Scale-up) reste possible, pour augmenter l'espace de stockage et de
traitement de ces volumes au sein de la même machine ;
• la montée en charge horizontale (Scale-out), qui consiste à distribuer les SGBDR ;
• les administrateurs de bases de données optimisent les performances à travers la dénormalisation, afin d'éviter
les jointures, ou génèrent des tables agrégeant un certain nombre de données, afin d'augmenter les
performances.
Malgré ces solutions les SGBDR rencontrent certains challenges techniques et/ou financiers qui sont :
• les coûts de la montée en charge verticale ;
• la montée en charge horizontale limitée à 10 nœuds, pour des contraintes techniques ;
• les coûts en ressources humaines pour mettre en place un tel matériel et assurer son bon fonctionnement,
ce qui implique plus de coûts pour héberger plus de données ;
• les bases de données relationnelles ne sont pas adaptées pour les traitements temps réel ;
• les prix des licences de logiciels comme Oracle s'ajoutant au prix des machines spécifiques.
Pour résumer les contraintes des moteurs relationnels sont trop lourds, dans le contexte big data.
52
8. Définition du terme Big data
Le big data fait référence à l'explosion du volume de données informatiques qui transitent dans le monde. Ces
données deviennent tellement volumineuses qu'elles ne peuvent plus être stockées dans des bases de données de
tailles normales, ce qui mène à l'utilisation d'outils informatiques de plus en plus performants pour les gérer. Le big
data peut-être défini par ses trois (voire quatre) caractéristiques majeures, toutes commençant par la lettre V : le
Volume, la Vélocité, la Variété, auxquelles peut s'ajouter la Véracité des données.
1. Volume
La première caractéristique majeure du big data est l'explosion du Volume de données.
Ce développement exponentiel oblige les entreprises à changer leurs outils classiques de stockage de données. Pour
avoir une idée de l'ampleur du phénomène, le magazine Fortune affirme qu'en 2013, nous pouvions générer en dix
minutes la même quantité de données qui a été générée depuis le début de l'ère informatique jusqu'en 2003 (5 Mds
de GB).
Les avancées technologiques telles que l'avènement des objets connectés, des smartphones et la multiplication des
infrastructures d'échanges de données permettent en partie d'expliquer ce phénomène. Certaines entreprises de
télécommunications voient leurs coûts de stockage de données augmenter significativement au fil des années, et ce
malgré un coût unitaire de stockage en baisse.
Aussi, aujourd'hui, la multiplication de l'accès à internet partout dans le monde, l'automatisation des systèmes
(administratifs entre autres), ainsi que la tendance grandissante du recours aux outils informatiques dans la société
sont des facteurs d'accélération du développement du big data.
7.8.2 Vélocité
La deuxième caractéristique majeure du big data est le traitement dynamique de données. Avec l'avènement du big
data, il est maintenant possible de traiter les données en temps réel. En effet, le progrès au niveau des
infrastructures d'échange de données permet aujourd'hui d'éviter de passer par la méthode désuète consistant à
stocker d'abord les données, avant de les afficher au moyen d'outils de reporting.
La vélocité du big data est une caractéristique que l'on retrouve notamment dans le phénomène d'enchère en temps
réel, ou Real-Time Bidding (RTB), technologie permettant de mettre aux enchères un emplacement publicitaire ciblé.
Les critères sont principalement le profil de l'internaute qui va sur le site (qu'a-t-il vu avant, a-t-il cliqué, etc.), ainsi
que les caractéristiques de la page (emplacement, thématique, dimensions, etc.). Voyons l'exemple de l'entreprise
Turn, plus grande entreprise indépendante du secteur de la publicité sur les vidéos, les mobiles et la télévision.
Turn exécute, en seulement quelques millisecondes, un système affichant la publicité de l'annonceur qui a fait la
meilleure enchère pour le segment où l'internaute s'étant connecté au site est classé. Cet utilisateur est au préalable
classé dans ce segment suivant son historique de navigation et des informations tirées des réseaux sociaux.
I 7.8.3 Variété
Si le big data est aussi répandu aujourd'hui, il le doit à sa troisième caractéristique fondamentale, la Variété. Cette
variété, c'est celle des contenus et des sources des données. Les données étant le plus souvent reçues de façon
hétérogène et non structurée, elles doivent être traitées et catégorisées avant d'être analysées et utilisées dans la
prise de décision.
En analysant les données et en les catégorisant selon leur type, les entreprises peuvent mieux connaître leurs clients
et leurs besoins. Cela peut concerner plusieurs types de données : données de localisation, données
démographiques, données relatives aux réseaux sociaux, historiques de navigation, achats en ligne, et. Ainsi,
chaque utilisateur a un
53
profil avec des caractéristiques qui lui sont propres et qui permettent aux entreprises de développer des stratégies
commerciales bien ciblées.
7.8.4 Véracité
Un quatrième aspect peut être ajouté aux trois caractéristiques précédentes, il s'agit de la Véracité des données. Il
est nécessaire de vérifier l'exactitude des données reçues. Même si elles paraissent homogènes et cohérentes entre
elles, ces données peuvent être incomplètes et/ou inexactes. La véracité répond à : « Est-ce qu'on peut faire
confiance à la donnée qu'on a ? Contient-elle suffisamment d'information ? »
7.9 Les architectures distribuées
On a vu que la quantité des données dépasse ce qu'on peut stocker sur une seule machine. D'où le besoin de répartir
le stockage sur différentes machines, pour cela il existe deux types d'architectures distribuées, qui sont au cœur du
big data et du NoSQL, afin de distribuer et répartir les données et les traitements le plus efficacement possible. Ces
solutions sont la distribution avec maître ou sans maître.
• Architecture maître/esclave
Une architecture distribuée avec maître repose sur l'existence d'une machine « maître » qui conserve la configuration
du système et reçoit les requêtes des clients puis les distribue vers la machine contenant la donnée. Ce modèle peut
souffrir de la présence « Point unique de Défaillance » lorsqu'un des éléments n'est pas redondant.
• Architecture sans maître
Dans une architecture distribuée sans maître, toutes les machines ont la même importance et ont les mêmes
capacités dans un cluster. Elle repose sur une table de hachage distribuée DHT, qui permet de répartir le stockage sur
tous les nœuds du réseau.
54
Chapitre 3 : Les nouvelles tendances du décisionnel
1. Premiers pas dans l’évolution de la Business Intelligence
Incluses dans les processus métier et imprégnées de sémantique, les technologies décisionnelles s’emparent du
temps réel et se démocratisent enfin. Le marché de la Business Intelligence connaît actuellement un développement
très dynamique. Est prévue, pour la période 2006-2008, une croissance supérieure à celle des marchés de l’ERP et du
CRM. Le temps où les technologies décisionnelles étaient l’apanage des décideurs est donc révolu. Aujourd’hui, ce
sont déjà entre 20000 et 40000 personnes qui utilisent des solutions de reporting ou d’analyse de données.
« Si ce chiffre, en croissance continue depuis une dizaine d’années, ne représente malgré tout que 20 à 30% des
utilisateurs potentiels, il ne s’arrêtera plus de croître désormais », commente Renaud Finaz de Villaine, Directeur
Marketing Communication et Développement de Micropole Univers.
Plusieurs tendances de fond animent la BI et en expliquent la croissance. Recherche d’idées et non plus seulement de
données, nouveaux styles de navigation dans les données, MDM (Master Data Management), open source, nouvelles
architectures techniques (SOA, web services, Ajax, W3C, Web 2.0…), tels seront demain les sujets au cœur des projets
décisionnels.
« Ces tendances révèlent les mutations profondes qui affectent ce marché », poursuit Renaud Finaz. « Pour toucher
un nombre toujours plus grand de personnes et que s’opère une véritable démocratisation des technologies
décisionnelles, la BI doit notamment suivre deux de ces tendances actuellement à l’œuvre :
- l’encapsulation de la Business Intelligence dans les processus métiers,
-et la capacité offerte par les outils décisionnels d’analyser n’importe quel type de contenu, qu’il soit structuré ou
non structuré.»
Première tendance : une BI embarquée dans les processus Demain, les technologies et fonctionnalités décisionnelles
seront directement incluses dans les applicatifs métier, qu’il s’agisse d’outils de front ou de back office. Un
processus métier embarquera des indicateurs de performance et des fonctions de suivi en temps réel de l’activité,
offrant ainsi la possibilité de réagir immédiatement si cela s’avère nécessaire.
« Cette démarche a déjà été mise en œuvre dans d’autres domaines. Souvenons-nous du CRM analytique », rappelle
Renaud Finaz de Villaine. « La nécessité de devoir réagir à une réclamation client, à une difficulté exprimée par un
client qui avait du mal à contacter l’entreprise ou à obtenir des réponses imposait l’usage de solutions permettant
d’identifier les écueils du processus de gestion de la relation client. Ne pas se doter de tels moyens pouvait avoir un
impact direct sur la rentabilité de l’entreprise. »
Désormais c’est la performance de chacun des processus de l’entreprise qui pourra être évaluée et suivie en temps
réel. Les indicateurs produits permettront d’opérer les ajustements et améliorations nécessaires au juste moment.
Ajoutons à cela la possibilité croissante de modéliser les processus et d’anticiper les comportements d’un marché,
d’un client, etc. Cette approche prévisionnelle, combinée aux innovations technologiques, laisse imaginer un très
grand nombre d’applications : la modification en temps réel et au fil des heures de la journée, des prix des produits
disponibles en magasin par exemple.
Avec cette évolution, les entreprises vont passer d’une logique où la BI était passive (c’était à l’utilisateur
d’interroger les bases de données et de rechercher les dysfonctionnements) à une logique où l’analyse de données
est potentiellement applicable à chaque tâche constitutive d’un processus et où chacun saura ce qui est performant
et ce qui ne l’est pas.
Deuxième tendance : la BI devient aussi simple à utiliser qu’un moteur de recherche Dans le même temps, il va
devenir de plus en plus facile de réaliser des analyses sur les données et d’éditer des rapports d’activité. Par leurs
récentes annonces autour de Google ou plus récemment de Fast, les éditeurs majeurs du décisionnel inscrivent la
Business Intelligence dans une nouvelle ère : ils la mettent à la portée d’utilisateurs non initiés aux tableaux de
bord
et autres data warehouses. Ainsi, la requête qui jusque-là devait être extrêmement structurée (cf. requêtes type
55
SQL), intègre désormais des mécanismes de recherche d’information à base de sémantique. Un utilisateur peut
formuler simplement sa requête comme il le fait aujourd’hui sur les moteurs de recherche les plus courants.
Dans le même temps, il devient possible d’associer informations structurées et non structurées au sein d’un même
rapport d’analyse, que ce rapport soit statique ou dynamique.
Ajoutons à cela les annonces produits autour de la mobilité qui rendent possible la réception de tableaux de bord
sur des PDA et autres terminaux mobiles. Avec ce nouveau pas franchi, la BI va toucher encore plus de personnes,
incluant tous les collaborateurs nomades ou basés sur des sites distants.
La principale conséquence de cette deuxième évolution du marché est celle de l’ouverture réelle de la BI au plus
grand nombre des collaborateurs des entreprises. Les utilisateurs métier, opérationnels et fonctionnels, initiés ou
non aux technologies BI, pourront analyser leurs données et traquer les baisses de performance.
2. 5 tendances de la Business Intelligence
Voici 5 façons clés dont nous voyons l'évolution de la business intelligence dans les mois à venir :
 L'intelligence à la demande. Dans le monde post-Covid, les entreprises constatent la nécessité d'un accès plus
rapide à des informations exploitables. En 2021, nous verrons les organisations transmettre les données de
manière hebdomadaire, voire quotidienne à leurs collaborateurs. Cela signifiera qu'on mettra moins l'accent
sur les outils lents tels qu'Excel, PowerPoint et même les emails, et qu'on se concentrera davantage sur les
outils de veille stratégique capables de fournir des informations actualisées à la demande, sur tous les
appareils de l'utilisateur final.
 “Snackable data”. Pour de nombreux décideurs, l'utilisation efficace des datas dépend de la capacité à trouver
les bonnes données parmi un ensemble déconcertant d'informations délivrées par les services informatiques,
les outils de BI et les data scientist. Face à un énorme buffet de données à volonté, il est facile de passer à
côté des données qui vous seraient les plus utiles. La solution : la snackable data, littéralement la donnée qui
se consomme comme un snack, présentée en portions adaptées aux besoins de chaque utilisateur de
l’entreprise. Au lieu d'un rapport mensuel de 80 pages qui prend trois heures à parcourir, donnez à vos
managers une mise à jour quotidienne de 3 minutes de données importantes, présentées de manière
accessible et clairement contextualisée.
 Un écran, une vision. Dans la vie quotidienne, on utilise des applications comme Uber et Spotify qui sont
conçues de manière si intuitive qu'elles peuvent être utilisées immédiatement par n'importe quel novice,
sans
formation ni processus d'intégration. En entreprise, en revanche, les informations sont souvent enfouies dans
des logiciels, des applications ou des tableaux de bord remplis d'indicateurs, qui demandent des heures de
formation ou un apprentissage abrupt qui effraie de nombreux utilisateurs. Pour rendre la donnée plus
accessible et plus intuitive, une règle est claire : "un écran, une vision" - car si votre utilisateur doit parcourir
un écran plein de statistiques confuses pour trouver les données qui l'intéressent, vous l'avez déjà perdu.
 Partager les informations. Générer des informations exploitables à partir de données brutes ne consiste pas
seulement à effectuer des analyses intelligentes, mais aussi à présenter les nouvelles informations de
manière
à ce que les utilisateurs qui ne sont ni des analystes ni des data scientists puissent les comprendre et les
utiliser facilement. C’est pourquoi les entreprises doivent mettre l'accent sur le datastorytelling. C'est en
fournissant des informations visuellement attrayantes que nous pourrons finalement encourager les
utilisateurs finaux à transformer les données en actions.
 Du dynamisme, pas des données brutes. Nombreuses sont les entreprises qui tentent de rendre leurs
données accessibles en créant des tableaux de bord, mais ces outils sont souvent trop techniques et
intimidants pour un utilisateur non spécialisé. L'avenir réside dans des expériences automatisées, axées sur le
client, délivrées par des datastorytelling dynamiques qui placent les données dans un contexte clair. Ces
récits doivent fournir des informations qui ne dépendent pas des compétences sophistiquées en matière
d'analyse de données de l'utilisateur.
En fin de compte, dans notre monde en mutation rapide, nous devons de toute urgence faire de la prise de décision
basée sur les datas une réalité plutôt qu'une simple aspiration. Grâce à une visualisation des données compréhensible
par tous, nous pouvons débloquer la valeur de notre business intelligence et guider plus efficacement nos
organisations en ces temps de turbulences. 56
3. Enquête sur l’évolution actuelle de la Business Intelligence
Les éléments démographiques ci-après vous permettront de contextualiser les résultats et les tendances.
Rôles
Notre enquête a recueilli les réponses de centaines de professionnels de la BI dans différents rôles, secteurs et lieux.
Plus de 60 % des participants sont des gestionnaires, des administrateurs et des consultants décisionnels, c’est à dire
les rôles prédominants dans l’utilisation et la gestion des solutions BI.
Figure 1.1 Technologies BI
Parmi les technologies proposées aux participants, SAP BusinessObjects est la solution de Business Intelligence la plus
répandue. Beaucoup de participants ayant une relation avec nous liée à SAP BusinessObjects cela peut, en partie
expliquer ce résultat. Microsoft Power BI, Tableau et Qlik sont les autres progiciels de BI les plus répandus parmi nos
répondants, les quatre solutions combinées représentant 63,3% de part de marché. Oracle BI (OBIEE) ferme le top
10, et les autres incluent Domo, Dundas BI, YellowFin et Sisense.
Figure 1.1 Tailles d’organisation
Nous avons reçu des réponses d’entreprises dont la taille varie de moins de 250 employés à plus de 5000 employés,
ce qui nous a fourni des données très variées.
57
Figure 1.3 : Industries
Les répondants à l’enquête travaillent dans une variété d’industries, les services de santé/assurances, les TI et la
fabrication/construction se classant parmi les trois premières. Au total, 21 industries ont émergé des résultats, mais
les douze premières ont été jugées les plus pertinentes.
Figure 1.4 : Lieux
Nous avons également demandé aux participants dans quelle(s) région(s) géographique(s) se trouve leur équipe de
BI, et nous avons constaté que la majorité se trouve en Europe (56,54%), suivie par l’Amérique du Nord (34,36%).
Ceci s’explique en partie par la présence plus répandue de 360Suite sur ces deux continents.
58
Figure 1.5 : La Réalité du Marché de la BI
Comprendre la réalité de la BI est un essentiel pour en prédire l’avenir.
3.1 Les Principaux Objectifs BI
Chaque entreprise, organisation ou professionnel de la BI ayant des objectifs différents, nous avons tenté d’identifier
ceux qui étaient les plus répandus. L’objectif principal en termes de BI selon l’enquête c’est d’améliorer l’efficience des
solutions de BI déjà déployées (49.7%). Cela concorde avec les problèmes majeurs identifiés et propres à la BI
multiple (voir plus bas) que sont la superposition des capacités similaires, l’absence de collaboration cross-BI et les
diverses compétences TI à maintenir ou développer. Cela concorde également avec le choix de ne pas ajouter de
solutions de BI aux portefeuilles existants dans un futur proche (voir plus bas).
Les autres objectifs principaux sont le maintient à jour des plateformes existantes (migration, mise à niveau) ainsi que
le développement du BI en libre service.
Figure 1.6 : Solutions BI et Accès aux Données
Il est de plus en plus difficile de trouver une solution BI qui s’adapte à tous les cas d’utilisation, c’est pourquoi la
plupart des entreprises ont recours à plusieurs d’entre elles. En effet, notre enquête suggère qu’une entreprise utilise
en moyenne 3,8 solutions de BI. Cela corrobore la thèse de Boris Evelson du Forrester, selon qui, en moyenne,
les
59
organisations utilisent 5 solutions de BI. Notez que le chiffre avancé par Forrester inclut la BI embarquée par les outils
de CRM/ERP.
Par ailleurs, 55% des personnes interrogées déclarent que leurs différentes solutions BI se connectent et interrogent
les mêmes sources de données. Seuls 30 % ont répondu que leurs solutions BI avaient chacune leur(s) source(s) de
données. Notons que 15% des répondants ne connaissent pas la réponse à cette question.
Figure 1.7 : Si votre entreprise utilise plusieurs solutions de BI, est-ce possible qu’elles interrogent les
mêmes sources de données (ponctuellement ou non) ?
D’autre part, 67 % des répondants affirment que les utilisateurs finaux ont accès à plusieurs solutions de BI au sein de
leur organisation. Dans seulement 20% des organisations, un utilisateur métier n’accède qu’à une solution BI.
Figure 1.8 : Si votre entreprise utilise plusieurs solutions de BI, les utilisateurs finaux peuvent-ils
accéder
à plusieurs d’entre elles ?
Ce qui est intéressant à retenir ici, c’est que les utilisateurs accèdent à plusieurs solutions BI, elles-mêmes
interrogeant les mêmes sources de données. Cela indique que les utilisateurs métier utilisent les différentes solutions
BI mises à leur disposition en fonction de la façon dont ils souhaitent travailler avec les données. Cela confirme
également l’idée qu’il n’existe pas de solution idéale regroupant toutes les capacités de BI nécessaires à tous les cas
d’usage. 60
3.2 Technologies BI par Département
Que les employés d’une même organisation aient ou non accès aux mêmes technologies BI, les résultats de l’enquête
ont démontré que des solutions différentes conviennent à différents départements en fonction de leurs besoins.
Encore une fois, cela démontre qu’il n’existe pas une solution parfaite pour tous les utilisateurs.
SAP Business Objects s’est révélé le mieux adapté aux domaines de la Finance et de la Comptabilité (82 %), de la
Logistique et des Achats (61 %) et du SI (68 %). Tableau est la solution qui semble la mieux adaptée aux départements
Marketing (61%) et au Management (60%), Qlik étant la plus adaptée aux Ventes et Service Client (61%). Il est
également intéressant de noter que Microsoft Power BI est globalement adapté à chaque département (en moyenne
50%). Sur un total de dix-sept solutions proposées, nous nous sommes concentrés sur les trois meilleurs outils pour
chaque département.
Figure 1.9 : Adoption Utilisateur BI
Le taux d’adoption global de la BI dans l’ensemble des organisations est de 26% en moyenne selon notre enquête. Si
on y regarde de plus près, on constate que les organisations les plus performantes (taux supérieur à 80%) sont les
organisations comptant plus de 5000 employés. Ce qui est intéressant de retenir ici, c’est que plus l’organisation est
grande, plus son taux d’adoption est élevé. 22% des organisations de moins de 250 employés ont un taux d’adoption
de 20 % ou moins, alors que c’est le cas pour seulement 2% des organisations de plus de 5000 employés.
Figure 1.10 : Performance des Activités BI
La gestion de multiples solutions de Business Intelligence est un défi pour les organisations, mais les résultats de
l’enquête ont montré qu’elles sont performantes dans certains domaines.
61
Nous avons soumis une liste d’activités BI afin de connaître celles qui étaient les mieux gérées, et celles qui l’étaient
moins.
Parmi les réponses au sondage, les organisations sont plus efficaces pour gérer les permissions des utilisateurs et se
conformer aux exigences réglementaires. Cependant, l’évaluation de l’adoption utilisateurs est actuellement mal
gérée dans l’ensemble des organisations si bien que 15.4% des participants ne connaissent pas leur taux d’adoption.
La mise en œuvre de tests de régression (activité qui consiste à comparer les données d’un rapport avant et après un
changement) est également un défi pour la plupart des entreprises, 35% des participants ayant répondu mal le gérer.
Figure 1.11 : Rôles prépondérant de la BI dans l’entreprise
62
Chapitre 4 : Ce qu’il faut retenir :
1. Ce qu’il faut retenir
 L’amélioration de l’efficience des solutions BI existantes est la priorité majeure des organisations.
 En moyenne, une organisation utilise 3,8 solutions de BI.
 55% des personnes interrogées déclarent que leurs solutions BI interrogent les mêmes sources de données.
 Plus l’entreprise est grande, plus le taux d’adoption BI est élevé.
 Les organisations gèrent convenablement les permissions des utilisateurs, mais elles ont de la difficulté à
évaluer l’adoption utilisateurs.
Le Marché de la BI en Pleine Évolution
L’environnement de la BI est en constante évolution, comme en témoignent les récentes acquisitions de Tableau par
Salesforce.com Inc, et Looker par Alphabet Inc. Nous avons voulu explorer l’impact de ce marché très changeant sur
les clients et leurs méthodes organisationnelles.
Les Tendances du Cloud sur le Marché de la BI
L’étude de marché réalisée par Dresner Advisory Services indique qu’en moyenne, “72% des organisations en 2018
considèrent le Cloud comme un élément important de leur stratégie de BI, contre 55% l’année précédente”. Cette
étude indique que le Cloud est une des tendances en matière de la Business Intelligence.
De manière générale, les organisations ont le choix entre des solutions natives-cloud et des solutions décisionnelles
on-premise hébergées dans le Cloud.
L’enquête révèle qu’il y a une différence entre considérer le cloud-BI et effectivement investir dans le cloud, puisque
50 % de nos répondants n’ont toujours pas investi dans ce domaine.
Figure 1.1 : Votre organisation a-t-elle investi dans le cloud en ce qui concerne les solutions de BI ?
Les résultats de l’enquête suggèrent également que les grandes entreprises sont plus susceptibles d’investir dans le
cloud. Près de 58% des entreprises de plus de 5000 employés ont déjà investi dans le Cloud concernant le BI, contre
35% des entreprises de 250 à 1000 employés.
Près de la moitié des participants (49%) ont des projets BI en cours ou à venir liés au Cloud. Ceci confirme la place du
cloud dans les tendances de la Business Intelligence. En effet, 57% des participants sont concernés par le cloud pour
leur BI (si on tient compte de ceux qui ont déjà investi et de ceux qui envisagent de le faire à l’avenir), ce qui souligne
l’importance de l’investissement Cloud BI pour les organisations.
63
Figure 1.2 : Votre entreprise a-t-elle des projets de BI à venir ou en cours liés au cloud?
Les Défis Liés à la BI Multiple dans les Organisations
L’utilisation de plusieurs technologies BI au sein d’une même organisation ajoute des défis et augmente la complexité,
ce qui compromet le contrôle du système. Nous avons demandé aux participants d’identifier dans leurs propres
termes les principaux défis inhérents à la gestion de plusieurs solutions BI, et quatre thèmes principaux sont ressortis
:
1. Coûts
Le recours à plusieurs solutions décisionnelles entraîne la superposition de capacités similaires et augmente les
coûts de licence, les coûts de gestion, les coûts de développement et de maintien des compétences et les coûts
d’infrastructure. C’est pourquoi les entreprises souhaitent améliorer l’efficience des solutions BI existantes dans leur
portefeuille afin de réduire le TCO (coût total de possession).
2. Qualité des données

Les participants à l’enquête ont soulevé des préoccupations au sujet de la cohérence des données et du fait qu’il
n’existe pas de version unique de la vérité lorsqu’on utilise plusieurs solutions BI. La diversité compromet le contrôle
et la gouvernance, et se traduit parfois par l’utilisation de données non-gouvernées (shadow IT) ce qui pose un réel
problème pour la fiabilité de celles-ci et les décisions qui en découlent.
3. Adoption Utilisateur
Les entreprises ont du mal à convaincre leurs employés de changer de solution en faveur d’une autre parce qu’elle
nécessite de remettre en question leurs habitudes et se former. Pour être en mesure de contrôler l’adoption, il faut
également suivre l’activité des utilisateurs, ce qui peut s’avérer difficile pour les équipes BI, surtout si elles ont
plusieurs solutions BI à maintenir.
64
4. Sécurité
Plus le nombre de solutions de Business Intelligence est important, plus le risque d’incohérences et de différences
de sécurité entre les différentes technologies est grand, et plus “l’informatique parallèle” augmente.
Ce qu’il faut retenir
 L’investissement dans le Cloud en matière de BI est en constante augmentation.

 Les solutions natives de Cloud-BI sont préférées aux solutions de BI on-premise hébergées dans le Cloud.
 Les entreprises de plus de 5000 employés sont plus susceptibles d’investir dans le cloud.
 Les principaux défis inhérents à la gestion de plusieurs solutions de BI sont les coûts, la fiabilité des
données,
l’adoption utilisateur et la sécurité.
2. Le Futur de la BI
Personne ne peut prédire l’avenir exact de la BI, mais nous pouvons examiner ce que les organisations prévoient
de
changer dans leur portefeuille BI et comment elles vont le gérer dans le futur.
Evolution du Portefeuille Décisionnel
L’environnement BI étant en perpétuelle évolution, nous avons demandé aux répondants s’ils prévoyaient d’apporter
des changements à leur portefeuille décisionnel dans les cinq prochaines années à venir. Les résultats de l’enquête
indiquent que la plupart des entreprises souhaitent conserver leur portefeuille décisionnel tel qu’il est (29%) ou
réduire le réduire (28%). Cela concorde avec le fait que la priorité principale des organisations cette année est
d’améliorer l’efficience des solutions BI déjà présentes dans leur portefeuille. C’est également en phase avec les
recommandations du Forrester qui suggère d’intégrer et réduire le nombre de technologies de BI en fonction des cas
d’usage.
Seulement 15 % envisagent d’étendre leur portefeuille et, étonnamment, 29% des personnes interrogées ne sont pas
encore sûres de leur choix pour le moment.
Figure 2.1 : Au cours des cinq prochaines années, votre entreprise envisage-t-elle d’apporter des
modifications à son portefeuille de solutions BI ?
Evolution des Centres de Compétence en Business Intelligence
Comme les résultats l’ont démontré, les répondants font face à de nombreux défis dans ce contexte de BI-multiple.
Cependant, la mise en place d’une équipe BI centralisée pourrait réduire ces risques. Les résultats de l’enquête ont
65
démontré que 48% ont déjà, ou, prévoient de mettre en place une équipe de BI centralisée, 28% n’en ont pas, ou, ne
prévoient pas d’en avoir et 24% ne savent pas pour le moment.
Si on y regarde de plus près, c’est 63% des répondants connaissant leur stratégie sur le sujet qui ont, ou, qui
prévoient
de mettre en place une telle cellule.
Figure 2.2 : Votre entreprise a-t-elle ou envisage-t-elle de constituer un centre de compétence ou

d’excellence BI ?
Centres de compétences par taille d’organisation
Nous voulions aller plus loin et examiner les réponses en fonction de la taille des organisations. Les résultats
indiquent
que les organisations comptant 2500 à 5000 employés sont plus susceptibles d’avoir une équipe centralisée de BI (74
%). Néanmoins, les résultats sont assez équilibrés (45% en moyenne) ce qui indique que c’est une tendance pour les
organisations de toutes tailles.
Figure 2.3 : Adoption de la BI selon la taille des entreprises.
Ce qu’il faut retenir :
 La tendance actuelle est à la conservation de leur portefeuille BI tel quel ou à la réduction du nombre de
solutions.
 Près de la moitié des participants ont mis en place ou prévoient de mettre en place une équipe BI
centralisée.
Conclusion
Nous avons interrogé les professionnels de l’industrie pour en savoir plus sur la façon dont les entreprises gèrent
plusieurs solutions de Business Intelligence et les défis que cela impose, dans un environnement en constante
évolution. Les résultats de l’enquête ont démontré que la BI-multiple est une tendance réelle et durable étant donné
qu’il n’existe pas de solution unique capable de répondre66
à tous les besoins et cas d’usage. Le Cloud devenant une
réalité pour la plupart des entreprises, qui sait à quoi ressemblera le paysage décisionnel de demain. Cette situation
instable crée des défis pour les entreprises, certains d’entre eux étant plus difficiles que d’autres. Pour se préparer à
cet avenir, les organisations mettent en place des équipes de BI centralisée et maximisent leurs efforts pour améliorer
l’efficience des solutions existantes, tout en réduisant leur nombre.
La question clé à se poser ici est la suivante : comment les professionnels de la BI peuvent-ils faire de cette diversité
BI une force, mesurer l’impact de chacune de leur initiative, et ainsi prendre des décisions informées, notamment en
matière d’investissements BI ?
Activité d’apprentissage de la leçon :
QCM 1 Reporting et data mining
Partie I
1 Avant l'introduction de cet

anglicisme en France, on
employait fréquemment le
D’états
terme :
Comptes annuels
Le reporting n’existait pas
2 Le reporting peut être constitué de données:
Données réelles
De données historiques
De données prévisionnelles
3 Le reporting est un instrument de :
Instrument de contrôle
Instrument de musique
Instrument de dialogue
Instrument d’aide à la décision
4 Les étapes chronologiques du reporting sont :
extraction des informations, Ciblage données, diffusion, mise en forme

Ciblage données, extraction des informations, mise en forme, diffusion
extraction des informations, ciblage données, Mise en forme, diffusion
5 Selon A. Fernandez, quelle étape est la plus coûteuse en temps et en énergie?
Formalisation : perception de la situation

Instruction: conseil et collecte d'avis
67
Choix
Exécution
6 Un reporting peut-être :
Financier
Social ou sociétal
Environnemental
Aucun des trois
7 Selon Chenhall et Morris (1986),"plus l’information arrive régulièrement (périodicité) et rapidement

(délai), plus elle sera pertinente".
Vrai
Faux
8 Quels sont les différents éléments du système Business Intelligence ?
Datawarehouse
Datamart
Dataresource
Datamining
ETL
Cube OLAP
9 Qu’est-ce que le datawarehouse?
Une base de donnée utilisée pour collecter et stocker des informations ciblées
Permet de collecter et stocker des informations provenant d’autres bases de données.
Convient au PME
10 Qu’est-ce que le Datamart ?
Base de données utilisée pour collecter et stocker des informations

Sous-ensemble d’un datawarehouse
Des hypothèses à partir de grandes quantités de données
11 Dites si ces affirmations sont Vrai ou Fausses:
VRAI Faux
"la décision est le signal d’une intention explicite d’agir".
68
"le processus de contrôle de gestion peut être conçu comme étant lui-même un système
d’information, tant sur le plan de son automatisation que celui de la mise en relation d’un
émetteur et d’un récepteur au moyen d’un support"
"trop d’information, créer l’information"
12 Remplir les champs vides (système, données, diffusion) :
Le contrôleur de gestion doit s’assurer que les sont protégées. Il faudra très souvent mettre
en place un de gestion et d’approbation des accès et des listes de destinataires restreints pour la
13 La rapidité de production et de diffusion se situent à combien de niveaux ?
1
2
3
4
Partie 2 :
1 Le Datamining est utilisé à la fois en analyse prédictive et descriptive.
Vrai
Faux
2 Pour quelle raison principale les entreprises ont recours au Datamining ?
Introduire des statistiques dans la prise de décisions

Découvrir des tendances cachées dans les bases de données
Réduire la quantité exponentielle des données dormant dans les entrepôts de données
Utiliser les NTIC pour ne pas être obsolète
3 Quel est l'un des intérêts du Datamining ?
La conservation des données dans des entrepôts

L'exploitation des données pour améliorer la rentabilité d'une activité
L'avantage d'une longueur d'avance sur ses concurrents
69
L'augmentation du retour sur investissement des systèmes d'informations
4 Quelles sont les techniques utilisées par le DATAMINING?
Statistiques
Arbres de décisions
Réseaux de neurones
Recherches d'associations
5 Le Datamining peut enfreindre le respect de la vie privée des personnes concernées .
Vrai
Faux
6 Sur quels logiciels peut-on utiliser l'arbre de décision?
KnowKnowledgeSEEKET
Alice
Predict
CART
7 Les deux premières phases du Datamining sont:
Analyse d'opinion
Text mining
Segmentation/Typologie
Scoring
Evaluation de campagne de terrain
Reporting analytique
8 Quelles peuvent être les applications du datamining spécifiques à l’industrie ?
La résolution du stockage de données

La segmentation de données
La classification de données
L’hétérogénéïsation de la variété des données
9 Le datamining est synonyme d’opportunités tels que :
La fouille de données sans l’aide de la main de l’homme

La mise en évidence de l’influence de certaines variables sur d’autres
70
L’interprétation des résultats de la fouille de données
10 À partir d’une base de données, le datamining fait le lien entre des variables dans le but :
D’expliquer la causalité de ce lien

De déterminer l’impact d’une variation de la variable sur une deuxième
11 L’explosion des gisements de données représente pour le datamining :
Un danger pour son développement

Une contrainte réglementaire
Une chance pour prédire l’avenir
12 Quels sont les principaux défis à relever du datamining ?
Augmenter la vitesse de la compilation de données

Améliorer l’intelligence de l’exploration de données
Augmenter la vitesse de l’extraction de connaissances
13 Quelles sont les limites techniques du Datamining :
Il ne peut traiter que des données chiffrées

La pertinence du résultat donnée par les logiciels d’exploration n’est pas certaine
Les outils ne vont pas indiquer quelle variable aura une influence sur la variable à expliquer
Il ne permet pas de décrire les données
Il n’indique pas quel type de relation ont les variables entre elles
14 En quelle année le développement du datamining par spécialisation a vu le jour ?
1990
1980
2005
2010
15 Quels types de fouilles par spécialisation existent :
La fouille d’image
La fouille de vidéo
La fouille de texte
16 Quelles sont les caractéristiques des données provenant de la fouille du web ?
71
Leurs paramètres ne se modifient jamais avec le temps
Leur flot est limité
Elles arrivent très rapidement
Elles proviennent des journaux des serveurs
17 Grâce à quel type de fouille peut-on explorer les données cartographiques du crime ? :
La fouille de données confidentielles

La fouille du web
La fouille de vidéo
La fouille de données spatiales
18 Quels sonts parmi ces termes les facteurs de succès du Datamining ?
La mise en forme des données

La connaissance de l'environnement
Le niveau de formation des statisticiens
La prise de recul sur l'action engagée
19 Le CRISP-DM permet de rendre les projets de Datamining :
plus rapides mais couteux

plus couteux mais efficaces
plus couteux
rapides et plus fiables
20 Quels sont les deux axes principaux du Datamining ?
La prédiction
La création de typologie
La création de mœurs
La création de classe sociale évoluée
Partie III : Master data management MDM
1)Laquelle de ces activités ne fait généralement pas partie du cycle de vie de la qualité des données ?
a)-Le profilage des données
b)-Le nettoyage des données
c)-L'archivage des données
d)-La normalisation des
données
2)Les colonnes sur lesquelles le rapprochement est effectué :

a)-Groupe d'appariement
b)-Colonne d'appariement 72
c)-Clé d'appariement
d)-Aucune des réponses ci-dessus
3)Quelle est la condition préalable au profilage des données Échantillonnage des données ?
a)-Normalisation des données
b)-Enrichissement des données
c)-Toutes les réponses ci-dessus
4)Quels sont les principaux avantages commerciaux de la gestion de la qualité des données ?
a)-Augmentation de l'efficacité opérationnelle
b)-Moteur de la croissance des ventes
c)-Meilleure relation avec les clients (gestion de la relation client)
d)-Toutes les réponses ci-dessus
5)Quel est le processus de sélection de certaines données à partir d'un énorme ensemble de données pour effectuer
le profilage des données ?
a)-Consolidation des données
b-Échantillonnage des données
c-Masquage des données
d-Archivage des données
6) Que signifie le terme

"profilage des données" ?
a-Nettoyage des données Identification des problèmes dans les données
b-Chargement des données
c-Consolidation des données
7) Que signifie le terme "Conformité des données" ?

a. Vérifier si les données sont conformes aux normes définies (modèles)
b. Vérifier si les données sont présentes ou non
c. Vérifier si les données contiennent des doublons
d. Vérifier si les données ont des valeurs inutiles
8) Que mesure la dimension de la qualité des données - Data Accuracy ?

a-Données inutiles Données non utilisables pour l'entreprise
b-Données non disponibles A et B
9) Laquelle des métriques suivantes n'est pas une métrique standard de profilage des données ?
a-La vélocité des données
b-L'exhaustivité des données
c-La précision des données
d-La cohérence des données
10) Que signifie le terme "Exhaustivité des données" ?

a-Disponibilité des données dans une colonne
b-Données sans doublons
c-Données sans valeurs inutiles
d-Données standardisées
73

Leçon 1 Outils Décisionnels Absec

Transféré par

Droits d'auteur :

Formats disponibles

Leçon 1 Outils Décisionnels Absec

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Leçon 1 Outils Décisionnels Absec

Transféré par

Droits d'auteur :

Formats disponibles

COURS ETL ET EXTRACTION DE DONNEES

2. Démarche pédagogique : Approche Projet

De façon spécifique, ce cours vise à :

6. Compétences et apprentissages visés

8. Règles de fonctionnement du cours (UE/ECUE)

2 Concept OLAP analyse multidimensionnelle

Chaque leçon donne une liste de références bibliographiques et webographiques.

Compétences et apprentissages visés :

2 Méthodologie des projets BI

3 Modélisation data warehouse : modélisation décisionnelle

1- Rappel de la leçon 0 sur les concepts de SIAD

Cette surabondance de données, et l’impossibilité des systèmes opérationnels de les exploiter à

I.1. Les systèmes décisionnels

« Le système d’information est l’ensemble des méthodes et moyens de recueil de contrôle et de

1.1. La place du décisionnel dans l’entreprise :

Figure I.1 : Le décisionnel au sein du Système d’information [Goglin, 1998].

En relation étroite avec les nouvelles technologies de l’information et des

Figure I.2 : Les différentes composantes du décisionnel [Goglin, 1998].

2 MAGASINS DE DONNEES OLAP

1. OLAP : ON-LINE ANALYTICAL PROCESSING

2. Architectures des serveurs OLAP

1. Les systèmes à architecture MOLAP

Données Traitements Présentation

Stockage des Rapports

Figure 2.1 : Principe de l’architecture MOLAP [Nakache, 1998].

Data Warehouse Moteur ROLAP Aide à la décision

Données Traitements Présentation

3. Autres architecture OLAP

IV.2.1 Les phases de l’alimentation « E.T.L. »

Les phases du processus E.T.L. représentent la mécanique d’alimentation du Data Warehouse.

a) L’extraction des données

« L’extraction est la première étape du processus d’apport de données à l’entrepôt de

• Cibler les données,

b) La transformation des données

• Consolidation des données.

c) Le chargement des données

IV.2.2 Politiques de l’alimentation

Le processus de l’alimentation peut se faire de différentes manières. Le choix de la

• Sûr : assure l’acheminement des données et leur livraison.

•Rapide : la quantité de données manipulées peut causer des lenteurs. Le processus

Figure 3.2 : Architecture générale d’un ETL

Figure 3.3 : Processus ETL

Les outils E.T.L, en français E.T.C « Extraction-Transformation-Chargement » [Kimball, 2005], sont

Forage de données, explorations de données ou fouilles de données, ce sont les traductions

2. Qu’est-ce qu’un data mining ?

4.4 On dénombre cinq variétés du Data Mining :

4.5 À quoi sert le Data Mining dans le marketing ?

Exemples concrets de l’utilisation du Data Mining

-Permettre aux consommateurs de contrôler leur empreinte numérique

Afin de remédier à ce problème, et de permettre aux consommateurs de contrôler leurs données, la

-Empêcher l’évasion fiscale avec le Data Mining

-Recruter les meilleurs employés

4.4 Comment fonctionne le Data Mining ?

Le Data Mining repose sur cinq éléments majeurs :

 L’extraction, la transformation, et le chargement de données transactionnelles sur le système

 Le stockage et la gestion de données dans un système de base de données multidimensionnel.

 Analyser les données grâce à un logiciel applicatif.

 Présenter les données sous un format utile, comme un graphique ou un tableau.

Différents niveaux d’analyse sont disponibles :