01-13-Les Entrepôts de Données Pour Les Nuls. - . Ou Pas !
01-13-Les Entrepôts de Données Pour Les Nuls. - . Ou Pas !
01-13-Les Entrepôts de Données Pour Les Nuls. - . Ou Pas !
Université de Lyon
∗
ERIC - Lyon 2
{prenom.nom}@univ-lyon2.fr
∗∗
ERIC - Lyon 1
{prenom.nom}@univ-lyon1.fr
Résumé. Dans cet article, nous portons notre regard sur l’aide à la décision du
point de vue des systèmes décisionnels au sens des entrepôts de données et de
l’analyse en ligne. Après avoir défini les concepts qui sous-tendent ces systèmes,
nous nous proposons d’aborder les problématiques de recherche qui leur sont
liées selon quatre points de vue : les données, les environnements de stockage,
les utilisateurs et la sécurité.
1 Introduction
Le processus décisionnel ou les systèmes décisionnels au sens des entrepôts de données
sont nés d’un besoin exprimé par les entreprises qui n’était pas satisfait par les systèmes tra-
ditionnels de bases de données. En intégrant la technologie des entrepôts de données (data
warehouses), le processus décisionnel apporte une réponse au problème de la croissance conti-
nuelle des données pouvant être de formats différents. De plus, il supporte efficacement les
processus d’analyse en ligne (On-Line Analytical Processing - OLAP) (Chaudhuri et Dayal,
1997; Chaudhuri et al., 2011).
L’entreposage de données est donc né dans les entreprises. Ainsi, les "grands comptes"
sont les principaux utilisateurs de ces technologies qui font partie intégrante de l’entreprise
comme outil d’aide à la décision (le terme de Business Intelligence est aussi largement utilisé).
Nous pouvons citer les secteurs de la grande distribution, des banques et des assurances, ainsi
que ceux de l’automobile et des institutions médicales. Mais bien au-delà, l’entreposage de
données suscite de plus en plus d’intérêt, avec une ouverture vers des entreprises plus petites
mais qui peuvent tirer parti aujourd’hui de ces outils. Notons aussi que plusieurs domaines
d’application ont vu le jour autour du Web, des systèmes d’informations géographiques, des
flux de données, etc. Le Web est par ailleurs devenu une source de données à part entière.
Dans cet article, nous nous attachons à aborder la thématique de l’aide à la décision au
travers du prisme de ces systèmes décisionnels en exposant leur fonctionnement, en faisant
état des travaux de recherche réalisés. Mais il s’agit aussi de tenter de cerner les enjeux des
recherches futures dans ce domaine par rapport à l’évolution du contexte actuel, et ce aux
niveaux technologique et économique en particulier avec le succès de l’informatique dans le
Entrepôts de données et aide à la décision
nuage (Cloud Computing) et des outils libres (Open Source) entre autres. En effet la proliféra-
tion des outils libres et la possibilité de délocaliser les données dans le nuage ouvre un accès
à ce processus décisionnel à un plus grand nombre d’utilisateurs et crée de nouveaux verrous
scientifiques.
Cet article est organisé de la façon suivante. Dans un premier temps, nous définissons les
concepts clés du domaine des entrepôts de données et de l’analyse en ligne dans la section 2.
Nous abordons ensuite les quatre volets qui nous apparaissent cruciaux, à savoir les données
(section 3), les environnements de stockage de ces données (section 4), les utilisateurs (sec-
tion 5) et la sécurité (section 6), en détaillant pour chacun de ces volets les tendances qui se
dessinent pour l’avenir. Nous concluons finalement dans la section 7.
Plusieurs auteurs ont défini le concept d’entrepôt de données. Selon Inmon (1996), c’est
une collection de données orientée sujets, intégrée, non volatile et en mode de lecture seule,
importée à partir de sources de données hétérogènes et stockée à différents niveaux de granula-
rité dans un but de prise de décision. Ainsi, un entrepôt de données est généralement vu comme
C. Favre et al.
un espace de stockage centralisé regroupant dans un format homogène les données issues de
différentes sources, qui peuvent faire l’objet de transformations et d’historisation, à des fins
d’analyse pour la prise de décision. Un magasin de données peut constituer un extrait de l’en-
trepôt, où les données sont préparées de manière spécifique pour faciliter leur analyse et leur
exploitation par un groupe d’utilisateurs, en fonction par exemple d’une orientation métier.
Finalement, les possibilités d’analyse des données sélectionnées sont très variées. Elles
dépendent des besoins des utilisateurs et font appel à des techniques différentes :
– le reporting avec la construction de tableaux de bord, d’indicateurs, de graphiques ;
– la navigation multidimensionnelle dans les données avec la technologie OLAP ;
– la fouille dans les données à l’aide des méthodes de Data Mining.
2.2.2 Alimentation
L’alimentation d’un entrepôt de données est une phase essentielle dans le processus d’en-
treposage. Elle se déroule en plusieurs étapes : extraction, transformation, chargement et rafraî-
chissement des données, qui sont prises en charge par le processus d’ETL (Extracting, Trans-
forming and Loading). Ce processus constitue la phase de migration des données de production
Entrepôts de données et aide à la décision
dans le système décisionnel après qu’elles ont subi des opérations de sélection, de nettoyage et
de reformatage dans le but de les homogénéiser. Cette phase constitue une étape importante et
très chronophage dans la mesure où on l’estime à environ 80% du temps de mise en place de
la solution décisionnelle. Ainsi cette phase fait l’objet de nombreux travaux de recherche, en
terme de modélisation, d’automatisation du processus (Simitsis et al., 2010; Jovanovic et al.,
2012; Papastefanatos et al., 2012; Akkaoui et al., 2011; Muñoz et al., 2009).
ou les détaillent et permettent une analyse par paliers : agrégation (roll up), forage vers le bas
(drill down). Dans ce cas, on a recours à une opération d’agrégation qui est appliquée sur la
(ou les) mesure(s) étudiée(s) (somme, moyenne, max, min, etc.). Ces deux derniers opérateurs
sont largement évoqués dans les travaux de recherche contrairement à ceux de la première ca-
tégorie. En effet, ils se basent sur les hiérarchies et soulèvent donc les problèmes de complexité
des hiérarchies à modéliser (Malinowski et Zimányi, 2004) et d’additivité des données (Mazón
et al., 2009).
2.5 Outils
Le domaine des entrepôts de données est né dans les entreprises. Et c’est aujourd’hui un
secteur en pleine expansion avec de nombreux projets décisionnels qui se construisent. La
question de la mesure du retour sur investissement se pose alors. Le recours à des technologies
de type "Open Source" peut constituer une alternative au coût de mise en place de tels projets.
Entrepôts de données et aide à la décision
Les outils proposés actuellement sont de plus en plus nombreux également et il est sou-
vent difficile de s’y retrouver. L’objectif n’est pas ici d’en faire une liste exhaustive. Notons
d’ailleurs, l’intérêt d’un éventuel travail qui viserait à recenser et positionner (cartographier)
tous ces outils, un tel travail étant pour le moment inexistant à notre connaissance, malgré son
intérêt indéniable.
Nous pouvons distinguer les outils selon ce qu’ils couvrent comme fonctionnalités. Citons
par exemple les deux ETL Open Source les plus connus : Kettle (Pentaho Data Integration) et
Talend.
Mentionnons également les moteurs OLAP tels que Mondrian (Open Source) qui per-
mettent, à partir d’en entrepôt stocké dans un système de gestion de bases de données rela-
tionnelles, de pouvoir construire les cubes de données, qui peuvent être ensuite interfacés avec
des applications de visualisation (telles que JPivot, Pentaho Analyzer, Pentaho Analysis Tool,
Geo Analysis Tool, etc.)
Nous pouvons également citer d’autres outils connus qui sont dédiés au reporting tels que
JasperSoft (Open Source), QlikView, BusinessObject.
Ces déclinaisons de l’OLAP sont des exemples d’adaptation des entrepôts de données et de
l’OLAP aux différents types de données, mais elles ne portent souvent que sur la structure des
données et non pas sur leur contenu. Une autre spécificité des données complexes réside dans
la sémantique qu’elles véhiculent. Par conséquent, un nouveau problème émerge : comment
prendre en compte la sémantique contenue dans les données complexes pour la modélisation et
l’analyse ? Le recours à des solutions telles que les ontologies constitue une issue prometteuse
explorée dans différents travaux (Cao et al., 2006; Selma et al., 2012).
4 Environnement de stockage
L’informatique décisionnelle (Business Intelligence) a beaucoup évolué depuis une tren-
taine d’années passant d’une discipline exclusivement réservée à un groupe d’utilisateurs, les
décideurs, pour se démocratiser en délocalisant la prise de décision du haut de la pyramide
au plus proche du terrain pour une meilleure réactivité. L’enjeu est de disposer de la bonne
Entrepôts de données et aide à la décision
information afin de délivrer la bonne connaissance à la bonne personne. Cela passe par le dé-
ploiement d’un environnement de stockage qui doit permettre de rendre accessible, de mettre
en forme et de présenter les informations clés aux différents utilisateurs concernés afin de
faciliter la prise de décision.
1. http ://www.monetdb.org/
2. http ://neo4j.org/
3. http ://basho.com/
4. http ://www.mongodb.org/
C. Favre et al.
transferts de très grands volumes de données qui peuvent s’exprimer en tera-octets, voire en
peta-octets. Ceci nécessite alors des techniques de compression de données.
Une partie des problèmes de recherche classiques qui se posent encore dans le domaine
des entrepôts de données trouve une nouvelle expression lorsque l’on se situe dans le nuage.
Faut-il continuer de dénormaliser les modèles physiques dans un cadre NoSQL pour bénéficier
de meilleures performances, demeurer dans un environnement SQL qui garantit l’intégrité des
données, ou encore tenter de travailler intégralement en mémoire vive ? L’élasticité est-elle la
réponse à tous les problèmes de performance, ou ne vaut-il pas mieux adapter des techniques
d’optimisation bien connues (index, vues matérialisées...) pour minimiser le coût en ressources
(et donc, monétaire) des requêtes dans le nuage (Nguyen et al., 2012) ? Doit-on inclure dans
la notion d’élasticité la prise en compte des données situationnelles (Pedersen, 2010) et les
problèmes d’intégration des données qui en découlent ? De plus, travailler au moins en partie
à partir de données situationnelles impose d’accepter une perte de contrôle sur les données
du système décisionnel, notamment sur leur fiabilité et leur pérénité, et donc de se contenter
d’analyses de tendances plutôt que d’historiques avérés (Middelfart, 2012). Evaluer ce degré
de contrôle est donc important. L’étude de Kandel et al. (2012) constitue un point de départ
tout à fait intéressant pour ces réflexions.
D’autres problèmes sont davantage liés au paradigme de l’informatique dans le nuage et
aux usages décisionnels plus personnels et collaboratifs qu’il permet. Par exemple, classique-
ment, l’investissement (en général très important) dans un système décisionnel doit être ef-
fectué a priori par les entreprises. En revanche, dans le nuage, la construction d’un système
décisionnel peut être incrémentale, collaborative et exploiter au mieux le paiement à la de-
mande (Darmont et al., 2012). Il est tout à fait possible de "partir petit", voire de "rester petit",
d’adaptant à la cible des utilisateurs. Nous abordons alors à présent ce volet utilisateurs si
crucial pour des systèmes qui, par définition, sont centrés utilisateurs.
Enfin, l’aspect collaboratif du décisionnel est apparu dès 2007, avec l’annotation de cubes
pour modéliser et permettre le partage de l’expertise des utilisateurs d’OLAP (Cabanac et al.,
2007). Une architecture décisionnelle collaborative a ensuite été proposée par Berthold et al.
(2010), qui inclut des fonctionnalités dites sociales afin d’enrichir le processus de décision
grâce aux opinions d’experts. Une dernière approche répartit des magasins de données dans une
architecture pair à pair (Golfarelli et al., 2012). Bien que le processus de décision soit amélioré
dynamiquement grâce au partage de connaissances dans toutes ces approches, l’intégration de
données situationnelles à la volée n’y est pas envisagée.
bien évidemment la question de la sécurité, que nous nous proposons d’aborder dans la section
suivante.
6 Sécurité
Chaque jour de nouvelles vulnérabilités sont découvertes sur tous les types de composants
d’un système d’information classique, et aussi décisionnel a fortiori. Lorsqu’elles sont exploi-
tées par des individus malveillants, elles risquent de perturber gravement le système d’informa-
tion décisionnel : indisponibilité (partielle ou totale, temporaire ou prolongée), pertes de don-
nées, vol d’informations confidentielles, pertes d’exploitation, la liste n’est malheureusement
pas exhaustive... La protection du système d’information décisionnel est une lutte incessante.
Elle exige des administrateurs système et réseau en charge de la maintenance informatique de
s’astreindre à :
– surveiller les menaces qui pèsent sur les systèmes d’information
– mettre en œuvre rapidement les parades permettant de réduire les possibilités d’attaque
Pour cela, il faut définir le périmètre de surveillance : systèmes d’exploitation ou applica-
tions, et ceci pour les équipements réseaux, serveurs, postes de travail, et périphériques. Nous
constatons que la veille technologique, dans le domaine de la sécurité, concerne jusqu’à pré-
sent le suivi des nouvelles technologies disponibles sur le marché, mais concerne également le
suivi des alertes de sécurité ou plus précisément des nouvelles vulnérabilités découvertes sur
les systèmes informatiques.
Renforcer la sécurité des systèmes d’information décisionnelle consiste pour la plupart des
acteurs à ajouter des équipements supplémentaires : serveurs, pare-feux... ou à complexifier
et à sophistiquer la gestion des accès ... Nous sommes persuadés que la sécurité doit aussi
être intégrée dans la phase de conception, dans les mécanismes d’architecture des entrepôts de
données pour imposer des méthodes et des outils. Cette démarche permet de pallier à d’éven-
tuelles défaillances des dispositifs mis en place au niveau des infrastructures et des systèmes
de détection d’intrusions (IDS).
Les systèmes d’information décisionnels sont souvent stockés sur des machines virtuelles
différentes pour des raisons de volumétrie et d’optimisation. La communication entre les dif-
férentes machines est très vulnérable. Cette faille doit être supprimée par des moyens de com-
munication naturellement sécurisés. En considérant ces machines virtuelles comme des parties
indépendantes, des primitives cryptographiques peuvent permettre de sécuriser les commu-
nications. Basée sur la cryptographie asymétrique, la signature numérique (parfois appelée
signature électronique) est un mécanisme permettant de garantir l’intégrité d’un document
électronique et d’en authentifier l’auteur, par analogie avec la signature manuscrite d’un docu-
ment papier. Un mécanisme de signature numérique doit permettre au lecteur d’un document
(une couche) d’identifier l’expéditeur (une couche) qui a apposé sa signature. Il doit garan-
tir que le document n’a pas été altéré entre l’instant où l’auteur l’a signé et le moment où
le lecteur le consulte. La confidentialité des données peut être assurée classiquement par des
cryptosystèmes symétriques. Le problème qui se pose est le stockage de la clé privée. Il s’agit
en effet de prémunir les systèmes contre des attaques visant à la recouvrer. Aucune solution
ne permet de se prémunir totalement contre ce risque. Cependant, on assiste depuis quelques
années à l’émergence de cryptosystèmes complètement homomorphiques. Ces cryptosystèmes
permettent de faire des calculs sur des valeurs encryptées sans avoir à les décrypter. Ils peuvent
Entrepôts de données et aide à la décision
donc grandement limiter l’usage de la clé privée. Toutefois, ces cryptosystèmes nécessitent de
grosses ressources et ne sont pas encore opérationnels en pratique.
Les questions relatives à la sécurité et à la confidentialité des données sur le Cloud ont été
les premières préoccupations des fournisseurs et des usagers du Cloud. Il en est de même dans
le cas des entrepôts de données dans le Cloud. Différents scénarios peuvent être envisagés :
soit la soustraction des données sensibles de l’analyse à partir du Cloud ; soit l’encryptage
de celles-ci. Des travaux commencent à émerger portant sur l’analyse des données encryptées.
Ces questions représentent sans doute des pistes de recherche intéressantes. Cependant, elles ne
sont pas les seules préoccupations, les nombreux problèmes cités ci-dessus montrent également
la diversité des pistes de recherche que suscite cette nouvelle problématique des entrepôts
dans le Cloud. Celle-ci souffre aujourd’hui d’un manque de conceptualisation du fait de son
émergence récente.
Ainsi, les problèmes de sécurité intrinsèques au stockage de données dans le nuage de-
meurent : espionnage de la part du fournisseur de service ou d’un sous-traitant, garantie de
disponibilité des données, croisements incontrôlés de données... (Chow et al., 2009). Il existe
cependant des pistes de recherche prometteuses, notamment au niveau de l’anonymisation des
données qui, même cryptées, restent interrogeables et utilisables dans certains traitements. Sto-
cker des données volontairement altérées, mélangées dans le Cloud peut être aussi une possibi-
lité pour assurer la confidentialité des données. Cette solution soulève également des questions
au niveau du cryptage et décryptage pour les interrogations. De plus, le calcul multi-parties per-
met à des individus distincts de construire de façon collaborative un résultat d’analyse commun
sans pour autant dévoiler leurs sources de données. Ces techniques de cryptographie ne sont
toutefois pas encore assez matures pour permettre l’analyse en ligne ou la fouille de données,
ni pour un déploiement à l’échelle du nuage. Ce dernier soulève des problèmes de temps de
traitement qui pousse à ne sécuriser que certaines données : les plus sensibles, les plus récentes
...
7 Conclusion
Dans cet article, nous avons présenté le domaine de l’aide à la décision au travers du prisme
des entrepôts de données et de l’analyse en ligne. Ainsi, l’aide à la décision apparaît ainsi dans
ce domaine comme la proposition de méthodes et d’outils permettant aux décideurs de naviguer
dans les données consolidées dédiées à l’analyse.
Après avoir présenté les concepts fondateurs de ce domaine, nous nous sommes penchés
sur quatre aspects pouvant être considérés comme structurants par rapport à la recherche dans
ce domaine, à savoir : les données, les environnements de stockage de ces données, les utilisa-
teurs et la sécurité. Par ailleurs, ce travail a permis de synthétiser les problèmes ouverts de ce
domaine, qui se posent dans un nouveau contexte économique et technologique. Ce contexte
est fortement corrélé avec l’émergence du Cloud, des outils Open Source qui modifient en pro-
fondeur le rapport des utilisateurs aux données et à leur analyse, posant de réels problèmes de
sécurité. L’aide à la décision du point de vue des entrepôts de données et de l’analyse est ame-
née à évoluer en fonction de ce nouveau contexte, assurant aux professionnels du domaine un
développement d’activité croissant et, aussi, un avenir scientifique prometteur avec des verrous
identifiables nombreux, comme nous avons pu le constater.
C. Favre et al.
Références
Abello, A., J. Darmont, L. Etcheverry, M. Golfarelli, J.-N. Mazon, F. Naumann, T.-B. Pedersen,
S. Rizzi, J. Trujillo, P. Vassiliadis, et G. Vossen (2013). Fusion cubes : Towards self-service
business intelligence. International Journal of Data Warehousing and Mining 9(2).
Abouzeid, A., K. Bajda-Pawlikowski, D. Abadi, A. Silberschatz, et A. Rasin (2009). Ha-
doopdb : an architectural hybrid of mapreduce and dbms technologies for analytical work-
loads. Proc. VLDB Endow. 2(1), 922–933.
Agrawal, D., S. Das, et A. El Abbadi (2011). Big data and cloud computing : current state
and future opportunities. In Proceedings of the 14th International Conference on Extending
Database Technology, EDBT/ICDT ’11, New York, NY, USA, pp. 530–533. ACM.
Akkaoui, Z. E., E. Zimányi, J.-N. Mazón, et J. Trujillo (2011). A model-driven framework for
etl process development. In 14th International Workshop on Data Warehousing and OLAP,
Glasgow, United Kingdom (DOLAP 2011), pp. 45–52. ACM.
Aligon, J., M. Golfarelli, P. Marcel, S. Rizzi, et E. Turricchia (2011). Mining preferences
from olap query logs for proactive personalization. In 15th International Conference on
Advances in Databases and Information Systems, Vienna, Austria (ADBIS 2011), Volume
6909 of Lecture Notes in Computer Science, pp. 84–97. Springer.
Aouiche, K. et J. Darmont (2009). Data mining-based materialized view and index selection
in data warehouses. J. Intell. Inf. Syst. 33(1), 65–93.
Bédard, Y. et J. Han (2009). Geographic Data Mining and Knowledge Discovery, Chapter
Fundamentals of Spatial Data Warehousing for Geographic Knowledge Discovery. Taylor
& Francis.
Benkrid, S. et L. Bellatreche (2011). Une démarche conjointe de fragmentation et de placement
dans le cadre des entrepôts de données parallèles. Technique et Science Informatiques 30(8),
953–973.
Bentayeb, F., O. Boussaid, C. Favre, F. Ravat, et O. Teste (2009). Personnalisation dans les en-
trepôts de données : bilan et perspectives. In 5èmes journées francophones sur les Entrepôts
de Données et l’Analyse en ligne (EDA 2009), Montpellier, Volume B-5 of RNTI, Toulouse,
pp. 7–22. Cépaduès.
Berthold, H., P. Rösch, S. Zöller, F. Wortmann, A. Carenini, S. Campbell, P. Bisson, et F. Stroh-
maier (2010). An architecture for ad-hoc and collaborative business intelligence. In Procee-
dings of the EDBT/ICDT Workshops.
Cabanac, G., M. Chevalier, F. Ravat, et O. Teste (2007). An annotation management system
for multidimensional databases. In 9th International Conference on Data Warehousing and
Knowledge Discovery (DaWaK 2007), Regensburg, Germany, Volume 4654 of LNCS, pp.
89–98. Springer.
Cao, L., J. Ni, et D. Luo (2006). Ontological engineering in data warehousing. In 8th Asia-
Pacific Web Conference (APWeb 2006), Harbin, China, Volume 3841 of Lecture Notes in
Computer Science, pp. 923–929. Springer.
Cattell, R. (2011). Scalable sql and nosql data stores. SIGMOD Rec. 39(4), 12–27.
Entrepôts de données et aide à la décision
Summary
In this paper, we present the background regarding decisional processes in terms of data
warehousing and OLAP. We present the main related concepts and the research challenges
according to four points of view: data, storage, users and security.