Naoum These
Naoum These
Naoum These
Sciences et Technologies
de L’Information et des Matériaux
2006
Thèse de DOCTORAT
Spécialité : INFORMATIQUE
Lamiaa N AOUM
le 22 novembre 2006
au Laboratoire d’Informatique de Nantes Atlantique, Université
de Nantes
Président :
Rapporteurs : Claude Chrisment, Professeur IRIT, Univ. Paul Sabatier (Toulouse III)
Nacer Boudjlida, Professeur LORIA, Univ. Henri Poincaré (Nancy 1)
Examinateurs : Florence Sédes, Professeur IRIT, Univ. Paul Sabatier (Toulouse III)
Noureddine Mouaddib, Professeur LINA, Univ. de Nantes
Guillaume Raschia, Maître de conférences LINA, Univ. de Nantes
No ED 0366-XXX
UN MODÈLE MULTIDIMENSIONNEL POUR UN
PROCESSUS D’ANALYSE EN LIGNE DE RÉSUMÉS
FLOUS
Lamiaa Naoum
./
Université de Nantes
Lamiaa Naoum
Un modèle multidimensionnel pour un processus d’analyse en ligne
de résumés flous
xviii+176 p.
Révision pour la classe : $Id: these-IRIN.cls,v 1.3 2000/11/19 18:30:42 fred Exp
Á
Résumé
Le travail présenté dans cette thèse traite de l’exploration et de la manipulation
des résumés de bases de données de taille significative. Les résumés produits par le
système SaintEtiQ sont des vues matérialisées multi-niveaux de classes homogènes
de données, présentées sous forme de collections d’étiquettes floues disponibles sur
chaque attribut. La contribution de cette thèse repose sur trois points. En premier
lieu nous avons défini un modèle de données logique appelé partition de résumés,
par analogie avec les cubes de données OLAP, dans le but d’offrir à l’utilisateur final
un outil de présentation des données sous forme condensée et adaptée à l’analyse.
En second lieu, nous avons défini une collection d’opérateurs algébriques sur l’espace
multidimensionnel des partitions de résumés. Ces opérateurs sont à la base d’une
algèbre de manipulation des résumés. Cette algèbre prend en compte les spécificités
du modèle de résumé que nous traitons. Nous avons adapté la majorité des opéra-
teurs d’analyse proposés dans les systèmes OLAP. Ainsi, nous avons identifié : les
opérateurs de base issus de l’algèbre relationnelle, les opérateurs de changement de
granularité et les opérateurs de restructuration. Ces résultats offrent de nouvelles
perspectives pour l’exploitation effective des résumés dans un système décisionnel.
Finalement, pour compléter ce travail, nous nous sommes intéressés à la représen-
tation des résumés et des partitions de résumés linguistiques, notamment pour en
fournir une présentation claire et concise à l’utilisateur final. Appliquée à une hiérar-
chie de résumés produite par le système SaintEtiQ, l’approche tente de construire
des prototypes flous représentant les résumés.
Mots-clés : Résumés de bases de données, cubes OLAP, concepts multidimensionnels
flous, aide à la décision, prototypes flous.
Abstract
The work presented in this thesis deals with the subject of exploration and manip-
ulation of database summaries with significant size. The summaries produced by
SaintEtiQ system are multilevel materialized views of homogeneous data clusters,
presented with a collections of fuzzy labels available on each attribute. Our thesis
contribution is based on three points. Initially we defined a logical data model called
summaries partition, by analogy with OLAP datacubes, with the aim of offering to
the end-user a tool for data presentation in condensed form and adapted to the
analysis. Secondly, we defined a collection of algebraic operators on the multidimen-
sional space of summaries partitions. These operators are the base for an algebra for
handling summaries. This algebra takes into account specificities of the summary
model we deal with. We adapted the majority of the operators of analysis proposed
in OLAP systems. Thus, we identified: core operators resulting from the relational
algebra, operators of changing granularity and operators of reorganization. These
results offer new prospects for the effective summaries exploitation in a decisional
system. Finally, to complet this work, we were interested in the summaries and
partitions representation, in particular to provide a clear and concise presentation of
it to the end-user. Applied to a summaries hierarchy produced by the SaintEtiQ
system, the approach tries to construct fuzzy prototypes representing the summaries.
Keywords: Databases summarization, OLAP datacubes, multidimensional vague
concepts, decision support, fuzzy prototypes.
Remerciements
Je remercie. . .
Sommaire
1 Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I État de l’art
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Les systèmes d’information décisionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 La compression sémantique des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Table des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Table des exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A Glossaire & Notations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
B Propositions industrielles des solutions décisionnelles. . . . . . . . . . . . . 165
C Rappels sur la théorie des sous-ensembles flous. . . . . . . . . . . . . . . . . . . 171
ix
C HAPITRE 1
Introduction générale
Problématique
Face à la mondialisation, les entreprises et plus globalement les organisations, se
trouvent confrontées à des environnements de plus en plus complexes et compétitifs
dans lesquels le pilotage et la prise de décision impliquent des choix qui doivent être
faits dans des temps très courts tout en prenant en compte un volume d’information
toujours plus important, la prise de décision dans les entreprises devient donc une
préoccupation de première importance. Dans le but de pouvoir prendre des décisions
pertinentes, les systèmes d’information dont sont équipées les entreprises nécessitent
de nombreuses informations et donc utilisent souvent des bases de données volumi-
neuses qui permettent à l’utilisateur d’avoir une vision complète afin de l’aider dans
la prise de décision. Or, plus les bases de données sont volumineuses plus il devient
difficile d’en extraire une information utile. De nombreux travaux se sont intéressés
à ce problème de grand volume de données. Les méthodes d’analyse statistique telles
que l’analyse factorielle, la classification hiérarchique et la régression peuvent ainsi
être employées pour mettre en évidence les causalités et faire ressortir des ensembles
logiques. Ainsi dans la thématique de traitement des données massives, la commu-
nauté de recherche en informatique s’est intéressée à la massification des données dans
ses différents aspects : acquisition, stockage, transmission, traitement, modélisation,
représentation, structuration, indexation, interrogation, comparaison, manipulation,
classification, fusion, extraction de sens, apprentissage et visualisation.
Dès lors, afin d’accéder et d’exploiter, de manière décentralisée et en temps réel
un grand volume de données de l’organisation, l’architecture des systèmes d’informa-
tion s’est élargie aux systèmes décisionnels. Cette nouvelle génération de systèmes
décisionnels aide les experts et les analystes en leur construisant des entrepôts avec
des données déjà agrégées et destinées à l’étude d’un sujet particulier. Ces systèmes
proposent des fonctionnalités d’extraction et d’analyse. Ils permettent notamment de
collecter des informations provenant de sources différentes, d’exploiter ces données
aux travers d’interfaces et d’opérateurs de manipulation et de représentation. L’im-
portance des volumes de données mis en jeu dans ces systèmes décisionnels nécessite
des mécanismes d’agrégation pour synthétiser l’information. Pour répondre à ces be-
soins, le traitement analytique en ligne (OLAP 1 ) des systèmes décisionnels fournit
une analyse s’appuyant sur un mécanisme d’interrogation interactive des données
multidimensionnelles basé sur un ensemble d’opérateurs de navigation.
1
On-Line Analytical Processing.
1
2 CHAPITRE 1 — Introduction générale
Contribution
Nos travaux de recherche s’inscrivent dans le cadre du laboratoire LINA (Labo-
ratoire Informatique de Nantes Atlantique) au sein de l’équipe Atlas-Grim. Notre
équipe a développé un système basé sur les concepts flous pour résumer les bases de
données relationnelles. Ce système appelé SaintEtiQ a été développé dans le but
de répondre à la problématique de massification de données. L’enjeu des résumés de
données est la synthèse de l’information dans un but de fournir une représentation
concise d’un grand volume de données.
Le système SaintEtiQ génère un grand volume de résumés nécessitant l’existence
d’un mécanisme d’exploration à vocation analytique. Nos travaux de recherche visent
à représenter et à manipuler les résumés flous des données qui sont générés par le
système SaintEtiQ. Nous avons constaté qu’il devient nécessaire de trouver un
modèle pour une présentation logique et claire d’une structure complexe contenant
des résumés flous, afin de faciliter la manipulation d’information pour l’utilisateur.
La démarche de résumé en ligne s’inscrit bien dans une volonté de créer un
parallèle avec les méthodes d’analyse en ligne que proposent les systèmes OLAP.
Dans ce but il apparaît intéressant de proposer la mise au point d’une algèbre de
manipulation des résumés qui serait le pendant de celle de manipulation des cubes
de données.
L’objectif principal de ce travail est la proposition d’un modèle d’analyse en
ligne pour les résumés flous. Pour ce faire, nous proposons une progression selon
deux points :
– le premier consiste à réaliser un état de l’art. Cette étude s’intéresse aux sys-
tèmes décisionnels et précisément leurs moteurs d’analyse en ligne, ainsi qu’aux
différentes méthodes qui traitent la problématique de la compression séman-
tique des données massives.
– le second permet d’apporter une contribution au système SaintEtiQ par la
CHAPITRE 1 — Introduction générale 3
proposition d’un modèle d’analyse en ligne des résumés flous, afin d’adapter le
système à un processus d’aide à la décision.
Le modèle de données défini sur les résumés est un modèle multidimensionnel qui
peut supporter l’application des opérateurs de haut niveau tels que les opérateurs
d’analyse en ligne que nous retrouvons dans les moteurs OLAP. Sur la base de ce
modèle, la définition d’une algèbre offre aux décideurs et à l’utilisateur final un
outil convivial pour une interactivité lors de la manipulation et l’interrogation des
résumés, dans le but d’extraire une information pertinente qui peut faciliter dans
la prise de décision. Le dernier point de cette contribution est la proposition d’une
méthode de présentation de résumés à l’utilisateur en lui garantissant une information
synthétique et intelligible.
Organisation du document
La première partie de cette thèse décrit un état de l’art sur les travaux propo-
sés dans la littérature concernant la prise de décision à partir des données volumi-
neuses dans les systèmes décisionnels. Cette première partie présente également une
étude bibliographique sur les travaux ayant été proposés dans le cadre de la com-
pression sémantique des données, parmi lesquels on trouve le système SaintEtiQ,
une approche basée sur les résumés linguistiques flous pour synthétiser des bases
de données relationnelles de grand volume. Nous présentons aussi dans cette partie
le système SaintEtiQ dans sa globalité. La description des éléments de base du
système SaintEtiQ servira par la suite pour la compréhension de notre proposition.
Dans la deuxième partie de ce manuscrit, nous présentons notre contribution
qui consiste à proposer un modèle qui supporte un processus d’analyse en ligne des
résumés générés par SaintEtiQ. Cette proposition est présentée dans les chapitres
4, 5 et 6. Le chapitre 4 décrit notre modèle multidimensionnel basé sur les résumés
flous et très proche d’un modèle décisionnel. La définition d’une algèbre qui propose
différents opérateurs pour manipuler ces résumés est présentée dans le chapitre 5. Ce
dernier présente un ensemble d’opérateurs semblables à ceux d’un processus OLAP
ainsi que les propriétés de chacun. Le chapitre 6 propose de construire des prototypes
flous à partir des résumés pour les présenter de façon intuitive à l’utilisateur.
PARTIE I
État de l’art
Introduction
Le volume de données disponible de nos jours dans les bases de données et dans
les systèmes d’information des entreprises, ne cesse d’augmenter. Face à cette pro-
blématique de la gestion des données massives, plusieurs modèles ont été proposés.
Nous étudions dans cette première partie du document l’état de l’art des systèmes
dédiés à la gestion des grandes masses de données. Nous entendons par "gestion": la
modélisation, le stockage et la manipulation des données ainsi que leurs présentations
sous une forme plus réduite.
Dans le premier chapitre, nous étudions les systèmes d’information décisionnels.
Ces systèmes sont dédiés aux analystes et jouent un rôle de plus en plus important
dans un processus d’aide à la décision. Nous allons étudier en détail l’architecture
de ces systèmes ainsi que leurs caractéristiques. Nous nous intéressons aussi dans ce
chapitre à l’état de l’art sur la manipulation à vocation analytique des données dans
les systèmes décisionnels.
Le second chapitre est consacré à un tour d’horizon des principales méthodes
proposées dans la littérature pour la réduction des grands volumes de données. Nous
ferons une brève présentation à la fin de ce deuxième chapitre d’un processus nommé
SaintEtiQ, qui génère des résumés à partir d’une base de données volumineuse.
L’objectif de cette première partie est d’étudier les éléments essentiels pour propo-
ser notre contribution pour les résumés de SaintEtiQ. Nous allons montrer l’intérêt
de l’analyse exploratoire et la manipulation des données dans les systèmes décision-
nels qui vont nous inspirer pour enrichir le système SaintEtiQ.
7
C HAPITRE 2
Les systèmes
d’information
décisionnels
Si nous pouvions savoir où nous en sommes et vers quoi nous
nous dirigeons, nous serions plus à même de juger quoi faire
et comment faire.
— Abraham Lincoln, 1858.
2.1 Introduction
La Business Intelligence (BI), également intelligence d’affaires ou informatique
décisionnelle, est apparue à la fin des années 70 avec les premiers infocentres. Des
systèmes envoyaient des requêtes directement sur les serveurs de production, ce qui
se révélait plutôt dangereux pour ces derniers. Dans les années 80, l’arrivée des bases
de données relationnelles et du mode client/serveur a permis d’isoler l’informatique
de production des dispositifs décisionnels. Dans la foulée, des acteurs spécialisés se
sont lancés dans la définition de couches d’analyse métier, dans le but de masquer la
complexité des structures de données.
La notion de BI englobe les solutions informatiques dont le but est de consolider
les informations disponibles au sein des bases de données de l’entreprise. En effet,
les entreprises, et plus globalement les organisations, se trouvent confrontées à des
environnements de plus en plus complexes et compétitifs dans lesquels le pilotage
implique des choix qui doivent être faits dans des temps très courts tout en prenant
en compte un volume d’informations toujours plus important.
Dans ce chapitre nous présentons un état de l’art sur les systèmes décisionnels.
Nous allons détailler dans la première section l’architecture générale d’un système
décisionnel. La deuxième section est consacrée à la modélisation multidimensionnelle
et la troisième section à l’exploitation des données dans les modèles multidimension-
nels.
9
10 CHAPITRE 2 — Les systèmes d’information décisionnels
2.1.1 Définitions
Il existe deux grandes familles de Systèmes d’Information (SI). On distingue en
effet :
– Les SI opérationnels et,
– Les SI décisionnels.
Les premiers, les SI opérationnels, sont utilisés pour la gestion du quotidien. Sou-
vent, ils sont associés à des progiciels ou des applications développées pour répondre
à une problématique métier. Leur objectif principal est la saisie puis les traitements
de données, ainsi que la production de résultats en sortie. D’une manière générale,
ces systèmes brassent un grand volume de données tout en garantissant un accès ra-
pide à l’information. La réponse à des requêtes généralement peu complexes permet
des temps de réponse relativement réduits.
Les seconds, les systèmes d’information décisionnels ont été définis dans [101]
comme suit :
Les moyens de parvenir à une activité de pilotage passent par une information
riche, pertinente, détaillée, historisée, fiable et stable. Le pilotage induit également
l’utilisation d’outils d’analyse et de restitution puissants et adaptés à chacun des
métiers concernés, ainsi qu’une forte capacité à faire évoluer les données et les outils.
Selon [31], dans son ouvrage Construction du datawarehouse, du datamart et du
dataweb, les systèmes décisionnels constituent une synthèse d’informations opéra-
tionnelles, internes ou externes, choisies pour leur pertinence et leur transversalité
fonctionnelles, et sont basés sur des structures particulières de stockage volumineux.
Le principal intérêt d’un système décisionnel est d’offrir au décideur une vision trans-
versale de l’entreprise intégrant toutes ses dimensions.
2.1.2 Objectifs
L’explosion des volumes de données et l’hétérogénéité des systèmes d’information,
tels sont les nouveaux challenges auxquels font face les entreprises dans la conduite
de leurs activités. À ces enjeux, s’ajoute aujourd’hui un contexte économique difficile
imposant aux entreprises une exigence d’efficacité dans leurs décisions. Les éditeurs
d’outils décisionnels, à travers leurs offres respectives, tiennent à se placer en pre-
mière ligne afin de leur apporter des réponses. On peut parler de processus décisionnel
lorsque les données de production sont valorisées en information. Cette valorisation
est effective dès que l’on sort du monde de la production. Pour transformer des don-
nées en information, les systèmes décisionnels se fondent sur le rapprochement de
données provenant de divers systèmes d’information internes ou externes, et sur la
CHAPITRE 2 — Les systèmes d’information décisionnels 11
Les méta-données. Une donnée étant forcément liée à d’autres objets du système
d’information, il est nécessaire de représenter, décrire et stocker les interactions avec
d’autres données. Chaque donnée d’un système décisionnel doit alors être recensée
avec précision. Il s’agit de connaître, pour chacune des données du système, sa prove-
nance, sa signification, les transformations qu’elle doit subir avant d’intégrer le sys-
tème décisionnel. En particulier, les méta-données doivent permettre de répondre aux
questions suivantes : comment extraire une donnée, avec quelle périodicité, quelles
transformations effectuer, quelle signification lui associer, les méta-données doivent
également spécifier les droits d’accès associés à cette donnée. Elles ont également
14 CHAPITRE 2 — Les systèmes d’information décisionnels
Vues matérialisées. Une vue matérialisée est une table contenant les résultats
d’une requête. Les vues améliorent l’exécution des requêtes en précalculant les opé-
rations les plus coûteuses comme la jointure et l’agrégation, et en stockant leurs
résultats dans la base. En conséquence, cetaines requêtes nécessitent seulement l’ac-
cès aux vues matérialisées [96] et sont exécutées plus rapidement. Une vue maté-
rialisée consiste à calculer une vue exprimée sur une source de données et à stocker
physiquement les données obtenues dans l’entrepôt. Les entrepôts de données sont
souvent définis comme des vues matérialisées de données historisées stockées à des
fins d’analyse. Ils doivent apporter une solution à un certain nombre de problèmes,
liés notamment à la mise à jour efficace des données face aux flux constants de don-
nées hétérogènes produites dans les systèmes transactionnels, et liés également à la
mise en œuvre d’applications décisionnelles.
Les magasins de données peuvent être perçus comme des petits entrepôts consti-
tués d’un ensemble de données correspondant à un sujet précis, rendant très rapide
les temps de réponses aux requêtes.
CHAPITRE 2 — Les systèmes d’information décisionnels 15
Le tableau 2.1 a été construit à partir de deux comparaisons des systèmes OLTP
et OLAP issues de [55] et de [95]. Ce tableau résume les différences entre traitements
OLAP et OLTP.
volet d’analyses statistiques, les systèmes décisionnels se basent sur les fonctionna-
lités qu’offrent les BDS pour la manipulation des données. Comme l’utilisation des
modèles de graphes ou tabulaires. Dans [15], a été proposé le système SAS (Sta-
tistical Analysis System). Ce système considéré actuellement comme une solution
décisionnelle, offre plusieurs fonctionnalités d’analyse dans le but de découvrire des
connaissances. Pour ceci, des techniques statistiques comme l’échantillonage ainsi
que des techniques de fouille de données sont utilisées dans la partie outils d’analyse
de SAS.
Nous venons de détailler, dans cette section, les quatre grands modules qui consti-
tuent l’architecture d’un système décisionnel. Nous avons retenu deux notions im-
portantes, les entrepôts et les magasins de données, qui constituent le noyau d’un
système décisionnel. Une fois l’entrepôt construit, on construit des collections de
données orientées sujet dans des magasins de données. Cette orientation sujet re-
flète la vision des analystes selon plusieurs axes (dimensions) d’analyse. Les données
sont alors stockées selon ces axes, elles doivent correspondre à une structure adap-
tée à l’aspect multidimensionnel. La section suivante est consacrée à l’étude de la
modélisation multidimensionnelle sur laquelle sont basés les systèmes d’information
décisionnels.
addition, mais elle peut nécessiter un traitement plus complexe, tel qu’un traitement
statistique.
Definition 2.5 (Fait). Un fait Fj est défini par (NFj , MFj , IFj ) où
– NFj est le nom de fait,
– MFj = {m1 , m2 , . . . , mw } est un ensemble de mesures (ou indicateurs d’ana-
lyse),
– IFj = {IF1 , IF2 , . . . , IFw } est l’ensemble des instances de F.
Definition 2.6 (Dimension). Une dimension Di est définie par (NDi , ADi , HDi , IDi )
où
– NDi est le nom de la dimension,
– ADi = aDi−1 , aDi−2 , . . . , aDi−u est un ensemble d’attributs,
– ADi = hDi−1 , hDi−2 , . . . , hDi−y est un ensemble de hiérarchies,
– IDi = IDi−1 , IDi−2 , . . . est l’ensemble des instances de Di .
L’un des modèles les plus populaires des systèmes OLAP, est le cube de données.
La notion du cube a été proposée par [32] en 1997. Elle a fait l’objet de nombreux
travaux [32, 40, 66, 98]. Le cube de données est alors défini comme suit :
MOLAP.
stocke les données factuelles, elle est de la forme f [A1 : l1 hd1 i , . . . , An : ln hdn i] :
l0 hd0 i, où f est un nom d’un sujet à analyser, chaque Ai (1 ≤ i ≤ n) est un at-
tribut de f et chaque li est un niveau de la dimension di . Les dimensions sont
organisées sous forme de hiérarchies où les niveaux correspondent aux diffé-
rentes possibilités de granularité de données. Les hiérarchies sont représentées
sous forme de treillis, avec des fonctions de généralisation définissant comment
naviguer entre les différents niveaux de la hiérarchie.
– Le modèle de VASSILIADIS. Le modèle de Vassiliadis [99] représente les
dimensions et les hiérarchies d’une manière explicite. Ce modèle est fondé sur
le concept de cube de base qui représente les données au niveau le plus détaillé.
Une hiérarchie est représentée sous forme d’un treillis et tous les autres cubes
sont calculés à partir du cube de base.
Definition 2.12 (Cube). Un cube c est une fonction injective d’un espace fini n-
dimensionnel (défini par le produit cartésien de n niveaux indépendants {L1 , . . . , Ln },
vers un ensemble d’instances de cellule Cc :
c : L1 × . . . × Ln → Cc , injective
Nous nous intéressons dans la section suivante à l’exploitation des données mul-
tidimensionnelles. Bien que les opérateurs de manipulation des modèles cités dans ce
chapitre ne soient pas encore uniformisés, nous allons recenser les différentes façons
utilisées pour la manipulation, la visualisation et la restitution des données.
Le monde décisionnel fait intervenir deux métiers, les décideurs et les analystes.
Ces acteurs ont besoin d’indicateurs clés pour analyser les données et parfois prendre
rapidement des décisions. Les systèmes décisionnels leurs proposent des outils d’ana-
lyse statistique ou de fouille de données afin de mieux exploiter d’importantes masses
d’informations et de pouvoir en tirer un enseignement.
Analyse de données. Si certains acteurs de l’entreprise ont un besoin centré au-
tour du reporting, d’autres ont besoin en revanche d’analyser de manière plus précise
les données. Il s’agit d’expliquer les anomalies et leurs origines. Il s’agit également de
mettre en lumière des phénomènes extrêmes dans la structure même d’un résultat
chiffré : si un commercial fait par exemple un chiffre d’affaire record, et que pa-
rallèlement, un autre commercial obtient des résultats médiocres, le chiffre en sortie
semblera normal, les deux résultats s’annulant réciproquement. Une analyse des don-
nées permet de révéler les disparités et d’expliquer des phénomènes apparemment
normaux. Dans cette logique, ont été définies des opérations de spécialisation (per-
5
une suite de solutions commerciales est présentée en annexe de ce document.
6
http://www.france.businessobjects.com/
7
http://www.cognos.com/
8
http://www.brio.com/fr/
9
http://www.hummingbird.com/fr
CHAPITRE 2 — Les systèmes d’information décisionnels 27
valeurs d’une relation. Or, toutes les combinaisons ne sont pas connues c’est pour
cela qu’on doit représenter cette absence par une case vide, par exemple les ventes
des clous dans la région ouest en 2004 (voir tableau 2.3). On note aussi que la
représentation tabulaire est possible pour les données qu’elles soient stockées dans
des relations de type ROLAP ou de type MOLAP.
Figure 2.7 – Exemple d’une représentation sous forme de cube (tiré de [68])
30 CHAPITRE 2 — Les systèmes d’information décisionnels
– Le dice : consiste à extraire un sous-cube en faisant une sélection sur les di-
mensions. Cela revient à faire une restriction sur les dimensions et non plus par
rapport à un critère sur la mesure. Comme illustré sur la figure 2.9, l’opération
du dice est appliqué sur la dimension "année" avec (2001, 2002), la dimension
"région" avec (est, ouest) et la dimension "pièces" avec (boulon, joint).
Projection. L’opération de projection consiste (en algèbre relationelle) à res-
treindre l’ensemble des attributs d’une relation. L’extension de cette opération au
modèle multidimensionnel porte soit sur les dimensions, soit sur les niveaux de gra-
nularité.
– La projection sur les dimensions. Quand on projette un cube de n dimensions
CHAPITRE 2 — Les systèmes d’information décisionnels 33
Généralisation
Spécialisation
Les opérations de restructuration sont alors considérées comme des opérations qui
changent seulement la structure d’un cube sans toucher à son contenu. Les principales
opérations de restructuration existant dans les systèmes OLAP, sont présentées ci-
après.
Rotation. La rotation (ou l’opérateur rotate) est une opération de restructura-
tion élémentaire qui consiste à faire effectuer à un cube une rotation ou un pivot
autour d’un des trois axes passant par le centre de deux faces opposées, de manière
à présenter un ensemble de données d’une face différente du cube. On note qu’un
cube de dimension n a n(n − 1) vues. Pour afficher le cube sous un autre angle on
le fait pivoter autour d’un de ses axes. Marcel [68] spécifie l’opération de rotation
en opération typiquement tridimensionnelle qui n’a pas d’incidence sur le nombre de
dimensions de la représentation adoptée pour le cube, et qui s’attache à rendre l’as-
pect tridimensionnel d’un cube dans un plan. Seules trois faces étant représentées,
l’opération rotate s’apparente à une opération de sélection qui ne serait pas guidée
par un choix de membres, mais par un choix de faces.
Enfoncement. Cette opération appelée aussi push, consiste à combiner les posi-
tions ou valeurs d’un paramètre d’une dimension aux mesures du fait et donc de
transformer un paramètre en mesure. L’opération inverse de retrait ou pull permet
de transformer une mesure en paramètre en changeant le statut de certaines mesures
de l’hypercube pour constituer une nouvelle dimension. On constate que ces deux
dernières opérations permettent de traiter de façon similaire mesures et membres.
Factualisation. Cette opération appelée aussi fold traduit en français dans [95]
par la factualisation consiste à transformer une dimension en mesure(s). Elle permet
de transformer en mesure l’ensemble des paramètres d’une dimension. L’opération
inverse de paramétrisation (traduction de unfold ) permet de transformer une mesure
en paramètre dans une nouvelle dimension.
2.5 Conclusion
Les différentes opérations présentées précédemment sont considérées comme les
opérations élémentaires pour l’analyse en ligne des données. La majorité des pro-
duits implémentant les fonctionnalités OLAP couvrent ces opérations. Ces produits
doivent offrir à l’utilisateur des outils de manipulation intuitifs comme le souligne E.
F. Codd dans les douze règles présentées en section 2.2.3 de ce chapitre.
D’un autre côté, [16] met l’accent sur la nécessité de définir plusieurs langages de
manipulation de données à différents niveaux d’abstraction. Ces langages doivent of-
frir à l’utilisateur, qui désire effectuer des traitements complexes, la possibilité d’avoir
un langage formel de haut niveau. Dans le travail de synthèse de P. Marcel [67], l’au-
teur fait une étude approfondie sur les langages formels de manipulation des données
multidimensionnelles proposés dans la littérature [2, 16, 34, 63, 78].
Le chapitre suivant vise à dresser un état de l’art des méthodes et approches qui
s’intéressent à résumer les données volumineuses dans le même principe que celui des
systèmes d’information décisionnels. Ceci dans le but de présenter aux décideurs et
aux analystes, des données sous une forme réduite mais riche en connaissances.
C HAPITRE 3
La compression
sémantique des données
Au lieu de répondre très bien, je réponds très, et le bien qui
me reste, je vais le porter à ma banque.
— Raymond Devos, 1992.
37
38 CHAPITRE 3 — La compression sémantique des données
Compression sémantique
Les méthodes statistiques font partie des processus d’analyse de données qui
visent à générer des résumés à partir d’une grande masse de données. Ces ap-
proches s’appuient sur l’extraction des informations qui sont jugées intéressantes
parce qu’elles sont souvent représentées par un grand nombre de données. Nous pré-
sentons ici les trois types de méthodes statistiques utilisées dans l’analyse de données :
– Les méthodes verticales basées sur la réduction du nombre d’instances.
– Les méthodes horizontales basées sur la réduction du nombre d’attributs.
– Les méthodes du calculs d’agrégats.
Le résumé des instances d’une base de données, du point de vue statistique, décrit
les aspects quantitatifs des données comme le nombre de n-uplets, la distribution des
valeurs ou encore les corrélations existantes entre ces valeurs. Cette approche utilise
des techniques statistiques en calculant des indicateurs tel que la moyenne, l’écart
type, la variance ou la médiane. Le but est de pouvoir caractériser la distribution
des observations autour d’un indicateur comme la moyenne par exemple. Parfois la
moyenne n’est pas suffisante pour calculer la dispersion des valeurs, dans ce cas le
calcul de la variance peut répondre à cette exigence. Les différentes observations
réalisées à partir d’un ensemble de données, permettent de construire un modèle
à partir d’un ensemble restreint de ces observations. Le modèle construit devrait
affirmer avec suffisamment de confiance que son application aura un effet déterminé
sur n’importe quel individu de la population. Un tel modèle peut être réalisé à partir
d’un échantillon, une technique statistique très utilisée dans l’analyse des données.
40 CHAPITRE 3 — La compression sémantique des données
Echantillonnage
Généralement, pour étudier les caractéristiques d’une population on peut choisir
entre deux approches. La première est d’étudier chaque unité de la population. Ce
processus est appelé en statistique l’énumération complète. La deuxième est d’étudier
les caractéristiques de la population en examinant une partie de cette population,
cette méthode est appelée échantillonnage. Théoriquement la première approche est
plus efficace mais dans le cas des masses de données, son application devient très
difficile.
L’échantillonnage est une technique statistique qui sélectionne une partie d’une
grande population afin de pouvoir étudier cette population et mieux connaître ses
propriétés. Cette technique peut être utilisée pour résoudre des problèmes causés
parfois par la haute dimensionnalité de l’espace de représentation des données. Elle
est très utilisée dans le domaine de la fouille de données quand il s’agit de très larges
volumes d’informations. La principale difficulté de l’échantillonnage réside dans la
façon de créer un échantillon à partir d’un grand volume de données, qui soit re-
présentatif et qui puisse s’y substituer lors de futurs traitements. Il existe plusieurs
méthodes d’échantillonnage comme la méthode aléatoire simple, aléatoire stratifiée
ou en grappes. Ces méthodes peuvent être de type probabiliste ou non probabiliste.
Un échantillonnage est dit probabiliste quand sa procédure de sélection se base sur
la théorie des probabilités. On cite pour ce cas l’échantillonnage aléatoire simple
ou stratifié. En revanche, quand l’échantillonnage est fait sans utiliser la théorie des
probabilités on dit qu’il est non probabiliste. Ceci signifie que les éléments de l’échan-
tillon ne dépendent d’aucun résultat de probalilité dans leur procédure de sélection.
Le choix de la méthode à utiliser est une phase très importante dans un proces-
sus d’échantillonnage. Ce choix dépend de plusieurs éléments comme la définition
de la population à étudier ou la détermination de la taille de l’échantillon. Nous
donnons ici l’exemple d’une méthode d’échantillonnage appelée méthode des quotas
pour montrer comment un échantillon peut être construit. Nous choisissons cette
méthode parce qu’elle définit les échantillons sous forme de classes que nous pouvons
considérer comme une vue réduite d’un ensemble de données.
Echantillonnage par quotas. Cette méthode consiste à classer préalablement les
individus en n classes C1 , . . . , Cn . La représentativité de chaque classe par rapport
à la population complète est liée alors au cardinal de chaque classe. La difficulté
est dans le choix des classes car, constituées selon des critères non indépendants de
variable aléatoire 1 , elles peuvent générer une sur (sous)-représentativité de certaines
des valeurs de cette dernière. Cette méthode est employée principalement sur une
1
une variable aléatoire est une fonction définie sur l’ensemble des résultats possibles d’une expé-
rience aléatoire, telle qu’il soit possible de déterminer la probabilité pour qu’elle prenne une valeur
donnée ou qu’elle prenne une valeur dans un intervalle donné.
CHAPITRE 3 — La compression sémantique des données 41
qualitatives. La validité de cette méthode s’étend à tous les tableaux qui satisfont
deux conditions. La première impose que les données du tableau sont toutes positives,
et la seconde que toutes les grandeurs du tableau soient de même nature. L’objectif
de réaliser une AFC est de rechercher les corrélations entre deux attributs nominaux,
cela revient à appliquer une ACP avec une symétrie totale sur deux nuages de points
projetés.
L’analyse discriminante. L’objectif de cette méthode est de mettre en évidence
une relation entre un attribut nominal et plusieurs attributs numériques, dans le
cadre de l’explication d’une répartition en classes connues. Une classe contient un
groupe d’individus qui sont décrits sur un ensemble d’attributs et sont identifiés
comme appartenant à cette classe particulière. Cette méthode permet de déterminer
les meilleurs axes pour l’explication de ces classes en recherchant les combinaisons
linéaires des axes de départ qui fournissent la meilleure séparation entre deux classes.
Les méthodes factorielles tiennent une place primordiale dans les méthodes d’ana-
lyse de données. Elles ont largement démontré leur efficacité dans l’étude des grandes
masses d’information. Leur force vient du fait qu’elle permettent la confrontation de
nombreuses informations ce qui est plus riche en renseignements qu’un examen sé-
paré. Ainsi elles peuvent être utilisées pour la description d’une population afin de
mieux l’analyser. Les méthodes ACP et AFC peuvent être utilisées dans le cas où
des données sont décrites par un ensemble de variables qui ont toutes la même im-
portance et jouent le même rôle. L’analyse discriminante peut être utilisée quand il
s’agit d’expliquer des phénomènes au sein des données en fonction d’autres, ce qui
permet de prévoir parfois des résultats autrement imprévisibles.
calcul d’agrégats dans les BDS a permis la création des tables résumées décrivant la
distribution multivariée des données [29].
OLAP
Le contexte OLAP, détaillé dans le chapitre précédent, a repris de nombreux
concepts des bases de données statistiques. Les relations du contexte OLAP avec les
bases de données statistiques ont été étudiées, notamment par [94], mettant en évi-
dence les similarités de ces deux modèles. Les concepts communs à ces deux approches
sont la multidimensionnalité, les hiérarchies et les attributs de résumés (appelés me-
sures dans le modèle OLAP). Dans les deux contextes, on trouve des données de base
(également appelé niveau micro), des données de niveau agrégé (également appelé
niveau macro), et des méta-données (hiérarchies par exemple). Les données sont dis-
tinguées selon qu’elles sont des mesures ou des variables. Si les bases statistiques ne
présentent souvent à l’utilisateur que les données de niveau macro, les outils OLAP
tendent à travailler à partir des données de niveau micro.
Quotient cube
Des travaux [52, 53, 54] ont été menés pour proposer des constructions de résumés
de datacubes qui soient plus facilement visualisables tout en gardant les propriétés
sémantiques du treillis du cube 2 permettant justement de voir les tendances cachées
dans le cube de données. Une approche proposée consiste à regrouper en classes les
sommets du treillis en fonction des valeurs qui leur sont associées : deux sommets
font partie d’une classe s’ils ont la même valeur. Cette approche est appelée Quotient
Cube, elle a été introduite par V. S. Lakshmanan et al. dans [52] et implémentée dans
le système SOCQUET [53, 54]. L’objectif de l’approche est de permettre à l’utilisateur
une navigation similaire à celle qui serait possible au sein d’un cube classique, mais en
se déplaçant à un niveau d’abstraction supérieur qui regroupe les cellules en régions
homogènes.
Les méthodes basées sur des approches statistiques précédemment présentées ont
une grande capacité à fournir des résumés de données à un utilisateur en lui propo-
sant des outils de représentation graphique et d’analyse. Toutefois, la faiblesse de ces
méthodes se situe dans leur incapacité à offrir à un décideur la possibilité de découvrir
des connaissances exceptionnelles souvent ne concernant pas la majorité des indivi-
dus. En effet, ces méthodes synthétisent de manière très concise un ensemble très
important de données, en négligeant les connaissances relatives à des sous-ensembles
particuliers des données à résumer. Certes les systèmes OLAP sont dotés d’outils de
fouille de données mais ils restent toujours limités par l’effet de seuil et l’orientation
sujet qui est définie en amont d’une étape de découverte de connaissance. Nous al-
lons présenter dans la section suivante les méthodes de compression sémantique de
données basées sur les modèles de fouilles de données ou sur les méta-données.
2
Le quotient cube considère un cube de données par sa présentation sous forme d’un treillis de
Galois.
44 CHAPITRE 3 — La compression sémantique des données
Dans les méthodes basées sur les modèles de fouilles de données, nous étudions ici
les différentes approches de classification utilisées pour la compression sémantique.
La classification des données sert à mettre en évidence des relations entre objets,
ou individus, et entre objets et paramètres d’objets. Le processus de classification
permet de construire une partition de l’ensemble des objets en classes relativement
homogènes. Telle qu’elle est définie, la classification constitue un outil efficace pour la
compression sémantique de données. Il nous paraît essentiel, pour réduire les données
et construire des résumés basés sur des algorithmes de classification, de présenter les
principales méthodes de classification supervisée et non supervisée, qui sont utilisés
dans le cadre de la compression sémantique.
Classification supervisée
Méthode des réseaux bayésiens. Les réseaux bayésiens sont nommés ainsi d’après
le théorème de Bayes. Cette méthode suppose l’indépendance des variables. L’idée
est d’utiliser des conditions de probabilité observées dans les données. On calcule la
probabilité de chaque classe parmi les exemples. Un classifieur basé sur le théorème
de Bayes consiste à construire un tableau qui détermine la probabilité d’apparte-
nance à une classe d’une donnée sur la base de combinaison des probabilités sur
chaque attribut.
P (A ∩ B)
P (A/B) =
P (B)
Definition 3.2 (Réseau bayésien). Une structure B = (G, θ) est un réseau bayésien
si G = (X, E) est un graphe acyclique dirigé dont les sommets représentent un en-
semble de variables aléatoires X = {X1 , X2 , . . . .., Xn } et si θi = P (Xi |XP a(Xi) ) est
la matrice des probabilités conditionnelles du nœud i connaissant l’état de ses parents
Pa (Xi) dans G.
SPARTAN. Les réseaux bayésiens ont été utilisés dans le cadre de la compression
sémantique de tables dans le système SPARTAN [6]. Dans ce système, un ensemble
d’attributs dits prédictifs est utilisé conjointement avec un modèle reposant sur un
réseau bayésien pour prédire les autres attributs. Il s’agit donc d’une compression
horizontale puisque l’objectif est de réduire le nombre d’attributs mémorisés. La
méthode de compression de SPARTAN exploite la sémantique des attributs afin de
réduire le volume des tables. L’avantage de ce système consiste en son exploitation
des corrélations prédictives entre les attributs d’une table et d’une tolérance à l’erreur
qui est spécifiée par l’utilisateur. SPARTAN identifie des dépendances dans les don-
nées en construisant un réseau bayésien pour les attributs en question. Ces derniers
participent à la construction d’un arbre appelé Cart : Classification and Regression
Tree, qui résume la totalité des colonnes de la table.
Méthode des centres mobiles. Les algorithmes de classification par les centres
mobiles, permettent de créer des classes regroupées autour d’un noyau. Un ensemble
de données Ω sera classé en k classes : C1 , . . . Ck . L’algorithme le plus connu dans
cette catégorie est le k-Means [25, 65] et sa version améliorée appelée méthode des
nuées dynamiques [24]. Cette méthode cherche à mettre à jour une partition en k
classes (k donné) par divisions successives de l’ensemble de données initial. Chaque
46 CHAPITRE 3 — La compression sémantique des données
classe est représentée par un noyau qui peut être un point (individu), un ensemble
de points ou un espace. La partition optimale n’est atteinte qu’exceptionnellement
du fait du choix arbitraire des k noyaux initiaux.
ItCompress : Dans le cadre de la compression sémantique de base de données, une
variante de la méthode des centres mobiles a été utilisée par l’algorithme ItCompress
dans [45]. La figure 3.2 donne une présentation d’une table selon l’exemple extrait
de [45].
T est la table d’origine (voir figure 3.2(a)), elle est représentée par la table T c
(figure 3.2(b)) au moyen de:
1. ERId : C’est l’identifiant d’un enregistrement de référence, il représente un
enregistrement existant considéré comme typique de l’enregistrement à décrire.
2. Valeurs booléennes : C’est une liste de valeurs qui permet de savoir pour chaque
attribut si la valeur de l’enregistrement de référence est satisfaite ou non. Une
valeur dite proche est acceptable grâce à un niveau de tolérance qui doit être
fixé.
CHAPITRE 3 — La compression sémantique des données 47
Definition 3.4 (Confiance d’une règle d’association). La confiance conf d’une règle
d’association r : X → Y est le rapport entre |XY | (le nombre des n-uplets qui
vérifient à la fois X et Y ) et |X| (le nombre des n-uplets qui vérifient seulement X).
La confiance est notée :
|XY |
conf (r) =
|X|
La découverte des règles d’association dans les données revient à déterminer les
ensembles fréquents dans des matrices de co-occurrence. Le problème est combina-
toire lorsqu’il s’agit de tester les multiples conjonctions d’attributs booléens, et de
nombreuses optimisations sont envisagées. La méthode de l’élagage par support mini-
mum est la plus courante, elle ne considère que les règles dont le support a atteint un
seuil fixé. L’objectif principal pour l’extraction de règles d’association est de donner
une information synthétique sur une partie de la base de données; ce qui n’empêche
pas l’existence de règles dites triviales ou inutiles. Les premières ne donnent aucune
information et les secondes sont trés difficiles à interpréter. Agrawal et al. [5] ont
proposé APRIORI, un algorithme considéré comme une référence dans ce domaine.
Il a été conçu dans un contexte d’extraction de connaissances pour des applications
commerciales spécialement pour identifier les règles d’association du problème du
panier de la ménagère.
Fascicles. Les règles d’association ont aussi été utilisées dans le cadre de la com-
pression sémantique d’une table. Ce sont H. V. Jagadish et al. qui proposent dans [44]
l’utilisation d’une forme étendue des règles d’association pour la compression d’une
table. Ils utilisent pour cela la notion de fascicles, qui correspond à un sous-ensemble
des enregistrements de la table dont une partie au moins des attributs ont des valeurs
voisines au sens d’une certaine tolérance définie pour chaque attribut. La compres-
sion avec perte de la table est alors réalisée en remplaçant un fascicle par un unique
enregistrement qui réalise le compromis des valeurs observées chez les enregistre-
ments qui composent ce fascicle. Le problème rejoint, par de nombreux aspects, celui
traité par les algorithmes de R. Agrawal et al. [3, 5] pour la recherche d’ensembles
fréquents. L’extension se situe au niveau de la souplesse autorisée dans le nombre
d’attributs voisins, ce qui accroît très fortement l’espace de recherche.
La classification floue
La théorie des sous-ensemble flous3 offre une meilleure explication et une préci-
sion plus grande, pour représenter l’appartenance des objets aux classes. En effet la
classification floue entre dans le cadre des méthodes de partitionnement [49], c’est-à-
dire qu’on doit préalablement fixer le nombre de classes. Cependant, contrairement à
la classification traditionnelle dite nette ou dure, la classification floue permet d’esti-
mer des degrés d’appartenance de chaque individu à une classe. Par conséquent, un
individu bien représenté aura un degré d’appartenance proche de l’unité à une classe
et proche de zéro pour les autres classes, alors qu’un individu mal représenté aura
3
une annexe est consacrée à rappeler les éléments de base de cette théorie.
CHAPITRE 3 — La compression sémantique des données 49
plutôt des degrés d’appartenance uniformément faibles sur toutes les classes. Ce type
de méthodes permet d’affiner l’interprétation des résultats quant à la contribution
de chaque individu pour la construction d’une classe. Cette représentation d’appar-
tenance des objets aux classes est plus conforme à ce qu’on attend d’un processus
robuste et intelligent de classification. E. H. Ruspini [89] est le premier à avoir in-
troduit le concept de sous-ensembles flous en classification suivi d’un bon nombre
de chercheurs proposant d’appliquer à la classification différentes méthodes issues de
la logique floue. Deux grandes familles de méthodes peuvent être distinguées, selon
la manière dont la logique floue est utilisée. La première correspond aux méthodes
issues directement de la logique classique. Ce sont en fait des versions fuzzifiées des
méthodes classiques, utilisant des sous-ensembles flous pour modéliser des classes
d’objets. On peut citer l’extension au flou de la méthode des centres mobiles pro-
posée par James.C. Bezdek dans [8] ainsi que l’algorithme des fuzzy c-means [4]. La
deuxième famille des méthodes repose sur les relations floues entre les valeurs d’un
vecteur d’attributs et la classe à laquelle appartient un prototype. Elles permettent de
représenter l’appartenance partielle des objets à plusieurs classes, ce qui est conforme
a ce que peut fournir un processus d’apprentissage automatique en résultat.
Nous avons abordé dans cette section les méthodes basées sur les modèles pour la
compression sémantique. Nous avons présenté ceux qui s’appuient sur des modèles de
fouilles de données dont la classification supervisée, non supervisée et la classification
floue. Dans la section suivante nous nous intéressons aux modèles basés sur les méta-
données.
concepts les plus spécifiques, correspondant aux valeurs d’attribut dans la base de
données, aux concepts les plus généraux. Cette hiérarchie permet la réécriture des
données d’une relation en utilisant le premier niveau de généralisation. Ce processus
peut être répété jusqu’à l’obtention d’une nouvelle relation dont la taille ne dépasse
pas un seuil qui a été fixé en amont. Différents types de connaissances peuvent être
découverts efficacement en utilisant l’induction par attribut, y compris des règles
caractéristiques, des règles discriminantes ou des règles quantitatives. Le processus
d’induction par attribut a fait par la suite l’objet d’une implémentation appelée
DBLEARN [37] et puis DBMINER [38] que nous présentons ci-après.
DBLEARN : dans [37], J. Han et Y. Fu proposent l’utilisation de DBLEARN pour
l’amélioration des connaissances de domaines par l’adaptation dynamique du proces-
sus dans le choix des niveaux de généralisation utilisés. L’idée générale est d’éviter
de sur-généraliser les valeurs des attributs qui couvrent de nombreuses instances, et
au contraire, de généraliser davantage les valeurs pour lesquelles peu d’instances ont
été trouvées. Cette procédure permet d’homogénéiser la cardinalité de chaque valeur
d’attribut généralisée.
DBMINER : les développements ultérieurs de DBLEARN mènent à un nouveau
système nommé DBMINER [38], avec les dispositifs suivants :
– de nouveaux genres d’extraction de règles à partir de grandes bases de données,
y compris des règles d’association de multiple-niveau, des règles de classifica-
tion, des règles de description;
– la génération et amélioration automatique des hiérarchies de concept;
– l’utilisation d’un niveau élevé du langage d’interrogation SQL avec des inter-
faces d’extraction de données graphiques;
– des améliorations dans l’architecture client/serveur et l’exécution pour de grandes
applications.
Ces deux systèmes d’extraction de données, ont été développés pour l’exploitation
interactive de la connaissance de multiple niveaux dans les grands volumes de bases
de données relationnelles. Leur objectif est de découvrir des règles caractéristiques ou
discriminantes dans des processus d’apprentissage supervisé. Les éléments fondamen-
taux de ces systèmes sont un ensemble étendu de fonctions d’extraction de données,
incluant généralisation, caractérisation, association, classification, et prévision.
Résumés linguistiques
Comme leur nom l’indique les résumés linguistiques se basent sur l’exploitation
des variables linguistiques introduites par L. Zadeh [105]. Les résumés linguistiques
ont l’avantage d’être formulés dans un langage très proche de celui de l’utilisateur.
Ils permettent aussi de proposer des descriptions intelligibles à des niveaux élevés de
granularité. Nous classons ces résumés selon trois catégories : les résumés quantifiés,
ainsi que leur extension dans les résumés par calcul de cardinalité floue et les résumés
à base de règles floues, nous détaillons ci-dessous ces trois catégories.
CHAPITRE 3 — La compression sémantique des données 51
summary la plupart
from employés
where revenu est élevé.
FQUERY. Les auteurs de [46, 107], s’appuient sur le module FQUERY pour propo-
ser une méthode de validation interactive des résumés linguistiques quantifiés. Basé
sur des éléments issus de la théorie des sous-ensembles flous comme les concepts
vagues, les relations floues ou les modificateurs flous, FQUERY étend les capacités
d’un SGBD aux requêtes flexibles. Il offre une interface conviviale sur le modèle des
requêtes par l’exemple, permettant à l’utilisateur de sélectionner, pour une requête,
le quantificateur flou et les étiquettes linguistiques mis en jeu dans l’énoncé. Il exhibe
52 CHAPITRE 3 — La compression sémantique des données
aussi d’autres résumés pertinents pouvant être obtenus à partir des attributs mis en
jeu dans la requête. Ceci permet à l’utilisateur d’avoir tous les énoncés intéressants
construits sur les attributs qu’il a sélectionné.
payés. D’une manière différente des résumés linguistiques, les dépendances fonction-
nelles floues ont été exploitées par [20] pour proposer une méthode de réduction du
nombre de n-uplets d’une relation R. Cette méthode est basée sur la définition d’opé-
rateurs algébriques étendus qui conservent les propriétés des opérateurs de l’algèbre
relationnelle.
Dans les sections précédentes, nous avons fait un tour d’horizon des travaux de
recherche qui traitent du sujet de la compression de données. Parmi ces approches
nous avons présenté les méthodes statistiques ainsi que les approches basées sur les
modèles dont les résumés linguistiques.
Les approches statistiques sont dotées d’outils très puissants pour analyser et
pouvoir déduire des conclusions sur un grand nombre de données. Les notions de
probabilité et des statistiques ont l’avantage d’être intuitivement compréhensibles
pour un grand nombre d’utilisateurs. Ces approches résument les données d’une
façon très concise, ce qui limite de telles approches dans un processus de compression
sémantique pour un but de découvrir des connaissances. Spécialement les méthodes
de calculs d’agrégats et les moteurs OLAP, montrent bien cette limite. La fixation
des intervalles au préalable permet de résumer une partie des données sélectionnées
dans la base.
D’un autre côté, les algorithmes basés sur les modèles ou sur les méta-données
s’inscrivent dans une approche de fouille de données tout en permettant la réduction
des données volumineuses. Les méthodes d’apprentissage présentées dans ce chapitre,
cherchent à fournir une représentation en intention d’un ensemble d’objets. Les no-
tions de fascicles et de ItCompress, ont comme but de réduire l’espace de stockage
des données, en ayant la contrainte de respecter leur sémantique. Les méthodes par
induction et des résumés linguistiques, prennent en compte des connaissances de
domaines, ainsi que des variables linguistiques très proche du langage humain.
Le but général de ces différentes approches présentées jusqu’ici est de synthétiser
et de décrire globalement les données. Nous consacrons la section suivante à présenter
un système de compression sémantique de données basé sur la génération de résumés
linguistiques et s’appuyant sur la théorie des sous-ensembles flous. Ce système est
appelé SaintEtiQ.
3.3 SaintEtiQ
Nous présentons dans cette section une vue d’ensemble du système de génération
de résumés SaintEtiQ proposé par G. Raschia dans [83]. Ce système a pour but
de construire, à partir d’une relation définie sur une base de données, une hiérarchie
de résumés représentant cette relation. Il utilise de nombreuses notions issues de la
théorie des sous-ensembles flous, qui permet notamment de représenter des informa-
tions imprécises et incertaines. Seuls les points que nous estimons intéressants pour
la suite de ce document sont détaillés dans cette section. Pour plus d’information le
54 CHAPITRE 3 — La compression sémantique des données
lecteur est invité à consulter les travaux décrits dans [83, 84]. Les élements essentiels
à la compréhension des principes de la théorie des sous-ensembles flous sont fournis
en annexe de ce document.
SaintEtiQ offre un algorithme de génération de résumés à partir d’une base de
données relationnelle qu’on notera R. Chaque élément de cette base est considéré
comme un enregistrement ou un n-uplet. On notera A = hA1 , A2 . . . , An i de cardina-
lité n l’ensemble des attributs de la relation R, tels l’âge, le revenu, ou bien le pays.
Un n-uplet t est donc noté :t = ht.A1 , t.A2 , . . . , t.An i , où chaque valeur d’attribut
t.A avec A ∈ A, est un élément de DA , où DA est le domaine d’un attribut A. Les
conventions d’écriture sont détaillées en annexe (notations) de ce document.
Variable linguistique. Les variables linguistiques introduites par Zadeh en 1975 [105],
permettent la description d’une variable en fonction d’un ensemble de caractérisa-
tions floues. Formellement, une variable linguistique est définie de la manière sui-
vante :
Definition 3.5 (Variable linguistique). Une variable linguistique est représentée par
un triplet (V, Ω, Lv ) où V est une variable (par exemple le revenu, l’âge, . . . ) définie
sur un ensemble de référence Ω(R, N, . . .) et dont la valeur peut être n’importe quel
élément de Ω. On note Lv = {X, Y, . . .} un ensemble, fini ou non, de sous-ensembles
flous de Ω, restrictions de valeurs de V dans Ω, qui sont utilisés pour caractériser
V . Un élément de Lv est aussi appelé étiquette linguistique.
Notons que dans le système SaintEtiQ, les étiquettes linguistiques doivent cou-
vrir l’ensemble du domaine Ω, ce qui correspond à une propriété des partitions floues.
CHAPITRE 3 — La compression sémantique des données 55
La figure 3.3 décrit l’attribut REVENU avec les termes misérable, modeste, confortable
....
!
$
#
% &
"
'
& $ ( ( (
! & * ) ( ( (
( ( (
#
valeur de l’attribut A est donc donnée par un ensemble flou dont les membres sont
+
les étiquettes linguistiques L de DA affectées chacune de son degré d’appartenance.
Exemple 3.2 (Réécriture). Soit l’enregistrement présenté ci-dessous, extrait
d’une table relationnele de [83]:
4. éclater : connaissant un résumé zi , son père z0 et l’ensemble de ses fils zi1 , . . . , zin ,
cet opérateur fait disparaître zi pour faire remonter ses fils dans la hiérarchie,
en les rattachant au résumé z0 . Ce procédé est illustré sur la figure 3.6.
! " # $%&
22 20 23
3.4 Conclusion
Nous avons présenté dans ce chapitre les propositions qui existent en matière
de résumé de données, ou plus largement de compression sémantique des informa-
tions contenues dans de larges volumes de données. Ce tour d’horizon nous a permis
de positionner le système SaintEtiQ dans l’ensemble de ces propositions. Dans la
deuxième partie de ce document, nous nous intéressons de près à SaintEtiQ comme
une approche générant des résumés flous auxquels nous apporterons notre contribu-
tion.
Conclusion
Cette partie nous a permis de présenter deux domaines de recherche auxquels
nous nous sommes intéressés dans cette thèse. L’objectif commun de ces domaines
est de proposer à l’utilisateur une représentation complète des données, à un niveau
d’abstraction supérieur, en réduisant leur volume. Cet objectif est motivé par le
besoin des décideurs qui utilisent la présentation produite pour analyser un sujet
précis à l’aide d’outils dédiés.
Dans un premier temps, nous nous sommes focalisés sur les systèmes d’informa-
tion décisionnels et sur les avantages que propose l’analyse en ligne des données. Nous
avons pu réaliser que la mise en place de tels systèmes s’avère efficace pour gérer une
masse de données de plus en plus conséquente, et le stockage des données dans un
entrepôt constitue un support effectif pour l’analyse des données. Cette analyse se
fait par des systèmes OLAP dont la vocation est de fournir à l’utilisateur un outil
visuel pour explorer et naviguer dans les données d’un cube afin d’y découvrir rapi-
dement des connaissances. Une synthèse des opérateurs algébriques de manipulation
des données dans les systèmes décisionnels a été présentée.
Dans un deuxième temps, le second chapitre a été l’occasion de présenter les dif-
férentes approches qui traitent de la problématique de la compression sémantique.
Parmi ces approches, nous allons plus particulièrement concentré notre étude sur le
système SaintEtiQ. Celui-ci consiste à construire une collection de résumés orga-
nisés hiérarchiquement du plus général aux plus spécifiques. Chaque résumé fournit
une représentation concise d’un ensemble des n-uplets de la base de données résumée,
par le biais d’un sous-ensemble flou de descripteurs sur chaque attribut. L’enjeu du
résumé est la synthèse de l’information se trouvant au sein des faits individuels pour
en fournir une représentation concise.
La synthèse de ces deux chapitres nous permet de faire ici un rapprochement entre
un système décisionnel et SaintEtiQ. Nous pensons que ces deux approches tentent
de résoudre une double problématique commune : d’une part elles permettent de
réduire le volume d’une masse de données et d’autre part, elles offrent à l’utilisateur
un outil tangible d’aide à la décision.
59
60 Conclusion
dans les systèmes OLAP par le calcul d’agrégats. Les deux approches mettent en
avant leur aptitude à traiter d’importants volumes de données. Le deuxième point
commun que nous avons identifié est celui du traitement réservé aux données prises
en compte par chacune des deux approches. En effet, les données sont préalablement
nettoyées grâce aux ETL dans les systèmes décisionnels et grâce à la réécriture dans
SaintEtiQ. Les connaissances de domaine utilisée dans la phase de réécriture four-
nissent sur les attributs considérés par SaintEtiQ une grille de lecture des données à
l’aide des descripteurs linguistiques, il en va de même pour les modalités retenues sur
chaque dimension d’un cube. Par analogie, un attribut correspond donc à la notion
de dimension dans un cube de données.
Notre idée première vis-à-vis des systèmes décisionnels est de trouver les points de
convergence entre les systèmes OLAP, qui fournissent une vue résumée des données
sous forme de cubes, et les résumés construits par SaintEtiQ. Afin de compléter
cette comparaison, nous souhaitons attirer l’attention du lecteur sur les points sui-
vants :
– Les cellules d’un cube de données contiennent des valeurs agrégées pré-calculées
selon plusieurs dimensions. Cependant, ces cellules sont définies selon des in-
tervalles fixes de valeurs. Parallèlement, les résumés utilisent des concepts flous
avec différents degrés de satisfaction.
– Une mesure utilisée dans un cube de données est définie comme une fonc-
tion statistique et fournit une information quantitative sur les données. Cette
information est considérée comme une réponse effective à une requête don-
née, mais elle est incapable de fournir une réponse descriptive. Les résumés de
SaintEtiQ fournissent une information qualitative en proposant une descrip-
tion en intention et singulièrement des degrés de satisfaction à des prédicats
de requêtes.
– L’un des challenges de la construction des cubes de données est d’éviter la gé-
nération de cellules vides. Ce problème devient sérieux quand il s’agit d’espace
à grande dimension qui, en fonction de la distribution des données, donne lieu
à des espaces creux. Ce problème est inexistant dans le processus de génération
de résumés, dans la mesure où chaque résumé est crée en observant les données.
– Les données qui sont agrégées et souvent stockées dans des vues matérialisées
d’un entrepôt de données concernent un sujet prédéfini à analyser. Cette pré-
détermination affecte le choix des dimensions et des mesures pour la construc-
tion du cube. Cette orientation du sujet peut limiter les analyses du décideur
et l’influencer dans ses conclusions. Du côté de SaintEtiQ, la description mul-
tidimensionnelle que fournissent les résumés offre une grande flexibilité dans
l’interprétation et l’analyse. Le processus SaintEtiQ construit les résumés
sans aucune hypothèse quant à l’utilisation qui sera faite de la structure pro-
duite. L’ubiquité de la vision synthétique que proposent les résumés est donc
à opposer à la pré-détermination que sous-tend la mise en place des outils de
type OLAP.
Les résumés des données agrégées dans les systèmes OLAP sont plus souvent
des données issues d’indicateurs statistiques ou d’agrégats comme les sommes, les
Conclusion 61
compteurs ou les ratios. Ils sont calculés selon plusieurs axes et à différents niveaux
de granularité. L’avantage majeur des systèmes OLAP réside dans la structure de
stockage sur laquelle ils s’appuient leur permettant de pré-calculer les valeurs d’agré-
gats. Le second grand avantage des moteurs OLAP est l’ensemble des algorithmes
qu’ils proposent pour la mise à jour, autant que possible incrémentale, des cellules
d’un cube de données. Ceci permet de conserver un grand degré de fraîcheur des
données.
Les avantages que les systèmes OLAP proposent sont conformes avec les objectifs
des résumés, issus de SaintEtiQ. Ces avantages concernent l’interprétation, l’intelli-
gibilité, la présentation à différents niveaux d’abstraction et la vision synthétique des
données. En effet, l’un des points forts de SaintEtiQ est de présenter les données
sous une forme intelligible, dans un vocabulaire proche du langage de l’utilisateur.
Le résumé peut être considéré comme un outil d’analyse directement utilisable en
ce qu’il fournit une représentation synthétique des données qui peut apporter une
connaissance non triviale sur les données.
La maintenance incrémentale des résumés s’impose pour garantir un bon niveau
de fraîcheur. La prise en compte incrémentale des opérations d’insertion, modifica-
tion et suppression des n-uplets de la base de données résumée permet d’assurer un
maintien permanent de la cohérance de la hiérarchie de résumés. La relation d’ordre
définie sur les résumés possède une équivalence en terme d’union sur les ensembles
d’individus. En ce sens, chaque résumé parent réalise un groupement d’individus
sur des critères qui ne sont pas fixés mais au contraire évalués dynamiquement en
fonction de la distribution. En s’appuyant sur la théorie des sous-ensembles flous,
les descripteurs utilisés par SaintEtiQ introduisent en outre une souplesse dans la
définition des frontières des intervalles limitant ainsi l’effet de seuil.
Le maintien en ligne de la consistance du résumé vis-à-vis de la base de données,
positionne SaintEtiQ dans la lignée des systèmes OLAP. En comparant aux tech-
niques d’analyse en ligne ou OLAP, et étant donné le volume de données produites
par SaintEtiQ dans la hiérarchie, un besoin primordial pour SaintEtiQ serait d’en-
richir les modes d’exploration de la structure produite. La structure du cube peut
être comparée à une coupe de la hiérarchie des résumés. La définition d’une structure
qui peut être un support d’analyse en ligne, s’inscrit bien dans une volonté de créer
pour les résumés de SaintEtiQ un parallèle avec les méthodes d’analyse en ligne
que proposent les systèmes OLAP. Pour atteindre cet objectif il paraît essentiel de
mettre au point un modèle multidimensionnel de résumés et une algèbre pour les
manipuler qui serait le pendant de celle des cubes de données.
Suite à cette brève discussion, nous allons nous concentrer sur le principal avan-
tage des systèmes OLAP, c’est-à-dire l’analyse exploratoire des données. En effet, ces
systèmes mettent à la disposition des décideurs, une interface graphique qui permet
à l’utilisateur de naviguer et de manipuler les données. Cette phase d’analyse en
ligne des données, constitue la réponse au besoin que nous avons soulevé pour faire
évoluer le processus SaintEtiQ vers un système décisionnel, ce besoin réside dans
la partie concernant l’exploration des résumés produits par SaintEtiQ.
Pour répondre à ce besoin, notre proposition, qui constitue la contribution de
62 Conclusion
65
C HAPITRE 4
Un modèle
multidimensionnel pour
les résumés de données
Reconsidérer, chercher une justification pour une décision
déjà prise.
— Le Dictionnaire du Diable, 1911.
67
68 CHAPITRE 4 — Un modèle multidimensionnel pour les résumés de données
+
Iz = hz.A1 , . . . , z.Ak i . z.Ai ∈ F(DA i
), 1 ≤ i ≤ n,
+
où DA est l’ensemble des descripteurs définis sur l’attribut A.
Notons qu’il est toujours possible, à partir de cette définition de retrouver les
n-uplets de la relation R décrits par le résumé z. En effet, chaque n-uplet candidat
est associé à l’enregistrement de la base de données qui l’a générée. Il est également
possible d’exprimer Rz à partir de l’intention Iz comme l’ensemble de n-uplets tels
que leur réécriture par φ possède un descripteur commun avec l’intention du résumé :
Rz = {Apu [1] , Apu [2] , Burns [1] , Burns [2] , Homer [1]}
L’intention de z est décrite sur deux attributs CSP et REVENU. On obtient donc :
z = h{0.9/homme d’affaires + 0.8/cadre supérieur + 0.9/chef d’entreprise } , {1.0/raisonnable + 1.0/énorme}i
3
Background knowledge.
CHAPITRE 4 — Un modèle multidimensionnel pour les résumés de données 71
avec, ω(ct) = N1(t) où N (t) est le nombre de n-uplets candidats générés par t. Natu-
rellement, on a toujours card(z) ≤ |z| car ∀ct, ω(ct) ≤ 1.
Par exemple, si l’on reprend le tableau 4.1, on trouve ω(Apu[1]) = 1/2, ω(Homer[1]) =
1 et la cardinalité est card(Rz ) = 3. De même on peut définir une cardinalité relative
appliquée aux étiquettes linguistiques de l’intention du résumé, afin de pouvoir les
comparer entre elles : X
cardz.A (d) = ω(ct).
ct∈Rz |ct.A=d
z z 0 ⇔ Rz ⊆ Rz 0
z
spécialisation généralisation
z1 z2
z11 z12
Résumé le plus
général
Nous avons déjà évoqué la relation d’ordre partiel qui existe sur les résumés de
la hiérarchie générée par SaintEtiQ, dans la section 4.2 du chapitre 2.
Ainsi, à tout niveau de la hiérarchie, un nœud père doit généraliser chacun de ses
fils. Les n-uplets candidats de l’extension d’un résumé sont aussi représentés dans
l’extension de tous les résumés ancêtres de ce résumé, et ce jusqu’à la racine. Cette
relation d’ordre partiel se traduit au niveau des résumés d’une hiérarchie, comme il
est présenté dans l’exemple 4.5.
Exemple 4.5 (Relation d’ordre partiel sur les résumés). Soient les résumés
z, z 0 , z 00 , tel que z généralise z 0 et z 00 :
z 0 z et z 00 z
z0 z 00
– Relation d’ordre partiel sur l’intention : sur cet exemple, les trois résumés sont
décrits intentionnellement sur les deux attributs AGE et REVENU. On note que
l’intention du résumé z contient celle de z 0 et celle de z 00 .
Cette contrainte structurelle forte, est essentielle dans la définition d’un modèle
pour chaque coupe sur la hiérarchie dans les meilleures conditions.
Definition 4.6 (Hauteur du résumé). La hauteur d’un résumé notée haut(z) n’est
que la profondeur de la plus longue branche du sous-arbre du nœud z. Cette mesure
représente la hauteur dans l’arbre du résumé. Par exemple haut(z) = 0, z est une
feuille.
Cette mesure est définie afin de pouvoir localiser le niveau auquel appartient un
résumé, elle peut effectivement renseigner un utilisateur sur le degré de spécificité
d’un résumé suivant la profondeur à laquelle il se situe sur l’ensemble de la hiérarchie.
Les différentes caractéristiques de la hiérarchie sont souvent relatives aux carac-
téristiques des résumés mêmes, comme leurs cardinalités ou la relation qui existe
entre eux. En effet, la relation d’ordre partiel permet aussi d’identifier une struc-
ture arborescente sur les connaissances contenues dans les résumés. Quand à la forte
contrainte de faible orthogonalité, c’est une forte condition nécessaire au modèle qui
sera présenté dans ce chapitre, ainsi qu’à l’algèbre de manipulation des résumés.
z
0 C
z1 z2 z3 C’
z 11 z 12 z 13 z 21 z 22
C’’
z 121 z 122 z 221 z 222
Dans la suite du document, les deux termes coupe et partition de résumés, seront
utilisés pour désigner la même structure. Elle fournit à un niveau d’abstraction donné,
un ensemble de résumés muni des deux contraintes de complétude et d’orthogonalité
faible.
d’abstraction, de cette hiérarchie. Chaque vue est une coupe de la hiérarchie qui
couvre la totalité de la base R.
Exemple 4.8 (Les coupes d’une hiérarchie de résumés). Nous prenons dans
cet exemple la hiérarchie présentée dans la figure 4.6, afin d’en extraire toutes les
coupes possibles.
L’ensemble des coupes extraites, noté C(HR ), comprend la collections de partitions
80 CHAPITRE 4 — Un modèle multidimensionnel pour les résumés de données
z0
z1 z z3
2
z z z z z
11 12 13 21 22
z z z z
121 122 221 222
suivantes :
P0 = {z0 }
P1 = {z1 , z2 , z3 }
P2 = {z11 , z12 , z13 , z2 , z3 }
P3 = {z11 , z121 , z122 , z13 , z2 , z3 }
P4 = {z1 , z21 , z22 , z3 }
C(HR ):
P5 = {z1 , z21 , z221 , z222 , z3 }
P6 = {z11 , z12 , z13 , z21 , z22 , z3 }
P7 = {z11 , z12 , z13 , z21 , z221 , z222 , z3 }
P8 = {z11 , z121 , z122 , z13 , z21 , z22 , z3 }
P9 = {z11 , z121 , z122 , z13 , z21 , z221 , z222 , z3 }
Cet ensemble de coupes est constitué de dix partitions de résumés qui représentent
chacune la base de données R originale avec une précision variable.
L’ensemble des coupes d’une hiérarchie C(HR ) est constitué donc des partitions
de résumés qui forment une coupe couvrant la relation R. Ces partitions sont re-
présentées dans l’espace de partitions défini sur un ensemble d’attributs A. Nous
concluons donc que :
C(HR ) ⊆ P̄
Le modèle tel qu’il vient d’être défini, fournit à l’utilisateur des vues de granularité
variable, composées d’un ensemble de résumés. Ces vues ou partitions de résumés sont
extraites de la hiérarchie mais il n’existe a priori aucune organisation naturelle sur
l’espace de partitions qui nous permette d’évaluer systématiquement la granularité
relative d’une partition par rapport à une autre. Nous proposons dans la section
suivante, la formalisation d’un ordre total pour classer ces partitions de résumés.
de généralisation des résumés les uns par rapport aux autres. Il existe donc une
relation d’ordre partiel naturelle entre les partitions extraites de la hiérarchie.
Ainsi, l’ensemble des coupes dans C(HR ) est partiellement ordonné grâce à l’or-
ganisation hiérarchique des résumés eux mêmes. Par définition, une partition P i est
plus fine qu’une partition Pj si cette partition Pi détaille des parties de la partition
Pj en plus petites classes. Ceci est garantit dans notre cas par la relation d’ordre
partiel qui existe entre un résumé et ses résumés fils, les résumés fils étant représentés
par des partitions plus fines.
Exemple 4.9 (Relation de généralisation entre les partitions). Prenons
l’exemple de la hiérarchie de la figure 4.6. Dans l’espace de partitions de l’exemple 4.8,
nous remarquons que la partition P0 généralise trivialement toutes les autres parti-
tions. De plus, la partition P1 généralise la partition P2 , ainsi que la partition P4 .
Ces généralisations s’expriment par :
d’ordre partiel existante sur les résumés. Pour obtenir cette nouvelle relation, l’en-
semble des partitions est tout d’abord organisé selon l’ordre partiel naturel en un
Graphe Orienté Acyclique (GOA) constitué des différentes coupes de la hiérarchie.
La relation d’ordre partiel existant entre deux partitions est notée v :
P 0 v P alors P généralise P 0
∀(z, z 0 ) ∈ Z, z z 0 ⇔ Rz ⊂ Rz 0
Definition 4.10 (Graphe des partitions). Le graphe des partitions G est un triplet
G = (P̄ , E, v) où :
– P̄ est un ensemble fini non vide de partitions de résumés.
– E est un ensemble fini d’arrêtes.
– v est une fonction d’incidence qui à chaque arête e ∈ E associe un ordre
Pi v Pj qui signifie que Pj est plus générale que Pi .
Ce tri topologique a comme objectif de répondre aux besoins d’un utilisateur, qui
cherche en analysant les informations contenues dans les résumés à chaque niveau, à
connaître la granularité de la représentation propre à lui fournir un bon compromis
entre précision et généralisation.
d’énumérer (ou de numéroter) les éléments selon l’ordre croissant (pour «), cette énumération étant
compatible avec l’ordre d’origine <.
84 CHAPITRE 4 — Un modèle multidimensionnel pour les résumés de données
C P0
0
C P1
1
C P P
2 2
4
C3
P P
P 6 3
5
C
4 P P8
7
C5
P
9
P
z∈P card(Rz ).β(z)
Γ(P ) = P
z∈P card(Rz )
avec β(z) une valeur agrégée de la spécificité des résumés, définie par :
Ainsi pour l’ordre total sur les partitions, nous proposons de calculer la typicité
pour chaque partition au sein d’une même classe de généralisation. La partition ayant
une plus faible typicité est celle qui contient les résumés les moins spécifiques. Elle
est donc supérieure au sens de l’ordre total strict à établir.
P0 v P 1 v P 4 v P 2 v P 6 v P 5 v P 3 v P 7 v P 8 v P 9
Cette mesure de typicité, si elle permet de traduire la cohésion des résumés, n’est
pas suffisante pour donner une réponse toujours satisfaisante pour discriminer les
partitions les unes par rapport aux autres. La possibilité d’avoir la même valeur de
typicité pour deux partitions existe toujours. Dans ce cas, la fonction qui classe les
partitions dans notre système, aura un choix arbitraire entre les deux partitions de
résumés. Car, il se trouve qu’elles sont parfaitement similaires au point de vue du
niveau de généralisation, de la relation R, qu’elles offrent à l’utilisateur.
CHAPITRE 4 — Un modèle multidimensionnel pour les résumés de données 87
4.6 Conclusion
Nous nous sommes intéressés dans ce chapitre à la hiérarchie générée par le pro-
cessus SaintEtiQ. La problématique soulevée est la suivante : bien que SaintEtiQ
soit capable de satisfaire les besoins des décideurs au niveau de la réduction de
données relationnelles volumineuses, il n’offre pas un modèle formel qui permet de
manipuler les résumés produits organisés sous forme d’une hiérarchie.
L’un des objectifs de ce chapitre, a été de fournir à l’utilisateur une vue, appelée
partition de résumés, de l’ensemble des données résumées à un niveau d’abstraction
donné. Cette vue est représentée par une coupe dans la hiérarchie, elle contient le
minimum de résumés avec un maximum d’information. Une partition de résumés est
orientée utilisateur, elle lui offre la possibilité d’avoir un ensemble de résumés sur
chaque niveau de généralisation de la hiérarchie.
Le modèle défini dans ce chapitre a permis de présenter une structure formelle qui
facilitera la manipulation de la hiérarchie des résumés. Ceci est dans le but d’aider
l’utilisateur lors d’un processus d’exploration et d’analyse en ligne des résumés. La
manipulation des résumés peut répondre à des interrogations comme les suivantes :
– Quels sont les résumés dans ma partition qui sur un attribut précis ont le même
degré d’appartenance ?
– Quels sont les résumés qui contiennent les détails d’un résumé donné, se trou-
vant dans une partition donnée?
Dans le chapitre suivant nous proposons un ensemble d’opérateurs algébriques qui
permettent de manipuler l’ensemble des partitions et des résumés linguistiques de la
hiérarchie de SaintEtiQ.
C HAPITRE 5
Une algèbre de
manipulation pour les
résumés de données
Découvrir c’est bien souvent dévoiler quelque chose qui a tou-
jours été là, mais que l’habitude cachait à nos regards.
— Koestler, Arthur, Le cri d’Archimède.
89
90 CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données
5.1.2 Proposition
Le travail que nous proposons dans ce chapitre concerne la définition d’une al-
gèbre pour la manipulation des partitions de résumés définies dans le modèle multi-
dimensionnel du chapitre précédent. Plus précisément, ce travail consiste à adapter à
cette structure de résumés flous, l’ensemble des opérateurs des trois différentes caté-
gories : les opérateurs classiques 1 , les opérateurs de granularité et les opérateurs de
restructuration. L’algèbre proposée ici prend en compte les spécificités des résumés
de données que nous manipulons et permet d’exploiter les n-uplets qu’ils décrivent.
Il s’agit d’un mode d’exploration dédié aux utilisateurs s’intéressant à une vue syn-
thétique et globale de l’information. Ce chapitre présente le noyau de cette algèbre,
avec tous les opérateurs d’analyse en ligne adaptés aux partitions de résumés. Il pré-
sente aussi une discussion sur les propriétés fondamentales d’une algèbre telles que
la complétude, la fermeture et la sémantique. La dernière section du chapitre est
consacrée au prototype, orienté utilisateur, développé autour de cette algèbre.
5.1.3 Illustration
L’ensemble des opérateurs algébriques que nous définissons dans ce chapitre est
appliqué sur des partitions de résumés. Ainsi, afin d’illustrer chacune des opérations
définies, il est souhaitable de disposer d’un exemple complet. Nous utiliserons pour
cela, la hiérarchie qui figure dans l’exemple 4.8 du chapitre 3, ainsi que la partition
P3 issue de cette hiérarchie. Nous reproduisons la hiérarchie sur la figure 5.1 et
définissons la partition P3 dans le tableau 5.1. Pour chaque descripteur d est indiqué
son degré de satisfaction αd . La cardinalité card est donnée pour chaque résumé de
la partition.
1
issus de l’algèbre relationnelle.
CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données 91
z0
z1 z z3
2
z z z z z
11 12 13 21 22
z z z z
121 122 221 222
Definition 5.1 (Sélection). L’opérateur de sélection noté σ appliqué sur une parti-
tion de résumés P à partir de la relation R, donne une nouvelle partition de résumés
P 0 telle que :
Sélection hpartition de résumés i hprédicati
P 0 = σ(P, pred(z)),
où pred(z) est le prédicat de sélection qu’on peut appliquer sur :
92 CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données
Dice.
Le premier type de filtrage correspond à une sélection sur les propriétés des résu-
més. En se basant sur l’organisation hiérarchique des résumés, nous pouvons exploi-
ter plusieurs propriétés, comme par exemple, une contrainte de granularité exprimée
par la mesure de hauteur d’un résumé (voir définition 4.6), ou encore un prédicat
de sélection sur le degré de représentativité d’un résumé, exprimé par sa cardinalité
(cardz ). Dans le cas où on utilise la hauteur, le prédicat s’écrit : h(z) op n, n ∈ N
avec op ∈ {=, <, >, ≤, ≥}.
Ainsi, en appliquant un prédicat de sélection sur les résumés, l’opération est ap-
pelée dice. Elle permet de spécifier une requête selon des critères caractérisant le
résumé, comme sa représentativité ou sa granularité.
Le prédicat ainsi défini sélectionne dans une partition les résumés dont la re-
présentativité est maximale, ce qui veut dire, dont les cardinalités sont les plus
élevées. Le résultat de cette opération sélectionnera la partition suivante : P 0 =
{z2 , z3 } .
– La granularité d’un résumé. On considère le degré du résumé comme mesure
approchée de la granularité des résumés constituant une partition à un niveau
d’abstraction. Ce critère nous permet de distinguer les résumés dont la granularité
vérifie la contrainte, et notamment d’identifier un ensemble de résumés homogènes
sur une partition donnée.
Exemple 5.13 (Dice sur la granularité). Prenons la hiérarchie de résu-
més, se trouvant sur la figure 5.5, si nous voulons sur une partition donnée
P = {z11 , z12 , z13 , z21 , z22 , z3 } rechercher seulement les feuilles de cette partition,
pred(z)est défini comme suit h(z) = 0, le dice s’ecrit P 0 = σ(P, h(z) = 0), ce qui
donnera en résultat la partition P 0 = {z11 , z13 , z21 , z3 }.
CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données 93
Slice.
Le second type de filtrage est celui de la sélection sur les valeurs floues des
attributs décrivant les résumés ainsi que sur leurs degrés d’appartenance. Cette
opération est définie par l’expression suivante :
z.A θ ṽ,
f (z.A) θ ṽ,
où f peut être un ensemble de caractéristiques floues, comme (haut(z.A) ou
card(z.A)), pour plus de détails concernant les sous-ensembles flous le lecteur est
invité à consulter l’ouvrage de Zadeh [105]. Une seconde forme de filtrage sur les
valeurs d’attributs s’exprime de la façon suivante :
z.A θ z.B,
ici on définit un prédicat de sélection qui compare deux descriptions sur deux
attributs différents A et B au sein du même résumé z.
Exemple 5.14 (Slice). Soit l’expression suivante :
Sur cette même partition, P3 du tableau 5.1, nous pouvons aussi chercher à ex-
traire les résumés qui contiennent l’étiquette linguistique misérable dans leurs des-
criptions intentionnelles. Cette requête sera exprimée par la sélection suivante :
une expression algébrique qui peut fournir une réponse à une interrogation telle
que " trouver sur la partition de résumés P3 , (voir le tableau 5.1), les résumés
les plus spécifiques en terme de granularité, et qui représentent les gens de faible
revenu". Pour cette requête, nous proposons l’expression suivante :
Definition 5.2 (Fusion). Soit P = {z1 , .., zk , .., zn }, une partition de résumés. On
définit l’opération de fusion comme suit :
Rz ? = Rz1 ∪ · · · ∪ Rzk
CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données 95
Par ailleurs, la cardinalité de chaque résumé fusionné n’est pas affectée non
plus. La cardinalité du résumé card(z ? ) est la suivante :
Exemple 5.16 (Fusion). Afin d’illustrer cette opération de fusion, nous re-
prenons la partition P3 donnée par le tableau 5.1. Supposons que dans un scéna-
rio d’interrogation, l’utilisateur a déjà fait une sélection sur les résumés feuilles
de la partition avec une description intentionnelle contenant le descripteur em-
ployé sur l’attribut ACTIVITE. Et considérons, le résultat de cette sélection sur
la partition manipulée, soit les deux résumés z13 et z122 . Maintenant l’utilisateur
souhaite fusionner ces résumés afin de pouvoir avoir une vue de synthèse sur la
nouvelle partition constituée de ces deux résumés. Le tableau 5.2 montre com-
ment on peut fusionner ces deux résumés. Le résumé z ? représente les n-uplets
des deux résumés feuilles, sur l’attribut ACTIVITE, du descripteur employé, soit
α(employé) = 0.8.
P 0 = ΠA1 ,..,Ak (P )
P 0 = {z 0 /∃z ∈ P ∧ z 0 = πA1 ,..,Ak (z)}
L’impact de cette opération sur l’extension des résumés est nul, ceci est dû
au fait que les n-uplets restent les mêmes bien que le nombre d’attribut dimi-
nue. Ainsi, la description extensionnelle et les cardinalités des résumés restent
inchangés après application d’une projection sur un ensemble de résumés.
L’opération de projection, telle qu’elle est présentée à la définition 5.3, est
relativement évidente. Néanmoins, la création de résumés conflictuels n’est pas
écartée. Ce problème peut survenir comme pour l’opération de fusion, si la par-
tition résultante ne vérifie pas la propriété de faible orthogonalité. L’exemple
suivant illustre le cas de résumés conflictuels. La représentation du résumé dans
ce tableau n’est volontairement pas complète puisqu’on ne s’intéresse ni aux de-
grés de satisfaction ni aux cardinalités des résumés.
Exemple 5.17 (Projection conflictuelle). L’application de l’opération de
projection sur les attributs (B, C) nous renvoie les mêmes descripteurs b1 et c1
sur les deux résumés supposés différents z1 et z2 . Le résultat de la projection ne
peut être une partition de résumés parce qu’il ne vérifie pas la propriété d’orthogo-
nalité faible. En effet, πB,C (z1 , z2 ), πB (z1 , z2 ) et πC (z1 , z2 ) donnent des résumés
conflictuels, i.e. avec des descriptions similaires.
A B C
z1 a1 b1 c1
a2
z2 a3 b1 c1
Afin d’éviter un tel problème, nous avons simplement mis une contrainte qui
interdit les projections conflictuelles. Seuls les projections ayant en résultat une
collection de résumés respectant les deux propriétés d’une partition de résumés
sont possibles.
Cette combinaison est réalisée en créant des résumés sur l’ensemble des attributs
des deux partitions.
Definition 5.4 (Produit Cartésien). Soient P et P 0 , deux partitions de résumés.On
note P 00 = P × P 0 le produit cartésien des partitions P et P 0 défini par :
P 00 = z, z 0 | z ∈ P ∧ z 0 ∈ P 0
Opération de jointure
L’opération de jointure est employée pour connecter des résumés de deux
partitions. Le résultat de cet opérateur de jointure est une nouvelle partition
de résumés qui vérifie la propriété de faible orthogonalité. On peut noter que
la jointure est un cas particulier du produit cartésien qui utilise un prédicat de
jointure pour filtrer les résumés du résultat.
Definition 5.5 (Jointure). L’opérateur join consiste à agréger deux partitions de ré-
sumés P et P 0 selon leurs descriptions intentionnelles suivant un prédicat de jointure
mettant en jeu un attribut pivot dans chaque partition. Elle est définie comme suit :
P∗ = P ./ P0
pred(z.A,z 0 .A0 )
Soient les deux partitions de résumés suivantes : P = {z1 , .., zn } et P 0 = {z10 , .., zn0 0 }.
Le résultat de l’opération de jointure sur les attributs (z.A, z 0 .A0 ) est une nouvelle par-
tition de résumés notée P ? = {z ? |z ? .A θ z ? .A0 }, où z ? = hz.A, z.B, ..., z 0 .A0 , z 0 .B 0 , ...i
avec z = hz.A, z.B, . . . i ∈ P , z 0 = hz 0 .A0 , z 0 .B 0 , . . . i ∈ P 0 .
Dans cette opération de jointure on travaille avec l’intention des résumés de
chacune des partitions à joindre. L’impact de cette opération sur l’extension et
la cardinalité des résumés dans P ? est le suivant :
Rz ? = Rz ⊗ Rz 0
card(z ) = card(z) × card(z 0 )
?
– P1 = {z1 , z2 }, définie sur l’attribut REVENU avec les descripteurs (bas, moyen et
élevé) et sur l’attribut ACTIVITE avec les descripteurs (artiste, homme d’affaires
et étudiant).
– P2 = {z10 }, définie sur l’attribut SALAIRE avec (bas, moyen et élevé) et sur l’at-
tribut AGE avec (jeune, âgé).
Les descriptions intentionnelles des résumés sont :
– z1 = h0.8/bas, 0.5/étudianti
– z2 = h0.7/élevé, 1.00/artistei
On écrit la jointure :
P ∗ = P1 ./ P2
z1 .REV EN U ⊆F z10 .SALAIRE
Opérations ensemblistes
Nous allons adapter dans ce qui suit les opérateurs ensemblistes à notre mo-
dèle de partitions de résumés. Nous définissons les opérateurs d’union, d’intersec-
tion et de différence. Pour ceci nous avons besoin de préciser la notion d’union-
compatibilité.
avec :
z221 , z222 z22 ⊆ P6 et z221 , z222 ⊆ P7 (5.1)
alors, P6 v P7 ⇒ P6 généralise P7 .
P4 = {z1 , z21 , z22 , z3 }
P = {z1 , z21 , z221 , z222 , z3 }
? 5
C(HR ):
P = {z11 , z12 , z13 , z21 , z22 , z3 }
6
P7 = {z11 , z12 , z13 , z21 , z221 , z222 , z3 }
De la même façon on peut exprimer d’autres généralisations sur l’ensemble de
l’espace de partitions de résumés présenté dans 5.1 par :
Pour ceci, nous choisissons une représentation tabulaire. Il s’agit d’un mode
de visualisation simple et intuitif auquel les utilisateurs sont habitués dans un
contexte décisionnel. C’est aussi la représentation des données traditionnellement
adoptée comme le soulignent les auteurs de [2, 95].
Le tableau 5.4 montre la représentation tabulaire d’une partition de résumés,
cette représentation est organisée de la manière suivante :
– On affiche en premier le nom de la partition analysée (sujet analysé), soit dans
le tableau 5.4, la partition P .
– La première colonne contient les identifiants des résumés de la partition.
– Les colonnes représentent les descripteurs linguistiques {d 1 . . . , dk } et les attri-
buts {A1 , . . . , An }.
– Les mesures se trouvent à l’intersection des lignes/colonnes et contiennent des
valeurs floues comme le degré d’appartenance α ou la cardinalité card. Ces
valeurs sont représentées quand elles existent c-à-d quand un attribut est bien
décrit par le descripteur concerné (en colone) sur le résumé en question (en
ligne). Ce qui explique l’existence de cellules vides (voir la figure 5.5).
Notons que les colonnes représentées en premier sont celles qui peuvent être
visualisées à l’écran, les autres s’affichent quand l’utilisateur désire de les défiler.
P A1 A2 ... An
d1A1 d2A1 d3A1 d1A2 d2A2 d3A2
z1 hαd , cardi
z2 hαd , cardi
z3 hαd , cardi
... hαd , cardi
Afin de montrer le résultat d’une telle représentation sur une partition, nous
proposons l’exemple 5.21 qui détaille la partition P3 déjà présentée dans le ta-
bleau 5.1. Les cellules vides sur le tableau 5.5 représentent des valeurs inexistantes
sur un descripteur (colonne) pour le résumé correspondant (ligne), mais seule-
ment une manière plus simple de proposer un tableau de représentation d’un
niveau général.
Exemple 5.21 (Présentation tabulaire d’une partition de résumés). La
présentation multidimensionnelle de la partition P3 (voir 5.1) consiste à mettre
au premier plan les attributs (dimensions) que l’utilisateur souhaite analyser.
La table 5.5 offre cette présentation. Nous y découvrions seulement les deux at-
tributs en cours d’analyse (ACTIVITE et REVENU), ainsi que les descripteurs
correspondants. On a choisi par simplification de présenter sur ce tableau seule-
ment le degré d’appartenance α comme mesure.
Sur la base de cette présentation multidimensionnelle d’une partition, nous
CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données 103
Opération de permutation
L’opération de permutation switch dans les systèmes OLAP est appliquée sur
les valeurs de chaque dimension. Elle permet de changer la position de ces valeurs.
L’intérêt de cette opération est qu’en réorganisant des dimensions elle permet de
mettre en relief certaines valeurs de mesure, sur les partitions de résumés, la
permutation consiste à contrôler les positions des descripteurs et des attributs
dans le tableau.
Definition 5.10 (Switch, permutation). L’opérateur Switch est appliqué à une par-
tition de résumés P pour inverser deux positions indiquées en paramètres. Nous le
définissons comme :
hP i = Switch(P, C, posi , posj ), où le critère C ∈ {attribut, descripteur ou résumé}
détermine la nature des éléments à permuter, et posi , posj sont les deux positions à
inverser.
αd ACTIVITE REVENU
art h.aff ag.s emp mise mod enor
z11 0.8 0.7 1.0 1.0
z121 0.9 1.0
z122 0.3 1.0
z13 0.8 1.0
z2 0.8 1.0 1.0
z3 0.8 1.0
Table 5.6 – Permutation sur les positions des descripteurs pour l’attribut ACTIVITE
dans P3
Opération de tri
Nous pouvons également appliquer l’opération de tri (Sort), sur des partitions
de résumés selon un ordre croissant ou décroissant (minimum ou maximum).
Ce tri peut bien s’appliquer aux attributs ou aux descripteurs selon un ordre
alphabétique ou encore aux valeurs contenues dans les cellules comme par exemple
le degré d’appartenance ou la cardinalité.
Definition 5.11 (Sort, tri). L’opérateur sort est appliqué à une partition de résumés
P pour établir un ordre sur un critère ou un paramètre de la partition. Il est noté :
5.2.4 Synthèse
Il est important de mentionner que quelques opérateurs de restructuration
OLAP habituels pour les cubes de données, tels que le push, le pull ou un/nest
n’ont pas été pris en considération dans cette section. Ces opérateurs n’ont aucune
traduction possible dans notre modèle de partition de résumés. Sur le tableau 5.8,
106 CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données
αd ACTIVITE REVENU
art h.aff ag.s emp mise mod enor
z122 0.3 1.0
z11 0.8 0.7 1.0 1.0
z13 0.8 1.0
z2 0.8 1.0 1.0
z3 0.8 1.0
z121 0.9 1.0
nous avons fait un récapitulatif de tous les opérateurs définis jusqu’ici. Ils sont
organisés en catégories. Nous donnons aussi une brève description et le rôle de
chaque opérateur.
Table 5.8 – Tableau récapitulatif des opérations définies dans l’algèbre de manipula-
tion des partitions de résumés
108 CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données
Nous avons aussi, souligné pour chacune des opérations, l’impact de son ap-
plication sur l’extension et la cardinalité des résumés manipulés au sein d’une
partition.
La définition des contraintes pour l’application d’un certain nombre d’opéra-
tions nous interdit des situations d’utilisation d’opérateurs comme pour l’exemple
de la projection conflictuelle. Ce type d’interdiction ne nous permet pas de pré-
tendre la complétude de l’algèbre, en revanche il nous garantit la fermeture.
La sémantique de la composition des opérateurs dépend donc des conditions
de la fermeture de l’algèbre. Nous avons expliqué dans le chapitre précédent
qu’une coupe de la hiérarchie est une partition qui respecte non seulement la
propriété de faible orthogonalité mais aussi la complétude (la couverture de la
relation initial R). La fermeture de l’algèbre proposée est garantie pour l’ensemble
des partitions. Sachant que le point de départ de toute manipulation dans notre
modèle est une coupe, nous allons associer chaque partition P à une coupe C
de le hiérarchie par une relation (C, P ). Ainsi une partition qui est résultat par
exemple de l’application d’une opération de sélection ou d’une projection peut ne
pas être une coupe de la relation mais le fait d’avoir une coupe à laquelle elle est
associée nous permet de pouvoir lui appliquer des opérateurs comme le roll-up
ou le drill-down qui agissent sur les coupes de la hiérarchie.
Nous rappelons, que l’objectif de cette algèbre et de fournir à l’utilisateur
un outil qui permet de le guider pour la manipulation et l’analyse des résumés
flous. La finalité de cette algèbre est de supporter un outil convivial et intuitif
pour guider l’utilisateur dans ses analyses. Nous proposons pour ceci le passage
d’une forme d’expression algébrique à une interface visuelle de formulation qui
décharge l’utilisateur de toute connaissance de la syntaxe de notre algèbre. Cette
interface orientée utilisateur est présentée dans la section suivante.
110 CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données
5.4.1 Implémentation
1. Les résumés sont stockés dans des documents XML. En effet, les résumés gé-
nérés par SaintEtiQ sont présentés sous forme de documents. Chaque résumé
évolue au cours de l’apprentissage et contient la référence aux résumés fils sous
forme de liens. Chacun de ses documents possède une syntaxe XML spécifiée
dans un formalisme XML-Schema 2 .
2. L’extraction des résumés ainsi que les informations nécessaires pour l’applica-
tion de l’algèbre est gérée par un analyseur syntaxique (parser ) XML.
3. Les opérateurs de manipulation des résumés sont implémentés avec le langage
de programmation JAVA sous l’environnement de programmation netBeans4.1.
La hiérarchie des résumés est stockée dans un document XML, contenant les
informations sur chaque nœud, représentant un résumé. La figure 5.2 montre un
exemple de résumé, sérialisé dans un document XML. Ce document est construit
sur la base de la définition du résumé telle qu’elle a été introduite dans les cha-
pitres précédents et consiste à définir un résumé selon le triplet (z = (I z , Ez , Rz ))
de son intention, son extension et la relation qui existe avec ses nœuds fils.
Les données d’entrée sont stockées dans deux fichiers XML : le premier est
celui qui contient la hiérarchie des résumés générés par SaintEtiQ, et le second
est celui qui contient les connaissances de domaine (BK) ayant servi pour la
construction des résumés.
2
les détails de ces schémas sont fournis dans [90].
CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données 111
5.4.3 Exploration
Cette interface est principalement construite pour intégrer des fonctionnalités
de manipulation et de présentation de partitions de résumés déjà définies dans
ce document.
La fenêtre d’accueil de l’interface utilisateur, présentée à la figure 5.3, permet
de sélectionner la partition à explorer, selon un niveau d’abstraction donné. Cette
partition fera l’objet de différentes manipulations.
5.4.3.1 La visualisation
La visualisation de la partition choisie, consiste à représenter les résumés de
cette partition sous une forme tabulaire sur l’ensemble des attributs concernés.
La figure 5.4, montre cette fenêtre d’affichage d’une partition.
Les informations sont affichées selon une représentation tabulaire, ce qui est
particulièrement adapté à l’utilisateur pour sélectionner le résumé qu’il veut dé-
tailler ou généraliser. Dans la représentation d’une partition, pour chaque résumé
les informations suivantes seront fournies :
– l’ensemble des étiquettes floues représentant le résumé sur chaque attribut,
comme le montre la figure 5.5.
– les différentes informations du résumé, il suffit que l’utilisateur clique sur le ré-
sumé qui fera l’objet de son interrogation pour afficher les informations concer-
nant ce résumé (cardinalité, nombre de fils, taille de l’extension . . . ), voir la
figure 5.5.
– la possibilité de zoomer sur la partition suivant le résumé choisi.
partition il est amené à faire varier la granularité de la partition sur ce résumé. Les
opérateurs de granularité sont appliqués directement sur la partition du résumé
ou sur le résumé lui même au moyen d’une simple manipulation de la souris.
Par exemple, la manipulation concernant le raffinement (drill-down) du résumé
permet de détailler les résumés à un niveau de détail plus fin, sachant que les
résumés sont liés par une relation d’ordre. Ce procédé de raffinement contribue à
l’aide à l’analyse par la navigation, étant ainsi possible de parcourir les différents
niveaux de la hiérarchie.
Les opérateurs de granularité notamment le drill-down et le roll-up présentés
respectivement dans l’interface par zoom-in et zoom-out ont un impact direct
sur la visualisation d’une partition de résumés. En effet, ces deux opérateurs
permettent de "zoomer" sur la partition de résumés courante. Leur application
permet d’afficher la partition mère (zoom-out) ou fille (zoom-in) immédiate du
résumé choisi, et d’afficher la partition à l’écran avec le niveau approprié maté-
rialisé par la position du curseur.
sente un client, et où les attributs décrivent le client par des termes sur son âge,
son revenu ou son activité, ainsi que les produits bancaires que le client utilise
(comptes, cartes de crédit, prêts, . . . ).
Nous supposons que l’utilisateur souhaite analyser l’utilisation d’un client
pour l’ensemble des services bancaires, et singulièrement il cherche à savoir s’il
existe une relation entre la fidélité d’un client et le niveau de son revenu.
Pour ceci, l’utilisateur sélectionne tout d’abord le niveau de granularité avec
lequel il souhaite travailler. Ce niveau doit lui fournir une vue complète de la
relation qui peut être explorée en utilisant la liste des résumés de ce niveau.
Ensuite, il spécifie la valeur de la durée qu’il désire conserver pour décrire la
fidélité, cette durée étant décrite par les étiquettes linguistiques ancien, moyen
ou récent. Pour exprimer la fidélité d’un client, l’utilisateur choisira l’attribut
durée avec le descripteur ancien. Seuls les résumés représentés par ce descripteur
seront alors sélectionnés. Sur l’ensemble de ces résumés, il pourra préciser un seuil
de fidélité sur le degré de satisfaction du descripteur ancien, afin de ne garder
que les résumés contenants les clients qu’il considère comme fortement fidèles.
L’utilisateur peut dans l’étape suivante raffiner sa requête. Pour ceci, sup-
posons qu’il souhaite étudier dans le détail les résumés retenus afin de mieux
expliquer la fidélité des clients. Pour ceci il cherche à visualiser la partition qui
contient ces résumés à un niveau de granularité plus élevé. Ensuite, il ne gardera
que les résumés ayant un certain revenu.
Si nous considérons que P est la partition en entrée de ce scénario. L’expres-
sion algébrique que l’utilisateur génère pour une telle requête considérée comme
complexe, est la suivante :
où s est un seuil fixé. Finalement, une simple opération de forage vers le bas
permet de donner les détails de chaque résumé que l’utilisateur souhaite analyser.
Le scénario descriptif qui vient d’être présenté montre la façon dont les opé-
rateurs de l’algèbre d’analyse en ligne définies dans ce chapitre peuvent aider un
utilisateur dans l’analyse des données représentées par les résumés d’une hiérar-
chie.
5.5 Conclusion
Dans ce chapitre, nous avons défini une collection d’opérateurs algébriques
sur l’espace multidimensionnel de partitions de résumés. Ces opérateurs sont à la
base d’une algèbre de manipulation des résumés. Cette algèbre prend en compte
les spécificités du modèle de résumé que nous traitons et permet d’explorer suc-
cinctement le contenu de la base de données sans y accéder. Nous avons adapté la
majorité des opérateurs d’analyse proposés dans les systèmes OLAP. Ainsi, nous
avons identifié pour cette algèbre trois catégories d’opérateurs : les opérateurs
de base (restriction, projection, union, . . . ) issus de l’algèbre relationnelle, les
CHAPITRE 5 — Une algèbre de manipulation pour les résumés de données 117
6.1 Introduction
Généralement, la caractérisation par prototypes flous permet de fournir une
description d’un ensemble de données dans l’objectif de rendre facile l’interpréta-
tion de ces données par l’utilisateur. La représentation prototypique réalise une
mise en correspondance de classes identifiées avec des concepts naturels utilisés
intuitivement pour décrire les données.
Dans les chapitres précédents, le modèle SaintEtiQ [83] montre que les ré-
sumés linguistiques constituent un moyen privilégié pour appréhender le contenu
d’une base de données. Grâce aux caractérisations linguistiques fournies par des
connaissances de domaine, ce modèle présente l’avantage d’adopter une repré-
sentation intelligible des résumés. Leur construction est incrémentale et réalise
une classification hiérarchique des données vues à travers ces connaissances de
domaine. Cependant, une fois les résumés obtenus, se pose le problème de leur
analyse pour un utilisateur désirant extraire de l’information. Bien que l’inter-
prétation d’un résumé soit simple elle devient difficilement envisageable pour un
nombre élevé de résumés. Nous proposons donc d’enrichir la hiérarchie de résu-
més produits par SaintEtiQ, dans le cadre de la représentation prototypique
des sous-ensembles flous.
L’objectif de ce chapitre est de caractériser les résumés, en définissant un
représentant typique des n-uplets contenus dans le résumé. Cette représentation
tire profit du cadre formel de la théorie des sous-ensembles flous, pour modéliser
les limites imprécises du prototype. Dans ce contexte, trois méthodes différentes
de construction de prototype ont été étudiés, pour chaque vue ou coupe de la
hiérarchie des résumés. Le calcul de prototype que nous présentons cherche à
119
120 CHAPITRE 6 — Représentation des résumés par prototypes flous
6.1.1 Problématique
Considérons à un niveau d’abstraction donné de la hiérarchie produite par
SaintEtiQ une partition contenant un grand nombre de résumés. Chacun des
résumés constitue une forme de connaissance sur les données résumées, cette
connaissance est représentée par l’intention du résumé décrivant les n-uplets se
trouvant dans son extension. Toutefois, l’information contenue dans la descrip-
tion intentionnelle d’un résumé est considérée comme une représentation difficile à
interpréter par un utilisateur, étant donné l’utilisation d’un ensemble de descrip-
teurs chacun avec un degré de satisfaction sur chaque attribut. Cette structure
issue de la théorie des sous-ensembles flous est certes efficace pour souligner les
limites de l’incertitude mais elle contribue à la complexité de la représentation
du modèle de données, défini dans un chapitre précédent, représenté par une
partition de résumés flous. Il est donc légitime d’étudier de quelle manière re-
présenter les résumés au sein d’une partition afin de faciliter l’interprétation par
l’utilisateur de l’information qu’il peut trouver dans un tel modèle.
Nous proposons dans la suite de ce chapitre d’étudier la construction des
prototypes flous à partir des résumés d’une partition, dans l’objectif de les pré-
senter à l’utilisateur. L’idée générale de cette proposition est de disposer d’une
description concise en langage naturel sous forme d’un prototype qui représente
un résumé à l’aide d’un unique descripteur linguistique sur chaque attribut.
l’utilisation des étiquettes linguistiques qui expriment une notion imprécise d’un
individu décrit sur un attribut. D’autres approches existantes peuvent associer
une représentation plus riche que des points comme les méthodes de clustering
flou qui fournissent des sous-ensembles flous représentant un groupe mais qui ne
correspondent pas à des prototypes, parce que souvent ces représentants donnent
une vision très simple en modélisant des points qui appartiennent simultanément
à plusieurs clusters.
Notre intérêt pour la représentation des résumés flous s’inscrit dans le cadre de
la représentation des concepts flous. Un résumé tel qu’il est a une représentation
intentionnelle qui est une description synthétique des éléments appartenant à
l’extension du résumé. Sur chaque attribut A, un concept vague z.A est défini,
qui correspond à toutes les valeurs possibles que peut prendre un n-uplet de R z
sur A. Les sciences cognitives se sont intéressées à la représentation des concepts
flous. En effet, les sciences cognitives s’intéressant à la représentation cognitives
des catégories ont montré que certains éléments d’une catégorie peuvent être
considérés comme les plus typiques et constituent donc les meilleurs exemples ou
représentants de la catégorie. Ces travaux initié par E. Rosch [88], ont montré
que les membres d’une catégorie ne sont pas tous équivalents, quelques uns étant
plus représentatifs ou typiques que d’autres. Ils ont montré aussi qu’un point
est typique s’il est similaire aux autres membres de son groupe et différent des
membres d’autres groupes.
Definition 6.1 (Prototype idéalisé d’un résumé). Le prototype idéalisé PrI(z) d’un
résumé z est un élément du produit cartésien des étiquettes linguistiques qui decrivent
chacun des attributs réécrits du résumé.
PrI(z) = he1 , e2 , . . . , ek i
+
avec ei ∈ z.Ai et z.Ai ∈ F(DA i
), 1 ≤ i ≤ k
Le prototype idéalisé d’un résumé z est donc défini sur ki=1 (z.Ai ), qui donne
Q
un singleton sur chaque attribut du résumé z. Le sous-ensemble flou z.A i est
représenté par un ensemble de triplets (ei , µei , supp(ei )), où ei est une étiquette
linguistique sur l’attribut Ai , µei est le degré de satisfaction de ei et supp(ei ) est
le support défini dans la présentation du système SaintEtiQ.
124 CHAPITRE 6 — Représentation des résumés par prototypes flous
candidats et génèrent 27 304 nœuds dont 14269 feuilles. Les dix attributs qui ont
été décrits sont présentés dans la première colonne du tableau 6.6.
Attribut Descripteur z
idéalisé feuille
Qte produit very few few
Nb carte bleue none none
Nb compte chèque one one
Segment comportemental 7 7
Flux créditeur low low
Nb d’opérations average average
Ressources totales high high
Nb retrait espèces none none
Durée relation ancient ancient
Age old old
nous comparons ces n-uplets entre eux pour garder à la fin le plus tyipque.
Considérer l’extension d’un résumé z revient à considérer toutes les feuilles
du sous-arbre de ce résumé, vu qu’un résumé feuille est représenté par un seul
descripteur sur chaque attribut. Prenons l’exemple de la figure 5.1 déjà présentée
dans les deux chapitres précédents. Si on cherche à extraire le n-uplet candidat le
plus représentatif de l’extension du résumé z1 , cela revient à trouver la meilleure
feuille de la partition {z11 , z121 , z122 , z13 }.
T-candidat A B C
ct1 ct1 .A ct1 .B ct1 .C
ct2 ct2 .A ct2 .B ct2 .C
ct3 ct3 .A ct3 .B ct3 .C
Definition 6.2 (Prototype par extension d’un résumé.). Soit z ? l’ensemble des
feuilles du résumé z. Le prototype par extension d’un résumé z est la feuille la plus
représentative de ce résumé, on le note :
et Rz = z 0 ∈z? Rz 0
Selon cette définition, la satisfiabilité est maximale pour une feuille quand
cette feuille contient le plus grand nombre de n-uplet candidat max(|ct|), elle est
pondérée par les degrés de satisfaction et par le support des n-uplets candidats
au sein du résumé feuille.
Attribut Descripteur
de z
feuille
Qte produit few
Nb carte bleue none
Nb compte chèque one
Segment comportemental 7
Flux créditeur low
Nb d’opérations average
Ressources totales high
Nb retrait espèces none
Durée relation ancient
Age old
Il est à noter que pour cette expérimentation, nous avons travaillé sur l’ex-
tension du résumé qui contient les n-uplets candidats ct et non pas les n-uplets
originaux t.
Cette seconde méthode est efficace du point de vue de la qualité du prototype
qu’elle fourni puisqu’il s’agit d’une présentation réelle et existante dans les don-
nées résumées contrairement à un résultat issu de la méthode idéalisée qui peut
présenter des enregistrements inexistants.
En revanche, sur l’ensemble des feuilles d’un résumé, la possibilité d’avoir un
degré de sat(z) égal pour un ensemble de résumés feuilles n’est pas nulle. Sur la
hiérarchie utilisée dans les expérimentations nous n’avons pas eu le cas d’avoir
plusieurs feuilles avec la même valeur maximale max (sat(z)). Dans la section
suivante nous proposons une autre méthode de construction de prototype flou en
prenons en considération la faiblesse de la méthode de construction de prototype
par extension du résumé.
133
C HAPITRE 7
Conclusion générale
Bilan
Dans cette thèse nous avons abordé la thématique de l’analyse en ligne de ré-
sumés de bases de données. Ces résumés sont produits par le système SaintEtiQ
proposé par G. Raschia et N. Mouaddib dans [84]. La thématique de l’analyse
en ligne de données a pour sujet les grandes masses de données et pour objet de
répondre aux interrogations des analystes et des décideurs. Elle s’intègre généra-
lement dans les systèmes d’information décisionnels où elle est présentée par les
manipulations proposées par les moteurs OLAP.
La première partie de ce document a été l’occasion de détailler les différentes
méthodes qui se sont intéressées aux données traitées sous leur forme résumée
ou agrégée. Nous avons tout d’abord étudié les systèmes décisionnels qui sont
considérés comme les plus répandus pour le traitement de grandes masses de
données à des fins analytiques. Notre intérêt s’est porté sur la grande capacité des
opérateurs algébriques pour la manipulation des cubes de données traditionnels
dont le but est de naviguer et d’explorer dans ces cubes. Nous avons souligné
les avantages de ces systèmes OLAP, et notamment leur capacité exploratoire et
analytique des données agrégées. Ensuite, nous avons fait un tour d’horizon des
autres approches de compression sémantique des données. Parmi ces méthodes
nous avons présenté plus en détail le système SaintEtiQ, plate-forme de résumé
de grands volumes de données relationnelles. Ainsi, nous avons pu positionner le
système SaintEtiQ et faire un rapprochement entre SaintEtiQ et un système
décisionnel.
Dans la deuxième partie de ce document, nous nous sommes inspirés de la
méthodologie d’analyse en ligne utilisée dans les systèmes décisionnels afin de
l’adapter aux résumés linguistiques flous du système SaintEtiQ. Ces résumés
de données sont représentés par une collection d’étiquettes linguistiques et chaque
résumé fournit une représentation concise, par le biais d’un sous-ensemble flou de
descripteurs sur chaque attribut, d’un ensemble de n-uplets de la base de données
résumée. Nous avons constaté que la hiérarchie fournie par SaintEtiQ contient
un grand nombre de résumés. Partis de ce constat, nous avons trouvé intéressant
d’avoir une structure qui facilitera la navigation, l’exploration et la visualisation
des résumés générés par SaintEtiQ. D’où l’idée de proposer un modèle multidi-
mensionnel d’analyse en ligne des résumés linguistiques de données.
Cette proposition consiste à définir un cadre général pour l’exploration de
135
136 CHAPITRE 7 — Conclusion générale
démarche qui tire profit des travaux réalisés en sciences cognitives sur le proces-
sus humain de catégorisation. Ainsi les prototypes calculés tendent à reproduire
les mécanismes de synthèse en fonction chez l’homme.
Evolutions et perspectives
En guise d’extension de nos travaux de recherche, nous avons envisagé à
différentes possibilités à explorer :
– La première évolution de nos travaux concerne l’aspect applicatif de la propo-
sition détaillée dans cette thèse. En effet, ce travail a été proposé dans le cadre
de manipulation de grands volumes de données. Il manque donc la validation
du modèle et de l’algèbre proposée dans ce travail sur des bases de données
réelles et massives.
– La deuxième perspective serait d’appliquer notre modèle aux résumés multimé-
dias. Le terme multimédia désigne des données aussi diverses que des images,
des sons ou des vidéos. Ces dernières années, un certain nombre de systèmes de
recherche d’information multimédia et de systèmes de gestion de bases de don-
nées multimédia ont été développés afin d’aider l’usager à retrouver des docu-
ments correspondant à un besoin spécifique, parmi de très grandes collections.
Pour ceci SaintEtiQ a déjà été utilisé sur des bases d’images dans [92, 64, 91].
Il apparaît donc intéressant de valider notre modèle sur des résumés d’images.
– Par ailleurs, le travail présenté dans le chapitre 6 montre que l’utilisation des
protoforms pour la représentation des résumés, mérite d’être étendue. Il serait
notamment très intéressant de travailler sur les possibilités de caractériser les
résumés en apportant à l’utilisateur une information complémentaire à celle des
prototypes flous. Cette caractérisation pourrait permettre d’évaluer un résumé
en calculant des cœfficients à partir de ses propriétés afin de l’identifier par
exemple comme majoritaire, discriminant ou exceptionnel.
Bibliographie
[1] A. Abello, J. Samos et F. Saltor. Implementing operations to navigate
semantic star schemas. In DOLAP ’03: Proceedings of the 6th ACM interna-
tional workshop on Data warehousing and OLAP, pages 56–62, New York, NY,
USA, . ACM Press.
[2] R. Agrawal, A. Gupta et S. Sarawagi. Modeling multidimensional data-
bases. in Proc. of ICDE, pages 232–243, April .
[3] R. Agrawal, T. Imielinski et A. N. Swami. Mining association rules between
sets of items in large databases. In Peter Buneman et Sushil Jajodia, réds.,
Proceedings of the 1993 ACM SIGMOD International Conference on Manage-
ment of Data, pages 207–216, Washington, D.C., .
[4] R. Agrawal et R. Srikant. A possibilistic approach to clusterin. In J.M.
Krishnapuram, R.; Keller, réd., Fuzzy Systems, IEEE Transactions on
Volume 1, pages 98 – 110. Morgan Kaufmann, .
[5] R. Agrawal et R. Srikant. Fast algorithms for mining association rules.
In Jorge B. Bocca, Matthias Jarke et Carlo Zaniolo, réds., Proc. 20th
Int. Conf. Very Large Data Bases, VLDB, pages 487–499. Morgan Kaufmann,
.
[6] S. Babu, G. Minos et R. Rajeev. SPARTAN: A model-based semantic com-
pression system for massive data tables. In Proc. of the 2001 ACM Intl. Conf.
on Management of Data (SIGMOD 2001), pages 283–295, May .
[7] E. Baralis, S. Paraboschi et E. Teniente. Materialized views selection in
a multidimensional database. In The VLDB Journal, pages 156–165, .
[8] J. C. Bezdek. Pattern Recognition with Fuzzy Objective Function Algorithms.
Kluwer Academic Publishers, Norwell, MA, USA, .
[9] I. Blanco, D. Sánchez, J. M. Serrano et M. A. V. Miranda. A new
proposal of aggregation functions: The linguistic summary. In IFSA, pages
127–134, .
[10] M. Blaschka, C. Sapia, G. Höflng et B. Dinter. Finding your way through
multidimensional data models. In DEXA ’98: Proceedings of the 9th Inter-
national Workshop on Database and Expert Systems Applications, page 198,
Washington, DC, USA, . IEEE Computer Society.
[11] P. Bosc, D. Dubois et H. Prade. Fuzzy functional dependencies and redun-
dancy elimination. JASIS, 49(3):217–235, .
[12] P. Bosc, O. Pivert et L. Ughetto. On data summaries based on gradual
rules. In Fuzzy Days, pages 512–521, .
139
140 BIBLIOGRAPHIE
149
Table des figures
151
152 TABLE DES FIGURES
153
Table des matières
1 Introduction générale 1
Introduction 7
Conclusion 59
155
156 TABLE DES MATIÈRES
Introduction 65
Conclusion 133
Bibliographie 139
– Base multidimensionnelle
Pour pouvoir analyser les données représentant l’activité d’une entreprise, il
faut pouvoir les modéliser suivant des axes. Ainsi, pour prendre l’exemple le
plus courant, le chiffre d’affaires par catégorie de client sur un produit donné
se décline sur trois axes au minimum : chiffre d’affaires, catégorie de clients, et
produit. De nombreux autres axes peuvent être définis, notamment en fonction
de la zone géographique, du prix, ou d’un commercial de l’équipe en charge
des opérations. Une base de données multidimensionnelle stocke les données de
manière à permettre ce type d’analyses.
161
162 ANNEXE A
– Reporting
Production de rapports pré conçus pour la diffusion d’informations analytiques
et synthètiques au niveau de la prise de décision.
ANNEXE A 163
NOTATIONS
Voici les différentes notations utilisées dans le système SaintEtiQ.
– R : table relationnelle.
+
– DA : le domaine réécrit de l’attribut A (ensemble de descripteurs).
+
– ct = hct.A1 , ..., ct.An h : n-uplet candidat avec ct.Ai ∈ F(DA i
) et ||ct.Ai || = 1.
Brio1
Brio Software propose une solution complète de business intelligence dédiée à
la requête et l’analyse des données, au reporting et à la diffusion d’informations,
dont la vocation est d’aider les entreprises à optimiser leurs performances. La
plate-forme décisionnelle de Brio se compose de trois modules :
– Brio Intelligence : suite intégrée composée d’outils d’analyse, de requête et de
reporting analytique pour les environnements Web et Client/Serveur.
– Brio Report : serveur à hautes performances pour les rapports manipulant
des volumes de données importants et couvrant tous les besoins de reporting
d’entreprise.
– Brio Portal : portail décisionnel d’entreprise.
Les principaux avantages de cette solution résident dans la satisfaction de re-
quêtes dynamiques, et l’utilisation de technologie OLAP permettant ainsi la diffu-
sion d’informations de reporting analytique dans un environnement client/serveur
ou web. En revanche son grand inconvénient réside dans l’absence d’outil analy-
tique.
Business Object2
La solution décisionnelle de BO est une suite d’outils intégrés de business in-
telligence, elle est considérée comme numéro un sur le marché avec son software
"Business Objects Analytics" qui représente une suite intégrée d’applications
analytiques d’entreprise. Cette offre complète permet aux utilisateurs d’accéder,
1
Brio Software, http://www.brio.com/fr/
2
http://www.france.businessobjects.com/
165
166 ANNEXE B
Cognos3
Cognos est un outil décisionnel des plus utilisés dans les entreprises, il est
constitué d’un ensemble d’outils d’analyse de données facilitant la prise de déci-
sion. Ce sont des applications intégrées au sein d’une offre complète de business
intelligence, depuis l’ETL jusqu’au portail décisionnel. La plupart de ses fonc-
tionnalités et domaines d’application sont :
– analyse des ventes et des achats,
– analyse comptable et financière,
– analyse des stocks et de la demande,
– analyse multidimensionnelle à l’échelle de l’entreprise : PowerPlay,
– analyse multidimensionnelle sur le Web : PowerPlay Web.
Crystal Decision4
Crystal Decision propose la solution décisionnelle appelée CRYSTAL EN-
TREPRISE, c’est une suite logicielle intégrée et complètement dédiée au Web
pour le reporting, l’analyse et la diffusion d’informations, à l’échelle de l’entre-
prise. L’avantage majeur de cette solution est sa prise en charge de différentes
plates-formes windows et unix. Sa principale fonctionnalité est le reporting avec
l’analyse et la diffusion en mode zéro-client, à partir de n’importe quelle source
de données multidimensionnelle ou relationnelle.
Hummingbird5
Hummingbird BI est une puissante solution décisionnelle permettant de dé-
ployer des fonctionnalités d’interrogation, de reporting et de traitement OLAP
à l’échelle de toute l’entreprise pour un coût de possession minimal. En effet,
Hummingbird BI fournit l’ensemble des outils d’interrogation et de reporting né-
cessaires pour localiser, partager, gérer, publier et analyser l’information, ce qui
permet aux utilisateurs de prendre rapidement des décisions parfaitement fon-
dées. Hummingbird BI couvre l’intégralité des besoins utilisateur à travers une
série de quatre produits:
3
http://www.cognos.com/
4
http://www.crsystaldecision.com/fr
5
http://www.hummingbird.com/fr
ANNEXE B 167
IBM6
L’offre décisionnelle de IBM est appelée IBM DB2. Elle permet de répondre
de façon optimale aux problématiques actuelles des entreprises en Business In-
telligence et aussi dans les domaines de la Gestion de Contenu, les ERP 7 et la
Gestion de la Relation Client (CRM).
L’offre DB2, complétée par celle d’Informix, propose des solutions de gestion
de bases de données optimisées pour supporter les applications décisionnelles ou
de business intelligence. Afin de permettre à l’utilisateur d’analyser les données
métier et les mettre en forme (reporting, data mining) pour qu’il ait une meilleure
maîtrise des données et des informations. Cette offre est composée des modules
suivants :
– DB2 Warehouse Manager : permet l’extraction, la transformation, le mouve-
ment et le chargement des données ainsi que gestion des méta-données. As-
cential Software avec son offre d’intégration de données (ETL et Qualité de
Données) vient enrichir cette offre.
– Red Brick Warehouse : permet les fonctions de design, conception et adminis-
tration des Data Warehouses et des Datamarts.
– DB2 Olap Server : permet le développement d’applications analytiques des-
tinées à des analyses multi-dimentionelles d’entreprise grâce à l’utilisation de
fonctions financières, statistiques et mathématiques. DB2 Olap Server repose
sur la technologie de Hyperion Essbase.
– QMF : répond aux besoins de requêtes et de reporting. A cela, s’ajoutent les
offres de Business Objects et de Brio.
A ces modules s’ajoutent un ensemble d’outils qui permettent de réaliser des
algorithmes de fouille de données comme DB2 Intelligent Miner.
6
http://www-306.ibm.com/software/data/db2/db2olap/
7
Enterprise Resource Planning.
168 ANNEXE B
Isoft
Isoft est une suite d’outils dédiés à l’analyse des données, nous citons ici les
deux principaux outils de Isoft : AMADEA et ALICE:
– AMADEA. Amadéa est un outil d’ETL et de data morphing. Cet outil permet
l’alimentation, la transformation (morphing) et le reporting en temps réel par
la création et l’exécution de scripts. L’outil délivre des indicateurs métiers pa-
ramétrables. Amadéa construit également le système d’information support, et
les data marts. Ses principales fonctionnalités se résument en : extraction, net-
toyage, transformation, chargement et reporting. Ses différents modules sont
au nombre de quatre : Amadéa Studio: data morphing, Amadéa Batch proces-
sing: automatisation des traitements, Amadéa Web: génération des rapports
dans un navigateur et Amadéa Web mining: indicateur de CRM8 pré-établis.
– ALICE. Alice est l’outil de data mining d’Isoft, il est complet et interactif. Il
permet les différentes techniques de fouille de données suivantes : arbres de
décision, analyse interactive, profiling, corrélation, clustering, segmentation.
Microsoft9
Oracle10
SAS11
Avec ses deux outils SAS9 et SAS Miner la plateforme décisionnelle SAS est
une solution de BI complète elle contient différentes fonctionnalités les princi-
pales sont : intégration de données (ETL, qualité de données...), stockage, mé-
tadonnées uniques, portail web, reporting de masse, interactif ou non, analyse
de type OLAP, analyse prédictive, datamining, textmining, applications métiers
(marketing, ressources humaines, achats, grande distribution, finance, risque...)
et pilotage stratégique.
11
http://www.sas.fr/
A NNEXE C
Rappels sur la théorie
des sous-ensembles
flous.
Dans cette annexe nous allons présenter quelques éléments de base de la
théorie des sous-ensembles flous qui faciliteront la compréhension du principe du
système SaintEtiQ vu qu’il se base sur la théorie des sous-ensembles flous.
Sous-ensembles flous
La théorie des sous-ensembles flous proposée par Zadeh en 1965 [105] comme
une extension de la théorie des sous-ensembles permet d’exprimer une apparte-
nance graduelle reflétant un degré de satisfaction de cette appartenance. Ce qui
permet d’exprimer plus facilement des situations plus proches du langage humain
qui peuvent être aussi des informations imprécises ou des classes aux limites mal
définies. Si par exemple on veut qualifier une personne de jeune, ça peut être
exprimé sous la forme Jeune = {x ∈ P, 18 ≤ x ≤ 25}. Ici P est l’ensemble des
personnes, cet exemple qualifie une personne de 17 ans comme une personne
non jeune, alors que cette personne peut être qualifiée de jeune. A l’aide des
sous-ensemble flou on pourrait présenter ce genre d’information.
171
172 ANNEXE C
Aα = {µ ∈ Ω, µA (µ) ≥ α}
α α
U U
a b c d b c
a) maximum b) minimum
Definition C.3 (α-coupe stricte). On appelle α − coupe stricte pour une valeur
α ∈ [0, 1], d’un sous-ensemble flou A du référentiel Ω ,l’ensemble classique Aᾱ défini
par :
Aᾱ = {µ ∈ Ω, µA (µ) ≥ α}
– Hauteur : la hauteur d’un sous-ensemble flou A notée H(A), la plus grande des
valeurs que prend la fonction d’appartenance dans l’intervalle [0, 1] :
– noy(A) ⊆ noy(B)
Les sous-ensembles les plus spécifiques alors sont les singletons {u} de U tels
que :
– µu (u) = 1, et
– ∀v ∈ U/v 6= u, µu (v) = 0
Un modèle multidimensionnel pour un processus
d’analyse en ligne de résumés flous
Lamiaa Naoum
Résumé
Le travail présenté dans cette thèse traite de l’exploration et de la manipulation
des résumés de bases de données de taille significative. Les résumés produits par le
système SaintEtiQ sont des vues matérialisées multi-niveaux de classes homogènes
de données, présentées sous forme de collections d’étiquettes floues disponibles sur
chaque attribut. La contribution de cette thèse repose sur trois points. En premier
lieu nous avons défini un modèle de données logique appelé partition de résumés,
par analogie avec les cubes de données OLAP, dans le but d’offrir à l’utilisateur final
un outil de présentation des données sous forme condensée et adaptée à l’analyse.
En second lieu, nous avons défini une collection d’opérateurs algébriques sur l’espace
multidimensionnel des partitions de résumés. Ces opérateurs sont à la base d’une
algèbre de manipulation des résumés. Cette algèbre prend en compte les spécificités
du modèle de résumé que nous traitons. Nous avons adapté la majorité des opéra-
teurs d’analyse proposés dans les systèmes OLAP. Ainsi, nous avons identifié : les
opérateurs de base issus de l’algèbre relationnelle, les opérateurs de changement de
granularité et les opérateurs de restructuration. Ces résultats offrent de nouvelles
perspectives pour l’exploitation effective des résumés dans un système décisionnel.
Finalement, pour compléter ce travail, nous nous sommes intéressés à la représen-
tation des résumés et des partitions de résumés linguistiques, notamment pour en
fournir une présentation claire et concise à l’utilisateur final. Appliquée à une hiérar-
chie de résumés produite par le système SaintEtiQ, l’approche tente de construire
des prototypes flous représentant les résumés.
Abstract
The work presented in this thesis deals with the subject of exploration and manip-
ulation of database summaries with significant size. The summaries produced by
SaintEtiQ system are multilevel materialized views of homogeneous data clusters,
presented with a collections of fuzzy labels available on each attribute. Our thesis
contribution is based on three points. Initially we defined a logical data model called
summaries partition, by analogy with OLAP datacubes, with the aim of offering to
the end-user a tool for data presentation in condensed form and adapted to the
analysis. Secondly, we defined a collection of algebraic operators on the multidimen-
sional space of summaries partitions. These operators are the base for an algebra for
handling summaries. This algebra takes into account specificities of the summary
model we deal with. We adapted the majority of the operators of analysis proposed
in OLAP systems. Thus, we identified: core operators resulting from the relational
algebra, operators of changing granularity and operators of reorganization. These
results offer new prospects for the effective summaries exploitation in a decisional
system. Finally, to complet this work, we were interested in the summaries and
partitions representation, in particular to provide a clear and concise presentation of
it to the end-user. Applied to a summaries hierarchy produced by the SaintEtiQ
system, the approach tries to construct fuzzy prototypes representing the summaries.