Blueway Guide Pratique Data Quality FR
Blueway Guide Pratique Data Quality FR
Blueway Guide Pratique Data Quality FR
Data quality :
garantir la cohérence et
la fiabilité des données
pour optimiser les
performances
Maîtrisez vos données et améliorez vos prises de
décisions : découvrez comment un catalogage précis
et une stratégie de qualité des données validée
peuvent transformer votre gestion de l’information.
Stéphane LE LIONNAIS
Expert en gouvernance de données
et co-fondateur de Dawizz
Photo © L. Rannou
Un contexte où la gouvernance des données
est de plus en plus complexe et nécessite
une meilleure maîtrise
175 zettaoctets
dans le monde en 2025*
La véritable valeur d’une organisation, c’est son plus ouverts, interdépendants et les données de plus
patrimoine data. Cependant, saviez-vous que les en plus éparpillées ? Heureusement, il existe des outils
informations des bases de données proviennent de permettant de répondre à cette problématique et de
données structurées, qui ne représentent que 20% de mettre en œuvre une stratégie de Data Quality, basée
l’ensemble des données d’une organisation ? Saviez- sur un catalogage des données le plus complet possible.
vous également qu’un simple e-mail contenant du texte Cette démarche de qualité répond à de nombreux enjeux :
et une image est considéré comme un fichier à données
non structurées ? Il est de fait inutilisable (en l’état) par • La localisation du patrimoine data, 1 zettaoctets
l’Intelligence Artificielle ou la Business Intelligence, par
exemple. C’est regrettable, car leur utilisation devient un
pour une vue 360° de toutes vos données
=
avantage concurrentiel indéniable, mais ils nécessitent
une grande quantité de données pour être efficaces.
• Les référentiels, pour centraliser
vos données stratégiques et mieux les
1 Md teraoctects *
0,5 %
175 000 milliards de Go), mais seulement 0,5% de ces de vos données avec des règles métier, et assurer
données sont actuellement utilisées. De plus, il faut la qualité par le nettoyage systématique
tenir compte du fait que ces 0,5% comprennent des de ces données sont
• Le droit à l’information, pour identifier les données
doublons, des données non-conformes, non sécurisées,
collectées sur un collaborateur ou un client
actuellement analysées*
non documentées ou qui ne sont même pas à jour.
Autrement dit, des informations manquantes, incomplètes, • L’anonymisation des données,
erronées... Il est donc facile de comprendre qu’il n’est pour assurer la confidentialité
pas possible de prendre des décisions éclairées,
de prédire, de gouverner ou de sécuriser avec des • L’Intelligence Artificielle, la Business
données de mauvaise qualité et en faible quantité. Intelligence, pour assurer l’innovation et
maintenir un niveau concurrentiel élevé 80 %
Comment m’assurer que j’exploite bien les données sont des données
Source : IDC
à valeur ajoutée de mon organisation ? Et comment Nous allons vous expliquer dans ce guide les bases d’une non structurées*
m’assurer de leur qualité dans un contexte de Cloud, stratégie de Data Quality efficiente et comment initier cette
de Saas, où les systèmes d’informations sont de plus en démarche grâce à la cartographie de votre patrimoine Data.
*
2 Guide pratique — Qualité des données
Notre définition
Data Quality,
« La Data Quality est le sujet de tous. La sensibilisation de
chaque acteur (producteur et consommateur de données)
est primordiale, ainsi que la mise en place de procédures qui
qu’est-ce que
pérennisent cette gouvernance des données. »
c’est ?
l’implication de tous n’est pas suffisante, les outils deviennent
indispensables. À condition qu’ils communiquent efficacement entre
eux et que l’accès à l’ensemble des données soit possible. Donc pour
que la démarche soit efficiente, une première étape est impérative :
cartographier son patrimoine data.
Comment initier
une démarche de Data Quality ?
Cette première étape sert à prendre Cette seconde étape sert à identifier les données
connaissance de l’ensemble de son patrimoine prioritaires, les « golden sources » qui vont donner
data (systèmes et flux intersystème), prérequis de la valeur au reporting final. Les données
nécessaire à une démarche visant la qualité. doivent toujours être pertinentes pour l’objectif
spécifique pour lequel elles sont utilisées.
Cette étape sert à l’analyse de la qualité des données, Il faut ensuite identifier les données par usage
et ce tout au long de leur cycle de vie (de bout en (structurées et non structurées) pour les homogénéiser,
bout). C’est à ce moment qu’il est nécessaire de pour créer une cohérence à travers différentes
définir les critères et les règles métiers de qualité. sources, systèmes ou périodes de temps.
C’est l’étape de correction des données qui ne Il s’agit dans cette dernière étape de mettre en œuvre
répondent pas aux normes ou aux exigences de une méthodologie de correction et de prévention grâce
qualité définies à l’étape précédente, comme le à une vision globale et synthétique du patrimoine de
nettoyage des données inutiles, sensibles ou interdites données au regard de son infrastructure technique.
à la conservation, dans le but de les fiabiliser.
Gestion Gérer les données maîtresses de manière centralisée Création d'un référentiel de clients unique, synchronisation
des données maîtres et de les synchroniser entre différents systèmes et applications. des données produits entre les différents canaux de vente.
Analyse de la qualité Vérifier la qualité des données en détectant les erreurs, Détection des doublons dans les données clients,
des données les incohérences et les données manquantes, et de les corriger. correction des adresses postales incorrectes.
Sécurité Protéger les données contre les risques de sécurité, Contrôle d'accès aux données, cryptage des données sensibles.
des données tels que les violations de données, les attaques de pirates informatiques, etc.
Mise en conformité Vérifier que les données sont utilisées de manière conforme aux lois Suivi des exigences RGPD, mise en place de contrôles
et aux réglementations en vigueur. pour garantir la confidentialité des données.
Solution de surveillance Surveiller les données et les processus de gouvernance, Surveillance des performances des données,
et d'analyse d'identifier les lacunes et d'améliorer en conséquence. identification des risques de sécurité.
Data Discovery Découvrir les données qui se trouvent dans les différents systèmes Identification des données sensibles, recherche des données
et applications et de les indexer pour une recherche plus facile. nécessaires pour un projet particulier.
Data Catalog Référencer et documenter le patrimoine de données de l'organisation. Création d'un catalogue des données disponibles,
documentation des métadonnées des données.
Data Lineage Analyser dynamiquement les Systèmes d'information hétérogènes Suivi de la provenance des données, identification des impacts
et détecter les usages des données. d'une modification des données.
Partage de données Centraliser des données APIfiées pour favoriser la ré-utilisation. Création d'un portail de données pour les employés,
partage des données avec des partenaires externes.
Transformation des données Transformer des données brutes en données exploitables. Nettoyage des données, transformation des données pour l'analyse,
(ETL, ELT, ESB, APIM) création de pipelines de données.
Visualisation Générer différents types de rapports. Création de tableaux de bord, génération de rapports PDF,
et de reporting visualisation des données sur des cartes.
1
« Pour soutenir cette démarche de qualité de la
quelle stratégie adopter ? donnée, une campagne de sensibilisation menée
en amont et portée par un sponsor issu de la
Auparavant la réponse à cette question était facile : direction est bienvenue. Il convient de mettre en
il n’existait pas de solution unifiée capable de couvrir place un plan de communication adapté avec
l’ensemble des enjeux d’une stratégie de Data Quality. des actions de formation et des supports clairs
Il fallait donc agréger différents outils et réussir à et attractifs pour sensibiliser les collaborateurs
les faire communiquer entre eux. Avec l’alliance et les inciter à adopter les bonnes pratiques. »
de Phoenix et de MyDataCatalogue, Blueway est
capable de fournir dans une approche unifiée
2
tous les outils nécessaires à cette stratégie.
« La qualité des données est un sujet transverse,
« Qu’il s’agisse de faire du profilage,
elle ne doit pas être la préoccupation des seules
du dédoublonnage, du nettoyage, de
équipes Data ou IT. Il faut donc réimpliquer les
l’homogénéisation, de la duplication, de
métiers et les accompagner directement dans
l’enrichissement… Toute cette démarche
leurs applications métiers pour faire du contrôle et
itérative de suivi de qualité de la donnée
de la validation de la cohérence de leurs données.
peut être traitée avec l’ensemble des
Ils ont désormais des outils à disposition, comme
fonctionnalités des modules proposés
MyDataCatalogue, pour se saisir de cet enjeu. »
aujourd’hui par Blueway. »
3
« Les contrôles de qualité tout au long du cycle de vie
des données sont essentiels. Car si une donnée est de
mauvaise qualité à l’origine, elle le sera également à
la fin, c’est la notion de Garbage In Garbage Out. Pour
garantir l’efficience d’une stratégie de Data Quality, il
peut donc être intéressant de mener des ateliers avec
les métiers pour positionner des règles de suivi de
qualité directement dans les applications métiers. »
Secteur public
Cas d’usage #1 :
Les données concernant un tiers bénéficiaire d’une aide
régionale se trouvent à la fois dans un outil de gestion des
aides, dans un outil de gestion financière et dans d’autres
applications… sans que ces outils ne puissent communiquer
entre eux. Ainsi, si l’adresse du tiers est erronée, une
modification est faite dans l’outil de gestion des aides, mais
la remédiation s’arrête là. Les autres systèmes n’ayant pas
connaissance de cette modification, les erreurs continuent : Secteur bancaire
retour de courrier de mandatement de l’agent en charge de
la gestion financière par exemple, qui doit appeler l’agent
gestionnaire des aides pour obtenir la bonne information, ainsi Cas d’usage #2 :
de suite… Pour une seule erreur de cohérence, l’estimation des
Pour définir leur niveau de risque et les règles de conservation
remédiations est alors estimée à 1 000 euros par tiers !
à appliquer à des données non structurées dans le domaine
bancaire, il faut trouver un outil qui puisse effectuer un scan des
serveurs selon des critères de gestion spécifiques, remonter
les alertes, jusqu’à effectuer la purge et la mise en conformité
de serveurs bureautiques. La mise en œuvre d’une solution
de data cleaning a rendu possible une libération de 95% des
espaces disques utilisés sur le périmètre ciblé.
les 4 points clés à retenir pour Avant de vous lancer, il est important de tenir compte de vos besoins, mais
Connaître et identifier Mettez ensuite en regard des réponses apportées les points clés
suivants pour vous orienter vers la solution la plus adaptée :
Catalogue Gestion du
de données cycle de vie
des API
Phoenix
Data Platform
CRM PLM ERP MES GMAO Datalake DWH WMS GED AI Factory
Contactez-nous !