TAL Data Governance Guide FR P1R1 Digital
TAL Data Governance Guide FR P1R1 Digital
TAL Data Governance Guide FR P1R1 Digital
La Gouvernance
Des Données
Sommaire
Introduction : La fiabilité des données conditionne la transformation numérique . . . . . . . . . . . . 03
D’après Forrester,
demandes des équipes commerciales ou offrir des
expériences personnalisées aux clients, la transformation
seuls 40 % des
numérique exige des données disponibles en
temps voulu. Toutefois beaucoup d’entreprises ne
directeurs informatiques
parviennent pas encore à suivre le rythme soutenu
des projets technologiques.
Au bout d’un certain temps, vous trouvez enfin le précieux livre. Mais quand
vous l’ouvrez, vous découvrez que certaines pages ont été déchirées : le livre
est donc difficile à comprendre et ne présente plus aucun intérêt pour vous.
Vous aurez peut-être quelques idées pour améliorer l’organisation afin qu’il
soit possible de trouver plus rapidement les livres. Mais personne n’a demandé
votre aide ; vous n’étiez là qu’en tant que lecteur. En outre, l’intégrité globale de
cette bibliothèque n’inspire pas vraiment confiance. Les conditions déplorables,
la mauvaise qualité des livres et le temps précieux que vous avez perdu vous
en donnent une mauvaise image ; il ne s’agit de toute évidence pas d’un
établissement sérieux que vous recommanderiez.
Ceci entraîne une prolifération des données dont il est presque impossible
de mesurer l’ampleur. Plus vous recueillez des données, moins vous pouvez
garantir le libre-service. Votre bibliothèque de données n’est utile qu’aux
quelques privilégiés disposant du large socle de compétences nécessaire
pour découvrir par eux-mêmes la valeur qu’elles recèlent. Les autres ne
sauront pas en tirer parti.
Imaginez que nous puissions rendre toutes ces données fiables, les organiser
à grande échelle et les fournir à tous ceux qui en ont besoin ? C’est-à-dire offrir
à vos collaborateurs les outils leur permettant de fiabiliser, d’organiser et de
distribuer les données par eux-mêmes. Cette capacité est l’essence même
de la gouvernance des données.
Une stratégie de Une stratégie de gouvernance des données bien conçue est vitale pour
gouvernance des toute entreprise manipulant des données. Elle déterminera la façon dont
votre entreprise tirera profit de processus et de responsabilités normalisés
données bien uniformes. Les leviers métiers mettront en évidence les données devant être
toute entreprise. Par exemple, si un levier de cette stratégie vise à garantir la confidentialité
de données médicales, les données des patients devront être gérées de façon
sécurisée lorsqu’elles circulent dans votre entreprise. Les exigences en matière
de conservation (par exemple, historique des changements apportés aux
informations, avec leur date et leur auteur) seront définies de sorte à garantir
la conformité avec les exigences gouvernementales applicables (RGPD en
Europe ou CCPA en Californie).
La gouvernance des données garantit que les rôles sont clairement définis et
que les responsabilités font l’objet d’un consensus dans toute l’entreprise.
Un cadre de gouvernance des données planifié avec soin englobe les rôles
et les responsabilités stratégiques, tactiques et opérationnels.
• Gérer vos données avec des processus ETL et ELT orientés métadonnées et
des applications d’intégration de données afin de garantir la traçabilité
des pipelines de données grâce au lignage des données de bout en bout.
Entrepôt Gouvernance
traditionnel de autoritaire
données
Toutes les
L’accès aux données est étroitement Tous les
Coûts, valeur temporelle, évoluivité, gouvernance, risques
données
contrôlé. Le modèle encyclopédique
utilisateures de données
Toutes les Coûts, valeur temporelle, évoluivité, gouvernance, risques Tous les
données utilisateures de données
Entrepôt Gouvernance
traditionnel de autoritaire
données
Le second modèle ne permet pas de prendre le contrôle Penchons-nous une fois encore sur les enseignements tirés
des données au fur et à mesure de leur entrée dans vos de l’ère du Web. Wikipedia s’est imposé comme l’un des
systèmes. Mais, dans le même temps, il faut reconnaître 5 sites les plus visités à travers le monde. Il héberge plus
que ces données émanent de sources, toujours plus de 5 millions d’articles, mais seuls 1 194 administrateurs
nombreuses et d’un nombre croissant de collaborateurs gèrent ses différentes pages. Mais n’importe qui
de différents départements de Difficulté à contrôler la prolifération
l’entreprise. En mettant peut apporterdes une données
contribution et le site compte
en place d’emblée une approche plus collaborative de 130 000 auteurs réguliers. Pour faire face à cette situation,
la gouvernance,
Données ouvertes vos utilisateurs métiers les plus experts Wikipedia a instauré des principes clairement
Scientifiques desdéfinis
données pour
peuvent – devenir des fournisseurs de contenu et des data la compilation des contenus collaboratifs. Le site a ainsi
Hadoop et SQL
curators.
– Il est essentiel pour cette approche de travailler démontré sa capacité à s’adapter et à fournir un contenu
Cloud
en équipe
– dès le départ. Dans le cas contraire, vous risquez qui bénéficie d’un niveau de fiabilitéAnalystes
correct. des données
Données
d’être submergé par la quantitébrutes
Sources de travail qu’implique
Ingestion la Compilation Gestion Exploitation
traditionelles de
confirmation
données de la fiabilité de vos données.
–
Opérations
Flux
–
Applicatoins
d’enterprise
Toutes les Coûts, valeur temporelle, évoluivité, gouvernance, risques Tous les
données utilisateures de données
Un modèle de gouvernance
collaborative de type Wikipedia
permet à vos utilisateurs métiers
les plus experts de devenir
fournisseurs de contenu et
« data curators ».
Le profilage des données est une technologie qui Dans de nombreux cas, ceux qui connaissent le mieux
vous permettra une découverte en profondeur de vos les données ne sont pas les experts en données. Prenez,
ensembles de données et une évaluation précise de vos par exemple, les coordonnées de vos clients : les
nombreuses sources de données selon les six dimensions administrateurs des ventes, commerciaux et
de la qualité des données. Vous pourrez ainsi repérer plus responsables marketing terrain sont plus au fait des
facilement si des données sont erronées, incohérentes problèmes de qualité des données que l’équipe IT
ou incomplètes et de quelle manière. centrale. Et ils pâtissent le plus de ces problèmes, car ils
ont une incidence sur l’efficacité avec laquelle ils peuvent
Imaginez qu’un médecin fasse passer un examen à un faire leur travail au quotidien. Pour nettoyer les données
patient pour évaluer son état de santé. Personne ne de Salesforce, vous souhaiterez peut-être évaluer leur
veut se faire opérer sans subir au préalable un examen qualité en délégant certaines activités de profilage à ces
approfondi. La logique est la même pour le profilage des utilisateurs métiers.
données. Vous devez comprendre vos données avant de
les réparer. Les formats des données que vous êtes amené Bien évidemment, il n’est pas question de leur demander
à traiter sont souvent inexploitables, non structurés ou de devenir des spécialistes de la qualité des données. Un
masqués. Vous devez donc établir un diagnostic précis nouveau type d’outil intelligent permettant de dissimuler
pour mieux comprendre les problèmes avant d’y remédier. la complexité technique et d’offrir une expérience
Vous, votre équipe et l’ensemble de votre entreprise utilisateur simple, rapide et visuelle pour accélérer le
gagnerez ainsi du temps, car vous aurez d’ores et déjà profilage de leurs ensembles de données de prédilection
dressé un état des lieux approfondi. est nécessaire pour cela. Grâce à des outils tels que Talend
Data Preparation, vous disposerez de fonctionnalités de
De la même façon qu’un médecin généraliste et un profilage intégrées à la fois simples et puissantes pour
spécialiste jouent des rôles différents, mais cruciaux explorer les ensembles de données et évaluer leur qualité
dans le diagnostic médical et l’établissent en s’appuyant au moyen d’indicateurs, de tendances et de schémas.
sur des approches et des outils légèrement différents,
les techniques de profilage des données techniques
s’appliquent à différents rôles et nécessitent des
outils à part.
62 % des Imaginons, par exemple, que vous souhaitiez lancer une campagne visant à
contacter des clients concernant la facturation et les paiements et que vous
utilisateurs disposez principalement d’adresses e-mail et postales pour les contacter. Il est
essentiel que ces données soient exactes et uniformes pour joindre tous ces
reconnaissent clients, faute de quoi vous risquez de perdre beaucoup d’argent ou de passer
à côté d’opportunités commerciales en raison de données manquantes ou
avoir accès à incohérentes.
des données Les problèmes d’intégrité des données se sont multipliés ces dernières
années. Comme nous l’avons vu précédemment, l’augmentation des sources
qu’ils ne et du volume de données entraîne une hausse du nombre de professionnels
désireux de les exploiter. Cette prolifération de données dans un nombre
devraient croissant de clouds et de canaux numériques et la multiplication d’acteurs très
différents augmentent la vulnérabilité de l’entreprise, exposée à des fuites, des
pas pouvoir violations des données, ainsi qu’à des informations erronées reposant sur des
données indésirables et incohérentes. À titre d’exemple, 62 % des utilisateurs
consulter. reconnaissent avoir accès à des données qu’ils ne devraient pas pouvoir
consulter. L’intégrité est devenue une question d’autant plus essentielle que
la mise en œuvre de nouvelles réglementations en matière de gouvernance
impacte de manière concrète les entreprises. Par exemple, l’amende pour le
non-respect du Règlement général sur la protection des données (RGPD) de
l’Union européenne s’élève à 4 % du chiffre d’affaires mondial de l’entreprise.
29
Améliorez la qualité de vos données La préparation des données ne consiste pas seulement
grâce au cloud à rendre les départements plus autonomes dans la
gestion des données ; c’est un élément clé de la qualité
Le cloud repousse considérablement les limites des don- et de l’intégration des données. Cette étape améliore la
nées. Les divers départements utilisent leurs propres ap- productivité lors de la gestion des données et permet
plications, et les produits, les personnes et les ressources également de garder une trace des actions menées par
créent leurs propres pipelines de données via le Web et chacun sur les données. Lorsque ces actions contribuent
l’Internet des objets. Les divers acteurs de l’entreprise et à renforcer la fiabilité des données, elles peuvent être
les fournisseurs de données peuvent échanger des don- déployées et intégrées dans les pipelines de données de
nées en toute transparence. façon à ce qu’elles profitent à chacun. Outre l’amélioration
de la productivité individuelle, le véritable intérêt de ces
Le libre-service permet d’adapter les normes de qualité applications collaboratives en libre-service est de
aux besoins. De nombreuses études ont montré que, favoriser la collaboration entre les fonctions métiers
lorsque les données fiables ne sont pas fournies en libre- et le département IT.
service, les analystes et les data scientists passent 80 %
de leur temps à les nettoyer et à les rendre exploitables. Au terme de la première des 3 étapes visant à fournir des
Moins on y consacre de temps et d’efforts, plus les coûts données fiables, les sources de données ont été identifiées
sont réduits. Et, par conséquent, ces données génèrent et documentées. Des mesures ont été prises concernant
plus de valeur ajoutée et d’informations. les sources dont la qualité n’est pas au rendez-vous.
À retenir :
Avant de choisir une plate-forme de gouvernance des données, vous devez déterminer si elle vous permettra de
déléguer les opérations liées à la qualité des données en mode libre-service à des utilisateurs métiers tout en
gardant le contrôle. Ce point est essentiel pour adapter et mutualiser rapidement les efforts déployés pour nettoyer les
données en temps réel. Il serait risqué de ne rien faire et de laisser vos collaborateurs les préparer et les nettoyer seuls,
et consacrer, ce faisant, un temps considérable à des tâches répétitives sur des sources de données non maîtrisées.
À retenir :
Selon « Magic Quadrant for Business Intelligence and Analytics Platforms », Gartner, 2017 : « D’ici 2020, les entreprises
qui offrent à leurs utilisateurs un accès à un catalogue organisé de données internes et externes multiplieront par deux
la valeur commerciale de leurs investissements analytiques par rapport aux autres. »
Dans un catalogue de données, un glossaire métiers Imaginez que vous constatiez que des données
permet de définir des ensembles de termes et les associer incohérentes ont été créées dans vos systèmes de
à des catégories et sous-catégories. La constitution d’un données et reprises dans l’un de vos ensembles de
glossaire métiers peut être extrêmement simple : utilisez données et que l’on vous demande de les expliquer,
un modèle de données existant bien documenté, importez les identifier et les corriger. Le lignage des données vous
les termes et les définitions d’autres sources (par exemple, sera d’une aide précieuse pour cela. Il vous permettra de
CSV, Microsoft Excel) ou rédigez-les de façon interactive repérer le problème et son emplacement, et garantira
via l’interface utilisateur au cours de la catégorisation l’exactitude permanente de vos données. En outre, en cas
des objets. Une fois publié, le glossaire est en théorie d’ajout de nouveaux ensembles de données à votre data
accessible par toutes les personnes disposant des lake, un lignage des données vous aidera à identifier très
autorisations nécessaires par le biais d’une interface rapidement ces nouvelles sources.
de recherche (voir figure ci-dessous).
Ceci vous permettra également de mieux définir les Par exemple, cette solution vous permet d’inventorier
propriétaires des données : qui est responsable d’un les propriétaires de données des catégories « client »,
domaine de données précis ? Qui est chargé de la « identité client », « facturation client », « coordonnées
consultation, l’accès, la modification et la compilation client » et « adresse de livraison client ».
des ensembles de données ?
* L’acronyme RACI est formé à partir des initiales
À ce stade, l’utilisation d’un modèle RACI* vous fera (en anglais) des quatre responsabilités clés les plus
gagner du temps lors de la définition et l’attribution des couramment utilisées : Responsible (responsable),
rôles et des responsabilités des différents acteurs de Accountable (autorité), Consulted (consulté) et Informed
votre entreprise. (informé). Le modèle RACI est un bon modèle de matrice
d’attribution des qualités. Il est facile à comprendre et à
L’étape suivante consiste à définir les propriétaires de utiliser. Il est particulièrement utile si votre gouvernance
données qui sont responsables en dernier ressort d’une des données concerne plusieurs départements et divisions
ou plusieurs catégories et sous-catégories de données. de votre entreprise.
Ces propriétaires de données seront chargés d’effectuer
les opérations courantes menées sur les données ou
de les déléguer à des data stewards. Ils identifieront les
que les clients méritent et Pourquoi est-il important de donner à vos collaborateurs
Il est donc possible de devenir data steward à tout moment et de prendre part
à la chaîne de valeur des données. Ces data stewards corrigeront et valideront
rapidement les données incohérentes au sein d’une application conviviale,
entièrement déployée par le responsable de la campagne « stewardship ».
operationalized by the steward campaign manager.
» Figure 10 : Effectuer des tâches de remédiation des données avec Talend Data Stewardship
Identification manuelle
des doublons
Anticipation de
potentiels doublons
Dans de nombreux cas, l’approche de gouvernance des Chez Talend, Talend Studio est la clé de voûte de
données échoue car elle ne peut pas être appliquée de tous les flux de données : il offre une large gamme de
façon systématique. Prenons l’exemple d’un inventaire des fonctionnalités techniques couvrant l’intégration, le
données. Des études montrent que, la plupart du temps, profilage des données et de nombreux contrôles de
les inventaires des données sont créés selon une approche qualité des données. Il permet d’opérationnaliser des
déclarative basée sur des entretiens avec les propriétaires tâches intégrées dans des outils en libre-service tels
de données et de processus et sur une documentation que Talend Data Preparation.
utilisant des outils par formulaire ou Excel. La création de
» Figure 17 : Tous les membres de l’entreprise peuvent utiliser des données fiables avec Talend
Management Console.
Intéressez vos collaborateurs à doivent écouter les experts métiers et leurs collaborateurs,
explorer les ensembles de données pour repérer leur
votre transition vers la gouver- valeur commerciale et les éventuels risques financiers,
nance des données et donnez‑leur puis identifier ceux qui utilisent le plus ces ensembles
de données. Les utilisateurs avancés seront souvent les
des responsabilités afin que votre plus enclins à protéger vos ensembles de données, à les
projet devienne aussi leur projet. corriger et à garantir un haut niveau d’intégrité.
Vos données pouvant se trouver hors site dans des infrastructures tierces,
le cloud pourrait exiger la mise en place des principes de gouvernance des
données plus forts. Prenons l’exemple de la protection des données.
La réglementation en la matière impose que :
Le cloud est source de nouveaux défis pour vos pratiques de gouvernance des
données, mais il ouvre également de nombreux débouchés. Comme nous le
verrons dans les cas d’usage, les clients de Talend choisissent, pour l’essentiel,
pour le cloud comme source unique de données fiables. En fonction de votre
situation, il est fort probable que le cloud soit la solution idéale ; d’abord pour
recueillir toutes les empreintes numériques dans votre environnement de
données, et ensuite pour permettre à tous les acteurs de votre processus orienté
données ayant recours à des applications prêtes à l’emploi de prendre les rênes
et d’utiliser les données.
Bien souvent, les employés n’ont pas la culture des données. C’est une partie
du problème. À mesure que les données prendront de l’importance dans les
entreprises, l’ensemble du personnel devra faire l’apprentissage de la culture
des données (c’est la « datalphabétisation »). Ils seront également peu enclins
à découvrir des outils élaborés. L’utilisation d’un catalogue de données
permettra de rendre vos données plus pertinentes, connectées à leur contexte
métier et faciles à trouver. Appuyez-vous sur des applications cloud telles
que Talend Data Preparation ou Data Stewardship pour permettre à vos
collaborateurs d’accéder aux données en quelques clics, sans aucune
formation particulière préalable.
Vous gagnerez leur confiance qui est indispensable pour Relevez le défi de vos données.
qu’ils soutiennent votre projet, et votre travail n’en sera
que simplifié. Imaginons une crise en situation réelle dans laquelle vous
avez subi une violation ou une fuite de données en interne.
Adoptez une approche pratique et Vérifiez si votre cadre de gouvernance des données est
non passive. Dirigez votre projet de efficace dans le cas d’un scénario catastrophe. Réalisez
données fiables une piste d’audit. Toutes vos données sensibles sont-elles
masquées ? Êtes-vous en mesure de suivre toutes vos
Rencontrez différents collaborateurs pour en savoir plus données et d’en garantir la traçabilité ? Les propriétaires
sur les défis auxquels ils sont confrontés et leur offrir de données se sentent-ils responsables des données
votre aide ; ils vous considéreront comme le chef du dont ils ont la charge ? Mettez-vous à la place de votre
projet. Assurez-vous que toutes vos actions sont efficaces. client. Pensez à son droit d’accès aux données ou à son
Planifiez le travail et tenez-vous-en au plan. Suivez chaque droit à l’oubli.
étape du projet et présentez les étapes suivantes. Vous
serez confronté à des obstacles et devrez remanier vos Pourquoi ne pas réaliser une simulation en équipe ?
priorités à mesure que votre entreprise s’adaptera aux Préparez un scénario et vérifiez dans quelle mesure votre
évolutions des conditions du marché. N’abandonnez pas plan est efficace, puis appuyez-vous sur les enseignements
et adaptez votre plan, au besoin. Toutefois, poursuivez de cette simulation pour l’améliorer. Mieux vaut prévenir
vos efforts de persuasion et (ré— )expliquez en quoi votre que guérir. Donc, soyez proactif pour ne pas vous retrouver
projet résoudrait les difficultés de l’entreprise. à gérer une violation réelle de la confidentialité des
données, avec toutes ses conséquences. Ainsi, votre
gouvernance des données sera plus concrète, basée
sur des défis d’ordre opérationnel plutôt que sur de
grands principes.
À retenir :
Plus vous ciblez des professionnels, plus les applications en libre-service doivent être simples et intelligentes.
Une fois qu’il confirme que ces données influent sur son
modèle, un data curator vérifie la qualité, la conformité et
les droits d’auteur de ce nouveau dataset.
« Nous disposons d’un stockage Amazon S3 qui est Au-delà de l’architecture restructurée et de l’amélioration
partagé avec tout le monde. Je dois savoir qui possède métier dans le cadre de la conformité réglementaire,
les données (le propriétaire des données), qui a accès à la nouvelle plate-forme prépare également Euronext à
quoi, à qui poser des questions, qui peut les utiliser et devenir un « data trader ». L’opérateur boursier souhaitait
qui est prioritaire sur qui. Nos data stewards protègent pouvoir affiner la multitude de données dont il dispose et
l’organisation de nos données », ajoute M. Belarfaoui. pouvoir la compléter afin de la monétiser. Dans les faits, la
monétisation des données représente déjà 20 % du chiffre
Cette stratégie de gouvernance est appliquée dans des d’affaires d’Euronext.
outils bien spécifiques, par exemple Talend Data Catalog.
Le déploiement d’un dictionnaire se fait en parallèle Ce projet implique également de donner aux data
de chaque projet technique, marché par marché. Ces scientists et aux métiers un accès en libre-service à ces
dictionnaires permettent de retrouver l’historique des données. Ils pourront ensuite les analyser dans des
données de bout en bout, depuis les sources jusqu’au sandbox de données pour des cas d’usage tels que la
reporting. « Aujourd’hui, je suis capable de voir qu’une surveillance des marchés.
donnée sort de S3, que je lui ajoute une valeur, que je
l’agrège avec une autre et qu’elle devient une autre donnée
INFORMATION :
Siège social : Allemagne
Plus de 10 000 salariés
CAS D’USAGE
Efficacité opérationnelle
PROBLÉMATIQUE
Uniper fournit des données fiables en
Fournir des données et des analyses
en temps réel et en libre-service
temps réel
compagnie aérienne
qui répond le
mieux aux besoins
de ses clients. »
Ceci dit, la route vers l’intégrité des données est semée d’embûches. L’un
des plus grands obstacles auxquels vous vous heurterez est la capacité de
vos communautés à comprendre en quoi les données constituent un atout et
comment elles peuvent être améliorées.
mettront en place un
développement volontaire des
compétences dans le domaine
de la datalphabétisation.
68
Appliquez le modèle 70-
20-10 à votre stratégie de
datalphabétisation grâce
à des outils numériques
Au moment de définir votre programme de compétences, Optez pour un apprentissage au sein
veillez à choisir des applications numériques inspirées d’outils en libre-service pour atteindre
du modèle 70-20-10 qui utilise à la fois les interactions le niveau d’intégrité voulu.
sociales, l’expérience de terrain, les discussions partagées
et les programmes de formation en ligne/hors-ligne. La clé Envisagez d’investir dans des outils en libre-service à la
du succès : obtenir la meilleure participation possible de la fois simples et puissants, s’appuyant sur une expérience
part de vos communautés de données : unifiée, mais veillez à ce que l’apprentissage puisse être
déployé par le département IT. La collaboration entre les
Le modèle 70-20-10 (70-20-10 Model for Learning and métiers et l’IT en sera facilitée et le travail nécessaire pour
Development en anglais) est un modèle d’apprentissage et préparer, compiler et protéger les données réduit. Vous
de développement professionnel basé sur une répartition pourrez ainsi commencer à utiliser ces outils en libre-
proportionnelle des modes d’apprentissage efficaces. service sans qu’une expertise considérable dans
la formation soit nécessaire.
• 70 % — missions intéressantes
• 10 % — cours et formations
Encouragez les membres les plus actifs à développer ces communautés par
le biais d’applications d’apprentissage.
Une expertise dans le lignage et le catalogage des données Voyez votre projet de gouvernance des données comme la
vous permettra de devancer toute exigence de conformité construction de la maison de vos rêves. Vous aurez besoin
ou piste d’audit ; en effet, vous connaîtrez la provenance d’un plan et d’un architecte pour vous guider tout au long
de vos données, leurs utilisateurs et leurs liens avec de la construction, avec les ressources adaptées.
d’autres données.
Sinon, vous risquez de passer beaucoup trop de temps
Il est toujours bénéfique d’avoir un partenaire externe avec différents sous-traitants et de dépasser votre budget.
si vous souhaitez devenir rapidement une entreprise
« data intelligente » et bénéficier de ses enseignements
sur d’autres projets de gouvernance. Ce partenaire
repérera immédiatement les difficultés et identifiera avec
vous les solutions à adopter pour éliminer les obstacles.
Vous gagnerez en vitesse et en expérience, et minimiserez
les risques d’échec en mettant en place la bonne approche.
Plus de 1 500 entreprises du monde entier ont confié leurs données à Talend,
y compris GE, HP Inc. et Domino’s. Talend a été reconnu comme leader dans
son domaine par les principaux cabinets d’analyse et par les publications du
secteur, y compris Forbes, InfoWorld et SD Times.