MEMOIRE BIGDATA Quentin-Mathieu

Mémoire de fin d’études
LE BIG DATA
Comprendre ses applications, ses opportunités et ses dangers
Préparé sous la direction de M. Ngombé
Quentin MATHIEU 5MC2, Claire NGUYEN 5MC1 // Promotion 2013/2014

1

“Il est devenu évident que la technologie a aujourd’hui dépassé notre humanité”
Einstein.
2

Remerciements
Nous tenons tout d’abord à remercier M. NGOMBE, notre maître de mémoire, pour
son encadrement, son suivi et ses conseils dans la réalisation de ce mémoire.
Nous remercions le Pôle Paris Alternance, l’équipe administrative et pédagogique,

pour ces années d’enseignements, pour la richesse de ses apports, ainsi que leur
partage de savoir, de connaissance, d’expertise et d’expérience. Nous sommes
reconnaissants de nous avoir permis d’avoir des échanges de qualité avec des
intervenants professionnels.
Nous remercions nos tuteurs en entreprise, Adeline LEFEVRE, responsable

marketing relationnel chez PassionFroid et Romain BRUCHE, chef de projet web
acquisition chez Laser Cofinoga, pour la confiance qu’ils ont su nous accorder tout
au long ces deux années d’apprentissage. Ils ont toujours été à l’écoute, avenants et
disponibles. Au delà du côté professionnel, nous les remercions pour leurs conseils,
leur bienveillance et leur générosité.
Nous remercions toutes les personnes interrogées dans le cadre de ce mémoire

pour leur temps accordé, leurs réponses et leur partage d’expérience qui nous a
permis de donner du sens à notre étude.
Nous remercions également nos proches pour leur aide et leur soutien tout au long
de nos études.
3

Sommaire
Introduction ............................................................................................ 6

I. Comprendre le Big Data ................................................................... 11

1) Principes et origines ....................................................................................... 11

2) Spécificités techniques ................................................................................... 15
Les bases SQL ................................................................................................... 15
Les différences fondamentales entre le SQL et les bases traitées par Hadoop 17
Les datas warehouses ou le HDFS, un choix fondamental pour les entreprises 18
Coûts, flexibilité & variété ................................................................................... 19

3) La France, en route vers le Big Data .............................................................. 20

II. Big Data, du fantasme à la réalité................................................... 23

1) Le changement des modèles de pensée ....................................................... 23
Le Big Data comme support à la réflexion ......................................................... 23
Le prévisionnel ................................................................................................... 24
Des opportunités ex nihilo .................................................................................. 24
L’intelligence artificielle et les logiciels de partitionnement de données : comment
font-ils évoluer la réflexion marketing ? .............................................................. 25
Réflexion cognitive VS. constats pragmatiques ................................................. 27

2) Une refonte des métiers .................................................................................. 29
Les nouveaux métiers du Big Data .................................................................... 29
L’évolution organisationnelle des entreprises .................................................... 30

3) L’efficience marketing à son comble ............................................................ 32
Le cross-selling et l’optimisation des ventes ...................................................... 36
La diminution du taux d’attrition et la connaissance client ................................. 38
Intelligence algorithmique ................................................................................... 40
Analyses prédictives et comportementales ........................................................ 41
Le ciblage émotionnel ........................................................................................ 47
Le Big Data, aide à la recherche médicale ......................................................... 48

4

III. Les dangers du Big Data, comment y faire face ? ....................... 51

1) Les effets pervers ............................................................................................ 51
Le principal risque lié aux datas est la protection de la vie privée ..................... 51
L’anonymisation des données est également un enjeu majeur ......................... 52
La transparence dans l’utilisation des données collectées n’a jamais été aussi
importante .......................................................................................................... 55
La dictature de la donnée ................................................................................... 56

2) Vers une évolution responsable du Big Data ............................................... 61
De nouveaux systèmes de contrôle ................................................................... 61
Le Big Data comme science sociale .................................................................. 65

Conclusion ........................................................................................... 69

Annexes ................................................................................................ 73
Entretiens individuels ......................................................................................... 73
Fiches de lecture ................................................................................................ 82
Bibliographie ....................................................................................................... 88
5

Introduction
En 2009, alors que la pandémie de grippe H1N1 se répandait comme une traînée de
poudre dans le monde entier, les chercheurs américains du CDC (Center for Disease
Control and Prevention) peinaient à prévenir les bassins de propagation du virus.
La solution la plus efficace pour situer les nouvelles régions incubatrices du virus fut
finalement venue d’une proposition d’une entreprise d’un secteur diamétralement
opposé à celui de la santé: le moteur de recherche Google.
Avec près de 24 000 téraoctets traités chaque jour, Google a permis, sur la base de
recoupes de données de recherches liées aux symptômes, de prévenir la
propagation du virus en détectant géographiquement les recherches. Ce fut à la suite
de cette expérience que Google mis en place un service de suivi des maladies qu’est
Google Flu trends.
Les moteurs de recherche ont ainsi pu démontrer leur capacité à améliorer des
domaines inattendus comme la santé publique grâce à des systèmes de gestion de
données de masse.
A la vue de ce type d’action, les possibilités semblent alors infinies car jamais la
donnée digitale n’a pris autant d’importance que depuis ces trois dernières années.
En regardant la courbe d’évolution de la masse d’informations sauvegardées, force
est de constater que l’avenir réside dans la donnée digitale.
Il y a encore 15 ans, un quart des données étaient digitales; aujourd’hui, le digital

représente 98% de l’ensemble des données présentes sur terre. Selon les
statistiques, chaque personne possède aujourd’hui l’équivalent de 320 fois la
quantité d’informations que pouvait contenir la Bibliothèque d’Alexandrie, censée
contenir toutes les connaissances du monde à son époque.
Un mouvement est alors en marche, encore répandu dans une moindre mesure et
réprimé par certains car encore peu maîtrisé. Il n’est cependant pas négligeable tant
il est riche en promesses.
6

Cette révolution de la donnée est désignée sous le nom de « Big Data »
Un terme fourre-tout, relayé par la presse et les médias souvent à tort et à travers, si
bien qu’il est difficile d’en connaître la réelle signification ni même d’en trouver une
définition stricte. Le terme de Big Data, de par le rapprochement aisé avec le terme
« Big Brother », a en effet suscité un amalgame dans la presse et dans l’opinion
publique comme l’idée d’une surveillance des individus par leurs agissements dans
la sphère digitale. Or le Big Data, dont il sera fait référence ici, ne se cantonne pas à
cette idée. En effet, le traitement de bases de données est une pratique éprouvée et
largement utilisée par les entreprises ; le tracking et l’analyse des comportements sur
Internet sont déjà d’actualité. Qu’elles soient perçues positivement ou non, ces
pratiques sont une réalité pour toute entreprise et aident à développer des stratégies
marketing, de relation client ou par exemple prévoir des saisonnalités de vente.
Le Big Data englobe ces pratiques, qui ne sont qu’un pion dans l’échiquier par
rapport aux domaines d’applications qu’il peut avoir. Dans son principe, le Big Data
fait bien entendu référence au traitement de données de masse. Mais la nuance
avec un traitement de données classique est que celui-ci ne consiste pas en un
traitement de données statiques qui établissent des rapports d’existant ou
prévisionnel, toujours sur des référentiels piochés à un instant T.
Le Big Data s’établit sur des données dynamiques et non structurées, évoluant avec
le temps et interdisant intrinsèquement l’obsolescence de la donnée.
Son fonctionnement est basé sur des algorithmes complexes qui n’étaient pas
exploitables sans moyens techniques colossaux il y a quelques années.
Aujourd’hui, le développement et la mise en circulation d’interfaces de

programmation dédiées au traitement et au recoupage de données de masse
rendent accessibles ces solutions à la majorité des entreprises. Ces interfaces, API
en anglais, sont des logiciels contenant des données algorithmiques permettant de
faire le lien avec d’autres logiciels de traitement de données. Il s’agit d’une façade
permettant à chaque entreprise de traiter les données à travers ses différents outils
existants en y incluant le traitement de données de masse. L’API le plus démocratisé
dans le Big Data est aujourd’hui Hadoop, développé par la société Apache. C’est
l’accès des entreprises à ce type d’API Open source qui a permis au Big Data de se
démocratiser.
7

Ainsi, la course au Big Data est lancée, voyant les budgets attribués à celui-ci
progressivement croître, sans pour autant s’envoler, les entreprises se mettant à la
page, mais encore à demi-mot. Ce sera alors au plus téméraire que reviendra les
bénéfices d’un avantage concurrentiel face aux plus réticents si bénéfice il y a.
Car le Big Data, comme tout mouvement précurseur, voit s’affronter la nouvelle et
l’ancienne école. L’enjeu est alors de comprendre les tenants et aboutissants de ce
mouvement en faisant ressortir les opportunités, les contraintes et les menaces qui
en découlent, tant pour les personnes physiques que morales, en s’intéressant aux
nombreuses facettes qu’il présente.
Toute grande innovation a connu différentes phases dans son évolution. Tel le
“cycle de vie des produits” de Raymond Vernon, les innovations connaissent
plusieurs étapes de développement ayant des retombées dans différents domaines :
- Le lancement, avec un nombre limité de personnes touchées, mais connaissant

une croissance exponentielle. Le lancement est la période clé au niveau
entrepreneurial pour se démarquer des concurrents
- La croissance, qui est la phase où l’environnement externe des entreprises est en

mutation avec la refonte ou la création de nouveaux marchés
- La maturité, avec l’apparition de nombreux concurrents atteignant parfois la

saturation du marché. Dans cette période, des innovations incrémentales apportent
des améliorations techniques formant éventuellement des ramifications dans le
marché visé. C’est également à cette période qu’apparaissent des régulations
d’ordre juridique encadrant les pratiques liées à cette innovation.
Ce cheminement ne fera pas défaut à la tendance du Big Data, qui pourrait déjà être
qualifié comme entrant rapidement vers sa phase de croissance tant le nombre
d’acteurs spécialisés dans ce domaine fleurissent dans le monde entier.
La réflexion qui se présente alors à nous est celle de pouvoir comprendre et

prévoir les différentes phases de vie de cette innovation afin de prévoir les
changements engrangés et agir en conséquence pour une utilisation
économiquement viable et une régulation saine.
8

L’objectif de cette étude est de présenter le rayonnement du Big Data sur l’ensemble
des domaines qu’il impacte afin d’en prévoir l’avenir, soit :
Comment appréhender le Big Data dans un monde digitalisé à outrance ?
Le premier défi à relever dans notre recherche est de déterminer ce que représente
réellement le Big Data. Les avis des professionnels sont en effet tranchés. On
observe un foisonnement d’avis manichéens présentant d’un côté le Big Data
comme une révolution qui transformera profondément le monde tel que nous le
connaissons tant il est riche en possibilités, et de l’autre, il est présenté comme un
engouement éphémère servant aux agences à attirer le client mal informé en lui
faisant miroiter des offres extraordinaires n’étant en réalité que des applications
éprouvées depuis un certain nombre d’années.
Le sujet du Big Data semble alors exiger une compréhension technique poussée afin
de révéler sa véritable nature.
En constatant ces divergences d’opinions sur le sujet et en pondérant nos différentes

sources, nous aborderons dans un premier temps le sujet par le fait que le Big Data
est une technologie nouvelle, permettant de traiter un nombre plus important de
données, mais ne le rendant pas fondamentalement différent des possibilités
actuelles que permettent les techniques de datamining.
Cependant, les nombreux domaines d’applications que semblent toucher ce

phénomène nous amènent à penser que cette technologie peut apporter des
applications nouvelles, créatrices de valeur pour les entreprises. La capacité de
traitement de données non structurées par les technologies Big Data apporte un lot
de questionnements sur les possibilités que peuvent générer ces données en
permettant un degré de finesse plus important que les solutions antérieures par
rapprochement de données de sources diverses. Un tel fonctionnement semble
constituer un outil efficace pour le ciblage des campagnes, augmentant ainsi les
retours sur investissement.
9

Nous étudierons alors dans un second temps le Big Data comme moyen
d’amélioration de l’efficacité commerciale des entreprises.
En permettant la déduction des cibles de manière plus efficace et en se basant sur

des données extérieures à l’entreprise, ces technologies soulèvent enfin des
questions sur la protection de la vie privée. La collecte des données personnelles
sous forme digitale est déjà une problématique majeure sur le web, provoquant de
nombreuses inquiétudes de la part de la population. Un système permettant alors de
recouper des informations diverses laissées par les internautes laissent penser que
la protection des données personnelles est en danger. Nous présenterons alors dans
un troisième temps le Big Data comme une menace pour les individus et leurs
données personnelles.
10

I. Comprendre le Big Data
1) Principes et origines
En 1965, le gouvernement américain créait le 1er data center pour stocker ses plus
de 742 millions de déclarations de revenus et 175 millions d’empreintes digitales. Le
projet a été très vite assimilé à “Big Brother” et représenta le début des stockages
de données numériques. En 1989, le scientifique anglais Tom Berners-Lee inventa le
futur World Wide Web, voulant faciliter le partage d’informations via un système
hypertexte. Il ne se rendait pas compte à ce moment là de l’impact que cette
invention allait avoir. Au début des années 1990, face à l’évolution du nombre de
mobiles connectés à Internet, les données évoluèrent d’une manière incroyable. En
2005, Roger Moulagas de O’Reilly Media formula le terme de “Big Data”, un an après
que la société inventa le “Web 2.0”1. Il utilisera ce terme pour faire référence à un
nombre de données tellement grand qu’il était impossible de gérer et de traiter avec
les outils de Business Intelligence actuels.
Dans la même année, Apache créa Hadoop, un framework open-source permettant

de faciliter la création d’applications distribuées et échelonnables. Son objectif était
d’indexer l’ensemble du “World Wide Web”.
Depuis ces 5 dernières années, on voit apparaître de plus en plus de start-ups

s’intéresser aux projets Big Data. Elles essaient d’aider les sociétés à comprendre,
gérer et traiter ces masses d’informations. Aussi bien que les entreprises
commencent peu à peu à adopter le Big Data, autant qu’Internet en 1993, la
révolution Big Data est encore devant nous et de grands changements apparaîtront
dans les prochaines années.
Facebook a racheté WhatsApp pour 19 Milliards de dollars qui ne comptait

pas moins de 450 millions d’utilisateurs mensuel; 2,22 Milliards de dollars de résultat
net en 2013 pour Pandora, webradio intégrant un service automatisé de

1 « Think Bigger: Developing a Successful Big Data Strategy for your business”, Mark Van Rijmenam,
2014, p. 12
11

recommandation musicale; le jeu Criminal Game avec plus de 100 millions
d’utilisateurs n°1 des jeux Facebook… Avec un marché estimé à 6,3 Milliards de
dollars en 2012 et 50 Miliards en 2018, pour un taux de croissance annuel de 40,5%
de 2012 à 2018, selon Transparency Market Research2, le marché de la Big Data
fascine tous les entrepreneurs et Wall Street.
Chaque minute, environ 350 000 tweets postés, 200 millions de mails envoyés, 15
millions de SMS, 25 heures de vidéos mises en ligne sur Youtube, 600 000
commentaires écrits sur Facebook… des flots d’octets, un océan de données, un
déluge d’informations… La donnée serait-elle devenue l’or noir du 21ème siècle ?
Le Big Data est devenu trop complexe et trop dynamique pour être en mesure de
traiter, gérer et analyser ces masses de données avec les outils traditionnels.
Heureusement, avec les matériels, outils et algorithmes récemment développés,
toutes ces données peuvent être transformées en données utiles. Les idées
provenues de ces informations peuvent être utilisées pour développer et améliorer
les prises de décision, l'efficacité, réduire les coûts, et augmenter les bénéfices. La
donnée se retrouve au coeur des stratégies des entreprises qui cherchent à
optimiser son usage afin de pouvoir cibler efficacement leur marché, d’améliorer
leurs produits et services et leur relation client. Selon une étude CompTIA3, 95% des
entreprises considèrent le Big Data comme un enjeu majeur pour leur business,
mais seulement 37% des cadres comprennent concrètement ce qu’il signifie.
Le “Big Data” ? Définissons-le.
Littéralement, le terme “Big Data” signifie “gros volume de données”. La définition

initiale a été définie par le cabinet McKinsey and Company en 2011 avec la célèbre
règle des 3 “V” :
- Volume : il décrit notre situation de plus en plus nomade et notre utilisation

grandissante des nouvelles technologies (smartphones, réseaux sociaux, etc.) qui
nous incite davantage à laisser derrière nous des données numériques autant

2 Transparency Market Research, “Big Data Market - Global Scenario, Trends, Industry Analysis,
Size, Share and Forecast, 2012-2018”, 2013
3 CompTIA, 2nd Annual Big Data Insights & Opportunities Study, 2013
12

professionnelles que personnelles. De plus en plus de données sont générées dans
le monde. On parlait il n’y a pas si longtemps de gigaoctets (109), aujourd’hui nous
parlons plutôt de téraoctets (1012), de pétaoctets (1015), d’exaoctets (1018) et même
de zettaoctets (1021) (2,72 zettaoctets produits en 2012). On estime qu’en 2020 cette
masse va grandement évoluer et atteindre à plus de 40 zettaoctets.
- Vitesse ou Vélocité : ces données générées évoluent à une vitesse considérable.

Elles circulent de plus en plus rapidement, provenant de sources indépendantes
mais connectées entre elles, dans des réseaux qui agissent de moins en moins en
silos. Elles évoluent si rapidement qu’elles nécessiteraient un traitement vif, presque
en temps réel, pour pouvoir exploiter les informations et prendre des décisions en
conséquence.
- Variété : les sources de ces données sont diverses. Elles ne proviennent pas
seulement de sources internes mais également de l’environnement qui l’entoure et
notamment de la montée croissante des objets connectés : du smartphone à la
tablette, de la montre à la voiture connectée, en passant par la Smart TV. Ces objets
peuvent tracer ses utilisateurs, leur envoyer des informations précises et
personnalisées, même quand ceux-ci ne sont pas en fonction. Ces données sont
émises par autant de langages, codes et formats différents : il y a les données
structurées (fichiers .csv, géolocalisation, HTML5…), semi-structurées (documents
EDI, flux RSS, fichiers XML…) et non-structurées (contenus dynamiques, emails,
photos, SMS, médias sociaux, blogs, reconnaissance vocale…). Le principe de
sources multiples est un principe capital dans le process “Big Data”. Il est
impensable de bâtir un projet décisionnel en se basant sur une source unique de
données et prétendre que celle-ci détient la vérité. Nous devons matcher plusieurs
données provenant de différentes sources pour pouvoir en déduire quoi que ce soit.
Ces technologies étaient censées répondre à l’explosion des données dans le

paysage numérique (le “data déluge”). Puis ces qualifications ont évolué et aux 3 “V”
du Big Data s’ajoute le 4ème “V”, la Valeur que représentent les données, autant
pour l’entreprise que pour l’utilisateur. Les entreprises sont conscientes de la valeur
que peuvent représenter ces données et n’hésitent pas à créer une relation
“donnant-donnant” avec ses utilisateurs. Elles leur propose des remises, des
services supplémentaires, personnalisés, des cadeaux, sans contrepartie financière
13

directe, en échange de la transmission de leurs données, leur avis, centres
d’intérêts...
A la valeur s’ajoute une notion plus qualitative véhiculée par le 5ème “V”, la Véracité
des données (disposer de données fiables pour leur traitement).
Ces cinq éléments ont servi pendant longtemps de boîte à outils pour comprendre
les fondements du Big Data, à savoir l’apparition de nouvelles technologies
innovantes capables de traiter dans un temps limité de grands volumes de données
afin de valoriser l’information non exploitée de l’entreprise. Selon le cabinet de
conseil en architecture d’entreprise Redsen, il s’agit de :
“Un ensemble de technologies, d’architecture, d’outils et de procédures

permettant à une entreprise de pouvoir capter, traiter et analyser en un temps
relativement court de larges quantités de données et contenus hétérogènes et
changeants, et d’en extraire les informations pertinentes à un coût accessible”4.
L’intérêt de nombreux projets Big Data réside dans la possibilité de déchiffrer et

d’interpréter un grand nombre d’informations.
Les données sont devenues de plus en plus accessibles et peuvent être utilisées
pour nous aider à améliorer nos stratégies marketing ou encore notre service
clientèle. Certes, toutes les données n’ont pas nécessairement besoin d’être
analysées. Mais la donnée bien triée, sectionnée et exploitée, peut représenter une
source d’informations fiable. Derrière ce terme marketing se trouve une notion assez
simple et de nombreuses opportunités. Analyser ces données permet d’identifier les
pistes à exploiter et croître notre activité.
En effet, le monde crée de plus en plus de données chaque jour et 90% des données
actuelles ont été créées seulement ces deux dernières années. Le cabinet Gartner
prévoit, d’ici 5 ans, une croissance de +800% de données à traiter5. Les moyens
actuels pour gérer et traiter les données ne peuvent pas supporter une si grande
masse de volume. Les outils actuels de datamining peuvent analyser un grand

4 http://www.redsen-consulting.com/2013/06/big-data/
5 Gartner, “Infrastructure & Operations : Top 10 Trends to watch”, 2010
14

nombre de données mais seulement sur un échantillon dit représentatif; le Big Data
permet d’analyser l’ensemble des données. Jusqu’alors, la tendance était de
structurer les données dans les systèmes d’informations pour en favoriser le
stockage et l’analyse. Des outils permettent de structurer et de normaliser les
données en amont de leur intégration dans le système d’informations. Cependant, de
nouveaux types de données ont fait leur apparition, et prendrons une place
importante dans les stratégies des entreprises et prises de décisions.
Il y a quelques années, ces technologies étaient réservées aux multinationales mais

aujourd’hui leurs usages se sont largement démocratisés. Les coûts liés aux
traitements informatiques de ces données ont beaucoup diminué, confirme Vincent
Mady, directeur technique de Tradelab, le premier acheteur indépendant en France
d’espaces publicitaires en Real Time Bidding (RTB) 6 . Aujourd’hui, le coût de
stockage d’un téraoctet s’élève à moins de 100 dollars alors qu’il y a 10 ans, il
pouvait atteindre plusieurs milliers de dollars. Il est possible de stocker beaucoup
plus d’informations que dans le passé.
2) Spécificités techniques
Le traitement de bases de données, qu’est ce que le Big Data apporte de nouveau?
Avant toute chose, et ce afin de comprendre la réelle différenciation entre le Big Data
et le traitement de base de données « classique », il est primordial de saisir les
spécifications techniques du traitement de données de masse.
Les bases SQL
Le traitement de bases de données « classique » utilisé dans la grande majorité des

entreprises de nos jours fonctionne sur des bases de données dites SQL. Ces bases
fonctionnent sous forme de colonnes et sont régies par un principe de « clés »
permettant de consolider celles-ci selon leurs fonctions.

6
« Big Data : est-ce bien le pétrole du XXIè siècle ? », Revue INfluencia, 2014, p.40
15

Par exemple, un e-commerçant qui tient une base contenant l’ensemble de ses
produits définira une clé qui sera la référence du produit, permettant ainsi de
structurer sa base en différenciant chaque produit par un référentiel présentant sur
une ligne l’ensemble des données qui lui sont attribuées (couleur, poids, prix, etc.).
En utilisant ce système de clés, les bases de données SQL peuvent être liées entre
elles afin de définir une structuration logique, en liant par exemple la base de
produits à la base client afin de visualiser quel produit a été acheté par quel client, à
quelle date…
Il est ainsi possible d’appeler différentes bases liées entre elles par des requêtes,
écrites dans un langage informatique dédié à ce type de base qu’est MySQL.
Aujourd’hui, même une personne n’ayant que des connaissances basiques en

MySQL peut structurer ses bases de données grâce à des logiciels intuitifs tels que
Access ou un simple tableur Excel.
Ces bases de données sont hébergées sous un seul et même serveur afin que la
plateforme utilisant le langage MySQL puisse piocher les données dans les
différentes bases. Ce sont des bases structurées de manière logique, qui
représentent un outil efficace, voire indispensable pour toute entreprise effectuant
des transactions. Elles peuvent être suffisantes pour gérer des campagnes digitales
et permettre des réflexions sur des axes de développement stratégique en étudiant
via le tracking par exemple, les différents parcours d’achat des acheteurs.
Pendant de nombreuses années, cette technologie représentait la seule alternative

pour évaluer les tendances et évaluer les opportunités de développement
économique et marketing. Or les technologies utilisant l’API Hadoop, application la
plus démocratisée dans l’usage du Big Data, change la donne en introduisant un
fonctionnement et une logique complètement différente.
16

Les différences fondamentales entre le SQL et les bases traitées
par Hadoop
Il existe trois grandes différences entre les bases de données utilisant les API de
type Hadoop et les bases SQL :
Comme nous avons pu le voir, les bases SQL consistent en des bases structurées et
figées par un système de clés de répartition. Afin que deux bases puissent
communiquer entre elles, il est primordial de connaître leur structuration en leur
attribuant une clé commune. Si les deux structurations ne coïncident pas, les
logiciels de traitement relèvent des erreurs et ne renvoient donc aucun résultat.
A l’inverse, Hadoop est basé sur une logique non structurée. Le principe étant
d’utiliser un système de distribution de fichiers nommé HDFS (Hadoop Distributed
File System), qui permet, par un algorithme traduit en langage Java, d’appeler les
données dont il a besoin. Avec Hadoop, la liberté est donc bien plus grande car il est
ainsi possible de faire coïncider des données qui n’auraient en apparence aucun lien
logique.
La deuxième différence entre les bases SQL et celles utilisant le système Hadoop
réside dans la vitesse de traitement des données. Les bases SQL sont constituées
de données textuelles structurées de manière logique sur un serveur unique. Les
bases Hadoop, pour leur part, comprennent des fichiers compressés pouvant être de
tous types (vidéo, texte, image, son…). Ces fichiers compressés sont copiés
plusieurs fois dans une multitude de serveurs. Hadoop et tous les APIs de Big Data
fonctionnent par un système de « nœuds informatiques » désignés par un nom de
“NameNode” permettant de retrouver les données. Ce sont ces nœuds qui sont
appelés par les algorithmes Java.
En résumé, lorsqu’une requête algorithmique est créée, les nœuds appelant les
fichiers sur les différents serveurs sont sollicités afin de retrouver les données, et
c’est bien ici que le fait de copier les fichiers sur plusieurs serveurs prend son sens,
car Hadoop a la capacité d’assigner des requêtes spécifiques à chacun des
serveurs. Nous pouvons prendre comme exemple une entreprise telle que
Facebook, souhaitant visualiser tous les commentaires parlant du président Obama
17

de manière positive en cherchant les mots clés « j’aime Obama ». En appelant tous
les serveurs contenant les données textuelles de Facebook, le système Hadoop peut
assigner par exemple un mois ou année spécifique à chacun des serveurs. La
vitesse de traitement des données est ainsi décuplée par le nombre de serveurs. Là
où une base SQL aurait mis plusieurs jours (voire semaines) à fournir un résultat,
pour peu que l’algorithme soit correct, le système de Big Data renvoie une réponse
quasi-instantanée.
La troisième différence majeure entre le traitement de bases de données SQL et

celles utilisées en Big Data concerne la façon dont les requêtes sont analysées.
Dans un système hiérarchisé de type SQL, une requête fait appel à tous les champs
requis dans la base de données afin d’obtenir une réponse unique et précise, ce qui
implique que si un élément d’une des bases ne remonte pas de réponse, alors la
requête ne peut aboutir. A contrario, une requête via Hadoop va rechercher dans les
différents serveurs toutes les informations présentes, et dans le cas où elles venaient
à manquer, la requête aboutirait tout de même en recherchant la réponse la plus
proche. Ce fonctionnement garantit d’obtenir une réponse à chaque requête, ce qui
est un réel atout lors de dysfonctionnement technique de serveurs puisque
l’instigateur de la requête aura toujours accès à la réponse la plus proche de ses
attentes.
Les datas warehouses ou le HDFS, un choix fondamental pour les

entreprises
Lorsque l’on parle de traitement de bases de données, il est récurrent d’entendre des
termes tels que data warehouses, MPP ou SMP. Un data warehouse est un serveur
recueillant l’ensemble des données d’une entreprise. La fonction d’un data
warehouse est de stocker et structurer les bases afin d’optimiser l’espace
(suppression de doublons, données obsolètes…), mais aussi de répondre
efficacement aux requêtes en regroupant certaines bases ensemble (datamarts) afin
d’accélérer des requêtes spécifiques.
18

Les technologies utilisées par les datas warehouses sont les bases structurées de
type SQL et sont régies par un système de traitement SMP (Symmetric Processing).
Les systèmes SMP fonctionnent de manière à gérer l’ensemble des données en se
rattachant à un CPU unique (microprocesseur). Les architectures utilisant les
frameworks de type Hadoop avec pour système HDFS, sont quant à elles gérées sur
des bases non structurées (NoSQL) et régies par un système nommé MPP
(Massively Parallel Processing), qui permet de coordonner les bases via de multiples
CPUs (serveurs).
Après avoir déterminé plus haut les différences majeures entre bases structurées
SQL et non structurées NoSQL, il semble à priori tomber sous le sens de préférer
une architecture de base de type non structuré en utilisant donc un système HDFS,
tant les possibilités de cette dernière semblent prometteuses.
Coûts, flexibilité & variété
A ce propos, il est important de souligner la différence en terme de coût entre des

projets Big Data et ceux ayant recours aux systèmes de datas warehouses
(entrepôts de données). Comme il a été explicité, un système Big Data se base sur
un stockage de données sur de multiples serveurs. Les datas warehouses utilisent
eux des serveurs uniques. Les serveurs de datas warehouses ont l’avantage d’être
très puissants et d’avoir des équipes dédiées à leurs bon
fonctionnement. Cependant, ce type de stockage présente un coût très important
pour les entreprises.
D’après l’étude publiée par Symantec7, la croissance des données des entreprises
devrait atteindre plus de 67% en un an et cette tendance devrait être exponentielle à
l’avenir. Dans ce contexte, les datas warehouses font d’énormes profits au détriment
des entreprises, les entreprises se voyant être dans l’obligation d’augmenter leurs
capacités de stockage dues à l'accroissement de leurs données à héberger. La
différence de structuration d’hébergement des données avec un traitement Big Data
prend alors tout son sens. Les serveurs multiples utilisés en Big Data représentent
un coût très faible car ils sont dotés de capacités plus modestes et sont moins

7 “State of Information Survey”, 2012, Symantec
19

demandeurs en terme de maintenance des bases. Le cas de la société Orange peut
illustrer cet avantage en terme de coût, en ayant fait le choix de passer à une
architecture Big Data passant par le framework Hadoop pour le traitement de ses
numéros d’identifications de Box internet. Un an après la mise en place de ce
système, Orange a réussi à diviser par vingt ses coûts de traitements de bases de
données.
Cette structuration présente à la fois un avantage en terme de coûts, mais aussi en

terme de stratégie. Le système de Big Data avec des technologies de type Hadoop
est configuré pour fonctionner sur un nombre illimité de serveurs. Les entreprises
peuvent ainsi établir de réelles stratégies de croissance de volume de données sans
grande répercussion organisationnelle. Là où la restructuration des bases dans un
data warehouse dure en moyenne une année, un système Big Data peut être mis en
place en quelques mois en ayant la possibilité d’évoluer et de s’agrandir à l’infini.
Cette flexibilité des solutions Big Data permet ainsi un traitement à la fois accessible
par son coût, performant par sa vitesse et précis par la variété de type de données et
la segmentation de celle-ci selon les supports.
Elle présente aussi l’avantage de pouvoir créer des configurations adaptées à toute
problématique d’entreprise. Grâce à des outils flexibles et riches en enseignements,
le Big Data tend ainsi à occuper une place prépondérante dans la prise de décision.
3) La France, en route vers le Big Data
Encore peu d’entreprises se sont lancées dans des projets Big Data et les pays qui
encouragent le secteur sont encore rares.
Selon une étude réalisée auprès de 1217 compagnies ayant un chiffre d’affaires
supérieur à 1 Milliard USD (équivalent à 734,6 Millions €) dans 9 pays sur 4 grandes
régions (USA, Europe, Asie Pacifique et Amérique Latine), au début 2013, 53% des
entreprises affirme avoir des initiatives en terme de projet Big Data. Sur ces 643
entreprises, 43% prédisent un ROI de plus de 25%. Parmi celles-ci, 15% auraient
20

investi plus de 100 Millions $ (soit 73,5 Millions €) et 7% plus de 500 Millions $ (soit
367,3 Millions €)8.
Parmi les domaines d’activité, les télécoms, le tourisme, l’informatique et la banque

sont ceux qui investissent le plus dans le Big Data. Cependant, ce sont les services
publics et le secteur de l’énergie qui espère les plus forts retours sur investissement.
Les Etats-Unis seraient les plus avancés dans le domaine. En 2012, l’administration
américaine a communiqué un investissement de 200 Millions USD (147 Millions €)
pour innover dans les technologies (analyse, collecte et stockage des données),
activer la recherche en science et ingénierie, consolider la sécurité, développer
l’apprentissage, l’enseignement et une main d’oeuvre qualifiée.
Quant à l’Irlande, elle pourrait devenir la référence en terme de technologies Big

Data. Son plan d’action 2013 pour l’emploi inclurait le développement d’une branche
sur le Big Data, de sa formation à la main d’oeuvre jusqu’à la création d’entreprise.
La France est arrivée un peu plus tard dans le domaine Big Data. La France croit en
l’énorme potentiel économique que peut représenter la Big Data. Une filière Big Data
pourrait bientôt voir le jour. Dans le rapport Commission Innovation 2025, qui a pour
objectif de « définir des ambitions d’innovations devant conduire à des activités
créatrices de richesses et d’emplois », la valorisation des données de masse fait
partie de ces sept ambitions pour l’innovation :
“La multiplication des données créées par les particuliers, les entreprises et les
pouvoirs publics sera porteuse de nouveaux usages et de gains de productivité.
La mise à disposition par l’État et par ses opérateurs des données publiques
constituera une opportunité pour favoriser l’essor de nouvelles start-up. Ici
encore, la France présente de nombreux atouts. L’école française de
mathématiques et de statistiques est une des meilleures au monde. Plusieurs
entreprises sont leaders de sous-segments. La sécurité des données et des

8 Etude TATA Consultancy Services - The Emerging Big Returns on Big Data - ATCS 2013 Global
Trend Study
21

communications sur Internet représente également un terreau pour de
nombreuses entreprises.”9
La filière Big Data représenterait 4,8 Milliards d’euros en 2010 en France, avec une
croissance de 7% par an avec des conséquences plus fortes sur tous les secteurs
économiques par rapport aux autres pays. La France compte bien devenir l’un des
leaders dans le domaine et pour ce faire, elle possède plusieurs avantages :
- Elle détient, au niveau national, une énorme base de données qui n’attend que
d’être valorisée.
- Elle est très bien dotée en terme de formation et d’apprentissage pour éduquer des
statisticiens et mathématiciens de haut niveau pouvant analyser et traiter des gros
volumes de données hétérogènes. Les étudiants de l’école française de
mathématiques et statistiques internationalement reconnue comme école
d’excellence, sont également très demandés
- Elle possède de nombreuses entreprises internationales spécialisées dans

l’Internet des objets ou encore dans le ciblage publicitaire (Criteo, un des leaders
mondiaux dans le domaine)
- Elle est perçue comme pionnière dans le secteur des données personnelles, avec
la Commission Nationale de l’Informatique et des Libertés (CNIL) qui justifie une
organisation et une législation claires et équilibrées.
La valorisation de ces données de masse en France comporte cependant certaines

difficultés :
- Elle doit en premier lieu développer de nouvelles solutions innovantes (nouvelles

architectures de modèles, analyses en temps réel, nouveaux modèles de prédiction,
etc.) et de nouveaux modèles économiques.
- Des débats sont posés entre liberté d’utilisation et sécurité des données. Même si
la majorité des données sont anonymes et donc non nominatives, la question de la
frontière entre accessibilité et protection de la vie privée est légitime.

9 Commission Innovation 2025 - Un principe et sept ambitions pour l’innovation, commission présidée
par Anne Lauvergeon
22

Même si certains cas devront être gérés spécifiquement, l’admission est certaine de
pouvoir trouver un compromis et une relation gagnant-gagnant dans la gestion des
données entre les entreprises et les utilisateurs.
II. Big Data, du fantasme à la réalité
1) Le changement des modèles de pensée
Le Big Data comme support à la réflexion
Bien souvent aujourd’hui, les projets Big Data sont inscrits dans une logique de veille
d’activité ou d’amélioration de l’existant dans le but de devenir des supports d’aide à
la décision.
L’exemple du site de e-commerce Vega.fr illustre bien ce phénomène. Sylviane

Lopès, directrice commerciale de la société, a mis en place en 2013 un projet Big
Data dans le but de déterminer la corrélation entre les offres et les comportements
client. Après avoir analysé l’appétence des clients aux différentes offres catalogue
papier, il a été décelé que certains profils de clients BtoB n’étaient pas intéressés par
certaines offres du catalogue général. Cette constatation était déjà observée par les
équipes commerciales depuis plusieurs années, mais aucune donnée tangible
n’avait encore été ressortie afin de préciser quels types de clients en particulier
étaient ou pas attirés par certains produits. Le projet aboutit finalement à la
suppression d’offres du catalogue général et à la création de catalogues spécifiques
basés sur leurs intérêts. A la mise en place de ce projet, Vega.fr a ainsi pu
augmenter ses bénéfices à hauteur de 17% tout en réduisant ses coûts d’envois de
catalogues. Les informations procurées par les moyens du Big Data ont pu apporter
des données concrètes pour appuyer le projet, étant alors un élément de
réassurance venant initialement d’une réflexion humaine. Il aide ainsi à la mise en
place de projets qui n’auraient pas vu le jour sans données pragmatiques pour les
appuyer.
23

Le Big Data s’inscrit comme une fonction de support à la réflexion, mais les usages
du Big Data vont plus loin, avec notamment la possibilité de prédire des événements
futurs permettant des orientations stratégiques.
Le prévisionnel
Évoquons le cas de la start-up « Recorded Future », spécialisée dans la prévision

d’évènements futurs basée sur des compilations de données passées telles que des
articles, commentaires ou évènements. Par des systèmes complexes de corrélations
entre chaque donnée publique traitée, Recorded Future met en exergue des
saisonnalités, des cycles ou des évènements probables basés sur des données
accumulées au fil du temps. A voir ce type d’avancée, nous ne sommes plus très loin
du fantasme de la connaissance de notre futur. Bien évidemment, les événements
relèvent plus d’une prévision que d’une prédiction, mais la société annonce une
précision de 70% à 80% sur toutes ces prévisions.
Ce type d’usage du Big Data apporte une réelle valeur ajoutée aux entreprises par
des informations riches procurant de réels avantages concurrentiels en permettant
des prises de décisions stratégiques qui n’auraient pu voir le jour sans ces
informations.
Grâce à ces données riches, les hypothèses de développement des marchés ou des
opportunités se voient être plus précises, ayant une base justifiable par des
arguments plus concrets.
Des opportunités ex nihilo
Les usages du Big Data peuvent aller encore plus loin, en créant les opportunités là
où aucun être humain n’aurait décelé car sortant de toute logique.
La base principale permettant l’usage des datas est la segmentation. Les

algorithmes se basent sur cette logique afin de puiser les réponses ayant le plus de
sens en partant de la segmentation la plus générale telle que l’âge, le sexe, le lieu
d’habitation… jusqu’à atteindre des niveaux d’analyse permettant des
24

rapprochements parfois inattendus. Par exemple, la société Octopeek, entreprise
dédiée à l’enrichissement de données pour des campagnes d’e-mailings, avait
décelé que 70% des personnes étant nées entre les années 1970 à 1975 ne
donnaient pas leur véritable âge lorsqu’elles souscrivaient à une offre sur Internet10.
Cette donnée statistique n’aurait pas fait sens aux yeux de n’importe quel analyste
en études quantitatives classiques par le fait que celui-ci n’aurait pas chercher
instinctivement ce type d’information, mais a pu être decelé grâce à des corrélations
de données.
L’intelligence artificielle et les logiciels de partitionnement de

données : comment font-ils évoluer la réflexion marketing ?
Il existe dans le Big Data de nombreuses applications permettant le partitionnement

de données avec apprentissage automatique tels que Mahout ou Hbase.
Techniquement, ces bases logicielles sont raccordées aux frameworks Hadoop.
Elles contiennent des algorithmes qui évoluent constamment en s’enrichissant par
elles-mêmes des données qu’elles puisent en utilisant des algorithmes
d’apprentissage se complexifiant au fur et à mesure du traitement des données. Bien
souvent ces logiciels incluent une façade utilisateur intuitive pouvant être ainsi
compréhensible pour l’utilisateur. Le premier avantage de ce type de solution est de
permettre de faire appel aux algorithmes contenus dans ces logiciels sans avoir
besoin d’utiliser des requêtes complexes en langage Java.
Le second est aussi celui d’utiliser une plateforme évolutive puisque les algorithmes
d’apprentissage permettent des segmentations automatiques en escaliers jusqu’à
atteindre un degré de finesse extrêmement précis.
Ces systèmes utilisant l’intelligence artificielle permettent une segmentation non pas
basée sur la seule logique mais sur des corrélations pragmatiques par
rapprochements des données et c’est en cela que le Big Data dépasse son rôle de
simple moyen permettant de légitimer le lancement d’actions stratégiques.

10 Entretien avec M. Abdelkrim Talhaoui, co-fondateur de Octopeek, 13 mai 2014
25

La véritable révolution du Big Data tient dans l’avènement d’un schéma de réflexion
nouveau, à l’opposé de celui précédemment appliqué, et ce grâce aux systèmes
d’intelligence artificielle.
Aujourd’hui, les plus grandes entreprises dont le business model est basé sur le
traitement en masse de données s’intéressent aux solutions d’intelligence artificielle.
En janvier 2014, le géant Google a ainsi racheté la société britannique DeepMind,

une société spécialisée dans le « machine learning », discipline scientifique
d’apprentissage algorithmique automatisé permettant la contextualisation des
données par des calculs complexes de probabilités basés sur des connaissances
mêlant mathématiques et neurosciences. Par ce rachat, Google entend optimiser la
capacité de ses « robots » à lire et indexer les pages web en identifiant précisément
dans quel univers sémantique et contextuel elles évoluent, mais également anticiper
les requêtes des internautes sur le moteur de recherche.
Les solutions utilisant ces technologies sont en mesure de connaître le contexte

dans lequel une recherche est effectuée par rapport à l’ensemble des données
précédemment recueillies tel que l’illustre l’exemple de la lycéenne apprenant qu’elle
était enceinte par le biais de bons de réductions destinés aux jeunes mères envoyés
par la société Target. La société avait pu déterminer que la jeune fille était enceinte
en se basant sur un panel de produits (hors des produits liés à la grossesse) qui
avaient été identifiés comme étant achetés principalement par un public de femmes
enceintes. Le cas de Target n’est pas isolé et les possibilités d’usage de l’intelligence
artificielle ne connaissent pas de limite. Les algorithmes par apprentissage
automatisé ne cessent de se développer afin d’acquérir des résultats infaillibles,
défiant même la logique humaine du fait de leur capacité de traitement d’information
décuplée par les technologies de Big Data. L’Intelligence artificielle de « Her », film
de Spike Jonze dans lequel le personnage principal tombe amoureux d’un système
d’exploitation dématérialisé, ne semble pas si éloigné, bien que l’on soit encore loin
de pouvoir dire qu’une intelligence artificielle puisse s’émanciper. Il n’en reste que
l’accroissement de l’utilisation de ce type de technologie engrange dès aujourd’hui
des changements fondamentaux dans la réflexion amenant à l’optimisation des
offres commerciales et des décisions stratégiques.
26

Réflexion cognitive VS. constats pragmatiques
Le schéma classique de raisonnement amenant à une décision peut être rapproché

au fonctionnement de la pensée humaine. L’homme a une pensée structurée. En
partant d’une problématique à résoudre, le processus de réflexion cognitive s’inscrit
dans une succession de déductions amenant à des hypothèses. En partant de
celles-ci, la collecte d’informations permet de confirmer ou d’infirmer les hypothèses
émises.
L’esprit humain cherche la causalité. Dans cette recherche, il peut facilement

emprunter le mauvais chemin. Même si bien souvent la recherche de corrélations
basées sur une hypothèse peut sembler se vérifier concrètement par certains faits, la
complexité des facteurs intervenants dans une donnée font qu’un fait peut prouver
tout et son contraire. C’est cette recherche de causalité par hypothèses qui explique
la diversité d’opinions qui peut exister. C’est elle aussi qui permet la manipulation
des masses en présentant des faits sortis de leur contexte afin de conforter
l’hypothèse défendue. Dès lors qu’un lien de causalité est déterminé entre une
hypothèse et certains faits semblant la confirmer, la frontière est mince entre
hypothèse et conviction, amenant à des extrapolations parfois très lointaines de la
vérité. La clé de la compréhension du monde réside donc en la connaissance. Or
l’omniscience ne nous est pas accessible dans un monde aux règles complexes où
chaque secteur, chaque organisation et chaque individualité possède ses propres
codes.
Or le Big Data, via les logiciels de partitionnement de données, permet une autre
approche que la réflexion cognitive en amont. La réflexion est ici en aval, provenant
de constats, s’attachant plus à la manière de transformer ceux-ci en solutions
productives que recherchant une explication du phénomène; et bien souvent ce
constat est suffisant. On ne se préoccupe plus d’une réflexion chronophage et
imprécise face à une réalité statistique indiscutable. Ainsi, la partie analytique et
exploratoire est minimisée afin de focaliser la réflexion sur la transformation de cette
donnée en application utile.
27

Dans un cadre business, les études en marketing direct utilisées habituellement,
qu’elles soient quantitatives ou qualitatives, permettent souvent de répondre assez
efficacement aux hypothèses auxquelles elles sont censées apporter des solutions,
mais présentent deux défauts que le Big Data permet de contourner :
- Les études sont pensées et orientées en fonction d’une hypothèse posée en amont,
dès lors, celle-ci est empreinte de subjectivité. De plus, le choix des profils visés par
l’étude est lui encore subjectif dans une même logique
- Les études se basent toujours sur un échantillon de population représentatif afin de

pouvoir être traitées
En comparaison, les corrélations mises en évidence via les solutions logicielles

créent des opportunités ex nihilo en créant des profils qui ont de l’intérêt pour les
entreprises de manière personnalisée. Les clients d’une entreprise constituent en
eux-mêmes un profil de personne qui se démarque des clients d’autres marques. De
toutes les manières, une étude quantitative en marketing directe relèvera des
tendances de comportement sur un marché, alors que l’utilisation des datas révélera
les tendances de comportement des clients et prospects chauds de l’entreprise ayant
une réelle appétence pour les produits de la marque.
Dans une plus large mesure, c’est peut être le traitement de données de masse qui
peut nous éclairer sur le monde qui nous entoure, plus que des théories assujetties
au carcan de la réflexion humaine et de notre connaissance limitée.
La quasi-omniscience que peut nous apporter les datas est riche en signaux sociaux
et économiques qui pourront amener à redéfinir les cheminements de pensées. C’est
pourquoi les personnalités morales ont tout intérêt à trouver les meilleures
configurations afin de tirer partie de ces datas, en introduisant de nouvelles
technologies au sein de leur entité, mais également en redéfinissant leur
organisation interne.
28

2) Une refonte des métiers
Le Big Data devient peu à peu une préoccupation pour de nombreuses entreprises.
Les données, émises indépendamment les unes des autres, nécessitent une
organisation logique de ces éléments. Outre les moyens de stockage de plus en plus
importants, une évolution des métiers liés à la Data se met en place petit à petit au
sein des entreprises. L’ensemble des services liés au cycle de vie de la Data est
impacté : gestion, analyse, marketing, communication … Il devient alors essentiel de
développer une véritable culture Big Data au sein de l’ensemble de la société.
Les nouveaux métiers du Big Data
La mise en place d’un projet Big Data au sein d’une entreprise implique des
évolutions en terme de modèles algorithmiques et statistiques. Afin que les données
puissent être traitées et exploitées au mieux et n’ayant peut-être pas les ressources
nécessaires, les entreprises seront amenées à envisager l’embauche de nouveaux
profils, capables de gérer de tels outils.
La problématique des compétences est souvent évoquée lorsque l’on parle de Big
Data en entreprise. En effet, selon Gartner, seules 31% des entreprises estiment
avoir en interne le personnel suffisant pour lancer un projet Big Data 11 . Les
entreprises recherchent des profils pouvant réunir trois qualités majeures :
l’informatique (capable de programmer sur de nouveaux outils), les statistiques
(capable d’innover et modéliser) et business (capable d’interpréter les indicateurs et
les traduire opérationnellement). Ces nouveaux profils de métiers correspondent au
Data Scientist, un roi de la statistique qui deviendra bientôt une ressource
incontournable pour les sociétés qui souhaitent tirer profit de cette masse
d’informations dont ils disposent (en 2011, McKinsey déclarait qu’en 2018, la
demande de Data Scientist pourrait atteindre 1,5 millions de postes 12 ). Le Data
Scientist est bien plus qu’un simple mathématicien. Il est capable de comprendre les
problématiques stratégiques de l’entreprise pour laquelle il travaille et est à même

11 « Investing in Information and Analytics », 2013, Gartner
12 “Big Data : the Next Frontier for Innovation, Competition and Productivity”, 2011, McKinsey Global
Institute
29

d’identifier et d’extraire les données en conséquence, de les traiter, les analyser et
de les transformer en recommandations pour des choix stratégiques sensés.
Aujourd’hui, ce profil reste encore une perle rare. Une étude d’Accenture soutient
que plus de 80% des postes de Data Scientist ouverts en 2010 restent encore à
pourvoir en 201413. Les offres d’emploi liées à ce métier se multiplient depuis 2010 et
les rémunérations se montrent attractives mais les profils expérimentés manquent à
l’appel.
En attendant de trouver le profil idéal, les entreprises cherchent à monter en
compétences leurs propres équipes. Devant la pénurie de profils disponibles, la
solution est de rechercher des talents aux capacités complémentaires qui
combineront leurs approches et leur savoir-faire pour exploiter et visualiser ces
données non exploitées faites de chiffres, photos, vidéos… afin d’établir des
stratégies innovantes et performantes.
Mais au-delà de la mise à disposition d’outils, de ressources humaines et financières,

le Big Data soulève une problématique d’organisation au sein de la structure. En
effet, le Big Data prend en compte les données réparties depuis plusieurs services
de l’entreprise et met en place des processus décisionnels transverses, il implique
une approche globale avec comme point central les données.
L’analyse des données de masse créée de nouveaux besoins. Les compétences

techniques en interne sont plus poussées. Il est nécessaire que les équipes se
familiarisent avec ces nouvelles technologies.
L’évolution organisationnelle des entreprises
Dans une organisation n’ayant pas recours au Big Data, l’utilisation des bases
structurées au sein d’une entreprise implique un découpage des bases (par exemple
sous forme de datamarts) permettant à chaque service de gérer individuellement les
données qui leurs sont utiles. Le fonctionnement classique est donc que chaque

13 “Data Scientist : quelle place pour ce gourou dans notre société ? », Revue INfluencia, 2014, p.48
30

service exprime ses besoins au service data afin de créer des règles s’appliquant sur
leur base.
L’introduction d’une architecture de données non structurées pourrait provoquer un

bouleversement dans l’organisation interne de ces services en les regroupant tous
sur une base commune. Dès lors, de nombreuses questions se posent quant à
l’agencement interne des services et à la priorisation des besoins. Pour répondre à
ces questions, des arbitrages doivent être effectués en se basant sur les contraintes
techniques, les opportunités business, et les interconnexions entre les différentes
entités.
Une configuration Big Data induit l’arrivée de nouvelles technologies au sein de

l’entreprise, et plus précisément au sein du service ayant en charge la tenue de la
base de données. L’utilisation du framework Hadoop contraint à l’utilisation du
langage Java afin de créer de nouveaux algorithmes communiquant avec la base,
ajoutant une étape supplémentaire dans le processus de mise en place
d’algorithmes. De l’expression de besoin à la réalisation, il y a trois étapes : Le
service émetteur du besoin transmet sa demande au service data qui créé les
algorithmes mathématiques ; une fois ceux-ci réalisés, ils sont retranscrits en code
Java par un programmeur qualifié. Les programmeurs Java étant rares et coûteux,
ces tâches peuvent être sous traitées, mais pour que les besoins soient traités
efficacement, la tâche n’incombe pas exclusivement au programmeur. Chaque
service doit comprendre la dimension technique de l’architecture Big Data afin d’en
tirer le meilleur parti et adapter les règles mathématiques adaptées à une
retranscription en Java. Ainsi, une montée en compétence est nécessaire pour tous
les services entrants dans le système Big Data.
La question fondamentale bouleversant l’organisation des entreprises en interne tient

dans l’attribution des entités prenant les décisions sur les campagnes et les mises en
œuvres d’actions permises par le Big Data. Dans le cas d’une campagne
saisonnière, il serait fâcheux que deux marques d’un même groupe lancent
simultanément des campagnes d’e-mailings basées sur les comportements
consommateurs. Le matraquage ressenti par la cible, doublé du sentiment de
surveillance, annulerait tous les bénéfices attendus du Big Data. Il faut alors créer
une réelle organisation entre toutes les entités afin d’obtenir une parfaite cohésion et
31

désigner un « chef d’orchestre » permettant de planifier les différentes actions
stratégiques tout en assurant un rôle de médiateur en cas de conflits d’intérêts.
3) L’efficience marketing à son comble
La hausse des appareils mobiles a un impact majeur sur le Big Data et notamment
sur les visualisations. En 2013, 20% des sites Internet ont été visités depuis des
appareils mobiles. Mobiles ne signifient pas seulement smartphones, il inclut aussi
les tablettes. Fin 2013, 1,4 billion de smartphones étaient utilisés. En 2015, Gartner
prédit qu’il y aura plus de tablettes vendues que d’ordinateurs et qu’en 2017, 1,75
tablettes seront vendues pour 1 ordinateur.
Jour après jour, les appareils mobiles deviennent de plus en plus rapides et les
consommateurs de moins en moins patients à l’attente des connexions Internet.
Aujourd’hui, les consommateurs attendent un retour en seulement 3 secondes. Ils

sont prêts à attendre jusqu’à 5 secondes, mais après ce délai, 74% abandonnent la
connexion. 71% des mobinautes s’attendent à ce qu’un navigateur Internet sur
mobile soit autant ou plus rapide qu’un navigateur sur ordinateur. Sur Internet, ils se
regroupent en fonction de leurs affinités et centres d’intérêts, et diffusent de plus en
plus leurs informations personnelles. Aujourd’hui il est possible de segmenter très
précisément des consommateurs, de distinguer les prescripteurs des suiveurs grâce
aux données qu’ils échangent et diffusent eux-mêmes. En parlant de nous sur
Internet, sans même nous en rendre compte, nous permettons à des entreprises ou
des associations d’adapter leur message et leur communication en fonction de notre
personnalité et de notre activité. Ces données permettent avant tout aux entreprises
de mieux cerner le consommateur qui sommeille en chacun d’entre nous et de
prévoir nos comportements.
32

“Le profilage des clients et l’identification de leurs intentions d’acquérir tel ou tel
produit est un élément essentiel car ils permettent de préparer des opérations
14
marketing centrées sur leurs désirs” , souligne Martin GrosJean, directeur
général de Synomia, une entreprise qui exploite scientifiquement les
contenus textuels diffusés sur Internet.
En matchant toutes ces données les unes aux autres, les entreprises peuvent
découvrir des choses qu’elles ne soupçonnaient même pas. Une marque de mode
qui ciblerait les jeunes femmes de 18 à 25 ans pourrait ainsi trouver des cibles
périphériques en analysant les datas. Une marque de maroquinerie de luxe par
exemple qui fait une campagne de communication aura tout intérêt à ne pas
seulement se contenter des coordonnées des personnes qui disent aimer sa marque
comme elle le faisait auparavant mais plutôt de croiser ces informations avec celles
concernant leurs catégories socio-professionnelles pour savoir si ces personnes ont
ou non les moyens financiers d’acheter un de leurs produits.
En effet, prises individuellement, les données, isolées, multiples et hétérogènes,

prises en temps réel, n’ont aucune valeur. La valeur émane du sens que l’on arrive à
en tirer, en termes de relation, de causalité et de prédictibilité. Isolément, une
information n’est pas assez complète pour pouvoir affirmer décrypter et comprendre
un comportement ou une personnalité. Ce n’est qu’en reliant ces “traces
numériques”, que l’on peut espérer comprendre le comportement d’une personne
mais aussi, enfin, recomposer son “ADN numérique”. En recoupant les images
physiques et numériques d’un individu, par rapport à ses achats, ses traces de
recherche sur Internet, ou encore la validation de son titre de transport dans une
zone précise… on peut en déduire ses habitudes, ses centres d’intérêts… Ses
“traces numériques” n’auront également du sens que lorsqu’elles seront inscrites
dans une cohérence temporelle. C’est à cette condition que ces données pourront
donner un caractère prédictif à nos décisions et ainsi générer de la valeur.

14 “Big Data, est-ce bien le pétrole du XXIè siècle ?”, Revue INfluencia, 2014, p. 40
33

Les technologies Big Data, bien qu’étant encore récentes et ne déployant pas encore
toutes les possibilités qu’elles pourraient offrir, présentent déjà toutes les bases
techniques permettant une grande liberté de configuration et donc d’usage. Comme
toute innovation, ces technologies ont émergé d’un besoin venant de la constatation
de l’augmentation des volumes de données et de la difficulté de les traiter. C’est
ainsi qu’en 2001 le META Group (aujourd’hui Gartner) établissait un rapport de
recherche15 présentant les enjeux de la croissance des données en présentant le
modèle tri-dimensionnel des 3V (volume, vélocité et variété). Mais ce n’est qu’en
2004 que Google présentait son algorithme permettant un système de redistribution
de données en « clusters » (regroupement de données déportées vers des machines
afin de les traiter), le MapReduce, qui servit de base à Doug Cutting pour créer le
framework Hadoop.
Certains n’avaient néanmoins pas attendu les algorithmes de Google et les solutions
logicielles pour répondre à des problématiques liées au traitement de masse des
données. L’exemple de Oren Etzioni, un précurseur dans le Big Data, permit
d’entrevoir les innombrables possibilités qu’offre le traitement des données. En 2003,
lors d’un vol allant de Seattle à Los Angeles, il avait par curiosité demandé à son
voisin le prix auquel il avait payé son billet et à quelle date. Il apprenait que celui-ci
avait payé son billet bien moins cher alors qu’il l’avait acheté bien plus tard que lui. Il
n’en fallut pas plus pour que celui-ci fasse un sondage dans tout l’appareil. Une fois
à terre, il se mit dans l’idée de créer un système permettant à chacun de déterminer
les avantages d’un vol sur une période donnée. Oren Etzioni, éminent scientifique en
recherche informatique, établit très vite que la prédiction des différentes fluctuations
de prix des vols aériens régies par les principes de Yield Management par les
compagnies aériennes, étaient trop complexes pour que tous les facteurs soient
traités. Il en vint à la conclusion qu’il était plus logique de se baser sur la seule
information des prix afin d’en prédire les fluctuations. Il regroupa alors les données
de sites de ventes de billets aériens afin de les analyser. En recoupant les
fluctuations de prix sur toutes les destinations et les dates de mise en ventes, il arriva
à mettre en oeuvre un algorithme permettant de prédire dynamiquement les
tendances de prix. Il parvint à des résultats probants avec près de 75% de précision
sur ses prédictions. Son projet avait pour vocation de s’élargir aux données des

15 META Group, 3D Data Management, Doug Laney, 2001
34

hôtels, voitures d’occasions et concerts, jusqu’à ce que Microsoft racheta sa
compagnie afin d’intégrer ses algorithmes au moteur de recherche Bing en 2012. Il
n’en reste que Oren Etzioni avait prouvé l’étendue des possibilités que pouvait offrir
le traitement de données de masse et qu’elles présentaient dès lors un potentiel
d’innovation insoupçonné.
Avec l’arrivée d’Hadoop, les solutions facilitant le traitement de données de

masse se sont multipliées, « vulgarisant » les technologies de Big Data.
On peut citer entre autres les solutions Hive et Pig, permettant de communiquer avec
les bases non structurées en langage SQL, évitant ainsi de passer par des langages
tels que Java, complexe et demandant des ressources humaines coûteuses.
Avec cette démocratisation, les entreprises ont pu passer de la vision

fantasmagorique du Big Data à la réalisation de projets à grande valeur ajoutée dont
certains acteurs peuvent déjà prouver les résultats.
Toute société acquiert des informations sur ses clients une fois le premier acte
d’achat réalisé. Bien souvent, il ne s’agit que de coordonnées et d’informations sur
les achats effectués, or la sphère digitale permet d’enrichir ces données afin d’établir
de réels profils basés sur les comportements.
Ces données digitales proviennent de plusieurs sources que sont :
- les données de trafics enregistrées grâce aux outils de Web Analytics tels que
Google Analytics ou encore Omniture, permettant d’établir le parcours des visiteurs
sur le site et ainsi de déterminer les contenus qui intéressent les visiteurs.
- Les données médias par le biais du tracking, qui permettent de connaître les
sources qui sont les plus susceptibles de convertir.
- Les données CRM qui sont collectées via les espaces clients, apportant des
informations supplémentaires sur les clients.
- Les données tierces qui sont des données louées ou achetées par les entreprises
afin de collecter des informations supplémentaires sur les clients hors du domaine
d’activité de l’entreprise.
35

Les premières entreprises à avoir perçu l’énorme potentiel des données sont les
émetteurs de cartes de crédit. Elles savent ce que vous achetez, à quel moment, à
quel endroit, à quelle fréquence, pour quel montant… Les compagnies téléphoniques
collectent encore plus d’informations à notre sujet. Elles connaissent les sites
Internet sur lesquels nous surfons, les personnes que nous contactons, les choses
qui nous intéressent, notre position géographique… D’ailleurs, Globe Telecom, un
opérateur de télécoms, aurait monté un projet sur la technologie Big Data qui
détecterait, en fonction du type de consommation de l’utilisateur (durée et fréquence
d’appels, de messages, etc.), l’épuisement des cartes téléphoniques prépayées. En
effet, dans ce domaine, les clients sont très volatiles et peu fidèles. Ils achètent en
fonction du moment, de leur besoin et des offres qui leur sont proposées à cet
instant. Ce projet aurait permis à la société de réduire de 95% les coûts d’opérations
de marketing et de communication et d’améliorer de +600% la pertinence de leurs
offres de promotion, le tout en augmentant le nombre de clients fidèles. Les voitures
connectées seront elles aussi capables de récolter une masse d’informations. Elles
sont capables d’enregistrer nos déplacements et de donner ces informations à qui de
droit et ces données ont une grande valeur. On peut imaginer qu’un constructeur
automobile monnaye ces données auprès d’assureurs sur le nombre de kilomètres
parcourus, les excès de vitesse, les routes empruntées…
Le traitement de données de masse permet de recouper tous ces types de données

afin d’en faire ressortir des opportunités. Il existe aujourd’hui plusieurs utilisations au
sein du secteur privé prouvant l’efficacité des solutions de Big Data.
En effet, toute entreprise tenant une base de données sur ses clients se trouve face
à deux défis majeurs, qui dans bien des cas se rejoignent : L’optimisation des ventes
et la connaissance client.
Le cross-selling et l’optimisation des ventes
Nombre d’entreprises commerciales ont pour objectif l’accroissement de leurs

chiffres d’affaires par l’augmentation du panier moyen. Ceci est notamment un enjeu
majeur pour les pure-players dans le domaine du e-commerce.
36

Le principe du cross-selling est de pousser les consommateurs à compléter leurs
achats avec des produits qui n’étaient au départ pas la raison de la venue sur le
point de vente. Ce principe éculé prend des formes variées, allant de la simple
négociation en magasin par le vendeur, aux parcours empruntés par les
consommateurs en grande surface ou aux systèmes de ventes additionnelles dans
les secteurs de VAD, en passant par les contenus proposés sur les fiches produits
des sites de e-commerce.
La problématique est alors de déterminer les produits qui seront les plus enclins à
capter l’intérêt du consommateur. La réflexion classique est celle de déterminer des
associations de manière logique par des similarités, tels que des produits répondants
aux mêmes types de besoins ou faisant partie d’une même gamme.
Christian Dussart, professeur à HEC Paris et Montréal et auteur de plusieurs

ouvrages dans les domaines des comportements d’achats et du Category
Management posait ainsi la question suivante en 1998 :
«(Qui)...n’est pas à la recherche d’une recette miracle, par exemple sous forme
d’un produit inusité au sein d’une catégorie et qui, une fois rajoutée à celle-ci,
propulse les ventes à l’ensemble de la catégorie ? »16
Cette recette miracle évoquée par Christian Dussart ne semble plus si lointaine avec
les possibilités qu’offre le datamining de masse, les associations de produits pouvant
être déterminées avec un niveau de finesse important et catégorisées par profil. Les
profils mis en évidence par les systèmes de partitionnement de données de type
Mahout couplés aux solutions d’intelligence artificielle permettent de contextualiser
les parcours des prospects au sein du tunnel de conversion. Par ces moyens, le
parcours des prospects est étudié afin de pouvoir détecter le type de contenu le plus
à même d’éveiller l’intérêt.
Dans l’hypothèse d’un site e-commerce utilisant toutes les ressources que procurent
le Big Data avec une base enrichie, un visiteur serait identifié selon sa provenance,
son profil et le niveau dans lequel il se trouve dans le tunnel de transformation. Par
exemple, si il avait été déterminé que le parcours type d’un visiteur était d’arriver sur

16 « Etude des parcours en magasin : une nouvelle approche du merchandising », Marie-Pierre
PINTO & Brigitte GUION – DE FAULTRIER, Actes du XXè Congrès AFM, 6 & 7 mai 2004, St-Malo
37

le site via une bannière publicitaire une première fois pour consulter du contenu
informatif, puis une seconde fois via le search pour effectuer un acte d’achat, il est
possible d’adapter le site à ce contexte en mettant en avant des contenus informatifs
pour les personnes identifiées par leur « ID » comme venant une première fois sur le
site via une bannière, puis à leur seconde venue de mettre en avant les offres, tout
cela afin de garantir les plus fortes chances de conversions.
Cette personnalisation à outrance n’est pas encore une réalité tant les moyens
organisationnels et technologiques à mettre ne place sont difficiles pour atteindre
une telle flexibilité des sites internet.
Il n’en reste que d’ores et déjà, les technologies de Big Data permettent l’optimisation
des ventes, pas exclusivement pour des solutions web en BtoC comme on pourrait le
croire, mais aussi bien en BtoB sur le terrain, comme l‘illustre le cas de Renault17,
qui a mis en place un outil de tableau de bord à destination de ses commerciaux afin
d’optimiser leurs négociations pour la vente de véhicules utilitaires. Leur outil permet
aux commerciaux d’avoir accès à toutes les informations utiles et nécessaires
(données financières, volume de la flotte actuelle du client, actualité de l’entreprise),
piochées dans les données publiques tels que des communiqués de presses, sites
d’actualités ou données gouvernementales, et couplées aux informations internes à
l’entreprise, afin de pouvoir présenter les meilleurs arguments lors des négociations.
Le Big Data montre ainsi sa capacité à générer l’optimisation des ventes tant
qualitativement que quantitativement.
La diminution du taux d’attrition et la connaissance client
Le taux d’attrition, ou « churn », désigne la perte de clients par désabonnement à

une offre, correspondant souvent au passage d’un client à la concurrence.
L’acquisition d’un nouveau client étant en moyenne dix fois plus importante en terme
d’investissement que la fidélisation, le taux d’attrition est un enjeu primordial pour les
entreprises.

17 Conférence 2014: “Comment le Big Data peut permettre de détecter de nouveaux marchés”,
Christian CARRETERO, Responsable offre CRM Renault
38

En 2010, une fuite d’informations de l’ARCEP (Autorité de Régulation des
Communications Électroniques et des Postes) avait dévoilé les taux de churn des
principaux FAI français.
Ces informations avaient mis au jour un aspect sensiblement différent du marché

français des télécommunications en démontrant le réel poids de chacun des acteurs.
Les stratégies d’acquisition prétendument profitables de FAIs donnaient une
perception du marché qui fut rapidement infirmée par ces révélations en présentant
des taux d’attrition de 3% à 4% pour Orange et SFR, alors que Free se positionnait
encore à 1%, démontrant la capacité de fidélisation de ce dernier, mais également sa
difficulté à diversifier sa cible puisqu’il n’avait alors pas les mêmes performances en
terme d’acquisition.
L’exemple du marché des télécommunications, étant extrêmement concurrentiel et

en situation d’Oligopole, est très représentatif de l’importance du taux d’attrition. Les
FAIs se doivent donc d’adopter les meilleurs pratiques pour optimiser leur fidélisation
client.
SFR a pu démontrer cet effort lors du salon du Big Data tenu en Mars 2014 à Paris,
en présentant sa stratégie cross-canal utilisant les technologies Hadoop. La société
a mis en place une stratégie digitale permettant l’identification de ses clients par un
système d’analyse des comportements, permis par les outils de trackings et de
reconnaissance des adresses IPs sur tous les canaux digitaux utilisés tels que le
RTB, l’affiliation, les campagnes SEM et les résultats naturels de search, tout en
enrichissant ces données par des données externes. En collectant toutes ces
informations, SFR établit par un système de scoring la probabilité qu’un client soit
plus enclin à résilier son offre ou non et d’en déterminer la raison. Une infrastructure
de site adaptable à la détection des profils clients ainsi qu’un système automatisé
d’envoi d’e-mailings et de display ont été mis en place. Par ce biais, SFR a pu par
exemple détecter si un client allait déménager prochainement et par conséquent en
prospection pour les meilleures offres forfaitaires du moment. Via le tracking et
l’envoi d’e-mailings personnalisés, SFR entend garder ce type de client en assurant
une visibilité accrue sur ce type de profil. Grâce à ces outils, SFR annonçait une
baisse de son taux d’attrition de près de 7% sur l’année 2013.
39

Intelligence algorithmique
L’intelligence algorithmique est aussi un pilier de la compréhension de cette masse

de données que produit chaque individu connecté. Cette intelligence algorithmique
va regrouper et confronter toutes les données issues de sources diverses afin de
créer et caractériser l’ADN numérique des individus afin de comprendre, pouvoir
anticiper et prédire les comportements à venir et ainsi agir dans les meilleurs
contextes. Une connaissance plus poussée des consommateurs permet de trouver
les messages les plus impactants auprès de chacun d’entre eux. Les publicités bien
ciblées gênent moins les consommateurs et ce sont plus efficaces pour les
annonceurs. On créé donc un cercle vertueux où chacun s’y retrouve. Raphaël de
Andreis, directeur général de Havas Media France déclare :
“Le Big Data va nous faire entrer dans l’ère du mieux consommer. Les données
nous permettront de mieux connaître le consommateur et de lui proposer des
produits plus adaptés à ses besoins comme le fait un bon vendeur dans un
magasin. Cela va ainsi créer de la croissance pour nos clients”18.
Toutes les données que nous émettons lors de nos activités sur Internet, nos mails
sur Gmail de Google, nos préférences sur Youtube ou Pinterest, nos déplacements
sur Waze… permettent à ces acteurs de mieux nous connaître afin de nous orienter
vers un produit adapté, qui nous intéresse : une sélection de produits
personnalisée, des résultats de recherche adaptés, des offres pertinentes,...
Amazon analyserait les requêtes émises par les consommateurs et détecterait les
meilleures ventes pour s’approvisionner rapidement et ainsi devenir le vendeur le
plus efficient. Ils auraient même déposé un brevet afin de proposer un service
pouvant anticiper les achats des internautes et expédier le colis avant même que la
commande ne soit encore passé, le tout se basant sur une série de données.
Nos comportements ont désormais changé et évolué. Nous sommes aujourd’hui
entourés d’objets connectés dont nous pouvons plus nous en passer, des objets qui

18 “Big Data, est-ce bien le pétrole du XXIè siècle ?”, Revue INfluencia, 2014, p. 40
40

génèrent de la data sur nos usages et nos comportements. Ils participent à
l’enrichissement des données pour nous rendre de meilleurs services.
Analyses prédictives et comportementales
“Il y a eu 5 exabytes d’informations créées depuis la naissance de la civilisation

jusqu’en 2003. Mais cette même quantité d’information est maintenant créée tous
les deux jours et ce rythme augmente…”19 affirmait Eric Schmidt, ancien PDG
de Google.
Avec autant de données disponibles, on aurait envie de pouvoir les utiliser au

moment où elles sont émises. Les analyses en temps réel connaîtront une énorme
croissance dans les prochaines années. La capacité d’analyser les attributs d’un
visiteur sur un site internet et de lui retourner une page de site personnalisée, le tout
dans un millième de seconde va transformer d’une façon incroyable les taux de
conversion. L’accès aux analyses Big Data en temps réel fera toute la différence
entre une entreprise et ses concurrents. Les avantages du process en temps réel
revêt de nombreux avantages. Tous les secteurs d’activités sont touchés : le
commerce/la vente, les télécoms, l’automobile, la médecine, la banque/les
assurances...
Le commerce est évidemment le premier client de ces analyses prédictives,

comportementales ou encore sentimentales.
Ces données émises quasi instantanément par les consommateurs, notamment

grâce aux réseaux sociaux, peuvent représenter pour les entreprises un reflet de
l’opinion publique. Les entreprises peuvent ainsi mesurer leur e-réputation en temps
réel : Que pensent les consommateurs de ma marque ? Quels sont leurs avis sur le
nouveau produit que je viens de lancer ? Quelle image ont-ils de moi ? L’analyse des
données en temps réel permettent de “prendre le pouls” des individus et de mesurer
à un instant T l’impact de sa marque ou de son produit ou même anticiper les avis
négatifs et de pouvoir les gérer rapidement. Aujourd’hui, à l’ère du tout numérique,

19 “Data Scientist : quelle place pour ce gourou dans notre société ? », Revue INfluencia, 2014, p.48

41

les informations s’échangent très rapidement et personne n’est à l’abri d’un “bad
buzz”. Des rumeurs infondées lancées et toute la société est au courant. Elles
peuvent détruire une marque ou un produit, casser son image et plomber les
ventes… les déceler en amont et réagir au bon moment, avant qu’il ne soit trop tard
peuvent “sauver” votre marque.
L’analyse en temps réel du web et des réseaux sociaux peut aussi revêtir un tout
autre objectif. Le modèle de Microsoft Research sur l’analyse prédictive représente
bien ce cas. Il repose sur des capacités d’analyse et de croisement des données
provenant des réseaux sociaux, des commentaires laissés sur différentes
plateformes, ou encore des paris en ligne. Ce modèle a déjà été testé sur les
précédentes cérémonies des Oscars et les précédentes élections présidentielles
américaines. Les politiciens avaient pu mieux connaître leurs électeurs potentiels
grâce aux données. Des centaines d’analystes ont été recrutés pour la campagne
présidentielle de Barack Obama en 2012, ce qui lui a été très favorable. Ils ont
rassemblé un nombre monstrueux de données, trouvées dans les registres
électoraux publics, sur les réseaux sociaux, sur les groupes de supporters tels que
MyBarackObama ou ObamaForAmerica. Ils ont ensuite envoyé une campagne
massive de messages ciblés à ses potentiels électeurs. En croisant des données
sociologiques, statistiques et géographiques, les démocrates ont ainsi pu déceler
des thèmes qui susciteraient l’envie et encourageraient les femmes ou les
hispaniques à voter en leur faveur. Ils se sont également fiés aux données pour
établir des levées de fonds stratégiques et ciblées en mobilisant plus d’un milliard de
dollars. La société organisatrice de l’Eurovision a également mis en place un projet
Big Data, selon le même modèle, en 3 semaines et sans gros budget. Les analyses
de données publiques comme les tweets (1,2 millions en sur toute la durée de
l’événement), commentaires laissés sur Internet ou encore occurrence des mots-
clés, auraient permis à la société de prédire 3 jours avant la finale qui serait le
vainqueur, mais également les 5 premiers et 5 derniers du classement20. Au-delà de
ces prédictions de concours, ce modèle algorithmique peut être utile de plusieurs
façons. S’il est doté de cet algorithme, on peut imaginer que le moteur de recherche
Bing renvoie des résultats de recherche plus pertinents. L’un de leurs objectifs est
aussi de pouvoir prédire de manière pertinente les évolutions du marché financier et

20 http://www.generation-nt.com/eurovision-2013-microsoft-research-predit-victoire-actualite-
1733722.html
42

de l’économie internationale et pouvoir prendre les meilleures décisions en terme
d’affaires économiques.
Prenons également l’exemple de Google, pionner en la matière. Il lança en 2008 le

service Google Flu Trends, capable de détecter en temps réel les épidémies de
grippe selon les régions géographiques, en se basant sur les termes de recherche
sur leur moteur de recherche. Ou encore Google Now, capable de nous envoyer des
informations utiles tout au long de notre journée, en fonction de nos besoins et de
nos activités (nous dire l’heure à laquelle partir à un rendez-vous en fonction des
embouteillages, recevoir les informations utiles lors de nos déplacements à
l’étranger, etc.). Coyote, détecteur de radars et Waze, une application de navigation
et de trafic communautaire, détecteraient les embouteillages encore plus rapidement
que le ferait un Bison Futé, grâce à sa communauté participative. Les balances
connectées contiendraient une base de données sur les poids gigantesque, plus
grande qu’aucune étude clinique. Ces méthodes de traitements instantanés
d’informations de masse pourraient s’avérer plus efficace, fiable et rapide que les
méthodes traditionnelles, qui prennent beaucoup plus de temps pour être relevées.
Ces données massives recueillies pour servir les statistiques et le prévisionnel
constituent l’un des effets vertueux de la data.
Autre que l’analyse prédictive, le Big Data permet également de révéler des attitudes
et comportements. L’analyse comportementale peut bénéficier aux commerces
physiques par exemple. Pour la grande distribution, travailler la data n’est pas
nouveau. C’est bien le premier secteur à l’avoir utilisé avant qu’il ne devienne si
technique. Le traitement plus ou moins poussé du ticket de caisse a longtemps
permis à la grande distribution d’identifier des habitudes d’achats, des préférences
produits, la composition des ménages, les paniers d’achats… Aujourd’hui, les
acteurs du marché et les canaux de distribution se multipliant, les clients sont de plus
en plus volatiles. Ils cherchent à profiter des meilleures promotions dans un temps
imparti, et depuis la croissance fulgurante du web et des réseaux sociaux, ils
n’hésitent pas à jongler sur les canaux offline et online, entre différents distributeurs.
Ceci a poussé les distributeurs à intensifier leurs outils consacrés à la connaissance
cross-canal des parcours d’achats de ses clients, dans le but de pouvoir mieux les
toucher. Le Big Data amène aujourd’hui aux distributeurs une utilisation plus
43

“moderne” de ces données. Des innovations permettent de nos jours aux entreprises
de déceler des habitudes d’achat, de calculer le nombre de pas effectués dans un
rayon, compter le temps resté devant un linéaire, localiser des clients dans un
périmètre du magasin en temps réel grâce à des émetteurs fixés aux caddies ou
encore des téléphones portables. Croisées avec les données issues des tickets de
caisse, des cartes de fidélité, ou encore leur historique sur le web, ces données
permettent d’améliorer l’aménagement du magasin, le marketing-mix, d’ajuster
l’agencement du merchandising, d’identifier l’impact des promotions, mesurer
l’impact des stratégies de fidélisation, repérer et expliquer les comportements sur les
nouveaux canaux comme par exemple le drive… qui influencera fortement le
développement du magasin.
Selon la FEVAD (Fédération de l’E-commerce et de la Vente A Distance), en 2012,

près de 32 millions de Français auraient fait des achats en ligne, soit plus de 80%
des internautes et on compterait près de 118 000 sites marchands actifs en France.
Dans cette ère numérique qui grossit de jour en jour, certains e-commerçants
(encore peu aujourd’hui mais ça ne saurait tarder) tentent une nouvelle approche, en
pratiquant une nouvelle stratégie par l’analyse et traitement des données de masse,
capable, en temps réel, d’exploiter une base de données relativement importante
pour en tirer des rapports statistiques représentatifs, le dynamic pricing. Le dynamic
pricing (ou tarification dynamique) est le fait d’adapter les prix en fonction de la
demande. On analyse le comportement des internautes (le temps passé sur une ou
plusieurs fiches produits, les recherches effectuées en amont, les autres sites
visités…) afin de déterminer et afficher un prix sur un produit. Ce prix est donc
variable et ajusté “à la tête du client”. Olivier Mathiot, co-fondateur de Price Minister,
2è site e-commerce le plus visité en France et qui utilise cette méthode depuis
plusieurs mois, explique :
“Le temps réel est un élément très important dans nos métiers, qui nous
différencie vraiment de la distribution traditionnelle. Si nos temps de calcul sont
trop longs, les propositions risquent d’arriver en retard par rapport à un temps de
44

décision d’achat toujours un peu aléatoire selon la personne et la catégorie de
produit”21.
La mise en place de cette stratégie centrée sur la data a conduit le site à revoir son
organisation, en instaurant de nouveaux outils.
“Nous avons pu avancer plus vite sur les recommandations personnalisées, le

retargeting en dehors du site, l’e-mail personnalisé, les push notifications
envoyées sur le mobile ou les réseaux sociaux… Il va maintenant falloir
rationnaliser tout cela pour tenter de retrouver la transversalité de la personne”
ajoute-il.
Le traitement et l’utilisation des données sont déjà utilisés dans plusieurs

organisations. Auchan a testé l’envoi de messages promotionnels personnalisés,
dans un cycle cross-canal. Les 3 Suisses collectent des renseignements sur les
préférences des internautes pour pouvoir leur proposer des pièces dans leur couleur
préférée et dans la taille leur correspondant. L’objectif étant de tisser une relation
plus forte avec le client, personnalisée, de lui proposer des produits qui l’intéresse,
au bon moment.
Les entreprises ont compris et décelé le potentiel de cette base de données

gigantesque et qui leur permet de définir et correspondre immédiatement un profil à
un utilisateur, prospect ou client, d’attirer son attention, de le capter, le séduire, le
détourner des autres, et ainsi apporter à l’entreprise une augmentation du taux du
transformation et des marges.
Les nouvelles stratégies mises en place par les concurrents seront immédiatement
détectées. Nous sommes tout de suite alertés lorsque l’un de nos concurrents
change ses prix par exemple, chose qui aujourd’hui prend un certain temps.
Les ventes augmenteront considérablement et qui pourrait conduire à des taux de
conversion plus élevés. Lorsque les entreprises sont à l’écoute des produits utilisés
par les consommateurs, ils peuvent pro-activement éviter de nombreuses failles. Par

21 “Distribution : la data en tête de gondole”, Revue INfluencia, 2014, p.126

45

exemple, les voitures dotées de capteurs en temps réel peuvent notifier le
conducteur avant qu’il y ait un problème et anticiper une faille du moteur. Le capteur
pourra lui faire savoir que sa voiture a besoin d’être entretenue. En temps réel, le
capteur identifie le problème, détermine l’action à mettre en place, et si besoin,
recherche le garage le plus proche par rapport à la localisation et l’agenda du
conducteur. A l’arrivée, les mécaniciens auraient préalablement reçus les analyses
de données et pourraient de suite identifier la faille et la réparer immédiatement.
La réalisation d’un projet Big Data peuvent être très coûteux mais peuvent
éventuellement apporter de gros bénéfices. Dans les analyses en temps réel, les
managers peuvent obtenir une vue d’ensemble de leur entreprise instantanément.
- Les analyses en temps réel permettent également aux entreprises de pouvoir

suivre les tendances, d’avoir un aperçu des offres concurrentes et des promotions
mises en place.
“Ce sont les médias sociaux qui ont changé la donne. On se retrouve face à un
flux de données considérable qui n’est pas structuré comme dans les modèles
les plus classiques, liés au CRM et aux Web analytics. Facebook et Twitter ont
changé le comportement des consommateurs, devenus des acteurs qui
interagissent en temps réel”, explique Nicolas Malo, fondateur de Optimal
Ways, cabinet de conseil en digital analytics.
“Mais avant de s’intéresser à l’analyse en temps réel des données fournies par
les réseaux sociaux, le challenge des marketeurs est d’actionner les données
structurées pour livrer la bonne information, au bon moment et à la bonne
personne. Ce besoin n’est pas couvert par l’ensemble des acteurs. Nous
sommes à un moment clé où l’ensemble des technologies prédictives va pouvoir
faire ses preuves auprès des services marketing et déterminer quelles
informations il faut pousser” précise Thierry Téchy, chief strategy officer et
co-fondateur de Selligent22.

22 « Data : des offres plus ciblées pour fidéliser », Marie-Juliette LEVIN, ecommercemag.fr, 2013
46

Effectivement, pourquoi faire de grosses dépenses dans une campagne de
communication pour essayer de toucher un certain nombre de personnes alors
qu’une campagne ciblée et personnalisée, envoyée au bon moment, coûte moins
cher et a plus d’impact ?
Le ciblage émotionnel
Internet évolue vers une approche sémantique, vers une analyse plus qualitative et
proche de celle de l’humain. Nous sommes encore loin de comprendre comment
fonctionne les liaisons entre les informations dans notre cerveau, même si les
avancées et développements sont bien présents et que l’émergence des nouvelles
technologies et objets connectés tendent à accélérer le mouvement. Ces objets, qui
contiennent une masse considérable d’informations en temps réel à notre sujet
pourront-elles comprendre et capter nos émotions ? L’analyse de ces données nous
apprend qu’une grande partie des individus font le même choix, à un moment et pour
une raison précise. Adapter l’offre en fonction des comportements consommateurs
est assurément une démarche de progrès vers un business de masse. Mais les
individus pensent-ils et agissent-ils tous de la même façon face à une situation ou
une offre ? Comment qualifier ces données ? Comment différencier deux visiteurs
sur une même page sur un même site ? En la reliant à des informations connexes,
antérieures ? Une analyse permanente de nos données permettrait-il à un système
intelligent de voir et déceler nos émotions ?
Pour pousser la chose encore plus loin, en plus des publicités ciblées par rapport
aux données émises qui prédiraient nos envies, des publicités diffusées en fonction
de notre humeur pourraient bientôt apparaître sur nos écrans. Le géant informatique
Apple a déposé une demande de brevet le 23 janvier où il propose de définir un profil
d’humeur type. De quoi s’agit-il ? Nous parlons ici d’un service publicitaire capable
de détecter notre humeur pour nous pousser au moment opportun une publicité
pouvant créer chez nous une émotion. Une publicité qui serait donc plus attractive,
plus pertinente et plus efficace. Car selon Apple, plusieurs facteurs comme le lieu,
47

l’activité, l’heure ou encore l’humeur d’un individu joueraient sur sa réceptivité face à
une publicité. Il justifie alors son ciblage publicitaire par le croisement des données
avec l’humeur de l’utilisateur.
Pour recueillir notre état émotionnel, Apple utiliserait des données variées comme le
pouls, la tension, le rythme respiratoire, la température du corps, corollées à d’autres
informations comme les sites web dernièrement consultés, l’activité sur les réseaux
sociaux, la musique écoutée… et mises en relation avec notre âge, notre
localisation ou encore le type de device utilisé. Un algorithme regroupera tous ces
résultats pour estimer déterminer notre humeur et pousser une publicité adéquate.
Apple nous assure que dans le respect de sa vie privée, l’utilisateur aura le choix
d’activer ou non ce service et de choisir le type d’informations qu’il accepte de mettre
à disposition. Nous ne savons pas dans quelle mesure ce dispositif sera mis en
place ou à partir de quand, mais il se peut bien que ce soit dans un futur proche.
Quoi qu’il en soit, à sa mise en place, ce service pourrait bien révolutionner le monde
de la publicité en temps réel, une opportunité de plus pour les marques !
Le Big Data, aide à la recherche médicale
La multiplication des données digitales va profondément changer la manière dont

nous envisageons la société, avec des conséquences directes non pas seulement
dans le secteur du commerce mais dans des secteurs aussi variés que le sport, la
politique ou encore la recherche médicale.
Le marché de la santé est en plein bouleversement. La pression émise est forte

autant sur les plans financiers que législatifs. De nouvelles contraintes font place, ce
qui pousse les entreprises à faire continuellement face à de nouvelles
problématiques : vieillissement de la population, hausse des patients souffrants de
maladies chroniques... De plus, face à l’émergence du digital, on aperçoit une
montée de patients qui n’hésitent plus à utiliser Internet pour rechercher des
informations, partager leurs problèmes ou encore trouver des remèdes à leurs maux.
Tous ces changements nous amènent à revoir la façon dont les traitements sont
prodigués mais aussi les attentes des patients. La Big Data peut apporter de la
valeur autant qu’aux patients qu’aux médecins ou aux rechercheurs. Elle peut en
48

effet aider la recherche, comprendre des données médicales, qu’elles soient
structurées ou non-structurées (IRM, ordonnance, radio…), prédire un symptôme et
trouver un traitement adéquat. Elle favoriserait notamment la compréhension des
maladies chroniques ou infectieuses et permettrait aux patients d’avoir accès à des
informations fiables pour gérer proactivement leur propre santé et adopter les bons
comportements.
L’une des facettes les plus intéressantes de la Big Data est dans l’analyse prédictive
des symptômes avant même qu’ils ne soient repérés par les médecins eux-mêmes.
Au Canada, le Toronto SickKids Hospital avec la participation de chercheurs de

l’Institute of Technology de l’Université d’Ontario a mis en place un modèle qui
récolte, surveille et analyse les données en temps réel des moniteurs médicaux de
bébés prématurés23. Il examine près de 1000 indicateurs par minute et alerte le
personnel médical lorsqu’il aperçoit une quelqueconque anomalie. Ce logiciel détecte
les maladies bien avant qu’elles ne puissent être identifiées par l’humain ou que le
patient ne ressente un problème. Ce type d’analyse permet ainsi un traitement plus
rapide et plus efficace.
Aux États-Unis, des patients publient sur des forums leurs pathologies liées aux
effets secondaires des médicaments qu’ils ont pris. Ces données permettent de
connaître la façon dont les patients réagissent face aux molécules qu’ils prennent. Le
gouvernement de Nouvelle-Zélande a défini sa politique de prévention contre le
diabète grâce aux informations récoltées sur les malades recensés dans le pays. En
Afrique, l’Union Internationale pour le contrôle du Cancer a mis en place une base de
données géante, la plus grande au monde, sur les patients atteints du cancer pour
accroître leurs connaissances sur cette maladie. In fine, les cliniciens pourront suivre
les traitements des patients et leur prodiguer des soins sur mesure. Une nouvelle
preuve que la Big Data peut être porteuse de valeur, même dans les pays
émergents.
Outre l’analyse prédictive, la Big Data pourrait permettre de faire de grandes

économies. D’après une étude du cabinet McKinsey, aux Etats-Unis, l’impact de la

23 « Retour d’expérience du Big Data dans les entreprises », www.bigdataparis.fr, p.21
49

Big Data pourrait réduire les dépenses de santé de 300 à 450 milliards de dollars,
grâce notamment à la médecine préventive et personnalisée.
Pour les patients atteints de maladie chronique, la Big Data permettrait par exemple
de mettre en place des solutions de soins transmis directement en ligne. Les patients
pourront alors gérer leur santé à domicile, via des moniteurs avec des capteurs
pouvant échanger en temps réel les données essentielles avec son équipe médicale
et discuter et intervenir si besoin. Ces types de système réduisent le temps passé à
l’hôpital, libèrent des chambres et permettent également de diminuer les coûts
financiers, administratifs mais aussi de fonctionnement et d’opérations. Ils participent
aussi à la réduction du nombre de réadmissions en détectant les facteurs
environnementaux et de modes de vie à risque et en ajustant les traitements en
conséquence.
L’utilisation des sciences cognitives jouera également un rôle important pour la

médecine 2.0, comme peut le démontrer Watson par exemple. Watson, -qui fait
référence au fondateur d’IBM Thomas J.Watson-, déjà utilisé par les Memorial Sloan-
Kettering Cancer Center à New York ou Cedars Sinai Hospital à Los Angeles,
permet d’aider les médecins à trouver des traitements personnalisés à ses patients
atteints du cancer. Watson entretient en lui une base de données gigantesque,
regroupant les publications médicales, les nouvelles études ou encore les données
cliniques. Le tout regroupé avec les informations liées au patient comme son
historique médical, ses antécédents familiaux, ses symptômes, son environnement…
et Watson pourra suggérer un diagnostic et des éventuels traitements en les
priorisant selon le degré de certitude et de confiance. On ne prétend pas bien sûr un
jour remplacer un médecin par un robot mais ce robot, en prenant en compte un
ensemble de données plus vaste qu’un être humain peut englober, pourra aider les
médecins à éclaircir leurs doutes et formuler de nouvelles hypothèses. Ce système
pourrait également favoriser la réduction des coûts, les traitements donnés étant plus
judicieux et plus appropriés, les sources de données considérées pour l’analyse en
amont étant multipliées.
Toutes ces applications nous rapproche vers une médecine plus optimale, une
médecine personnalisée, plus efficace tout en optimisant les coûts. Le secteur
médical prend conscience de la valeur inexploitée, ou du moins mal exploitée, de ses
données.
50

III. Les dangers du Big Data, comment y faire face ?
1) Les effets pervers
Le principal risque lié aux datas est la protection de la vie privée
Pour certains, l’exploitation des données est perçue comme une atteinte à la vie
privée, pour d’autres, elle dégage de grandes perspectives d’avenir. Elles peuvent
être un véritable tremplin pour les entreprises, à condition de pratiques
déontologiques claires et justifiées.
Du temps des cookies, de la géolocalisation ou encore du ciblage comportemental,

les consommateurs laissent, généralement sans s’en rendre forcément compte, de
plus en plus de traces derrière eux, ces fameuses “datas”. Avec l’utilisation de plus
en plus fréquente des réseaux sociaux et autres serveurs de messagerie, nous
exposons davantage des informations sur nos vies, parfois/souvent publiquement.
Ces données sont aujourd’hui très facilement accessibles mais n’ont de valeur
exploitable que si elles sont reliées à d’autres.
“Lorsque c’est gratuit, c’est que vous êtes le produit”. En effet, nous créons des
comptes, ouvrons des boîtes mails, naviguons sur Internet, communiquons via les
réseaux sociaux, le tout “gratuitement”, mais il existe bien une contrepartie à cette
gratuité. Celle de l’exposition de notre vie privée. Si 85% des consommateurs se
disent préoccupés par la protection des données personnelles sur Internet 24 et
pensent que leurs données sont mal protégées, 70% n’envisagent pas de changer
leur comportement digital. Les réseaux sociaux sont les premiers pointés du doigt en
matière de manquement au respect de la vie privée et de protection des données.
Qui un jour a lu en entier les conditions générales, souvent écrites sur des dizaines
de pages, avant d’utiliser ces applications ? Très peu de personnes. Une startup
anglaise en a fait l’expérience et a proposé 1000€, insérés dans ses conditions
générales de vente à qui les lirait. Le gain n’a été remporté qu’au bout de plusieurs

24 Etude CSA pour Orange - Les Français et la protection des données personnelles - Février 2014
51

mois. En France, récemment, l’association UFC Que Choisir a assigné Facebook,
Twitter et Google en justice devant le Tribunal de Grande Instance de Paris pour
leurs clauses et conditions d’utilisations qu’elle juge abusives ou illicites. Dans le
même temps, elle lance un appel aux consommateurs afin qu’ils gardent la main sur
leurs données. Aujourd’hui, en acceptant d’utiliser ces réseaux, nous leur laissons
carte blanche sur nos données (messages, posts, photos…), qui sont collectées,
conservées et exploitées à notre insu, sans rémunération et sans consultation
préalable. De nombreux Français souhaiteraient effacer leurs données personnelles
visibles de tous d’Internet mais ils ne sont que peu à y arriver totalement. Ce sont
plutôt les jeunes qui expriment ce souhait, les personnes plus âgées disant souvent
ne même pas savoir qu’Internet pouvait détenir autant d’informations sur eux. Face à
cette masse de données qui grossit de jour en jour, les organismes comme la CNIL
les oblige à être de plus en plus vigilants. La législation progresse aussi, à la
recherche d’une meilleure situation. Comme le montre l’ajout sur certains sites
d’annonces demandant l’autorisation à l’internaute la collecte et l’exploitation de ses
cookies.
L’anonymisation des données est également un enjeu majeur
On parle ici de données à caractère personnel. De quoi s’agit-il ? Selon la loi 2

Informatique et Libertés, “constitue une donnée à caractère personnel toute
information relative avec une personne physique identifiée ou qui peut être identifiée
directement ou indirectement”. Les données personnelles, ou nominatives,
correspondent au nom, prénom, adresse, numéro de téléphone, de sécurité sociale,
de carte bancaire, date et lieu de naissance, plaque d’immatriculation, photo, ADN,
empreinte digitale… Ces données peuvent être recoupées avec d’autres, issues de
sources différentes, permettant à autrui de clairement identifier une personne.
En France, selon la loi Informatique, fichiers et libertés de 1978, dans le secteur

privé, les données peuvent être collectées, traitées et conservées, sous demande
préalable validée par la CNIL. Le numéro d’enregistrement défini par celle-ci devra
être mentionnée sur le site web du demandeur, avec le nom et coordonnées du
contact traitant ces données. Celui-ci doit signaler les personnes concernées sur
l’objet de cette récolte de leurs données et définir qui en seront les destinataires.
52

Quant aux FAIs et opérateurs télécoms, ceux-ci sont tenus à conserver les données
de connexion de ses utilisateurs et à les fournir aux autorités de police s’ils en font la
demande.
Les données sont aujourd’hui très facilement accessibles et n’ont de valeur

exploitable que si elles sont reliées à d’autres. Avec l’utilisation de plus en plus
fréquente des réseaux sociaux et autres serveurs de messagerie, nous exposons
davantage des informations sur nos vies, parfois/souvent publiquement. Ces
données collectées peuvent donner des indicateurs sur notre statut, nos opinions
politiques, nos croyances religieuses… Selon la législation française, ces données
sont considérées comme sensibles et relevant de l’intimité personnelle. La loi décrit
les données sensibles “les données à caractère personnel qui font apparaître,
directement ou indirectement, les origines raciales ou ethniques, les opinions
politiques, philosophiques ou religieuses ou l’appartenance syndicale des personnes,
ou qui sont relatives à leur santé ou à la vie sexuelle de celles-ci”. Selon la loi, il est
interdit de collecter ce type de données quelle qu’en soit l’objectif. Il est alors légitime
de se demander si ces données, face aux nouveaux comportements des internautes
et à la possibilité maintenant de corréler de nombreuses données même non-
structurées, pouvant donner à l’établissement d’un spectre global de chaque individu,
doivent faire l’objet d’une protection additionnelle, plus rigoureuse, afin de préserver
la protection des données des individus tout en soutenant la croissance des
entreprises. La loi Informatique et Libertés stipule que ces données personnelles
doivent être collectées à des fins déterminées, explicites et légitimes. Seules les
données jugées “nécessaires” et pertinentes peuvent être collectées. Leur durée de
conservation ne doit pas être supérieure au temps requis pour atteindre les objectifs
fixés. Ce délai passé, le “droit à l’oubli” prévaut. Cette loi est également valable pour
les données non collectées mais utilisées en temps réel.
Les pays mènent des actions pour trouver un compromis entre protection des
données personnelles et aide à la croissance du secteur où la donnée pourrait être
un accélérateur de création de valeur. Dans ce domaine, les pays n’ont pas tout à
fait la même approche. Entre la France très restrictive dans la matière et les Etats-
Unis qui sont plus ouverts, la marge de conduite est assez vaste. Aux Etats-Unis, la
législation est orientée vers la protection du consommateur, en trouvant un juste
53

milieu entre la vie privée de l’individu et la productivité des entreprises. L’Union
Européenne, elle, axe ses lois de manière différente. La protection de l’individu
dépasse les vertus commerciales. La vie privée est considérée comme essentielle.
Des projets pour renforcer la protection des données personnelles des individus et le
respect à la vie privée sont en cours d’élaboration et de grands changements verront
le jour. Parmi ceux-ci a récemment été introduit le “droit à l’oubli”. Les citoyens
peuvent à tout moment, sauf s’il existe une cause défendable contraire, effacer leurs
données personnelles des bases de moteurs de recherche. Les internautes peuvent
désormais réclamer directement le retrait des données le concernant sans forcément
passer dans l’éditeur de contenu.
Le principe de consentement sera aussi renforcé. Le fait de collecter et de traiter les

données devra être clairement mentionné. Pour plusieurs, le géant Google ne
respecterait pas ce consentement explicite et on lui reprocherait son manque de
transparence face à l’utilisation de ces données collectées. Le consentement est
bien demandé mais pourrait être “manipulé” en obligeant la personne à les donner.
De part la mise en place de ces nouvelles règles, la Commission Européenne a pour
but de créer un climat de confiance entre les internautes et les services en ligne, afin
qu’ils puissent naviguer et profiter des offres plus sereinement.
Une prohibition semble toutefois vouée à l’échec, les données étant présentes dans
nos vies courantes. Interdire l’exploitation des données serait contre productif. Car
s’il est certain qu’un bon usage des données encouragera les consommateurs à
succomber plus rapidement, elle risque de les pousser à des actes accessoires. Les
données risquent de transformer les consommateurs en simples données
statistiques. Dis moi ce que tu achètes, ce que tu regardes, où tu te déplaces et je te
dirai qui tu es. Heureusement que les hommes sont moins prévisibles que ça.
54

La transparence dans l’utilisation des données collectées n’a
jamais été aussi importante
Selon l’étude “Future of Digital Trust” menée par Orange25, 78% des consommateurs
affirment qu’il est difficile de faire confiance aux entreprises dans la façon dont sont
utilisées leurs données personnelles et sentent que les entreprises demandent trop
d’informations à propos de leurs comportements et leurs préférences. Ils sont de plus
en plus à être préoccupés par les garanties de sécurité et de confidentialité face à
leurs données personnelles, leur cadre et destinataires d’utilisation…
Les entreprises doivent s’engager à plus de transparence face aux données réunies,
mettre en avant les avantages des consommateurs à partager leurs données avec
elles, de faire en sorte qu’ils puissent avoir la main sur ce qui peut être fait ou non
avec leurs données. Le sujet de transparence est primordial pour fonder une relation
de confiance durable avec ses utilisateurs et l’impliquer dans l’adhésion qu’on lui
propose. Plus les modalités et avantages sont explicites et bien définis et plus l’on
peut espérer un retour sur investissement élevé, les consommateurs étant
consentants, sachant ce à quoi ils sont inscrits. Pour espérer qu’une personne
accepte de laisser ses coordonnées, il faut commencer par être limpide avec ses
clients et nous-même commencer à nous dévoiler (mentions légales, adresse,
contact, coordonnées, etc.) et expliquer notre démarche (le but de cette récolte, les
bénéfices, la finalité, les destinataires, etc.).
Le digital permet de diffuser davantage de messages et risque donc de noyer le

consommateur dans une masse d’offres, pas toujours pertinentes et adaptées.
Envoyer des offres personnalisées, selon les préférences, le canal, la fréquence à
chaque individu nécessite une base solide de la connaissance client. Il est plus aisé
et plus efficace de travailler et garder ses meilleurs clients que de chercher à en
conquérir de nouveaux. Pour pouvoir les récompenser de leur fidélité, il faut les
connaître, quelquefois les interroger et bâtir un climat et une relation de confiance
autour de l’objet et des objectifs de l’utilisation de leurs données personnelles.

25 « the future of digital trust », A European study on the nature of consumer trust and personal data,
Orange, February 2014
55

La dictature de la donnée
Les questions relatives à la surveillance du net ne sont pas dénuées de sens. Les
grandes avancées technologiques et l’incompréhension du plus grand nombre face à
une technicité croissance des systèmes de gestion des informations amène à une
défiance des pratiques des grandes entreprises.
L’inconnu effraie, et cela est légitime dans un climat où des scandales tels que
l’affaire Snowden éclatent au grand jour, dénonçant les programmes
gouvernementaux de surveillance par la collecte d’informations sur Internet
(programme PRISM).
Ces révélations créent un mouvement de méfiance envers les pratiques des

gouvernements. L’anecdote illustrant bien cette prise de conscience a été les
volumes de ventes du livre de Georges Orwell ‘1984’, qui augmentèrent de près de
6000% en quelques jours après les déclarations d’Edward Snowden en juin 2013. Ce
livre introduisait le concept du « Big Brother » décrivant un système totalitariste régie
par la « police de la pensée », utilisant les données de ses « télécrans » (télévisions
enregistrant tous les faits et gestes des personnes) pour prédire les crimes envers le
parti en place. Bien que publié en 1949, ce roman d’anticipation résonne avec
d’autant plus de force aux yeux de tous et a grandement influencé le lien qui a été
fait entre Big Data et Big Brother. Mais les déclarations de Snowden ne sont pas les
seules à éveiller les esprits. Aujourd’hui, des organisations telles que Privacy
International s’intéressent aux différents abus qui peuvent être réalisés par les
entreprises et les gouvernements. Ces organisations tentent de faire le contrepoids
d’un système où les régulations sont encore que trop peu réactives face aux
évolutions rapides des technologies digitales. Leur moyen est celui de la
dénonciation des pratiques douteuses de certaines organisations. Cela se traduit
par exemple par l’organisation annuelle du « Big Brother Awards », établissant une
liste des organisations bafouant les libertés des utilisateurs en traitant leurs données.
On avait ainsi pu découvrir en 2013 les pratiques de Amesys, une filiale de Bull, le
leader européen en gestion de systèmes numériques, qui avait mis en place une
application de surveillances des e-mails (Eagle) pour le compte du gouvernement
Kadhafi en Lybie, visant à intercepter les conversations entre opposants sur les
plateformes Yahoo!, Hotmail et Gmail.
56

Peu après que le scandale soit révélé par le Wall Street Journal, la société Amesys
avait supprimé tous les contenus relatifs à l’application Eagle. La revente de ces
armes électroniques utilisant des technologies mêlant hacking et Big Data semblent
alors cédée sans vergogne au plus offrant. Ce type d’information amène la
population à se méfier et à généraliser les pratiques numériques comme
malveillantes.
Afin de bien comprendre dans quelles mesures le Big Data en tant que traitement
d’informations de masse permet ou non de faire, il est de mise de faire un état des
lieux des lois appliquées en France et dans le monde aujourd’hui, et d’en ressortir les
menaces qui en découlent :
- La loi du 13 juillet 1991 relative au secret des correspondances émises par la voie
des télécommunications stipule que dans des cas engageants, la sécurité nationale
ou la prévention de la délinquance et de la criminalité, les opérateurs sont tenus de
coopérer avec la justice. Cela signifie que ces cas peuvent amener à une
surveillance des communications téléphoniques et de messageries. En France, cette
loi semble légitime, mais reste sensible car rentrant dans une logique pouvant
donner lieu à des débordements comme a pu illustrer le programme américain
PRISM permit par le Patriot Act de 2001 où le principe de sécurité nationale a été
une justification pour une surveillance généralisée des citoyens.
- La loi LSQ du 15 novembre 2001 relative à l’obligation pour les FAIs de conserver
les données de connexion pendant un an (principe de data retention) :
ce principe n’est cependant que peu contrôlé, les FAIs pouvant aisément supprimer
les données collectées en cas de contrôle intempestif.
- La loi du 6 août 2004 modifiant la loi n°78-17 du 6 janvier 1978 relative à

l’informatique, aux fichiers et aux libertés donnant le droit à la collecte de données
personnelles en masse : l’internaute ne pouvant exiger l’effacement des données
que si les informations sont erronées.
- La loi du 23 janvier 2006 relative à la lutte contre le terrorisme permettant aux

services de police de demander les données de connexions et autres données
personnelles sans autorisation d’un juge.
57

- Le décret Hadopi du 5 mars 2010 donnant doit au croisement des données des
FAIs avec des données à caractère personnel afin d’identifier les personnes ayant
usage de systèmes de téléchargement PeertoPeer.
L’ensemble de ces lois apporte des enseignements sur la politique de l’état en

matière de traitement des données. Pour résumer succinctement, l’idée globale que
l’on peut se faire en étudiant les divers textes de lois est que le gouvernement prône
une politique visant à la non divulgation des données personnelles, mais que si
entrent en jeux des problématiques étatiques, celles–ci sont communiquées sans
retenues. La surveillance des données est donc théoriquement encadrée, mais les
opinions peuvent donc diverger selon le degré de confiance attribué au
gouvernement.
En effet, la grande question subsistant pour les Français est de savoir si la France, à
l’instar des Etats-Unis, utilise un système de surveillance généralisé.
La ministre déléguée chargée de l’innovation et de l’économie numérique Fleur

Pellerin lors de l’affaire Snowden avait évoqué de manière évasive une surveillance
« non généralisée » des données numériques en France lors d’une interview
télévisée sur BFMTV. Celle-ci répondait en effet que la surveillance des personnes
par leurs données n’était pas généralisée, tout en enchaînant sur le fait
qu’aujourd’hui 80% des Français utilisaient les réseaux sociaux et s’inscrivaient à
divers sites et rendaient ainsi de nombreuses informations publiques. Cette réponse
maladroite avait valu à la ministre de vives critiques en laissant planer le doute sur
cette surveillance. La réponse se trouve en fait dans l’architecture même des
systèmes de collecte utilisant les architectures Big Data.
En effet, en utilisant les données non structurées, les algorithmes réalisent des
appels sur l’ensemble de la base concernée en faisant remonter dans les «clusters»
via le MapReduce (ensemble de serveurs alloués pour l’accueil des résultats),
l’ensemble des réponses remontées par l’algorithme.
Dans ce contexte, on peut comprendre l’hésitation de Fleur Pellerin car la réponse

peut être traité sous deux angles :
58

- OUI, il y a surveillance généralisée car le data mining réalisé sur les serveurs font
potentiellement des appels à l’ensemble des données, ce qui signifie que toute
personne peut être visée par ces requêtes.
- NON, il ne s’agit pas de surveillance « généralisée » dans le sens où les

algorithmes utilisés font appel à certaines corrélations qui ne feront remonter que
certains types de profils pour lesquels l’Etat a de l’intérêt à surveiller. Autrement dit,
seules les personnes ayant des pratiques illicites dans le cadre de la loi peuvent être
amenées à être visées. Dans l’hypothèse d’un état souverain se cantonnant à des
fonctions régaliennes de maintien de l’ordre et ayant des systèmes de contrôle
justes, ce système ne semble pas présenter de danger pour la majeure partie de la
population.
Il existe tout de même un travers dans l’utilisation des Big Data, qui autant du côté
des personnalités morales que publiques, peut constituer une entrave à la liberté de
chacun. Ce travers tient du fait du mode de détermination des profils. Nous
évoquions dans la première partie de ce mémoire la capacité des logiciels de
partitionnement de données d’établir des corrélations défiant la réflexion cognitive
humaine sur des bases algorithmiques. Ce type fonctionnement se base sur une
segmentation profonde permettant d’émettre des probabilités fortes sur des
comportements non rationnels. Il n’en reste que ces résultats, aussi précis soient-ils,
restent des probabilités. Une question éthique se pose alors quand à l’utilisation de
ce type d’informations. En effet, si à l’échelle de Paris (environ 2 millions d’habitants)
10% de la population26 semble adopter un comportement déterminé à risque (soit
200 000 personnes), mais que les critères déterminants ces comportements ont une
efficacité de 90%, ce n’est pas moins de 20 000 personnes qui pourraient alors être
suspectées à tort d’avoir des comportements criminels. Dans le cas d’une assurance
ou d’un crédit, la même logique pourrait induire que de nombreuses personnes
pourraient se voir refuser des offres sur la seule base d’une probabilité algorithmique
dans une logique de diminution des facteurs risques, défis majeurs dans ces
secteurs. Il semblerait que la société évoluera dans une logique permettant une
efficience commerciale et gouvernementale mais utilisant les statistiques au
détriment de couches de population que l’on pourrait qualifier de «minorités
numériques».

26 réf. : taux de criminalité à Paris relevé par le Figaro.fr en 2008
59

Les décisions seraient alors régies par les données et l’on est en droit de considérer
que de nombreuses décisions pourront être prises à l’avenir par des
recommandations émanant de systèmes algorithmiques. Imaginons un instant qu’un
système algorithmique établisse la probabilité d’arriver au terme d’un conflit armé en
faisant des bombardements sur certaines zones précises pouvant désamorcer le
conflit en un mois de temps mais en occasionnant des dommages collatéraux
important pour la population civile, et que d’un autre côté, une manière plus subtile
engrange un embourbement sur une longue période entraînant des milliards de
dollars de dépenses supplémentaires. Cet exemple bien qu’exagéré est un cas de
figure montrant l’ambivalence entre la logique d’efficience des algorithmes et la
dimension éthique. Mais y aura-t-il réellement un choix ? Les
concurrents/adversaires détenant également ces « armes numériques » auront-elles
une telle réflexion ?
En gardant en tête l’épisode d’Hiroshima et Nagasaki, où les américains n’avaient

pas hésité à utiliser la bombe H à l’encontre du Japon afin de mettre un terme au
conflit, semble apporter un élément de réponse, aussi amer soit-il.
60

2) Vers une évolution responsable du Big Data
Il y a une limite à la recherche de la performance. Le traitement de données doit

devenir science sociale.
De nouveaux systèmes de contrôle
C’est un état de fait que les évolutions technologiques et les nouvelles pratiques
dans le milieu digital évoluent plus vite que les lois. Il existe toujours un temps de
latence entre la constatation d’un vide juridique et l’application de nouvelles règles
pour la simple raison qu’il est difficile de visualiser à l’avance tous les impacts d’une
avancée technologique.
Le débat actuel sur la protection des données privée en est la preuve, où malgré
l’utilisation par les entreprises des données personnelles depuis déjà une dizaine
d’années, le droit n’évolue que pas à pas. Pour exemple l’article 32 II de la loi
informatique et liberté relative ou “Paquet télécom” spécifiant que les sites se doivent
d’informer les internautes de l’utilisation des données récoltées. Bien que
l’ordonnance fût publiée en août 2011, de nombreuses directives ne sont que peu ou
pas appliqué même sur des sites au trafic important. On peut illustrer ce retard de
mise en application avec l’obligation d’information concernant les “cookies”, qui
permettent le tracking des explorations des internautes pour la majorité des sites
internet. Tout site internet utilisant ces cookies est censé présenter un bandeau
informatif sur sa page principale afin d’obtenir l’approbation de la pose de ces
fichiers; or cette évolution n’est encore appliquée que pour une poignée de sites en
2014.
Dans un contexte où les architectures Big Data se démocratisent et toucheront le

plus grand nombre des internautes, la question est alors de percevoir les prochains
leviers législatifs et organisationnels qui devront être mis en place.
61

Données personnelles, un changement de débat
Le débat de la protection de la vie privée était auparavant cantonné sur l’idée de ne

pas rendre publiques certaines données sensibles comme les coordonnées
bancaires ou les orientations sexuelles et religieuses, tel que le stipule les directives
européennes en matière de circulation de données personnelles27. Or la capacité
d’obtenir ce type d’informations par un système de corrélation basé sur le
comportement des personnes change la donne.
Une orientation sexuelle peut aujourd’hui être aisément déterminée par les seules
données sociales publiques et par les interconnexions relationnelles. La protection
des individus n’est alors plus à un niveau individuel, mais au niveau global sur toutes
les informations communiquées de façon consciente ou non par les internautes.
Le défi est alors de trouver un équilibre entre la protection des consommateurs et la

liberté des entreprises. Une approche déontologique devra alors être faite afin de
déterminer jusqu’où les segmentations de profils pourront être utilisables à des fins
commerciales ; ce qui induit la capacité pour la justice d’avoir un regard sur
l’ensemble des données récoltées par les entreprises. Malheureusement, une œuvre
de telle ampleur n’est évidemment pas envisageable. Un processus plus réaliste
serait de créer un « Code Déontologique des activités numériques » s’appliquant aux
différents types de société ayant recours aux systèmes de traitement de données de
masse (moteurs de recherche, réseaux sociaux, plateformes e-commerce…) dont
les entreprises seraient tenues de suivre scrupuleusement chaque critère sous peine
de sanctions financières.
Mais les individus ne sont pas les seuls à devoir être protégés.
Le respect de la libre concurrence
La détention des datas, avec l’expansion de leur volume à l’avenir, présume un

avantage concurrentiel non négligeable sur les marchés.
Les PME, bien qu’entrevoyant les bénéfices que peuvent générer les systèmes de
données non structurées, n’ont pas les ressources nécessaires pour mettre en place
de tels chantiers demandant des compétences spécifiques coûteuses et
chronophages.

27 Directive 95/46/CE du Parlement européen et du Conseil du 24 octobre 1995
62

L’expansion des start-ups est alors en danger dans un système où les grandes
entreprises pourront utiliser leur puissance financière pour acquérir de la data et ainsi
avoir une présence beaucoup plus forte.
Le risque est de retrouver une logique de concentration amenant à des situations

d’Oligopole où les barrières à l’entrée sur les marchés seraient d’autant plus accrues,
entraînant ainsi un frein à l’innovation.
Les autorités de la concurrence telles que l’OMC devront prendre en compte ces
nouveaux facteurs afin de garantir l’atomicité des marchés.
En théorie, cela pourrait se traduire par la mise en place de taxation proportionnelle à

la capacité de traitement de données des acteurs, permettant d’apporter une aide
aux nouveaux entrants pour le financement de projets d’enrichissement de données.
Cependant, cette théorie est confrontée à deux obstacles :
- La politique de l’OMC qui repose sur une logique néo-classique libérale, donc ne
prônant pas l’interventionnisme, ne semble à priori pas enclin à mettre en œuvre
une telle mesure ; d’autant plus que de forts lobbyings seraient à craindre de la part
des entreprises et des gouvernements, notamment des Etats-Unis, étant les plus
avancés en technologies Big Data,
- Le contrôle des investissements des nouveaux entrants bénéficiaires, tant les

problématiques de traitements de données peuvent servir divers objectifs, chacun
ayant des coûts de mise en œuvre différents.
La question de la régulation de la concurrence est alors un sujet délicat qui requiert

une connaissance parfaite des marchés et des jeux de concurrence afin de pouvoir y
répondre efficacement. Cet enjeu de contrôle sera dans tous les cas une réflexion à
l’échelle internationale.
Une autorité de contrôle globale
Le Big Data, qu’il s’agit du respect de la vie privée ou de la libre concurrence, devra
avoir un système de contrôle global et indépendant.
En effet, les problématiques liées à l’utilisation des données ont une dimension
internationale, et ne doivent donc pas pouvoir être soumises aux influences des
états.
63

Le fonctionnement du Big Data par hébergement des données sur des serveurs
multiples implique en effet le fait que ceux-ci puissent être localisés partout dans le
monde. Le principe de contrôle des serveurs étrangers avait déjà pu montrer sa
validité juridique avec l’exemple de Google France en 2012. Par l’ordonnance du 31
août 2012, la cour d’appel avait ainsi pu valider le contrôle fiscal de la société qui
révélait exercer des actions commerciales en utilisant des données basées en
Irlande, et voulait ainsi se prévaloir de payer les taxes sur son activité en France.
Mais ce principe appliqué en France ne le sera pas forcément dans chaque pays,
d’où la nécessité d’instaurer une autorité capable d’agir hors des frontières.
L’autorité la plus proche de ce fonctionnement est aujourd’hui L’ARCEP (Autorité de

Régulation des Communications Electroniques et des Postes) en étant un organisme
indépendant comportant des tâches d’observation des pratiques et des liens
commerciaux existants sur les marchés numériques et en régulant les différentes
actions menées sur les marchés. De la même façon, une autorité globale de
régulation de la data devra contrôler les agissements des entreprises sur trois
différents points:
- le respect déontologique du traitement algorithmique des profils des internautes,
- la régulation des marchés concurrentiels liés aux datas,
- la circulation des flux de données entre les différentes entités économiques.
Pour cela, elle devra :
- exercer un droit de regard sur les architectures de données et les solutions

logicielles incorporées dans les entreprises, qui devra être intempestif et sans
possibilités de dérogations afin de pallier aux moyens de dissimulation des données
par les entreprises,
- voir des moyens coercitifs en cas d’abus de position dominante ou de non respect
des chartes déontologiques des traitements des profils.
Cette autorité, pour remplir sa tâche devra être composée de personnes

compétentes dans des domaines divers, alliant enjeux politiques, économiques, et
connaissant l’ensemble des pratiques techniques liées aux datas.
64

Le Big Data comme science sociale
Les technologies Big Data, outre leurs capacités à créer de la valeur par une
efficience marketing lorsque celles-ci sont maîtrisées, pourront amener à de
nombreuses avancées d’ordre public en protégeant les vies humaines de menaces
sur leur intégrité tant physique que morale grâce à des logiques collaboratives.
La sécurité des services informatiques
Les entreprises collectent de plus en plus de données sensibles sur leurs

plateformes digitales. Des intrusions malveillantes pouvant provoquer des fuites de
données peuvent alors être désastreuses tant pour les utilisateurs de ces services
que pour les entreprises, perdant la confiance de leurs clients. La sécurisation des
outils web est alors un enjeu majeur.
L’exemple le plus récent et des plus retentissent était la faille Heartbleed révélée en
avril 2014. Cette faille permettait d’accéder impunément aux données sensibles de
nombreux sites (½ millions de serveurs, dont ceux de Facebook, Google et Yahoo),
utilisant les protocoles de cryptage de type SSL/TSL tels que des messages
sécurisés, des transactions bancaires, des informations de connexion client, ou des
documents confidentiels. Il fallu deux ans avant que des experts en informatique se
rendent compte de l’anomalie.
Aujourd’hui, les sites tentent alors de se prévaloir des attaques éventuelles sur deux
plans:
- la mise en place de protections logicielles des menaces connues : virus, malwares,

spams…
- l’utilisation de solutions de sandboxing (exécution de logiciels en temps réel dans

un environnement protégé) afin de déterminer si les logiciels présentent des
menaces ou non.
Ces solutions ne représentent qu’un bouclier contre les différents types d’attaque.
Une fois ces systèmes de protection contournés, il n’existe pas de moyens
permettant de connaître la cause de l’attaque. Un logiciel malveillant pourra alors
65

frapper plusieurs fois avant que soit détecté son fonctionnement et soit développé
une solution pour le contrecarrer.
C’est ici que Le Big Data apporte une solution visant à améliorer l’ensemble du Web.
Le traitement de l’ensemble des données enregistrées par une plateforme web peut
déterminer rétroactivement la source de l’attaque en scrutant tous les changements
opérés au cours de celle-ci. Par compilation des divers protocoles utilisés, il est alors
possible de déterminer la faille qui a pu permettre la transgression dans le système
informatique.
Par ce procédé, les sites pourront analyser les menaces. En organisant un échange
de ce type de rapports entre les différents acteurs du web, il sera possible alors de
diminuer considérablement le nombre d’attaques et ainsi permettre une toile plus
sûre pour les entreprises et les utilisateurs car plus réactive.
L’accès à l’éducation pour tous et personnalisé
Les principales barrières à l’accès à l’éducation sont les coûts et la proximité

géographique. Dans un contexte où le prix des grandes écoles et les dépenses des
élèves tendent à croître, nombreux étudiants sont écartés des systèmes éducatifs.
L’ère numérique voit se développer des systèmes digitalisés par des cours en ligne.
Cette tendance est désignée sous le nom de MOOC (Massive Open Online Course),
dont l’exemple le plus connu est Coursera, une plateforme universitaire proposant
des cours en ligne gratuits ou à très bas prix, donnés par des intervenants issus du
monde entier.
Ces plateformes gagnent en importance et ont une reconnaissance grandissante aux

yeux des recruteurs, appréciant la diversité des profils et leur caractère autonome
implicite par ce type de formation. Par ces solutions de cours dématérialisés, les
problématiques de coûts à l’éducation ainsi que la situation géographique tendent à
être résolus.
Mais quel rapport alors avec le Big Data?
66

La liaison entre les différentes technologies du web et la solution des cours en ligne
peut permettre une transformation considérable du système éducatif en permettant la
personnalisation des parcours en les adaptant aux intérêts des élèves, pouvant ainsi
créer des profils intéressants pour les entreprises tout en réduisant le taux d’échec
scolaire.
En effet, en proposant des cours sur des bases digitales, il est possible de
transposer les outils et techniques de collecte de données tels que le tracking, le
mouse tracking, ainsi que tous les indicateurs de Web Analytics (temps passé par
contenu vu, taux de rebond, mots clés, etc.) afin de poursuivre un but éducatif.
Ces indicateurs, à l’instar d’un site web classique pourraient alors opérer une
segmentation des profils en déterminant par exemple les centres d’intérêts de
chacun, leur niveau et/ou leur avancée sur un thème donné et ainsi proposer des
contenus adaptés à leur progression.
Ce système pourrait changer fondamentalement la manière d’enseigner, les

professeurs auraient alors une fonction de tuteur, intervenant sur des problématiques
spécifiques rencontrées par les élèves.
Les domaines d’applications cités ci-dessus ne sont que deux exemples parmi
d’autres portant en eux des fonctions servant l’intérêt général. La capacité du Big
Data à traiter des corrélations complexes n’est pas destinée à ne servir que des
intérêts financiers. C’est par une dimension collaborative que ces technologies
apporteront des avancées sociales permettant de réguler le Web ou pallier à des
problèmes actuels tels que l’abandon scolaire ou le traitement des épidémies dans le
monde.
La data ne remplacera pas l’humain
Travailler avec la data ne signifie pas renoncer aux outils classiques. Juliette
Delcourt, directrice marketing de Marionnaud, enseigne qui a modernisé sa gestion
de la relation client en 2012, explique :
“Dans l’approche relationnelle et conversationnelle que nous entretenons avec

nos détenteurs de cartes, le premier point de contact reste la conseillère beauté.
67

Nous continuons aussi à faire du mailing papier mais en sélectionnant les
personnes pour lesquelles cela aura le plus de pertinence en terme de valeur.
Les boutiques téléphonent beaucoup à leurs plus fidèles clients… Plus aucune
décision n’est prise sans regarder la data, mais on prend garde à ne pas trop
miser non plus sur le côté prédictif. Sur le marché du parfum et de la beauté, qui
compte beaucoup sur l’achat plaisir, les clients ont envie d’essayer les nouveaux
produits”28.
Connaître ses clients est un impératif, mais pas au point de trop en savoir et de se
noyer dans un océan d’éléments qui ne sont pas forcément tous utiles. Le
consommateur requiert toujours les mêmes attentes, qui tournent autour d’une
relation de confiance entre lui et la marque. Un trop plein de connaissance pourrait la
rendre moins intuitive et donc moins efficace. Il faut faire confiance à nos intuitions,
sentir les choses, se mettre dans la peau des clients, dans une relation
marque/consommateur favorisant le respect dans une démarche d’égal à égal.
Restez en permanence en contact avec le terrain, qui pourra révéler des

comportements auxquels vous n’auriez pas imaginé. C’est là que tout bouge et qu’il
faut rester attentif. Suivons les cycles de vie de nos clients et tentant de faire évoluer
ces données dans un cercle dynamique en prenant en compte l’évolution de notre
société et de notre environnement. La maîtrise de ce mouvement est primordiale car
de nos jours tout évolue très rapidement et ne cesse de changer au rythme de
nouveautés et de technologies. Il faut rester curieux et ouverts, continuer d’être
dynamique et créatif. Cette agilité retrouvée sera alors l’élément clé d’une relation
client simple, nouvelle et prometteuse.

28 “Distribution : la data en tête de gondole”, Revue INfluencia, 2014, p.126
68

Conclusion
Au terme de ce mémoire, les enseignements accumulés permettent un éclairage

nouveau sur les technologies du Big Data. En comprenant ses réelles spécificités
techniques, le traitement des données non structurées a démontré un réel
changement dans la façon d’appréhender les données digitales. En traitant des
données de sources et de types divers par le biais de serveurs multiples, les
architectures utilisant les frameworks de type Hadoop ont démontré un réel intérêt
pour les entreprises, tant pour leurs capacités analytiques décuplées que pour le
coût de leur mise en place et de maintenance amoindries face aux traitements de
bases classiques de type SQL, bien plus rigides et ne répondant pas efficacement
aux problématiques d’accroissement de volume de données hébergées par les
entreprises.
La grande flexibilité du traitement de données non structurées et diversifiées couplée
à une grande diversité de solutions logicielles apportent une adaptabilité propice à
toute problématique d’entreprise et devient source d’innovation. Ces technologies, en
facilitant la mise en relation de données par les diverses solutions algorithmiques,
amènent à une segmentation d’une finesse extrême. Ces segmentations orchestrées
par des solutions algorithmiques amènent alors à une logique nouvelle, inversant les
processus de réflexion usuels. La réflexion humaine guidée par une pensée
rationnelle n’est plus ici la base d’actions créatrices de valeur pour les sociétés là où
les algorithmes déterminent des segmentations sur des données factuelles. En se
basant sur des faits, la réflexion est portée non pas sur des hypothèses de ciblage,
mais sur la mise en oeuvre de stratégies permettant de tirer profit de ces
informations. En supprimant l’aspect hypothétique de la réflexion cognitive, le Big
Data rend les processus de décision plus précis et moins chronophages.
Si la réflexion est changée, alors l’organisation en est également transformée en

induisant une coordination différente des services au sein des sociétés où les bases
de données autrefois scindées par type de besoins (datamarts) se regroupent en une
base unique, plus riche. Le succès des entreprises se lançant dans des projets Big
Data dépendra grandement de la communication interne des entreprises en
déterminant l’arbitrage entre ses différentes entités. Mais outre des défis
69

organisationnels, c’est aussi une montée en compétences de tous les services liés à
la data qui devra s’opérer. Les algorithmes en langages Java demandent une
compréhension du système par tous les acteurs afin de faire la jointure entre besoins
marketing et spécificités techniques.
Cette ambivalence induit l’émergence de nouveaux métiers aux compétences rares,
mêlant réflexion marketing et connaissances techniques en langage informatique.
Les métiers clés des entreprises tendent alors à changer. Dans l’ère du data, les
Data Scientists seront rois. Si les entreprises parviennent à intégrer ces
changements, celles-ci pourront accéder à un avantage concurrentiel indéniable.
Cependant, la maîtrise des datas par les entreprises n’est pas sans risque pour
l’intérêt commun. Les traces numériques laissées par les internautes sont riches en
informations et les capacités de déduction des technologies Big Data ne laissent que
peu de place au mystère. Le débat n’est pas ici celui d’une protection des données à
l’échelle de l’individu, car le Big data s’intéresse aux masses afin de déduire des
paradigmes de comportements.
Chacune des données issues de traces laissées sur le Web reflètent les
comportements et les idéaux de chacun. Le réel danger se présentera alors sous la
forme de l’utilisation des algorithmes et des profils qui en seront ainsi déterminés. En
utilisant les informations de profils à l’échelle de l’individu, les défis sont alors
d’obtenir une transparence sur les usages des données sur les personnes et de
garantir l’anonymisation de celles-ci sur le Web.
On aura tôt fait d’évoluer vers un système où la donnée influera sur la plupart des
prises de décisions. Les technologies de Big Data, en procurant des statistiques
précises, ont la capacité de fournir des informations tangibles pour ces prises de
décision en réduisant les marges d’erreurs quel qu'en soit le domaine. Mais les
corrélations, même avec une extrême finesse, ne restent que des probabilités. Le
risque d’une systématisation de l’emploi de ces statistiques est alors de catégoriser
les personnes tout en sachant qu’un pourcentage de la population visée, bien que
présentant tous les critères correspondants, ne rentrent pas dans la cible
déterminée.
Un nouveau type de minorité sera constitué alors de “victimes algorithmiques”,
dommages collatéraux d’un système déshumanisé.
70

La logique algorithmique étant dénuée de réflexion sociale, devra-t-on être prêt à
sacrifier ces minorités au nom de l’efficience?
Cette vision de notre avenir semble pessimiste, mais cependant pas inéluctable. Une
évolution déontologique du Big Data passera par la création et la mise en application
de nouvelles règles afin de se prémunir des abus que peuvent engendrer le Big
Data. Les gouvernements pouvant avoir des avis plus ou moins libéraux face à
l’utilisation du Big Data, il sera primordial de permettre une régulation éthique à
l’échelle internationale.
Aujourd’hui, la loi peine à suivre les avancées technologiques et la technologie Big
Data pose elle-même des limites aux droits nationaux par sa structure même. La
multiplicité des serveurs permettant d’héberger les données implique que les
données peuvent être hébergées sur des serveurs éparpillés dans le monde. Le
conflit entre les différentes régulations nationales pourrait rendre inefficace
l’application des lois.
La solution sera alors la mise en place d’une autorité de régulation internationale
ayant un droit de regard sur l’utilisation des données par les entreprises afin de
garantir le respect des individus des principes de libre concurrence.
Le Big Data, comme toute technologie nouvelle, apporte son lot de questionnements
et d'inquiétudes. Il est tentant de diaboliser ces pratiques, mais il ne faut pas occulter
l’extraordinaire avancée qu’elles engendrent. Les possibilités qui s’offrent à nous
peuvent servir des intérêts nobles. Ces technologies pourront par exemple, assez
paradoxalement, permettre la protection des données personnelles des individus en
créant des systèmes de reconnaissance des pratiques de hacking visant à récupérer
les données sensibles sur les plateformes Web. Elles pourront également permettre
un accès à l’éducation plus large, moins coûteux et personnalisé à chaque élève.
L’éventail des possibilités est vaste, et avec une logique collaborative et ouverte, de
nombreux systèmes émergeront.
Mais il est possible d’aller encore plus loin. Les possibilités qu’offrent les systèmes
de Big Data présentés dans ce mémoire se sont attachées à une vision
représentative des évolutions des pratiques dans un spectre de 5 à 10 ans. Mais le
traitement des données non structurées et de type varié, couplées aux solutions
71

algorithmiques, posent dès aujourd’hui les bases de nouvelles réflexions théoriques
amenant à des hypothèses parfois vertigineuses lorsque le sujet vient à l’utilisation
des algorithmes d’apprentissage mêlés au Big Data.
L’homme créé à son image et la toile pourrait bien s’apparenter à la construction
neuronale d’un cerveau humain, à la différence prêt que celui-ci renfermerait la
quasi-totalité des connaissances sur terre. Les algorithmes d’apprentissage
automatisés prouvent déjà que ceux-ci peuvent faire preuve d’autonomie dans leurs
décisions dans le cadre d’études de comportements, s’enrichissant par eux-mêmes
des données qu’ils traitent. Déjà en 2001, des informaticiens russes avaient réussis à
créer une intelligence artificielle qui passa le test de Turing avec succès, test
consistant à confronter des personnes à cette IA et à déterminer si celle-ci pouvait se
faire passer pour un humain. Il n’est donc pas fantaisiste de penser que ces
algorithmes “autonomes” puissent acquérir une capacité de réflexion semblable à
celle d’un homme, en considérant que la réflexion cognitive est faite de corrélations
entre l’ensemble des informations emmagasinées. Une telle hypothèse amène à des
questionnements divers sur la définition de la conscience et des changements que
l’émergence de telles intelligences pourraient susciter, un algorithme ayant une
capacité de traitement d’informations décuplée.
Le Big Data sort alors d’un cadre purement commercial et sociétal. Nous
n’entrevoyons encore qu’à peine l’étendue de ses possibilités. L’avenir semble alors
ouvert à de nombreuses innovations dans ce domaine.
72

Annexes
Entretiens individuels
Entretien avec Abdelkrim Talhaoui, co-fondateur de Octopeek
1- Pouvez-vous nous décrire succinctement votre parcours professionnel?
Abdelkrim Talhaoui, co-fondateur de Octopeek. J’ai plus de 15 ans d’expérience

dans le web, plutôt dans le secteur des télécoms, notamment chez LibertySurf, Free.
Aujourd’hui j’accompagne aussi les grands comptes comme SFR ou Bouygues. On a
développé cette solution d’analyses prédictives et d’enrichissement de données
qu’on propose à un grand nombre de clients.
Je suis également fondateur de la société Librepost, spécialisée dans les services
postaux low cost. On échange des timbres en échange de sponsoring publicitaires,
mais également du courrier en ligne, du fax, SMS. Cela nous permet de récupérer de
la donnée pour peu, de créer une communauté. Les données sont analysées, qui
nous permet de créer des modèles, qui serviront comme base à notre logiciel.
2- Quelle fut votre motivation à créer la société Octopeek?
En partant de ce projet postal, le projet était de proposer des enveloppes

préaffranchies et de les monnayer par du sponsoring publicitaire. Il s’avérait ensuite
que le business model n’était pas viable car nous étions trop chers comparé à l’e-
mail. L’objectif était alors de pouvoir financer le timbre, cela par plusieurs méthodes.
La première par les espaces publicitaires, la seconde par l’e-mail marketing, etc.
Lorsque nous avons commencé à faire de l’e-mail marketing et envoyer des
newsletters, nous avons compris que pour maximiser le ROI, nous devions analyser
ces e-mails. A propos des e-mails, le retour, certes plus intéressant qu’un message
publicitaire radio ou télé, pourrait être optimisé. Il y a des coûts cachés comme le
spam, l’intrusion de la marque… qui font que le retour n’est pas forcément très
intéressant. Par contre, lorsque le message est ciblé, que l’on envoyait la bonne
information, on aperçoit que le ROI est beaucoup plus élevé.
73

En essayant de comprendre qu’est-ce que l’e-mail, comment l’enrichir pour mieux
cibler nos contacts, l’objectif était de comprendre les personnes à laquelle nous
allions nous adresser.
3- De quelle manière arrivez-vous à cibler les personnes ?
Le principe est simple. Vous uploader une liste d’e-mails, vous choisissez les critères
selon lesquels vous voulez cibler. La première étape est tout d’abord d’analyser
l’adresse mail en elle-même. On commence par regarder le nom de domaine (Gmail,
Hotmail, Yahoo…), qui correspond à un spectre; ce ne sont pas les mêmes types de
personnes, sociologiquement parlant par exemple, qui possèdent une adresse en
Gmail ou en Wanadoo. Les FAI peuvent aussi nous révéler des informations. Par
exemple, chez Free on est peut-être plus adepte aux changements, peut-être plus
“geeks”, “low cost”; chez SFR on peut avoir un profil plus peut-être “fonctionnaire”,
cadre, moins adepte aux changements… Il peut y avoir des vérités sociologiques
derrière. On va ensuite analyser le user name. On peut avoir des renseignements
supplémentaires en ayant de base le nom et prénom de la personne. Le prénom va
nous donner un sexe, éventuellement une tranche d’âge -ce sont là des statistiques
assez classiques-, une origine. En France ce n’est pas légal mais ça l’est dans
d’autres pays. Une origine va nous donner des vérités sociologiques. Le nom peut
aussi nous aider à une situation géographique. On sait par exemple que 47% des
“Martin” se trouvent en région parisienne. Et quand on croise ces données avec des
données INSEE, on arrive à avoir une tranche d’âge, un genre, un sexe, une
localisation, une CSP.
Tout ceci est une première source d’informations. Elle n’est évidemment pas
suffisante. On va donc confronter ces données aux réseaux sociaux, et améliorer le
scoring et enrichir ces données. Si l’e-mail est présent sur les réseaux sociaux
(Facebook, Twitter, Linkedin, Viadeo, etc.), on va aller récupérer des informations
publiques et les confronter à des données Open Data. Tout ceci est assez empirique.
On récupère une information, qui va nous en donner une deuxième, qui elle-même
va nous en donner une troisième, etc. et toutes rassemblées nous en donne encore
plein d’autres.
74

4- Dans votre situation, quels types de données que les entreprises
recherchent-elles ?
Il y a deux typologies d’entreprises. Certaines cherchent à fidéliser. Comme par

exemple SFR, avec leurs bases de données elles connaissent déjà votre nom,
prénom, âge, localisation etc., mais ce qu’elles cherchent ce sont des données
extérieures parce qu’elles ne savent au fond pas vraiment qui est-ce vous êtes.
D’autres font de la prospection. Dans ce cas, ce qui est intéressant est de pouvoir
préalablement définir un spectre, et connaître la cible recherchée.
5- Dans ce cas, ce sont plutôt les petites entreprises ou les grands comptes
qui sont le plus intéressés par votre offre ?
Les deux. Ce sont généralement des entreprises qui font du BtoC. Pour les petits
comptes, ce sont plutôt des entreprises de conseil, de marketing, qui mettent en
place des stratégies pour leurs clients, les aider à mieux enrichir leurs bases, mieux
les connaître… Celles-ci ont un intérêt à utiliser un logiciel comme le nôtre car il leur
permet d’avoir un avantage concurrentiel. D’autres ont déjà des données et
cherchent à mieux cibler leurs clients, à valoriser leurs données.
Ce qu’il faut savoir c’est une base n’est en général plus viable au bout de 6 mois.
L’information meurt si on ne la fait pas vivre. Vous déménagez, vous changez de
métier, vous vous mariez, vous avez des enfants… Une information vraie à un
instant T peut ne plus l’être à T+1. Les entreprises vont alors chercher à valoriser
leurs données mais elles peuvent également la louer.
Les grands comptes sont aussi intéressés par notre solution. Ce sont des BtoC ou
des BtoBtoC. Nous avons comme clients des opérateurs, des banques, des
distributeurs… Elles sont souvent des opérateurs de cooponing, tout cela dans le but
de mieux connaître ses clients.
75

6- Les grandes entreprises peuvent alors mettre en place un projet Big Data et
donc utiliser des bases NoSQL et faire appel à vos services pour augmenter
son volume de données.
Tout a fait. C’est ce qu’il se passe aujourd’hui. SFR par exemple, qui est en ce
moment sur un gros projet sur la connaissance client, leur objectif est d’aller
chercher de la donnée de partout (traçabilité, navigation, etc.) et de la compléter
avec d’autres données, de l’enrichir avec des données extérieures. On les aide aussi
à organiser par exemple leur architecture technique du Hadoop, du NoSQL,...
7- Une fois que le logiciel de partitionnement de données est mis en place, y’a-
t-il besoin d’un expert pour pouvoir les interpréter ?
Il faut quand même une personne qui connaisse Hadoop, s’il y a des soucis
techniques, etc. Après, ce sont des coûts qui sont absorbés. Aujourd’hui, ce n’est
pas simple de trouver des compétences Hadoop en France.
8- Dans le domaine du Big Data, comment voyez-vous les choses évoluer ?

Pensez-vous que ce soit une tendance qui va continuer de croître ?
La technologie est bien présente. Il y a même des Master Big Data qui existe. Des
entreprises comme Publicis ou Accenture, vont porter le Big Data. Comme l’iPhone à
son époque, on créé le besoin. D’un point de vue marketing, des entreprises sont là
et vont porter ce projet.
De toute façon, avec ou sans la France, ou même l’Europe, ça se fera.
76

Entretien avec Florian Wager, Web Analytics manager à Laser Cofinoga
1- Pouvez-vous nous présenter votre poste, vos missions?
Je suis actuellement chargé de Web Analytics, ce qui consiste en la gestion du trafic

site et hors site sur les différents canaux web en suivant les comportements des
internautes via l’usage de cookies et de tags de tracking.
Je suis également chef de projet sur notre chantier Big Data.
2- Pour quelles raisons avez-vous été désigné comme chef de projet?
Tout d’abord, ce projet dont les instigateurs étaient le directeur du pôle Digital Laser
et moi-même, demande des bases solides en traitement de données afin de tirer le
meilleur parti des échanges avec les différents acteurs proposant leurs services pour
mettre en place ce projet.
Le fait pour moi de faire partie de la partie acquisition Web me permet également
d’avoir une logique différente des services relation client ou marketing. Avec des
connaissances techniques et une pensée tournée vers l’acquisition prospects, il
m’est plus aisé d’appréhender les besoins et les possibilités que nous offre le projet
Big Data.
3- Pourquoi la marque Cofinoga a-t-elle songé à se tourner vers le Big Data?
Le groupe Laser et Cofinoga se sont toujours présentés comme des experts de la

donnée interne (Feed). Historiquement, lorsque le Web est arrivé, Cofinoga a confié
la gérance de la data web au service marketing. Aujourd’hui, il est apparu que la data
est devenu notre premier levier d’acquisition.
Auparavant, toutes nos campagnes web étaient gérées par des prestataires, que ce
soit pour l’affiliation ou le RTB (Real Time Bidding).
Aujourd’hui, nous souhaitons traiter notre propre donnée afin d’être capable de
prendre les meilleurs décisions marketing en accord avec notre stratégie.
77

4- Pourquoi faire le choix d’une technologie Hadoop?
Le choix d’Hadoop c’est imposé à nous car c’est l’API le plus démocratisé de nos
jours. Cependant, il faut comprendre que la volonté pour Cofinoga de rentrer dans
une logique Big Data n’exclue pas l’usage de nos data warehouses. Ceux-ci
hébergent toutes nos données riches qui resteront hébergés sur des bases
structurées.
5- Qu’est ce que Cofinoga souhaite donc apporter avec le projet Big Data?
Le Big Data aura pour principal attribut d’obtenir une base unique à tous nos services
et ainsi d'interconnecter toutes nos bases existantes afin de pouvoir mieux gérer nos
campagnes RTB, Display. Le gros avantage de gérer la data en interne est aussi de
pouvoir directement faire le lien entre les besoins exprimés par le marketing et la
captation de données répondant efficacement à ceux-ci grâce à un algorithme
adapté.
Aujourd’hui nous traitons quatre types de données :

- Les données site : sur le trafic, le comportement des internautes et les interactions
- Les données médias : c’est-à-dire tous ce qui est hors-site telles que les bannières,
les vidéos etc., que nous pouvons suivre grâce au pixel tracking (pixel posé sur une
image permettant de connaître la provenance du clic)
- Les données CRM : qui jouent un rôle crucial dans l’amélioration des performances
de campagnes digitales. Le principe étant d’utiliser ces données via un DMP (Data
Managment Platform) permettant de recouper les “ID” clients avec les “ID” des sites
hébergeant des espaces de RTB ce qui est lié au quatrième type de donnée :
- Les données tierces : ce sont des données achetées ou louées à des entreprises
qui, grâce à leur réseau de sites catégorisées par profils, peuvent trouver des
données auxquelles nous n’aurions pas accès. Avec le Big Data, nous pourrons
matcher nos clients avec des profils issues de ces données tierces afin d’enrichir
notre base.
78

6- La solution Big data est elle coûteuse? Comment calculez-vous votre ROI?
La solution Big Data est pour nous bien moins coûteuse que de passer par un data
warehouse. Cela est dû à l’architecture technique qu’utilisent les données non
structurées. Au lieu d’utiliser un hébergement unique très performant, nous
utiliserions de multiples serveurs à bas prix. C’est comme si vous aviez le choix entre
interconnecter une centaine d’ordinateurs peu performants qui ensemble avaient la
même capacité de traitement qu’un ordinateur ultra-puissant.
Le choix n’est pas forcément logique pour toute entreprise, mais l’avantage est que
si une des cent plateformes tombe en panne, il y aura toujours les 99 autres pour
prendre le relais et il sera bien moins coûteux de remplacer un serveur à basse
capacité, qu’un serveur très puissant, qui par ailleurs mettrait en stand-by toute
l’activité du site si il venait à ne plus fonctionner.
Pour ce qui est du ROI, nous n’avons pas eu une logique d’apport numéraire, mais
de gain en productivité future. Le Big Data est un investissement qui se développe
au fil du temps si il est bien organisé.
Nous pourrions obtenir des gains important en ciblage et améliorer notre taux de
transformation en adaptant notre site aux profils utilisateurs. Nous pouvons imaginer
comme exemple un internaute venant sur le site Yahoo.fr cliquant sur une bannière
amenant à notre site tout en sachant que ce dernier avait reçu un courrier parlant de
nos produits d’assurance quelques jours auparavant. Nous pourrions ainsi lui
présenter nos offres d’assurance en première page sur notre site afin d’avoir une
communication des plus ciblée.
7- En terme d’organisation interne, quelles sont les conséquences de ce

projet?
L’organisation sera totalement différente après le projet Big Data.

Aujourd’hui, nos bases sont scindées en plusieurs parties (datamarts) qui ne
communiquent pas entre elles. Elles ont été définies à la base pour répondre le plus
efficacement aux besoins de chaque pôle.
D’autre part, nos équipes Data utilisent aujourd’hui des technologies différentes de
celles utilisées en Big Data via Hadoop. Une montée en compétences sera alors
nécessaire pour ces équipes.
79

Là où auparavant chaque équipe utilisait sa base pour ses propres besoins, une
base commune incluera un nouveau process en trois étapes :
- Le besoin : qui sera exprimé par le service marketing
- L’analyse : traitée par le service Data qui devra élaborer les algorithmes
- La technique : où un prestataire devra traduire les algorithmes en code Java afin de
pouvoir communiquer avec Hadoop.
Le défi est que chaque équipe puisse comprendre comment les autres fonctionnent
afin de pouvoir communiquer efficacement en s’adaptant aux besoins de chacun.
Une autre problématique en terme d’organisation est également de définir quel

service ou quelle personne sera décisionnaire sur les actions marketing. Cofinoga
comprend plusieurs marques liées entre elles proposant des produits et services
différents. En possédant une même base pour tous, les opportunités marketing
communes à plusieurs marques seront plus liées. Il faudra donc arbitrer le
déroulement des campagnes de chaque marque afin de ne pas adopter une
communication trop agressive, produisant un effet inverse à celui escompté.
80

Entretien avec Xavier Bartone, Expert SMO et fondateur du Webzine “Elle était une
Marque”
1- Selon vous, qu’est ce qu’un système de données non structurées apporte de

plus à une entreprise que le datamining classique ?
Au sein de mon agence, je suis souvent amené à conseiller les clients sur leurs
stratégies de captation des données. Beaucoup d’entreprises ne sont pas
sensibilisées à l’importance de celles-ci et à leur capacité à générer de la valeur.
Selon moi le Big Data apporte une vision plus précise de l’activité d’une entreprise:
- Il permet de déterminer où sont placés les consommateurs dans le tunnel d’achat,
en différenciant les prospects chauds, moyens ou froids, ce qui améliore le ciblage.
- Il définit également de savoir à quel moment les actions marketing doivent être
mises en place
- Le Big Data permet enfin de déterminer des éléments hyper-rationnels, le fait
de tracer le consommateur pour savoir qui il est, comment il se comporte, par rapport
à comment je suis vis-à-vis de lui, permet de faire moins d’erreurs et devient ainsi un
outil tactique très puissant.
2- Selon votre expérience personnelle, une entreprise a-t-elle intérêt à intégrer

une organisation Big Data en interne ou est il plus rentable d’externaliser ces
compétences ?
Le Big Data reste un métier très technique qui requiert des compétences techniques
poussées. Pour moi, tout dépend des entreprises. Une société ayant l’habitude de
traiter les données et souhaitant en être propriétaire, pourra éventuellement intégrer
cette organisation, mais dans le cas de petites entreprises, il semble difficile de
mettre en place un tel projet. Cela pour des raisons tout d’abord financières, mais
également du fait que bien que les PME commencent à prendre conscience de ce
qu’offre le Big Data, leur masse de données est en général encore trop faible pour
songer à évoluer vers ce type de technologie.
81

Fiches de lecture
1- Tout savoir sur… L’Absolu Marketing : Web 3.0, Big Data, Neuromarketing…,
BRUNO TEBOUL & JEAN-MARIE BOUCHER, Edition Kawa, 28 mars 2013,
366 pages
Un mot sur les auteurs :

Bruno Teboul, 43 ans, est diplômé d’une maîtrise d’Epistémologie, d’un DEA de
Sciences Cognitives et Executive MBA HEC. C’est un ancien cadre dirigeant au sein
de groupes tels que PPR, La Poste, Galeries Lafayette, Carrefour ou Devoteam. Il
est actuellement Doctorant en Sciences de Gestion à l’Université Paris Dauphine, où
il enseigne le Marketing.
Jean-Marie Boucher, 47 ans, est diplômé de Sciences Po Paris et MBA HEC. Ancien
cadre dirigeant du Groupe PPR et Harrods, il est le fondateur de consoGlobe.com,
1er portail français sur la consommation durable et de la société de conseil en
stratégie Invenio. Ses sujets de maîtrise : Internet, l’informatique et les technologies
du futur. Ce livre est son second, après Les Confiscateurs, publié en 2005.
Ecrit en collaboration suite à des expériences communes, l’objectif de ce livre est de

démontrer les limites du marketing traditionnel et de construire les bases d’un
nouveau marketing, à l’ère des dernières avancées scientifiques et techniques.
Basé sur le comportement, l’analyse des interactions, nées du web communautaire

et des réseaux sociaux, accéléré par la révolution sémantique, l’analyse de
monceaux de données, le Big Data, est un phénomène d’une ampleur difficile à
mesurer. C’est tout l’univers du marketing qui s’accélère, d’un marketing rapide à un
marketing en temps réel jusqu’à un marketing prédictif.
Le phénomène de Big Data ou « déluge informationnel » a été rendu public avec la
sortie d’un rapport du cabinet McKinsey en 2011 et s’annonce comme le chantier le
plus prometteur des années à venir.
82

- Le web : 1ère source de l’infobésite. Les humains sont les principaux
responsables de l’explosion du volume d’informations. La folksonomie génère
de l’information et est productrice d’énormément de nouvelles informations, de
nouvelles données qui ont du sens.
- Le Big Data peut offrir une vue continue, autant spatiale que temporelle, des
habitudes du consommateur. La prospection devrait donc être à la fois
contextuelle, dynamique et prédictive.
- La connaissance des habitudes ou tendances des consommateurs est la vraie
clé d’un marketing efficace.
- SmartData : le traitement du Big Data sous l’angle CRM
- La naissance du marketing prédictif. A l’horizon 2020, ces informations
devraient représenter 90% de l’ensemble des données stockées. Il faut les
stocker mais également les traiter et en extraire le sens. Grâce au meaning,
nous serons capable de les traiter et ainsi générer une réelle valeur ajoutée.
83

2- Marketing comportemental : Exploiter la donnée marketing client,
ALAIN SANJAUME & ARNAUD CAPLIER, Edition Dunod, 2010, 244 pages
Un mot sur les auteurs :

Alain Sanjaume, pionnier du marketing digital, a introduit le marketing
comportemental en France en 2007, en qualité de Directeur Général de Wunderloop,
leader de la publicité comportementale, il est également business angel. Il donne des
conférences lors des salons adtech, forum e-marketing, salon du e-commerce, salon
du on-line, ou lors de formations payantes : Les Echos, E-marketing magazine...
Arnaud Caplier, Chief Data Officer à Weborama, il est l’un des spécialistes français
de la donnée.
Les deux auteurs ont suivi des parcours différents. L’un des parti de la data et du
CRM et s’est spécialisé sur l’exploitation de la donnée client sur le web et l’autre est
venu de la donnée online en partant du webmarketing, de la publicité interactive et
des conversions en temps réel digitales.
Cet ouvrage présente la puissance, l’étendue et les opportunités du marketing

comportemental numérique à travers des exemples concrets.
Le marketing comportemental est basé sur l'analyse des comportements des

consommateurs, cette analyse est facilitée par le développement des nouvelles
technologies (internet, téléphonie mobile...). Connaître l'évolution des centres
d'intérêt, des attitudes, des styles de vie est essentiel pour les marques qui peuvent
ainsi communiquer de façon très ciblée. Elles passent ainsi d'une logique de
marketing de masse a un marketing one-to-one ou one-to-few. Il devient facile de
construire des stratégies marketing comportementales multi-canal (publicité
interactive, e-mail, SMS) pour acquérir ou fidéliser des clients. Le marketing
comportemental est totalement orienté vers le client, l'avantage pour lui est grand :
recevoir des offres adaptées à ses attentes.
- Internet favorise l’expression et le développement du marketing ciblé et

personnalisé
84

- Le marketing comportemental online se définit comme l’ensemble des
techniques, expertises et approches qui exploitent les données consommateur
contenus sur le web
- Le marketing comportemental est amené à prendre une place croissante dans
les dispositifs marketing
- L’impact de la data sur les nouveaux métiers des marketeurs, régies
publicitaires, agences, annonceurs…
- La collecte des données de masse, nouveaux canaux de contact et de gestion
client
- Le marketing comportemental peut être considéré comme le prolongement du
web et du CRM et du marketing multicanal
Cet ouvrage nous a permis d’avoir une vision globale des principaux enjeux et les
différents aspects du marketing comportemental. Les possibilités d’interaction de
mesure sur les médias offrent des possibilités infinies. Ils deviennent de
formidables outils d’acquisition et de fidélisation. Les services personnalisés
séduit les consommateurs, qui leur apportent confort, facilité et rapidité.
Le marché des places de marché média (ad exchanges) va jouer un rôle
important au sein du marketing comportemental.
85

3- Data Mining Techniques : For marketing, sales, and CRM
MICHAEL J.A BERRY & GORDON S.LINOFF, Edition John Wiley & Sons, 2011, 888
pages
Why and what’s datamining ?

Le livre s’intéresse aux techniques analytiques permettant aux entreprises de grande
envergure, dans l’incapacité d’entretenir une relation personnelle avec leurs clients,
d’utiliser les flux de données pour gérer la relation client.
Le défi est de savoir qui vaut le coup d’être ciblé ou non.
Plusieurs concepts :
• Le data Warehousing qui est le stockage de données afin d’avoir la capacité
de suivre les comportements dans le temps
• Le datamining qui est le processus de réflexion permettant de distinguer les
données pertinentes du passé pour en déduire le futur
Les applications dans la stratégie CRM sont alors :

• L’estimation par critères déterminés (ex : le nombre d’enfants dans une
famille, la solvabilité d’un client, etc.)
• La prédiction basée sur les anciennes données qui permettent d’expliquer le
présent et donc déduire le futur. (ex : prévoir quels clients vont se désabonner
sur une période)
• La segmentation des clients afin d’établir des probabilités de comportement
pouvant servir à des fins de cross-selling
La subtilité du datamining est de faire la part entre les informations déjà connues, les
informations non utilisables et celles pertinentes.
Les tests :
Le test par hypothèse est la base de test pour tout dataminer.
86

Il consiste à recentrer l’analyse sur la base d’idées préconçues que les données
viendront affirmer ou infirmer en créant de nouvelles hypothèses de comportement.
Le datamining et le CRM
- Identifie les bons prospects
- Choisit les bons réseaux de communication
- Le bon message selon le profil prospect
Vie privée et data mining

Le réel risque lié au datamining n’est pas tant la collecte de données que le partage
entre entreprises des données collectées.
La propagation des données pause problème plus que le simple fait pour une
entreprise d’apprendre à connaître pour des besoins opérationnels ou marketing.
En conclusion, les enseignements de cet ouvrage sont de comprendre les différentes

techniques de hiérarchisation des données dans une logique tournée vers le client.
Les différents calculs présentés dans le livre décrivent les algorithmes
mathématiques permettant d’arriver à la segmentation des données selon les
besoins de l’entreprise.
Il n’existe cependant pas de technique absolue dans le traitement de données. C’est
au dataminer de déterminer les meilleurs données à concaténer afin de partir d’idées
reçues jusqu’à faire ressortir de réelles tendances qui serviront de leviers
décisionnels.
87

Bibliographie
Ouvrages
MASSIH-REZA AMINI & ERIC GAUSSIER, Recherche d’informations,

Applications, modèles et algorithmes - Fouille de données, décisionnel et big
data, Edition Eyrolles, 12 avril 2013, 234 pages
GUY CHESNOT, Cloud computing, big data, parallélisme, Hadoop : Stockage de

données du futur, Edition Vuilbert, 23 novembre 2012, 224 pages
BRUNO TEBOUL & JEAN-MARIE BOUCHER, Tout savoir sur… L’Absolu

Marketing : Web 3.0, Big Data, Neuromarketing…, Edition Kawa, 28 mars 2013,
366 pages
ALAIN SANJAUME & ARNAUD CAPLIER, Marketing comportemental : Exploiter

la donnée marketing client, Edition Dunod, 2010, 244 pages
MARK VAN RIJMENAM, Think Bigger: Developing a Successful Big Data Strategy
for Your Business, Edition Amacon, 1 mai 2014, 288 pages
VIKTOR MAYER-SCHONBERGER & KENNETH CUKIER, Big Data, a revolution

that will transform how we live, work, and think, Edition Houghton Mifflin
Harcourt, 3 mai 2013, 242 pages
MICHAEL J.A. BERRY & GORDON S.LINOFF, Data Mining Techniques: For
Marketing, Sales, and Customer Relationship Management, 3rd Edition, Edition
Wiley, 2011, 888 pages
88

Rapports
Analyse des Big Data –Quels usages, quels défis ?, Commissariat général à la
stratégie et à la prospective, 2013
Les Français et la protection des données personnelles, Etude CSA pour

Orange, 2014
Un principe et sept ambitions pour l’innovation, Commission sous la présidence

d’Anne LAUVERGEON, 2013
The Emerging Big Returns on Big Data, A TCS 2013 Global Trend Study, TATA
Consultancy Services, 2013
Etude des parcours en magasin : une nouvelle approche du merchandising,

Marie-Pierre PINTO & Brigitte GUION – DE FAULTRIER, 2004
BIG DATA, Analyse et valorisation de masses de données, Florent BERANGER,

SMILE Open Source Solutions, 2014
The future of digital trust, A European study on the nature of consumer trust and
personal data, Orange, 2014
Propos sur les SI décisionnels, Michel BRULEY, 2011
BIG DATA : Affaires privées, données publiques, Etude Orange, Terrafemina,

AFP, 2014
Comportements culturels et données personnelles au cœur du Big Data, EY,

2013
Synthèse du marché Big Data, bigdataparis.com, 2012-2013
Retour d’expérience du Big Data dans les entreprises, bigdataparis.fr, 2012-2013
Big Data : Big Culture, le pouvoir grandissant de la data et ses perspectives pour
l’économie de la culture, l’Atelier de BNP Paribas Group, 2013
89

The danger of Big Data, Social Science as computational Social science, Andre
Oboler, Kristopher Welsh and Lito Cruz, 2012
2020, la fin du e-commerce ou l’avènement du commerce connecté ? Catherine

BARBA, FEVAD 2011
Statistical modeling and analysis for Database Marketing, Bruce RATNER,

CHAPMAN & HALL
State of Information Survey, SYMANTEC, 2013
3D Management: Controlling Data Volume, Velocity and Variety, Doug LANEY,

META GROUP, 2001
90

Articles web
http://www.informatica.com/fr/potential2at2work/it2leaders/42strategies2for2setting2b
usiness2leaders2expectations2
http://lesclesdedemain.lemonde.fr/revue-de-web/amazon-veut-envoyer-les-colis-
avant-meme-la-commande_a-56-3538.html
http://www.data*business.fr/big*data*definition*enjeux*etudes*cas/#prettyPhoto;
http://lesclesdedemain.lemonde.fr/organisations/big6data6quand6le6statisticien6
devient6sexy_a61261769.html!
http://www.journaldunet.com/solutions/analytics/utilisation-de-watson-d- ibm/watson-
au-service-de-la-medecine.shtml
http://www.e-marketing.fr/Thematique/Data-IT-1004/Big-Data-10021/Dossiers/big-
data-et-si- votre-entreprise-s-y-mettait-aussi-- 233345/
http://leplus.nouvelobs.com/contribution/12034238google8et8le8droit8a8l8oubli8sur8
http://lesclesdedemain.lemonde.fr/innovation/l5explosion5des5donnees5chance5ou5
malheur5pour5la5connaissance5_a55452141.html
http://visionmarketing.e3marketing.fr/business3analytics/la3data3le3petrole3du3
numerique3de3demain_a39831730.html
http://lesclesdedemain.lemonde.fr/organisations/le-deluge-de-donnees-peut-il-
profiter-a-tous-_a-12-1696.html
http://www.france24.com/fr/20140402-big-data-salon-paris-parcmetre-parkeon-
meteo-ericsson-sante-openhealth/
http://www.e)marketing.fr/Thematique/Data)IT)1004/Breves/Touchez)le)coeur)de)
cible))237284.htm
http://www.e)marketing.fr/Thematique/Retail)1002/GMS)10013/Breves/Une)mine)
data)petit)bout)papier)237147.htm
http://lesclesdedemain.lemonde.fr/sante/vers4un4big4data4europeen4de4la4sante_
a4114 3426.html>
http://www.redsen-consulting.com/2013/08/cas-dutilisation-big-data/
http://www.influencia.net/larevue/data/index.php?
http://tempsreel.nouvelobs.com/economie/20140417.OBS4360/pourquoi-la-big-data-
devient-un-tres-gros-business.html
http://bigdatainfo.fr/anticiper2les2tendances2de2demain2lapport2de2lanalyse2predic
tive2 aux2organisations2689=
91

http://bigdatainfo.fr/delivrer3la3bonne3information3au3bon3moment3de3la3maniere
3la3 plus3intuitive3possible3695:
http://www.e-marketing.fr/Thematique/Data-IT-1004/Big-Data-10021/Dossiers/big-
http://www.e)marketing.fr/Thematique/Data)IT)1004/Big)Data)10021/Breves/Big)
data)dans)connaissance)client) 231861.htm
http://bigdatainfo.fr/le2big2data2pour27047
http://bigdatainfo.fr/quels5sont5les5enjeux5du5big5data5pour5votre5entreprise5653
http://www.fredcavazza.net/2013/07/15/les-big-data-sont-le-meilleur-et-le-pire-
ennemi-de-votre-marque/
http://www.internetactu.net/2013/05/14/big-data-nouvelle-etape/
http://datascientists.info/hadoop-and-mpp/
http://www.cnil.fr/documentation/fiches-pratiques/fiche/article/ce-que-le-paquet-
telecom-change-pour-les-cookies/
http://www.journaldunet.com/solutions/systemes-reseaux/datawarehouse/
http://business.lesechos.fr/directions-numeriques/partenaire/big-data-super-size-my-
data-warehouse-57036.php
http://www.adamadiouf.com/2013/03/22/bigdata-vs-enterprise-data-warehouse/
https://www.recordedfuture.com/blog/
http://123opendata.com/blog/finance-big-data/
http://www.ehow.com/info_12245933_mpp-vs-smp-database.html
http://www.zdnet.fr/actualites/stephen-brobst-cto-de-teradata-le-big-data-n-est-pas-
une-rupture-39772633.htm
http://www.itpro.fr/a/frontieres-smp-mpp/
http://www.lemondeinformatique.fr/actualites/lire-le-taux-d-attrition-des-fai-devoile-
par-erreur-31018-page-1.html
https://www.privacyinternational.org/
http://www.bigdata-startups.com/BigData-startup/big-data-improve-education-
infographic/
92

Conférences
Keynote - L’Absolu Marketing, Bruno TEBOUL & Jean-Marie BOUCHER, Animée

par Henri Kaufman, 12 juin 2013, Paris Porte de Versailles, Time To Market
Keynote - le Big Data, nouvel accélérateur de votre business, animée par Alexis
HELCMANOCKI, CEO de MobileTag Group, 12 juin 2013, Paris Porte de Versailles,
Time To Market
Table ronde - Le Big Data au service du marketing, Valtech, 29 novembre 2013,

Paris
Atelier - le CRM prédictif, ou comment PriceMinister utilise le Big Data pour

cibler ses newsletters, 8 avril 2014, salon e-Marketing Paris
Atelier - Big Data au service du Marketing, Octopeek, 8 avril 2014, salon e-

Marketing Paris
Atelier - Exploiter les datas clients, SAS, 8 avril 2014, salon e-Marketing Paris
93

MEMOIRE BIGDATA Quentin-Mathieu

Transféré par

Droits d'auteur :

Formats disponibles

MEMOIRE BIGDATA Quentin-Mathieu

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

MEMOIRE BIGDATA Quentin-Mathieu

Transféré par

Droits d'auteur :

Formats disponibles

Mémoire de fin d’études

Préparé sous la direction de M. Ngombé

Quentin MATHIEU 5MC2, Claire NGUYEN 5MC1 // Promotion 2013/2014

Nous remercions le Pôle Paris Alternance, l’équipe administrative et pédagogique,

Nous remercions nos tuteurs en entreprise, Adeline LEFEVRE, responsable

Nous remercions toutes les personnes interrogées dans le cadre de ce mémoire

I. Comprendre le Big Data ................................................................... 11

Il y a encore 15 ans, un quart des données étaient digitales; aujourd’hui, le digital

Aujourd’hui, le développement et la mise en circulation d’interfaces de

- Le lancement, avec un nombre limité de personnes touchées, mais connaissant

- La croissance, qui est la phase où l’environnement externe des entreprises est en

- La maturité, avec l’apparition de nombreux concurrents atteignant parfois la

La réflexion qui se présente alors à nous est celle de pouvoir comprendre et

Comment appréhender le Big Data dans un monde digitalisé à outrance ?

En constatant ces divergences d’opinions sur le sujet et en pondérant nos différentes

Cependant, les nombreux domaines d’applications que semblent toucher ce

En permettant la déduction des cibles de manière plus efficace et en se basant sur

Dans la même année, Apache créa Hadoop, un framework open-source permettant

Depuis ces 5 dernières années, on voit apparaître de plus en plus de start-ups

Facebook a racheté WhatsApp pour 19 Milliards de dollars qui ne comptait

Le “Big Data” ? Définissons-le.

Littéralement, le terme “Big Data” signifie “gros volume de données”. La définition

- Volume : il décrit notre situation de plus en plus nomade et notre utilisation

- Vitesse ou Vélocité : ces données générées évoluent à une vitesse considérable.

Ces technologies étaient censées répondre à l’explosion des données dans le

“Un ensemble de technologies, d’architecture, d’outils et de procédures

L’intérêt de nombreux projets Big Data réside dans la possibilité de déchiffrer et

5 Gartner, “Infrastructure & Operations : Top 10 Trends to watch”, 2010

Il y a quelques années, ces technologies étaient réservées aux multinationales mais

Le traitement de bases de données, qu’est ce que le Big Data apporte de nouveau?

Les bases SQL

Le traitement de bases de données « classique » utilisé dans la grande majorité des

Aujourd’hui, même une personne n’ayant que des connaissances basiques en

Pendant de nombreuses années, cette technologie représentait la seule alternative

La troisième différence majeure entre le traitement de bases de données SQL et

Les datas warehouses ou le HDFS, un choix fondamental pour les

Coûts, flexibilité & variété

A ce propos, il est important de souligner la différence en terme de coût entre des

Cette structuration présente à la fois un avantage en terme de coûts, mais aussi en

3) La France, en route vers le Big Data

Parmi les domaines d’activité, les télécoms, le tourisme, l’informatique et la banque

Quant à l’Irlande, elle pourrait devenir la référence en terme de technologies Big

- Elle possède de nombreuses entreprises internationales spécialisées dans

La valorisation de ces données de masse en France comporte cependant certaines

- Elle doit en premier lieu développer de nouvelles solutions innovantes (nouvelles

II. Big Data, du fantasme à la réalité

1) Le changement des modèles de pensée

Le Big Data comme support à la réflexion

L’exemple du site de e-commerce Vega.fr illustre bien ce phénomène. Sylviane

Évoquons le cas de la start-up « Recorded Future », spécialisée dans la prévision

Des opportunités ex nihilo

La base principale permettant l’usage des datas est la segmentation. Les

L’intelligence artificielle et les logiciels de partitionnement de

Il existe dans le Big Data de nombreuses applications permettant le partitionnement

En janvier 2014, le géant Google a ainsi racheté la société britannique DeepMind,

Les solutions utilisant ces technologies sont en mesure de connaître le contexte

Le schéma classique de raisonnement amenant à une décision peut être rapproché

L’esprit humain cherche la causalité. Dans cette recherche, il peut facilement