MEMOIRE BIGDATA Quentin-Mathieu
MEMOIRE BIGDATA Quentin-Mathieu
MEMOIRE BIGDATA Quentin-Mathieu
LE BIG DATA
Comprendre ses applications, ses opportunités et ses dangers
2
Remerciements
Nous tenons tout d’abord à remercier M. NGOMBE, notre maître de mémoire, pour
son encadrement, son suivi et ses conseils dans la réalisation de ce mémoire.
Nous remercions également nos proches pour leur aide et leur soutien tout au long
de nos études.
3
Sommaire
Introduction ............................................................................................ 6
4
III. Les dangers du Big Data, comment y faire face ? ....................... 51
1) Les effets pervers ............................................................................................ 51
Le principal risque lié aux datas est la protection de la vie privée ..................... 51
L’anonymisation des données est également un enjeu majeur ......................... 52
La transparence dans l’utilisation des données collectées n’a jamais été aussi
importante .......................................................................................................... 55
La dictature de la donnée ................................................................................... 56
2) Vers une évolution responsable du Big Data ............................................... 61
De nouveaux systèmes de contrôle ................................................................... 61
Le Big Data comme science sociale .................................................................. 65
Conclusion ........................................................................................... 69
Annexes ................................................................................................ 73
Entretiens individuels ......................................................................................... 73
Fiches de lecture ................................................................................................ 82
Bibliographie ....................................................................................................... 88
5
Introduction
En 2009, alors que la pandémie de grippe H1N1 se répandait comme une traînée de
poudre dans le monde entier, les chercheurs américains du CDC (Center for Disease
Control and Prevention) peinaient à prévenir les bassins de propagation du virus.
La solution la plus efficace pour situer les nouvelles régions incubatrices du virus fut
finalement venue d’une proposition d’une entreprise d’un secteur diamétralement
opposé à celui de la santé: le moteur de recherche Google.
Avec près de 24 000 téraoctets traités chaque jour, Google a permis, sur la base de
recoupes de données de recherches liées aux symptômes, de prévenir la
propagation du virus en détectant géographiquement les recherches. Ce fut à la suite
de cette expérience que Google mis en place un service de suivi des maladies qu’est
Google Flu trends.
Les moteurs de recherche ont ainsi pu démontrer leur capacité à améliorer des
domaines inattendus comme la santé publique grâce à des systèmes de gestion de
données de masse.
A la vue de ce type d’action, les possibilités semblent alors infinies car jamais la
donnée digitale n’a pris autant d’importance que depuis ces trois dernières années.
En regardant la courbe d’évolution de la masse d’informations sauvegardées, force
est de constater que l’avenir réside dans la donnée digitale.
Un mouvement est alors en marche, encore répandu dans une moindre mesure et
réprimé par certains car encore peu maîtrisé. Il n’est cependant pas négligeable tant
il est riche en promesses.
6
Cette révolution de la donnée est désignée sous le nom de « Big Data »
Un terme fourre-tout, relayé par la presse et les médias souvent à tort et à travers, si
bien qu’il est difficile d’en connaître la réelle signification ni même d’en trouver une
définition stricte. Le terme de Big Data, de par le rapprochement aisé avec le terme
« Big Brother », a en effet suscité un amalgame dans la presse et dans l’opinion
publique comme l’idée d’une surveillance des individus par leurs agissements dans
la sphère digitale. Or le Big Data, dont il sera fait référence ici, ne se cantonne pas à
cette idée. En effet, le traitement de bases de données est une pratique éprouvée et
largement utilisée par les entreprises ; le tracking et l’analyse des comportements sur
Internet sont déjà d’actualité. Qu’elles soient perçues positivement ou non, ces
pratiques sont une réalité pour toute entreprise et aident à développer des stratégies
marketing, de relation client ou par exemple prévoir des saisonnalités de vente.
Le Big Data englobe ces pratiques, qui ne sont qu’un pion dans l’échiquier par
rapport aux domaines d’applications qu’il peut avoir. Dans son principe, le Big Data
fait bien entendu référence au traitement de données de masse. Mais la nuance
avec un traitement de données classique est que celui-ci ne consiste pas en un
traitement de données statiques qui établissent des rapports d’existant ou
prévisionnel, toujours sur des référentiels piochés à un instant T.
Le Big Data s’établit sur des données dynamiques et non structurées, évoluant avec
le temps et interdisant intrinsèquement l’obsolescence de la donnée.
Son fonctionnement est basé sur des algorithmes complexes qui n’étaient pas
exploitables sans moyens techniques colossaux il y a quelques années.
7
Ainsi, la course au Big Data est lancée, voyant les budgets attribués à celui-ci
progressivement croître, sans pour autant s’envoler, les entreprises se mettant à la
page, mais encore à demi-mot. Ce sera alors au plus téméraire que reviendra les
bénéfices d’un avantage concurrentiel face aux plus réticents si bénéfice il y a.
Car le Big Data, comme tout mouvement précurseur, voit s’affronter la nouvelle et
l’ancienne école. L’enjeu est alors de comprendre les tenants et aboutissants de ce
mouvement en faisant ressortir les opportunités, les contraintes et les menaces qui
en découlent, tant pour les personnes physiques que morales, en s’intéressant aux
nombreuses facettes qu’il présente.
Toute grande innovation a connu différentes phases dans son évolution. Tel le
“cycle de vie des produits” de Raymond Vernon, les innovations connaissent
plusieurs étapes de développement ayant des retombées dans différents domaines :
Ce cheminement ne fera pas défaut à la tendance du Big Data, qui pourrait déjà être
qualifié comme entrant rapidement vers sa phase de croissance tant le nombre
d’acteurs spécialisés dans ce domaine fleurissent dans le monde entier.
8
L’objectif de cette étude est de présenter le rayonnement du Big Data sur l’ensemble
des domaines qu’il impacte afin d’en prévoir l’avenir, soit :
Le premier défi à relever dans notre recherche est de déterminer ce que représente
réellement le Big Data. Les avis des professionnels sont en effet tranchés. On
observe un foisonnement d’avis manichéens présentant d’un côté le Big Data
comme une révolution qui transformera profondément le monde tel que nous le
connaissons tant il est riche en possibilités, et de l’autre, il est présenté comme un
engouement éphémère servant aux agences à attirer le client mal informé en lui
faisant miroiter des offres extraordinaires n’étant en réalité que des applications
éprouvées depuis un certain nombre d’années.
Le sujet du Big Data semble alors exiger une compréhension technique poussée afin
de révéler sa véritable nature.
9
Nous étudierons alors dans un second temps le Big Data comme moyen
d’amélioration de l’efficacité commerciale des entreprises.
10
I. Comprendre le Big Data
1) Principes et origines
En 1965, le gouvernement américain créait le 1er data center pour stocker ses plus
de 742 millions de déclarations de revenus et 175 millions d’empreintes digitales. Le
projet a été très vite assimilé à “Big Brother” et représenta le début des stockages
de données numériques. En 1989, le scientifique anglais Tom Berners-Lee inventa le
futur World Wide Web, voulant faciliter le partage d’informations via un système
hypertexte. Il ne se rendait pas compte à ce moment là de l’impact que cette
invention allait avoir. Au début des années 1990, face à l’évolution du nombre de
mobiles connectés à Internet, les données évoluèrent d’une manière incroyable. En
2005, Roger Moulagas de O’Reilly Media formula le terme de “Big Data”, un an après
que la société inventa le “Web 2.0”1. Il utilisera ce terme pour faire référence à un
nombre de données tellement grand qu’il était impossible de gérer et de traiter avec
les outils de Business Intelligence actuels.
11
recommandation musicale; le jeu Criminal Game avec plus de 100 millions
d’utilisateurs n°1 des jeux Facebook… Avec un marché estimé à 6,3 Milliards de
dollars en 2012 et 50 Miliards en 2018, pour un taux de croissance annuel de 40,5%
de 2012 à 2018, selon Transparency Market Research2, le marché de la Big Data
fascine tous les entrepreneurs et Wall Street.
Chaque minute, environ 350 000 tweets postés, 200 millions de mails envoyés, 15
millions de SMS, 25 heures de vidéos mises en ligne sur Youtube, 600 000
commentaires écrits sur Facebook… des flots d’octets, un océan de données, un
déluge d’informations… La donnée serait-elle devenue l’or noir du 21ème siècle ?
Le Big Data est devenu trop complexe et trop dynamique pour être en mesure de
traiter, gérer et analyser ces masses de données avec les outils traditionnels.
Heureusement, avec les matériels, outils et algorithmes récemment développés,
toutes ces données peuvent être transformées en données utiles. Les idées
provenues de ces informations peuvent être utilisées pour développer et améliorer
les prises de décision, l'efficacité, réduire les coûts, et augmenter les bénéfices. La
donnée se retrouve au coeur des stratégies des entreprises qui cherchent à
optimiser son usage afin de pouvoir cibler efficacement leur marché, d’améliorer
leurs produits et services et leur relation client. Selon une étude CompTIA3, 95% des
entreprises considèrent le Big Data comme un enjeu majeur pour leur business,
mais seulement 37% des cadres comprennent concrètement ce qu’il signifie.
12
professionnelles que personnelles. De plus en plus de données sont générées dans
le monde. On parlait il n’y a pas si longtemps de gigaoctets (109), aujourd’hui nous
parlons plutôt de téraoctets (1012), de pétaoctets (1015), d’exaoctets (1018) et même
de zettaoctets (1021) (2,72 zettaoctets produits en 2012). On estime qu’en 2020 cette
masse va grandement évoluer et atteindre à plus de 40 zettaoctets.
- Variété : les sources de ces données sont diverses. Elles ne proviennent pas
seulement de sources internes mais également de l’environnement qui l’entoure et
notamment de la montée croissante des objets connectés : du smartphone à la
tablette, de la montre à la voiture connectée, en passant par la Smart TV. Ces objets
peuvent tracer ses utilisateurs, leur envoyer des informations précises et
personnalisées, même quand ceux-ci ne sont pas en fonction. Ces données sont
émises par autant de langages, codes et formats différents : il y a les données
structurées (fichiers .csv, géolocalisation, HTML5…), semi-structurées (documents
EDI, flux RSS, fichiers XML…) et non-structurées (contenus dynamiques, emails,
photos, SMS, médias sociaux, blogs, reconnaissance vocale…). Le principe de
sources multiples est un principe capital dans le process “Big Data”. Il est
impensable de bâtir un projet décisionnel en se basant sur une source unique de
données et prétendre que celle-ci détient la vérité. Nous devons matcher plusieurs
données provenant de différentes sources pour pouvoir en déduire quoi que ce soit.
13
directe, en échange de la transmission de leurs données, leur avis, centres
d’intérêts...
A la valeur s’ajoute une notion plus qualitative véhiculée par le 5ème “V”, la Véracité
des données (disposer de données fiables pour leur traitement).
Ces cinq éléments ont servi pendant longtemps de boîte à outils pour comprendre
les fondements du Big Data, à savoir l’apparition de nouvelles technologies
innovantes capables de traiter dans un temps limité de grands volumes de données
afin de valoriser l’information non exploitée de l’entreprise. Selon le cabinet de
conseil en architecture d’entreprise Redsen, il s’agit de :
Les données sont devenues de plus en plus accessibles et peuvent être utilisées
pour nous aider à améliorer nos stratégies marketing ou encore notre service
clientèle. Certes, toutes les données n’ont pas nécessairement besoin d’être
analysées. Mais la donnée bien triée, sectionnée et exploitée, peut représenter une
source d’informations fiable. Derrière ce terme marketing se trouve une notion assez
simple et de nombreuses opportunités. Analyser ces données permet d’identifier les
pistes à exploiter et croître notre activité.
En effet, le monde crée de plus en plus de données chaque jour et 90% des données
actuelles ont été créées seulement ces deux dernières années. Le cabinet Gartner
prévoit, d’ici 5 ans, une croissance de +800% de données à traiter5. Les moyens
actuels pour gérer et traiter les données ne peuvent pas supporter une si grande
masse de volume. Les outils actuels de datamining peuvent analyser un grand
4
http://www.redsen-consulting.com/2013/06/big-data/
14
nombre de données mais seulement sur un échantillon dit représentatif; le Big Data
permet d’analyser l’ensemble des données. Jusqu’alors, la tendance était de
structurer les données dans les systèmes d’informations pour en favoriser le
stockage et l’analyse. Des outils permettent de structurer et de normaliser les
données en amont de leur intégration dans le système d’informations. Cependant, de
nouveaux types de données ont fait leur apparition, et prendrons une place
importante dans les stratégies des entreprises et prises de décisions.
2) Spécificités techniques
Avant toute chose, et ce afin de comprendre la réelle différenciation entre le Big Data
et le traitement de base de données « classique », il est primordial de saisir les
spécifications techniques du traitement de données de masse.
15
Par exemple, un e-commerçant qui tient une base contenant l’ensemble de ses
produits définira une clé qui sera la référence du produit, permettant ainsi de
structurer sa base en différenciant chaque produit par un référentiel présentant sur
une ligne l’ensemble des données qui lui sont attribuées (couleur, poids, prix, etc.).
En utilisant ce système de clés, les bases de données SQL peuvent être liées entre
elles afin de définir une structuration logique, en liant par exemple la base de
produits à la base client afin de visualiser quel produit a été acheté par quel client, à
quelle date…
Il est ainsi possible d’appeler différentes bases liées entre elles par des requêtes,
écrites dans un langage informatique dédié à ce type de base qu’est MySQL.
Ces bases de données sont hébergées sous un seul et même serveur afin que la
plateforme utilisant le langage MySQL puisse piocher les données dans les
différentes bases. Ce sont des bases structurées de manière logique, qui
représentent un outil efficace, voire indispensable pour toute entreprise effectuant
des transactions. Elles peuvent être suffisantes pour gérer des campagnes digitales
et permettre des réflexions sur des axes de développement stratégique en étudiant
via le tracking par exemple, les différents parcours d’achat des acheteurs.
16
Les différences fondamentales entre le SQL et les bases traitées
par Hadoop
Il existe trois grandes différences entre les bases de données utilisant les API de
type Hadoop et les bases SQL :
Comme nous avons pu le voir, les bases SQL consistent en des bases structurées et
figées par un système de clés de répartition. Afin que deux bases puissent
communiquer entre elles, il est primordial de connaître leur structuration en leur
attribuant une clé commune. Si les deux structurations ne coïncident pas, les
logiciels de traitement relèvent des erreurs et ne renvoient donc aucun résultat.
A l’inverse, Hadoop est basé sur une logique non structurée. Le principe étant
d’utiliser un système de distribution de fichiers nommé HDFS (Hadoop Distributed
File System), qui permet, par un algorithme traduit en langage Java, d’appeler les
données dont il a besoin. Avec Hadoop, la liberté est donc bien plus grande car il est
ainsi possible de faire coïncider des données qui n’auraient en apparence aucun lien
logique.
La deuxième différence entre les bases SQL et celles utilisant le système Hadoop
réside dans la vitesse de traitement des données. Les bases SQL sont constituées
de données textuelles structurées de manière logique sur un serveur unique. Les
bases Hadoop, pour leur part, comprennent des fichiers compressés pouvant être de
tous types (vidéo, texte, image, son…). Ces fichiers compressés sont copiés
plusieurs fois dans une multitude de serveurs. Hadoop et tous les APIs de Big Data
fonctionnent par un système de « nœuds informatiques » désignés par un nom de
“NameNode” permettant de retrouver les données. Ce sont ces nœuds qui sont
appelés par les algorithmes Java.
En résumé, lorsqu’une requête algorithmique est créée, les nœuds appelant les
fichiers sur les différents serveurs sont sollicités afin de retrouver les données, et
c’est bien ici que le fait de copier les fichiers sur plusieurs serveurs prend son sens,
car Hadoop a la capacité d’assigner des requêtes spécifiques à chacun des
serveurs. Nous pouvons prendre comme exemple une entreprise telle que
Facebook, souhaitant visualiser tous les commentaires parlant du président Obama
17
de manière positive en cherchant les mots clés « j’aime Obama ». En appelant tous
les serveurs contenant les données textuelles de Facebook, le système Hadoop peut
assigner par exemple un mois ou année spécifique à chacun des serveurs. La
vitesse de traitement des données est ainsi décuplée par le nombre de serveurs. Là
où une base SQL aurait mis plusieurs jours (voire semaines) à fournir un résultat,
pour peu que l’algorithme soit correct, le système de Big Data renvoie une réponse
quasi-instantanée.
Lorsque l’on parle de traitement de bases de données, il est récurrent d’entendre des
termes tels que data warehouses, MPP ou SMP. Un data warehouse est un serveur
recueillant l’ensemble des données d’une entreprise. La fonction d’un data
warehouse est de stocker et structurer les bases afin d’optimiser l’espace
(suppression de doublons, données obsolètes…), mais aussi de répondre
efficacement aux requêtes en regroupant certaines bases ensemble (datamarts) afin
d’accélérer des requêtes spécifiques.
18
Les technologies utilisées par les datas warehouses sont les bases structurées de
type SQL et sont régies par un système de traitement SMP (Symmetric Processing).
Les systèmes SMP fonctionnent de manière à gérer l’ensemble des données en se
rattachant à un CPU unique (microprocesseur). Les architectures utilisant les
frameworks de type Hadoop avec pour système HDFS, sont quant à elles gérées sur
des bases non structurées (NoSQL) et régies par un système nommé MPP
(Massively Parallel Processing), qui permet de coordonner les bases via de multiples
CPUs (serveurs).
Après avoir déterminé plus haut les différences majeures entre bases structurées
SQL et non structurées NoSQL, il semble à priori tomber sous le sens de préférer
une architecture de base de type non structuré en utilisant donc un système HDFS,
tant les possibilités de cette dernière semblent prometteuses.
D’après l’étude publiée par Symantec7, la croissance des données des entreprises
devrait atteindre plus de 67% en un an et cette tendance devrait être exponentielle à
l’avenir. Dans ce contexte, les datas warehouses font d’énormes profits au détriment
des entreprises, les entreprises se voyant être dans l’obligation d’augmenter leurs
capacités de stockage dues à l'accroissement de leurs données à héberger. La
différence de structuration d’hébergement des données avec un traitement Big Data
prend alors tout son sens. Les serveurs multiples utilisés en Big Data représentent
un coût très faible car ils sont dotés de capacités plus modestes et sont moins
7
“State of Information Survey”, 2012, Symantec
19
demandeurs en terme de maintenance des bases. Le cas de la société Orange peut
illustrer cet avantage en terme de coût, en ayant fait le choix de passer à une
architecture Big Data passant par le framework Hadoop pour le traitement de ses
numéros d’identifications de Box internet. Un an après la mise en place de ce
système, Orange a réussi à diviser par vingt ses coûts de traitements de bases de
données.
Cette flexibilité des solutions Big Data permet ainsi un traitement à la fois accessible
par son coût, performant par sa vitesse et précis par la variété de type de données et
la segmentation de celle-ci selon les supports.
Elle présente aussi l’avantage de pouvoir créer des configurations adaptées à toute
problématique d’entreprise. Grâce à des outils flexibles et riches en enseignements,
le Big Data tend ainsi à occuper une place prépondérante dans la prise de décision.
Encore peu d’entreprises se sont lancées dans des projets Big Data et les pays qui
encouragent le secteur sont encore rares.
Selon une étude réalisée auprès de 1217 compagnies ayant un chiffre d’affaires
supérieur à 1 Milliard USD (équivalent à 734,6 Millions €) dans 9 pays sur 4 grandes
régions (USA, Europe, Asie Pacifique et Amérique Latine), au début 2013, 53% des
entreprises affirme avoir des initiatives en terme de projet Big Data. Sur ces 643
entreprises, 43% prédisent un ROI de plus de 25%. Parmi celles-ci, 15% auraient
20
investi plus de 100 Millions $ (soit 73,5 Millions €) et 7% plus de 500 Millions $ (soit
367,3 Millions €)8.
Les Etats-Unis seraient les plus avancés dans le domaine. En 2012, l’administration
américaine a communiqué un investissement de 200 Millions USD (147 Millions €)
pour innover dans les technologies (analyse, collecte et stockage des données),
activer la recherche en science et ingénierie, consolider la sécurité, développer
l’apprentissage, l’enseignement et une main d’oeuvre qualifiée.
La France est arrivée un peu plus tard dans le domaine Big Data. La France croit en
l’énorme potentiel économique que peut représenter la Big Data. Une filière Big Data
pourrait bientôt voir le jour. Dans le rapport Commission Innovation 2025, qui a pour
objectif de « définir des ambitions d’innovations devant conduire à des activités
créatrices de richesses et d’emplois », la valorisation des données de masse fait
partie de ces sept ambitions pour l’innovation :
“La multiplication des données créées par les particuliers, les entreprises et les
pouvoirs publics sera porteuse de nouveaux usages et de gains de productivité.
La mise à disposition par l’État et par ses opérateurs des données publiques
constituera une opportunité pour favoriser l’essor de nouvelles start-up. Ici
encore, la France présente de nombreux atouts. L’école française de
mathématiques et de statistiques est une des meilleures au monde. Plusieurs
entreprises sont leaders de sous-segments. La sécurité des données et des
8
Etude TATA Consultancy Services - The Emerging Big Returns on Big Data - ATCS 2013 Global
Trend Study
21
communications sur Internet représente également un terreau pour de
nombreuses entreprises.”9
La filière Big Data représenterait 4,8 Milliards d’euros en 2010 en France, avec une
croissance de 7% par an avec des conséquences plus fortes sur tous les secteurs
économiques par rapport aux autres pays. La France compte bien devenir l’un des
leaders dans le domaine et pour ce faire, elle possède plusieurs avantages :
- Elle détient, au niveau national, une énorme base de données qui n’attend que
d’être valorisée.
- Elle est très bien dotée en terme de formation et d’apprentissage pour éduquer des
statisticiens et mathématiciens de haut niveau pouvant analyser et traiter des gros
volumes de données hétérogènes. Les étudiants de l’école française de
mathématiques et statistiques internationalement reconnue comme école
d’excellence, sont également très demandés
- Elle est perçue comme pionnière dans le secteur des données personnelles, avec
la Commission Nationale de l’Informatique et des Libertés (CNIL) qui justifie une
organisation et une législation claires et équilibrées.
- Des débats sont posés entre liberté d’utilisation et sécurité des données. Même si
la majorité des données sont anonymes et donc non nominatives, la question de la
frontière entre accessibilité et protection de la vie privée est légitime.
9
Commission Innovation 2025 - Un principe et sept ambitions pour l’innovation, commission présidée
par Anne Lauvergeon
22
Même si certains cas devront être gérés spécifiquement, l’admission est certaine de
pouvoir trouver un compromis et une relation gagnant-gagnant dans la gestion des
données entre les entreprises et les utilisateurs.
Bien souvent aujourd’hui, les projets Big Data sont inscrits dans une logique de veille
d’activité ou d’amélioration de l’existant dans le but de devenir des supports d’aide à
la décision.
23
Le Big Data s’inscrit comme une fonction de support à la réflexion, mais les usages
du Big Data vont plus loin, avec notamment la possibilité de prédire des événements
futurs permettant des orientations stratégiques.
Le prévisionnel
Ce type d’usage du Big Data apporte une réelle valeur ajoutée aux entreprises par
des informations riches procurant de réels avantages concurrentiels en permettant
des prises de décisions stratégiques qui n’auraient pu voir le jour sans ces
informations.
Grâce à ces données riches, les hypothèses de développement des marchés ou des
opportunités se voient être plus précises, ayant une base justifiable par des
arguments plus concrets.
Les usages du Big Data peuvent aller encore plus loin, en créant les opportunités là
où aucun être humain n’aurait décelé car sortant de toute logique.
24
rapprochements parfois inattendus. Par exemple, la société Octopeek, entreprise
dédiée à l’enrichissement de données pour des campagnes d’e-mailings, avait
décelé que 70% des personnes étant nées entre les années 1970 à 1975 ne
donnaient pas leur véritable âge lorsqu’elles souscrivaient à une offre sur Internet10.
Cette donnée statistique n’aurait pas fait sens aux yeux de n’importe quel analyste
en études quantitatives classiques par le fait que celui-ci n’aurait pas chercher
instinctivement ce type d’information, mais a pu être decelé grâce à des corrélations
de données.
Le second est aussi celui d’utiliser une plateforme évolutive puisque les algorithmes
d’apprentissage permettent des segmentations automatiques en escaliers jusqu’à
atteindre un degré de finesse extrêmement précis.
Ces systèmes utilisant l’intelligence artificielle permettent une segmentation non pas
basée sur la seule logique mais sur des corrélations pragmatiques par
rapprochements des données et c’est en cela que le Big Data dépasse son rôle de
simple moyen permettant de légitimer le lancement d’actions stratégiques.
10
Entretien avec M. Abdelkrim Talhaoui, co-fondateur de Octopeek, 13 mai 2014
25
La véritable révolution du Big Data tient dans l’avènement d’un schéma de réflexion
nouveau, à l’opposé de celui précédemment appliqué, et ce grâce aux systèmes
d’intelligence artificielle.
Aujourd’hui, les plus grandes entreprises dont le business model est basé sur le
traitement en masse de données s’intéressent aux solutions d’intelligence artificielle.
26
Réflexion cognitive VS. constats pragmatiques
Or le Big Data, via les logiciels de partitionnement de données, permet une autre
approche que la réflexion cognitive en amont. La réflexion est ici en aval, provenant
de constats, s’attachant plus à la manière de transformer ceux-ci en solutions
productives que recherchant une explication du phénomène; et bien souvent ce
constat est suffisant. On ne se préoccupe plus d’une réflexion chronophage et
imprécise face à une réalité statistique indiscutable. Ainsi, la partie analytique et
exploratoire est minimisée afin de focaliser la réflexion sur la transformation de cette
donnée en application utile.
27
Dans un cadre business, les études en marketing direct utilisées habituellement,
qu’elles soient quantitatives ou qualitatives, permettent souvent de répondre assez
efficacement aux hypothèses auxquelles elles sont censées apporter des solutions,
mais présentent deux défauts que le Big Data permet de contourner :
- Les études sont pensées et orientées en fonction d’une hypothèse posée en amont,
dès lors, celle-ci est empreinte de subjectivité. De plus, le choix des profils visés par
l’étude est lui encore subjectif dans une même logique
Dans une plus large mesure, c’est peut être le traitement de données de masse qui
peut nous éclairer sur le monde qui nous entoure, plus que des théories assujetties
au carcan de la réflexion humaine et de notre connaissance limitée.
La quasi-omniscience que peut nous apporter les datas est riche en signaux sociaux
et économiques qui pourront amener à redéfinir les cheminements de pensées. C’est
pourquoi les personnalités morales ont tout intérêt à trouver les meilleures
configurations afin de tirer partie de ces datas, en introduisant de nouvelles
technologies au sein de leur entité, mais également en redéfinissant leur
organisation interne.
28
2) Une refonte des métiers
Le Big Data devient peu à peu une préoccupation pour de nombreuses entreprises.
Les données, émises indépendamment les unes des autres, nécessitent une
organisation logique de ces éléments. Outre les moyens de stockage de plus en plus
importants, une évolution des métiers liés à la Data se met en place petit à petit au
sein des entreprises. L’ensemble des services liés au cycle de vie de la Data est
impacté : gestion, analyse, marketing, communication … Il devient alors essentiel de
développer une véritable culture Big Data au sein de l’ensemble de la société.
La mise en place d’un projet Big Data au sein d’une entreprise implique des
évolutions en terme de modèles algorithmiques et statistiques. Afin que les données
puissent être traitées et exploitées au mieux et n’ayant peut-être pas les ressources
nécessaires, les entreprises seront amenées à envisager l’embauche de nouveaux
profils, capables de gérer de tels outils.
La problématique des compétences est souvent évoquée lorsque l’on parle de Big
Data en entreprise. En effet, selon Gartner, seules 31% des entreprises estiment
avoir en interne le personnel suffisant pour lancer un projet Big Data 11 . Les
entreprises recherchent des profils pouvant réunir trois qualités majeures :
l’informatique (capable de programmer sur de nouveaux outils), les statistiques
(capable d’innover et modéliser) et business (capable d’interpréter les indicateurs et
les traduire opérationnellement). Ces nouveaux profils de métiers correspondent au
Data Scientist, un roi de la statistique qui deviendra bientôt une ressource
incontournable pour les sociétés qui souhaitent tirer profit de cette masse
d’informations dont ils disposent (en 2011, McKinsey déclarait qu’en 2018, la
demande de Data Scientist pourrait atteindre 1,5 millions de postes 12 ). Le Data
Scientist est bien plus qu’un simple mathématicien. Il est capable de comprendre les
problématiques stratégiques de l’entreprise pour laquelle il travaille et est à même
11
«
Investing in Information and Analytics », 2013, Gartner
12
“Big Data : the Next Frontier for Innovation, Competition and Productivity”, 2011, McKinsey Global
Institute
29
d’identifier et d’extraire les données en conséquence, de les traiter, les analyser et
de les transformer en recommandations pour des choix stratégiques sensés.
Aujourd’hui, ce profil reste encore une perle rare. Une étude d’Accenture soutient
que plus de 80% des postes de Data Scientist ouverts en 2010 restent encore à
pourvoir en 201413. Les offres d’emploi liées à ce métier se multiplient depuis 2010 et
les rémunérations se montrent attractives mais les profils expérimentés manquent à
l’appel.
En attendant de trouver le profil idéal, les entreprises cherchent à monter en
compétences leurs propres équipes. Devant la pénurie de profils disponibles, la
solution est de rechercher des talents aux capacités complémentaires qui
combineront leurs approches et leur savoir-faire pour exploiter et visualiser ces
données non exploitées faites de chiffres, photos, vidéos… afin d’établir des
stratégies innovantes et performantes.
Dans une organisation n’ayant pas recours au Big Data, l’utilisation des bases
structurées au sein d’une entreprise implique un découpage des bases (par exemple
sous forme de datamarts) permettant à chaque service de gérer individuellement les
données qui leurs sont utiles. Le fonctionnement classique est donc que chaque
13
“Data Scientist : quelle place pour ce gourou dans notre société ? », Revue INfluencia, 2014, p.48
30
service exprime ses besoins au service data afin de créer des règles s’appliquant sur
leur base.
31
désigner un « chef d’orchestre » permettant de planifier les différentes actions
stratégiques tout en assurant un rôle de médiateur en cas de conflits d’intérêts.
La hausse des appareils mobiles a un impact majeur sur le Big Data et notamment
sur les visualisations. En 2013, 20% des sites Internet ont été visités depuis des
appareils mobiles. Mobiles ne signifient pas seulement smartphones, il inclut aussi
les tablettes. Fin 2013, 1,4 billion de smartphones étaient utilisés. En 2015, Gartner
prédit qu’il y aura plus de tablettes vendues que d’ordinateurs et qu’en 2017, 1,75
tablettes seront vendues pour 1 ordinateur.
Jour après jour, les appareils mobiles deviennent de plus en plus rapides et les
consommateurs de moins en moins patients à l’attente des connexions Internet.
32
“Le profilage des clients et l’identification de leurs intentions d’acquérir tel ou tel
produit est un élément essentiel car ils permettent de préparer des opérations
14
marketing centrées sur leurs désirs” , souligne Martin GrosJean, directeur
général de Synomia, une entreprise qui exploite scientifiquement les
contenus textuels diffusés sur Internet.
En matchant toutes ces données les unes aux autres, les entreprises peuvent
découvrir des choses qu’elles ne soupçonnaient même pas. Une marque de mode
qui ciblerait les jeunes femmes de 18 à 25 ans pourrait ainsi trouver des cibles
périphériques en analysant les datas. Une marque de maroquinerie de luxe par
exemple qui fait une campagne de communication aura tout intérêt à ne pas
seulement se contenter des coordonnées des personnes qui disent aimer sa marque
comme elle le faisait auparavant mais plutôt de croiser ces informations avec celles
concernant leurs catégories socio-professionnelles pour savoir si ces personnes ont
ou non les moyens financiers d’acheter un de leurs produits.
14
“Big Data, est-ce bien le pétrole du XXIè siècle ?”, Revue INfluencia, 2014, p. 40
33
Les technologies Big Data, bien qu’étant encore récentes et ne déployant pas encore
toutes les possibilités qu’elles pourraient offrir, présentent déjà toutes les bases
techniques permettant une grande liberté de configuration et donc d’usage. Comme
toute innovation, ces technologies ont émergé d’un besoin venant de la constatation
de l’augmentation des volumes de données et de la difficulté de les traiter. C’est
ainsi qu’en 2001 le META Group (aujourd’hui Gartner) établissait un rapport de
recherche15 présentant les enjeux de la croissance des données en présentant le
modèle tri-dimensionnel des 3V (volume, vélocité et variété). Mais ce n’est qu’en
2004 que Google présentait son algorithme permettant un système de redistribution
de données en « clusters » (regroupement de données déportées vers des machines
afin de les traiter), le MapReduce, qui servit de base à Doug Cutting pour créer le
framework Hadoop.
Certains n’avaient néanmoins pas attendu les algorithmes de Google et les solutions
logicielles pour répondre à des problématiques liées au traitement de masse des
données. L’exemple de Oren Etzioni, un précurseur dans le Big Data, permit
d’entrevoir les innombrables possibilités qu’offre le traitement des données. En 2003,
lors d’un vol allant de Seattle à Los Angeles, il avait par curiosité demandé à son
voisin le prix auquel il avait payé son billet et à quelle date. Il apprenait que celui-ci
avait payé son billet bien moins cher alors qu’il l’avait acheté bien plus tard que lui. Il
n’en fallut pas plus pour que celui-ci fasse un sondage dans tout l’appareil. Une fois
à terre, il se mit dans l’idée de créer un système permettant à chacun de déterminer
les avantages d’un vol sur une période donnée. Oren Etzioni, éminent scientifique en
recherche informatique, établit très vite que la prédiction des différentes fluctuations
de prix des vols aériens régies par les principes de Yield Management par les
compagnies aériennes, étaient trop complexes pour que tous les facteurs soient
traités. Il en vint à la conclusion qu’il était plus logique de se baser sur la seule
information des prix afin d’en prédire les fluctuations. Il regroupa alors les données
de sites de ventes de billets aériens afin de les analyser. En recoupant les
fluctuations de prix sur toutes les destinations et les dates de mise en ventes, il arriva
à mettre en oeuvre un algorithme permettant de prédire dynamiquement les
tendances de prix. Il parvint à des résultats probants avec près de 75% de précision
sur ses prédictions. Son projet avait pour vocation de s’élargir aux données des
15
META Group, 3D Data Management, Doug Laney, 2001
34
hôtels, voitures d’occasions et concerts, jusqu’à ce que Microsoft racheta sa
compagnie afin d’intégrer ses algorithmes au moteur de recherche Bing en 2012. Il
n’en reste que Oren Etzioni avait prouvé l’étendue des possibilités que pouvait offrir
le traitement de données de masse et qu’elles présentaient dès lors un potentiel
d’innovation insoupçonné.
On peut citer entre autres les solutions Hive et Pig, permettant de communiquer avec
les bases non structurées en langage SQL, évitant ainsi de passer par des langages
tels que Java, complexe et demandant des ressources humaines coûteuses.
Toute société acquiert des informations sur ses clients une fois le premier acte
d’achat réalisé. Bien souvent, il ne s’agit que de coordonnées et d’informations sur
les achats effectués, or la sphère digitale permet d’enrichir ces données afin d’établir
de réels profils basés sur les comportements.
- les données de trafics enregistrées grâce aux outils de Web Analytics tels que
Google Analytics ou encore Omniture, permettant d’établir le parcours des visiteurs
sur le site et ainsi de déterminer les contenus qui intéressent les visiteurs.
- Les données médias par le biais du tracking, qui permettent de connaître les
sources qui sont les plus susceptibles de convertir.
- Les données CRM qui sont collectées via les espaces clients, apportant des
informations supplémentaires sur les clients.
- Les données tierces qui sont des données louées ou achetées par les entreprises
afin de collecter des informations supplémentaires sur les clients hors du domaine
d’activité de l’entreprise.
35
Les premières entreprises à avoir perçu l’énorme potentiel des données sont les
émetteurs de cartes de crédit. Elles savent ce que vous achetez, à quel moment, à
quel endroit, à quelle fréquence, pour quel montant… Les compagnies téléphoniques
collectent encore plus d’informations à notre sujet. Elles connaissent les sites
Internet sur lesquels nous surfons, les personnes que nous contactons, les choses
qui nous intéressent, notre position géographique… D’ailleurs, Globe Telecom, un
opérateur de télécoms, aurait monté un projet sur la technologie Big Data qui
détecterait, en fonction du type de consommation de l’utilisateur (durée et fréquence
d’appels, de messages, etc.), l’épuisement des cartes téléphoniques prépayées. En
effet, dans ce domaine, les clients sont très volatiles et peu fidèles. Ils achètent en
fonction du moment, de leur besoin et des offres qui leur sont proposées à cet
instant. Ce projet aurait permis à la société de réduire de 95% les coûts d’opérations
de marketing et de communication et d’améliorer de +600% la pertinence de leurs
offres de promotion, le tout en augmentant le nombre de clients fidèles. Les voitures
connectées seront elles aussi capables de récolter une masse d’informations. Elles
sont capables d’enregistrer nos déplacements et de donner ces informations à qui de
droit et ces données ont une grande valeur. On peut imaginer qu’un constructeur
automobile monnaye ces données auprès d’assureurs sur le nombre de kilomètres
parcourus, les excès de vitesse, les routes empruntées…
En effet, toute entreprise tenant une base de données sur ses clients se trouve face
à deux défis majeurs, qui dans bien des cas se rejoignent : L’optimisation des ventes
et la connaissance client.
36
Le principe du cross-selling est de pousser les consommateurs à compléter leurs
achats avec des produits qui n’étaient au départ pas la raison de la venue sur le
point de vente. Ce principe éculé prend des formes variées, allant de la simple
négociation en magasin par le vendeur, aux parcours empruntés par les
consommateurs en grande surface ou aux systèmes de ventes additionnelles dans
les secteurs de VAD, en passant par les contenus proposés sur les fiches produits
des sites de e-commerce.
La problématique est alors de déterminer les produits qui seront les plus enclins à
capter l’intérêt du consommateur. La réflexion classique est celle de déterminer des
associations de manière logique par des similarités, tels que des produits répondants
aux mêmes types de besoins ou faisant partie d’une même gamme.
«(Qui)...n’est pas à la recherche d’une recette miracle, par exemple sous forme
d’un produit inusité au sein d’une catégorie et qui, une fois rajoutée à celle-ci,
propulse les ventes à l’ensemble de la catégorie ? »16
Cette recette miracle évoquée par Christian Dussart ne semble plus si lointaine avec
les possibilités qu’offre le datamining de masse, les associations de produits pouvant
être déterminées avec un niveau de finesse important et catégorisées par profil. Les
profils mis en évidence par les systèmes de partitionnement de données de type
Mahout couplés aux solutions d’intelligence artificielle permettent de contextualiser
les parcours des prospects au sein du tunnel de conversion. Par ces moyens, le
parcours des prospects est étudié afin de pouvoir détecter le type de contenu le plus
à même d’éveiller l’intérêt.
Dans l’hypothèse d’un site e-commerce utilisant toutes les ressources que procurent
le Big Data avec une base enrichie, un visiteur serait identifié selon sa provenance,
son profil et le niveau dans lequel il se trouve dans le tunnel de transformation. Par
exemple, si il avait été déterminé que le parcours type d’un visiteur était d’arriver sur
16
«
Etude des parcours en magasin : une nouvelle approche du merchandising », Marie-Pierre
PINTO & Brigitte GUION – DE FAULTRIER, Actes du XXè Congrès AFM, 6 & 7 mai 2004, St-Malo
37
le site via une bannière publicitaire une première fois pour consulter du contenu
informatif, puis une seconde fois via le search pour effectuer un acte d’achat, il est
possible d’adapter le site à ce contexte en mettant en avant des contenus informatifs
pour les personnes identifiées par leur « ID » comme venant une première fois sur le
site via une bannière, puis à leur seconde venue de mettre en avant les offres, tout
cela afin de garantir les plus fortes chances de conversions.
Cette personnalisation à outrance n’est pas encore une réalité tant les moyens
organisationnels et technologiques à mettre ne place sont difficiles pour atteindre
une telle flexibilité des sites internet.
Il n’en reste que d’ores et déjà, les technologies de Big Data permettent l’optimisation
des ventes, pas exclusivement pour des solutions web en BtoC comme on pourrait le
croire, mais aussi bien en BtoB sur le terrain, comme l‘illustre le cas de Renault17,
qui a mis en place un outil de tableau de bord à destination de ses commerciaux afin
d’optimiser leurs négociations pour la vente de véhicules utilitaires. Leur outil permet
aux commerciaux d’avoir accès à toutes les informations utiles et nécessaires
(données financières, volume de la flotte actuelle du client, actualité de l’entreprise),
piochées dans les données publiques tels que des communiqués de presses, sites
d’actualités ou données gouvernementales, et couplées aux informations internes à
l’entreprise, afin de pouvoir présenter les meilleurs arguments lors des négociations.
Le Big Data montre ainsi sa capacité à générer l’optimisation des ventes tant
qualitativement que quantitativement.
17
Conférence 2014: “Comment le Big Data peut permettre de détecter de nouveaux marchés”,
Christian CARRETERO, Responsable offre CRM Renault
38
En 2010, une fuite d’informations de l’ARCEP (Autorité de Régulation des
Communications Électroniques et des Postes) avait dévoilé les taux de churn des
principaux FAI français.
SFR a pu démontrer cet effort lors du salon du Big Data tenu en Mars 2014 à Paris,
en présentant sa stratégie cross-canal utilisant les technologies Hadoop. La société
a mis en place une stratégie digitale permettant l’identification de ses clients par un
système d’analyse des comportements, permis par les outils de trackings et de
reconnaissance des adresses IPs sur tous les canaux digitaux utilisés tels que le
RTB, l’affiliation, les campagnes SEM et les résultats naturels de search, tout en
enrichissant ces données par des données externes. En collectant toutes ces
informations, SFR établit par un système de scoring la probabilité qu’un client soit
plus enclin à résilier son offre ou non et d’en déterminer la raison. Une infrastructure
de site adaptable à la détection des profils clients ainsi qu’un système automatisé
d’envoi d’e-mailings et de display ont été mis en place. Par ce biais, SFR a pu par
exemple détecter si un client allait déménager prochainement et par conséquent en
prospection pour les meilleures offres forfaitaires du moment. Via le tracking et
l’envoi d’e-mailings personnalisés, SFR entend garder ce type de client en assurant
une visibilité accrue sur ce type de profil. Grâce à ces outils, SFR annonçait une
baisse de son taux d’attrition de près de 7% sur l’année 2013.
39
Intelligence algorithmique
“Le Big Data va nous faire entrer dans l’ère du mieux consommer. Les données
nous permettront de mieux connaître le consommateur et de lui proposer des
produits plus adaptés à ses besoins comme le fait un bon vendeur dans un
magasin. Cela va ainsi créer de la croissance pour nos clients”18.
Toutes les données que nous émettons lors de nos activités sur Internet, nos mails
sur Gmail de Google, nos préférences sur Youtube ou Pinterest, nos déplacements
sur Waze… permettent à ces acteurs de mieux nous connaître afin de nous orienter
vers un produit adapté, qui nous intéresse : une sélection de produits
personnalisée, des résultats de recherche adaptés, des offres pertinentes,...
Amazon analyserait les requêtes émises par les consommateurs et détecterait les
meilleures ventes pour s’approvisionner rapidement et ainsi devenir le vendeur le
plus efficient. Ils auraient même déposé un brevet afin de proposer un service
pouvant anticiper les achats des internautes et expédier le colis avant même que la
commande ne soit encore passé, le tout se basant sur une série de données.
Nos comportements ont désormais changé et évolué. Nous sommes aujourd’hui
entourés d’objets connectés dont nous pouvons plus nous en passer, des objets qui
18
“Big Data, est-ce bien le pétrole du XXIè siècle ?”, Revue INfluencia, 2014, p. 40
40
génèrent de la data sur nos usages et nos comportements. Ils participent à
l’enrichissement des données pour nous rendre de meilleurs services.
19
“Data Scientist : quelle place pour ce gourou dans notre société ? », Revue INfluencia, 2014, p.48
41
les informations s’échangent très rapidement et personne n’est à l’abri d’un “bad
buzz”. Des rumeurs infondées lancées et toute la société est au courant. Elles
peuvent détruire une marque ou un produit, casser son image et plomber les
ventes… les déceler en amont et réagir au bon moment, avant qu’il ne soit trop tard
peuvent “sauver” votre marque.
L’analyse en temps réel du web et des réseaux sociaux peut aussi revêtir un tout
autre objectif. Le modèle de Microsoft Research sur l’analyse prédictive représente
bien ce cas. Il repose sur des capacités d’analyse et de croisement des données
provenant des réseaux sociaux, des commentaires laissés sur différentes
plateformes, ou encore des paris en ligne. Ce modèle a déjà été testé sur les
précédentes cérémonies des Oscars et les précédentes élections présidentielles
américaines. Les politiciens avaient pu mieux connaître leurs électeurs potentiels
grâce aux données. Des centaines d’analystes ont été recrutés pour la campagne
présidentielle de Barack Obama en 2012, ce qui lui a été très favorable. Ils ont
rassemblé un nombre monstrueux de données, trouvées dans les registres
électoraux publics, sur les réseaux sociaux, sur les groupes de supporters tels que
MyBarackObama ou ObamaForAmerica. Ils ont ensuite envoyé une campagne
massive de messages ciblés à ses potentiels électeurs. En croisant des données
sociologiques, statistiques et géographiques, les démocrates ont ainsi pu déceler
des thèmes qui susciteraient l’envie et encourageraient les femmes ou les
hispaniques à voter en leur faveur. Ils se sont également fiés aux données pour
établir des levées de fonds stratégiques et ciblées en mobilisant plus d’un milliard de
dollars. La société organisatrice de l’Eurovision a également mis en place un projet
Big Data, selon le même modèle, en 3 semaines et sans gros budget. Les analyses
de données publiques comme les tweets (1,2 millions en sur toute la durée de
l’événement), commentaires laissés sur Internet ou encore occurrence des mots-
clés, auraient permis à la société de prédire 3 jours avant la finale qui serait le
vainqueur, mais également les 5 premiers et 5 derniers du classement20. Au-delà de
ces prédictions de concours, ce modèle algorithmique peut être utile de plusieurs
façons. S’il est doté de cet algorithme, on peut imaginer que le moteur de recherche
Bing renvoie des résultats de recherche plus pertinents. L’un de leurs objectifs est
aussi de pouvoir prédire de manière pertinente les évolutions du marché financier et
20
http://www.generation-nt.com/eurovision-2013-microsoft-research-predit-victoire-actualite-
1733722.html
42
de l’économie internationale et pouvoir prendre les meilleures décisions en terme
d’affaires économiques.
Autre que l’analyse prédictive, le Big Data permet également de révéler des attitudes
et comportements. L’analyse comportementale peut bénéficier aux commerces
physiques par exemple. Pour la grande distribution, travailler la data n’est pas
nouveau. C’est bien le premier secteur à l’avoir utilisé avant qu’il ne devienne si
technique. Le traitement plus ou moins poussé du ticket de caisse a longtemps
permis à la grande distribution d’identifier des habitudes d’achats, des préférences
produits, la composition des ménages, les paniers d’achats… Aujourd’hui, les
acteurs du marché et les canaux de distribution se multipliant, les clients sont de plus
en plus volatiles. Ils cherchent à profiter des meilleures promotions dans un temps
imparti, et depuis la croissance fulgurante du web et des réseaux sociaux, ils
n’hésitent pas à jongler sur les canaux offline et online, entre différents distributeurs.
Ceci a poussé les distributeurs à intensifier leurs outils consacrés à la connaissance
cross-canal des parcours d’achats de ses clients, dans le but de pouvoir mieux les
toucher. Le Big Data amène aujourd’hui aux distributeurs une utilisation plus
43
“moderne” de ces données. Des innovations permettent de nos jours aux entreprises
de déceler des habitudes d’achat, de calculer le nombre de pas effectués dans un
rayon, compter le temps resté devant un linéaire, localiser des clients dans un
périmètre du magasin en temps réel grâce à des émetteurs fixés aux caddies ou
encore des téléphones portables. Croisées avec les données issues des tickets de
caisse, des cartes de fidélité, ou encore leur historique sur le web, ces données
permettent d’améliorer l’aménagement du magasin, le marketing-mix, d’ajuster
l’agencement du merchandising, d’identifier l’impact des promotions, mesurer
l’impact des stratégies de fidélisation, repérer et expliquer les comportements sur les
nouveaux canaux comme par exemple le drive… qui influencera fortement le
développement du magasin.
“Le temps réel est un élément très important dans nos métiers, qui nous
différencie vraiment de la distribution traditionnelle. Si nos temps de calcul sont
trop longs, les propositions risquent d’arriver en retard par rapport à un temps de
44
décision d’achat toujours un peu aléatoire selon la personne et la catégorie de
produit”21.
La mise en place de cette stratégie centrée sur la data a conduit le site à revoir son
organisation, en instaurant de nouveaux outils.
Les nouvelles stratégies mises en place par les concurrents seront immédiatement
détectées. Nous sommes tout de suite alertés lorsque l’un de nos concurrents
change ses prix par exemple, chose qui aujourd’hui prend un certain temps.
Les ventes augmenteront considérablement et qui pourrait conduire à des taux de
conversion plus élevés. Lorsque les entreprises sont à l’écoute des produits utilisés
par les consommateurs, ils peuvent pro-activement éviter de nombreuses failles. Par
21
“Distribution : la data en tête de gondole”, Revue INfluencia, 2014, p.126
45
exemple, les voitures dotées de capteurs en temps réel peuvent notifier le
conducteur avant qu’il y ait un problème et anticiper une faille du moteur. Le capteur
pourra lui faire savoir que sa voiture a besoin d’être entretenue. En temps réel, le
capteur identifie le problème, détermine l’action à mettre en place, et si besoin,
recherche le garage le plus proche par rapport à la localisation et l’agenda du
conducteur. A l’arrivée, les mécaniciens auraient préalablement reçus les analyses
de données et pourraient de suite identifier la faille et la réparer immédiatement.
La réalisation d’un projet Big Data peuvent être très coûteux mais peuvent
éventuellement apporter de gros bénéfices. Dans les analyses en temps réel, les
managers peuvent obtenir une vue d’ensemble de leur entreprise instantanément.
“Ce sont les médias sociaux qui ont changé la donne. On se retrouve face à un
flux de données considérable qui n’est pas structuré comme dans les modèles
les plus classiques, liés au CRM et aux Web analytics. Facebook et Twitter ont
changé le comportement des consommateurs, devenus des acteurs qui
interagissent en temps réel”, explique Nicolas Malo, fondateur de Optimal
Ways, cabinet de conseil en digital analytics.
“Mais avant de s’intéresser à l’analyse en temps réel des données fournies par
les réseaux sociaux, le challenge des marketeurs est d’actionner les données
structurées pour livrer la bonne information, au bon moment et à la bonne
personne. Ce besoin n’est pas couvert par l’ensemble des acteurs. Nous
sommes à un moment clé où l’ensemble des technologies prédictives va pouvoir
faire ses preuves auprès des services marketing et déterminer quelles
informations il faut pousser” précise Thierry Téchy, chief strategy officer et
co-fondateur de Selligent22.
22
« Data : des offres plus ciblées pour fidéliser », Marie-Juliette LEVIN, ecommercemag.fr, 2013
46
Effectivement, pourquoi faire de grosses dépenses dans une campagne de
communication pour essayer de toucher un certain nombre de personnes alors
qu’une campagne ciblée et personnalisée, envoyée au bon moment, coûte moins
cher et a plus d’impact ?
Le ciblage émotionnel
Internet évolue vers une approche sémantique, vers une analyse plus qualitative et
proche de celle de l’humain. Nous sommes encore loin de comprendre comment
fonctionne les liaisons entre les informations dans notre cerveau, même si les
avancées et développements sont bien présents et que l’émergence des nouvelles
technologies et objets connectés tendent à accélérer le mouvement. Ces objets, qui
contiennent une masse considérable d’informations en temps réel à notre sujet
pourront-elles comprendre et capter nos émotions ? L’analyse de ces données nous
apprend qu’une grande partie des individus font le même choix, à un moment et pour
une raison précise. Adapter l’offre en fonction des comportements consommateurs
est assurément une démarche de progrès vers un business de masse. Mais les
individus pensent-ils et agissent-ils tous de la même façon face à une situation ou
une offre ? Comment qualifier ces données ? Comment différencier deux visiteurs
sur une même page sur un même site ? En la reliant à des informations connexes,
antérieures ? Une analyse permanente de nos données permettrait-il à un système
intelligent de voir et déceler nos émotions ?
Pour pousser la chose encore plus loin, en plus des publicités ciblées par rapport
aux données émises qui prédiraient nos envies, des publicités diffusées en fonction
de notre humeur pourraient bientôt apparaître sur nos écrans. Le géant informatique
Apple a déposé une demande de brevet le 23 janvier où il propose de définir un profil
d’humeur type. De quoi s’agit-il ? Nous parlons ici d’un service publicitaire capable
de détecter notre humeur pour nous pousser au moment opportun une publicité
pouvant créer chez nous une émotion. Une publicité qui serait donc plus attractive,
plus pertinente et plus efficace. Car selon Apple, plusieurs facteurs comme le lieu,
47
l’activité, l’heure ou encore l’humeur d’un individu joueraient sur sa réceptivité face à
une publicité. Il justifie alors son ciblage publicitaire par le croisement des données
avec l’humeur de l’utilisateur.
Pour recueillir notre état émotionnel, Apple utiliserait des données variées comme le
pouls, la tension, le rythme respiratoire, la température du corps, corollées à d’autres
informations comme les sites web dernièrement consultés, l’activité sur les réseaux
sociaux, la musique écoutée… et mises en relation avec notre âge, notre
localisation ou encore le type de device utilisé. Un algorithme regroupera tous ces
résultats pour estimer déterminer notre humeur et pousser une publicité adéquate.
Apple nous assure que dans le respect de sa vie privée, l’utilisateur aura le choix
d’activer ou non ce service et de choisir le type d’informations qu’il accepte de mettre
à disposition. Nous ne savons pas dans quelle mesure ce dispositif sera mis en
place ou à partir de quand, mais il se peut bien que ce soit dans un futur proche.
Quoi qu’il en soit, à sa mise en place, ce service pourrait bien révolutionner le monde
de la publicité en temps réel, une opportunité de plus pour les marques !
48
effet aider la recherche, comprendre des données médicales, qu’elles soient
structurées ou non-structurées (IRM, ordonnance, radio…), prédire un symptôme et
trouver un traitement adéquat. Elle favoriserait notamment la compréhension des
maladies chroniques ou infectieuses et permettrait aux patients d’avoir accès à des
informations fiables pour gérer proactivement leur propre santé et adopter les bons
comportements.
L’une des facettes les plus intéressantes de la Big Data est dans l’analyse prédictive
des symptômes avant même qu’ils ne soient repérés par les médecins eux-mêmes.
Aux États-Unis, des patients publient sur des forums leurs pathologies liées aux
effets secondaires des médicaments qu’ils ont pris. Ces données permettent de
connaître la façon dont les patients réagissent face aux molécules qu’ils prennent. Le
gouvernement de Nouvelle-Zélande a défini sa politique de prévention contre le
diabète grâce aux informations récoltées sur les malades recensés dans le pays. En
Afrique, l’Union Internationale pour le contrôle du Cancer a mis en place une base de
données géante, la plus grande au monde, sur les patients atteints du cancer pour
accroître leurs connaissances sur cette maladie. In fine, les cliniciens pourront suivre
les traitements des patients et leur prodiguer des soins sur mesure. Une nouvelle
preuve que la Big Data peut être porteuse de valeur, même dans les pays
émergents.
23
«
Retour d’expérience du Big Data dans les entreprises », www.bigdataparis.fr, p.21
49
Big Data pourrait réduire les dépenses de santé de 300 à 450 milliards de dollars,
grâce notamment à la médecine préventive et personnalisée.
Pour les patients atteints de maladie chronique, la Big Data permettrait par exemple
de mettre en place des solutions de soins transmis directement en ligne. Les patients
pourront alors gérer leur santé à domicile, via des moniteurs avec des capteurs
pouvant échanger en temps réel les données essentielles avec son équipe médicale
et discuter et intervenir si besoin. Ces types de système réduisent le temps passé à
l’hôpital, libèrent des chambres et permettent également de diminuer les coûts
financiers, administratifs mais aussi de fonctionnement et d’opérations. Ils participent
aussi à la réduction du nombre de réadmissions en détectant les facteurs
environnementaux et de modes de vie à risque et en ajustant les traitements en
conséquence.
Toutes ces applications nous rapproche vers une médecine plus optimale, une
médecine personnalisée, plus efficace tout en optimisant les coûts. Le secteur
médical prend conscience de la valeur inexploitée, ou du moins mal exploitée, de ses
données.
50
III. Les dangers du Big Data, comment y faire face ?
Pour certains, l’exploitation des données est perçue comme une atteinte à la vie
privée, pour d’autres, elle dégage de grandes perspectives d’avenir. Elles peuvent
être un véritable tremplin pour les entreprises, à condition de pratiques
déontologiques claires et justifiées.
“Lorsque c’est gratuit, c’est que vous êtes le produit”. En effet, nous créons des
comptes, ouvrons des boîtes mails, naviguons sur Internet, communiquons via les
réseaux sociaux, le tout “gratuitement”, mais il existe bien une contrepartie à cette
gratuité. Celle de l’exposition de notre vie privée. Si 85% des consommateurs se
disent préoccupés par la protection des données personnelles sur Internet 24 et
pensent que leurs données sont mal protégées, 70% n’envisagent pas de changer
leur comportement digital. Les réseaux sociaux sont les premiers pointés du doigt en
matière de manquement au respect de la vie privée et de protection des données.
Qui un jour a lu en entier les conditions générales, souvent écrites sur des dizaines
de pages, avant d’utiliser ces applications ? Très peu de personnes. Une startup
anglaise en a fait l’expérience et a proposé 1000€, insérés dans ses conditions
générales de vente à qui les lirait. Le gain n’a été remporté qu’au bout de plusieurs
24
Etude CSA pour Orange - Les Français et la protection des données personnelles - Février 2014
51
mois. En France, récemment, l’association UFC Que Choisir a assigné Facebook,
Twitter et Google en justice devant le Tribunal de Grande Instance de Paris pour
leurs clauses et conditions d’utilisations qu’elle juge abusives ou illicites. Dans le
même temps, elle lance un appel aux consommateurs afin qu’ils gardent la main sur
leurs données. Aujourd’hui, en acceptant d’utiliser ces réseaux, nous leur laissons
carte blanche sur nos données (messages, posts, photos…), qui sont collectées,
conservées et exploitées à notre insu, sans rémunération et sans consultation
préalable. De nombreux Français souhaiteraient effacer leurs données personnelles
visibles de tous d’Internet mais ils ne sont que peu à y arriver totalement. Ce sont
plutôt les jeunes qui expriment ce souhait, les personnes plus âgées disant souvent
ne même pas savoir qu’Internet pouvait détenir autant d’informations sur eux. Face à
cette masse de données qui grossit de jour en jour, les organismes comme la CNIL
les oblige à être de plus en plus vigilants. La législation progresse aussi, à la
recherche d’une meilleure situation. Comme le montre l’ajout sur certains sites
d’annonces demandant l’autorisation à l’internaute la collecte et l’exploitation de ses
cookies.
Les pays mènent des actions pour trouver un compromis entre protection des
données personnelles et aide à la croissance du secteur où la donnée pourrait être
un accélérateur de création de valeur. Dans ce domaine, les pays n’ont pas tout à
fait la même approche. Entre la France très restrictive dans la matière et les Etats-
Unis qui sont plus ouverts, la marge de conduite est assez vaste. Aux Etats-Unis, la
législation est orientée vers la protection du consommateur, en trouvant un juste
53
milieu entre la vie privée de l’individu et la productivité des entreprises. L’Union
Européenne, elle, axe ses lois de manière différente. La protection de l’individu
dépasse les vertus commerciales. La vie privée est considérée comme essentielle.
Des projets pour renforcer la protection des données personnelles des individus et le
respect à la vie privée sont en cours d’élaboration et de grands changements verront
le jour. Parmi ceux-ci a récemment été introduit le “droit à l’oubli”. Les citoyens
peuvent à tout moment, sauf s’il existe une cause défendable contraire, effacer leurs
données personnelles des bases de moteurs de recherche. Les internautes peuvent
désormais réclamer directement le retrait des données le concernant sans forcément
passer dans l’éditeur de contenu.
Une prohibition semble toutefois vouée à l’échec, les données étant présentes dans
nos vies courantes. Interdire l’exploitation des données serait contre productif. Car
s’il est certain qu’un bon usage des données encouragera les consommateurs à
succomber plus rapidement, elle risque de les pousser à des actes accessoires. Les
données risquent de transformer les consommateurs en simples données
statistiques. Dis moi ce que tu achètes, ce que tu regardes, où tu te déplaces et je te
dirai qui tu es. Heureusement que les hommes sont moins prévisibles que ça.
54
La transparence dans l’utilisation des données collectées n’a
jamais été aussi importante
Selon l’étude “Future of Digital Trust” menée par Orange25, 78% des consommateurs
affirment qu’il est difficile de faire confiance aux entreprises dans la façon dont sont
utilisées leurs données personnelles et sentent que les entreprises demandent trop
d’informations à propos de leurs comportements et leurs préférences. Ils sont de plus
en plus à être préoccupés par les garanties de sécurité et de confidentialité face à
leurs données personnelles, leur cadre et destinataires d’utilisation…
Les entreprises doivent s’engager à plus de transparence face aux données réunies,
mettre en avant les avantages des consommateurs à partager leurs données avec
elles, de faire en sorte qu’ils puissent avoir la main sur ce qui peut être fait ou non
avec leurs données. Le sujet de transparence est primordial pour fonder une relation
de confiance durable avec ses utilisateurs et l’impliquer dans l’adhésion qu’on lui
propose. Plus les modalités et avantages sont explicites et bien définis et plus l’on
peut espérer un retour sur investissement élevé, les consommateurs étant
consentants, sachant ce à quoi ils sont inscrits. Pour espérer qu’une personne
accepte de laisser ses coordonnées, il faut commencer par être limpide avec ses
clients et nous-même commencer à nous dévoiler (mentions légales, adresse,
contact, coordonnées, etc.) et expliquer notre démarche (le but de cette récolte, les
bénéfices, la finalité, les destinataires, etc.).
25
« the future of digital trust », A European study on the nature of consumer trust and personal data,
Orange, February 2014
55
La dictature de la donnée
Les questions relatives à la surveillance du net ne sont pas dénuées de sens. Les
grandes avancées technologiques et l’incompréhension du plus grand nombre face à
une technicité croissance des systèmes de gestion des informations amène à une
défiance des pratiques des grandes entreprises.
L’inconnu effraie, et cela est légitime dans un climat où des scandales tels que
l’affaire Snowden éclatent au grand jour, dénonçant les programmes
gouvernementaux de surveillance par la collecte d’informations sur Internet
(programme PRISM).
56
Peu après que le scandale soit révélé par le Wall Street Journal, la société Amesys
avait supprimé tous les contenus relatifs à l’application Eagle. La revente de ces
armes électroniques utilisant des technologies mêlant hacking et Big Data semblent
alors cédée sans vergogne au plus offrant. Ce type d’information amène la
population à se méfier et à généraliser les pratiques numériques comme
malveillantes.
Afin de bien comprendre dans quelles mesures le Big Data en tant que traitement
d’informations de masse permet ou non de faire, il est de mise de faire un état des
lieux des lois appliquées en France et dans le monde aujourd’hui, et d’en ressortir les
menaces qui en découlent :
- La loi du 13 juillet 1991 relative au secret des correspondances émises par la voie
des télécommunications stipule que dans des cas engageants, la sécurité nationale
ou la prévention de la délinquance et de la criminalité, les opérateurs sont tenus de
coopérer avec la justice. Cela signifie que ces cas peuvent amener à une
surveillance des communications téléphoniques et de messageries. En France, cette
loi semble légitime, mais reste sensible car rentrant dans une logique pouvant
donner lieu à des débordements comme a pu illustrer le programme américain
PRISM permit par le Patriot Act de 2001 où le principe de sécurité nationale a été
une justification pour une surveillance généralisée des citoyens.
- La loi LSQ du 15 novembre 2001 relative à l’obligation pour les FAIs de conserver
les données de connexion pendant un an (principe de data retention) :
ce principe n’est cependant que peu contrôlé, les FAIs pouvant aisément supprimer
les données collectées en cas de contrôle intempestif.
57
- Le décret Hadopi du 5 mars 2010 donnant doit au croisement des données des
FAIs avec des données à caractère personnel afin d’identifier les personnes ayant
usage de systèmes de téléchargement PeertoPeer.
En effet, la grande question subsistant pour les Français est de savoir si la France, à
l’instar des Etats-Unis, utilise un système de surveillance généralisé.
En effet, en utilisant les données non structurées, les algorithmes réalisent des
appels sur l’ensemble de la base concernée en faisant remonter dans les «clusters»
via le MapReduce (ensemble de serveurs alloués pour l’accueil des résultats),
l’ensemble des réponses remontées par l’algorithme.
58
- OUI, il y a surveillance généralisée car le data mining réalisé sur les serveurs font
potentiellement des appels à l’ensemble des données, ce qui signifie que toute
personne peut être visée par ces requêtes.
Il existe tout de même un travers dans l’utilisation des Big Data, qui autant du côté
des personnalités morales que publiques, peut constituer une entrave à la liberté de
chacun. Ce travers tient du fait du mode de détermination des profils. Nous
évoquions dans la première partie de ce mémoire la capacité des logiciels de
partitionnement de données d’établir des corrélations défiant la réflexion cognitive
humaine sur des bases algorithmiques. Ce type fonctionnement se base sur une
segmentation profonde permettant d’émettre des probabilités fortes sur des
comportements non rationnels. Il n’en reste que ces résultats, aussi précis soient-ils,
restent des probabilités. Une question éthique se pose alors quand à l’utilisation de
ce type d’informations. En effet, si à l’échelle de Paris (environ 2 millions d’habitants)
10% de la population26 semble adopter un comportement déterminé à risque (soit
200 000 personnes), mais que les critères déterminants ces comportements ont une
efficacité de 90%, ce n’est pas moins de 20 000 personnes qui pourraient alors être
suspectées à tort d’avoir des comportements criminels. Dans le cas d’une assurance
ou d’un crédit, la même logique pourrait induire que de nombreuses personnes
pourraient se voir refuser des offres sur la seule base d’une probabilité algorithmique
dans une logique de diminution des facteurs risques, défis majeurs dans ces
secteurs. Il semblerait que la société évoluera dans une logique permettant une
efficience commerciale et gouvernementale mais utilisant les statistiques au
détriment de couches de population que l’on pourrait qualifier de «minorités
numériques».
26
réf. : taux de criminalité à Paris relevé par le Figaro.fr en 2008
59
Les décisions seraient alors régies par les données et l’on est en droit de considérer
que de nombreuses décisions pourront être prises à l’avenir par des
recommandations émanant de systèmes algorithmiques. Imaginons un instant qu’un
système algorithmique établisse la probabilité d’arriver au terme d’un conflit armé en
faisant des bombardements sur certaines zones précises pouvant désamorcer le
conflit en un mois de temps mais en occasionnant des dommages collatéraux
important pour la population civile, et que d’un autre côté, une manière plus subtile
engrange un embourbement sur une longue période entraînant des milliards de
dollars de dépenses supplémentaires. Cet exemple bien qu’exagéré est un cas de
figure montrant l’ambivalence entre la logique d’efficience des algorithmes et la
dimension éthique. Mais y aura-t-il réellement un choix ? Les
concurrents/adversaires détenant également ces « armes numériques » auront-elles
une telle réflexion ?
60
2) Vers une évolution responsable du Big Data
C’est un état de fait que les évolutions technologiques et les nouvelles pratiques
dans le milieu digital évoluent plus vite que les lois. Il existe toujours un temps de
latence entre la constatation d’un vide juridique et l’application de nouvelles règles
pour la simple raison qu’il est difficile de visualiser à l’avance tous les impacts d’une
avancée technologique.
Le débat actuel sur la protection des données privée en est la preuve, où malgré
l’utilisation par les entreprises des données personnelles depuis déjà une dizaine
d’années, le droit n’évolue que pas à pas. Pour exemple l’article 32 II de la loi
informatique et liberté relative ou “Paquet télécom” spécifiant que les sites se doivent
d’informer les internautes de l’utilisation des données récoltées. Bien que
l’ordonnance fût publiée en août 2011, de nombreuses directives ne sont que peu ou
pas appliqué même sur des sites au trafic important. On peut illustrer ce retard de
mise en application avec l’obligation d’information concernant les “cookies”, qui
permettent le tracking des explorations des internautes pour la majorité des sites
internet. Tout site internet utilisant ces cookies est censé présenter un bandeau
informatif sur sa page principale afin d’obtenir l’approbation de la pose de ces
fichiers; or cette évolution n’est encore appliquée que pour une poignée de sites en
2014.
61
Données personnelles, un changement de débat
Une orientation sexuelle peut aujourd’hui être aisément déterminée par les seules
données sociales publiques et par les interconnexions relationnelles. La protection
des individus n’est alors plus à un niveau individuel, mais au niveau global sur toutes
les informations communiquées de façon consciente ou non par les internautes.
Mais les individus ne sont pas les seuls à devoir être protégés.
Les PME, bien qu’entrevoyant les bénéfices que peuvent générer les systèmes de
données non structurées, n’ont pas les ressources nécessaires pour mettre en place
de tels chantiers demandant des compétences spécifiques coûteuses et
chronophages.
27
Directive 95/46/CE du Parlement européen et du Conseil du 24 octobre 1995
62
L’expansion des start-ups est alors en danger dans un système où les grandes
entreprises pourront utiliser leur puissance financière pour acquérir de la data et ainsi
avoir une présence beaucoup plus forte.
Les autorités de la concurrence telles que l’OMC devront prendre en compte ces
nouveaux facteurs afin de garantir l’atomicité des marchés.
- La politique de l’OMC qui repose sur une logique néo-classique libérale, donc ne
prônant pas l’interventionnisme, ne semble à priori pas enclin à mettre en œuvre
une telle mesure ; d’autant plus que de forts lobbyings seraient à craindre de la part
des entreprises et des gouvernements, notamment des Etats-Unis, étant les plus
avancés en technologies Big Data,
Le Big Data, qu’il s’agit du respect de la vie privée ou de la libre concurrence, devra
avoir un système de contrôle global et indépendant.
En effet, les problématiques liées à l’utilisation des données ont une dimension
internationale, et ne doivent donc pas pouvoir être soumises aux influences des
états.
63
Le fonctionnement du Big Data par hébergement des données sur des serveurs
multiples implique en effet le fait que ceux-ci puissent être localisés partout dans le
monde. Le principe de contrôle des serveurs étrangers avait déjà pu montrer sa
validité juridique avec l’exemple de Google France en 2012. Par l’ordonnance du 31
août 2012, la cour d’appel avait ainsi pu valider le contrôle fiscal de la société qui
révélait exercer des actions commerciales en utilisant des données basées en
Irlande, et voulait ainsi se prévaloir de payer les taxes sur son activité en France.
Mais ce principe appliqué en France ne le sera pas forcément dans chaque pays,
d’où la nécessité d’instaurer une autorité capable d’agir hors des frontières.
- voir des moyens coercitifs en cas d’abus de position dominante ou de non respect
des chartes déontologiques des traitements des profils.
64
Le Big Data comme science sociale
Les technologies Big Data, outre leurs capacités à créer de la valeur par une
efficience marketing lorsque celles-ci sont maîtrisées, pourront amener à de
nombreuses avancées d’ordre public en protégeant les vies humaines de menaces
sur leur intégrité tant physique que morale grâce à des logiques collaboratives.
L’exemple le plus récent et des plus retentissent était la faille Heartbleed révélée en
avril 2014. Cette faille permettait d’accéder impunément aux données sensibles de
nombreux sites (½ millions de serveurs, dont ceux de Facebook, Google et Yahoo),
utilisant les protocoles de cryptage de type SSL/TSL tels que des messages
sécurisés, des transactions bancaires, des informations de connexion client, ou des
documents confidentiels. Il fallu deux ans avant que des experts en informatique se
rendent compte de l’anomalie.
Aujourd’hui, les sites tentent alors de se prévaloir des attaques éventuelles sur deux
plans:
Ces solutions ne représentent qu’un bouclier contre les différents types d’attaque.
Une fois ces systèmes de protection contournés, il n’existe pas de moyens
permettant de connaître la cause de l’attaque. Un logiciel malveillant pourra alors
65
frapper plusieurs fois avant que soit détecté son fonctionnement et soit développé
une solution pour le contrecarrer.
C’est ici que Le Big Data apporte une solution visant à améliorer l’ensemble du Web.
Le traitement de l’ensemble des données enregistrées par une plateforme web peut
déterminer rétroactivement la source de l’attaque en scrutant tous les changements
opérés au cours de celle-ci. Par compilation des divers protocoles utilisés, il est alors
possible de déterminer la faille qui a pu permettre la transgression dans le système
informatique.
Par ce procédé, les sites pourront analyser les menaces. En organisant un échange
de ce type de rapports entre les différents acteurs du web, il sera possible alors de
diminuer considérablement le nombre d’attaques et ainsi permettre une toile plus
sûre pour les entreprises et les utilisateurs car plus réactive.
L’ère numérique voit se développer des systèmes digitalisés par des cours en ligne.
Cette tendance est désignée sous le nom de MOOC (Massive Open Online Course),
dont l’exemple le plus connu est Coursera, une plateforme universitaire proposant
des cours en ligne gratuits ou à très bas prix, donnés par des intervenants issus du
monde entier.
66
La liaison entre les différentes technologies du web et la solution des cours en ligne
peut permettre une transformation considérable du système éducatif en permettant la
personnalisation des parcours en les adaptant aux intérêts des élèves, pouvant ainsi
créer des profils intéressants pour les entreprises tout en réduisant le taux d’échec
scolaire.
En effet, en proposant des cours sur des bases digitales, il est possible de
transposer les outils et techniques de collecte de données tels que le tracking, le
mouse tracking, ainsi que tous les indicateurs de Web Analytics (temps passé par
contenu vu, taux de rebond, mots clés, etc.) afin de poursuivre un but éducatif.
Ces indicateurs, à l’instar d’un site web classique pourraient alors opérer une
segmentation des profils en déterminant par exemple les centres d’intérêts de
chacun, leur niveau et/ou leur avancée sur un thème donné et ainsi proposer des
contenus adaptés à leur progression.
Les domaines d’applications cités ci-dessus ne sont que deux exemples parmi
d’autres portant en eux des fonctions servant l’intérêt général. La capacité du Big
Data à traiter des corrélations complexes n’est pas destinée à ne servir que des
intérêts financiers. C’est par une dimension collaborative que ces technologies
apporteront des avancées sociales permettant de réguler le Web ou pallier à des
problèmes actuels tels que l’abandon scolaire ou le traitement des épidémies dans le
monde.
Travailler avec la data ne signifie pas renoncer aux outils classiques. Juliette
Delcourt, directrice marketing de Marionnaud, enseigne qui a modernisé sa gestion
de la relation client en 2012, explique :
67
Nous continuons aussi à faire du mailing papier mais en sélectionnant les
personnes pour lesquelles cela aura le plus de pertinence en terme de valeur.
Les boutiques téléphonent beaucoup à leurs plus fidèles clients… Plus aucune
décision n’est prise sans regarder la data, mais on prend garde à ne pas trop
miser non plus sur le côté prédictif. Sur le marché du parfum et de la beauté, qui
compte beaucoup sur l’achat plaisir, les clients ont envie d’essayer les nouveaux
produits”28.
Connaître ses clients est un impératif, mais pas au point de trop en savoir et de se
noyer dans un océan d’éléments qui ne sont pas forcément tous utiles. Le
consommateur requiert toujours les mêmes attentes, qui tournent autour d’une
relation de confiance entre lui et la marque. Un trop plein de connaissance pourrait la
rendre moins intuitive et donc moins efficace. Il faut faire confiance à nos intuitions,
sentir les choses, se mettre dans la peau des clients, dans une relation
marque/consommateur favorisant le respect dans une démarche d’égal à égal.
28
“Distribution : la data en tête de gondole”, Revue INfluencia, 2014, p.126
68
Conclusion
69
organisationnels, c’est aussi une montée en compétences de tous les services liés à
la data qui devra s’opérer. Les algorithmes en langages Java demandent une
compréhension du système par tous les acteurs afin de faire la jointure entre besoins
marketing et spécificités techniques.
Cette ambivalence induit l’émergence de nouveaux métiers aux compétences rares,
mêlant réflexion marketing et connaissances techniques en langage informatique.
Les métiers clés des entreprises tendent alors à changer. Dans l’ère du data, les
Data Scientists seront rois. Si les entreprises parviennent à intégrer ces
changements, celles-ci pourront accéder à un avantage concurrentiel indéniable.
Cependant, la maîtrise des datas par les entreprises n’est pas sans risque pour
l’intérêt commun. Les traces numériques laissées par les internautes sont riches en
informations et les capacités de déduction des technologies Big Data ne laissent que
peu de place au mystère. Le débat n’est pas ici celui d’une protection des données à
l’échelle de l’individu, car le Big data s’intéresse aux masses afin de déduire des
paradigmes de comportements.
Chacune des données issues de traces laissées sur le Web reflètent les
comportements et les idéaux de chacun. Le réel danger se présentera alors sous la
forme de l’utilisation des algorithmes et des profils qui en seront ainsi déterminés. En
utilisant les informations de profils à l’échelle de l’individu, les défis sont alors
d’obtenir une transparence sur les usages des données sur les personnes et de
garantir l’anonymisation de celles-ci sur le Web.
On aura tôt fait d’évoluer vers un système où la donnée influera sur la plupart des
prises de décisions. Les technologies de Big Data, en procurant des statistiques
précises, ont la capacité de fournir des informations tangibles pour ces prises de
décision en réduisant les marges d’erreurs quel qu'en soit le domaine. Mais les
corrélations, même avec une extrême finesse, ne restent que des probabilités. Le
risque d’une systématisation de l’emploi de ces statistiques est alors de catégoriser
les personnes tout en sachant qu’un pourcentage de la population visée, bien que
présentant tous les critères correspondants, ne rentrent pas dans la cible
déterminée.
Un nouveau type de minorité sera constitué alors de “victimes algorithmiques”,
dommages collatéraux d’un système déshumanisé.
70
La logique algorithmique étant dénuée de réflexion sociale, devra-t-on être prêt à
sacrifier ces minorités au nom de l’efficience?
Cette vision de notre avenir semble pessimiste, mais cependant pas inéluctable. Une
évolution déontologique du Big Data passera par la création et la mise en application
de nouvelles règles afin de se prémunir des abus que peuvent engendrer le Big
Data. Les gouvernements pouvant avoir des avis plus ou moins libéraux face à
l’utilisation du Big Data, il sera primordial de permettre une régulation éthique à
l’échelle internationale.
Aujourd’hui, la loi peine à suivre les avancées technologiques et la technologie Big
Data pose elle-même des limites aux droits nationaux par sa structure même. La
multiplicité des serveurs permettant d’héberger les données implique que les
données peuvent être hébergées sur des serveurs éparpillés dans le monde. Le
conflit entre les différentes régulations nationales pourrait rendre inefficace
l’application des lois.
La solution sera alors la mise en place d’une autorité de régulation internationale
ayant un droit de regard sur l’utilisation des données par les entreprises afin de
garantir le respect des individus des principes de libre concurrence.
Le Big Data, comme toute technologie nouvelle, apporte son lot de questionnements
et d'inquiétudes. Il est tentant de diaboliser ces pratiques, mais il ne faut pas occulter
l’extraordinaire avancée qu’elles engendrent. Les possibilités qui s’offrent à nous
peuvent servir des intérêts nobles. Ces technologies pourront par exemple, assez
paradoxalement, permettre la protection des données personnelles des individus en
créant des systèmes de reconnaissance des pratiques de hacking visant à récupérer
les données sensibles sur les plateformes Web. Elles pourront également permettre
un accès à l’éducation plus large, moins coûteux et personnalisé à chaque élève.
L’éventail des possibilités est vaste, et avec une logique collaborative et ouverte, de
nombreux systèmes émergeront.
Mais il est possible d’aller encore plus loin. Les possibilités qu’offrent les systèmes
de Big Data présentés dans ce mémoire se sont attachées à une vision
représentative des évolutions des pratiques dans un spectre de 5 à 10 ans. Mais le
traitement des données non structurées et de type varié, couplées aux solutions
71
algorithmiques, posent dès aujourd’hui les bases de nouvelles réflexions théoriques
amenant à des hypothèses parfois vertigineuses lorsque le sujet vient à l’utilisation
des algorithmes d’apprentissage mêlés au Big Data.
L’homme créé à son image et la toile pourrait bien s’apparenter à la construction
neuronale d’un cerveau humain, à la différence prêt que celui-ci renfermerait la
quasi-totalité des connaissances sur terre. Les algorithmes d’apprentissage
automatisés prouvent déjà que ceux-ci peuvent faire preuve d’autonomie dans leurs
décisions dans le cadre d’études de comportements, s’enrichissant par eux-mêmes
des données qu’ils traitent. Déjà en 2001, des informaticiens russes avaient réussis à
créer une intelligence artificielle qui passa le test de Turing avec succès, test
consistant à confronter des personnes à cette IA et à déterminer si celle-ci pouvait se
faire passer pour un humain. Il n’est donc pas fantaisiste de penser que ces
algorithmes “autonomes” puissent acquérir une capacité de réflexion semblable à
celle d’un homme, en considérant que la réflexion cognitive est faite de corrélations
entre l’ensemble des informations emmagasinées. Une telle hypothèse amène à des
questionnements divers sur la définition de la conscience et des changements que
l’émergence de telles intelligences pourraient susciter, un algorithme ayant une
capacité de traitement d’informations décuplée.
Le Big Data sort alors d’un cadre purement commercial et sociétal. Nous
n’entrevoyons encore qu’à peine l’étendue de ses possibilités. L’avenir semble alors
ouvert à de nombreuses innovations dans ce domaine.
72
Annexes
Entretiens individuels
Entretien avec Abdelkrim Talhaoui, co-fondateur de Octopeek
73
En essayant de comprendre qu’est-ce que l’e-mail, comment l’enrichir pour mieux
cibler nos contacts, l’objectif était de comprendre les personnes à laquelle nous
allions nous adresser.
Le principe est simple. Vous uploader une liste d’e-mails, vous choisissez les critères
selon lesquels vous voulez cibler. La première étape est tout d’abord d’analyser
l’adresse mail en elle-même. On commence par regarder le nom de domaine (Gmail,
Hotmail, Yahoo…), qui correspond à un spectre; ce ne sont pas les mêmes types de
personnes, sociologiquement parlant par exemple, qui possèdent une adresse en
Gmail ou en Wanadoo. Les FAI peuvent aussi nous révéler des informations. Par
exemple, chez Free on est peut-être plus adepte aux changements, peut-être plus
“geeks”, “low cost”; chez SFR on peut avoir un profil plus peut-être “fonctionnaire”,
cadre, moins adepte aux changements… Il peut y avoir des vérités sociologiques
derrière. On va ensuite analyser le user name. On peut avoir des renseignements
supplémentaires en ayant de base le nom et prénom de la personne. Le prénom va
nous donner un sexe, éventuellement une tranche d’âge -ce sont là des statistiques
assez classiques-, une origine. En France ce n’est pas légal mais ça l’est dans
d’autres pays. Une origine va nous donner des vérités sociologiques. Le nom peut
aussi nous aider à une situation géographique. On sait par exemple que 47% des
“Martin” se trouvent en région parisienne. Et quand on croise ces données avec des
données INSEE, on arrive à avoir une tranche d’âge, un genre, un sexe, une
localisation, une CSP.
Tout ceci est une première source d’informations. Elle n’est évidemment pas
suffisante. On va donc confronter ces données aux réseaux sociaux, et améliorer le
scoring et enrichir ces données. Si l’e-mail est présent sur les réseaux sociaux
(Facebook, Twitter, Linkedin, Viadeo, etc.), on va aller récupérer des informations
publiques et les confronter à des données Open Data. Tout ceci est assez empirique.
On récupère une information, qui va nous en donner une deuxième, qui elle-même
va nous en donner une troisième, etc. et toutes rassemblées nous en donne encore
plein d’autres.
74
4- Dans votre situation, quels types de données que les entreprises
recherchent-elles ?
5- Dans ce cas, ce sont plutôt les petites entreprises ou les grands comptes
qui sont le plus intéressés par votre offre ?
Les deux. Ce sont généralement des entreprises qui font du BtoC. Pour les petits
comptes, ce sont plutôt des entreprises de conseil, de marketing, qui mettent en
place des stratégies pour leurs clients, les aider à mieux enrichir leurs bases, mieux
les connaître… Celles-ci ont un intérêt à utiliser un logiciel comme le nôtre car il leur
permet d’avoir un avantage concurrentiel. D’autres ont déjà des données et
cherchent à mieux cibler leurs clients, à valoriser leurs données.
Ce qu’il faut savoir c’est une base n’est en général plus viable au bout de 6 mois.
L’information meurt si on ne la fait pas vivre. Vous déménagez, vous changez de
métier, vous vous mariez, vous avez des enfants… Une information vraie à un
instant T peut ne plus l’être à T+1. Les entreprises vont alors chercher à valoriser
leurs données mais elles peuvent également la louer.
Les grands comptes sont aussi intéressés par notre solution. Ce sont des BtoC ou
des BtoBtoC. Nous avons comme clients des opérateurs, des banques, des
distributeurs… Elles sont souvent des opérateurs de cooponing, tout cela dans le but
de mieux connaître ses clients.
75
6- Les grandes entreprises peuvent alors mettre en place un projet Big Data et
donc utiliser des bases NoSQL et faire appel à vos services pour augmenter
son volume de données.
Tout a fait. C’est ce qu’il se passe aujourd’hui. SFR par exemple, qui est en ce
moment sur un gros projet sur la connaissance client, leur objectif est d’aller
chercher de la donnée de partout (traçabilité, navigation, etc.) et de la compléter
avec d’autres données, de l’enrichir avec des données extérieures. On les aide aussi
à organiser par exemple leur architecture technique du Hadoop, du NoSQL,...
7- Une fois que le logiciel de partitionnement de données est mis en place, y’a-
t-il besoin d’un expert pour pouvoir les interpréter ?
Il faut quand même une personne qui connaisse Hadoop, s’il y a des soucis
techniques, etc. Après, ce sont des coûts qui sont absorbés. Aujourd’hui, ce n’est
pas simple de trouver des compétences Hadoop en France.
La technologie est bien présente. Il y a même des Master Big Data qui existe. Des
entreprises comme Publicis ou Accenture, vont porter le Big Data. Comme l’iPhone à
son époque, on créé le besoin. D’un point de vue marketing, des entreprises sont là
et vont porter ce projet.
De toute façon, avec ou sans la France, ou même l’Europe, ça se fera.
76
Entretien avec Florian Wager, Web Analytics manager à Laser Cofinoga
Tout d’abord, ce projet dont les instigateurs étaient le directeur du pôle Digital Laser
et moi-même, demande des bases solides en traitement de données afin de tirer le
meilleur parti des échanges avec les différents acteurs proposant leurs services pour
mettre en place ce projet.
Le fait pour moi de faire partie de la partie acquisition Web me permet également
d’avoir une logique différente des services relation client ou marketing. Avec des
connaissances techniques et une pensée tournée vers l’acquisition prospects, il
m’est plus aisé d’appréhender les besoins et les possibilités que nous offre le projet
Big Data.
77
4- Pourquoi faire le choix d’une technologie Hadoop?
Le choix d’Hadoop c’est imposé à nous car c’est l’API le plus démocratisé de nos
jours. Cependant, il faut comprendre que la volonté pour Cofinoga de rentrer dans
une logique Big Data n’exclue pas l’usage de nos data warehouses. Ceux-ci
hébergent toutes nos données riches qui resteront hébergés sur des bases
structurées.
5- Qu’est ce que Cofinoga souhaite donc apporter avec le projet Big Data?
Le Big Data aura pour principal attribut d’obtenir une base unique à tous nos services
et ainsi d'interconnecter toutes nos bases existantes afin de pouvoir mieux gérer nos
campagnes RTB, Display. Le gros avantage de gérer la data en interne est aussi de
pouvoir directement faire le lien entre les besoins exprimés par le marketing et la
captation de données répondant efficacement à ceux-ci grâce à un algorithme
adapté.
78
6- La solution Big data est elle coûteuse? Comment calculez-vous votre ROI?
La solution Big Data est pour nous bien moins coûteuse que de passer par un data
warehouse. Cela est dû à l’architecture technique qu’utilisent les données non
structurées. Au lieu d’utiliser un hébergement unique très performant, nous
utiliserions de multiples serveurs à bas prix. C’est comme si vous aviez le choix entre
interconnecter une centaine d’ordinateurs peu performants qui ensemble avaient la
même capacité de traitement qu’un ordinateur ultra-puissant.
Le choix n’est pas forcément logique pour toute entreprise, mais l’avantage est que
si une des cent plateformes tombe en panne, il y aura toujours les 99 autres pour
prendre le relais et il sera bien moins coûteux de remplacer un serveur à basse
capacité, qu’un serveur très puissant, qui par ailleurs mettrait en stand-by toute
l’activité du site si il venait à ne plus fonctionner.
Pour ce qui est du ROI, nous n’avons pas eu une logique d’apport numéraire, mais
de gain en productivité future. Le Big Data est un investissement qui se développe
au fil du temps si il est bien organisé.
Nous pourrions obtenir des gains important en ciblage et améliorer notre taux de
transformation en adaptant notre site aux profils utilisateurs. Nous pouvons imaginer
comme exemple un internaute venant sur le site Yahoo.fr cliquant sur une bannière
amenant à notre site tout en sachant que ce dernier avait reçu un courrier parlant de
nos produits d’assurance quelques jours auparavant. Nous pourrions ainsi lui
présenter nos offres d’assurance en première page sur notre site afin d’avoir une
communication des plus ciblée.
79
Là où auparavant chaque équipe utilisait sa base pour ses propres besoins, une
base commune incluera un nouveau process en trois étapes :
- Le besoin : qui sera exprimé par le service marketing
- L’analyse : traitée par le service Data qui devra élaborer les algorithmes
- La technique : où un prestataire devra traduire les algorithmes en code Java afin de
pouvoir communiquer avec Hadoop.
Le défi est que chaque équipe puisse comprendre comment les autres fonctionnent
afin de pouvoir communiquer efficacement en s’adaptant aux besoins de chacun.
80
Entretien avec Xavier Bartone, Expert SMO et fondateur du Webzine “Elle était une
Marque”
Au sein de mon agence, je suis souvent amené à conseiller les clients sur leurs
stratégies de captation des données. Beaucoup d’entreprises ne sont pas
sensibilisées à l’importance de celles-ci et à leur capacité à générer de la valeur.
Selon moi le Big Data apporte une vision plus précise de l’activité d’une entreprise:
- Il permet de déterminer où sont placés les consommateurs dans le tunnel d’achat,
en différenciant les prospects chauds, moyens ou froids, ce qui améliore le ciblage.
- Il définit également de savoir à quel moment les actions marketing doivent être
mises en place
- Le Big Data permet enfin de déterminer des éléments hyper-rationnels, le fait
de tracer le consommateur pour savoir qui il est, comment il se comporte, par rapport
à comment je suis vis-à-vis de lui, permet de faire moins d’erreurs et devient ainsi un
outil tactique très puissant.
Le Big Data reste un métier très technique qui requiert des compétences techniques
poussées. Pour moi, tout dépend des entreprises. Une société ayant l’habitude de
traiter les données et souhaitant en être propriétaire, pourra éventuellement intégrer
cette organisation, mais dans le cas de petites entreprises, il semble difficile de
mettre en place un tel projet. Cela pour des raisons tout d’abord financières, mais
également du fait que bien que les PME commencent à prendre conscience de ce
qu’offre le Big Data, leur masse de données est en général encore trop faible pour
songer à évoluer vers ce type de technologie.
81
Fiches de lecture
1- Tout savoir sur… L’Absolu Marketing : Web 3.0, Big Data, Neuromarketing…,
BRUNO TEBOUL & JEAN-MARIE BOUCHER, Edition Kawa, 28 mars 2013,
366 pages
82
- Le web : 1ère source de l’infobésite. Les humains sont les principaux
responsables de l’explosion du volume d’informations. La folksonomie génère
de l’information et est productrice d’énormément de nouvelles informations, de
nouvelles données qui ont du sens.
- Le Big Data peut offrir une vue continue, autant spatiale que temporelle, des
habitudes du consommateur. La prospection devrait donc être à la fois
contextuelle, dynamique et prédictive.
- La connaissance des habitudes ou tendances des consommateurs est la vraie
clé d’un marketing efficace.
- SmartData : le traitement du Big Data sous l’angle CRM
- La naissance du marketing prédictif. A l’horizon 2020, ces informations
devraient représenter 90% de l’ensemble des données stockées. Il faut les
stocker mais également les traiter et en extraire le sens. Grâce au meaning,
nous serons capable de les traiter et ainsi générer une réelle valeur ajoutée.
83
2- Marketing comportemental : Exploiter la donnée marketing client,
ALAIN SANJAUME & ARNAUD CAPLIER, Edition Dunod, 2010, 244 pages
84
- Le marketing comportemental online se définit comme l’ensemble des
techniques, expertises et approches qui exploitent les données consommateur
contenus sur le web
- Le marketing comportemental est amené à prendre une place croissante dans
les dispositifs marketing
- L’impact de la data sur les nouveaux métiers des marketeurs, régies
publicitaires, agences, annonceurs…
- La collecte des données de masse, nouveaux canaux de contact et de gestion
client
- Le marketing comportemental peut être considéré comme le prolongement du
web et du CRM et du marketing multicanal
Cet ouvrage nous a permis d’avoir une vision globale des principaux enjeux et les
différents aspects du marketing comportemental. Les possibilités d’interaction de
mesure sur les médias offrent des possibilités infinies. Ils deviennent de
formidables outils d’acquisition et de fidélisation. Les services personnalisés
séduit les consommateurs, qui leur apportent confort, facilité et rapidité.
Le marché des places de marché média (ad exchanges) va jouer un rôle
important au sein du marketing comportemental.
85
3- Data Mining Techniques : For marketing, sales, and CRM
MICHAEL J.A BERRY & GORDON S.LINOFF, Edition John Wiley & Sons, 2011, 888
pages
Plusieurs concepts :
• Le data Warehousing qui est le stockage de données afin d’avoir la capacité
de suivre les comportements dans le temps
• Le datamining qui est le processus de réflexion permettant de distinguer les
données pertinentes du passé pour en déduire le futur
La subtilité du datamining est de faire la part entre les informations déjà connues, les
informations non utilisables et celles pertinentes.
Les tests :
Le test par hypothèse est la base de test pour tout dataminer.
86
Il consiste à recentrer l’analyse sur la base d’idées préconçues que les données
viendront affirmer ou infirmer en créant de nouvelles hypothèses de comportement.
Le datamining et le CRM
- Identifie les bons prospects
- Choisit les bons réseaux de communication
- Le bon message selon le profil prospect
87
Bibliographie
Ouvrages
MARK VAN RIJMENAM, Think Bigger: Developing a Successful Big Data Strategy
for Your Business, Edition Amacon, 1 mai 2014, 288 pages
MICHAEL J.A. BERRY & GORDON S.LINOFF, Data Mining Techniques: For
Marketing, Sales, and Customer Relationship Management, 3rd Edition, Edition
Wiley, 2011, 888 pages
88
Rapports
Analyse des Big Data –Quels usages, quels défis ?, Commissariat général à la
stratégie et à la prospective, 2013
The Emerging Big Returns on Big Data, A TCS 2013 Global Trend Study, TATA
Consultancy Services, 2013
The future of digital trust, A European study on the nature of consumer trust and
personal data, Orange, 2014
Big Data : Big Culture, le pouvoir grandissant de la data et ses perspectives pour
l’économie de la culture, l’Atelier de BNP Paribas Group, 2013
89
The danger of Big Data, Social Science as computational Social science, Andre
Oboler, Kristopher Welsh and Lito Cruz, 2012
90
Articles web
http://www.informatica.com/fr/potential2at2work/it2leaders/42strategies2for2setting2b
usiness2leaders2expectations2
http://lesclesdedemain.lemonde.fr/revue-de-web/amazon-veut-envoyer-les-colis-
avant-meme-la-commande_a-56-3538.html
http://www.data*business.fr/big*data*definition*enjeux*etudes*cas/#prettyPhoto;
http://lesclesdedemain.lemonde.fr/organisations/big6data6quand6le6statisticien6
devient6sexy_a61261769.html!
http://www.journaldunet.com/solutions/analytics/utilisation-de-watson-d- ibm/watson-
au-service-de-la-medecine.shtml
http://www.e-marketing.fr/Thematique/Data-IT-1004/Big-Data-10021/Dossiers/big-
data-et-si- votre-entreprise-s-y-mettait-aussi-- 233345/
http://leplus.nouvelobs.com/contribution/12034238google8et8le8droit8a8l8oubli8sur8
http://lesclesdedemain.lemonde.fr/innovation/l5explosion5des5donnees5chance5ou5
malheur5pour5la5connaissance5_a55452141.html
http://visionmarketing.e3marketing.fr/business3analytics/la3data3le3petrole3du3
numerique3de3demain_a39831730.html
http://lesclesdedemain.lemonde.fr/organisations/le-deluge-de-donnees-peut-il-
profiter-a-tous-_a-12-1696.html
http://www.france24.com/fr/20140402-big-data-salon-paris-parcmetre-parkeon-
meteo-ericsson-sante-openhealth/
http://www.e)marketing.fr/Thematique/Data)IT)1004/Breves/Touchez)le)coeur)de)
cible))237284.htm
http://www.e)marketing.fr/Thematique/Retail)1002/GMS)10013/Breves/Une)mine)
data)petit)bout)papier)237147.htm
http://lesclesdedemain.lemonde.fr/sante/vers4un4big4data4europeen4de4la4sante_
a4114 3426.html>
http://www.redsen-consulting.com/2013/08/cas-dutilisation-big-data/
http://www.influencia.net/larevue/data/index.php?
http://tempsreel.nouvelobs.com/economie/20140417.OBS4360/pourquoi-la-big-data-
devient-un-tres-gros-business.html
http://bigdatainfo.fr/anticiper2les2tendances2de2demain2lapport2de2lanalyse2predic
tive2 aux2organisations2689=
91
http://bigdatainfo.fr/delivrer3la3bonne3information3au3bon3moment3de3la3maniere
3la3 plus3intuitive3possible3695:
http://www.e-marketing.fr/Thematique/Data-IT-1004/Big-Data-10021/Dossiers/big-
http://www.e)marketing.fr/Thematique/Data)IT)1004/Big)Data)10021/Breves/Big)
data)dans)connaissance)client) 231861.htm
http://bigdatainfo.fr/le2big2data2pour27047
http://bigdatainfo.fr/quels5sont5les5enjeux5du5big5data5pour5votre5entreprise5653
http://www.fredcavazza.net/2013/07/15/les-big-data-sont-le-meilleur-et-le-pire-
ennemi-de-votre-marque/
http://www.internetactu.net/2013/05/14/big-data-nouvelle-etape/
http://datascientists.info/hadoop-and-mpp/
http://www.cnil.fr/documentation/fiches-pratiques/fiche/article/ce-que-le-paquet-
telecom-change-pour-les-cookies/
http://www.journaldunet.com/solutions/systemes-reseaux/datawarehouse/
http://business.lesechos.fr/directions-numeriques/partenaire/big-data-super-size-my-
data-warehouse-57036.php
http://www.adamadiouf.com/2013/03/22/bigdata-vs-enterprise-data-warehouse/
https://www.recordedfuture.com/blog/
http://123opendata.com/blog/finance-big-data/
http://www.ehow.com/info_12245933_mpp-vs-smp-database.html
http://www.zdnet.fr/actualites/stephen-brobst-cto-de-teradata-le-big-data-n-est-pas-
une-rupture-39772633.htm
http://www.itpro.fr/a/frontieres-smp-mpp/
http://www.lemondeinformatique.fr/actualites/lire-le-taux-d-attrition-des-fai-devoile-
par-erreur-31018-page-1.html
https://www.privacyinternational.org/
http://www.bigdata-startups.com/BigData-startup/big-data-improve-education-
infographic/
92
Conférences
Keynote - le Big Data, nouvel accélérateur de votre business, animée par Alexis
HELCMANOCKI, CEO de MobileTag Group, 12 juin 2013, Paris Porte de Versailles,
Time To Market
Atelier - Exploiter les datas clients, SAS, 8 avril 2014, salon e-Marketing Paris
93