Rapport BigData
Rapport BigData
Rapport BigData
net/publication/279848651
CITATIONS READS
0 13,405
1 author:
Abdesalam Amrane
Research Center on Scientific and Technical Information
8 PUBLICATIONS 2 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Tensor analysis on manifolds for 2D/3D Face Recognition and Kinship verification in the Wild. View project
All content following this page was uploaded by Abdesalam Amrane on 07 July 2015.
AMRANE Abdesalam
CERIST 2015
Sommaire
1. Introduction ..................................................................................................................................... 3
1.1. Origine du Big Data.................................................................................................................. 3
1.2. Définitions ............................................................................................................................... 3
1.3. Contexte du Big Data ............................................................................................................... 4
2. Cas d’usage du Big Data .................................................................................................................. 4
2.1. Transports................................................................................................................................ 4
2.2. Santé ........................................................................................................................................ 5
2.3. Economie ................................................................................................................................. 6
2.4. Recherche ................................................................................................................................ 6
3. Techniques d’analyse de données................................................................................................... 6
4. Big Data et Cloud ............................................................................................................................. 7
5. Big Data et Recherche d’Information .............................................................................................. 8
6. Mise en oeuvre du Big Data ............................................................................................................ 9
6.1. Introduction ............................................................................................................................. 9
6.2. Hadoop .................................................................................................................................... 9
6.3. Distributions de Hadoop ....................................................................................................... 10
7. Conclusion ..................................................................................................................................... 11
Bibliographie.......................................................................................................................................... 12
1. Introduction
Très rapidement, d’autres sociétés ont suivis le même chemin comme Amazon et Facebook.
Le Big Data est devenu une tendance incontournable pour beaucoup d’acteurs industriels du
fait de l’apport qu’il offre en qualité de stockage, traitement et d’analyse de données.
1.2. Définitions
Plusieurs définitions ont été données pour décrire le Big Data mais elles sont similaires et
renferment les mêmes concepts. Nous citons les principales qui sont :
- Gartner : Big Data is high volume, high velocity, and/or high variety information
assets that require new forms of processing to enable enhanced decision making,
insight discovery and process optimization [Beyer, 2012].
- Library of Congress : The definition of Big Data is very fluid, as it is a moving
target - what can be easily manipulated with common tools - and specific to the
organization: what can be managed and stewarded by any one institution in its
infrastructure. One researcher or organization’s concept of a large data set is small to
another [Johnston, 2011].
Le Big Data (données massives) se caractérise par la problématique des 3V qui sont le
Volume, la Variété et la Vélocité, certains auteurs ont rajoutés d’autres V comme la Valeur.
- Volume : désigne la masse de données collectées (giga-octets, téraoctets, …),
- Variété : désigne l'origine variée des sources de données qui sont soit structurées ou
non structurées (images, mails, tweets, données de géo-localisation,…),
- Vélocité : désigne la vitesse à laquelle les données sont traitées simultanément.
Ces caractéristiques sont aussi désignées par le concept de dimension. Certains experts
considèrent qu’à partir du moment où l’on est en présence de l’une des variables, on se
trouve dans un contexte Big Data1.
2.1. Transports
- Contrôle du trafic : exploitation de données de tous types (GPS, Radars, sondes, etc..)
afin de fluidifier le trafic et d’évaluer précisément le temps de transport d’un point à
un autre,
- Planification des voyages : mise à disposition du citoyen de données jusque là
réservées aux administrations (gagner du temps / réduire le coût),
- Systèmes de transport intelligents (ITS) : les applications des NTIC (Nouvelles
Technologies de l'Information et de la Communication) destinées au domaine des
transports. Parmi les thématiques d’actualité exposé durant le 20ème congrès mondial
des Systèmes de Transport Intelligents3 nous citons comme exemple: les véhicules
autonomes, les véhicules coopératifs et les systèmes de positionnement par satellite.
1
http://www.data-business.fr/wp-content/Downloads/LivresBlancs/Big-data-avis-dexperts.pdf
2
http://www.gfii.fr/uploads/docs/BigData_synth%C3%A8seVF.pdf
3
http://www.theissue.eu/upload/Media/Newsletter_7_FR/france-tokyo.pdf
Un exemple d’utilisation du Big Data pour la visualisation des données de transport en
temps réel, y compris les autobus, les voitures, les trains, vélos et avions de la ville de
Londres.
2.2. Santé
- Exploitation des données à des fins d’études épidémiologiques, un cas d’utilisation
est l’exemple du site « Openhelth.fr » qui affiche en temps réel des informations sur
la santé des Français et des cartes en rapport (épidémies, allergies…),
- Exploitation des données stockées depuis des années, jamais exploitées, qui
permettraient de comprendre des liens de cause à effet « legacy data »,
- Suivi des patients (dossier médical du patient).
2.3. Economie
- Connaissance des clients, actions personnalisées et ciblées, amélioration de la
satisfaction,
- Accélération des temps d’analyse des données clients pour l’identification des
comportements atypiques,
- Ciblage marketing (ex. micro segmentation).
- Analyse prédictive de l’acte d’achat.
2.4. Recherche
En TALN, deux approches coexistent : les technologies « speech-to-text » (transcription automatique de
discours livrés sous forme orale) et les technologies de « machine translation » (traduction automatique de
discours écrits) [GFII, 2012].
Dans le domaine de l’Image Processing (traitement automatique de l’image), deux secteurs émergent :
l’indexation automatique de flux d’images et de fichiers vidéo, de la reconnaissance faciale et de la
reconnaissance d’objets [GFII, 2012].
- Les méthodes prescriptive visent à identifier et anticiper les actions /décisions les plus
optimales à prendre pour arriver à la situation voulue [Gaultier, 2015].
La relation entre Big Data et Cloud peut s’articuler sur l’utilisation conjointe de ces deux
technologies. Est ce que c’est vraiment nécessaire d’avoir une infrastructure Cloud pour faire
fonctionner une plateforme Big Data ? Si oui est ce que les solutions Big Data fonctionneront
sur le Cloud ?
On peut facilement faire du Big Data sans Cloud. Dans les travaux de Radu Tudoran
[Tudoran, 2014] il donne une réponse à notre question par : « Un aspect particulier complexe
et difficile de la gestion des données pour les applications Big Data est la manipulation des
données à travers de vastes zones et / ou à travers les data centers. Il présente aussi les
principales raisons pour lesquelles les applications ont besoin de distribuer géographiquement
le calcul sur le Cloud, qui sont les suivantes :
- La taille des données peut être si grande que les données doivent être stockées sur
plusieurs data centers.
- Les sources de données peuvent être distribuées physiquement dans des lieux
géographiques larges.
- La nature de l'analyse, ce qui nécessite l'agrégation des flux de données à partir des
instances d'applications distantes pour un nombre croissant de services. Services à
grande échelle, comme les moteurs de recherche ou des outils de bureau en ligne
fonctionnent sur des dizaines de data centers partout dans le monde.
Le Big Data et le Cloud doivent être deux à deux complémentaires. Le Big Data doit être
intégré dans les technologies du Cloud. C’est un objectif qui pose de nouveaux défis aux
chercheurs.
Les bases de données NoSQL les plus connus sont regroupées en quatre catégories :
6.2. Hadoop
Hadoop est un projet open source de la fondation Apache qui est constitué de plusieurs
composants (HDFS,MapReduce, Hive, …) , la figure suivante décrit les différents
composants du Framework :
- Hive, fournit un langage de haut niveau semblable a SQL, appelé HQL, pour
interagir avec un cluster hadoop, dans le but réaliser des analyses sur une masse
importante de données.
- Hbase, une base de données distribuée disposant d’un stockage structuré pour les
grandes tables. Hbase est une base de données orientée colonnes, elle fait partie des
BD NoSQL (Not only SQL).
- Pig, un système de traitement de gros volumes de données en utilisant la plateforme
Hadoop MapReduce, Il fournit les opérations de filtrage, jointure et classement des
données (conçu spécialement pour l’analyse de données).
Hadoop est notamment distribuée par quatre acteurs qui proposent des services de
formation et un support commercial, mais également des fonctions supplémentaires4 :
Cloudera2 : Première distribution historique d’Hadoop intégrant les packages
classiques et certains développements propriétaires comme Impala (en). Service de
formation et de support. À l’origine du Projet Impala. Pas présent en France en 2013.
Hortonworks : Est une société qui développe, distribue et effectue le support d’une
distribution open source d’Apache Hadoop.
MapR Technologies : MapR a développé un système de fichier pour Hadoop palliant
les limites du HDFS. MapR a également développé des technologies permettant la
4
http://fr.wikipedia.org/wiki/Hadoop
suppression du name node qui est un point de contentions dans l’architecture Hadoop.
Un cluster Hadoop MapR est donc hautement disponible et permet également d’être
intégré dans les politiques de sauvegarde des données des entreprises. Un cluster
MapR est vu sur le réseau des clients comme un NAS partageant les données en NFS
avec des droits POSIX. À l’origine du projet Drill. Ouverture des activités
européennes en janvier 2013. Bureau Français depuis mars 2013.
IBM BigInsights for Hadoop : 100% open source Apache Hadoop, qui propose des
extensions analytiques et d’intégration dans le SI d’entreprise. Disponible en France
depuis 2010.
7. Conclusion
A ce stade on peut dire que le Big Data est un écosystème large et complexe. Il
nécessite la maitrise des technologies matérielles et logicielles diverses (stockage,
parallélisation des traitements, virtualisation, …). Le Big Data demande de la compétence et
de l’expertise dans la maitrise et l’analyse des données.
Les usages du Big Data sont très vastes qui touchent presque tous les secteurs d’activités
(marketing, recherche, visualisation, …). Dans le domaine du transport, nous citons comme
exemple le forum international du transport5 traite la problématique « Données massives dans
les transports : applications, implications et limites », ils essayent de répondre à certaines
questions relatives à l’utilisation du Big Data par les gouvernements dans le domaine du
transport urbain.
5
http://2014.internationaltransportforum.org/fr/big-data
Bibliographie
[Beyer, 2012] M. A. Beyer and D. Laney, « The importance of big data: A
definition», Stamford, CT: Gartner, 2012.
[Gaultier, 2015] D. Gaultier, « Data Science & Big Data – Etat de l’art », 2015.
[GFII, 2012] Groupement Français de l’Industrie de l’Information, « Dossier de
synthèse de la journée d’étude du GFII », Maison de l’Europe, Paris,
2012.
[Johnston, 2011] L. Johnston, « Data is the New Black », Library of Congress, 2011.
[Mavaluru, 2014] D. Mavaluru, R. Shriram, V. Sugumaran, « Big Data Analytics in
Information Retrieval: Promise and Potential », Proceedings of 0 8 th
IRF International Conference, 05 th July – 2014.
[Plale, 2013] B. Plale, « Big data opportunities and challenges for IR, text mining
and NLP », In Proceedings of the 2013 international workshop on
Mining unstructured big data using natural language processing
ACM, New York, NY, USA, 2013.
[Tudoran, 2014] R. Tudoran, « High-Performance Big Data Management Across
Cloud Data Centers », Computer science. ENS Rennes, 2014.
[Tuffery, 2014] S. Tuffery, « Cours de Data Mining », université de Rennes 1, 2014.