Big Data Chap 1 - Introduction
Big Data Chap 1 - Introduction
Big Data Chap 1 - Introduction
Chapitre 1
introduction au Big Data
• Principes Hadoop
• Écosystème Hadoop
4
Challenges
• Réunir un grand volume de données variées pour trouver de
nouvelles idées.
5
Approches traditionnelles
• Appropriées pour:
6
Approche Big Data vs
Approche Traditionnelle
7
Approche Big Data vs
Approche Traditionnelle
8
Bases de données et SGBDR
• Une base de données est un ensemble d'informations qui est
organisé dans des tables de manière à être facilement
accessible, géré et mis à jour.
• SGBDR: Un système de gestion de bases de données
relationnelles est un logiciel permettant de partager et gérer
des informations et de les stocker dans une base de données.
9
SGBDR: ACID
• Les concepts de base des SGBDR
• Atomicité: une transaction s’effectue entièrement ou pas du tout
• Cohérence: le contenu d’une base doit être cohérent au début et
à la fin d’une transaction (mais pas forcément durant son
exécution)
• Isolation: les modifications d’une transaction ne sont
visibles/modifiables que quand celle-ci est validée
• Durabilité: une fois la transaction validée, l’état de la base est
permanent
• Fonctionnalités
• Jointures entre les tables
• Construction de requêtes complexes
10
• Contraintes d’intégrité solides
SGBDR: limitations
• Les SGBD relationnels montrent leurs limites avec de très hauts
débits de données de types incompatibles avec les schémas rigides
du modèle relationnel.
• Limites dans le contexte distribué: comment
distribuer/partitionner les données
• Liens entre entités -> Même serveur
• Mais plus on a de liens, plus le placement des données est complexe
• Contraintes ACID très complexes à assurer (techniques de
verrouillages distribués par exemple)
• Incompatible avec les performances
• Limites dans le contexte du quantité et débit de données:
• incapacité à gérer de très grands volumes de données à des débits
extrêmes 11
• certains types de données ne sont pas adaptés
Entrepôts de données (data
warehouse)
• Un entrepôt de données Un entrepôt de données est une base de données
regroupant une partie ou l'ensemble des données fonctionnelles d'une
entreprise. Il entre dans le cadre de l'informatique décisionnelle ; son but
est de fournir un ensemble de données servant de référence unique,
utilisée pour la prise de décisions dans l'entreprise par le biais de
statistiques et de rapports réalisés via des outils de reporting.
12
Entrepôts de données: limites
• L’entrepôt de données ne permet pas de gérer:
• Le volume: les entrepôts sont conçus pour gérer des Go ou To de
données alors que la croissance exponentielle des données nous
conduit aux Po ou Eo
• Le type (variety): plusieurs types de données: les données
textuelles semi ou non structurées,
• La vitesse (velocity): les données sont créées de plus en plus vite
et nécessitent des traitements en temps-réel
13
ACID vs BASE
• Systèmes distribués modernes assurent le modèle BASE
• Basically Available : une disponibilité face à une grande quantité de
requêtes
• Soft-state : l’état du système peut changer au cours du temps même sans
nouveaux inputs (cela est du au modèle de consistence).
• Eventually consistent : tous les réplicas atteignent le même état, et le
système devient à un moment consistant, si on stoppe les inputs.
CAP
Consistency
(consistance/cohérence)
Ex: BD relationnelles
Ex: BD relationnelles CP CA normalisées
distribuées centralisée
14
Partition tolerance Availability
AP
(distribution) (disponibilité)
Ex: Bases de données NoSQL
Big Data
BIG DATA
15
Big Data
• L’explosion quantitative des données numériques a obligé les
chercheurs à trouver de nouvelles manières de voir et d’analyser le
monde. Il s’agit de découvrir de nouveaux ordres de grandeur
concernant la capture, la recherche, le partage, le stockage,
l’analyse et la présentation des données.
• Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de
stocker un nombre indicible d’informations sur une base numérique.
• Big Data est née suite à l’évolution des technologies de gestion de
données.
• Le Big Data désigne toute quantité volumineuse de données
structurées, semi-structurées et non structurées qui a le potentiel
d'être exploité pour obtenir des informations. Les données
deviennent Big data lorsqu'elles sont difficiles à traiter à l'aide des
techniques traditionnelles.
• Big Data est la capacité de gérer un énorme volume de données, à la
bonne vitesse et dans les délais appropriés pour permettre une
analyse et une réaction en temps réel. 16
Caractéristiques des données
• Les volumes à gérer sont Hétérogènes et complexes :
• produites par des applications parfois différentes,
• par des utilisateurs différents,
• avec des liens explicites (par exemple citations, url, etc) ou
implicites (à extraire ou à apprendre).
• Nous avons besoin de nombreux serveurs :
• un serveur unique ne peut stocker cette quantité d'information,
garantir des temps d'accès pour grand nombre d'utilisateur, faire
des calculs rapides, etc.
Besoin de distribuer les calculs et les données
• comme nous avons plusieurs serveurs/clusters, donc on a besoin
d'algorithmes permettant le calcul et la distribution des données
17
à large échelle.
Modèles de données
18
Données structurées
• Modèle relationnel de données
• Une relation est une table avec des lignes et des colonnes
• Chaque relation a un schéma définissant les types de ses
colonnes
• Le schéma prédéfini est statique
19
Données semi-structurées:
fichier log
20
Données non-structurées
• Exemples:
• Post Facebook
• image Instagram
• vidéo
• Blog
• Article journal
• …
21
Caractéristiques du Big Data
Les 5V du Big Data
• Extraction d’informations et décisions à partir de données
caractérisées par les 5V:
• Variété (variety)
25
Vélocité ou Vitesse
• Rapidité d’arrivée des données
• Fait référence à l’aspect dynamique et/ou temporel des données, à
leur délai d’actualisation et d’analyse,
• les données ne sont plus traitées, analysées, en différé, mais en
temps réel ou quasi réel,
• elles sont produites en flots continus, sur lesquels des décisions en
temps réel peuvent être prises,
• Ce sont les données notamment issues de capteurs, nécessitant un
traitement rapide pour une réaction en temps réel,
• dans le cas de telles données de grande vélocité engendrant des
volumes très importants, il n’est plus possible de les stocker en l’état,
mais seulement de les analyser en flux (streaming) voire les résumer.
• Exemple
• Il ne suffit pas de savoir quel article un client a acheté ou réservé
• Il suffit de savoir que le client a passé 5mn à consulter un article dans
une boutique en ligne pour lui envoyer un email dès que cet article 26
est soldé.
Valeur
• Il faut transformer toutes les données en valeurs exploitables: les
données sans valeur sont inutiles.
• Atteindre des objectifs stratégiques de création de valeur pour les
clients et pour l’entreprise dans tous les domaines d’activité.
• Associé à l’usage qui peut être fait de ces mégadonnées, de leur
analyse, notamment d’un point de vue économique.
• L’analyse de ces mégadonnées demande une certaine expertise tant
liée à des méthodes et techniques en statistique, en analyse de
données, que de domaine pour l’interprétation de ces analyses.
31
Les applications du Big Data
• Blue C.R.U.S.H. (Crime Reduction Utilizing Statistical History): est
un logiciel qui prélève et rassemble avec l’aide de caméras et des
forces de police un maximum de données sur les délits qui
surviennent dans un territoire.
• Il s’agit d’envoyer les policiers dans les « hot spots »; là où la
probabilité qu’un crime survienne est la plus élevée, et ainsi arrêter
un délit avant qu’il ne se produise.
• Depuis son lancement il y a 7 ans,
• le nombre de meurtres et de cambriolages a diminué de 36% à Memphis.
• Le vol de véhicules motorisés a chuté de 55% !
• Départment de la santé et services de l’humanité.
• Améliorer l'utilisation de l'imagerie dans les recherche sur le cancer
• Département d’énergie : permettre d'obtenir des observations
32
précises des phénomènes atmosphériques.
Cycle de vie des Big Data
Génération
Utilisation Stockage
Analyse 33