Projet Hadoop

HADO
OP
Travail réalisé par : Meriem Guibene
Amel Chayeb
Takwa Ben Rekaya
Classe : 3IoT 1 , TP1
Plan
Les Eléments de
01 Introduction 02 base de Hadoop
Comment la
03
L’écosystème de
Hadoop
04 réplication se
passe?
Hadoop VS
05 Avantages
06 mongodb
1.Introducti
on
Définition :
Hadoop est un framework Java open source

utilisé pour le stockage et traitement des
big data.
Les données sont stockées sur des serveurs
standard peu coûteux configurés en
clusters.
Le système de fichiers distribué Hadoop
supporte des fonctionnalités de traitement
concurrent et de tolérance aux incidents
Hadoop améliore les bases de données traditionnelles
Il résout deux défis importants :
1. Capacité :
Hadoop peut stocker de gros volumes de données.
Dans son système de fichiers distribué HDFS (Hadoop
Distributed File System), les données sont divisées en
datasets de taille réduite et enregistrées sur des clusters
de serveurs standard.
2. Vitesse :
Avec Hadoop, vous pouvez stocker et récupérer les
données plus rapidement.
Hadoop utilise le
modèle de programmation fonctionnelle MapReduce
pour exécuter un traitement parallèle entre les datasets.
Lorsqu'une requête est transmise à la base de données,
les jobs dans cette requête ne sont pas traités
séquentiellement, mais répartis et exécutés
simultanément sur différents serveurs.
les résultats des différents jobs sont regroupés et
renvoyés à l'application, ce qui améliore la vitesse de
traitement.
2.L’écosystè
me logiciel
Hadoop n'est pas seulement une application, c'est surtout une plate-
forme dont les différents éléments intégrés permettent le stockage
et traitement de données distribuées. L'ensemble de ces éléments
forme l'« écosystème » de Hadoop.
L'écosystème Hadoop comporte des éléments de base indispensables

au framework, d'autres sont des éléments complémentaires qui
ajoutent des fonctionnalités.
l’écosystème Hadoop est composé d’une centaines de technologies que nous avons
choisis de regrouper en 14 catégories selon leur segment de problématique :
Hive – Data warehousing
• Hive est un système de data warehousing qui
La configuration de base de permet d'interroger les gros datasets présents
l’écosystème Hadoop contient dans le HDFS,
les technologies suivantes : • Hive utilise la langage HQL (Hive Query Language)
Spark, Hive, PIG, HBase, Sqoop, • L'un des avantages de Hive est que l'interface
Storm, ZooKeeper, Oozie et entre l'application et le HDFS est assurée par un
Kafka. pilote JDBC/ODBC. Ce pilote affiche le système de
fichiers Hadoop sous forme de tables et convertit le
HQL en travaux MapReduce (et vice-versa).
Flume – Importation des big data

Pig – Réduire les fonctions • Flume est un outil spécialisé dans
MapReduce l'importation des big data et qui agit comme
• Pig, développé initialement par Yahoo!, un « messager » entre différentes sources
est semblable à Hive : il élimine la de données et le HDFS.
nécessité de créer des fonctions • Il peut collecter, agréger et transmettre en
MapReduce pour interroger le HDFS. streaming vers le HDFS des volumes
considérables de données par des
applications IoT
Sqoop – Importation de données Zookeeper – Coordination des
dans les bases relationnelles applications distribuées
• Sqoop est (comme Flume )un outil pour • Zookeeper est un service qui coordonne
l'importation des données. les applications distribuées.
• Alors que Flume travaille sur des • Ses principales fonctionnalités de sont les
données non structurées ou semi- suivantes :
structurées, Sqoop est utilisé pour
importer ces données dans Hadoop pour  Gestion des informations de configuration
que les analystes puissent les examiner.  Service de nommage
 Service de synchronisation
 Élection d'un leader
Kafka – Transferts de données HBase – Base de données non

relationnelles
• Kafka est un système distribué de
communication inter-processus de • HBase est une base de données non
type publication-abonnement relationnelles en colonnes qui s'installe en
(publish-subscribe) qui est souvent surcouche du HDFS.
utilisé avec Hadoop pour accélérer les
transferts de données.
2 . Les Eléments de base de
Hadoop
YARN est l'abréviation de «Yet Another Resource Negotiator »
Cet élément assure la gestion et planification des ressources (clusters) Hadoop
et décide de ce qui doit se passer dans chaque nœud de données.
Le nœud maître central qui gère toutes les demandes de traitement est le «
Resource Manager ».
Le Resource Manager interagit avec les différents Node Managers : chaque
DataNode esclave possède son propre Node Manager pour l'exécution des
tâches.
MapReduce est un modèle de programmation qui a d'abord été utilisé
par Google pour indexer ses opérations de recherche.
cet élément exécute des algorithmes pour décomposer des données en
datasets plus petits.
MapReduce s'appuie sur deux fonctions : Map() et Reduce(), qui analysent
les données rapidement et efficacement.
La fonction Map : regroupe, filtre et trie plusieurs datasets en parallèle et génère
des tuples (paires key value).
La fonction Reduce : agrège ensuite les données de ces tuples pour produire le
résultat souhaité.
HDFS (Hadoop Distributed File System) est le système de fichiers

distribué et l'élément central de Hadoop permettant de stocker et
répliquer des données sur plusieurs serveurs.
3.Réplication des
données
HDFS est basé sur une architecture de type master/slave. Un
cluster HDFS est constitué de :
• Un unique NameNode : est un service central (appelé
aussi maître) qui s'occupe de gérer l'état du système de
fichiers.
• Un ou plusieurs DataNodes : un nœud esclave du système
de fichiers distribué Hadoop qui stocke les données réelles
conformément aux instructions du NameNode.
HDFS est conçu de sorte à stocker de fichiers de grande taille
dans un cluster.
HDFS sépare chaque fichier en une séquence de blocs.
Le NameNode reçoit régulièrement des notifications de ses
DataNodes :
• Un "HeartBeat", pour s'assurer du fonctionnement correct
du DataNode.
• Un "BlockReport", pour savoir la liste de blocs présents
dans le DataNode émetteur.
5.Avantage
s
• Permet l’analyse de pétaoctets de data très rapidement grâce à son modèle
de calcul pertinent basé sur les nœuds de serveurs. Plus le nombre de
nœuds est important, plus le traitement de vos données est d’ailleurs
optimisé.
• Permet d’ajouter des nœuds supplémentaires pour stocker davantage de
données si le besoin s’en fait sentir (Scalabilité horizontale).
• Bien qu’il arrive que les données d’un nœud soient inaccessibles pour une
raison ou une autre, il ira puiser de l’information dans les autres nœuds où
la donnée a été stockée.
• Il ne requiert aucun financement.
• Disponibilité des données en cas de panne.
• Profiter de la localité des données lors de l’exécution d’une tâche d’un job
MapReduce.
6.HADOOP VS
MONGODB
- Points en commun :
Hadoop et mongoDB sont open source et évolutifs.
- Différence :
Une différence principale entre MongoDB et Hadoop est que
MongoDB est en fait une base de données, tandis que Hadoop
est une collection de différents composants logiciels qui créent
un cadre de traitement de données.
Merci pour votre
attention !

Projet Hadoop

Transféré par

Droits d'auteur :

Formats disponibles

Projet Hadoop

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projet Hadoop

Transféré par

Droits d'auteur :

Formats disponibles

HADO

Hadoop est un framework Java open source

L'écosystème Hadoop comporte des éléments de base indispensables

Flume – Importation des big data

Kafka – Transferts de données HBase – Base de données non

HDFS (Hadoop Distributed File System) est le système de fichiers

Vous aimerez peut-être aussi