Bienvenue sur Scribd !

0% ont trouvé ce document utile (0 vote)

32 vues

Big Data: Marie NDIAYE

Transféré par

Le document décrit MapReduce et son implémentation dans Hadoop. MapReduce est un modèle de programmation pour le traitement de grandes quantités de données de manière parallèle et distribuée. Il repose sur les fonctions Map et Reduce. Hadoop implémente MapReduce avec un framework maître-esclave qui gère la distribution et le traitement parallèle des tâches.

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Big Data: Marie NDIAYE

Transféré par

Serigne Ndour

0% ont trouvé ce document utile (0 vote)

32 vues11 pages

Description originale:

Cours 3 big data

Titre original

C03

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Télécharger au format pdf ou txt

0% ont trouvé ce document utile (0 vote)

32 vues11 pages

Big Data: Marie NDIAYE

Transféré par

Serigne Ndour

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Télécharger au format pdf ou txt

Passer à la page

Vous êtes sur la page 1sur 11

Rechercher à l'intérieur du document

UFR Sciences et Technologies

Département Informatique
M2 Génie Logiciel
***

BIG DATA
2020-2021

Marie NDIAYE

1
MapReduce
HadoopMapReduce

2
MapReduce
• Jeffrey Dean and Sanjay Ghemawat, "Simplied Data Processing on
Large Clusters", Google, 2004
• "MapReduce est un modèle de programmation et une
implémentation associée pour le traitement et la génération de
grands ensembles de données".
 Permet de traiter de grosses volumes de données.
 Repose sur la distribution des calculs sur des centaines ou des milliers
d’ordinateurs pour finir dans un temps raisonnable.
 Constitue une abstraction sur la manière de paralléliser les calculs, de
distribuer les données, de traiter les pannes et de faire du load balancing
 l’utilisateur se concentre sur les calculs.

3
Les primitives Map et Reduce
• Présentes dans le LISP et dans d’autres langages fonctionnels.
• Le principe :
 L’utilisateur définit les fonctions Map et Reduce et le reste est géré par la
biliothèque MapReduce.
 La fonction Map
 Entrée : un couple (clé, valeur)
 Sorties : un ensemble de couples (clé, valeur) intermédiaires
 La bibliothèque MapReduce
 Regroupe les couples ayant la même clé créant ainsi des couples (clé, liste de valeurs)
 Passe les nouveaux couples à la fonction Reduce
 La fonction Reduce
 Entrée : un couple (clé, liste de valeurs)
 Fusionnes les valeurs pour obtenir un ensemble de valeurs éventuellement plus petit
 Sortie : une liste de valeurs

4
Exemple
• Algorithme :
Compter le nombre
d’occurrences de
chaque mot dans
un document.

5
Exemple : Exécution

Source : https://www.talend.com/fr/resources/what-is-mapreduce/ 6
Implémentation de MapReduce dans
Hadoop : Généralités
• Architecture maître-esclave.
• MapReduce s'intègre à HDFS pour offrir exactement les
mêmes avantages pour le traitement parallèle des données.
• Envoie des calculs où les données sont stockées sur des disques
locaux.
• Modèle ou framework de programmation pour le calcul
distribué.
• Il dissimule les tâches complexes de "gestion domestique" au
développeur que vous êtes.

7
Implémentation de MapReduce dans
Hadoop : Le frameworlk
• Le framework MapReduce se compose de :
 Un processus JobTracker maître par cluster qui est chargé de
planifier les tâches des composants des travaux sur les esclaves, de
les surveiller et de réexécuter les tâches qui ont échoué. Il reçoit
(du client) la ou les tâches MapReduce à exécuter(un .jar Java)
ainsi que les données d'entrée et le répertoire où stocker les
données de sortie. Il est pour cela en communication avec le
namenode d'HDFS.
 Un processus TaskTracker esclave par nœud de cluster qui
exécute les tâches demandées par le maître.

8
Implémentation de MapReduce dans
Hadoop : les fonctions
• Map
 Chaque tâche Map travaille généralement sur un seul bloc HDFS
(répartition des entrées).-
 Les tâches Map s'exécutent sur les nœuds esclaves du cluster où le bloc de
données HDFS est stocké (localité des données).
 L'entrée présentée à la tâche Map est une paire clé-valeur.

• Shuffle and Sort

 Trie et consolide les données de sortie intermédiaires de tous les mappeurs
terminés de la phase Map.

• Reduce
 Les données intermédiaires de la phase Shuffle and Sort constituent
l'entrée de la phase Reduce.
 La fonction Reduce génère la sortie finale.

9
Exemple : Comptage de mots

Source : https://www.thegeekdiary.com/understanding-the-hadoop-mapreduce-framework/ 10
Références
• https://www.thegeekdiary.com/understanding-the-hadoop-
mapreduce-framework/
• https://www.geeksforgeeks.org/mapreduce-architecture/
• https://www.talend.com/fr/resources/what-is-mapreduce/
• https://www.piloter.org/business-intelligence/map-reduce.htm
• https://www.lebigdata.fr/mapreduce-tout-savoir

Vous aimerez peut-être aussi

Rapport: Bilan Des Résultats Du Premier Semestre
Document7 pages
Rapport: Bilan Des Résultats Du Premier Semestre
yassmine moustaid
Pas encore d'évaluation
Correction Examen Big Data 2020 2021 Session Normale
Document4 pages
Correction Examen Big Data 2020 2021 Session Normale
Nora Habrich
90% (10)
Cours Hadoop
Document56 pages
Cours Hadoop
Salah
Pas encore d'évaluation
Presentation Hadoop
Document27 pages
Presentation Hadoop
khadidja khadidja
Pas encore d'évaluation
No SQ L Avec Cassandra
Document7 pages
No SQ L Avec Cassandra
yugaselvan
Pas encore d'évaluation
Lab 3
Document15 pages
Lab 3
Maryâm Bôuch
Pas encore d'évaluation
Chapitre 5 Big Data
Document6 pages
Chapitre 5 Big Data
SYRINE SDIRI
Pas encore d'évaluation
(Big Data) CHAP3 - MapReduce
Document29 pages
(Big Data) CHAP3 - MapReduce
Mbarki Med Oussema
Pas encore d'évaluation
Hadoop Ecosystem
Document37 pages
Hadoop Ecosystem
hajar.filali4
Pas encore d'évaluation
CH 1
Document53 pages
CH 1
ya.latreche
Pas encore d'évaluation
CH 2 Hadoop
Document56 pages
CH 2 Hadoop
Rihane Farah
Pas encore d'évaluation
Cours1 2 Bigdata 1
Document93 pages
Cours1 2 Bigdata 1
mohamed aziz madhoun
Pas encore d'évaluation
MAPREDUCE
Document9 pages
MAPREDUCE
patrice mvogo
Pas encore d'évaluation
Cours 5 Map Reduce
Document10 pages
Cours 5 Map Reduce
jiji31zeboudji
Pas encore d'évaluation
Big Data - Part 2
Document33 pages
Big Data - Part 2
rahma.azzabi
Pas encore d'évaluation
Chap4 MapReduce
Document17 pages
Chap4 MapReduce
mootaz haddad
Pas encore d'évaluation
ch4 Mapreduce
Document16 pages
ch4 Mapreduce
Bedoui Mehdi
Pas encore d'évaluation
Chap3 Spark
Document29 pages
Chap3 Spark
Abdelhakim Traouli
Pas encore d'évaluation
Cours Intro Hadoop v27022014 Erraki Haddad
Document62 pages
Cours Intro Hadoop v27022014 Erraki Haddad
Zohra CHANNOUF
Pas encore d'évaluation
Examen_BDA_Corrigé_SR_2223
Document4 pages
Examen_BDA_Corrigé_SR_2223
hamza.mbarki
Pas encore d'évaluation
Résumé Big Data
Document6 pages
Résumé Big Data
El Moumne Nihal
100% (1)
Chapitre4 Archi Spark 4
Document31 pages
Chapitre4 Archi Spark 4
safia fezai
100% (1)
Spark
Document28 pages
Spark
hajar.filali4
Pas encore d'évaluation
Hadoop 1
Document61 pages
Hadoop 1
Mouhamed Bouazzi
Pas encore d'évaluation
Cours SPARK REDUIT V Impression (3450) - 1
Document138 pages
Cours SPARK REDUIT V Impression (3450) - 1
Mohamed Elamri
Pas encore d'évaluation
Ch2 (Part 1)
Document27 pages
Ch2 (Part 1)
ya.latreche
Pas encore d'évaluation
TP1 MR - Initiation
Document4 pages
TP1 MR - Initiation
Rabab Rabab
Pas encore d'évaluation
MP1 Big Data S4
Document39 pages
MP1 Big Data S4
Hammami Mélek
Pas encore d'évaluation
Présentation D'HADOOP
Document38 pages
Présentation D'HADOOP
Ferdinand Owona
Pas encore d'évaluation
chap4 mapreduce
Document35 pages
chap4 mapreduce
diddy
Pas encore d'évaluation
tp2 Designpatternsdanshadoop 140428050218 Phpapp02
Document6 pages
tp2 Designpatternsdanshadoop 140428050218 Phpapp02
chebinega
Pas encore d'évaluation
Apache Spark
Document16 pages
Apache Spark
MOHAMED ELRHAOUAT
Pas encore d'évaluation
Programmation Hadoop WordCount
Document18 pages
Programmation Hadoop WordCount
Hammami Mélek
Pas encore d'évaluation
Cours 3 Architecture - Big Data Map Reduce
Document59 pages
Cours 3 Architecture - Big Data Map Reduce
alaska8fouad
Pas encore d'évaluation
td01 Hadoop
Document6 pages
td01 Hadoop
aissamemi
Pas encore d'évaluation
Technologies Big Data: Zouhair Elamrani Abou Elassad
Document75 pages
Technologies Big Data: Zouhair Elamrani Abou Elassad
jon cina
Pas encore d'évaluation
Chap 01a - MapReduce
Document73 pages
Chap 01a - MapReduce
sidali Khelil cherfi
Pas encore d'évaluation
Spark
Document54 pages
Spark
Nora Habrich
Pas encore d'évaluation
Application2 - Initiation Spark PDF
Document7 pages
Application2 - Initiation Spark PDF
Administration IHET
Pas encore d'évaluation
Hadoop Bigdata ch2
Document65 pages
Hadoop Bigdata ch2
darellekengne2603
Pas encore d'évaluation
D3 Architecture Hadoop
Document6 pages
D3 Architecture Hadoop
MEHDI AIT BOUBKER
Pas encore d'évaluation
Projet Hadoop
Document17 pages
Projet Hadoop
rayenfazai11
Pas encore d'évaluation
Partie Hadoop Et Ecosystème
Document93 pages
Partie Hadoop Et Ecosystème
Safa '
Pas encore d'évaluation
Resume Big Data
Document9 pages
Resume Big Data
Khaoula RAZZAKI
100% (1)
Big Data Analytics
Document31 pages
Big Data Analytics
yasmine.boukadida
Pas encore d'évaluation
Big Data: Marie NDIAYE
Document16 pages
Big Data: Marie NDIAYE
Serigne Ndour
Pas encore d'évaluation
jjj
Document3 pages
jjj
adarrabamine1
Pas encore d'évaluation
data chapitre 5 à imprimer
Document11 pages
data chapitre 5 à imprimer
nouri aya
Pas encore d'évaluation
Bigdata
Document2 pages
Bigdata
asma.chaabouni345
Pas encore d'évaluation
Chapitre 2 - Système Pig de Hadoop - Oct 2023
Document22 pages
Chapitre 2 - Système Pig de Hadoop - Oct 2023
Khalid Harrati
Pas encore d'évaluation
Leçon - Hadoop MapReduce c3
Document16 pages
Leçon - Hadoop MapReduce c3
Hajri
Pas encore d'évaluation
Notes Diapo 4
Document4 pages
Notes Diapo 4
zakariae harime
Pas encore d'évaluation
Kien Thuc&Thanh Phan
Document7 pages
Kien Thuc&Thanh Phan
Tú Trần
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
Document28 pages
Chapitre2 Hadoop MapReduce
Amen Mhamdi
Pas encore d'évaluation
Chapitre2 Mapreduce Klai (1)
Document24 pages
Chapitre2 Mapreduce Klai (1)
diddy
Pas encore d'évaluation
chap5
Document28 pages
chap5
diddy
Pas encore d'évaluation
ilovepdf_merged (2)
Document23 pages
ilovepdf_merged (2)
pfe projet
Pas encore d'évaluation
Initiation à l'écosytème Hadoop
D'Everand
Initiation à l'écosytème Hadoop
Juvénal CHOKOGOUE
Évaluation : 5 sur 5 étoiles
5/5 (1)
Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
D'Everand
Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
Rémy Lentzner
Pas encore d'évaluation
Rendu de ligne de balayage: Explorer le réalisme visuel grâce aux techniques de rendu Scanline
D'Everand
Rendu de ligne de balayage: Explorer le réalisme visuel grâce aux techniques de rendu Scanline
Fouad Sabry
Pas encore d'évaluation
OpenOffice Base: La base de données pour tous
D'Everand
OpenOffice Base: La base de données pour tous
Remy Lentzner
Pas encore d'évaluation
Onctions Équations Exponentielles: MAT-5107-2 - V3.indd 1
Document84 pages
Onctions Équations Exponentielles: MAT-5107-2 - V3.indd 1
Paterne
Pas encore d'évaluation
La Programmation Neurolinguistique (PNL)
Document10 pages
La Programmation Neurolinguistique (PNL)
FrancisLila-senyLamah
Pas encore d'évaluation
Avis Concours Cycle D Ingenieur 2023 2024
Document1 page
Avis Concours Cycle D Ingenieur 2023 2024
Salah Eddine
Pas encore d'évaluation
Master 2 Gourvernance de Projets de Développement Durable Au Sud - 2024-205
Document19 pages
Master 2 Gourvernance de Projets de Développement Durable Au Sud - 2024-205
Roaa Waleed
Pas encore d'évaluation
183
Document6 pages
183
Mactears
100% (1)
9782340-021983 - 001 - 192.indd II 9782340-021983 - 001 - 192.indd II 10/11/17 11:57 10/11/17 11:57
Document15 pages
9782340-021983 - 001 - 192.indd II 9782340-021983 - 001 - 192.indd II 10/11/17 11:57 10/11/17 11:57
diopbabacar22024
Pas encore d'évaluation
612bcb6b80720sujet Corrige Et Bareme de Philosophie Bac A1 A2 2
Document12 pages
612bcb6b80720sujet Corrige Et Bareme de Philosophie Bac A1 A2 2
Djannat
Pas encore d'évaluation
Psychologie Generale
Document3 pages
Psychologie Generale
Lo Gui
Pas encore d'évaluation
Referentiel ANEAQ FR 2020
Document37 pages
Referentiel ANEAQ FR 2020
ourahay
Pas encore d'évaluation
Espc Inscription
Document2 pages
Espc Inscription
Jē Rōmē
Pas encore d'évaluation
0411 Punition Sanction
Document6 pages
0411 Punition Sanction
Hakim
Pas encore d'évaluation
Rendu Loisel 2010 These Doctorat
Document588 pages
Rendu Loisel 2010 These Doctorat
flanders_ned_
100% (1)
Projet de Thèse Sujet Ia
Document6 pages
Projet de Thèse Sujet Ia
Saif-eddine Zahid
Pas encore d'évaluation
Deep Learning
Document53 pages
Deep Learning
Smouni youssef
Pas encore d'évaluation
Lazzerini E - Jadidism in Turn of The Twentieth Century
Document35 pages
Lazzerini E - Jadidism in Turn of The Twentieth Century
Lou Jukić
Pas encore d'évaluation
Annuaire Diplômé (E) S M2 Qualité IMPGT V.2009
Document27 pages
Annuaire Diplômé (E) S M2 Qualité IMPGT V.2009
alilounahdiste
Pas encore d'évaluation
Xavier Nlate
Document3 pages
Xavier Nlate
Dimitri Tibati
Pas encore d'évaluation
Cours5 Installation de SQL Server
Document12 pages
Cours5 Installation de SQL Server
Amel ourahmoune
Pas encore d'évaluation