968-Texto Del Artículo-9010-1-10-20210409
968-Texto Del Artículo-9010-1-10-20210409
968-Texto Del Artículo-9010-1-10-20210409
Keywords: cluster, raspberry pi version 3, parallel programming, big data, hadoop version 2.7, distributive
programming, educational cluster.
el procesamiento de los datos con MapReduce es nece- Para empezar a usar los servicios de Hadoop. Se eje-
sario que los archivos de texto se encuentren almacenados cutan antes algunos scripts: El script shell start-dfs.sh y
de manera distribuida. Este hecho es posible con HDFS. start-yarn.sh.
HDFS ha sido diseñado para ejecutarse sobre clústeres
de computadores.
En el uso de Hadoop para ejecutar aplicaciones
MapReduce, hay terminologı́as claves usadas en la tec-
nologı́a que debemos entender: Namenode(nodo mae-
stro) y Datanode(en el clúster se usa HDFS para alma-
cenar datos replicados).
2.2.3 YARN
Figure 5. Ejecución de script start-dfs.sh.
Mejora la potencia de un Hadoop Cluster. Suministra
gran escabilidad. La potencia de procesamiento y centros
de datos continua creciendo rápidamente porque YARN
research manager se enfoca exclusivamente en la calen-
darización. Puede gestionar aquellos enormes clústeres
rápidamente y fácilmente. YARN es completamente
compatible con MapReduce, para el seteo de MapReduce
daemons. Desde que estamos ejecutando MapReduce us-
ando YARN, el MapReduce jobtracker y tasktrackers son
reemplazados con un único resource manager corriendo Figure 6. Ejecución de script start-yarn.sh.
sobre el namenode.
6 Trabajo Futuro
Como una continuidad de este trabajo se instalará en
Figure 12. Visualización de los nodos activos. un futuro cercano Hadoop 2.7.2 en un Clúster multinodo
basado en varias placas Raspberry pi 3 u otro tipo de
placa de mejores caracterı́sticas.
7 Agradecimientos
4 Análisis de tiempos Agradecemos a Dios, a la UNI y a la Facultad de Cien-
cias.
comparativo de Clústeres
Empezamos ante con una visualización de las especifi- 8 Apéndice
caciones de las máquinas involucradas en las compara-
ciones. 8.1 Instalación y configuración de
Hadoop 2.7.0 en un clúster de un
solo nodo
4.1 Especificaciones de máquinas
$ sudo apt-get update
La referencia en la tabla se dan las especificaciones de las
máqinas usadas. $ java -version
$ wget -c http://apache.mirrors.lucidnetworks.\
net/hadoop/common/hadoop-2.7.0/ \
4.2 Tabla de resultados de tiempos hadoop-2.7.0.tar.gz
</configuration>
$ update-alternatives --config java
$ sudo nano hdfs-site.xml
$ sudo nano ~/.bashrc
<configuration>
#Hadoop Variables <property>
export JAVA_HOME=/usr/lib/jvm/ \ <name>dfs.replication</name>
jdk-8-oracle-arm32-vfp-hflt <value>1</value>
export HADOOP_HOME=/usr/local/hadoop </property>
export PATH=$PATH:$HADOOP_HOME/bin <property>
export PATH=$PATH:$HADOOP_HOME/sbin <name>dfs.namenode.name.dir</name>
export HADOOP_MAPRED_HOME=$HADOOP_HOME <value>file:/usr/local/hadoop/hadoop_data \
export HADOOP_COMMON_HOME=$HADOOP_HOME /hdfs/namenode</value>
export HADOOP_HDFS_HOME=$HADOOP_HOME </property>
export YARN_HOME=$HADOOP_HOME <property>
export HADOOP_COMMON_LIB_NATIVE_DIR=\ <name>dfs.datanode.data.dir</name>
$HADOOP_HOME/lib/native <value>file:/usr/local/hadoop/hadoop_data \
export HADOOP_OPTS="-Djava.library.path= \ /hdfs/datanode</value>
$HADOOP_HOME/lib" </property>
</configuration>
$ source ~/.bashrc
$ cd
$ cd /usr/local/hadoop/etc/hadoop
$ mkdir -p /usr/local/hadoop/hadoop_data \
$ sudo nano hadoop-env.sh /hdfs/namenode
———————————————————————————————–
1. Dumitrel Loghin, Bogdan Marius Tudor, Hao Zhang, Hadoop cluster deployment on arm architecture. IJAR-
Beng Chin Ooi, Yong Meng Teo. A performance study CCE, Vol.4, 1, 2015.
of big data on small nodes. Proceedings of the VLDB
5. Shreyyas Vanarase, Tommy Mark. Distributed com-
Endowment, Vol. 8, No. 7, 2015.
puting systems with raspberry pi. Georgia Institute of
2. Nick Schot. Feasibility of raspberry pi 2 based micro Technology-CX 4140, 2014.
data centers in big data applications,23th Twente Stu-
6. Raspberry pi 2 hadoop 2 cluster.
dent Conference on IT, June, 2015,.
http://www.widriksson.com/raspberry-pi-2-hadoop
3. Cesar Martin Cruz Salazar. Medidas de rendimiento y -2-cluster/#Performance comparison to Raspberry
comparacion entre el cluster Cruz I y el cluster Cruz II. PI 1 Model B 512mb
REVCIUNI, 17(1):9–16, 8 2014.
7. Cesar Martin Cruz Salazar. Taller de big data y hadoop,
4. Vijayakumar S, Dr.M.Balamurugan, Ranjani K. Big data: UNI, 2015.