Ecosistema Hadoop v1

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 3

Desde hace algunos años, los datos en grandes volúmenes nos han estado acompañando

desde el celular hasta en la oficina, pues siempre están presentes para tomar la mejor decisión

según se necesite. Los datos vienen acompañados de grandes herramientas como el famoso Big

Data compuesto por las cinco V´s (volumen, velocidad, variedad, veracidad y valor) y una de las

mejores herramientas y más utilizadas es Hadoop.

Años atrás, exactamente en el 2004 Google publicó un artículo describiendo la

problemática para indexar la web y propuso una solución basada en un sistema de ficheros (GFS)

en un modelo de programación MapReduce y Doug Cutting vió el potencial de la solución y en

el 2005 Yahoo lanzó una implementación llamada Hadoop.

Hadoop es desarrollado y mantenido por The Apache Software Foundation y tiene

algunos objetivos como la escalabilidad como la capacidad de almacenar grandes volúmenes de

datos, la tolerancia a fallos como la capacidad de recuperarse de errores de software, tipos de

datos como la capacidad de gestionar datos de diferentes tipos, un entorno compartido como la

capacidad de gestionar múltiples tareas de forma simultánea y su objetivo final es aportar valor

para la extracción de los datos.

Hadoop es un ecosistema que incluye un conjunto de herramientas y aplicaciones para

alcanzar sus objetivos (nombrados anteriormente). Sus aplicaciones se pueden organizar en un

diagrama de capas que representan distintas interfaces, desde el almacenamiento a lenguajes de

alto nivel. Hadoop no es un proyecto Opensource independiente. Es más bien un complejo

ecosistema de proyectos muy diversos que trabajan a la par. Su Ecosistema se encuentra en la

siguiente imagen:
Ambari: facilita la gestión con una interfaz intuitiva y proporciona una API basada en REST

para desarrolladores, librería de funciones a la que se accede a través de direcciones web o

URLs.

HBase: base de datos de Hadoop, útil para escrituras y lecturas en tiempo real y acceso aleatorio

de los datos.

Hive: sistema de Data Warehouse para la consulta de datos con un lenguaje llamado HiveQL,

similar al SQL.

Sqoop: herramienta para estraer datos de sistemas de almacenamiento estructurado e importarlos

para su posterior procesamiento.

Pig: permite focalizar en el análisis de datos, sin tener que centrarse en la creación de

programas. Desarrolado inicialmente por Yahoo.

ZooKeeper: servicio de coordinación de alto rendimiento con infraestructura centralizada que

ofrece servicios como sincronización o naming, con una interfaz simple.

NoSQL: almacenes de datos que facilita la gestión y análsisis de datos no estructurados, y

dispone de herramientas como DataStax como Monto DB.


Mahout: librería de software que construye bibliotecas escalables de aprendizaje automático y

data minig.

Lucene: librería para buscar textos planos y encontrarlos mediante cualquier criterio de

búsqueda.

Avro: sistema de serialización de datos para procesarlos y almacenarlos con el fin de leerlos

fácilmente desde distintos lenguajes de programación.

Flume: sistema distribuido que simplifica el proceso de recolectar los datos para poder

almacenarlos en Hadoop, analizarlos, moviéndolos hasta un repositorio central.

Herramientas GIS: facilita el trabajo en clústers con mapas geográficos para su mejor

comprensión a la hora de su ejecución en Hadoop.

Spark: sistema que procesa los datos a una velocidad superior a MapReduce en tiempo real y

también puede implementarse de forma independiente.

También podría gustarte