1. Introducción al Big Data
1. Introducción al Big Data
1. Introducción al Big Data
Fundamentals
El término sin embargo es bastante más amplio, y engloba no solo los datos, si no
también las técnicas que nos permiten procesarlo y extraer información útil,
conocimiento, conclusiones… de ese conjunto de datos heterogéneo.
2. Necesidad
Desde hace años, hemos visto un incremento en los datos que generamos de manera
exponencial, debido a varios motivos:
Más personas con acceso a internet, y cambio cultural que influye en los
comportamientos de compartición de información personal, fotografías, etc.
Sin embargo, nuestra capacidad de entender esos datos es la misma, los humanos no
estamos incrementando nuestra inteligencia a la misma velocidad. Necesitamos
herramientas que nos permitan explotar los datos.
Conclusión:
Cada vez generamos, almacenamos y transmitimos más datos, pero no somos capaces
de procesarlos con la misma eficiencia, necesitamos nuevas técnicas o estrategias de
procesamiento para los nuevos volúmenes de datos con los que debemos trabajar: las
conocidas como “técnicas Big Data”.
Este conjuno de datos se suele caracterizar por las llamadas V’s del Big Data, que
reflejan esa heterogeneidad, complejidad y volumen de datos a manejar.
Según el autor o la fuente, podemos encontrar 3, 4, o hasta 17 V’s del Big Data. Las
más importantes son:
• Volumen
• Velocidad
• Veracidad
• Valor
Las fases de un proceso de análisis de datos de este tipo, suelen ser las siguientes:
• Identificación de datos:
• Extracción de información:
• Limpieza de datos:
• Transformación de datos:
Junto a las fases de extracción y limpieza, las tres fases es lo que se conoce
como etapa “ETL”
• Analítica de datos:
• Visualización de resultados:
• Toma de decisiones:
La solución que teníamos hasta ahora para esto era “añadir más madera”: servidores
más potentes que pudieran abarcar el nuevo volumen de datos. Es lo que conocemos
como escalado vertical.
Pero esta solución tiene límites. Primero, de costes, estas nuevas máquinas cada X
tiempo suponen un desembolso muy importante. Y segundo, esta solución no es
suficiente.
Necesitamos otra manera de escalar. Otra forma de mejorar nuestros entornos para
que sean capaces de capturar, procesar y analizar estos datos.
Estas máquinas más pequeñas son mucho más asequibles, y esta solución nos permite
continuar dando uso a las máquinas antiguas, como parte del mismo cluster.
• Una máquina o nodo central organiza todo este proceso para que no se pierda
información y se realicen los cálculos correctos y en el orden necesario.
• Existe algún tipo de gestión de errores: ¿qué ocurre si una máquina falla? No
deberíamos perder datos.
• Procesado batch:
Estos nuevos requisitos tanto de las características de los datos manejados como los
requisitos de procesamiento hacen necesarias nuevas formas de almacenar la
información:
• Azure: BlobStorage
• …
Las bases de datos tradicionales (SQL) no satisfacen los nuevos requisitos ya descritos,
por varios motivos:
Surge un movimiento para diseñar nuevas bases de datos con la idea de que, lo mismo
que hay lenguajes de programación distintos, se necesitan soluciones de
almacenamiento alternativas que pudieran proporcionar las características que hemos
detectado como necesarias para hacer frente a esta tormenta de datos:
6. Suma de áreas
Como hemos visto, en Big Data intervienen muchos perfiles y áreas de conocimiento,
tanto en los cambios tecnológicos que se necesitan, como en las fases de un proyecto
Big Data
Realiza las primeras etapas del procesado de la información, como las ETLs
(extracción-limpieza-transformación), homogenización y modelado de la información,
procesados, agregados, etc.
Todas estas áreas, junto a los cambios tecnológicos, se combinan para posibilitar que
procesemos los volúmenes de datos que ahora disponemos y abren de par de par
puertas hacia casos de uso nuevos, negocios por descubrir, y muchísimo valor para
empresas y usuarios.