1. Introducción al Big Data

Big Data
Fundamentals
Introducción a Big Data

Big Data Fundamentals
Introducción al Big Data
Índice
1. Introducción al Big Data .......................................................... 3

2. Necesidad ........................................................................... 3
3. Características del Big Data ...................................................... 6
4. Nuevas técnicas: Procesamiento ................................................ 9
4.1. Escalado horizontal ..................................................................10
5. Nuevas técnicas: Almacenamiento ............................................ 12
5.1. Sistemas de ficheros distribuidos ..................................................12
5.2. Bases de datos NoSQL ...............................................................13
5.3. Nuevas técnicas: Arquitecturas ....................................................14
6. Suma de áreas .................................................................... 15
6.1. Ingeniería del dato ...................................................................16
6.2. Ciencia del dato ......................................................................16
6.3. Inteligencia de negocio..............................................................17
© Copyright Universidad Europea. Todos los derechos reservados. 2

1. Introducción al Big Data

En una primera definión, entendemos por Big Data un gran volumen de datos que
debido a su tamaño y complejidad, no pueden ser procesados por las técnicas
tradicionales de tratamiento de información.
El término sin embargo es bastante más amplio, y engloba no solo los datos, si no
también las técnicas que nos permiten procesarlo y extraer información útil,
conocimiento, conclusiones… de ese conjunto de datos heterogéneo.
2. Necesidad
Desde hace años, hemos visto un incremento en los datos que generamos de manera
exponencial, debido a varios motivos:
• Mejora en almacenamiento de datos:
Abaratamiento de la tecnología de almacenamiento (discos), incremento de la

capacidad…
• Aparición del IoT:
Incremento de sensores captando y generando información, aumento del

número de dispositivos conectados a internet.

• Digitalización de empresas y servicios
• Aparición de redes sociales y democratización de internet
Más personas con acceso a internet, y cambio cultural que influye en los
comportamientos de compartición de información personal, fotografías, etc.
La previsión es que esta tendencia se acentúe a medida que se implantan

definitivamente las tecnologías IoT, se digitalizan los servicios y empresas y los países
en vias de desarrollo se terminan de sumas a internet.
Sin embargo, nuestra capacidad de entender esos datos es la misma, los humanos no
estamos incrementando nuestra inteligencia a la misma velocidad. Necesitamos
herramientas que nos permitan explotar los datos.

Se une además la problemática de que las tecnologías relacionadas con la generación

y tratamiento de la información evolucionan a distinto ritmo:
• Por un lado, la capacidad de transmisión de datos sigue la que conocemos como

Gilder’s Law, que establece que cada 4 años, se multiplica por 32 la velocidad
de transmisión de datos.
• Por otro, la capacidad de almacenamiento sigue el patrón de multiplicar por

16 cada 4 años la capacidad de almacenamiento según el tamaño del disco. Es
decir, más capacidad y menos tamaño.
• Por último, la capacidad de procesamientos de datos, que sigue la famosa Ley

de Moore, establece que los procesadores multiplican por 5 cada 4 años el
número de transistores, y por tanto, su potencia.
Conclusión:
Cada vez generamos, almacenamos y transmitimos más datos, pero no somos capaces
de procesarlos con la misma eficiencia, necesitamos nuevas técnicas o estrategias de
procesamiento para los nuevos volúmenes de datos con los que debemos trabajar: las
conocidas como “técnicas Big Data”.

3. Características del Big Data

Desde el punto de vista de los datos, Big Data es toda aquella información que
necesitamos procesar, tratar, limpiar, analizar, agregar… con el objetivo de extraer
conocimiento de ellos.
Este conjuno de datos se suele caracterizar por las llamadas V’s del Big Data, que
reflejan esa heterogeneidad, complejidad y volumen de datos a manejar.
Según el autor o la fuente, podemos encontrar 3, 4, o hasta 17 V’s del Big Data. Las
más importantes son:
• Volumen
La característica más importante. Tamaño de los datos, con volúmenes

normalmente en los teras de información.
• Velocidad
Esa información se genera y fluye de manera muy rápida. Necesitamos tenerla

disponible y analizada casi en tiempo real. Para empresas que pueden utilizar
conclusiones extraidas de los datos, tenerlas cuanto antes puede significar una
ventaja competitiva respecto a sus competidores.

• Variedad
Los datos seguramente provengan de distintas fuentes: dispositivos IoT,

sistemas internos, en el caso de una empresa, la información que los propios
usuarios de internet envíamos por redes sociales, etc. Dependiendo de la
empresa o caso de uso, de hecho, existen infinitas fuentes de datos que pueden
tener mayor relevancia.
Estos datos tendrán formatos distintos, complejidades diferentes que

tendremos que tener en cuenta para nuestro análisis.
• Veracidad
Veracidad entendida en este contexto como la calidad de los datos. Tenemos

todos los datos, pero ¿podríamos estar pasando algo por alto? ¿Están los datos
"limpios" y correctos? ¿Tienen realmente algo que ofrecer?
• Valor
Esta característica se refiere a la posibilidad de que transformemos este

tsunami de datos en valor para el negocio.

Desde el punto de vista de las técnicas a utilizar, el Big Data es el conjunto de las
diferentes fases y tecnologías utilizadas durante el proceso completo de extracción,
procesamiento, limpieza, analítica, visualización… de la información.
Las fases de un proceso de análisis de datos de este tipo, suelen ser las siguientes:
• Identificación de datos:
Analizar información disponible, objetivos, diseñar soluciones, etc.
• Extracción de información:
De múltiples fuentes, formatos, volúmenes, periodicidades, etc.
• Limpieza de datos:
Unificar, eliminar datos erróneos, homogenizar información, etc.
• Transformación de datos:
Procesados necesarios, aplicación de lógica de negocio
Junto a las fases de extracción y limpieza, las tres fases es lo que se conoce
como etapa “ETL”

• Agregación de datos:
Resumir todo el volumen de datos en KPIs de interés
• Analítica de datos:
Aplicación de técnicas de predicción, recomendación, agrupación, modelado...
• Visualización de resultados:
Representación visual del conocimiento generado
• Toma de decisiones:
Acordes a las conclusiones extraídas
4. Nuevas técnicas: Procesamiento

Cada vez más datos, de mayor volumen, más complejos... requieren cada vez mejores
procesadores que sean capaces de procesar esta información.
La solución que teníamos hasta ahora para esto era “añadir más madera”: servidores
más potentes que pudieran abarcar el nuevo volumen de datos. Es lo que conocemos
como escalado vertical.
Pero esta solución tiene límites. Primero, de costes, estas nuevas máquinas cada X
tiempo suponen un desembolso muy importante. Y segundo, esta solución no es
suficiente.

Hemos visto que la velocidad a la que mejoran las técnicas de procesamiento es
inferior a la velocidad a la que aumentan los volúmenes de datos
4.1. Escalado horizontal
Necesitamos otra manera de escalar. Otra forma de mejorar nuestros entornos para
que sean capaces de capturar, procesar y analizar estos datos.
La solución propuesta es el escalado horizontal: en lugar de disponer de una única

máquina (cada vez más potente, pero que mejora a una velocidad muy lenta), se
disponen un conjunto de máquinas (menos potentes) pero interconectadas, de forma
que se reparten el trabajo a realizar (cluster).

Si se necesita más capacidad de procesamiento, simplemente se añaden más máquinas
al conjunto.
Estas máquinas más pequeñas son mucho más asequibles, y esta solución nos permite
continuar dando uso a las máquinas antiguas, como parte del mismo cluster.
Sin embargo, este nuevo sistema de incrementar la capacidad de procesamiento

mediante escalado horizontal requiere de nuevas formas de procesar la información:
• Los datos se agrupan y reparten a las distintas máquinas del cluster.
• Cada máquina procesa los datos que le corresponden.
• Se combinan los resultados de los distintos procesamientos parciales para

generar un resultado único al procesamiento solicitado.
• Una máquina o nodo central organiza todo este proceso para que no se pierda
información y se realicen los cálculos correctos y en el orden necesario.
• Existe algún tipo de gestión de errores: ¿qué ocurre si una máquina falla? No
deberíamos perder datos.

5. Nuevas técnicas: Almacenamiento

Otro de los retos a los que se enfrenta el Big Data es el de almacenar la información
manejada:
• Volumen de datos que ha crecido y crece exponencialmente
• Seguridad: Evitando pérdida de información. Replicación de datos entre los

nodos de los clusters.
• Velocidad de acceso a la información.
Según los requisitos de procesado y disponibilidad de la información, distinguimos dos

tipos de procesado:
• Procesado batch:
Procesos que suelen ejecutarse de manera periódica (1 vez al día, a la semana,

al mes...) a medida que los datos están disponibles.
• Procesado en tiempo real:
Disponibilidad continua de nuevos datos (por ejemplo, la recogida por sensores)

que necesitamos estar continuamente procesando para obtener conclusiones lo
antes posible.
Estos nuevos requisitos tanto de las características de los datos manejados como los
requisitos de procesamiento hacen necesarias nuevas formas de almacenar la
información:
5.1. Sistemas de ficheros distribuidos
Al igual que tenemos clusters de máquinas para procesar la información, también

disponemos de ellos para almacenar la información, en los llamados sistemas de
ficheros distribuidos.
Los datos se particionan en distintos ficheros que se almacenan en distintas máquinas

físicas, pero bajo la apariencia y gestión de un único sistema de ficheros, para que sea
casi transparente al usuario de los datos.
Existen varias tecnologías y servicios según el propietario:
• Ecosistema Hadoop: HDFS (Hadoop Distributed File System)
• Amazon Web Services: S3
• Azure: BlobStorage

• Google Cloud: Big Query
• …
5.2. Bases de datos NoSQL
Las bases de datos tradicionales (SQL) no satisfacen los nuevos requisitos ya descritos,
por varios motivos:
• Datos heterogéneos, voluminosos y desnormalizados que no casan con el modelo

relacional de tablas.
• Los servidores de bases de datos tradicionales están basados en escalado vertical

en vez horizontal, y ya hemos visto las limitaciones con los nuevos volúmenes de
datos.
• No están adaptadas al tipo de acceso, búsqueda, procesado... de las analíticas de

BigData
Surge un movimiento para diseñar nuevas bases de datos con la idea de que, lo mismo
que hay lenguajes de programación distintos, se necesitan soluciones de
almacenamiento alternativas que pudieran proporcionar las características que hemos
detectado como necesarias para hacer frente a esta tormenta de datos:
• Sistemas de almacenamiento de información que no cumplen con el esquema

entidad–relación.
• Manipulación de información no estructurada con alto rendimiento.

• BBDD basadas en ficheros.
• No hay estructura uniforme en todas ellas.
Las hay de muchos tipos, enfocadas en casos de uso concreto, maximizando el

funcionamiento según el tipo de datos, el objetivo que tengamos…
5.3. Nuevas técnicas: Arquitecturas
Como ya hemos comentado, tanto por requisitos de almacenamiento como de

procesamiento (debido a la nueva forma de escalado horizontal) hace falta disponer
de ecosistemas y sistemas nuevos para ejecutar este procesamiento de datos: las
arquitecturas distribuidas.
Un cluster de máquinas se convierte en elemento indispensable a la hora que

almacenar y ejecutar nuestros procesos y analíticas Big Data, orquestado por
frameworks de gestion de recursos como YARN o ejecución distribuida como HADOOP.

Esto es lo que ha provocado el auge de las arquitecturas y ecosistemas cloud, donde

delegamos la parte de infraestructuras a proveedores de servicios como Amazon (AWS),
Microsoft (Azure) o Google.
6. Suma de áreas
Como hemos visto, en Big Data intervienen muchos perfiles y áreas de conocimiento,
tanto en los cambios tecnológicos que se necesitan, como en las fases de un proyecto
Big Data

Las áreas más importantes que intervienen son:
6.1. Ingeniería del dato
Realiza las primeras etapas del procesado de la información, como las ETLs
(extracción-limpieza-transformación), homogenización y modelado de la información,
procesados, agregados, etc.
6.2. Ciencia del dato
Encargada de la extracción del conocimiento y la explotación final de los datos: definir

los procesos para extraer la información útil, aplicar analítica avanzada,
descubrimiento de patrones…

6.3. Inteligencia de negocio
Realiza la parte de analítica, cálculo de KPIs, visualización y reporting de la

información de negocio con el objetivo de la toma de decisiones y la mejora de los
procesos de una compañía.
Todas estas áreas, junto a los cambios tecnológicos, se combinan para posibilitar que
procesemos los volúmenes de datos que ahora disponemos y abren de par de par
puertas hacia casos de uso nuevos, negocios por descubrir, y muchísimo valor para
empresas y usuarios.

© Todos los derechos de propiedad intelectual de esta

obra pertenecen en exclusiva a la Universidad Europea
de Madrid, S.L.U. Queda terminantemente prohibida la
reproducción, puesta a disposición del público y en
general cualquier otra forma de explotación de toda o
parte de la misma.
La utilización no autorizada de esta obra, así como los

perjuicios ocasionados en los derechos de propiedad
intelectual e industrial de la Universidad Europea de
Madrid, S.L.U., darán lugar al ejercicio de las acciones
que legalmente le correspondan y, en su caso, a las
responsabilidades que de dicho ejercicio se deriven.

1. Introducción al Big Data

Cargado por

Información del documentohacer clic para expandir la información del documento

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

1. Introducción al Big Data

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1. Introducción al Big Data

Cargado por

Copyright:

Formatos disponibles

Big Data

Introducción a Big Data

1. Introducción al Big Data .......................................................... 3

© Copyright Universidad Europea. Todos los derechos reservados. 2

1. Introducción al Big Data

• Mejora en almacenamiento de datos:

Abaratamiento de la tecnología de almacenamiento (discos), incremento de la

• Aparición del IoT:

Incremento de sensores captando y generando información, aumento del

© Copyright Universidad Europea. Todos los derechos reservados. 3

• Aparición de redes sociales y democratización de internet

La previsión es que esta tendencia se acentúe a medida que se implantan

© Copyright Universidad Europea. Todos los derechos reservados. 4

Se une además la problemática de que las tecnologías relacionadas con la generación

• Por un lado, la capacidad de transmisión de datos sigue la que conocemos como

• Por otro, la capacidad de almacenamiento sigue el patrón de multiplicar por

• Por último, la capacidad de procesamientos de datos, que sigue la famosa Ley

© Copyright Universidad Europea. Todos los derechos reservados. 5

3. Características del Big Data

La característica más importante. Tamaño de los datos, con volúmenes

Esa información se genera y fluye de manera muy rápida. Necesitamos tenerla

© Copyright Universidad Europea. Todos los derechos reservados. 6

Los datos seguramente provengan de distintas fuentes: dispositivos IoT,

Estos datos tendrán formatos distintos, complejidades diferentes que

Veracidad entendida en este contexto como la calidad de los datos. Tenemos

Esta característica se refiere a la posibilidad de que transformemos este

© Copyright Universidad Europea. Todos los derechos reservados. 7

Analizar información disponible, objetivos, diseñar soluciones, etc.

De múltiples fuentes, formatos, volúmenes, periodicidades, etc.

Unificar, eliminar datos erróneos, homogenizar información, etc.

Procesados necesarios, aplicación de lógica de negocio

© Copyright Universidad Europea. Todos los derechos reservados. 8

Resumir todo el volumen de datos en KPIs de interés

Aplicación de técnicas de predicción, recomendación, agrupación, modelado...

Representación visual del conocimiento generado

Acordes a las conclusiones extraídas

4. Nuevas técnicas: Procesamiento

© Copyright Universidad Europea. Todos los derechos reservados. 9

4.1. Escalado horizontal

La solución propuesta es el escalado horizontal: en lugar de disponer de una única

© Copyright Universidad Europea. Todos los derechos reservados. 10

Sin embargo, este nuevo sistema de incrementar la capacidad de procesamiento

• Los datos se agrupan y reparten a las distintas máquinas del cluster.

• Cada máquina procesa los datos que le corresponden.

• Se combinan los resultados de los distintos procesamientos parciales para

© Copyright Universidad Europea. Todos los derechos reservados. 11

5. Nuevas técnicas: Almacenamiento

• Volumen de datos que ha crecido y crece exponencialmente

• Seguridad: Evitando pérdida de información. Replicación de datos entre los

• Velocidad de acceso a la información.

Según los requisitos de procesado y disponibilidad de la información, distinguimos dos

Procesos que suelen ejecutarse de manera periódica (1 vez al día, a la semana,

• Procesado en tiempo real:

Disponibilidad continua de nuevos datos (por ejemplo, la recogida por sensores)

5.1. Sistemas de ficheros distribuidos

Al igual que tenemos clusters de máquinas para procesar la información, también

Los datos se particionan en distintos ficheros que se almacenan en distintas máquinas

Existen varias tecnologías y servicios según el propietario: