0% encontró este documento útil (0 votos)
4 vistas18 páginas

1. Introducción al Big Data

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 18

Big Data

Fundamentals

Introducción a Big Data


Big Data Fundamentals
Introducción al Big Data
Índice

1. Introducción al Big Data .......................................................... 3


2. Necesidad ........................................................................... 3
3. Características del Big Data ...................................................... 6
4. Nuevas técnicas: Procesamiento ................................................ 9
4.1. Escalado horizontal ..................................................................10
5. Nuevas técnicas: Almacenamiento ............................................ 12
5.1. Sistemas de ficheros distribuidos ..................................................12
5.2. Bases de datos NoSQL ...............................................................13
5.3. Nuevas técnicas: Arquitecturas ....................................................14
6. Suma de áreas .................................................................... 15
6.1. Ingeniería del dato ...................................................................16
6.2. Ciencia del dato ......................................................................16
6.3. Inteligencia de negocio..............................................................17

© Copyright Universidad Europea. Todos los derechos reservados. 2


Big Data Fundamentals
Introducción al Big Data

1. Introducción al Big Data


En una primera definión, entendemos por Big Data un gran volumen de datos que
debido a su tamaño y complejidad, no pueden ser procesados por las técnicas
tradicionales de tratamiento de información.

El término sin embargo es bastante más amplio, y engloba no solo los datos, si no
también las técnicas que nos permiten procesarlo y extraer información útil,
conocimiento, conclusiones… de ese conjunto de datos heterogéneo.

2. Necesidad

Desde hace años, hemos visto un incremento en los datos que generamos de manera
exponencial, debido a varios motivos:

• Mejora en almacenamiento de datos:

Abaratamiento de la tecnología de almacenamiento (discos), incremento de la


capacidad…

• Aparición del IoT:

Incremento de sensores captando y generando información, aumento del


número de dispositivos conectados a internet.

© Copyright Universidad Europea. Todos los derechos reservados. 3


Big Data Fundamentals
Introducción al Big Data
• Digitalización de empresas y servicios

• Aparición de redes sociales y democratización de internet

Más personas con acceso a internet, y cambio cultural que influye en los
comportamientos de compartición de información personal, fotografías, etc.

La previsión es que esta tendencia se acentúe a medida que se implantan


definitivamente las tecnologías IoT, se digitalizan los servicios y empresas y los países
en vias de desarrollo se terminan de sumas a internet.

Sin embargo, nuestra capacidad de entender esos datos es la misma, los humanos no
estamos incrementando nuestra inteligencia a la misma velocidad. Necesitamos
herramientas que nos permitan explotar los datos.

© Copyright Universidad Europea. Todos los derechos reservados. 4


Big Data Fundamentals
Introducción al Big Data

Se une además la problemática de que las tecnologías relacionadas con la generación


y tratamiento de la información evolucionan a distinto ritmo:

• Por un lado, la capacidad de transmisión de datos sigue la que conocemos como


Gilder’s Law, que establece que cada 4 años, se multiplica por 32 la velocidad
de transmisión de datos.

• Por otro, la capacidad de almacenamiento sigue el patrón de multiplicar por


16 cada 4 años la capacidad de almacenamiento según el tamaño del disco. Es
decir, más capacidad y menos tamaño.

• Por último, la capacidad de procesamientos de datos, que sigue la famosa Ley


de Moore, establece que los procesadores multiplican por 5 cada 4 años el
número de transistores, y por tanto, su potencia.

Conclusión:

Cada vez generamos, almacenamos y transmitimos más datos, pero no somos capaces
de procesarlos con la misma eficiencia, necesitamos nuevas técnicas o estrategias de
procesamiento para los nuevos volúmenes de datos con los que debemos trabajar: las
conocidas como “técnicas Big Data”.

© Copyright Universidad Europea. Todos los derechos reservados. 5


Big Data Fundamentals
Introducción al Big Data

3. Características del Big Data


Desde el punto de vista de los datos, Big Data es toda aquella información que
necesitamos procesar, tratar, limpiar, analizar, agregar… con el objetivo de extraer
conocimiento de ellos.

Este conjuno de datos se suele caracterizar por las llamadas V’s del Big Data, que
reflejan esa heterogeneidad, complejidad y volumen de datos a manejar.

Según el autor o la fuente, podemos encontrar 3, 4, o hasta 17 V’s del Big Data. Las
más importantes son:

• Volumen

La característica más importante. Tamaño de los datos, con volúmenes


normalmente en los teras de información.

• Velocidad

Esa información se genera y fluye de manera muy rápida. Necesitamos tenerla


disponible y analizada casi en tiempo real. Para empresas que pueden utilizar
conclusiones extraidas de los datos, tenerlas cuanto antes puede significar una
ventaja competitiva respecto a sus competidores.

© Copyright Universidad Europea. Todos los derechos reservados. 6


Big Data Fundamentals
Introducción al Big Data
• Variedad

Los datos seguramente provengan de distintas fuentes: dispositivos IoT,


sistemas internos, en el caso de una empresa, la información que los propios
usuarios de internet envíamos por redes sociales, etc. Dependiendo de la
empresa o caso de uso, de hecho, existen infinitas fuentes de datos que pueden
tener mayor relevancia.

Estos datos tendrán formatos distintos, complejidades diferentes que


tendremos que tener en cuenta para nuestro análisis.

• Veracidad

Veracidad entendida en este contexto como la calidad de los datos. Tenemos


todos los datos, pero ¿podríamos estar pasando algo por alto? ¿Están los datos
"limpios" y correctos? ¿Tienen realmente algo que ofrecer?

• Valor

Esta característica se refiere a la posibilidad de que transformemos este


tsunami de datos en valor para el negocio.

© Copyright Universidad Europea. Todos los derechos reservados. 7


Big Data Fundamentals
Introducción al Big Data
Desde el punto de vista de las técnicas a utilizar, el Big Data es el conjunto de las
diferentes fases y tecnologías utilizadas durante el proceso completo de extracción,
procesamiento, limpieza, analítica, visualización… de la información.

Las fases de un proceso de análisis de datos de este tipo, suelen ser las siguientes:

• Identificación de datos:

Analizar información disponible, objetivos, diseñar soluciones, etc.

• Extracción de información:

De múltiples fuentes, formatos, volúmenes, periodicidades, etc.

• Limpieza de datos:

Unificar, eliminar datos erróneos, homogenizar información, etc.

• Transformación de datos:

Procesados necesarios, aplicación de lógica de negocio

Junto a las fases de extracción y limpieza, las tres fases es lo que se conoce
como etapa “ETL”

© Copyright Universidad Europea. Todos los derechos reservados. 8


Big Data Fundamentals
Introducción al Big Data
• Agregación de datos:

Resumir todo el volumen de datos en KPIs de interés

• Analítica de datos:

Aplicación de técnicas de predicción, recomendación, agrupación, modelado...

• Visualización de resultados:

Representación visual del conocimiento generado

• Toma de decisiones:

Acordes a las conclusiones extraídas

4. Nuevas técnicas: Procesamiento


Cada vez más datos, de mayor volumen, más complejos... requieren cada vez mejores
procesadores que sean capaces de procesar esta información.

La solución que teníamos hasta ahora para esto era “añadir más madera”: servidores
más potentes que pudieran abarcar el nuevo volumen de datos. Es lo que conocemos
como escalado vertical.

Pero esta solución tiene límites. Primero, de costes, estas nuevas máquinas cada X
tiempo suponen un desembolso muy importante. Y segundo, esta solución no es
suficiente.

© Copyright Universidad Europea. Todos los derechos reservados. 9


Big Data Fundamentals
Introducción al Big Data
Hemos visto que la velocidad a la que mejoran las técnicas de procesamiento es
inferior a la velocidad a la que aumentan los volúmenes de datos

4.1. Escalado horizontal

Necesitamos otra manera de escalar. Otra forma de mejorar nuestros entornos para
que sean capaces de capturar, procesar y analizar estos datos.

La solución propuesta es el escalado horizontal: en lugar de disponer de una única


máquina (cada vez más potente, pero que mejora a una velocidad muy lenta), se
disponen un conjunto de máquinas (menos potentes) pero interconectadas, de forma
que se reparten el trabajo a realizar (cluster).

© Copyright Universidad Europea. Todos los derechos reservados. 10


Big Data Fundamentals
Introducción al Big Data
Si se necesita más capacidad de procesamiento, simplemente se añaden más máquinas
al conjunto.

Estas máquinas más pequeñas son mucho más asequibles, y esta solución nos permite
continuar dando uso a las máquinas antiguas, como parte del mismo cluster.

Sin embargo, este nuevo sistema de incrementar la capacidad de procesamiento


mediante escalado horizontal requiere de nuevas formas de procesar la información:

• Los datos se agrupan y reparten a las distintas máquinas del cluster.

• Cada máquina procesa los datos que le corresponden.

• Se combinan los resultados de los distintos procesamientos parciales para


generar un resultado único al procesamiento solicitado.

• Una máquina o nodo central organiza todo este proceso para que no se pierda
información y se realicen los cálculos correctos y en el orden necesario.

• Existe algún tipo de gestión de errores: ¿qué ocurre si una máquina falla? No
deberíamos perder datos.

© Copyright Universidad Europea. Todos los derechos reservados. 11


Big Data Fundamentals
Introducción al Big Data

5. Nuevas técnicas: Almacenamiento


Otro de los retos a los que se enfrenta el Big Data es el de almacenar la información
manejada:

• Volumen de datos que ha crecido y crece exponencialmente

• Seguridad: Evitando pérdida de información. Replicación de datos entre los


nodos de los clusters.

• Velocidad de acceso a la información.

Según los requisitos de procesado y disponibilidad de la información, distinguimos dos


tipos de procesado:

• Procesado batch:

Procesos que suelen ejecutarse de manera periódica (1 vez al día, a la semana,


al mes...) a medida que los datos están disponibles.

• Procesado en tiempo real:

Disponibilidad continua de nuevos datos (por ejemplo, la recogida por sensores)


que necesitamos estar continuamente procesando para obtener conclusiones lo
antes posible.

Estos nuevos requisitos tanto de las características de los datos manejados como los
requisitos de procesamiento hacen necesarias nuevas formas de almacenar la
información:

5.1. Sistemas de ficheros distribuidos

Al igual que tenemos clusters de máquinas para procesar la información, también


disponemos de ellos para almacenar la información, en los llamados sistemas de
ficheros distribuidos.

Los datos se particionan en distintos ficheros que se almacenan en distintas máquinas


físicas, pero bajo la apariencia y gestión de un único sistema de ficheros, para que sea
casi transparente al usuario de los datos.

Existen varias tecnologías y servicios según el propietario:

• Ecosistema Hadoop: HDFS (Hadoop Distributed File System)

• Amazon Web Services: S3

• Azure: BlobStorage

© Copyright Universidad Europea. Todos los derechos reservados. 12


Big Data Fundamentals
Introducción al Big Data
• Google Cloud: Big Query

• …

5.2. Bases de datos NoSQL

Las bases de datos tradicionales (SQL) no satisfacen los nuevos requisitos ya descritos,
por varios motivos:

• Datos heterogéneos, voluminosos y desnormalizados que no casan con el modelo


relacional de tablas.

• Los servidores de bases de datos tradicionales están basados en escalado vertical


en vez horizontal, y ya hemos visto las limitaciones con los nuevos volúmenes de
datos.

• No están adaptadas al tipo de acceso, búsqueda, procesado... de las analíticas de


BigData

Surge un movimiento para diseñar nuevas bases de datos con la idea de que, lo mismo
que hay lenguajes de programación distintos, se necesitan soluciones de
almacenamiento alternativas que pudieran proporcionar las características que hemos
detectado como necesarias para hacer frente a esta tormenta de datos:

• Sistemas de almacenamiento de información que no cumplen con el esquema


entidad–relación.

• Manipulación de información no estructurada con alto rendimiento.

© Copyright Universidad Europea. Todos los derechos reservados. 13


Big Data Fundamentals
Introducción al Big Data
• BBDD basadas en ficheros.

• No hay estructura uniforme en todas ellas.

Las hay de muchos tipos, enfocadas en casos de uso concreto, maximizando el


funcionamiento según el tipo de datos, el objetivo que tengamos…

5.3. Nuevas técnicas: Arquitecturas

Como ya hemos comentado, tanto por requisitos de almacenamiento como de


procesamiento (debido a la nueva forma de escalado horizontal) hace falta disponer
de ecosistemas y sistemas nuevos para ejecutar este procesamiento de datos: las
arquitecturas distribuidas.

Un cluster de máquinas se convierte en elemento indispensable a la hora que


almacenar y ejecutar nuestros procesos y analíticas Big Data, orquestado por
frameworks de gestion de recursos como YARN o ejecución distribuida como HADOOP.

© Copyright Universidad Europea. Todos los derechos reservados. 14


Big Data Fundamentals
Introducción al Big Data

Esto es lo que ha provocado el auge de las arquitecturas y ecosistemas cloud, donde


delegamos la parte de infraestructuras a proveedores de servicios como Amazon (AWS),
Microsoft (Azure) o Google.

6. Suma de áreas
Como hemos visto, en Big Data intervienen muchos perfiles y áreas de conocimiento,
tanto en los cambios tecnológicos que se necesitan, como en las fases de un proyecto
Big Data

© Copyright Universidad Europea. Todos los derechos reservados. 15


Big Data Fundamentals
Introducción al Big Data

Las áreas más importantes que intervienen son:

6.1. Ingeniería del dato

Realiza las primeras etapas del procesado de la información, como las ETLs
(extracción-limpieza-transformación), homogenización y modelado de la información,
procesados, agregados, etc.

6.2. Ciencia del dato

Encargada de la extracción del conocimiento y la explotación final de los datos: definir


los procesos para extraer la información útil, aplicar analítica avanzada,
descubrimiento de patrones…

© Copyright Universidad Europea. Todos los derechos reservados. 16


Big Data Fundamentals
Introducción al Big Data

6.3. Inteligencia de negocio

Realiza la parte de analítica, cálculo de KPIs, visualización y reporting de la


información de negocio con el objetivo de la toma de decisiones y la mejora de los
procesos de una compañía.

Todas estas áreas, junto a los cambios tecnológicos, se combinan para posibilitar que
procesemos los volúmenes de datos que ahora disponemos y abren de par de par
puertas hacia casos de uso nuevos, negocios por descubrir, y muchísimo valor para
empresas y usuarios.

© Copyright Universidad Europea. Todos los derechos reservados. 17


Big Data Fundamentals
Introducción al Big Data

© Todos los derechos de propiedad intelectual de esta


obra pertenecen en exclusiva a la Universidad Europea
de Madrid, S.L.U. Queda terminantemente prohibida la
reproducción, puesta a disposición del público y en
general cualquier otra forma de explotación de toda o
parte de la misma.

La utilización no autorizada de esta obra, así como los


perjuicios ocasionados en los derechos de propiedad
intelectual e industrial de la Universidad Europea de
Madrid, S.L.U., darán lugar al ejercicio de las acciones
que legalmente le correspondan y, en su caso, a las
responsabilidades que de dicho ejercicio se deriven.

© Copyright Universidad Europea. Todos los derechos reservados. 18

También podría gustarte