Clase 3

Clase 3
Big Data
¿Qué es Big Data?
Definición: “Conjuntos de datos tan grandes y complejos que precisan de
aplicaciones informáticas no tradicionales de procesamiento de datos para
tratarlos adecuadamente” – Diccionario Oxford.
Volumen
Valor
Big Velocidad
Data
Veracidad Variedad
Las 5 Vs
1. Volumen: Hace referencia a la cantidad de datos almacenados. En un inicio los datos eran creados
por los propios empleados pero ahora que los datos son generados automáticamente por máquinas,
redes e interacciones personales en sistemas, lo cual hacer que los volúmenes a analizar sean masivos.
2. Velocidad: En un mundo cada vez más interconectado, la velocidad en el procesamiento del Big Data
es cada vez más alta. Hoy en día se necesitan los datos procesados y analizados a tiempo real,
especialmente en determinados tipos de procesos que impliquen transferencias de datos personales,
económicos, etc.
3. Variedad: se refiere a la tipología de datos dependiendo de su fuente y su formato. Según IBM,

existen varios tipos según su fuente de recogida: los que se crean por interacción web y redes sociales,
los datos de grandes transacciones, los biométricos, los generados por los seres humanos y los
generados por máquinas. Si, por el contrario, hablamos de tipos de datos según su formato, los hay
estructurados, no estructurados y semiestructurados.
Las 5 Vs
4. Veracidad: Fiabilidad de los datos. Es decir, al grado de certeza que tienen éstos. Es una de las más
importantes del Big Data, ya que gran parte de las decisiones que toman las organizaciones
empresariales se hacen teniendo como punto de referencia a este gran volumen de información
analizada. Por lo tanto, a mayor veracidad en los datos, mayor probabilidad de éxito tenga la decisión.
5. Valor: Deben tener un valor para las empresas y que estas salgan beneficiadas económicamente
gracias al uso de éstos.
Datos estructurados
Son los datos que forman parte de una estructura predefinida y son fácilmente catalogables. Suelen ser
archivos de texto que se almacenan en formato tabla, hojas de cálculo o bases de datos relacionales con
títulos para cada categoría que permite identificarlos.
Para gestionar este tipo de datos se utiliza un tipo de lenguaje de programación estructurado, conocido
como SQL (Structured Query Language) diseñado para administrar y recuperar información de sistemas
de gestión de bases de datos relacionales (RDBMS)
Datos no estructurados
La característica principal de este tipo de datos, generalmente binarios, es que no poseen una estructura
interna identificable. Se trata de un cúmulo de información que deben identificarse y almacenarse de
forma organizada a través de una base de datos no relacional (NoSQL).
Ejemplos: Datos escritos en un fichero de Word, correos electrónicos, conversación por Skype. Datos
móviles: mensajes de texto, ubicaciones, mensajería instantánea, grabaciones telefónicas, fotos, vídeos y
audios.
¿Cuál es el problema?
Estos datos contienen mucha información valiosa, pero al no estar bien estructurada y catalogada, su uso
resulta complicado a la hora de crear informes y realizar análisis. Las últimas tendencias en Inteligencia
Artificial, especialmente los algoritmos de Machine Learning, contemplan el análisis de datos no
estructurados con el objetivo de obtener conclusiones fiables; es un campo complejo y en evolución, pero
con un futuro muy prometedor. Ejemplo: Análisis de sentimientos en twitter (Experto en NPL)
Procesamiento de los datos
El objetivo del Big Data es unificar el almacenamiento y procesado de diferentes fuentes de datos para
realizar análisis con toda la información de la compañía. Para un correcto procesamiento de los datos se
debe pasar por 3 fases conocidas como ETL («extract, transform, load»).
Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza,
realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su
posterior análisis.
Extracción Extracción Extracción

ETL
Se cargan a la bodega de
datos con una estructura
homologada
Se aplican algoritmos para

limpiar los datos, filtrarlos,
hacer cálculos de resumen y
llevarlos a las dimensiones de
interés
Se pueden encontrar diferentes tipos
de datos: XML, JSON, CSV, TSV.
¿Dónde almaceno estos datos?
Almacenamiento de datos
Un Data Warehouse es un repositorio de datos que almacena la información proveniente de diversas fuentes y
sistemas de la empresa. Estos almacenes de datos destacan por su gran capacidad y por proveer un acceso óptimo a
los datos, independientemente de que se encuentren On-Premise o en la nube (Cloud).
On-Premise: Este término es utilizado para referirse a las instalaciones locales de software y hardware (servidores,
racks, sistemas de almacenamiento…). Se dice que una empresa tiene una instalación on-premise cuando ella misma
se encarga de la infraestructura, gestión del software, y de los datos.
Cloud: El término cloud se utiliza para referirse al uso de infraestructuras (tanto hardware como software) de
terceros, para el almacenamiento, gestión y procesado de los datos y aplicaciones. El cloud, muchas veces referido
como «cloud computing», suele ser un modelo de alquiler o pago por uso, y algunas de las empresas líderes en este
sector son Microsoft, Amazon o Google.
El Cloud Computing no es sólo infraestructura, sino también un conjunto de servicios computacionales que permite a
cualquier empresa instalar sus diferentes soluciones software, mantenerlas, analizar su rendimiento, escalarlas,
realizar copias de seguridad y mucho más.
Artículos
• Critical analysis of Big Data challenges and analytical methods
• Beyond the hype: Big data concepts, methods, and analytics

Clase 3 - Big Data

Cargado por

Copyright:

Formatos disponibles

Clase 3 - Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 3 - Big Data

Cargado por

Copyright:

Formatos disponibles

3. Variedad: se refiere a la tipología de datos dependiendo de su fuente y su formato. Según IBM,

Extracción Extracción Extracción

Se aplican algoritmos para

• Beyond the hype: Big data concepts, methods, and analytics

También podría gustarte