Clase 3 - Big Data
Clase 3 - Big Data
Clase 3 - Big Data
Big Data
¿Qué es Big Data?
Definición: “Conjuntos de datos tan grandes y complejos que precisan de
aplicaciones informáticas no tradicionales de procesamiento de datos para
tratarlos adecuadamente” – Diccionario Oxford.
Volumen
Valor
Big Velocidad
Data
Veracidad Variedad
Las 5 Vs
1. Volumen: Hace referencia a la cantidad de datos almacenados. En un inicio los datos eran creados
por los propios empleados pero ahora que los datos son generados automáticamente por máquinas,
redes e interacciones personales en sistemas, lo cual hacer que los volúmenes a analizar sean masivos.
2. Velocidad: En un mundo cada vez más interconectado, la velocidad en el procesamiento del Big Data
es cada vez más alta. Hoy en día se necesitan los datos procesados y analizados a tiempo real,
especialmente en determinados tipos de procesos que impliquen transferencias de datos personales,
económicos, etc.
5. Valor: Deben tener un valor para las empresas y que estas salgan beneficiadas económicamente
gracias al uso de éstos.
Datos estructurados
Son los datos que forman parte de una estructura predefinida y son fácilmente catalogables. Suelen ser
archivos de texto que se almacenan en formato tabla, hojas de cálculo o bases de datos relacionales con
títulos para cada categoría que permite identificarlos.
Para gestionar este tipo de datos se utiliza un tipo de lenguaje de programación estructurado, conocido
como SQL (Structured Query Language) diseñado para administrar y recuperar información de sistemas
de gestión de bases de datos relacionales (RDBMS)
Datos no estructurados
La característica principal de este tipo de datos, generalmente binarios, es que no poseen una estructura
interna identificable. Se trata de un cúmulo de información que deben identificarse y almacenarse de
forma organizada a través de una base de datos no relacional (NoSQL).
Ejemplos: Datos escritos en un fichero de Word, correos electrónicos, conversación por Skype. Datos
móviles: mensajes de texto, ubicaciones, mensajería instantánea, grabaciones telefónicas, fotos, vídeos y
audios.
¿Cuál es el problema?
Estos datos contienen mucha información valiosa, pero al no estar bien estructurada y catalogada, su uso
resulta complicado a la hora de crear informes y realizar análisis. Las últimas tendencias en Inteligencia
Artificial, especialmente los algoritmos de Machine Learning, contemplan el análisis de datos no
estructurados con el objetivo de obtener conclusiones fiables; es un campo complejo y en evolución, pero
con un futuro muy prometedor. Ejemplo: Análisis de sentimientos en twitter (Experto en NPL)
Procesamiento de los datos
El objetivo del Big Data es unificar el almacenamiento y procesado de diferentes fuentes de datos para
realizar análisis con toda la información de la compañía. Para un correcto procesamiento de los datos se
debe pasar por 3 fases conocidas como ETL («extract, transform, load»).
Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza,
realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su
posterior análisis.
On-Premise: Este término es utilizado para referirse a las instalaciones locales de software y hardware (servidores,
racks, sistemas de almacenamiento…). Se dice que una empresa tiene una instalación on-premise cuando ella misma
se encarga de la infraestructura, gestión del software, y de los datos.
Cloud: El término cloud se utiliza para referirse al uso de infraestructuras (tanto hardware como software) de
terceros, para el almacenamiento, gestión y procesado de los datos y aplicaciones. El cloud, muchas veces referido
como «cloud computing», suele ser un modelo de alquiler o pago por uso, y algunas de las empresas líderes en este
sector son Microsoft, Amazon o Google.
El Cloud Computing no es sólo infraestructura, sino también un conjunto de servicios computacionales que permite a
cualquier empresa instalar sus diferentes soluciones software, mantenerlas, analizar su rendimiento, escalarlas,
realizar copias de seguridad y mucho más.
Artículos
• Critical analysis of Big Data challenges and analytical methods