Trabajo Big Data

BIG DATA
Introduccin a Big Data
Todos los das se escriben comentarios en Facebook en Twitter y se suben videos a

YouTube, pero las redes sociales son solo uno de los muchos catalizadores de los big
data, tambin estn los sensores conectados en red, recogen grandes cantidades de
datos, de los telfonos mviles, los contadores de gas y la luz, los motores
aeronuticos, los satlites registran datos meteorolgicos y geogrficos, as como
informacin para uso militar. Se crean datos de desecho como subproductos de las
actividades cotidianas y se almacenan datos de transacciones, por ejemplo los que
recogen las cajas de los supermercados.
A medida que los formatos digitales se vuelven ms sofisticados, se crean ms y ms

datos. As, un segundo de vdeo en alta definicin ocupa 2.000 veces ms bytes que
una pgina de texto3. La creacin de toda esta informacin est impulsando un rpido
avance tecnolgico en el terreno del almacenamiento de datos.
Big Data no se refiere a alguna cantidad en especfico, ya que es usualmente utilizado
cuando se habla en trminos de petabytes y exabytes de datos. Entonces Cunto es
demasiada informacin de manera que sea elegible para ser procesada y analizada
utilizando Big Data?
Qu es Big Data?
Todos formamos parte de ese gran crecimiento de datos.
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan
analizar, descubrir y entender ms all de lo que sus herramientas tradicionales
reportan sobre su informacin, al mismo tiempo que durante los ltimos aos el gran
crecimiento de las aplicaciones disponibles en internet (geo-referenciamiento, redes
sociales, etc.) han sido parte importante en las decisiones de negocio de las empresas.
Tiene tres caracteristicas: volumen, variedad y velocidad
Volumen: Esel crecimiento exponencial de los volmenes de datos es una cuestin

fundamental que est impulsando mejoras en las redes de comunicaciones, lideradas
por empresas como Cisco Systems, y mayores velocidades en los accesos de banda
ancha, lideradas por empresas como Virgin Media. Sin embargo, es un error creer que
el volumen es la nica caracterstica del concepto bigdataque merece atencin. Se
podra afirmar incluso que es la menos importante desde el punto de vista de la
utilidad para las empresas. En la variedad y la velocidad es donde probablemente se
puede encontrar la mayor cantidad de valor aadido.
La variedad describe el nmero de tipos diferentes de datos. Interpretar y analizar

diferentes tipos de datos a la vez puede generar grandes ventajas. Por ejemplo, la red
social Facebook almacena una enorme cantidad de informacin sobre sus usuarios.
Guarda diferentes tipos de datos: sexo, edad, domicilio, estado civil, pelcula o libros
favoritos e incluso en qu marcas sus usuarios han pulsado en el botn "Me gusta". Las
empresas pueden saber a quin "le gusta" su marca, el grupo de edad al que
pertenece esa persona y si tiene ms probabilidades de ser hombre o mujer. As,
pueden enfocarse de forma selectiva en este segmento con campaas de marketing
personalizadas.
La velocidad se refiere a la vida til de los datos, ya que no tiene mucho sentido tener
almacenados datos desactualizados. Por ejemplo, en EE.UU. las empresas de atencin
sanitaria descartan hasta el 90% de los datos que generan, gran parte de los cuales
procede de las emisiones de vdeo en tiempo real durante las intervenciones
quirrgicas. Del mismo modo, las tiendas a menudo borran las grabaciones de sus
cmaras de seguridad cuando ha transcurrido cierto tiempo.
Tipos de datos de Big Data
1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten
conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores
que capturan algn evento en particular (velocidad, temperatura, presin, variables
meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a
travs de redes almbricas, inalmbricas o hbridas a otras aplicaciones que traducen
estos eventos en informacin significativa.
3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn
disponibles en formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo
de la retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia,
los datos biomtricos han sido informacin importante para las agencias de
investigacin.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de
voz, correos electrnicos, documentos electrnicos, estudios mdicos, etc.
3. Qu tipos de datos debo explorar?
Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se

debe analizar?, sin embargo, el cuestionamiento debera estar enfocado hacia qu
problema es el que se est tratando de resolver?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una
buena clasificacin nos ayudara a entender mejor su representacin, aunque es muy
probable que estas categoras puedan extenderse con el avance tecnolgico.
Tipos de datos de Big Data
1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten
conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores
que capturan algn evento en particular (velocidad, temperatura, presin, variables
meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a
travs de redes almbricas, inalmbricas o hbridas a otras aplicaciones que traducen
estos eventos en informacin significativa.
3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn
disponibles en formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo
de la retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia,
los datos biomtricos han sido informacin importante para las agencias de
investigacin.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de
voz, correos electrnicos, documentos electrnicos, estudios mdicos, etc.
Componentes de una plataforma Big Data
Las organizaciones han atacado esta problemtica desde diferentes ngulos. Todas
esas montaas de informacin han generado un costo potencial al no descubrir el gran
valor asociado. Desde luego, el ngulo correcto que actualmente tiene el liderazgo en
trminos de popularidad para analizar enormes cantidades de informacin es la
plataforma de cdigo abierto Hadoop.
Hadoop est inspirado en el proyecto de Google File System(GFS) y en el paradigma de
programacin MapReduce, el cual consiste en dividir en dos tareas (mapper reducer)
para manipular los datos distribuidos a nodos de un clster logrando un alto
paralelismo en el procesamiento.Hadoop est compuesto de tres piezas:
HadoopDistributed File System (HDFS), HadoopMapReduce y HadoopCommon.
HadoopDistributed File System(HDFS)
Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques y
distribuidas a travs del clster; de esta manera, las funciones map y reduce pueden
ser ejecutadas en pequeos subconjuntos y esto provee de la escalabilidad necesaria
para el procesamiento de grandes volmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS.
Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena
en un diferente rack para lograr redundancia.
HadoopMapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a
dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un
conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales
son separados en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de
map como datos de entrada y combina las tuplas en un conjunto ms pequeo de las
mismas. Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del
proceso map y determina que nodo procesar estos datos dirigiendo la salida a una
tarea reduce en especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Figura 3. Ejemplo de MapReduce
HadoopCommon
HadoopCommonComponents son un conjunto de libreras que soportan varios
subproyectos de Hadoop.
Adems de estos tres componentes principales de Hadoop, existen otros proyectos
relacionados los cuales son definidos a continuacin:
Avro
Es un proyecto de Apache que provee servicios de serializacin. Cuando se guardan
datos en un archivo, el esquema que define ese archivo es guardado dentro del
mismo; de este modo es ms sencillo para cualquier aplicacin leerlo posteriormente
puesto que el esquema esta definido dentro del archivo.
Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un modelo de
almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes volmenes
de datos en forma distribuida. Twitter es una de las empresas que utiliza
Cassandradentro de su plataforma.
Chukwa
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit para
desplegar los resultados del anlisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia
alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres
entidades principales: sources, decorators y sinks. Un source es bsicamente cualquier
fuente de datos, sink es el destino de una operacin en especfico y un decorator es
una operacin dentro del flujo de datos que transforma esa informacin de alguna
manera, como por ejemplo comprimir o descomprimir los datos o alguna otra
operacin en particular sobre los mismos.
HBase
Es una base de datos columnar (column-orienteddatabase) que se ejecuta en HDFS.
HBase no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla
contiene filas y columnas como una base de datos relacional. HBase permite que
muchos atributos sean agrupados llamndolos familias de columnas, de tal manera
que los elementos de una familia de columnas son almacenados en un solo conjunto.
Eso es distinto a las bases de datos relacionales orientadas a filas, donde todas las
columnas de una fila dada son almacenadas en conjunto. Facebook utiliza HBase en su
plataforma desde Noviembre del 2010.
Hive
Es una infraestructura de data warehouse que facilita administrar grandes conjuntos
de datos que se encuentran almacenados en un ambiente distribuido. Hive tiene
definido un lenguaje similar a SQL llamado HiveQueryLanguage(HQL), estas sentencias
HQL son separadas por un servicio de Hive y son enviadas a procesos MapReduce
ejecutados en el cluster de Hadoop.
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos y obtener
informacin de la tabla utilizando Hive:
CREATE TABLE Tweets (from_user STRING, userid BIGINT, tweettext STRING, retweets
INT)
COMMENT 'ThisistheTwitterfeedtable'
STORED AS SEQUENCEFILE;
LOAD DATA INPATH 'hdfs://node/tweetdata' INTO TABLE TWEETS;
SELECT from_user, SUM(retweets)
FROM TWEETS
GROUP BY from_user;
Jaql
Fue donado por IBM a la comunidad de software libre.
QueryLanguageforJavascriptObjectNotation (JSON) es un lenguaje funcional y
declarativo que permite la explotacin de datos en formato JSON diseado para
procesar grandes volmenes de informacin. Para explotar el paralelismo, Jaql
reescribe los queries de alto nivel (cuando es necesario) en queries de "bajo nivel" para
distribuirlos como procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y reduce para
reducir el tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql posee
de una infraestructura flexible para administrar y analizar datos semiestructurados
como XML, archivos CSV, archivos planos, datos relacionales, etc.
Lucene
Es un proyecto de Apache bastante popular para realizar bsquedas sobre textos.
Lucene provee de libreras para indexacin y bsqueda de texto. Ha sido
principalmente utilizado en la implementacin de motores de bsqueda (aunque hay
que considerar que no tiene funciones de "crawling" ni anlisis de documentos HTML
ya incorporadas). El concepto a nivel de arquitectura de Lucene es simple, bsicamente
los documentos (document) son dividos en campos de texto (fields) y se genera un
ndice sobre estos campos de texto. La indexacin es el componente clave de Lucene,
lo que le permite realizar bsquedas rpidamente independientemente del formato
del archivo, ya sean PDFs, documentos HTML, etc.
Oozie
Como pudo haber notado, existen varios procesos que son ejecutados en distintos
momentos los cuales necesitan ser orquestados para satisfacer las necesidades de tan
complejo anlisis de informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la
coordinacin entre cada uno de los procesos. Permite que el usuario pueda definir
acciones y las dependencias entre dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico
llamado DirectedAcyclicalGraph (DAG), y es acclico puesto que no permite ciclos en el
grafo; es decir, solo hay un punto de entrada y de salida y todas las tareas y
dependencias parten del punto inicial al punto final sin puntos de retorno. Un ejemplo
de un flujo de trabajo en Oozie se representa de la siguiente manera:
Figura 4. Flujo de trabajo en Oozie
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop enfocarse
ms en analizar todos los conjuntos de datos y dedicar menos tiempo en construir los
programas MapReduce. Tal como su nombre lo indica al igual que cualquier cerdo que
come cualquier cosa, el lenguaje PigLatin fue diseado para manejar cualquier tipo de
dato y Pig es el ambiente de ejecucin donde estos programas son ejecutados, de
manera muy similar a la relacin entre la mquina virtual de Java (JVM) y una
aplicacin Java.
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones
para asegurarse de que los procesos a travs de un cluster sean serializados o
sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se persiste en
memoria en los servidores ZooKeeper llamado znode.Este archivo znode puede ser
actualizado por cualquier nodo en el cluster, y cualquier nodo puede registrar que sea
informado de los cambios ocurridos en ese znode; es decir, un servidor puede ser
configurado para "vigilar" un znode en particular. De este modo, las aplicaciones
pueden sincronizar sus procesos a travs de un cluster distribuido actualizando su
estatus en cada znode, el cual informar al resto del cluster sobre el estatus
correspondiente de algn nodo en especfico.
Como podr observar, ms all de Hadoop, una plataforma de Big Data consiste de
todo un ecosistema de proyectos que en conjunto permiten simplificar, administrar,
coordinar y analizar grandes volmenes de informacin.
Las grandes V de BIG DATA
Volumen, variedad y velocidad son los trminos que definen el concepto de big
data, las grandes v como se suele decir en la industria. El volumen se refiere a la
ingente cantidad de datos que circulan en la actualidad en las organizaciones; la
variedad a su diverso carcter, estructurado o no, multimedia o textual; y la
velocidad a la rapidez con la que se accede a estos datos. No obstante, segn una
infografa de Pros, falta una v ms: la viabilidad.
La viabilidad de la infraestructura y las herramientas de almacenamiento es un
aspecto clave para que las empresas aborden BIG DATA definitivamente. Con el fin
de evitar incurrir en costes desproporcionados para analizar los datos,
deben escoger con precisin las herramientas que implantarn para ello y el
procedimiento a seguir. Solo as podrn trasladar el valor de BIG DATA a la
organizacin e incrementar las ventas.
BIG DATA y seguridad
Estn preparadas las empresas para aprovechar el potencial de la tecnologa

de BIG DATA?
A la luz de un informe hecho pblico por la compaa de seguridad Mcafee no lo
estn. El estudio, llamado Needle in a Datastack, las empresas son vulnerables a las
brechas de seguridad por su incapacidad para analizar o almacenar adecuadamente
grandes cantidades de datos, as al menos lo considera el 35% de los directivos
entrevistados. Un aspecto clave para detectar brechas de datos en minutos y evitar
la prdida de informacin.
Es ms, el 22% de los consultados por el estudio realizado por la firma de
investigacin Vanson Bourne el pasado mes de enero, y en el que participaron 500
directores de TI de Estados Unidos, Reino Unido, Alemania y Australia asevera que
su empresa necesitara un da para identificar una brecha, y un 5% opina que este
proceso les llevara una semana. Las organizaciones reconocen que, como media,
reconocer una brecha de seguridad les llevara 10 de horas.
Aunque el 73% de los participantes en el estudio afirma poder valorar su estado de

seguridad en tiempo real, el 74% confa en su capacidad para detectar amenazas
internas en tiempo real, el 78% amenazas perimetrales, el 72% ataques
de malware de da zero y el 80% controlar de cumplimiento de normativas, lo
cierto es que el 58% de los consultados indica que sus organizaciones han sufrido
una brecha de seguridad en el ltimo ao. Adems, solo el 24% se dio cuenta en
pocos minutos.
Ms y ms informacin requiere otras tcnicas de seguridad
Por otro lado, con la ingente produccin de datos que existe en la sociedad
actual, las organizaciones almacenan entre 11 y 15 terabytes de datos de
seguridad a la semana. El problema es que el 58% de las empresas admite que solo
los guarda durante menos de tres meses.
Desde Mcafee sealan que para conseguir inteligencia de amenazas en tiempo real
en una poca en la que el volumen, la velocidad y la variedad de la informacin han
llevado a sus lmites a los sistemas tradicionales, las empresas tienen que analizar,
almacenar y gestionar los big data de seguridad. Las organizaciones deberan ir ms
all de patrones para obtener un verdadero anlisis basado en los riesgos.
Idealmente, este enfoque debera estar respaldado por un sistema de gestin de
datos que permita crear anlisis complejos en tiempo real. Adems de la capacidad
de detectar amenazas en tiempo real, las organizaciones deben ser capaces de
identificar tendencias y patrones potencialmente siniestros a largo plazo.
BIG DATA: los datos como valor de negocio
Big data es informacin, proceso y almacenamiento, pero no solo eso. El

diferencial de esta nueva tendencia tecnolgica reside en su capacidad como
herramienta de apoyo a la toma de decisiones a partir del anlisis de los grandes
volmenes de datos estructurados y no estructurados que entran, salen y giran
alrededor de las organizaciones; es decir, en supotencial para convertir los datos en
valor de negocio. Esta es su naturaleza revolucionaria llamada a transformar la
actividad de prcticamente todos los sectores. Segn una encuesta realizada
recientemente por EMC entre profesionales TI espaoles, el 29% considera que Big
Data aporta una ventaja competitiva y el 55% asegura que ser un factor decisivo
para el xito de sus empresas.
IDC entiende Big data como un nuevo valor econmico basado en la toma de
decisiones a partir del anlisis de grandes volmenes de datos procedentes de una
amplia variedad de fuentes, desde las aplicaciones empresariales convencionales a
los datos mviles, los medios sociales y el Internet de las Cosas, un campo an
incipiente donde en 2020 convivirn 212.000 millones de dispositivos conectados.
Se estima que el 23% (643 exabytes) de todo este universo digital sera susceptible
de ser aprovechado por Big data; sin embargo, hoy slo el 3% de los datos
potencialmente tiles est clasificado, y menor es an la tasa de los que estn
siendo analizados. El potencial de esta nueva revolucin, como ya consideran Big
data tanto expertos en tecnologa como los ms visionarios economistas, es pues
enorme. Sus ventajas para el negocio en reas como la gestin de las relaciones
con el cliente, el desarrollo de nuevos productos, la deteccin del fraude o la
prediccin del comportamiento de los consumidores permiten a las compaas
obtener resultados financieros un 20% por encima de sus competidores, segn
estimaciones de Gartner.
Se entiende as que, una vez superada la fase de evaluacin y prueba en la que
todava nos encontramos, la adopcin creciente de Big data dispare un mercado
que, de acuerdo con la firma de investigacin, cerrar 2013 con un volumen de
negocio asociado de 34.000 millones de dlares, 6.000 millones ms que en 2012.
Las promesas de Big data alcanzan a prcticamente todos los sectores de
actividad, como demuestran las primeras experiencias de xito emprendidas por
organizaciones de finanzas, sanidad, turismo, retail o telecomunicaciones. Y su
adopcin se ir extendiendo a medida que los responsables TI vayan asumiendo el
valor que aportan nuevos frameworks de software como Hadoop y los nuevos
sistemas avanzados de almacenamiento, bases de datos, analtica y lenguajes de
programacin especialmente orientados a los grandes datos.
En el camino habr que ir superando algunos de los retos que el anlisis de grandes
volmenes de datos, como tendencia disruptiva, todava plantea, especialmente la
fragmentacin de los datos entre mltiples dispositivos, la disparidad de
arquitecturas de gestin y la proteccin y seguridad de los datos, sin olvidar la falta
de profesionales especializados, un desafo que implicar un enorme esfuerzo de
formacin y contratacin, ya que globalmente, segn Gartner, en 2015 alrededor de
cuatro millones y medio de empleos TIC estarn directamente relacionados con Big
data. Pero la tendencia es imparable. Porque, ms que alineacin con el
negocio, Big data es el propio negocio.
Para conocer a fondo el alcance de big data, las tecnologas que visten este
trmino y las oportunidades de negocio que surgen en torno a l los prximos 7 y
8 de noviembre tendr lugar Big Data Spain. El evento, que celebra este ao su
segunda edicin en Madrid tras la exitosa acogida que tuvo el pasado ao, est
promovido por Paradigma Tecnolgico y su startup Stratio y permitir a sus
asistentes (tanto fsicos como a aquellos que sigan el encuentro a travs de las redes
sociales) mejorar su conocimiento en campos como el data mining, Hadoop,
MapReduce, NoSQL, Cassandra, The Stinger Initiative, BigQuery, Dats Science
y data visualization.
BIG DATA Y LA NUBE
Uno de los dilemas a los que se enfrentan las empresas es que no pueden costearse la
infraestructura fsica para interpretar grandes volmenes de datos desestructurados.
Muchos proveedores de almacenamiento de datos ofrecen ahora soluciones en la
nube como parte de su gama de productos y las comercializan entre los clientes como
soluciones asequibles y accesibles.
En esencia, las empresas alquilan espacio en potentes servidores a los que pueden
acceder en lnea. Estos servidores estn equipados con sofisticadas aplicaciones que
han sido diseadas especialmente para manejar grandes volmenes de datos. La
ventaja para los clientes es que pueden conseguir resultados rpidos, a menudo en
tiempo real, y que es una solucin muy accesible (algunas empresas, como SAP,
ofrecen acceso a travs del telfono mvil).
TCNICAS Y TECNOLOGAS BIG DATA
Una amplia variedad de tcnicas y tecnologas se ha desarrollado y adaptado para

agregar, manipular, analizar y visualizar grandes volmenes de datos . Estas tcnicas y
tecnologas sacan de varios campos, incluyendo estadsticas, informtica, matemticas
aplicadas y la economa. Esto significa que una organizacin que tiene la intencin de
obtener valor de big data tiene que adoptar un enfoque flexible y multidisciplinario.
Algunas de las tcnicas y tecnologas se han desarrollado en un mundo con acceso a
volmenes mucho ms pequeos y la variedad de datos, pero se han adaptado con
xito para que sean aplicables a conjuntos muy grandes de ms datos diversos. Otros
han sido desarrollados ms recientemente, especficamente para capturar valor a
partir de datos grandes. Algunos fueron desarrollados por acadmicos y otros por las
empresas, especialmente las que tienen modelos de negocio online predicada en el
anlisis de BIG DATA.
Este informe se centra en documentar el valor potencial de que el aprovechamiento de

BIG DATA puede crear. No es un manual de instrucciones detalladas sobre la forma de
capturar valor, una tarea que requiere una personalizacin muy especfica al contexto,
la estrategia de una organizacin, y las capacidades. Sin embargo, hemos querido
destacar algunas de las principales tcnicas y tecnologas que se pueden aplicar para
aprovechar los grandes datos (BIG DATA) para aclarar la forma en que algunas de las
palancas para el uso de grandes volmenes de datos que describimos podran
funcionar. Estos no son exhaustivos - la historia de las listas de BIG DATA todava se
estn escribiendo, nuevos mtodos y herramientas se siguen desarrollando para
resolver nuevos problemas. Para ayudar a los lectores interesados a encontrar una
tcnica o tecnologa especfica con facilidad, hemos organizado estas listas por orden
alfabtico. Cuando hemos utilizado los tipos de letra en negrita, estamos ilustrando las
mltiples interconexiones entre las tcnicas y tecnologas. Tambin te proporcionamos
una breve seleccin de ejemplos ilustrativos de visualizacin, una herramienta clave
para la comprensin de datos muy grandes y complejos anlisis con el fin de tomar
mejores decisiones.
TCNICAS PARA EL ANLISIS DE BIG DATA
Hay muchas tcnicas que se basan en disciplinas como la estadstica y la informtica

(especialmente la mquina de aprendizaje) que se pueden utilizar para analizar
conjuntos de datos. En esta seccin, proporcionamos una lista de algunas categoras
de tcnicas aplicables en una amplia gama de industrias. Esta lista no es de ninguna
manera exhaustiva. De hecho, los investigadores continan desarrollando nuevas
tcnicas y mejorar los ya existentes, en particular en respuesta a la necesidad de
analizar las nuevas combinaciones de datos. Tomamos nota de que no todas estas
tcnicas estrictamente requieren el uso de datos en algunos de ellos se pueden aplicar
de manera efectiva a los conjuntos de datos ms pequeos (por ejemplo, las pruebas A
/ B, anlisis de regresin) grande. Sin embargo, todas las tcnicas que enumeramos
aqu se puede aplicar a BIG DATA y, en general , los conjuntos de datos ms grandes y
ms diversos pueden utilizarse para generar resultados ms numerosos y profundos
que , menos diversos de menor tamao.
A/B Testing: Las pruebas A / B. Una tcnica en la que un grupo de control se compara
con una variedad de grupos de prueba con el fin de determinar qu tratamientos (es
decir, cambios) mejorar una variable objetivo dado, por ejemplo, la tasa de respuesta
de marketing. Esta tcnica tambin se conoce como pruebas de divisin o pruebas de
cubo. Un ejemplo de aplicacin es la determinacin de lo que copia de texto, diseos,
imgenes o colores sern mejorar las tasas de conversin en un sitio Web de comercio
electrnico. Grandes datos permite un gran nmero de pruebas que se ejecutarn y
analizado, asegurando que los grupos son de un tamao suficiente para detectar
significativos (es decir, estadsticamente significativas) diferencias entre el controly los
grupos de tratamiento (ver informacin ) . Cuando ms de una variable es manipulada
de manera simultnea en el tratamiento, la generalizacin multivariante de esta
tcnica, que se aplica modelos estadsticos, a menudo se llama " / B / N A" de prueba.
Aprendizaje de reglas de asociacin. Un conjunto de tcnicas para descubrir

relaciones interesantes, es decir, " las reglas de asociacin ", entre las variables en gran
databases.27 Estas tcnicas consisten en una variedad de algoritmos para generar y
probar posibles reglas. Una de las aplicaciones es el anlisis de la canasta de mercado,
en el que un minorista puede determinar qu productos se compran con frecuencia
juntos y utilizar esta informacin para la comercializacin (un ejemplo comnmente
citado es el descubrimiento de que muchos compradores de supermercados que
compran paales tambin tienden a comprar cerveza ) . Se utiliza para la extraccin de
datos.
Clasificacin . Un conjunto de tcnicas para identificar las categoras en las que los
nuevos puntos de datos pertenecen, con base en un conjunto de entrenamiento que
contiene puntos de datos que ya han sido categorizados. Una aplicacin es la
prediccin del comportamiento de los clientes del segmento especfico (por ejemplo,
las decisiones de compra, tasa de rotacin, tasa de consumo) , donde hay una
hiptesis clara o resultado objetivo . Estas tcnicas se describen a menudo como
aprendizaje supervisado debido a la existencia de un conjunto de entrenamiento, sino
que estn en contraste con anlisis de conglomerados, un tipo de aprendizaje no
supervisado. Se utiliza para la extraccin de datos.
El anlisis de conglomerados. Un mtodo estadstico para clasificar los objetos que se

divide un grupo diverso en pequeos grupos de objetos similares, cuyas caractersticas
de similitud no se conocen de antemano. Un ejemplo de anlisis de cluster est
segmentando a los consumidores en grupos de auto-similares para el marketing
dirigido. Este es un tipo de aprendizaje no supervisado porque los datos de
entrenamiento no se utilizan. Esta tcnica es en contraste a la clasificacin, un tipo de
aprendizaje supervisado. Se utiliza para la extraccin de datos.
Crowdsourcing. Una tcnica de recogida de los datos presentados por un gran grupo
de personas o comunidad (es decir , la " multitud") a travs de una convocatoria
abierta , por lo general a travs de los medios de comunicacin en red, tales como el
Web.28 Este es un tipo de colaboracin masiva y un ejemplo de la utilizacin de la
Web 2.0.29
Fusin de datos e integracin de datos. Un conjunto de tcnicas que se integran y

analizan datos de mltiples fuentes con el fin de desarrollar ideas en formas que sean
ms eficientes y potencialmente ms precisa que si se han desarrollado mediante el
anlisis de una nica fuente de datos. Tcnicas de procesamiento de seal se puede
utilizar para poner en prctica algunos tipos de fusin de datos. Un ejemplo de una
aplicacin es datos de los sensores de la Internet de los objetos siendo combinados
para desarrollar una perspectiva integrada en el rendimiento de un sistema distribuido
complejo tal como una refinera de petrleo. Los datos de los medios de comunicacin
social, analizados por el procesamiento del lenguaje natural, se pueden combinar con
los datos de ventas en tiempo real, con el fin de determinar el efecto que una
campaa de marketing est teniendo sobre la confianza del cliente y el
comportamiento de compra.
La minera de datos. Un conjunto de tcnicas para extraer patrones a partir de grandes
conjuntos de datos mediante la combinacin de los mtodos de la estadstica y la
mquina de aprendizaje de la gestin de bases de datos. Estas tcnicas incluyen el
aprendizaje de reglas de asociacin, anlisis de agrupamiento, clasificacin y regresin.
Las aplicaciones incluyen datos de los clientes de minera para determinar los
segmentos con ms probabilidades de responder a una oferta, la minera humana, los
datos sobre recursos para identificar las caractersticas de la mayora de los empleados
de xito , o anlisis de la cesta de modelar el comportamiento de compra de los
clientes .
Aprendizaje Ensemble. El uso de varios modelos de prediccin (cada uno desarrollado

utilizando estadsticas y / o aprendizaje automtico) para obtener un mejor
rendimiento predictivo que podra obtenerse de cualquiera de los modelos
constitutivos. Este es un tipo de aprendizaje supervisado.
Los algoritmos genticos. Una tcnica que se utiliza para la optimizacin que se inspira
en el proceso de evolucin natural o "supervivencia del ms apto. " En esta tcnica, las
posibles soluciones se codifican como "cromosomas " que pueden combinar y mutar.
Estos cromosomas individuales se seleccionan para la supervivencia dentro de un "
entorno " modelado que determina la idoneidad o el rendimiento de cada individuo de
la poblacin. A menudo descrito como un tipo de " algoritmo evolutivo ", estos
algoritmos son muy adecuados para la resolucin de problemas no lineales. Ejemplos
de aplicaciones incluyen la mejora de la planificacin de tareas en la fabricacin y
optimizar el rendimiento de una cartera de inversiones.
El aprendizaje automtico. Una subespecialidad de la informtica (dentro de un

campo histricamente llamada "inteligencia artificial ") se ocupa del diseo y
desarrollo de algoritmos que permiten a los ordenadores evolucionan
comportamientos basados en datos empricos. Un aspecto importante de la
investigacin de aprendizaje de mquina es aprender de forma automtica para
reconocer patrones complejos y tomar decisiones inteligentes basadas en datos.
Procesamiento del lenguaje natural es un ejemplo de aprendizaje automtico.
Procesamiento del lenguaje natural (NLP). Un conjunto de tcnicas de una

subespecialidad de la informtica (dentro de un campo histricamente llamada
"inteligencia artificial ") y de la lingstica que utiliza algoritmos computacionales para
analizar el lenguaje humano (natural). Muchas de las tcnicas de PNL son tipos de
aprendizaje automtico . Una de las aplicaciones de la PNL utiliza anlisis de los
sentimientos en las redes sociales para determinar cmo los clientes potenciales estn
reaccionando a una campaa de marca .
Las redes neuronales. Los modelos computacionales, inspirados en la estructura y el

funcionamiento de las redes neuronales biolgicas (es decir, las clulas y conexiones
dentro de un cerebro), que encuentra patrones en los datos. Las redes neuronales son
muy adecuadas para la bsqueda de patrones no lineales. Pueden ser utilizados para el
reconocimiento de patrones y optimizacin. Algunas aplicaciones de redes neuronales
implican aprendizaje supervisado y otros implican aprendizaje no supervisado.
Ejemplos de aplicaciones incluyen la identificacin de clientes de alto valor que estn
en riesgo de abandonar una empresa en particular y la identificacin de las
reclamaciones de seguros fraudulentas.
El anlisis de redes . Un conjunto de tcnicas utilizadas para caracterizar las relaciones

entre los nodos discretos en un grfico o en una red. En el anlisis de redes sociales, se
analizan las conexiones entre los individuos de una comunidad u organizacin , por
ejemplo , cmo viaja la informacin, o que tiene la mayor influencia sobre quin.
Ejemplos de aplicaciones incluyen la identificacin de los principales lderes de opinin
para apuntar para la comercializacin, y la identificacin de cuellos de botella en los
flujos de informacin de la empresa .
Optimizacin. Una cartera de tcnicas numricas utilizadas para redisear los sistemas
y procesos complejos para mejorar su rendimiento de acuerdo con una o ms medidas
objetivas ( por ejemplo , el costo, la velocidad o fiabilidad) . Ejemplos de aplicaciones
incluyen la mejora de los procesos operativos, tales como la programacin , el
enrutamiento y distribucin de la planta , y la toma de decisiones estratgicas, como
estrategia gama de productos , anlisis de inversiones vinculadas , y la estrategia de la
cartera de I + D . Los algoritmos genticos son un ejemplo de una tcnica de
optimizacin.
El reconocimiento de patrones. Un conjunto de tcnicas de aprendizaje automtico

que asignan algn tipo de valor de salida (o etiqueta) a un valor de entrada dado (o
instancia) de acuerdo con un algoritmo especfico. Tcnicas de clasificacin son un
ejemplo.
El modelo predictivo. Un conjunto de tcnicas en las que se crea o se elige para

predecir mejor la probabilidad de un resultado de un modelo matemtico. Un ejemplo
de una aplicacin en la gestin de relaciones con los clientes es el uso de modelos de
prediccin para estimar la probabilidad de que un cliente se " rotacin " (es decir ,
cambiar de proveedores) o la probabilidad de que un cliente puede ser vendido cruz
otro producto . La regresin es un ejemplo de las muchas tcnicas de modelado
predictivo.
Regresin. Un conjunto de tcnicas estadsticas para determinar cmo el valor de la

variable dependiente cambia cuando una o ms variables independientes se modifica.
A menudo se utiliza para el pronstico o prediccin. Ejemplos de aplicaciones incluyen
los volmenes de ventas de prediccin basado en diversos mercados y variables
econmicas o determinar qu parmetros de fabricacin medibles satisfaccin del
cliente ms influencia. Se utiliza para la extraccin de datos.
El anlisis de sentimientos. Aplicacin de procesamiento de lenguaje natural y otras

tcnicas analticas para identificar y extraer la informacin subjetiva de material de
texto de origen. Los aspectos clave de estos anlisis incluyen la identificacin de la
funcin, aspecto, o el producto sobre el que se est expresando un sentimiento, y
determinar el tipo, la " polaridad " (es decir, positivo, negativo o neutro) y el grado y la
fuerza del sentimiento. Ejemplos de aplicaciones incluyen las empresas que solicitan
anlisis de sentimientos para analizar los medios de comunicacin social (por ejemplo,
blogs, microblogs y redes sociales) para determinar cmo los diferentes segmentos de
clientes y las partes interesadas estn reaccionando a sus productos y acciones.
El procesamiento de seales. Un conjunto de tcnicas de ingeniera elctrica y

matemticas aplicadas originalmente desarrollado para analizar las seales continuas y
discretas , es decir , las representaciones de las magnitudes fsicas analgicas ( incluso
si representa digitalmente ) , tales como seales de radio, sonidos e imgenes. Esta
categora incluye las tcnicas de la teora de deteccin de seales , que cuantifica la
capacidad de discernir entre la seal y el ruido . Ejemplos de aplicaciones incluyen el
modelado para el anlisis de series de tiempo o la aplicacin de la fusin de datos para
determinar una lectura ms precisa mediante la combinacin de datos de un conjunto
de fuentes de datos menos precisos ( es decir , la extraccin de la seal del ruido ) .
Anlisis espacial. Un conjunto de tcnicas, algunas aplica a partir de estadsticas, que

analizan las propiedades topolgicas, geomtricas, o geogrficos codificados en un
conjunto de datos. A menudo, los datos para el anlisis espacial proviene de los
sistemas de informacin geogrfica (SIG) que los datos de captura que incluye
informacin de ubicacin, por ejemplo, direcciones o latitud / longitud coordina.
Ejemplos de aplicaciones incluyen la incorporacin de los datos espaciales en
regresiones espaciales (por ejemplo, cmo es la disposicin del consumidor a
comprar un producto correlacionado con la ubicacin?) O simulaciones (por ejemplo,
cmo sera una red de cadena de suministro de fabricacin de realizar con los sitios
en diferentes lugares?).
Estadsticas. La ciencia de la recopilacin, organizacin e interpretacin de datos,

incluyendo el diseo de encuestas y experimentos. Las tcnicas estadsticas se utilizan
a menudo para hacer juicios sobre lo que las relaciones entre las variables podran
haber ocurrido por casualidad (la " hiptesis nula ") , y lo que las relaciones entre las
variables de resultado probable de algn tipo de relacin causal subyacente (es decir ,
que son " estadsticamente significativa") . Las tcnicas estadsticas se utilizan tambin
para reducir la probabilidad de errores de tipo I (" falsos positivos ") y tipo II errores
("falsos negativos"). Un ejemplo de una aplicacin es las pruebas A / B para determinar
qu tipo de material de marketing ser ms aumentar los ingresos.
Aprendizaje supervisado. El conjunto de tcnicas de aprendizaje automtico que
infieren una funcin o relacin de un conjunto de datos de entrenamiento. Los
ejemplos incluyen clasificacin y de vectores de soporte machines.30 Esto es diferente
de aprendizaje no supervisado.
Simulacin. Modelado del comportamiento de los sistemas complejos, a menudo

usados para la prediccin, la prediccin y la planificacin de escenarios. Simulaciones
de Monte Carlo, por ejemplo , son una clase de algoritmos que se basan en el
muestreo aleatorio repetido , es decir, se ejecuta miles de simulaciones , cada uno
basado en diferentes supuestos . El resultado es un histograma que proporciona una
distribucin de probabilidad de los resultados. Una aplicacin est evaluando la
probabilidad de cumplir con las metas financieras dadas las incertidumbres sobre el
xito de varias iniciativas.
Anlisis de series temporales. Conjunto de tcnicas de ambas estadsticas y

procesamiento de la seal para el anlisis de secuencias de puntos de datos, que
representa los valores en momentos sucesivos, para extraer las caractersticas
significativas de los datos. Ejemplos de anlisis de series temporales incluyen el valor
por hora de un ndice burstil o el nmero de pacientes diagnosticados con una
condicin determinada todos los das. Pronstico de series de tiempo es el uso de un
modelo para predecir los valores futuros de una serie de tiempo sobre la base de los
valores pasados conocidos de la misma o de otras series. Algunas de estas tcnicas,
por ejemplo, el modelado estructural, se descomponen en una serie tendencia,
componentes estacionales, y residuales, que pueden ser tiles para la identificacin de
patrones cclicos en los datos. Ejemplos de aplicaciones incluyen las cifras de ventas de
previsin, o predecir el nmero de personas que sern diagnosticadas con una
enfermedad infecciosa.
Aprendizaje no supervisado. Un conjunto de tcnicas de aprendizaje automtico que

se encuentra oculto en la estructura de datos sin etiquetar. El anlisis de
conglomerados es un ejemplo de aprendizaje no supervisado (en contraste con el
aprendizaje supervisado).
Visualizacin. Las tcnicas utilizadas para la creacin de imgenes, diagramas o

animaciones para comunicarse, entender y mejorar los resultados de los anlisis de
grandes datos (vase la ltima seccin de este captulo).
TECNOLOGAS BIG DATA
Hay un nmero cada vez mayor de las tecnologas utilizadas para agregar, manipular,
manejar y analizar grandes volmenes de datos . Hemos detallado algunas de las
tecnologas ms importantes, pero la lista no es exhaustiva , especialmente a medida
que ms tecnologas continan siendo desarrollados para apoyar las tcnicas de
grandes volmenes de datos , algunos de los cuales hemos enumerado .
Big Table. Sistema de base de datos distribuida patentada incorporada en el sistema
de archivos de Google. Inspiracin para HBase .
La inteligencia empresarial (BI). Un tipo de software de aplicacin diseado para

informar, analizar y presentar datos. Herramientas de BI se utilizan a menudo para leer
los datos que se han almacenado previamente en un almacn de datos o data mart .
Herramientas de BI tambin se pueden utilizar para crear informes estndar que se
generan en una base peridica, o para mostrar informacin en cuadros de mando de
gestin en tiempo real, es decir , pantallas integradas de mtricas que miden el
rendimiento de un sistema .
Cassandra. Un sistema de cdigo abierto (libre) la base de datos de gestin diseado

para manejar grandes cantidades de datos en un sistema distribuido. Este sistema fue
desarrollado originalmente en Facebook y ahora se gestiona como un proyecto de la
fundacin Apache Software.
La computacin en nube. Un paradigma de computacin en el que los recursos de

computacin altamente escalables, a menudo configurados como un sistema
distribuido, se ofrecen como un servicio a travs de una red.
Data mart. Subconjunto de un almacn de datos, utilizado para proporcionar datos a

los usuarios por lo general a travs de herramientas de inteligencia de negocios.
Almacn de datos. Base de datos especializada optimizada para los informes, a

menudo utilizada para almacenar grandes cantidades de datos estructurados. Los
datos se carga utilizando ETL (extraccin, transformacin y carga) herramientas de
almacenes de datos operacionales, y los informes se generan a menudo el uso de
herramientas de inteligencia de negocios.
Sistema distribuido. Varios equipos, la comunicacin a travs de una red, utilizan para
resolver un problema de clculo comn. El problema se divide en mltiples tareas,
cada una de las cuales se resuelve mediante uno o ms ordenadores que trabajan en
paralelo. Ventajas de los sistemas distribuidos incluyen un mayor rendimiento a menor
coste (es decir, debido a que un grupo de equipos de gama baja puede ser menos
costoso que un solo ordenador de gama alta), una confiabilidad ms alta (es decir,
debido a la falta de un punto nico de fallo), y ms escalabilidad (es decir , porque el
aumento de la potencia de un sistema distribuido se puede lograr por la simple adicin
de ms nodos en lugar de sustituir completamente un ordenador central) .
Dynamo. Sistema de almacenamiento de datos distribuidos propietario desarrollado

por Amazon .
Extraccin, transformacin y carga (ETL). Las herramientas de software que se utilizan
para extraer datos de fuentes externas, transformarlas para satisfacer las necesidades
operativas, y cargarlos en un almacn de base de datos o de datos.
Google File System. Sistema de archivos distribuido propietario desarrollado por

Google, parte de la inspiracin para Hadoop.
Hadoop. Una de cdigo abierto (libre) marco de software para el procesamiento de

grandes conjuntos de datos en ciertos tipos de problemas en un sistema distribuido. Su
desarrollo fue inspirado por el Sistema de Archivo de Google MapReduce y Google. Fue
desarrollado originalmente en Yahoo! y ahora se gestiona como un proyecto de la
Fundacin de Software Apache.
HBase. Una fuente abierta (gratis), distribuido, bases de datos no relacionales como
modelo Big Table de Google. Fue desarrollado originalmente por Powerset y ahora se
gestiona como un proyecto de la fundacin Apache Software como parte de la
Hadoop.
MapReduce. Un marco de software introducido por Google para procesar grandes

conjuntos de datos en ciertos tipos de problemas en un system.32 distribuido tambin
implementado en Hadoop .
Mashup. Una aplicacin que utiliza y combina la presentacin o la funcionalidad de los

datos a partir de dos o ms fuentes para crear nuevos servicios. Estas aplicaciones
suelen estar disponibles en la Web , y con frecuencia utilizan los datos de acceso a
travs de interfaces de programacin de aplicaciones abiertas o de fuentes de datos
abiertas .
Metadatos. Los datos que describen el contenido y el contexto de los archivos de

datos, por ejemplo, mediante la creacin, el propsito, hora y fecha de creacin y
autor.
Base de datos no relacionales. Una base de datos que no almacena los datos en tablas
(filas y columnas). (En contraste con bases de datos relacionales).
R. Una fuente abierta lenguaje de programacin y el software de entorno (gratuita)

para computacin y grficos estadsticos. El lenguaje R se ha convertido en un estndar
de facto entre los estadsticos para el desarrollo de software estadstico y es
ampliamente utilizado para el desarrollo de software de estadstica y anlisis de datos.
R forma parte del Proyecto GNU, una colaboracin que apoya proyectos de cdigo
abierto.
Base de datos relacional. Una base de datos formado por una coleccin de tablas
(relaciones), es decir, los datos se almacenan en filas y columnas. Sistemas de gestin
de bases de datos relacionales (RDBMS) almacenan un tipo de datos estructurados.
SQL es el lenguaje ms utilizado para la gestin de bases de datos relacionales (ver
punto siguiente).
Datos semi -estructurados. Los datos que no se ajustan a los campos fijos pero
contienen etiquetas y otros marcadores para elementos de datos separadas Ejemplos
de datos semi-estructurados incluyen XML o de texto HTML con etiquetas. Contraste
con los datos estructurados y datos no estructurados.
SQL. Originalmente un acrnimo de lenguaje de consulta estructurado SQL es un

lenguaje de programacin diseado para la gestin de datos en bases de datos
relacionales. Esta tcnica incluye la posibilidad de insertar, consultar, actualizar y
eliminar datos, as como administrar el esquema de datos (estructuras de base de
datos) y controlar el acceso a los datos en la base de datos.
Procesamiento Stream. Tecnologas diseadas para procesar grandes flujos en tiempo

real de datos de eventos. Procesamiento de flujo permite que las aplicaciones como el
comercio algortmico en los servicios financieros, las aplicaciones de procesamiento de
eventos RFID, deteccin de fraudes, monitorizacin de procesos y servicios basados en
la localizacin de las telecomunicaciones. Tambin conocido como el procesamiento
de flujo de eventos.
Estructurado de datos. Los datos que residen en campos fijos. Algunos ejemplos de
datos estructurados incluyen bases de datos relacionales o datos en hojas de clculo.
Contraste con los datos semi-estructurados y datos no estructurados.
Los datos no estructurados. Datos que no residen en campos fijos. Los ejemplos
incluyen el texto de forma libre (por ejemplo, los libros, los artculos, el cuerpo de los
mensajes de correo electrnico), audio sin etiqueta, imagen y datos de vdeo.
Contraste con los datos estructurados y datos semi - estructurados.
Visualizacin. Las tecnologas utilizadas para la creacin de imgenes, diagramas o

animaciones para comunicar el mensaje de que a menudo se utilizan para sintetizar los
resultados de los anlisis de grandes datos (vase la seccin siguiente para ejemplos).
Recomendaciones
scar Mndez, CEO de Paradigma Tecnolgico y Stratioseal que para adoptar un

proyecto de big data hay que empezar poco a poco, no a la manera del Big Bang.
Adems, hay que tener en cuenta que no todos los datos que maneja una empresa
son valiosos; hay que discriminar bien cules lo son, y debo gestionarlos con
herramientas de big data, y cules no. Tener cuidado con la invasin de la
privacidad de los clientes o dotar de la mxima seguridad a los datos son, en opinin
del CEO, otras de las recomendaciones a seguir por las empresas, adems de
confiar en el equipo propio. Intentar automatizar al mximo la recogida y anlisis
de la informacin tampoco es bueno y quita ventajas competitivas. Adems, no hay
que olvidar que la inteligencia est en los profesionales de tu empresa, aadi.
En este sentido, para Mndez, lo mejor es que las empresas enseen a sus
empleados a utilizar las herramientas de big data en lugar de contratar expertos
en la materia. Es ms fcil ensear big data a tus empleados que ensearles cmo
funciona tu empresa, sentenci el experto.
Combinar varias tecnologas es otro de los consejos a seguir, segn el directivo,
aunque, en su opinin, la recomendacin ms valiosa y el mayor riesgo es no
ignorar el big data. Las empresas tienen que empezar ya a utilizar las tecnologas
de big data. Y si puede ser hoy, mejor que maana, indic.
Lo que es evidente es que, segn las ltimas predicciones de IDC e IBM, uno de los
grandes jugadores en esta materia, los datos y el anlisis de stos cada vez jugarn
un mayor papel en la gestin de los negocios, lo que har incluso que emerjan
nuevos modelos, productos y servicios.

Trabajo Big Data

Cargado por

Copyright:

Formatos disponibles

Trabajo Big Data

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo Big Data

Cargado por

Copyright:

Formatos disponibles

BIG DATA

Introduccin a Big Data

Todos los das se escriben comentarios en Facebook en Twitter y se suben videos a

A medida que los formatos digitales se vuelven ms sofisticados, se crean ms y ms

Volumen: Esel crecimiento exponencial de los volmenes de datos es una cuestin

La variedad describe el nmero de tipos diferentes de datos. Interpretar y analizar

Tipos de datos de Big Data

Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se

Tipos de datos de Big Data

BIG DATA y seguridad

Estn preparadas las empresas para aprovechar el potencial de la tecnologa

Aunque el 73% de los participantes en el estudio afirma poder valorar su estado de

Ms y ms informacin requiere otras tcnicas de seguridad

BIG DATA: los datos como valor de negocio

Big data es informacin, proceso y almacenamiento, pero no solo eso. El

BIG DATA Y LA NUBE

TCNICAS Y TECNOLOGAS BIG DATA

Una amplia variedad de tcnicas y tecnologas se ha desarrollado y adaptado para

Este informe se centra en documentar el valor potencial de que el aprovechamiento de

TCNICAS PARA EL ANLISIS DE BIG DATA

Hay muchas tcnicas que se basan en disciplinas como la estadstica y la informtica

Aprendizaje de reglas de asociacin. Un conjunto de tcnicas para descubrir

El anlisis de conglomerados. Un mtodo estadstico para clasificar los objetos que se

Fusin de datos e integracin de datos. Un conjunto de tcnicas que se integran y

Aprendizaje Ensemble. El uso de varios modelos de prediccin (cada uno desarrollado

El aprendizaje automtico. Una subespecialidad de la informtica (dentro de un

Procesamiento del lenguaje natural (NLP). Un conjunto de tcnicas de una

Las redes neuronales. Los modelos computacionales, inspirados en la estructura y el

El anlisis de redes . Un conjunto de tcnicas utilizadas para caracterizar las relaciones

El reconocimiento de patrones. Un conjunto de tcnicas de aprendizaje automtico

El modelo predictivo. Un conjunto de tcnicas en las que se crea o se elige para

Regresin. Un conjunto de tcnicas estadsticas para determinar cmo el valor de la

El anlisis de sentimientos. Aplicacin de procesamiento de lenguaje natural y otras

El procesamiento de seales. Un conjunto de tcnicas de ingeniera elctrica y

Anlisis espacial. Un conjunto de tcnicas, algunas aplica a partir de estadsticas, que

Estadsticas. La ciencia de la recopilacin, organizacin e interpretacin de datos,

Simulacin. Modelado del comportamiento de los sistemas complejos, a menudo

Anlisis de series temporales. Conjunto de tcnicas de ambas estadsticas y

Aprendizaje no supervisado. Un conjunto de tcnicas de aprendizaje automtico que

Visualizacin. Las tcnicas utilizadas para la creacin de imgenes, diagramas o

TECNOLOGAS BIG DATA

La inteligencia empresarial (BI). Un tipo de software de aplicacin diseado para

Cassandra. Un sistema de cdigo abierto (libre) la base de datos de gestin diseado

La computacin en nube. Un paradigma de computacin en el que los recursos de

Data mart. Subconjunto de un almacn de datos, utilizado para proporcionar datos a

Almacn de datos. Base de datos especializada optimizada para los informes, a

Dynamo. Sistema de almacenamiento de datos distribuidos propietario desarrollado

Google File System. Sistema de archivos distribuido propietario desarrollado por

Hadoop. Una de cdigo abierto (libre) marco de software para el procesamiento de

MapReduce. Un marco de software introducido por Google para procesar grandes

Mashup. Una aplicacin que utiliza y combina la presentacin o la funcionalidad de los

Metadatos. Los datos que describen el contenido y el contexto de los archivos de

R. Una fuente abierta lenguaje de programacin y el software de entorno (gratuita)

SQL. Originalmente un acrnimo de lenguaje de consulta estructurado SQL es un

Procesamiento Stream. Tecnologas diseadas para procesar grandes flujos en tiempo

Visualizacin. Las tecnologas utilizadas para la creacin de imgenes, diagramas o

scar Mndez, CEO de Paradigma Tecnolgico y Stratioseal que para adoptar un

También podría gustarte