Introducción A La Ciencia de Datos y El Big Data
Introducción A La Ciencia de Datos y El Big Data
Introducción A La Ciencia de Datos y El Big Data
https://courses.edx.org/courses/course-
v1:TecdeMonterreyX+CDICD.1X+3T2019/courseware/5e5a92e84adb4aebae2d2c0c0fc69531/6bb55b4b4fbd48a8947af71954925
Objetivo y temario
A través de este curso lograrás:
Identificar los diferentes tipos de análisis de datos utilizados para la propuesta de soluciones.
4. pues exploramos la ruta del nacimiento del término ciencia de datos, veremos dos temas
5. que se juntan.
6. Primero hay que comprender que es Big Data. De acuerdo a la definición de Gartner realizada
7. en el 2001: Big data es un conjunto de datos de una gran variedad y formatos; que se acumulan
8. en grandes volúmenes y a una velocidad cada vez mayor. A esto es lo que se conoce como
9. las 3 V’s (dimensiones) de la Big Data de las que se hablará más adelante.
10. Un dato es la representación simbólica de un atributo, que puede ser cualitativo o cuantitativo,
11. de la información de un objeto; persona; ser viviente; organización; etc. Por ejemplo:
12. para determinar la información de una persona, se podrían considerar los siguientes atributos:
13. edad; estatura; género; estado de ánimo; color de ojos; etc. Esto nos arrojaría un
14. conjunto de condiciones o situaciones que de por si solos no aportan ninguna información
15. relevante; pero al ser agrupados y analizados se podría determinar cierto valor o hecho
17. Estableciendo esto en un contexto simple; el concepto de Big Data se refiere a datos
18. masivos y a menudo no estructurados, en los que las capacidades de procesamiento de las
19. herramientas tradicionales de gestión de datos resultan ser inadecuadas. Big Data puede
22. Aunque el término Big Data es relativamente nuevo, la tendencia a agrupar y almacenar
23. grandes volúmenes de información para análisis a futuro es muy antigua. El concepto se afianzó
24. a principios de la década de 2000, cuando Doug Laney, un analista de la industria formuló
26. Volumen. Las organizaciones recopilan datos de una amplia variedad de fuentes, incluidas
27. transacciones financieras, redes sociales, sensores o máquina a máquina. En el pasado,
28. el almacenamiento hubiera sido un problema, pero las nuevas tecnologías (como el conjunto
30. Velocidad. Los datos fluyen a una velocidad sin precedentes y, por lo tanto, deben gestionarse
31. de manera oportuna. El uso cada vez más frecuente de etiquetas RFID (identificaciones de radiofrecuencia),
34. Variedad. Los datos llegan en cualquier formato, desde datos estructurados y numéricos en
35. bases de datos tradicionales a no estructuradas, como documentos de texto, correo electrónico,
37. Cabe mencionar que estás son características que se empezaron a identificar en este nuevo
38. concepto. Algunas empresas como IBM o SAS han incluido una o hasta dos V’s más; pues
39. al paso del tiempo se han topado con otras problemáticas: La veracidad de los datos,
42. las manifestaciones por el nuevo alcalde en Paris, Francia; entonces datos como Paris
43. Hilton; Paris, Texas; Café Paris; etc., quedarían descartados. Y la variabilidad, en donde el
44. aumento exponencial de la velocidad y variedad de datos se combina con el hecho de que los
47. lo cual no se debe de confundir con las V’s de Big Data. En la figura 3, se muestra un
48. gráfico que muestra los tres niveles para la gestión de los datos, con cuatro dimensiones
49. en cada uno. En el primer nivel, están las conocidas características de Big Data; Volumen,
50. Velocidad y Variedad, así como una dimensión de Complejidad. Estás sirven para cuantificar
51. a los datos. El segundo nivel tiene más que ver con el intento de comprender y analizar
52. los datos. Consiste en las dimensiones de Tecnología, Uso generalizado, Clasificación
53. y Contratos. Y, el tercer nivel considera los aspectos relacionados con la reposición
54. y limpieza de datos para mantener la relevancia. Las dimensiones en este nivel consisten en
56.
Pregunta
¿Cuáles y qué son las 3 V's que surgieron en la década de los 2000 con la llegada del concepto de Big Data?
La respuesta correcta es la C. En la década del 2000 el analista de Gartner Doug Laney formuló 3 características que sirven para
identificar a los grandes volúmenes de datos, conocidos hoy como Big Data y estás son: Volumen (el gran tamaño que los datos que se
producen hoy en día está teniendo); Velocidad (la forma en la que los datos están fluyendo y la necesidad de contar con tecnologías
rápidas y eficientes para analizarlos en tiempo real) y Variedad (los diferentes tipos y fuentes de datos tanto estructurados; semi-
estructurados y no estructurados).
¿Qué es un dato?
La respuesta correcta es la C. Un dato es la representación simbólica de un atributo que puede ser cuantificable ó que brinda ciertas
cualidades (estado de ánimo; nivel de confianza, etc.); atribuible a una persona, objeto; organización o ser viviente.
Los datos
¿Sabes qué son los datos y los diferentes tipos de análisis que se usan para comprenderlos? A continuación lo revisaremos.
Aprovechar el poder de Big Data y la Ciencia de Datos puede ser desalentador. Por lo tanto, en el siguiente white paper (artículo) que
desarrolló la empresa PureStore titulado AI, Analytics and The Future of your Enterprise en donde se podrá profundizar más sobre cómo
estás tendencias están creando nuevas oportunidades a las empresas.
Adicionalmente es recomendable revisar el siguiente white paper (artículo) titulado MACHINE LEARNING BASICS An Illustrated Guide for
Non-Technical Readers desarrollado por la empresa Data iku que se enfoca en la terminología sobre estas tendencias desde un enfoque
para personas no técnicas.
2. ¿Cómo funciona Big Data? Hasta este punto se ha entendido que es Big
3. Data y qué a través del análisis de grandes volúmenes de datos puede brindar nuevos conocimientos
4. que abren nuevas oportunidades y a la vez ayuda a la generación de nuevos modelos comerciales
5. o a mejorarlos; además para ayudar a las organizaciones a una buena toma de decisiones.
6. Pero para entender más claramente como funciona, es necesario conocer las tres acciones clave
9. aplicaciones dispares. Los mecanismos tradicionales de integración de datos, como ETL (por sus
11. de esta tarea; para lo cual se requieren nuevas estrategias y tecnologías para analizar grandes
12. conjuntos de datos en capacidades que van desde los terabytes o incluso peta bytes.
13. Durante la integración, se ingresan los datos para posteriormente procesarlos y asegurarse
14. de que estén formateados y disponibles de manera adecuada para que los analistas del
16. Para entender este proceso, hay que imaginar que se tiene una planta en donde es necesario
17. determinar la producción de la demanda para el primer semestre. El sistema ERP (Enterprise
18. Resource Planning) en conjunto con el sistema CRM (Customer Relation Management) con los
19. que cuenta la planta, pueden arrojar información que ayude a estimar dicha demanda; estableciendo
20. el número de pedidos que se tienen pactados; el índice de inventario; el plan de producción;
21. etc., esta información se cruza y se genera un reporte que ayuda a la alta dirección
22. a determinar el plan de producción para el periodo deseado. En este esquema, un proceso
23. tradicional de ETL es muy sencillo, se extrae información de ambos sistemas; se transforma
24. para poder usarla en algún programa de hoja de cálculo y finalmente se carga para introducirla
26. Ahora bien, poniendo más imaginación; esta planta pertenece a un conglomerado de 115
27. plantas distribuidas en 50 países con regulaciones y especificaciones muy particulares y en donde
29. visión global de la compañía. Y para añadir un toque complejo, se ha descubierto que los
30. clientes en algunas regiones han empezado a cambiar (la generación millennials ha empezado
32. y se rigen mucho por los comentarios e información que inunda el internet, en específico las
33. redes sociales. Esto implica que ahora es necesario incluir en el análisis de la demanda
34. información proveniente de redes sociales, en donde es necesario determinar que producto
35. es el más vendido; el más criticado; el que se necesita renovar; etc., y a la vez
36. analizar diferentes elementos de información: comentarios; videos; imágenes; tweets; clic
37. en redes sociales. Es aquí en donde la acción de integrar se vuelve más compleja; pues
38. debe de existir aquel sistema que pueda manipular los distintos tipos de información y obtener
39. un análisis valioso.
42. espacio suficiente para almacenar todos esos datos. Tal vez esta es la acción más compleja
43. de entender y de encontrar la solución más adecuada para la organización. Para darse
44. una idea: un video de la plataforma YouTube con una calidad media de 480 píxeles (unidad
45. de medida para representar una imagen o gráfico en un dispositivo) utiliza 4 Megabytes por
46. cada dos minutos; por lo que si se tiene un disco portátil de almacenamiento de 1 Gigabytes
48. Con lo anterior se puede determinar que tener una alternativa local para la gestión de
49. la información a utilizar en Big Data podría ser muy costosa para la organización. Actualmente
50. muchas empresas han empezado a migrar el almacenamiento de cierta información en la nube. Pues es
51. posible almacenar los datos en la forma que se desee y lo más importante realizar ciertas
53. de esto se encuentran: IBM Watson; Amazon AWS; etc. Aunque todavía existe un poco de
55. temprano harán de esta tecnología un “comodity”. La nube está ganando popularidad gradualmente
56. porque es compatible con los requisitos de cómputo actuales y permite aumentar los recursos
57. según sea necesario; con lo cual se convierte en el aliado ideal para Big Data.
58. Analizar La mejor inversión para una organización
59. al utilizar Big Data radica en la forma en la que se analiza la información y como se
60. actuará basando en el análisis de los datos. Para que este análisis rinda los mejores
61. frutos hay dos aliados más para Big Data, el aprendizaje automático (Machine Learning)
63. artificial que a través de técnicas estadísticas provee a las computadoras la habilidad de
64. “aprender” de los datos y se “entrena” a las computadoras para seguir desarrollando
66. El segundo es conocido como una técnica para la implementación del aprendizaje automático.
67. Sin embargo, es otro subconjunto de la inteligencia artificial que a través del concepto de Redes
69. biología del cerebro humano y la forma en la que se realizan las interconexiones entre
70. las neuronas para poder aprender. Por ejemplo, en cada neurona se almacena cierta información
71. para que al conectarse con otra neurona puedan determinar un patrón; un proceso o actividad
72. que derive en conocimiento o acción. El primer uso que se le dio al aprendizaje profundo
73. fue el poder identificar gatitos en videos de YouTube. Ahora se aplica esta tecnología
75. e inclusive lo utiliza Netflix para ayudar a sus usuarios a recomendar la mejor película
La respuesta correcta es la D. Para entender mejor como funciona Big Data es necesario conocer las 3 acciones clave que se involucran
en su funcionamiento: Integrar los datos; esta acción está relacionada con la forma en la que los datos deben de ingresarse; para
posteriormente procesarlos y asegurarse que están en el formato correcto y disponibles de forma adecuada para que se puedan
analizar. Gestionar los datos; esta acción determinar la forma en la que los datos deben ser almacenados para una fácil gestión y control
de los mismos. Analizar los datos, es la forma en la que los datos serán estudiados para determinar la mejor forma de utilizarlos para el
beneficio de la organización.
Enviar
Algunos problemas tienen opciones como guardar, restablecer, sugerencias o mostrar respuesta. Estas opciones aparecen después de oprimir el botón
Enviar.
La respuesta correcta es la D. El aprendizaje profundo (Deep Learning) subconjunto de la inteligencia artificial que a través del concepto
de Redes Neuronales Artificiales en donde se buscó inspiración en entender cómo funciona la biología del cerebro humano y la forma en la
que se realizan las interconexiones entre las neuronas para poder aprender. Ahora se aplica esta tecnología en el diseño de automóviles
autónomos.