Introducción A La Ciencia de Datos y El Big Data

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 11

Introducción a la Ciencia de Datos y el Big Data

https://courses.edx.org/courses/course-
v1:TecdeMonterreyX+CDICD.1X+3T2019/courseware/5e5a92e84adb4aebae2d2c0c0fc69531/6bb55b4b4fbd48a8947af71954925

Objetivo y temario
A través de este curso lograrás:

 Reconocer a la Ciencia de Datos como herramienta para la solución de problemas en la organización.

 Identificar los diferentes tipos de análisis de datos utilizados para la propuesta de soluciones.

 Analizar cómo la ética influye en los proyectos de Ciencia de Datos.

Los temas que se van a abordar en este curso son:

 Subtema 1.1 ¿Qué es la Ciencia de Datos?


Tema 1. Panorama general de
 Subtema 1.2 ¿Cómo funciona Big Data?
Big Data y Ciencia de Datos

 Subtema 2.1 Elementos del Ciclo de Vida


Tema 2. Ciclo de Vida de
 Subtema 2.2 Metodologías para proyectos de Ciencia de Datos
Proyectos de Ciencia de Datos
 Subtema 3.1 Casos
Tema 3. Casos, Aplicaciones y
 Subtema 3.2 Aplicaciones de la Ciencia de Datos
Propuesta para un proyecto de
Ciencia de Datos

 Subtema 4.1 Ética y Ciencia de Datos


Tema 4. Propuesta para un
 Subtema 4.2 Incorporaciónde la ética a la Ciencia de Datos
proyecto de Ciencia de Datos

¿Qué es exactamente Ciencia de Datos?

1. io de la transcripción. Saltar al final.

2. ¿Qué es exactamente Ciencia de Datos?

3. Para entender qué es la Ciencia de Datos; es necesario remontarse un poco en la historia;

4. pues exploramos la ruta del nacimiento del término ciencia de datos, veremos dos temas

5. que se juntan.

6. Primero hay que comprender que es Big Data. De acuerdo a la definición de Gartner realizada

7. en el 2001: Big data es un conjunto de datos de una gran variedad y formatos; que se acumulan
8. en grandes volúmenes y a una velocidad cada vez mayor. A esto es lo que se conoce como

9. las 3 V’s (dimensiones) de la Big Data de las que se hablará más adelante.

10. Un dato es la representación simbólica de un atributo, que puede ser cualitativo o cuantitativo,

11. de la información de un objeto; persona; ser viviente; organización; etc. Por ejemplo:

12. para determinar la información de una persona, se podrían considerar los siguientes atributos:

13. edad; estatura; género; estado de ánimo; color de ojos; etc. Esto nos arrojaría un

14. conjunto de condiciones o situaciones que de por si solos no aportan ninguna información

15. relevante; pero al ser agrupados y analizados se podría determinar cierto valor o hecho

16. que fuera relevante.

17. Estableciendo esto en un contexto simple; el concepto de Big Data se refiere a datos

18. masivos y a menudo no estructurados, en los que las capacidades de procesamiento de las

19. herramientas tradicionales de gestión de datos resultan ser inadecuadas. Big Data puede

20. ocupar terabytes y petabytes de espacio de almacenamiento en diversos formatos, incluidos

21. texto, video, sonido, imágenes y más.

22. Aunque el término Big Data es relativamente nuevo, la tendencia a agrupar y almacenar

23. grandes volúmenes de información para análisis a futuro es muy antigua. El concepto se afianzó

24. a principios de la década de 2000, cuando Doug Laney, un analista de la industria formuló

25. la conocida definición de los tres V’s de la Big Data:

26. Volumen. Las organizaciones recopilan datos de una amplia variedad de fuentes, incluidas
27. transacciones financieras, redes sociales, sensores o máquina a máquina. En el pasado,

28. el almacenamiento hubiera sido un problema, pero las nuevas tecnologías (como el conjunto

29. de utilidades de software denominado Hadoop) facilitan la tarea.

30. Velocidad. Los datos fluyen a una velocidad sin precedentes y, por lo tanto, deben gestionarse

31. de manera oportuna. El uso cada vez más frecuente de etiquetas RFID (identificaciones de radiofrecuencia),

32. sensores y medición inteligente (sistemas de lectura de contadores) aumentan la necesidad

33. de gestionar flujos de datos en tiempo real o casi.

34. Variedad. Los datos llegan en cualquier formato, desde datos estructurados y numéricos en

35. bases de datos tradicionales a no estructuradas, como documentos de texto, correo electrónico,

36. video, audio, datos de cotizaciones y transacciones financieras.

37. Cabe mencionar que estás son características que se empezaron a identificar en este nuevo

38. concepto. Algunas empresas como IBM o SAS han incluido una o hasta dos V’s más; pues

39. al paso del tiempo se han topado con otras problemáticas: La veracidad de los datos,

40. pues es de suma importancia determinar si el dato analizado es relevante o no para el

41. análisis de la información; por ejemplo, si se esta analizando el estado anímico de

42. las manifestaciones por el nuevo alcalde en Paris, Francia; entonces datos como Paris

43. Hilton; Paris, Texas; Café Paris; etc., quedarían descartados. Y la variabilidad, en donde el

44. aumento exponencial de la velocidad y variedad de datos se combina con el hecho de que los

45. flujos pueden ser muy inconsistentes y con picos periódicos.


46. Sin embargo, con el paso del tiempo, Gartner identificó lo que serían las dimensiones;

47. lo cual no se debe de confundir con las V’s de Big Data. En la figura 3, se muestra un

48. gráfico que muestra los tres niveles para la gestión de los datos, con cuatro dimensiones

49. en cada uno. En el primer nivel, están las conocidas características de Big Data; Volumen,

50. Velocidad y Variedad, así como una dimensión de Complejidad. Estás sirven para cuantificar

51. a los datos. El segundo nivel tiene más que ver con el intento de comprender y analizar

52. los datos. Consiste en las dimensiones de Tecnología, Uso generalizado, Clasificación

53. y Contratos. Y, el tercer nivel considera los aspectos relacionados con la reposición

54. y limpieza de datos para mantener la relevancia. Las dimensiones en este nivel consisten en

55. Validación, Vinculación, Fidelidad y Perdurabilidad.

56.

Pregunta
¿Cuáles y qué son las 3 V's que surgieron en la década de los 2000 con la llegada del concepto de Big Data?

La respuesta correcta es la C. En la década del 2000 el analista de Gartner Doug Laney formuló 3 características que sirven para
identificar a los grandes volúmenes de datos, conocidos hoy como Big Data y estás son: Volumen (el gran tamaño que los datos que se
producen hoy en día está teniendo); Velocidad (la forma en la que los datos están fluyendo y la necesidad de contar con tecnologías
rápidas y eficientes para analizarlos en tiempo real) y Variedad (los diferentes tipos y fuentes de datos tanto estructurados; semi-
estructurados y no estructurados).

¿Qué es un dato?

La respuesta correcta es la C. Un dato es la representación simbólica de un atributo que puede ser cuantificable ó que brinda ciertas
cualidades (estado de ánimo; nivel de confianza, etc.); atribuible a una persona, objeto; organización o ser viviente.
Los datos
¿Sabes qué son los datos y los diferentes tipos de análisis que se usan para comprenderlos? A continuación lo revisaremos.

Para saber más


Para aprender más acerca del tema, te invitamos a ver los siguientes recursos:

AI, Analytics and The Future of your Enterprise


https://www.purestorage.com/pure-folio/showcase.html?
item=/type/pdf/subtype/doc/path//content/dam/purestorage/pdf/whitepapers/pure-primer-ai-analytics-and-the-future-of-your-
enterprise.pdf

Aprovechar el poder de Big Data y la Ciencia de Datos puede ser desalentador. Por lo tanto, en el siguiente white paper (artículo) que
desarrolló la empresa PureStore titulado AI, Analytics and The Future of your Enterprise en donde se podrá profundizar más sobre cómo
estás tendencias están creando nuevas oportunidades a las empresas.

Machine learning basics. An Illustrated Guide for Non-Technical Readers


https://courses.edx.org/asset-v1:ColumbiaX+CSMM.101x+1T2017+type@asset+block@AI_edx_ml_5.1intro.pdf

Adicionalmente es recomendable revisar el siguiente white paper (artículo) titulado MACHINE LEARNING BASICS An Illustrated Guide for
Non-Technical Readers desarrollado por la empresa Data iku que se enfoca en la terminología sobre estas tendencias desde un enfoque
para personas no técnicas.

¿Cómo funciona Big Data?


1. nicio de la transcripción. Saltar al final.

2. ¿Cómo funciona Big Data? Hasta este punto se ha entendido que es Big

3. Data y qué a través del análisis de grandes volúmenes de datos puede brindar nuevos conocimientos

4. que abren nuevas oportunidades y a la vez ayuda a la generación de nuevos modelos comerciales

5. o a mejorarlos; además para ayudar a las organizaciones a una buena toma de decisiones.

6. Pero para entender más claramente como funciona, es necesario conocer las tres acciones clave

7. que se involucran en Big Data:

8. Integrar Big data reúne datos de muchas fuentes y

9. aplicaciones dispares. Los mecanismos tradicionales de integración de datos, como ETL (por sus

10. siglas en inglés: extraer, transformar y cargar) generalmente no están a la altura

11. de esta tarea; para lo cual se requieren nuevas estrategias y tecnologías para analizar grandes

12. conjuntos de datos en capacidades que van desde los terabytes o incluso peta bytes.

13. Durante la integración, se ingresan los datos para posteriormente procesarlos y asegurarse

14. de que estén formateados y disponibles de manera adecuada para que los analistas del

15. negocio puedan comenzar a utilizarlos.

16. Para entender este proceso, hay que imaginar que se tiene una planta en donde es necesario

17. determinar la producción de la demanda para el primer semestre. El sistema ERP (Enterprise

18. Resource Planning) en conjunto con el sistema CRM (Customer Relation Management) con los

19. que cuenta la planta, pueden arrojar información que ayude a estimar dicha demanda; estableciendo
20. el número de pedidos que se tienen pactados; el índice de inventario; el plan de producción;

21. etc., esta información se cruza y se genera un reporte que ayuda a la alta dirección

22. a determinar el plan de producción para el periodo deseado. En este esquema, un proceso

23. tradicional de ETL es muy sencillo, se extrae información de ambos sistemas; se transforma

24. para poder usarla en algún programa de hoja de cálculo y finalmente se carga para introducirla

25. en un clásico archivo de Excel.

26. Ahora bien, poniendo más imaginación; esta planta pertenece a un conglomerado de 115

27. plantas distribuidas en 50 países con regulaciones y especificaciones muy particulares y en donde

28. la planeación de la producción de la demanda se hace por región, pero adecuándose a la

29. visión global de la compañía. Y para añadir un toque complejo, se ha descubierto que los

30. clientes en algunas regiones han empezado a cambiar (la generación millennials ha empezado

31. a desplazar a la generación X) y ahora su comportamiento y hábitos de compra han evolucionado

32. y se rigen mucho por los comentarios e información que inunda el internet, en específico las

33. redes sociales. Esto implica que ahora es necesario incluir en el análisis de la demanda

34. información proveniente de redes sociales, en donde es necesario determinar que producto

35. es el más vendido; el más criticado; el que se necesita renovar; etc., y a la vez

36. analizar diferentes elementos de información: comentarios; videos; imágenes; tweets; clic

37. en redes sociales. Es aquí en donde la acción de integrar se vuelve más compleja; pues

38. debe de existir aquel sistema que pueda manipular los distintos tipos de información y obtener
39. un análisis valioso.

40. Gestionar Big data requiere almacenamiento. Esto implica

41. que, si es necesario analizar información de diversas fuentes, implicaría el tener

42. espacio suficiente para almacenar todos esos datos. Tal vez esta es la acción más compleja

43. de entender y de encontrar la solución más adecuada para la organización. Para darse

44. una idea: un video de la plataforma YouTube con una calidad media de 480 píxeles (unidad

45. de medida para representar una imagen o gráfico en un dispositivo) utiliza 4 Megabytes por

46. cada dos minutos; por lo que si se tiene un disco portátil de almacenamiento de 1 Gigabytes

47. esto permitiría guardar hasta 7 horas de video.

48. Con lo anterior se puede determinar que tener una alternativa local para la gestión de

49. la información a utilizar en Big Data podría ser muy costosa para la organización. Actualmente

50. muchas empresas han empezado a migrar el almacenamiento de cierta información en la nube. Pues es

51. posible almacenar los datos en la forma que se desee y lo más importante realizar ciertas

52. acciones de procesamiento o motores de procesamiento necesarios directamente en la nube; ejemplo

53. de esto se encuentran: IBM Watson; Amazon AWS; etc. Aunque todavía existe un poco de

54. escepticismo en esta tecnología la evolución y el aumento de la información tarde que

55. temprano harán de esta tecnología un “comodity”. La nube está ganando popularidad gradualmente

56. porque es compatible con los requisitos de cómputo actuales y permite aumentar los recursos

57. según sea necesario; con lo cual se convierte en el aliado ideal para Big Data.
58. Analizar La mejor inversión para una organización

59. al utilizar Big Data radica en la forma en la que se analiza la información y como se

60. actuará basando en el análisis de los datos. Para que este análisis rinda los mejores

61. frutos hay dos aliados más para Big Data, el aprendizaje automático (Machine Learning)

62. y el aprendizaje profundo (Deep Learning). El primero es un subconjunto de la inteligencia

63. artificial que a través de técnicas estadísticas provee a las computadoras la habilidad de

64. “aprender” de los datos y se “entrena” a las computadoras para seguir desarrollando

65. esta habilidad.

66. El segundo es conocido como una técnica para la implementación del aprendizaje automático.

67. Sin embargo, es otro subconjunto de la inteligencia artificial que a través del concepto de Redes

68. Neuronales Artificiales en donde se buscó inspiración en entender cómo funciona la

69. biología del cerebro humano y la forma en la que se realizan las interconexiones entre

70. las neuronas para poder aprender. Por ejemplo, en cada neurona se almacena cierta información

71. para que al conectarse con otra neurona puedan determinar un patrón; un proceso o actividad

72. que derive en conocimiento o acción. El primer uso que se le dio al aprendizaje profundo

73. fue el poder identificar gatitos en videos de YouTube. Ahora se aplica esta tecnología

74. en: Automóviles autónomos; la prevención temprana de ciertas afectaciones médicas

75. e inclusive lo utiliza Netflix para ayudar a sus usuarios a recomendar la mejor película

76. para el mejor momento en el que se encuentra el usuario.


77.
¿Cuáles son las 3 acciones clave para el funcionamiento de Big Data?

La respuesta correcta es la D. Para entender mejor como funciona Big Data es necesario conocer las 3 acciones clave que se involucran
en su funcionamiento: Integrar los datos; esta acción está relacionada con la forma en la que los datos deben de ingresarse; para
posteriormente procesarlos y asegurarse que están en el formato correcto y disponibles de forma adecuada para que se puedan
analizar. Gestionar los datos; esta acción determinar la forma en la que los datos deben ser almacenados para una fácil gestión y control
de los mismos. Analizar los datos, es la forma en la que los datos serán estudiados para determinar la mejor forma de utilizarlos para el
beneficio de la organización.
Enviar
Algunos problemas tienen opciones como guardar, restablecer, sugerencias o mostrar respuesta. Estas opciones aparecen después de oprimir el botón
Enviar.

Identifica el ejemplo que mejor describe el aprendizaje profundo (Deep Learning).

La respuesta correcta es la D. El aprendizaje profundo (Deep Learning) subconjunto de la inteligencia artificial que a través del concepto
de Redes Neuronales Artificiales en donde se buscó inspiración en entender cómo funciona la biología del cerebro humano y la forma en la
que se realizan las interconexiones entre las neuronas para poder aprender. Ahora se aplica esta tecnología en el diseño de automóviles
autónomos.

También podría gustarte