Temario Data Scientist

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

Trayectoria flexible

Data Scientist (TLG)

Duración 230 horas

Objetivo general:
Aplicar las herramientas tecnológicas y matemáticas para desarrollar modelos de Ciencia de Datos requeridos en la
organización para tomar decisiones o para realizar innovaciones/emprendimientos que mejoren su competitividad.

Beneficio:
Persona: Actualmente, las empresas son más conscientes de que necesitan tomar decisiones basadas en datos para
ser más competitivos y deben de contratar recursos humanos que soporten una estrategia basada en datos. Es
justamente, esta necesidad la que se estaría cubriendo.
Organización: Contar con personal capacitado para soportar estrategias basados en datos para innovar y/o tomar
decisiones.

Dirigido a:
Data Scientist o profesionista que en sus estudios de licenciatura llevó cursos de algún lenguaje de programación de
alto nivel, trabaja en una organización analizando datos en Tableau o equivalente, ha realizado algunos algunos
modelos de predicción pero sin estudios formales en Ciencia de Datos.
Cuenta con habilidades para trabajar en equipo, así como habilidades de comunicación.

Requisito:
Contar con una licenciatura terminada. No es necesario contar con experiencia laboral.
Es deseable que haya tomado cursos de Lenguaje de programación de alto nivel (Lenguaje C, Pascal, Python, ), así
como uso de comandos en el Sistema Operativo Linux.

Contenido:

Módulo 1 Estadística para la Ciencia de Datos


1. Explicar las medidas estadísticas; el nivel de confianza; las pruebas de hipótesis para un análisis descriptivo e
inferencial.
2. Utilizar las medidas estadísticas; nivel de confianza; y pruebas de hipótesis en el análisis descriptivo e inferencial
en un conjunto de datos.

Temario

Tema 1: Conceptos básicos


Tema 2: Medidas Resumen
Tema 3: Teorema de Chebyshev
Tema 4: La Distribución Normal
Tema 5: Verificación de la Normalidad
Duración del módulo: 10 horas

Módulo 2 Procesamiento Matemático para Ciencia de Datos


1. Describir las operaciones y aplicaciones del álgebra lineal en en análisis de datos.
2. Utilizar operaciones de álgebra lineal para un conjunto de datos de dos o tres dimensiones.

Temario

Tema 1: Importancia de la aplicación del álgebra lineal


Tema 2: Escalares, vectores, matrices y operaciones
Tema 3: Formas especiales de matrices
Tema 4: Eliminación Gaussiana
Tema 5: Regresión lineal

Duración del módulo: 10 horas

Módulo 3 Conceptos de Analíticas de Redes


1. Explicar el uso de medidas de grafos en el análisis de redes datos.
2. Utilizar las medidas de grafos en el análisis de una red de menos de 10 nodos.

Temario

Tema 1: Introducción
Tema 2: Introducción a la teoría de grafos
Tema 3: Modelos de redes
Tema 4: Análisis de redes I
Tema 5: Análisis de redes II

Duración del módulo: 10 horas

Módulo 4 Programación en Python


1. Interpretar programas en lenguaje de programación Python desarrollados sobre el ambiente de programación
Notebook, para que se cumpla con los requerimientos de la aplicación de ciencia de datos.
2. Diseñar programas en lenguaje de programación Python desarrollados sobre el ambiente de programación
Notebook, para que se cumpla con los requerimientos de la aplicación de ciencia de datos.

Temario

Tema 1: Estructura de datos


Tema 2: Estatutos condicionales
Tema 3: Estatutos de repetición
Tema 4: Definición de funciones
Tema 5: Manejo de archivos de texto

Duración del módulo: 10 horas

Módulo 5 Panda y Numpy en Python


1. Interpretar programas en las plataformas Panda y Numpy de Python desarrollados sobre el ambiente de
programación Notebook, para que se cumpla con los requerimientos de la aplicación de ciencia de datos requerida.
2. Crear programas en Phython sobre ambiente Notebook, y utilizando las plataformas Panda y Numpy, para que se
cumpla con los requerimientos de la aplicación de ciencia de datos.
Temario

Tema 1: Plataformas / Frameworks


Tema 2: Arreglos, matrices y sus operaciones en NumPy
Tema 3: Estructuras de datos, lectura y almacenamiento de datos tabulares con Pandas
Tema 4: Seleccionando información con Pandas
Tema 5: Calculando resúmenes con Pandas

Duración del módulo: 10 horas

Módulo 6 Manipulación de Datos en Python


1. Interpretar programas en lenguaje Python que involucren llamadas (queries) a las bases de datos y estatutos
para concatenación y unión bases de datos.
2. Manipular una base de datos en la plataforma de Panda de Python que involucre llamadas (queries) a las bases
de datos y estatutos para concatenar y unir bases de datos, para que se cumpla con los requerimientos de la
aplicación de Ciencia de Datos.

Temario

Tema 1: Introducción a la manipulación de datos


Tema 2: Bases de Datos
Tema 3: Álgebra relacional
Tema 4: Analogía entre SQL y Pandas
Tema 5: Funciones para conjuntar información en Pandas

Duración del módulo: 10 horas

Módulo 7 Visualización de Datos con Python


1. Explicar las ventajas y desventajas de Python y de las plataformas de visualización Matplotlib y Seaborn, para la
generación de gráficas con eje horizontal (x) compartido y el eje vertical (y) puede ser compartidos o no, para que se
cumpla con los requerimientos de interfaz de la visualización requerida.
2. Utilizar las ventajas y desventajas de Python y de las plataformas de visualización Matplotlib y Seaborn, para la
generación de gráficas con eje horizontal (x) compartido y el eje vertical (y) puede ser compartidos o no, para que se
cumpla con los requerimientos de interfaz de la visualización requerida.

Temario

Tema 1: Plataformas de visualización en Python


Tema 2: Estructura de los datos y tipos de gráficos
Tema 3: Gráficas para exploración de datos
Tema 4: Gráficas, ejes y figuras
Tema 5: Anotaciones en las gráficas

Duración del módulo: 10 horas

Módulo 8 Geovisualización
1. Interpretar visualizaciones geográficas utilizando la plataforma Geopandas en lenguaje Python.
2. Crear visualizaciones geográficas utilizando la plataforma Geopandas en lenguaje Python

Temario

Tema 1: Preparación de los datos


Tema 2: Funciones básicas en Geopandas
Tema 3: Mapas
Tema 4: Manipulaciones geométricas
Tema 5: Operaciones

Duración del módulo: 10 horas

Módulo 9 Data storytelling


1. Distingue los principios de la narrativa visual, los reportes y la visualización de datos, para la generación
narrativas convincentes, que generan sentido a públicos específicos a partir de macro datos.
2. Aplica herramientas innovadoras para crear narrativas visuales convincentes basadas en macro datos que
generan sentido a públicos específicos.

Temario

Tema 1: Introducción al concepto de "Big Data Storytelling"


Tema 2: Entendimiento y conocimiento de la audiencia
Tema 3: Curaduría y procesamiento de datos
Tema 4: Construcción de narrativas visuales
Tema 5: Fundamentos del diseño y comunicación visual

Duración del módulo: 10 horas

Módulo 10 UX/UI (User Experience/User Interface)


1. Identificar las características de un buen diseño de UX/UI para desplegar los indicadores en un Dashboard.
2. Diseñar un Dashboard que cumpla con las características de un buen diseño de UX/UI para desplegar
indicadores

Temario

Tema 1: Introducción a los conceptos de diseño de la experiencia del usuario (UX), así como, del
diseño de interfaces gráficas de usuario (UI vs GUI)
Tema 2: Diseño de la experiencia del usuario (UX) investigación y análisis.
Tema 3: Diseño de la experiencia del usuario (UX) Interacción y usabilidad.
Tema 4: Fundamentos del diseño y la comunicación visual.
Tema 5: Diseño de interfaces gráficas de usuario (Ui GUi)

Duración del módulo: 10 horas

Módulo 11 Aplicación Web de Ciencia de Datos


1. Identificar los estatutos del lenguaje Python en la plataforma Streamlit para el desarrollo de dashboard para
visualización de datos interactivos, requeridos por la organización para presentar KPIs o para toma de decisiones.
2. Crear programas en lenguaje Python y la plataforma Streamlit para el desarrollo de dashboard para visualización
de datos interactivos, requeridos por la organización para presentar KPIs o para toma de decisiones.

Temario

Tema 1: Introducción a las plataformas para aplicaciones web de analítica de datos


Tema 2: Plataforma Streamlit
Tema 3: Elementos básicos
Tema 4: Componentes de Control
Tema 5: Gráficas en Streamlit
Duración del módulo: 10 horas

Módulo 12 Visualización del Análisis Descriptivo


1. Interpretar visualizaciones en lenguaje Python de medidas estadísticas de un conjunto de datos unidimensionales
y bidimensionales para las plataformas Matplotlib y Seaborn.
2. Utilizar herramientas del lenguaje Python para visualizar medidas estadísticas de un conjunto de datos
unidimensionales y bidimensionales para las plataformas Matplotlib y Seaborn.

Temario

Tema 1: Conceptos básicos de las estadísticas unidimensionales


Tema 2: Conceptos de Matplotlib y Seaborn
Tema 3: Uso de comandos específicos en Matplotlib y Seaborn
Tema 4: Gráficas de dispersión
Tema 5: Uso de regresión lineal en Matplotlib Seaborn

Duración del módulo: 10 horas

Módulo 13 Análisis Inferencial


1. Interpretar herramientas visuales con medidas estadísticas; nivel de confianza; pruebas de hipótesis de un
conjunto de datos unidemensionales y bidimensionales con el propósito de inferir el comportamiento de un población
y el nivel de dependencia de las variables.
2. Utilizar herramientas para visualizar medidas estadísticas; nivel de confianza; pruebas de hipótesis de un
conjunto de datos unidimensionales y bidimensionales con el propósito de inferir el comportamiento de un población
y el nivel de dependencia de las variables.

Temario

Tema 1: Estadística inferencial


Tema 2: Pruebas de hipótesis para una población
Tema 3: Pruebas de hipótesis para dos poblaciones
Tema 4: Prueba de hipótesis para la media de más de dos poblaciones
Tema 5: Prueba de hipótesis para la proporción de más de dos poblaciones

Duración del módulo: 10 horas

Módulo 14 Análisis Causal y Predictivo Utilizando Regresión


1. Interpretar visualizaciones en lenguaje Python de un modelo de regresión de un conjunto de datos
unidimensionales y bidimensionales con el propósito de hacer predicciones futuras y encontrar las variables que
causan el mayor impacto en la variable de estudio.
2. Utilizar herramientas visuales del lenguaje Python para generar un modelo de regresión de un conjunto de datos
unidimensionales y bidimensionales con el propósito de hacer predicciones futuras y encontrar las variables que
causan el mayor impacto en la variable de estudio.

Temario

Tema 1: Asociación entre dos variables


Tema 2: Regresión Lineal Simple - Parte 1
Tema 3: Regresión Lineal Simple - Parte 2
Tema 4: Regresión Múltiple - Parte 1
Tema 5: Regresión Múltiple - Parte 2
Duración del módulo: 10 horas

Módulo 15 Ingeniería de Características


1. Identificar las metodologías para la selección de características observables más relevantes para la visualización
o para el mejoramiento de la exactitud y/o precisión de un modelo de datos.
2. Diseñar las características observables más relevantes para la visualización o para el mejoramiento de la
exactitud y/o precisión de un modelo de datos.

Temario

Tema 1: Lectura y escritura de archivos de y hacia una tabla


Tema 2: Manejo y modificación de tablas
Tema 3: Evaluación y selección de características
Tema 4: Creación de características por agrupamiento y separación
Tema 5: Creación de características por transformación

Duración del módulo: 10 horas

Módulo 16 Aprendizaje No Supervisado


1. Interpretar la configuración que se ha utilizado para el desarrollo de modelos inteligentes no supervisado de datos
utilizando scikit-learn de Python, poniendo especial atención en la selección adecuada del número de agrupaciones,
que cumplan lo mejor posible con los requerimientos de la tarea requerida.
2. Crear modelos inteligentes no supervisado de datos utilizando scikit-learn de Python, seleccionando el número de
agrupaciones adecuadas y analizando la efectividad del modelo utilizando medidas de calidad, que cumplan lo mejor
posible con los requerimientos de la tarea requerida.

Temario

Tema 1: Definición y propósitos del aprendizaje no supervisado.


Tema 2: Preparación y preprocesamiento de los datos antes de agruparlos.
Tema 3: Agrupar datos con distintos algoritmos de agrupamiento.
Tema 4: Estrategias para seleccionar el número adecuado de grupos.
Tema 5: Exploración, transformación e interpretación de los datos después de agruparlos.

Duración del módulo: 10 horas

Módulo 17 Aprendizaje Supervisado


1. Interpreta la configuración utilizada en el desarrollo de los modelos inteligentes supervisado de datos utilizando
scikit-learn de Python; poniendo especial atención en la selección adecuada del modelo inteligente, precisión del
modelo, que cumplan lo mejor posible con los requerimientos de la tarea requerida.
2. Crear modelos inteligentes supervisado de datos utilizando scikit-learn de Python; seleccionando el modelo
adecuado y analizando la exactitud, precisión del modelo, que cumplan lo mejor posible con los requerimientos de la
tarea requerida.

Temario

Tema 1: Introducción al aprendizaje supervisado.


Tema 2: Preparación de la información
Tema 3: Los modelos de aprendizaje supervisado.
Tema 4: Uso de los modelos de aprendizaje supervisado
Tema 5: Obtención del modelo final
Duración del módulo: 10 horas

Módulo 18 Visualización con Machine Learning


1. Examinar los resultados de las visualizaciones de modelos inteligentes para el desarrollo de modelos de datos
más exactos y/o precisos, que cumplan con los requerimientos de la necesidad del problema a resolver.
2. Utilizar herramientas visuales de máquinas inteligentes para el desarrollo de modelos de datos más exactos y/o
precisos, que cumplan con los requerimientos de la necesidad del problema a resolver

Temario

Tema 1: Problema de sesgo y varianza


Tema 2: Construcción de un flujo de trabajo para problemas de regresión
Tema 3: Evaluación de modelos de regresión y selección del mejor
Tema 4: Problemas de clasificación con clases de desbalanceadas
Tema 5: Construcción de un flujo de trabajo para problemas de clasificación

Duración del módulo: 10 horas

Módulo 19 Analítica de Texto


1. Interpreta la configuración utilizada en el desarrollo de los modelos inteligentes supervisado de texto utilizando
Python; poniendo especial atención en la selección adecuada del modelo inteligente, precisión del modelo, que
cumplan lo mejor posible con los requerimientos de la tarea requerida.
2. Crear modelos inteligentes supervisado de datos de texto utilizando la plataforma máquinas inteligentes en
Python; seleccionando el modelo adecuado y analizando la exactitud o precisión del modelo, que cumplan lo mejor
posible con los requerimientos de la tarea requerida.

Temario

Tema 1: Herramientas para analítica de textos.


Tema 2: Elementos conceptuales de la analítica de textos.
Tema 3: Transformadores y Análisis de Sentimientos
Tema 4: Visualización de textos
Tema 5: Creación de Corpus

Duración del módulo: 10 horas

Módulo 20 Analítica de Redes Sociales


1. Interpretar modelos de redes sociales utilizando la NetworkX en Python; analizando su robustez, encontrando las
personas que más se comunican, así como los líderes de las conversaciones en una red social.
2. Crear modelos de redes de sociales utilizando la NetworkX en Python; analizar la robustez de las redes, encontrar
las personas que mas se comunican, así como los líderes de las conversaciones en una red social.

Temario

Tema 1: ¿Qué es una red?


Tema 2: Biblioteca NetworkX
Tema 3: Modelado de redes sociales
Tema 4. Análisis estructural
Tema 5: Análisis estructural global
Duración del módulo: 10 horas

Módulo 21 Machine Learning con pySpark


1. Interpretar la configuración de los estatutos de pySpark de Python en la modelación inteligente de grandes
volúmenes de datos utilizada para cumplir lo mejor posible con los requerimientos de la tarea requerida.
2. Crear modelos inteligentes supervisados de grandes volúmenes de datos utilizando pySpark de Python;
seleccionando el modelo adecuado y analizar la exactitud, precisión del modelo, que cumplan lo mejor posible con
los requerimientos de la tarea requerida.

Temario

Tema 1: ¿Qué es Big data?


Tema 2: Manipulación de datos en PySpark
Tema 3: Manipulación de datos usando SQL
Tema 4: Exploración de datos en PySpark
Tema 5: Machine learning con PySpark

Duración del módulo: 10 horas

Módulo 22 Deep Learning Utilizando Tensor Flow


1. Interpreta la configuración utilizada en modelos de datos DNN (Deep Neural Networks) utilizando en Tensor Flow
en Python; poniendo especial atención en la selección adecuada del modelo inteligente, precisión del modelo, que
cumplan lo mejor posible con los requerimientos de la tarea requerida.
2. Crear modelos de datos DNN (Deep Neural Networks) utilizando Tensor Flow en Python; seleccionando el modelo
adecuado y analizando la exactitud, precisión del modelo, que cumplan lo mejor posible con los requerimientos de la
tarea requerida.

Temario

Tema 1: Usando TensorFlow en Python


Tema 2: Deep Learning con TensorFlow
Tema 3: Redes neuronales convolucionales
Tema 4: Generación de modelos de datos DNN
Tema 5: Evaluación de modelos de datos DNN

Duración del módulo: 10 horas

Módulo 23 Deep Learning Utilizando Pytorch


1. Interpreta la configuración utilizada en modelos de datos DNN (Deep Neural Networks) en Pytorch en Python;
poniendo especial atención en la selección adecuada del modelo inteligente, precisión del modelo, que cumplan lo
mejor posible con los requerimientos de la tarea requerida.
2. Crear modelos de datos DNN (Deep Neural Networks) utilizando Pytorch en Python; seleccionando el modelo
adecuado y analizando la exactitud, precisión del modelo, que cumplan lo mejor posible con los requerimientos de la
tarea requerida.

Temario

Tema 1: Introducción a Deep Learning (Redes Neuronales Profundas).


Tema 2: Fundamentos de Deep Learning.
Tema 3: Clasificación de imágenes usando redes neuronales profundas.
Tema 4: Redes Neuronales Convolucionales (CNNs).
Tema 5: Evaluación y técnicas para mejorar el rendimiento de un modelo.
Duración del módulo: 10 horas

También podría gustarte