Fundamentos de Ciencia de Datos

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 72

Venezolano

Licenciado en Física e Ingeniero en Computación


Maestría en la PCF-UNAM (Cosmología)
Data Scientist (Auto-Proclamado)
Miembro de facultad e instructor DS @ Emeritus
Chief Data Scientist @ Iron
CEO y Chief Data Scientist @ Ciencia y Datos
Profesor de Ciencia de Datos en Business Science
Muy activo en LinkedIn ;)
Editor International Journal of Business
Analytics and Intelligence
Escritor en Towards Data Science, Heartbeat,
Becoming Human y Planeta Chatbot
Top writer de Medium en Business, AI y Technology
Colaborador de
Spark GitHub
y StackOverflow
Releases 1.3.0, 1.4.0, 1.4.1
1.5.0, 2.2.0 and 2.3.0
● ¿Qué es la inteligencia?
● Inteligencia e IA
● El papel de la ciencia de datos
● Definiendo la ciencia de datos
● Habilidades de los científicos de datos
● Fundamentos de matemática
● Básicos de programación en Python y R
● Entendiendo el negocio (de forma ágil)
● Perfiles de ciencia de datos
● ¿Cómo aprendo todo esto sin morir en el intento?
¿Qué es la
inteligencia?
Es la habilidad de cumplir
objetivos complejos
Necesitamos más que
inteligencia

Necesitamos entendimiento

Necesitamos modelado
¿Qué es el
entendimiento?
Es la habilidad de transformar
información compleja
en simple y útil
Complejidad en forma de un
problema bien definido
Entendimiento desde datos AI

Algoritmos que no tienen


reglas marcadas sino que
aprenden desde los datos
que se le presentan
O en el camino a serlo
● Reproducibles
● Falibles
● Colaborativos
● Creativos
● Obedientes a regulaciones
Data Science es la resolución a los problemas de
negocios/organizaciones a través de las matemáticas , la
programación y el método científico que implica la creación de
hipótesis , experimentos y pruebas a través del análisis de datos y la
generación de modelos predictivos . Es responsable de transformar
estos problemas en preguntas bien planteadas que también puedan
responder a la hipótesis inicial de una manera creativa . También debe
incluir la comunicación efectiva de los resultados obtenidos y cómo la
solución agrega valor a la Empresa/Organización.
¿Quién es un Científico de Datos?
Un Data Scientist es una persona encargada de analizar problemas de
negocio y darle una solución estructurada partiendo por convertir este
problema en una pregunta válida (qué, cómo, por qué, para qué, etc) y
completa, luego mediante herramientas de programación y cómputo
desarrollar códigos que preparen, analicen y limpien los datos a trabajar
para luego crear modelos y responder a la pregunta inicial.
Entendimiento
de negocio
Lenguajes de Programación para CD
Programación para DS
● Uno de los pilares de la Ciencia de Datos.
● Necesario para construir soluciones digitales.
● No hay que ser expertos pero se requiere un buen nivel.
● Enfocados en como manipular datos.
● Herramientas de visualización.
● Programación para Big Data (muy fácil con Python y R).
● Aprender haciendo.
¿Qué es Python?
Python es un lenguaje de
programación interpretado,
orientado a objetos y de alto
nivel con semántica dinámica.

https://www.python.org
¿Qué es R?
R es un lenguaje y entorno para
computación y gráficos estadísticos. Es
un proyecto de GNU que es similar al
lenguaje y entorno S que se desarrolló
en Bell Laboratories.

https://www.r-project.org
¿Por qué Python y R?
Fundamentos de matemáticas
Necesitamos las matemáticas en ciencia de datos
principalmente para hacer machine learning y
modelado.
Álgebra
Álgebra
Revisar (álgebra lineal):
● Espacios vectoriales
● Grupos
● Independencia Lineal
● Bases y Rangos
● Espacios Afines
● Mapeos Afines
Álgebra
Revisar (geometría analítica):
● Matrices positivas y simétricas
● Desigualdad de Cauchy-Schwarz
● Métrica
● Ortogonalidad
● Ortonormalidad
● Proyecciones ortogonales
● Ortogeneralización de Gran-Schmidt
● Rotación
Álgebra
Revisar (Descomposición matricial):
● Descomposición de Cholesky
● Diagonalización y
eigendescomposición
● Singular Value Decomposition
● Aproximación Matricial
Cálculo
Cálculo
Revisar:
● Reglas de diferenciación
● Regla de la cadena
● Gradiente de vectores
● Jacobiano
● Gradientes de matrices
● Series de Taylor
● Derivadas de orden alto
Estadística y
Probabilidad
Estadística y Probabilidad
Revisar:
● Probabilidad y variables aleatorias
● Probabilidad continua y discreta
● Regla de la suma, regla del producto
● Teorema de Bayes
● Momentos, Medias y covarianzas
● Independencia Estadística
● Distribución Gaussiana
Básicos de programación
en Python y R

GitHub
MatrixDS

DEMO
Entendiendo el negocio de
forma ágil
The agile data science manifesto
● Comunicación para mostrar efectivamente los beneficios a los
ejecutivos enseñando los resultados que se relacionan con los
objetivos de la organización.

● Entendimento de negocio, que solo ocurre a través de la


interacción con las partes interesadas del negocio que están más
cerca del proceso o problema.
● Planificar y alinear a todos los involucrados con el alcance y el plan
del proyecto.

● Una lista de acciones comprobadas que deben considerarse.


Descarga esta
presentación
http://bit.ly/fundamentos-ds-favio

También podría gustarte