Sesión 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 45

Machine Learning

para la Industria
Sesión 1

Dra. Soledad Espezúa. Ll. Dr. Edwin Villanueva T. Ing. Daniel Saromo M.
sespezua@pucp.edu.pe evillatal@pucp.edu.pe daniel.saromo@pucp.pe
Agenda

• Introducción a Machine Learning

• Historia

• Definición

• Industria y aplicaciones de Machine Learning

• Enfoques de Machine Learning

• Ecosistema de Herramientas en Python para Machine Learning

3
Historia
Deep Learning
(Geoffrey Hinton) Eugene
1er carro Watson (IBM) Goostman Amazon DALL·E
autónomo NetTalk (openAI)
Test de Turing

DeepMind
(GO pierde)
Microsoft
Perceptron
(Rosenblatt) Deep Blue
(IBM) Dota 2
Google pierde
Aprendizaje X
Basado en Kinect
1er programa Experiencia (Microsoft)
que aprende (Geral DeJonj)
(Arthur Samuel ) Google
DeepFace Chat bots
(Facebook) (openAI)

GoogleBrain

Grandes cantidades de datos

4
¿Por qué se ha popularizado ML?
1965: Ley de Moore 2018: Ley de Huang

❑ Inundación de datos (Internet)


❑ Aumento del poder computacional
❑ Progreso en teoría y algoritmos disponibles
❑ Interés de la industria 5
¿Qué es Aprendizaje?
“Aprendizaje es cualquier proceso por el cual un
sistema mejora su desempeño a través de la
experiencia”.

Herbert Simon
Premio Turing de la ACM, 1975
Premio Nobel en economía ,1978

6
Aprendizaje
• Los humanos, solamente necesitamos algunas fotos para aprender a
diferencias una cebra o un caballo.

7
¿Qué es Machine Learning?
“ML es un campo de estudio que investiga técnicas que da al computador
habilidades para aprender de forma automática, sin haberlo programado
explícitamente”.
1Arthur Samuel (1959)

ML es automatización de la extracción de conocimiento

En ML, un programa es capaz de aprender automáticamente un determinado


comportamiento o patrón a partir de observaciones o ejemplos.

1. Samuel, Arthur L. (1959). "Some Studies in Machine Learning Using the Game of
Checkers". IBM Journal of Research and Development. 44: 206–226. 8
Machine Learning
• Paradigma de programación tradicional:

Datos Salida

Cat / No cat
If X=3
Programa output = “cat”
….

• Paradigma de Machine learning:

Cat Algoritmo
de ML Modelo de ML
No cat

Datos Salida cat


entrenamiento (etiquetas) 9
Enfoques de ML
Machine
Learning

Aprendizaje Aprendizaje No
Supervisado Supervisado

Datos con etiquetas Datos sin etiquetas

Clasificación Agrupamiento

Regresión

10
Aprendizaje Supervisado

perro hamster
gato

gato hamster
perro
gato

hamster
gato 11
perro
Aprendizaje Supervisado
Comprende dos etapas:

Entrenamiento
Atributos/ mediciones etiqueta
x11 x12 ... x1m y1 Inducción
f(x)
Ejemplos de x21 x22 ... x2m y2
entrenamiento .. .. .. .. Algoritmo de ML
. . . . Modelo predictivo
xn1. xn2 ... xnm yn

Predicción
Nuevo ejemplo Deducción
f(x) Clase o valor numérico
X1 X2. ... Xm
.
. Modelo f(x) Predicción
12
Aprendizaje Supervisado
• Aprende un modelo predictivo a partir de ejemplos etiquetados
• Dos formas conocidas: Clasificación y Regresión

Clasificación Regresión

Tiempo

13
Aprendizaje Supervisado

Clasificación Regresión
¿Cómo estará el clima mañana? ¿Qué temperatura tendremos mañana a las 10am?

frio caliente 25o

Si o no? Cuanto? Número

14
Clasificación
• Objetivo: aprender una función que asocie la descripción de un ejemplo
en una clase
• Ejemplos:
• Distinguir spam en emails
• Definir si un paciente tiene o no una enfermedad
• Detección de riesgo en financiación
• Clasificación de texto (noticias)

15
Clasificación
Síntomas colectados: Temperatura
◼ Forma mas simple
Saludable
Enfermo

Temperatura
Función estimada: diagnóstico = f(temperatura)
Si temperatura > c
entonces Enfermo
Si no Saludable

16
Clasificación
◼ Problema puede no ser tan simple

Saludable
Enfermo

Temperatura

◼ Alternativa: considerar otros síntomas para el diagnóstico

17
Clasificación
◼ ¿Cómo clasificar?
Saludable
Enfermo

Temperatura

18
Clasificación
◼ Función linear permite diagnóstico
Saludable
𝑦
Enfermo
𝑏
𝑚
Nueva función:
Si 𝑚 ∙ 𝑥 + 𝑏 > 0
Entonces Enfermo
Si no Saludable

𝑥
Temperatura

19
Clasificación
◼ Suponiendo la inclusión de otros pacientes ¿Cómo clasificar?
Saludable
Enfermo

Temperatura

20
Clasificación
◼ Función no linear
Saludable
Enfermo

Nueva función:
Muy compleja

Temperatura

21
Clasificación
◼ Overfitting
Saludable
Enfermo

Nueva función:
Muy compleja

Temperatura

22
Clasificación
◼ Overfitting ◼ Underfitting
Entrena al modelo con 10 Nueva imagen: Entrena al modelo con 1 sola raza Nueva imagen:
razas de perro color marrón ¿es perro? ¿es perro?

NO
NO
El modelo falla al reconocer un nueva imagen porque no El modelo no genera la salida deseada por falta de
tiene valores similares a las muestras de entrenamiento. suficientes muestras. No puede generalizar el conocimiento.

23
Enfoques de ML
Machine
Learning

Aprendizaje Aprendizaje No
Supervisado Supervisado

Datos con etiquetas Datos sin etiquetas

Clasificación Agrupamiento

Regresión

24
Regresión
• Objetivo: construir una función que aprenda a estimar un valor futuro, basado en un cierto
numero de ejemplos.
• En los problemas de regresión perseguimos obtener una respuesta cuantitativa (valor
continuo)
• Ejemplos:
• Prever el precio de mercado de un inmueble
• Prever el precio de una acción en la bolsa de valores
• Prever el aumento los límites de la tarjeta bancaria ?
• Prever tiempo de internación de un paciente
Tiempo
• Prever las calificaciones que obtendrán los estudiantes
• Prever la reputación de un producto
• Predecir el número de segundos que alguien dedicará a visualizar un vídeo.

25
Regresión
◼ ¿Cómo funciona?

Tiempo

26
Regresión

Función aproximada

Tiempo

27
Regresión

◼ Overfitting
Temperatura ◼ Underfitting

Temperatura
Tiempo
Ano Tiempo
Ano

También presente en clasificación 28


Enfoques de ML
Machine
Learning

Aprendizaje Aprendizaje No
Supervisado Supervisado

Datos con etiquetas Datos sin etiquetas

Clasificación Agrupamiento

Regresión

29
Aprendizaje No Supervisado
● Agrupamiento

30
Aprendizaje No Supervisado
• Algoritmos populares:
1. Clustering:
• K Means

• Análisis de agrupamiento jerárquico (Dendrogramas)

• Dbscan

2. Visualización y Reducción de Dimensionalidad:


• PCA (Principal Component Analysis)

• ICA (Independent Component Analysis)

31
Clustering
• Objetivo: organizar datos no etiquetados en grupos (clusters)
• Según alguna medida de similitud o correlación entre ellos
• Aprendizaje no supervisado
• No existe conocimiento previo sobre: # de grupos o Significado de los grupos
• Ejemplos:
• Segmentación de clientes
• Predicción de preferencias de usuarios (sistemas de recomendación)
• Agrupación de comunidades en redes sociales
• Identificación de componentes de un producto con su calidad y precio

32
Clustering
• Clustering para: Descubrimiento de estructuras, Sintetización, y Detección de anomalías

Células benignas

Células malignas

33
Reducción de dimensionalidad

34
Reducción de la dimensionalidad
• Reducir la dimensionalidad del conjunto de datos
• Más pequeño que el original
• Retener la mayor cantidad de información
• Mejore el rendimiento computacional

• Enfoques:
Reducción de la
dimensionalidad

Transformación de
Selección de atributos
atributos

Identificar la mejor
Identificar y eliminar los
combinación lineal o no
atributos irrelevantes
lineal de atributos

35
Enfoques de ML
Machine
Learning

Deep Learning

Aprendizaje Aprendizaje Aprendizaje Aprendizaje por


Supervisado No Supervisado Semi Supervisado refuerzo

Datos con/sin
Datos con etiquetas Datos sin etiquetas No hay datos
etiquetas

36
Aprendizaje Semi-supervisado
● Self-learning

Datos etiquetados 1 Modelo entrenado 3 Datos pseudo etiquetados

Entrenar el modelo con f(x) Predecir las etiquetas de


datos etiquetados datos sin etiquetar Nuevo modelo
4 reentrenado
Reentrenar el modelo
Nuevos datos 2 con los nuevos datos f(x)
sin etiquetar

Datos no etiquetados Datos etiquetados


37
Aprendizaje Semi-supervisado
• Objetivo: organizar datos no etiquetados en función de la similitud de sus características,
en un conjunto de clusters.
• Según alguna medida de similitud o correlación entre ellos

• Aprendizaje semi- supervisado


• Utiliza algunos datos etiquetados y muchos datos no etiquetados

• Ejemplos:
• Análisis de las conversaciones grabadas en un call center.

• Detección de anomalías.

38
Aprendizaje por refuerzo
Reinforcement Learnig
● En aprendizaje por refuerzo se enseña a un agente cómo elegir una acción de su espacio de
acciones, dentro de un entorno, para maximizar las recompensas con el tiempo.
● El agente necesita ejecutar acciones y recibir recompensas para aprender.
● Objetivo: Encontrar una política optima.

39
Aprendizaje por refuerzo
• Elementos esenciales: Ambiente/Entorno
• Agente. El programa que entrena y actúa en el entorno. Ejecuta
acciones y recibe recompensas para aprender.
• Ambiente/ entorno. El mundo real o virtual, en el que el agente
realiza acciones.
• Acción. Un movimiento realizado por el agente, que provoca un

Acción
cambio de estado en el entorno.
• Recompensas La evaluación de una acción, que puede ser Interprete
positiva o negativa.
• Estado (del ambiente): son los indicadores del ambiente de
cómo están los diversos elementos que lo componen en ese
momento.

• Ejemplos: Agente

- Determinar la ubicación de un anuncio en una página web


- Crear un sistema de aprendizaje personalizado
- Control de un robot que aprende a caminar

40
Aprendizaje por refuerzo
Sobreponer anuncio en la página

Aparecer en la parte
inferior de la página

Sobreponer
aleatoriamente

41
Deep Learning

42
Proyecto de ML
• Un proyecto de ML se puede dividir en 6 tareas:

1. Definir el Problema
Adquisición
de datos

2. Analizar datos Pre


procesado

3. Preparar datos Extracción de


atributos

Selección de
4. Evaluar algoritmos Algoritmo de ML

Entrenamiento
de Modelo

5. Mejorar los resultados Evaluación


de Modelo

6. Presentar resultados Despliegue


43
Proyecto de ML
Selección de
Adquisición Pre Extracción Entrenamien Evaluación
Algoritmo de Despliegue
de datos procesado de atributos to de Modelo de Modelo
ML
2 3 4 5 6

2. Analizar datos Pre-procesamiento: Recolección. Imputación. Normalización y Visualización.

3. Preparar datos Ingeniería de Atributos: Selección y Transformación de atributos con PCA

Modelos de Clasificación: Métricas y estrategias de evaluación, Método de vecinos más cercano, Arboles de Decisión,
Naive Bayes, Support Vector Machines
Modelos de Regresión: Métricas y estratégicas de evaluación, Regresión Lineal, Arboles de Regresión, Support Vector
Regression
4. Evaluar algoritmos
Modelos ensamblados: Estrategias Bagging, Boosting, Voting, Random Forest, Extra Trees, Adaboost

Redes neuronales: Unidades Perceptrons, Multilayer Perceptrons, CNN (de Deep Learning)

5. Mejorar resultados
Afinamiento del modelo y despliegue: Optimización de hiperparametros, Salvar y desplegar el modelo
6. Presentar resultados
44
Ecosistema de Herramientas en Python
❑ Ambiente de trabajo ❑ Librerías

45

También podría gustarte