Sesión 2 - Aprendizaje de Máquina

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 48

APRENDIZAJE DE MÁQUINA Y

COMPUTACIÓN EVOLUTIVA
(ING01216)

Agosto 2019
Fundamentos del
aprendizaje de máquina
Agenda
Introducción. Conceptos básicos: Minería de datos, Ciencia de datos, aprendizaje de
máquina, analítica. ¿Cómo puede aprender una máquina?
Posibles fuentes de datos
Disciplinas de la ciencia de datos.
Tipos de científicos de datos.
Tabla periódica del científico de datos.
Escenarios de aplicación de la ciencia de datos.
Proceso Aprendizaje de máquina. Metodología CRISP-DM.
Tipos de Aprendizaje de Máquina (Aprendizaje supervisado y No supervisado).
Introducción a Regresión, Clasificación y Clustering.
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Conceptos básicos
Minería de datos Aprendizaje
Proceso de descubrir de máquina
patrones en los datos
Campo de estudio que
proporciona a los computadores
la capacidad de aprender sin
Ciencia haber sido explícitamente
de datos programados.
Integra varias disciplinas e
incluye aprendizaje de
máquina y minería de
datos para convertir datos
en valor para los negocios.
Conceptos básicos

El aprendizaje de máquina y la minería de datos comparten algunas


características. Sin embargo, hay diferencias a considerar.

Por ejemplo, aunque cuentan con el objetivo común de obtener conocimiento


de los datos, el aprendizaje de máquina usa la experiencia e información
conocida mientras que la minería de datos intenta descubrir nuevo
conocimiento.
Conceptos básicos
Analítica – Tipos de Analítica

Identifica estrategias
y acciones que
A partir de lo mejoren los
sucedido resultados previstos.
A partir de lo
predice lo que
Analiza e sucedido explica
sucederá -> ¿Qué hacer?
interpreta lo porqué está
-> ¿Cómo hacerlo?
que ha ocurriendo algo -> ¿Qué podría
sucedido pasar?
-> ¿Qué pasó? -> ¿Por qué pasó?
-> ¿Cómo pasó?

Fuente: Arun Kottolli


Ejercicio

¿Qué tan rápido estoy manejando?


¿Qué tan rápido he manejado hoy?

¿Para cuántos kilómetros me


alcanzará la gasolina?

¿Cuál es el camino más rápido para


llegar a mi destino?

Fuente: Infórmese
¿Cómo puede aprender una máquina?

¡Usando datos!
Antes, se debían programar explícitamente las reglas.
El aprendizaje de máquina o aprendizaje automático tiene el objetivo de "aprender
de los datos" con el fin de extraer conocimiento.
Posibles fuentes de datos
Posibles fuentes de datos

Fuente: https://www.informationmanagementtoday.com/trends /
Tipos de Datos
Tipos de Datos
Estructurados
Estructurados
Cuentan con un modelo de datos o esquema
Son almacenados en forma tabular
Generalmente están almacenados en bases de datos relacionales.
Normalmente son generados por las aplicaciones empresariales.
Los datos estructurados generalmente no tienen requerimientos especiales
de pre-procesamiento o de almacenamiento.
Tipos de Datos
Semi-estructurados
Semi-estructurados
Tienen un nivel definido de estructura y
consistencia pero no son relacionales por naturaleza.
Generalmente existen en formatos textuales tales como archivos XML o JSON
Pueden ser procesados más fácilmente que los datos no estructurados.
Algunos ejemplos comunes de fuentes de datos semi-estructurados son:
EDI (Electronic Data Interchange)
E-mails
Hojas de cálculo
XML, HTML
Tipos de Datos
No estructurados

No estructurados
No tienen un modelo o esquema de datos
Son generalmente no relacionales
Existen en forma textual o binaria.
Algunos ejemplos son: Imágenes, audio, video, posts redes sociales.
Al contrario de los datos estructurados, los datos no estructurados
generalmente necesitan lógica especial para pre-procesarlos.
Usualmente requieren el uso de bases de datos no relacionales, tales como
bases de datos NoSQL.
Tipos de Datos
Según fuentes y formatos
Disciplinas de la ciencia de datos
La ciencia de datos requiere la combinación de disciplinas diferentes:
Científicos de datos Tipo I y Tipo II

Fuente: http://www.oralytics.com/2013/03/type-i-and-type-ii-data-scientists.html
Ciudadano Científico de Datos (Citizen Data Scientist)

Tiene habilidades para el análisis de datos.


Tiene bases estadísticas. Combina las habilidades de los analistas de negocio
tradicionales con algunos conocimientos estadísticos. 
Proporciona ideas para mejorar modelos existentes.
No requiere conocimiento matemático avanzado.

Fuente: https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen-data-scientist/#3af847cf2702
Tabla periódica de la Ciencia de Datos

Fuente: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Tabla periódica de la Ciencia de Datos
Cursos, bootcamps y conferencias
Tabla periódica de la Ciencia de Datos
Lenguajes de programación y distribuciones. Búsqueda y administración de datos
Tabla periódica de la Ciencia de Datos
Frameworks de Aprendizaje de máquina y Herramientas de Visualización
Tabla periódica de la Ciencia de Datos
IDEs y herramientas colaborativas
Tabla periódica de la Ciencia de Datos
Fuentes de datos y retos
Tabla periódica de la Ciencia de Datos
Comunidad
Tabla periódica de la Ciencia de Datos
Newsletters y podcasts
Escenarios de aplicación de ciencia de datos y aprendizaje de
máquina
 Detección y prevención de fraudes
 Optimización de campañas de mercadeo
 Segmentación de clientes
 Mantenimiento predictivo
 Previsión de la demanda de energía
 Optimización de costos
 Diagnóstico de enfermedades
 Análisis de tendencias de crímenes
 Exploración espacial
 Otros… En todos los sectores!
Naturaleza del aprendizaje de máquina

El aprendizaje de máquina aplica un proceso iterativo.


Es de carácter experimental.
Constituye un desafío adaptativo.
En los proyectos de ciencia de datos y aprendizaje de máquina pueden usarse
metodologías ágiles (Ej. SCRUM), design thinking y lean-startup.
Naturaleza del aprendizaje de máquina
Metodologías existentes para la Innovación Digital

Fuente: Gartner
Proceso Aprendizaje de máquina
Determinar los objetivos del negocio
Definir el problema
Comprende
r el Negocio
Recolectar datos
Planear despliegue Comprender Describir datos
Hacer despliegue Desplegar los datos Explorar datos
Verificar calidad de datos

Preparar Seleccionar datos


Evaluar Limpiar datos
Evaluar resultados los datos
Revisar proceso Construir datos

Modelar Seleccionar técnica de modelado


Generar diseño de prueba
Construir modelo (Entrenar y Probar)
* Basado en metodología CRISP-DM Evaluar modelo
Metodología CRISP - DM (Cross Industry Standard
Process for Data Mining)
Elementos de una solución Analítica

Capacidad Intelectual
Conocimiento
de Negocio

Modelamiento
matemático y
estadístico
Sistema de
Analítica
Predictiva
Capacidad Tecnológica

Plataforma de
Análisis
Predictivo

Herramienta de
Visualización
de datos
Relación entre Machine Learning e Inteligencia Artificial

Fuente:Oracle
Técnicas de Análisis de Datos Análisis Estadístico
• AB Testing
• Correlación

Análisis Visual
• Mapas de calor
• Series de tiempo
• Análisis de redes
• Análisis de datos espaciales

Aprendizaje de Máquina
• Regresión
• Clasificación
• Clustering (Agrupamiento)
• Detección de datos atípicos
• Filtrado

Análisis Semántico
• Procesamiento de Lenguaje Natural (NLP)
• Analítica de Texto/Minería de Texto
• Análisis de sentimientos
Clasificación de los algoritmos de aprendizaje de máquina
Según el tipo de aprendizaje y la categoría del problema
Aprendizaje Supervisado
Recibe un conjunto de datos de entrada con sus correspondientes salidas y aprende de
estos ejemplos para luego hacer predicciones sobre la salida para entradas no vistas
antes.  𝑥  𝑦

Registros o muestra

Variables Etiquetas
Aprendizaje No Supervisado
Usa datos que no tienen etiquetas asociadas. Su objetivo es encontrar patrones en los
datos y organizarlos en una forma significativa.
 𝑥

Registros o muestra

Variables
Aprendizaje Semi-Supervisado
Combina el aprendizaje supervisado y el No supervisado
Tiene como objetivo incrementar la exactitud del aprendizaje supervisado explotando
la información de datos no etiquetados.

 𝑥  𝑥  𝑦
Regresión

Regresión puede ser definida como una técnica que


intenta estimar o predecir para cada registro el valor
numérico de alguna variable para ese registro.

Algunos algoritmos frecuentemente utilizados son:

Regresión lineal
Regresión polinómica
Árboles de regresión
Máquinas de Vectores Soporte
Clasificación
Clasificación puede ser definida como una técnica que
produce un modelo que, dado un nuevo individuo,
determina a cuál clase pertenece dicho individuo.

La clasificación se realiza para predecir etiquetas de


categorías o clases. Puede ser clasificación binaria o
clasificación multiclase.

Algunos algoritmos frecuentemente utilizados son:


Árboles de decisión Redes Neuronales
Bosques aleatorios Máquinas de Vectores Soporte
Naïve Bayes k-NN
Clustering
Clustering es una técnica que busca agrupar datos según su similitud.

El objetivo es obtener clústers con elementos que tengan alta similitud entre ellos
(similitud intra-cluster alta) y baja similitud con objetos de otros clústers (similitud
inter-clúster baja).

Algunos algoritmos frecuentemente utilizados son:

k-Medias (k-Means)
k-Medioides (k-Medoids)
EM (Expectation Maximisation)
Ejercicio grupal

i s a d o o
Su pe r v ?
v i s a d o
u p e r
No S
a c i ó n ,
l as i f i c
C ó n o
s i
Regre ng?
s t e r i
Clu
Se está considerando lanzar un nuevo producto al mercado y se
desea conocer si será un éxito o un fracaso. Se recolectaron
datos de 500 productos similares que fueron lanzados
previamente. Para cada producto se tiene almacenado el precio,
el presupuesto de mercadeo y publicidad, el precio de la
competencia y otras 10 variables. Además, se conoce si los
productos fueron un éxito o un fracaso.

Supervisado
Clasificación
Se coleccionan datos de las 100 empresas principales en
Colombia. De cada empresa se cuenta con las ganancias, el
número de empleados, la industria y el salario del gerente. Se
requiere conocer cuáles factores afectan el salario del gerente y
en qué medida.

Supervisado
Regresión
Una empresa de telecomunicaciones desea segmentar sus
clientes. Se cuenta con información histórica de los sistemas de
facturación, del CRM, etc.

No Supervisado
Clustering
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas

Pruebas
Validación
Entrenamiento

El algoritmo aprende un modelo usando un conjunto de datos de entrenamiento.


El modelo construido es probado usando datos nuevos, no vistos antes, para probar el
rendimiento del modelo.
Preguntas?

También podría gustarte