Sesión 2 - Aprendizaje de Máquina
Sesión 2 - Aprendizaje de Máquina
Sesión 2 - Aprendizaje de Máquina
COMPUTACIÓN EVOLUTIVA
(ING01216)
Agosto 2019
Fundamentos del
aprendizaje de máquina
Agenda
Introducción. Conceptos básicos: Minería de datos, Ciencia de datos, aprendizaje de
máquina, analítica. ¿Cómo puede aprender una máquina?
Posibles fuentes de datos
Disciplinas de la ciencia de datos.
Tipos de científicos de datos.
Tabla periódica del científico de datos.
Escenarios de aplicación de la ciencia de datos.
Proceso Aprendizaje de máquina. Metodología CRISP-DM.
Tipos de Aprendizaje de Máquina (Aprendizaje supervisado y No supervisado).
Introducción a Regresión, Clasificación y Clustering.
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Conceptos básicos
Minería de datos Aprendizaje
Proceso de descubrir de máquina
patrones en los datos
Campo de estudio que
proporciona a los computadores
la capacidad de aprender sin
Ciencia haber sido explícitamente
de datos programados.
Integra varias disciplinas e
incluye aprendizaje de
máquina y minería de
datos para convertir datos
en valor para los negocios.
Conceptos básicos
Identifica estrategias
y acciones que
A partir de lo mejoren los
sucedido resultados previstos.
A partir de lo
predice lo que
Analiza e sucedido explica
sucederá -> ¿Qué hacer?
interpreta lo porqué está
-> ¿Cómo hacerlo?
que ha ocurriendo algo -> ¿Qué podría
sucedido pasar?
-> ¿Qué pasó? -> ¿Por qué pasó?
-> ¿Cómo pasó?
Fuente: Infórmese
¿Cómo puede aprender una máquina?
¡Usando datos!
Antes, se debían programar explícitamente las reglas.
El aprendizaje de máquina o aprendizaje automático tiene el objetivo de "aprender
de los datos" con el fin de extraer conocimiento.
Posibles fuentes de datos
Posibles fuentes de datos
Fuente: https://www.informationmanagementtoday.com/trends /
Tipos de Datos
Tipos de Datos
Estructurados
Estructurados
Cuentan con un modelo de datos o esquema
Son almacenados en forma tabular
Generalmente están almacenados en bases de datos relacionales.
Normalmente son generados por las aplicaciones empresariales.
Los datos estructurados generalmente no tienen requerimientos especiales
de pre-procesamiento o de almacenamiento.
Tipos de Datos
Semi-estructurados
Semi-estructurados
Tienen un nivel definido de estructura y
consistencia pero no son relacionales por naturaleza.
Generalmente existen en formatos textuales tales como archivos XML o JSON
Pueden ser procesados más fácilmente que los datos no estructurados.
Algunos ejemplos comunes de fuentes de datos semi-estructurados son:
EDI (Electronic Data Interchange)
E-mails
Hojas de cálculo
XML, HTML
Tipos de Datos
No estructurados
No estructurados
No tienen un modelo o esquema de datos
Son generalmente no relacionales
Existen en forma textual o binaria.
Algunos ejemplos son: Imágenes, audio, video, posts redes sociales.
Al contrario de los datos estructurados, los datos no estructurados
generalmente necesitan lógica especial para pre-procesarlos.
Usualmente requieren el uso de bases de datos no relacionales, tales como
bases de datos NoSQL.
Tipos de Datos
Según fuentes y formatos
Disciplinas de la ciencia de datos
La ciencia de datos requiere la combinación de disciplinas diferentes:
Científicos de datos Tipo I y Tipo II
Fuente: http://www.oralytics.com/2013/03/type-i-and-type-ii-data-scientists.html
Ciudadano Científico de Datos (Citizen Data Scientist)
Fuente: https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen-data-scientist/#3af847cf2702
Tabla periódica de la Ciencia de Datos
Fuente: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Tabla periódica de la Ciencia de Datos
Cursos, bootcamps y conferencias
Tabla periódica de la Ciencia de Datos
Lenguajes de programación y distribuciones. Búsqueda y administración de datos
Tabla periódica de la Ciencia de Datos
Frameworks de Aprendizaje de máquina y Herramientas de Visualización
Tabla periódica de la Ciencia de Datos
IDEs y herramientas colaborativas
Tabla periódica de la Ciencia de Datos
Fuentes de datos y retos
Tabla periódica de la Ciencia de Datos
Comunidad
Tabla periódica de la Ciencia de Datos
Newsletters y podcasts
Escenarios de aplicación de ciencia de datos y aprendizaje de
máquina
Detección y prevención de fraudes
Optimización de campañas de mercadeo
Segmentación de clientes
Mantenimiento predictivo
Previsión de la demanda de energía
Optimización de costos
Diagnóstico de enfermedades
Análisis de tendencias de crímenes
Exploración espacial
Otros… En todos los sectores!
Naturaleza del aprendizaje de máquina
Fuente: Gartner
Proceso Aprendizaje de máquina
Determinar los objetivos del negocio
Definir el problema
Comprende
r el Negocio
Recolectar datos
Planear despliegue Comprender Describir datos
Hacer despliegue Desplegar los datos Explorar datos
Verificar calidad de datos
Capacidad Intelectual
Conocimiento
de Negocio
Modelamiento
matemático y
estadístico
Sistema de
Analítica
Predictiva
Capacidad Tecnológica
Plataforma de
Análisis
Predictivo
Herramienta de
Visualización
de datos
Relación entre Machine Learning e Inteligencia Artificial
Fuente:Oracle
Técnicas de Análisis de Datos Análisis Estadístico
• AB Testing
• Correlación
Análisis Visual
• Mapas de calor
• Series de tiempo
• Análisis de redes
• Análisis de datos espaciales
Aprendizaje de Máquina
• Regresión
• Clasificación
• Clustering (Agrupamiento)
• Detección de datos atípicos
• Filtrado
Análisis Semántico
• Procesamiento de Lenguaje Natural (NLP)
• Analítica de Texto/Minería de Texto
• Análisis de sentimientos
Clasificación de los algoritmos de aprendizaje de máquina
Según el tipo de aprendizaje y la categoría del problema
Aprendizaje Supervisado
Recibe un conjunto de datos de entrada con sus correspondientes salidas y aprende de
estos ejemplos para luego hacer predicciones sobre la salida para entradas no vistas
antes. 𝑥 𝑦
Registros o muestra
Variables Etiquetas
Aprendizaje No Supervisado
Usa datos que no tienen etiquetas asociadas. Su objetivo es encontrar patrones en los
datos y organizarlos en una forma significativa.
𝑥
Registros o muestra
Variables
Aprendizaje Semi-Supervisado
Combina el aprendizaje supervisado y el No supervisado
Tiene como objetivo incrementar la exactitud del aprendizaje supervisado explotando
la información de datos no etiquetados.
𝑥 𝑥 𝑦
Regresión
Regresión lineal
Regresión polinómica
Árboles de regresión
Máquinas de Vectores Soporte
Clasificación
Clasificación puede ser definida como una técnica que
produce un modelo que, dado un nuevo individuo,
determina a cuál clase pertenece dicho individuo.
El objetivo es obtener clústers con elementos que tengan alta similitud entre ellos
(similitud intra-cluster alta) y baja similitud con objetos de otros clústers (similitud
inter-clúster baja).
k-Medias (k-Means)
k-Medioides (k-Medoids)
EM (Expectation Maximisation)
Ejercicio grupal
i s a d o o
Su pe r v ?
v i s a d o
u p e r
No S
a c i ó n ,
l as i f i c
C ó n o
s i
Regre ng?
s t e r i
Clu
Se está considerando lanzar un nuevo producto al mercado y se
desea conocer si será un éxito o un fracaso. Se recolectaron
datos de 500 productos similares que fueron lanzados
previamente. Para cada producto se tiene almacenado el precio,
el presupuesto de mercadeo y publicidad, el precio de la
competencia y otras 10 variables. Además, se conoce si los
productos fueron un éxito o un fracaso.
Supervisado
Clasificación
Se coleccionan datos de las 100 empresas principales en
Colombia. De cada empresa se cuenta con las ganancias, el
número de empleados, la industria y el salario del gerente. Se
requiere conocer cuáles factores afectan el salario del gerente y
en qué medida.
Supervisado
Regresión
Una empresa de telecomunicaciones desea segmentar sus
clientes. Se cuenta con información histórica de los sistemas de
facturación, del CRM, etc.
No Supervisado
Clustering
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Pruebas
Validación
Entrenamiento