Sesión 2 - Aprendizaje de Máquina

APRENDIZAJE DE MÁQUINA Y
COMPUTACIÓN EVOLUTIVA
(ING01216)
Agosto 2019
Fundamentos del
aprendizaje de máquina
Agenda
Introducción. Conceptos básicos: Minería de datos, Ciencia de datos, aprendizaje de
máquina, analítica. ¿Cómo puede aprender una máquina?
Posibles fuentes de datos
Disciplinas de la ciencia de datos.
Tipos de científicos de datos.
Tabla periódica del científico de datos.
Escenarios de aplicación de la ciencia de datos.
Proceso Aprendizaje de máquina. Metodología CRISP-DM.
Tipos de Aprendizaje de Máquina (Aprendizaje supervisado y No supervisado).
Introducción a Regresión, Clasificación y Clustering.
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Conceptos básicos
Minería de datos Aprendizaje
Proceso de descubrir de máquina
patrones en los datos
Campo de estudio que
proporciona a los computadores
la capacidad de aprender sin
Ciencia haber sido explícitamente
de datos programados.
Integra varias disciplinas e
incluye aprendizaje de
máquina y minería de
datos para convertir datos
en valor para los negocios.
Conceptos básicos
El aprendizaje de máquina y la minería de datos comparten algunas

características. Sin embargo, hay diferencias a considerar.
Por ejemplo, aunque cuentan con el objetivo común de obtener conocimiento

de los datos, el aprendizaje de máquina usa la experiencia e información
conocida mientras que la minería de datos intenta descubrir nuevo
conocimiento.
Conceptos básicos
Analítica – Tipos de Analítica
Identifica estrategias
y acciones que
A partir de lo mejoren los
sucedido resultados previstos.
A partir de lo
predice lo que
Analiza e sucedido explica
sucederá -> ¿Qué hacer?
interpreta lo porqué está
-> ¿Cómo hacerlo?
que ha ocurriendo algo -> ¿Qué podría
sucedido pasar?
-> ¿Qué pasó? -> ¿Por qué pasó?
-> ¿Cómo pasó?
Fuente: Arun Kottolli

Ejercicio
¿Qué tan rápido estoy manejando?

¿Qué tan rápido he manejado hoy?
¿Para cuántos kilómetros me

alcanzará la gasolina?
¿Cuál es el camino más rápido para

llegar a mi destino?
Fuente: Infórmese
¿Cómo puede aprender una máquina?
¡Usando datos!
Antes, se debían programar explícitamente las reglas.
El aprendizaje de máquina o aprendizaje automático tiene el objetivo de "aprender
de los datos" con el fin de extraer conocimiento.
Fuente: https://www.informationmanagementtoday.com/trends /
Tipos de Datos
Tipos de Datos
Estructurados
Estructurados
Cuentan con un modelo de datos o esquema
Son almacenados en forma tabular
Generalmente están almacenados en bases de datos relacionales.
Normalmente son generados por las aplicaciones empresariales.
Los datos estructurados generalmente no tienen requerimientos especiales
de pre-procesamiento o de almacenamiento.
Tipos de Datos
Semi-estructurados
Semi-estructurados
Tienen un nivel definido de estructura y
consistencia pero no son relacionales por naturaleza.
Generalmente existen en formatos textuales tales como archivos XML o JSON
Pueden ser procesados más fácilmente que los datos no estructurados.
Algunos ejemplos comunes de fuentes de datos semi-estructurados son:
EDI (Electronic Data Interchange)
E-mails
Hojas de cálculo
XML, HTML
Tipos de Datos
No estructurados
No estructurados
No tienen un modelo o esquema de datos
Son generalmente no relacionales
Existen en forma textual o binaria.
Algunos ejemplos son: Imágenes, audio, video, posts redes sociales.
Al contrario de los datos estructurados, los datos no estructurados
generalmente necesitan lógica especial para pre-procesarlos.
Usualmente requieren el uso de bases de datos no relacionales, tales como
bases de datos NoSQL.
Tipos de Datos
Según fuentes y formatos
Disciplinas de la ciencia de datos
La ciencia de datos requiere la combinación de disciplinas diferentes:
Científicos de datos Tipo I y Tipo II
Fuente: http://www.oralytics.com/2013/03/type-i-and-type-ii-data-scientists.html
Ciudadano Científico de Datos (Citizen Data Scientist)
Tiene habilidades para el análisis de datos.

Tiene bases estadísticas. Combina las habilidades de los analistas de negocio
tradicionales con algunos conocimientos estadísticos.
Proporciona ideas para mejorar modelos existentes.
No requiere conocimiento matemático avanzado.
Fuente: https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen-data-scientist/#3af847cf2702
Tabla periódica de la Ciencia de Datos
Fuente: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Cursos, bootcamps y conferencias
Lenguajes de programación y distribuciones. Búsqueda y administración de datos
Frameworks de Aprendizaje de máquina y Herramientas de Visualización
IDEs y herramientas colaborativas
Fuentes de datos y retos
Comunidad
Newsletters y podcasts
Escenarios de aplicación de ciencia de datos y aprendizaje de
máquina
 Detección y prevención de fraudes
 Optimización de campañas de mercadeo
 Segmentación de clientes
 Mantenimiento predictivo
 Previsión de la demanda de energía
 Optimización de costos
 Diagnóstico de enfermedades
 Análisis de tendencias de crímenes
 Exploración espacial
 Otros… En todos los sectores!
Naturaleza del aprendizaje de máquina
El aprendizaje de máquina aplica un proceso iterativo.

Es de carácter experimental.
Constituye un desafío adaptativo.
En los proyectos de ciencia de datos y aprendizaje de máquina pueden usarse
metodologías ágiles (Ej. SCRUM), design thinking y lean-startup.
Naturaleza del aprendizaje de máquina
Metodologías existentes para la Innovación Digital
Fuente: Gartner
Proceso Aprendizaje de máquina
Determinar los objetivos del negocio
Definir el problema
Comprende
r el Negocio
Recolectar datos
Planear despliegue Comprender Describir datos
Hacer despliegue Desplegar los datos Explorar datos
Verificar calidad de datos
Preparar Seleccionar datos

Evaluar Limpiar datos
Evaluar resultados los datos
Revisar proceso Construir datos
Modelar Seleccionar técnica de modelado

Generar diseño de prueba
Construir modelo (Entrenar y Probar)
* Basado en metodología CRISP-DM Evaluar modelo
Metodología CRISP - DM (Cross Industry Standard
Process for Data Mining)
Elementos de una solución Analítica
Capacidad Intelectual
Conocimiento
de Negocio
Modelamiento
matemático y
estadístico
Sistema de
Analítica
Predictiva
Capacidad Tecnológica
Plataforma de
Análisis
Predictivo
Herramienta de
Visualización
de datos
Relación entre Machine Learning e Inteligencia Artificial
Fuente:Oracle
Técnicas de Análisis de Datos Análisis Estadístico
• AB Testing
• Correlación
Análisis Visual
• Mapas de calor
• Series de tiempo
• Análisis de redes
• Análisis de datos espaciales
Aprendizaje de Máquina
• Regresión
• Clasificación
• Clustering (Agrupamiento)
• Detección de datos atípicos
• Filtrado
Análisis Semántico
• Procesamiento de Lenguaje Natural (NLP)
• Analítica de Texto/Minería de Texto
• Análisis de sentimientos
Clasificación de los algoritmos de aprendizaje de máquina
Según el tipo de aprendizaje y la categoría del problema
Aprendizaje Supervisado
Recibe un conjunto de datos de entrada con sus correspondientes salidas y aprende de
estos ejemplos para luego hacer predicciones sobre la salida para entradas no vistas
antes. 𝑥 𝑦
Registros o muestra
Variables Etiquetas
Aprendizaje No Supervisado
Usa datos que no tienen etiquetas asociadas. Su objetivo es encontrar patrones en los
datos y organizarlos en una forma significativa.
𝑥
Registros o muestra
Variables
Aprendizaje Semi-Supervisado
Combina el aprendizaje supervisado y el No supervisado
Tiene como objetivo incrementar la exactitud del aprendizaje supervisado explotando
la información de datos no etiquetados.
𝑥 𝑥 𝑦
Regresión
Regresión puede ser definida como una técnica que

intenta estimar o predecir para cada registro el valor
numérico de alguna variable para ese registro.
Algunos algoritmos frecuentemente utilizados son:
Regresión lineal
Regresión polinómica
Árboles de regresión
Máquinas de Vectores Soporte
Clasificación
Clasificación puede ser definida como una técnica que
produce un modelo que, dado un nuevo individuo,
determina a cuál clase pertenece dicho individuo.
La clasificación se realiza para predecir etiquetas de

categorías o clases. Puede ser clasificación binaria o
clasificación multiclase.

Árboles de decisión Redes Neuronales
Bosques aleatorios Máquinas de Vectores Soporte
Naïve Bayes k-NN
Clustering
Clustering es una técnica que busca agrupar datos según su similitud.
El objetivo es obtener clústers con elementos que tengan alta similitud entre ellos
(similitud intra-cluster alta) y baja similitud con objetos de otros clústers (similitud
inter-clúster baja).
k-Medias (k-Means)
k-Medioides (k-Medoids)
EM (Expectation Maximisation)
Ejercicio grupal
i s a d o o
Su pe r v ?
v i s a d o
u p e r
No S
a c i ó n ,
l as i f i c
C ó n o
s i
Regre ng?
s t e r i
Clu
Se está considerando lanzar un nuevo producto al mercado y se
desea conocer si será un éxito o un fracaso. Se recolectaron
datos de 500 productos similares que fueron lanzados
previamente. Para cada producto se tiene almacenado el precio,
el presupuesto de mercadeo y publicidad, el precio de la
competencia y otras 10 variables. Además, se conoce si los
productos fueron un éxito o un fracaso.
Supervisado
Clasificación
Se coleccionan datos de las 100 empresas principales en
Colombia. De cada empresa se cuenta con las ganancias, el
número de empleados, la industria y el salario del gerente. Se
requiere conocer cuáles factores afectan el salario del gerente y
en qué medida.
Supervisado
Regresión
Una empresa de telecomunicaciones desea segmentar sus
clientes. Se cuenta con información histórica de los sistemas de
facturación, del CRM, etc.
No Supervisado
Clustering
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Pruebas
Validación
Entrenamiento
El algoritmo aprende un modelo usando un conjunto de datos de entrenamiento.

El modelo construido es probado usando datos nuevos, no vistos antes, para probar el
rendimiento del modelo.
Preguntas?

Sesión 2 - Aprendizaje de Máquina

Cargado por

Copyright:

Formatos disponibles

Sesión 2 - Aprendizaje de Máquina

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión 2 - Aprendizaje de Máquina

Cargado por

Copyright:

Formatos disponibles

APRENDIZAJE DE MÁQUINA Y

El aprendizaje de máquina y la minería de datos comparten algunas

Por ejemplo, aunque cuentan con el objetivo común de obtener conocimiento

Fuente: Arun Kottolli

¿Qué tan rápido estoy manejando?

¿Para cuántos kilómetros me

¿Cuál es el camino más rápido para

Tiene habilidades para el análisis de datos.

El aprendizaje de máquina aplica un proceso iterativo.

Preparar Seleccionar datos

Modelar Seleccionar técnica de modelado

Regresión puede ser definida como una técnica que

Algunos algoritmos frecuentemente utilizados son:

La clasificación se realiza para predecir etiquetas de

Algunos algoritmos frecuentemente utilizados son:

Algunos algoritmos frecuentemente utilizados son:

El algoritmo aprende un modelo usando un conjunto de datos de entrenamiento.

También podría gustarte