ECONOMETRIA AVANZADA Clase 1 2023

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 51

Econometría Avanzada

Clase 1

Dr. Roberto Volfovicz-Leon


(roberto.volfovicz@ucu.edu.uy)

2023
Econometría Avanzada
2023
• Docente: Roberto Volfovicz Leon, PhD
• Fechas: 13/ Marzo– 5/Julio 2021

Dr. Roberto Volfovicz-Leon 2023


• Días: Lunes y Miércoles 21.15 a 22.35 hrs.
• Salones: Lunes: A 205 Miércoles: M304
• Clases de Consulta: Agendar vía email
roberto.volfovicz@ucu.edu.uy
2
Docente: Dr. Roberto Volfovicz-Leon
• Dr. in Biometría (PhD)- University of Georgia , USA
• PostDoc in Biometrics - University of Idaho, USA
• Master en Estadística y Matemáticas Aplicadas (MSc)
Iowa State University, USA

Dr. Roberto Volfovicz-Leon 2023


• Ingeniero Forestal – UDELAR -Uruguay
• Actividad Académica: Profesor Asociado – UCU
• Actividad Profesional: Consultor Independiente de
Biometría y Estadística

3
Introducción
• En este curso nos introduciremos en el uso de técnicas de
aprendizaje automático (Machine Learning) en el análisis
económico.
• Revisaremos la exploración , visualización y análisis de
conjuntos de datos a gran escala y la construcción de modelos
predictivos.

Dr. Roberto Volfovicz-Leon 2023


• Los ejemplos de técnicas incluyen una descripción general
avanzada de regresión lineal y logística, selección y
regularización de modelos, LASSO, clasificación y clustering,
modelos de variables latentes , bagging y bootstrap , árboles
de decisión , random forests y redes neuronales .

4
Contenidos del Curso
• Machine Learning, Big Data & Statistical Learning.
• Aprendizaje Supervisado versus No Supervisado.
• Problemas de Regresión versus problemas de Clasificación.
• Regresión Lineal Simple. Regresión Lineal Múltiple.
• Estimación de los coeficientes. Precisión y exactitud de las estimaciones.
Pruebas F y t.

5
Dr. Roberto Volfovicz-Leon 2023
• Clasificación. Regresión logística y probit.
• Métodos de ‘resampling’. Validación cruzada. Bootsrap.
• Selección de modelos lineales. Regularización. Regresión LASSO y Ridge.
‘Shrinkage methods’.
• Árboles. Arboles de clasificación y árboles de regresión. Bagging. Random
forest.
• Cluster Analysis.
• Support Vector Machines (SVM)
• Redes neuronales (Neural Networks)
EVALUACIONES –
Fechas Puntajes
asignados
Parcial: Miércoles 7/Junio 40 %

Dr. Roberto Volfovicz-Leon 2023


Controles Individuales y/o Grupales: 35 %
Proyecto Final Miércoles/Julio 20 %
Participación 5%
TOTAL: 100 %

6
PRUEBAS PARCIAL

• Puntaje: 40 % de la nota final


• Duración: 70 minutos
• Temas a Evaluar: materiales incluidos en

Dr. Roberto Volfovicz-Leon 2023


Clases
Lecturas
Prácticos

7
CONTROLES

• Puntaje: 35 % de la nota final


• Reglas de juego:
1. Las controles deben ser subidos a Webasignatura

Dr. Roberto Volfovicz-Leon 2023


hasta las 21.15 horas del día asignado
2. Los controles entregados vencido el plazo, pero
antes de pasadas las 24 serán sujetos a una
penalización del 50% del puntaje
3. Pasadas las 24 horas no se aceptaran entregas.
4. Por defecto todas las entregas deben hacerse en 8
formato pdf (no se corregirán en otros formatos).
PROYECTO FINAL

• Puntaje: 20 % de la nota final


• Proyecto final globalizador.
• Plazo de entrega: Miércoles 5/Julio 23.59 hrs.

Dr. Roberto Volfovicz-Leon 2023


9
Concepto Docente

• Puntaje: 5 % de la nota final


• Mi opinión sobre tu participación y actitud en
mi curso

Dr. Roberto Volfovicz-Leon 2023


10
ESCALA DE APROBACIÓN DEL CURSO

Nota conceptual Puntaje final Resultado


S 94 – 100 Aprobado con S
MB 86 – 93 Aprobado con MB

Dr. Roberto Volfovicz-Leon 2023


BMB 78 – 85 Aprobado con BMB
B 61 – 77 Aprobado Parcialmente
(a Examen)
R 21- 60 Recursa con R
D 0 -20 Recursa con D

11
Asistencia mínima: 75%
Clases de Consulta
• Fuera del horario de clases a través de
Zoom.
• Agendar vía email:

Dr. Roberto Volfovicz-Leon 2023


roberto.volfovicz@ucu.edu.uy

12
Bibliografía
Utilizaremos los siguientes textos como bibliografía
básica del curso:

• An Introduction to Statistical Learning (2013).


James, Witten, Hastie, and Tibshirani.
El libro se puede descargar de gratis del link de

Dr. Roberto Volfovicz-Leon 2023


los autores: https://www-bcf.usc.edu/~gareth/ISL/ISLR

13
Bibliografía
Excelente libro para volverse experto en R de forma
rápida y divertida:

• R for Data Science. Garrett


Garret Grolemund, Hadley Wickham (2016)

Dr. Roberto Volfovicz-Leon 2023


Publisher O'Reilly Media, Inc.

14
Bibliografía
El siguiente artículo es una referencia útil de muchos de los métodos que
veremos en el curso:

https://arxiv.org/abs/1903.10075

Dr. Roberto Volfovicz-Leon 2023


15
Bibliografía
Buen libro para revisar conceptos básicos de estadística
descriptiva e inferencial:
• Estadística para Negocios y Economía. (2012).
Anderson, Sweeney & Williams, Ed. Cengage Learning.

Dr. Roberto Volfovicz-Leon 2023


16
Software Estadístico
R y R Studio

Dr. Roberto Volfovicz-Leon 2023


17
Descripción de R y RStudio
• Oferta de software para Data Science
• ¿Por qué R?
• Instalación de R y RStudio.

Dr. Roberto Volfovicz-Leon 2023


18
Oferta de Software para
Análisis de Datos (Data Science)
• R: www.r-project.org
• R es un lenguaje de programación de última generación para
realizar análisis de datos.
• En mi opinión es el software mas poderoso para Data Science

Dr. Roberto Volfovicz-Leon 2023


• Python : www.python.org
• Es la competencia mas próxima a R
• Diferencias? Python es un lenguaje de propósito general,
mientras que R es una lenguaje desarrollado por estadístico para
hacer análisis estadísticos.
• Otros:
• IBM SPSS (Statistical Package for Social Sciences)
• SAS (Statistical Analysis Software) 19
• STATA
• MATLAB, RapidMiner y muchos mas.
¿Por qué utilizar R?
• Es gratuito. Se distribuye bajo licencia libre.
• Es multiplataforma, hay versiones para Mac, Windows, Linux,
celular, web…
• Se puede analizar en R cualquier tipo de datos (datos
estructurados y no estructurados)

Dr. Roberto Volfovicz-Leon 2023


• Tiene excelentes gráficos. Su capacidad gráfica difícilmente es
superada por ningún otro paquete estadístico.
• Es compatible con todos los formatos de datos (.csv, .xlsx, .sav,
.sas, .txt)
• Es potente y rápido
• La diversidad de paquetes permiten hacer de todo
• Hay una oferta enorme de documentación de apoyo gratuito 20
disponible en internet (manuales, tutoriales y cursos gratuitos)
Brevísima nota histórica: R
• Finales de los 90’s: creado por Ross Ihaka y Robert
Gentleman, dos profesores de Estadística (The University
of Auckland, Nueva Zelanda)
• 2000: aparece la versión 1.0.0 de R.

Dr. Roberto Volfovicz-Leon 2023


• En este momento la versión más actualizada lleva el
número 4.1.3 (10-3-2022)
• Suele publicarse una nueva versión de R cada seis meses.
Es conveniente utilizar siempre la última versión. Entre
otros motivos, porque arregla los errores que los
usuarios van detectando.
21
Instalar R
• Lo podemos descargar de la página oficial:
https://www.r-project.org

Dr. Roberto Volfovicz-Leon 2023


• … y ahí nos vamos a la página de descargas (download R)
que nos mostrará una serie de mirrors para que lo
descargues.
• Podemos elegir Uruguay.
22
• Lo descargamos y lo instalamos.
R Studio
• RStudio es una manera amigable de interaccionar con R
• Constituye un entorno de desarrollo integrado (en ingles IDE:
Integrated Development Environment )
• Descargar R Studio Desktop desde:
https://rstudio.com/products/rstudio/download/

Dr. Roberto Volfovicz-Leon 2023


23
RStudio
Cuando abras RStudio veras estos paneles:

Dr. Roberto Volfovicz-Leon 2023


Iremos repasando y aprendiendo nuevos usos a medida que 24
avancemos con el curso
Machine Learning:

Dr. Roberto Volfovicz-Leon 2023


Aprendizaje
Automatico
25
¿Qué es Machine Learning?

Dr. Roberto Volfovicz-Leon 2023


26
Origen y Definición del término
´Machine Learning ’
• Todo comenzó con un hombre llamado Arthur Samuel y un
juego de damas.
• Arthur Samuel (1959). “Machine Learning es el área de estudio
que da a las computadoras la capacidad de aprender sin ser
programadas explícitamente"”

Dr. Roberto Volfovicz-Leon 2023


Arthur Samuel 27
IBM 701
Machine Learning – origen.
• Arthur Samuel (1901-1990) fue pionero en la investigación
de inteligencia artificial y aprendizaje automático.
• Su inspiración vino del juego de damas y la creación de un
programa de aprendizaje para la primera computadora
comercial de IBM (IBM 701),

Dr. Roberto Volfovicz-Leon 2023


• Arthur Samuel ganaba todo el tiempo contra la computadora,
por lo que escribió un programa para dejar que la computadora
jugara contra sí misma. El programa recopiló datos sobre sus
juegos y creó un motor de análisis predictivo para mejorar su
toma de decisiones.
• Una vez que la computadora comenzó a recopilar datos y
experiencia, Samuel finalmente comenzó a perder (o ganar,
como sea que elijas verlo!) 28
Machine Learning es
aprendizaje automático
• …aprender de los datos
• …no es programación explícita

29
• …descubrimiento de patrones ocultos

Dr. Roberto Volfovicz-Leon 2023


• …toma de decisiones basada en los
datos
Machine Learning …

… es aprender de los datos.


• El objetivo de machine learning es crear un

Dr. Roberto Volfovicz-Leon 2023


modelo que nos permita resolver una tarea dada.
• El modelo se entrena usando datos.
• El modelo aprende de estos datos y es capaz de
hacer predicciones.

30
Machine Learning …
… es aprender de los datos.
• Por ejemplo, un modelo de aprendizaje
automático puede aprender a reconocer un objeto

Dr. Roberto Volfovicz-Leon 2023


en una imagen.
• ¿Hay algún gato en las imágenes?

31
Machine Learning …
… es aprender de los datos.
… no es programación explícita.
• Esta noción de aprender de datos significa que un

Dr. Roberto Volfovicz-Leon 2023


modelo de aprendizaje automático puede aprender una
tarea específica sin ser programado explícitamente.
• ¿Cuál es la mejor forma de instruir al sistema sobre lo
que es un gato? ¿Escribir muchas líneas de código que
definan las características del animal? ¿O mostrar al
sistema varios (millones para ser más exactos) ejemplos 32
de gatos y otros animales y dejarlo descubrir cuál es
cuál?
Machine Learning …
… es aprender de los datos.
... no es programación explícita.
• El modelo aprende con ejemplos qué características

Dr. Roberto Volfovicz-Leon 2023


son importantes para determinar si una imagen
contiene un gato a partir de los datos que se han
analizado.

33
Dr. Roberto Volfovicz-Leon 2023
34
¿Gato?

Dr. Roberto Volfovicz-Leon 2023


35
Machine Learning …
… es aprender de los datos.
... no es programación explícita.
…es descubrir patrones ocultos.

Dr. Roberto Volfovicz-Leon 2023


• Dado que los modelos de aprendizaje automático
pueden aprender de los datos, se pueden usar para
descubrir patrones ocultos y tendencias en los
datos.
36
Machine Learning …
… es aprender de los datos.
... no es programación explícita.
… es descubrir patrones ocultos.
… es la toma de decisiones basada en datos.

Dr. Roberto Volfovicz-Leon 2023


• Estos patrones y tendencias pueden dar lugar a
información valiosa sobre los datos.
• Por lo tanto, el uso del aprendizaje automático
permite tomar decisiones inteligentes basadas en
datos. 37
Machine Learning is…
… es aprender de los datos.
... no es programación explícita.
…es descubrir patrones ocultos.
… es la toma de decisiones basada en datos.
En resumen:

Dr. Roberto Volfovicz-Leon 2023


• el aprendizaje automático se centra en la construcción
modelos que puedan aprender de los datos sin estar
programados explícitamente.
• las técnicas de aprendizaje automático se utilizan para crear
modelos, para descubrir patrones ocultos y tendencias, lo que
permite tomar decisiones basadas en datos.
38
Aplicación práctica de Machine Learning
• Predicción del comportamiento de los compradores.
• Segmentación de clientes.
• Búsqueda de clientes basándose en comportamientos en
las redes sociales, interacciones en la web…
• Optimización de las horas que maximizan el impacto en
redes sociales de una campaña de marketing.

Dr. Roberto Volfovicz-Leon 2023


• Estimación de la demanda.
• Fijación de precios.
• Detección de fraude en las transacciones electrónicas.
• Predicción de riesgos financieros.
• Predicción de recesión.
• Fijación de precios de productos bancarios. 39
¿Qué hay detrás de un nombre?
• MACHINE LEARNING
• MINERIA DE DATOS
• ANALISIS PREDICTIVO
• DATA SCIENCE

Dr. Roberto Volfovicz-Leon 2023


• ANALITICA DE DATOS
• Estos términos evolucionaron en diferentes momentos
y abarcaron diferentes conjuntos de actividades, pero
hoy a menudo se utilizan indistintamente y significan
esencialmente lo mismo: extraer información valiosa
40
de los datos
Tipos de Datos: Estructurados y
No Estructurados
• Datos estructurados (Structured data) son aquellos que se
pueden almacenar y organizar fácilmente en una tabla
• Para gestionar datos estructurados se utiliza un tipo
de lenguaje de programación conocido como SQL (Structured

Dr. Roberto Volfovicz-Leon 2023


Query Language) diseñado para administrar y recuperar
información de bases de datos.
• Es relativamente fácil aplicar la ciencia de datos a datos
estructurados porque, por definición, ya están en un formato
adecuado.

41
Tipos de Datos: Estructurados y
No Estructurados
• Datos no estructurados (Unstructured Data) son aquellos que no
poseen una estructura interna identificable.
• Se trata de un cúmulo de información que debe identificarse y
almacenarse de forma organizada a través de una base de datos no
estructurada (NoSQL).

Dr. Roberto Volfovicz-Leon 2023


• Ejemplos :
• Resultados de búsquedas en Google
• Emails, Mensajes de texto
• Tweets, información obtenida de redes sociales
• Imágenes, música, videos
• Datos no estructurados son mucho mas comunes que los
estructurados. 42
Tipos de Machine Learning
Dos tipos de Aprendizaje Automático:

• Aprendizaje Supervisado

Dr. Roberto Volfovicz-Leon 2023


• Aprendizaje No Supervisado

43
Aprendizaje Supervisado y No Supervisado

Supervisado No Supervisado
Target Sin Target

44
Dr. Roberto Volfovicz-Leon 2023
Regresión Segmentación

Clasificación Asociación
Aprendizaje Supervisado
• En el aprendizaje supervisado los modelos trabajan con
datos “etiquetados” (labeled data), intentado encontrar
una función que, dadas las variables de entrada (input
data), les asigne la etiqueta de salida adecuada.

Dr. Roberto Volfovicz-Leon 2023


• El modelo se entrena con un conjunto de datos (training
data) y así “aprende” a asignar la etiqueta de salida
adecuada a un nuevo valor, es decir, predice el valor de
salida.

45
Aprendizaje Supervisado
El aprendizaje supervisado se suele usar en:

• Problemas de regresión
• predicciones numéricas (ejemplo: predicciones financieras,
predicciones de ingresos $)
Y=a+bX

Dr. Roberto Volfovicz-Leon 2023


• Problemas de clasificación:
• Predicciones no numéricas.
Ejemplos.
• identificación de correos spam (“spam o no spam”)
• detección de transacciones fraudulentas en tarjetas de
crédito (“fraudulenta” o “no fraudulenta”) 46
• detección de default en un crédito (“default” o “no
default”)
Aprendizaje NO Supervisado
• A diferencia del aprendizaje supervisado, en el aprendizaje no
supervisado no se dispone de datos “etiquetados”.
• Aquí los modelos aprenden de datos con elementos no
etiquetados buscando patrones o relaciones entre ellos.
• El ejemplo más sencillo para entender este tipo de aprendizaje
es cuando tenemos nuestra base de datos de clientes y

Dr. Roberto Volfovicz-Leon 2023


queremos segmentarlos por primera vez. En ese caso
buscamos clientes que se comporten de la misma forma, pero
al ser la primera vez no sabemos cuántos segmentos podemos
tener.
• Las principales aplicaciones del aprendizaje no supervisado
están relacionadas en el agrupamiento o clustering de datos.
Aquí, el objetivo es encontrar subgrupos homogéneos dentro
de los datos. 47
Aprendizaje NO Supervisado
• Existen dos tipos de modelos para Machine Learning no
supervisado:
• Clustering: clasifica en grupos
los datos de salida. Ejemplo: es
el caso de las segmentaciones
de clientes según qué y cuanto

Dr. Roberto Volfovicz-Leon 2023


hayan comprado.

• Asociación : descubre reglas


dentro del conjunto de datos .
Ejemplo: “Market basket analysis”
48
Ejemplo Aprendizaje No Supervisado:
Asociación (Market Basket Analysis)
• Conexión: Pañales Cerveza
• Una cadena de supermercados utilizó el análisis de asociación
para descubrir una conexión entre dos productos aparentemente
no relacionados.
• Descubrieron que muchos clientes que van al supermercado a

Dr. Roberto Volfovicz-Leon 2023


para comprar pañales también tienden a comprar cerveza.
• Esta información se utilizó entonces para colocar cerveza y pañales
juntos y vieron un salto en
las ventas de ambos artículos.

49
Preguntas?
• En la próxima clase vamos a comenzar a revisar modelos de
machine learning supervisados: modelos de Regresión.
• Se sugiere leer:
• Capítulo 14 y 15 del libro “Estadística para Negocios y
Economía”. Anderson, Sweeney & Williams.

Dr. Roberto Volfovicz-Leon 2023


• Capítulo 3 del libro “An Introduction to Statistical Learning: with
Applications in R”. G. James y col.

50
Dr. Roberto Volfovicz-Leon 2023
“The best way to predict the future,
is to study the past.”

51

También podría gustarte