Econometria Clase01

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 73

Eco.

Jorge Raúl Guerra Lizarraga


INTRODUCCIÓN
ECONOMÉTRICA Y
DATOS ECONÓMICOS
MODELO DE
REGRESIÓN LINEAL
MODELO DE REGRESIÓN LINEAL
Introducción
Naturaleza del análisis de regresión
Modelo de regresión con 2 variables
Modelo clásico de regresión lineal normal
Análisis de regresión múltiple
Modelos de regresión con variables dicótomas
Vicios econométricos
Introducción

2023 – Stata 18.0


2020 – Stata 16.1

2016 – Stata 14.2

2000 – Stata 7.0

1985 - Stata 1.0

El Stata, software estadístico desarrollado por StataCorp. Utilizado


principalmente por instituciones académicas y empresariales
dedicadas a la investigación en economía, sociología, ciencias
políticas, biomedicina, epidemiologia, etc.
Naturaleza del análisis de regresión
Interpretación de la regresión

Relación estadística y determinista

Regresión, causalidad y correlación

Fuentes de datos

Función de regresión (FRP y FRM), estocástica


Modelo de regresión con 2 variables
Método de Mínimos Cuadrados Ordinarios

Fundamentos MCO

Errores estándar de los estimadores MCO

Teorema de Gauss Markov

Coeficiente de determinación 𝑟 2
Modelo clásico de regresión lineal
normal
Distribución de las perturbaciones 𝑢𝑖

Supuesto de normalidad de 𝑢𝑖

Propiedades de los estimadores de MCO

Intervalos confianza y pruebas de hipótesis

Evaluación de los resultados de la regresión


Análisis de regresión múltiple
El problema de estimación
El problema de inferencia
Mínimos Cuadrados Restringidos
Prueba de Chow
Predicción con regresión múltiple
Prueba de hipótesis - triada
Modelo de regresión con variables
dicótomas
Naturaleza de las variables dicótomas
Modelos ANOVA
Regresión cualitativas y cuantitativas ANCOVA
Efectos de interacción variables dicótomas
Análisis estacional con variables dicótomas
Regresión lineal por segmentos
Problemas econométricos
Multicolinealidad

Heteroscedasticidad

Autocorrelación
Macros y Escalares
• Escalares: Es una expresión que contiene un número o una
expresión de texto.
• Una vez defino el escalar, puedo invocarlo por su nombre. (display)
Macros y Escalares

• Macros: Prácticamente es un análisis asignada a un valor cuando


su nombre es referenciado y retorna su valor.
• Una macro puede ser global y local.
– Una macro local: es creada y usada hasta la ejecución del archivo do ó ado.
– Una macro global: Se mantiene hasta que termine su sesión.
• Para ver el contenido:
– Macro local display "`pais‘"
– Macro global display "$cd\do_files"
Macros y Escalares
• Macro – local:

• Macro - global
Looping
• Hay muchas tareas que por sus características mecánicas y
repetitivas pueden ser programadas fácilmente para que el
computador las realice automática y eficientemente
• Para ello, se utilizan los “loops” denominados foreach y forvalues
Looping
• Forvalues: Iteractua sobre serie de valores. Es decir ejecuta
repetidamente la macro local para cada elemento del rango
encerrado en llaves.
• El bucle se ejecuta cero o más veces.
Looping
• Forvalues:
Looping
• Foreach: El comando iteractua por todos los contenidos de una
macro. Puede ser una lista de variables.

• Si deseamos calcular una cantidad de 10% en impuestos pagados


por cada mes, una manera simple de hacer el computo a las 12
variables es mediante un multiplicador simple.
Looping
• Foreach: Tener los trimestes.

• Generamos una dummys tales que, indiquen:


1: El ingreso del mes actual sea menor que el ingreso anterior
0: El ingreso del mes actual sea mayor o igual que el ingreso anterior.
Looping
• Otros ejemplos.
Matrices
• El STATA ha desarrollado un lenguaje matricial que soporta un
amplio rango de operaciones matriciales.
• Las matrices en STATA son útiles para guardar los resultados.
También son una forma de presentar la información de manera
organizada. Muchas operaciones no pueden realizarse con los
comandos matrix tradicionales. Por ejemplo, si bien el comando
matrix mkmat permite crear una matriz a partir de una lista de
variables, el número de observaciones de la matriz es limitado (800
x 800 en la versión de Stata/IC y 11000 x 11000 en la versión
Stata/SE y Stata/MP).
• Los comandos clásicos y los del lenguaje MATA (MATA es el
lenguaje matricial en STATA), y en general cualquier lenguaje
matricial, tienen limitaciones a la hora de trabajar con expresiones
matriciales complejas (datos de panel, SUR, entre otros) sobre todo
si se considera la memoria disponible en la PC. En estos casos es
preferible trabajar con enlaces que permitan simplificar el cálculo
matricial.
Matrices
Matrices
Return y ereturn
• Return y ereturn: Cada vez que ejecuta un comando en Stata,
usted se unos resultados. Esos resultados y otros, son guardado en
retornos e() y r() (estos retornos son macros).
• Cada comando genera unas macros especificas.
• Usted puede asignar estos retornos a macros, escalares o matrices
(según sea el caso) si necesita usarlos luego.
• Una vez un comando nuevo se ejecuta, los retornos se reemplazan
por los del nuevo comando. Los comandos de estimación crean
e()s.
• Para ver los retornos después de ejecutar un comando:
ereturn list y return list
Return y ereturn
• return list

• ereturn list
PROGRAMACIÓN CON STATA
• Útil para poder mejorar los códigos y a la vez la construcción de
nuestras rutinas.
• El lenguaje de programación es continuamente mejorando y
actualizado.
Program
• Stata provee de la especificación de programas que el usuario bien
podría crear. Crearemos un programa básico.

• Si deseamos crear otro programa con el mismo nombre, Stata nos


mostrara un mensaje de error diciéndonos que existe un programa
con ese nombre por lo que debemos eliminarlo primero:

• Los nombres de los programas son almacenados en la memoria, la


manipulación de los programas: define, dir, drop, list, etc.
Program
Técnicas de muestreo

Muestreo sin reemplazo y con reemplazo

Diseños muéstrales

Técnicas de muestreo
Muestreo sin y con reemplazo
• Muestreo sin Reemplazo: Es el que se efectúa sin devolver a la
población los elementos que se van eligiendo para construir la
muestra, sin ser seleccionado más de una vez.

• Muestreo con Reemplazo: Es el que se realiza cuando un elemento


tomando de la población vuelve de nuevo a ella para poder volver a
ser elegido.
Diseños Muéstrales
• Cada base de datos tiene un diseño muestral aplicado para recolectar la
información.
• El diseño de muestreo complejo más común es el muestreo estratificado de
conglomerados. Stata permite definir el diseño en estos términos, incluir
correcciones para poblaciones finitas y especificar ponderadores. Los comandoa
utilizados para especificar el diseño es svy y svyset.
Diseños Muéstrales
Comando svy:
Permite realizar el análisis que incluye el ajuste
necesario en los errores de muestreo, de acuerdo
con el diseño utilizado en la encuesta, de esta Comando Descripción
manera, con dos sencillos comandos se realizan svymean Estimación de la media
los cálculos apropiados de manera eficiente. Esto svyprop Estimación de una proporción
svy total Estima totales
aplica para diferentes tipos de análisis inferencial:
svyregress Regresión lineal
svylogit Regresión logística - dicotómica
• Estimación (medias, proporciones, totales). svymlogit Regresión logística – multinomial

• Pruebas de hipótesis (prueba de igualdad


de medias).
• Análisis de regresión (lineal y no lineal).
Diseños Muéstrales
Comando svyset:

Donde:
pweight: define el ponderador.
strata: define los estratos.
psu: define la unidad primaria de muestreo.
fpc: define el factor de corrección para poblaciones finitas.
Diseños Muéstrales
Para ilustrar se utilizará la base de sumaria 2021, el cual contiene las variables de
gasto e ingreso. En este archivo, el estrato viene definido por la variable “estrato”, la
unidad primaria de muestreo por “conglomerado”. También utilizaremos como
ponderados la variable “facpob”.

La especificación del diseño es:

pweight es facpob
strata es estrato
psu es conglome
Técnicas de muestreo
Muestreo Aleatorio Simple

Muestreo Aleatorio Estratificado

Muestreo Sistemático

Muestreo por Conglomerado en Una


Etapa

Estratificación con muestreo de


Cluster en Dos Etapas
Muestreo Aleatorio Simple
• Este muestreo es raramente usado en la practica, sin
embargo, los investigadores a menudo obtienen un MAS
de su data y así se puede trabajar con una base
pequeña.
• Como las observaciones son las mismas lo cual asegura
que Stata entiende que tenemos un MAS, también solo
se tiene un estratificación.
Muestreo Sistemático
• El muestreo es quizás el procedimiento de selección que más se
conoce. Se utiliza comúnmente y es sencillo de aplicar. Consiste en
tomar cada unidad k-ésima de muestreo después de un arranque
aleatorio. Constituye una alternativa de la selección aleatoria e
independientes de las unidades de muestreo y a veces se llama
pseudoaleatorio. A menudo se usa conjuntamente con la
estratificación y con el muestreo de conglomerados.
• El muestreo consiste en abstraer una muestra de elementos que
son ordenados de manera sistemática.
Muestreo por Conglomerado en
Una Etapa
• Este método de muestreo es empleado para reducir el costo de muestrear
una población cuando esta dispersa sobre una gran área geográfica.
• Se aplica cuando es difícil tener una lista de todos los individuos que
forman parte de la población de estudio, sin embargo, sabemos que se
encuentran agrupados naturalmente en grupos.
• La idea es realizar conglomerados lo más heterogéneos dentro de cada
uno de ellos y homogéneos entre sí.
• Ejemplo: muestreo de primera etapa los distritos serán los conglomerados y
las escuelas serán los elementos o unidades de muestreo. Aleatorizamos la
selección de distritos y entonces seleccionados todas las escuelas dentro
de cada distrito seleccionados.
Estratificación con Muestreo de Cluster
en Dos Etapas
• Conocido como muestreo de dos etapas o también muestreo
bietápico.
• En la primera etapa, una muestra de unidades llamada unidades
primarias, es seleccionada de la población. Cada unidad primaria
está a su vez dividida en unidades más pequeñas llamadas
unidades secundarias.
• En la segunda etapa, sólo una parte de las unidades secundarias
situadas dentro de cada unidad primaria es observada. Por eso este
diseño recibe también el nombre de muestreo con submuestreo
Bootstrap y Montecarlo

Montecarlo

Bootstrap
Bootstrap y montecarlo
• Las técnicas de simulación en estadística, conocidos como
bootstrap, son de gran utilidad para calcular medidas de
incertidumbre como la desviación estándar de estimadores y los
intervalos de confianza.
• Estos métodos de simulación permite obtener estimaciones con
menores supuestos que los métodos analíticos, a cambio de un
trabajo computacional mas intenso.
• Dos métodos que son aplicables en el análisis de datos de
medición, son el método de simulación de Monte Carlo y el
remuestreo de bootstrap
Montecarlo
• Se introduce la técnica de la “Simulación de Montecarlo” que es una
herramienta que sirve para la identificación de la incertidumbre
mediante el uso de variables aleatorias.
• Se explican los principales conceptos relacionados con esta
herramienta para poder aplicarla a cualquier situación real.
Montecarlo
• La simulación es una técnica cuantitativa utilizada para obtener la
respuesta más probable de un evento por medio de la simulación de
un modelo matemático.
𝑦𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 +𝑢𝑖
• Esta herramienta combina conceptos estadísticos con la capacidad
de programas computacionales capaces de generar números seudo
aleatorios y automatizar cálculos.
• Este nombre es relativamente reciente y fue atribuido a Jon von
Neumann y Stanislaw Ulam cuando trabajaban en el proyecto
Manhattan durante la segunda guerra mundial.
• Su capacidad de modelar sistemas complejos y de poder trabajar
con cualquier tipo de distribución de probabilidad.
• Es una herramienta intuitiva, relativamente fácil de implementar y
con tiempo de obtención de resultados.
Montecarlo
• La simulación de Monte Carlo en su estado puro, la cual está
fundamentada en la generación de números aleatorios, se deben
seguir los siguientes pasos:
– Determinar las variables aleatorias y sus distribuciones.
– Iterar tantas veces como sean necesarias:
✓ Generar un número aleatorio.
✓ Uniforme [0,1].
✓ Determinar el valor para el número aleatorio generado de
acuerdo al rango o clases que se especifiquen.
– Calcular media, desviación estándar o métodos estadísticos
comparables.
– Analizar los resultados.
Montecarlo
• Funciones de distribuciones de probabilidad (FDP)
• Toda variable aleatoria posee una distribución de probabilidad que
describe su comportamiento. Si la variable es discreta, es decir, si
toma valores aislados dentro de un intervalo, su distribución de
probabilidad especifica todos los valores posibles de la variable
junto con su probabilidad de ocurrencia.
Montecarlo
• Al final las iteraciones, se utilizan, para extraer información de los
resultados, medias, desviaciones estándares o percentiles que
pueden ser de gran ayuda.
• El resultado obtenido después de todas las iteraciones e
interpretadas por métodos estadísticos puede tener diferentes
significados dependiendo del objetivo y de lo que se esté buscando.
Montecarlo
• Aplicación:
• Dados los supuesto del modelo clásico de regresión lineal, los
estimadores de minimos cuadrados, dentro de la clase de
estimadores lineales insesgados, tienen varianza minima, es decir
son MELI.
• Comprobar propiedad de insesgamiento:
– Coeficientes
– Varianza del modelo
• Procedimiento:
– Generar una muestra que provenga de una población (con coeficientes (betas) y
varianza del modelo conocidos (constante)).
– Calcular para la muestra una estimación de los coeficientes y de la varianza del
modelo.
– Almacenar las estimaciones.
– Repetir el proceso para un gran número de muestras (repeticiones del
experimento).
– Analizar los resultados agregados (para todas las restricciones)
Montecarlo
• Aplicación:
• Explicación:
– Definición de la variables
(coeficientes y sigma)
– Proceso para una muestra
– Creación del programa
– Simulaciones
– Análisis de resultados

𝑦𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 +𝑢𝑖
Montecarlo
Montecarlo
Montecarlo
Bootstrap
• La calidad de un estimador está relacionada con la varianza de
dicho estimador e ir acompañado por una estimación de su
varianza, o una medida de su incertidumbre.
• La metodología, que fue desarrollada en 1979 por Efron , para
calcular la variabilidad de un estimador, conocida como bootstrap,
consiste en tomar muestras aleatorias de la muestra que tenemos
originalmente
• Este proceso lo repetimos un número grande “N” de veces y
encontramos la distribución empírica de las estimaciones.
• El paradigma de esta técnica surge de una analogía en la cual la
muestra observada asume el papel de la población de la cual
proviene.es decirla muestra observada asume el papel de la
población de la cual proviene. El procedimiento consiste en tomar
muestras de una muestra se le conoce como remuestreo.
Algoritmo de remuestreo
• El punto de partida es una muestra de tamaño n, x=(x1, x2, ..., xn)
tomada de la población. Tomamos una muestra de tamaño n con
reemplazo, 𝑥𝑏∗ = (𝑥1∗ , 𝑥2∗ , …,𝑥𝑛∗ ) calculamos la estimación 𝜃𝑏∗ de la
cantidad de interés 𝜃.
Algoritmo de remuestreo
• Repetimos lo anterior B veces, y obtenemos la distribución empírica
de las estimación bootstrap 𝜃𝑏∗ , b=1,2,3,…,B.
• De esta distribución empírica, calculamos finalmente la desviación
estándar, y un intervalo de confianza, medidas de incertidumbre del
estimador 𝜃 de 𝜃.መ
• Calcular la estimación bootstrap de la desviación estándares.

• La estimación bootstrap de la medida de sesgo del estimador 𝜃መ de



𝜃, es la diferencia entre la media de las estimaciones bootstrap 𝜃b
Algoritmo de remuestreo
• La incertidumbre de la estimación en forma de intervalo de 100 (1-
2a)% de confianza, se obtiene tomando los cuantiles simétricos a y

(1-a) de la distribución bootstrap de 𝜃*.

• Escribir un bootstrap, requiere de cuatro pasos:


– Estimación inicial y guardar los resultados en una matrix.
– Programa llamado myboot, que muestrea la data con reemplazos y retorna el
estadístico de interés.
– Usar el prefijo “simulate” a lo largo de “myboot”, lo cual recoge los estadísticos
del muestreo bootstrapeado. Especificamos el parámetro de entrada, y el
número de replicas.
– Usamos el comando “bstat” para resumir los resultados. Incluimos las
estimaciones iniciales, guardadas en la matrix “observe” y el tamaño de la
muestra con la opción “stat” y “n”.
Algoritmo de remuestreo
Algoritmo de remuestreo
Algoritmo de remuestreo
Datos georreferenciados

Utilización de mapas en la estadística

Tipos de mapas

Conversión de los archivos shp en dta

Construcción del mapa coroplético


Utilización de mapas en
estadísticas
¿Por qué un mapa es mejor que miles de números?
Una imagen vale más que mil palabras, entonces un mapa vale más que
mil números.
Utilización de mapas en
estadísticas
Tipos de mapas
• Los mapas pueden ser clasificados según su escala, función, diseño
y tecnología.
– Mapas generales (topográficos)
– Mapas temáticos (estadísticos)
• Mapas de coropletas
• Mapas de puntos
• Mapas de símbolos proporcionales
Conversión de los archivos .shp en
.dta

dta

shp

dta
Construcción del mapa coropletico
Construcción del mapa coropletico
Web Scraping

¿Qué es la Web Scraping?

¿Cómo funciona y utilidad?

Extracción de datos

Web Scraping con Stata


¿Qué es la Web Scraping?
• La Web Scraping o Raspado de Web, es el proceso de extraer y almacenar
la información de forma automática de la Web. Utilizado un software
(crawler).
• Los crawlers extraigan información de libre acceso. Pero eso no siempre
sucede así, por lo que debes tener protegidos los datos que no deseas que
conozca nadie.

Que se puede extraer:


• Nuevas fuentes.
• Información de las empresas.
• Medios de comunicación social.
• Motores de búsqueda.
• Investigación de datos.
• Sitio de precios

Preguntas:
¿Es legal?, Alguien viniera scrapear tus datos.
¿Cómo funciona y utilidad?
• Funciona mediante dos partes: un rastreador web (crawler) y un raspador web
(scraper). El rastreador podría ser el caballo y el raspador el carro.
• El rastreador (crawler) al que generalmente llamamos «araña», es una inteligencia
artificial que navega por Internet para indexar y buscar contenido siguiendo
enlaces y explorando.
• El scraper es una herramienta especializada diseñada para extraer datos de una
página web con precisión y rapidez.
Los usos de la Web Scraping :
• Investigación de mercado.
• Comparación de precios.
• Supervisión de datos
• Detección de cambios Webs
• Integración de datos Webs
Extracción de datos
• Existen distintos niveles de automatización que las existentes
tecnologías de Web Scraping pueden brindar:
– «Copiar y pegar» humano.
– Uso de expresiones regulares.
– Protocolo HTTP.
– Algoritmos de minería de datos.
– Parsers de HTML.
– Aplicaciones para web scraping.
– Reconocimiento de información semántica.​
Web Scraping con Stata
• El Stata respecto a la Web Scarping esta en sus primeras etapas.
• Se han escrito varios programas que pueden realizar la tarea
sencillas de Web Scraping. El Stata presenta el paquete “readhtml”.
• El comando para instalar:
– net install readhtml, from(https://ssc.wisc.edu/sscc/stata/) o
– net from https://ssc.wisc.edu/sscc/stata/

• El comando “readhtml”, se encuentra en desarrollo, teniendo en


cuenta que solo lee tablas y listas. El contiene dos programas
principales de utilidad:
– readhtmltable (identifica las tablas de datos y las convierte en un conjunto de datos).
– readhtmllist (identifica las lista con datos y las convierte en un conjunto de datos).

dta
Web Scraping con Stata
COMUNICACIÓN PERMANENTE CON LA ESCUELA

Correo de la Escuela del INEI


enei@inei.gob.pe

Área de Campus Virtual


Campus.virtual@inei.gob.pe

Para poder atenderte mejor puedes contactarnos al 433-3127 anexo 102-103 o


escribirnos a: enei@inei.gob.pe

Pasaje Hernán Velarde 285 Lima (Altura cuadra 1 y 2 de la Av Arequipa)

También podría gustarte