Unidad 2
Unidad 2
Unidad 2
LA GESTIÓN
X = Ingreso familiar
semanal
60
= 7.272
𝑖=1
La tabla muestra el consumo semanal para 10 niveles de ingresos en una población de 60 familias. En total hay 10 valores medios para las 10 subpoblaciones de Y,
llamados valores esperados condicionales.
Es importante distinguir entre los valores esperados condicionales y el valor esperado incondicional, que para estos datos corresponde a $121,20 ($7.272/60)
Ejemplo hipotético
E (Y | Xi ) = f (Xi
)
¿Forma funcional de la FRP?
E (Y | Xi ) = β1 + β2Xi
Pendiente
Intercepto Intercepto
Pendiente
Concepto de linealidad en los parámetros
La ecuación 𝐸 𝑦 𝑥 = 𝛽1 + 𝛽2 𝑥 muestra que la función de regresión
poblacional (FRP), E(y|x) es una función lineal de x. La linealidad
significa que por cada aumento de una unidad en x el valor esperado
de y se modifica en la cantidad 𝛽1 .
La interpretación de linealidad se presenta cuando la esperanza
condicional de Y, E(Y | Xi), es una función lineal de los parámetros,
los β; puede ser o no lineal en la variable X.
PREGUNTA: ¿es lineal esta función?
E (Y | X i ) 1 2 Xi
En esta interpretación,
E (Y | X i ) 1 2 X 2
i
una función de
regresión como E(Y |
Xi ) = β1 + β2X^2i no
es una función lineal
porque la variable X
aparece elevada a una
potencia o índice de 2
pero es lineal en los Este modelo no es lineal en
parámetros. los parámetros
Funciones lineales en los
parámetros
El modelo de regresión simple
Se utiliza para estudiar la relación entre dos variables. Es decir y y x
son dos variables que representan alguna población y se desea
“explicar y en términos de x” o “estudiar cómo varia y cuando varía x”.
ECUACIÓN DE UNA REGRESIÓN SIMPLE
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑢
Término de error o
Parámetro del Parámetro de la perturbación
intercepto pendiente estocástica
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
y
f(y)
. E(y|x) = + x
0 1
.
x1 x2
Análisis de Regresión con Dos Variables:
Algunas Ideas Básicas
ESPECIFICACIÓN ESTOCÁSTICA DE LA FRP
Se ha visto que es claro que, a medida que aumenta el
ingreso familiar, el consumo familiar, en promedio, también
aumenta.
ui Yi - E (Y | X i )
Yi E (Y | X i ) ui
donde la desviación ui es una variable aleatoria no
observable que adopta valores positivos o negativos.
Técnicamente, ui se conoce como perturbación
estocástica o término de error estocástico.
El término de error o
perturbación estocástica
Como se ha señalado, el término de perturbación ui es un sustituto de todas las
variables que se omiten en el modelo, pero que, en conjunto, afectan a Y.
La pregunta obvia es: ¿por qué no se introducen explícitamente estas variables en
el modelo?
Razones:
1) Vaguedad de la teoría
2) Falta de disponibilidad de datos
3) Variables centrales y variables periféricas
4) Aleatoriedad intrínseca en el comportamiento humano
5) Variables representantes (proxy) inadecuadas
6) Principio de parsimonia
7) Forma funcional incorrecta
Línea de regresión, observaciones y errores
y E(y|x) = 0 + 1x
y4 .{
u4
y3 .} u3
y2 u2 {.
y1 .} u1
x1 x2 x3 x4 x
Estimación de Mínimo Cuadrado
Ordinario (MCO)
• En la práctica, casi nunca se tienen los datos de la población, sin
embargo si hay acceso a una muestra de valores de Y que
corresponden a algunos valores fijos de X.
• Por lo tanto, la labor ahora es estimar la FRP con base a
información muestral.
Ahora, igual que la FRP en la cual se basa la línea de regresión
poblacional, se desarrolla el concepto de función de regresión
muestral (FRM) para representar la línea de regresión muestral.
El símbolo es porque se trata de estimaciones
𝛽1 es el estimador y es el valor predicho cuando
x=0 (no siempre tiene sentido…)
𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥 + 𝑢ො 𝑖 ∆𝑦ො
𝛽2 = , es el estimador de 𝛽2 e indica la
∆𝑥
cantidad en la que cambia 𝑦ො cuando x se
incrementa en una unidad.
𝑢ො 𝑖 es el residual (muestral) y es la estimación de
𝑢𝑖
Análisis de Regresión con Dos Variables:
Algunas Ideas Básicas
FUNCIÓN DE REGRESIÓN MUESTRAL
La pregunta crítica es
ahora:
como la FRM es
apenas una
aproximación de la
FRP, ¿se puede diseñar
una regla o método que
“acerque” esta
aproximación lo más
posible?
Análisis de Regresión con Dos Variables:
Algunas Ideas Básicas
Usted está a cargo de muchos restaurantes ubicados en recintos universitarios a lo largo del
país. Ha obtenido una muestra de 10 de ellos y está interesado en predecir la venta
trimestral en miles de US$ en función del tamaño del campus medido por su población de
estudiantes.
Significado Beta = 5
Significado Alfa = 60
1 2
Estimadores de mínimos
cuadrados
• El resultado que se obtiene es:
𝑐𝑜𝑣(𝑥,𝑦) σ𝑛 ҧ
𝑖=1(𝑥𝑖 −𝑥)(𝑦 ത
𝑖 −𝑦)
𝛽2 = = σ𝑛
𝑠𝑥2 ҧ 2
𝑖=1(𝑥𝑖 −𝑥)
𝛽1 = 𝑦ത − 𝛽2 𝑥𝑖
𝛽መ2
𝛽መ1
Ejercicio
Los datos de la producción de trigo en toneladas (X) y el precio del kilo de harina en
pesetas (Y ) en la década de los 80 en España fueron:
25
Source SS df MS Number of obs = 526
para una persona sin ninguna
F(1, 524) = 103.36
educación tiene un sueldo
Model 1179.73204 1 1179.73204 Prob > F = 0.0000 promedio de -0,90 centavos de
20
Residual 5980.68225 524 11.4135158 R-squared = 0.1648 dólares por hora. Es posible?
Adj R-squared = 0.1632
15
Total 7160.41429 525 13.6388844 Root MSE = 3.3784
La pendiente estimada de la
10
wage Coef. Std. Err. t P>|t| [95% Conf. Interval] ecuación implica que un año
adicional de educación hace que el
educ .5413593 .053248 10.17 0.000 .4367534 .6459651 salario por hora aumente en
5
_cons -.9048516 .6849678 -1.32 0.187 -2.250472 .4407687 promedio de 54 centavos de
dólares por hora.
0
= −0,905 + 0,541 𝑒𝑑𝑢𝑐𝑎𝑐𝑖ó𝑛
𝑠𝑎𝑙𝑎𝑟𝑖𝑜 0 5 10 15 20
years of education
Que pasaría si todos tuvieran el mismo ingreso? Como podríamos ver el efecto de una unidad
adicional de ingreso en el consumo?
4) Media condicional cero
Dado el valor de X, la media o el valor esperado del término de
perturbación aleatoria 𝑢𝑖 es cero. En otras palabras,
𝐸 𝑢𝑥 =0
Es decir que los factores no incluidos explícitamente en el modelo (que están incorporados en u) no
afectan sistemáticamente el valor de la media de Y porque los valores positivos de u se compensan
con los valores negativos de manera que el efecto promedio es cero.
Insesgamiento de los
estimadores
Los primeros 4 supuestos implican el insesgamiento de los estimadores
de MCO.
Esto implica que su valor promedio o esperado es igual al valor
verdadero.
𝐸 𝛽መ𝑗 = 𝛽𝑗
Homocedasticidad Heterocedasticidad
Bondad de ajuste
• Sirve para medir qué tan bien la variable explicativa o independiente, x, explica
la variable dependiente y. Es útil para saber qué tan bien se ajusta la línea de
regresión de MCO a los datos.
• Se define: 𝑆𝐸𝐶 𝑆𝑅𝐶
𝑅2 = =1−
𝑆𝑇𝐶 𝑆𝑇𝐶
• Se interpreta como la proporción de la variación muestral de y que es explicada
por x.
• El valor es entre 0 y 1.
• Donde:
• SEC (suma explicada de cuadrados) mide la variación muestral de las 𝑦ො𝑖
• SRC (suma residual de cuadrados)
• STC mide es la suma total de cuadrados y corresponde a la suma de SEC y SRC
Ejemplo