Acunaregresionbook 1!40!46
Acunaregresionbook 1!40!46
Acunaregresionbook 1!40!46
EJERCICIOS
1. Considerando un modelo de regresión lineal simple, calcular Cov(Y , )
2. Probar que la línea de regresión estimada pasa por ( X , Y )
n
3. En un modelo de regresión lineal simple calcular E[SST]=E[ ( y i y ) 2 ]
i 1
4. Regresión que pasa por el origen. Algunas veces se conoce de anteamano que la linea de
regresión pasa por el origen. Es decir el modelo es de la forma yi=xi+ei.
a) Hallar el estimador por cuadrados mínimos de . Cuál es su varianza?
b) Hallar el estimador de la varianza poblacional 2
c) Establecer la formula para un intervalo de confianza del 100(1-)% de confianza para
x 2
5. Probar que Cov( , )
Sxx
7. En un pueblo se eligen 15 personas al azar y se anota su salario mensual (X) , y la cantidad que
ahorran mensualmente (Y). Ambas cantidades están expresadas en dólares. (ver datos salarios en la
página de internet del curso).
Salario Ahorro
800 150
850 100
Edgar Acuña Capítulo 1 Regresión Lineal Simple 35
900 280
1200 400
1500 350
1700 500
1900 635
2000 600
2300 750
2500 680
2700 900
3000 800
3200 300
3500 1200
5000 1000
8. Leer el conjunto de datos brain que aparece en la página de internet del texto y considerar las
variables:
MRI (X), conteo en pixels del 18 scans de resonancia magnetica del cerebro de una persona
Score_IQ, (Y) score en un test de inteligencia.
Mientras más alto sea el conteo de pixels mas grande es el cerebro de las personas.
9.
a) Si Y=3.5-1.5X , SST=219 y SSE=59, hallar e interpretar el valor de la correlación entre X y Y
b) Considerando los datos dados en a) y que la muestra de entrenamiento consiste de 36 datos, hallar
el valor de la prueba estadística para probar que la pendiente de regresión es cero.
12. Suponga que en el modelo de regresión lineal simple los valores xi y yi son reemplazados por
axi+b y cyi+d respectivamente donde a,b,c y d son constantes tales que a≠0 y c≠0. Cuál es el efecto
Edgar Acuña Capítulo 1 Regresión Lineal Simple 36
13. Considere el modelo de regresión lineal simple Y X , donde tanto X como Y y son
variables aleatorias con varianzas x2 , y2 y 2 respectivamente y xy representa la covarianza
entre X y Y. En la estimación mínimo cuadrática de y se minimiza la suma de cuadrados de las
distancias verticales de las observaciones a la linea ajustada. En Regresión Ortogonal la
estimación de y se hace considerando que la línea es ajustada de tal manera que se minimiza la
distancia más corta de las observaciones a la la linea ajustada. Hallar los estimadores de los
coeficientes de la regresión ortogonal.
14. Los siguientes datos fueron recolectados por el físico James Forbes para estimar indirectamente la
altura sobre el nivel del mar de acuerdo a las mediciones del punto de ebullición (boiling point) del
agua. (ver datos Forbes en la página de internet del curso).
a) Hacer un diagrama de puntos de Pressure versus Boiling point. Piensa Ud. que hay una tendencia
lineal.
b) Hacer un diagrama de puntos de 100*log(Pressure) versus Boiling point. Piensa Ud. que se
observa mejor la tendencia lineal que en a)
c) Ajustar la linea de regresión de 100*log(Pressure) versus Boiling point. Trazar la linea sobre el
plot hallado en b). Comentar los coeficientes de regresión. Interpretar los “p-values” de la prueba
t y el de la prueba F.
d) Interpretar el Coeficiente de determinación R2
e) Obtener un intervalo de confianza del 99% para . Interpretar su resultado
f) Obtener un intervalo de confianza del 99% para el valor predicho y un intervalo de confianza para
el valor medio de 100*log(Pressure) cuando el Boiling Point es de 195 oF.
Edgar Acuña Capítulo 1 Regresión Lineal Simple 37
15. Los siguientes datos fueron recolectado para tratar de pronosticar el nivel del agua del rio Snake
en Wyoming. (ver datos River en la página de internet del curso).
Columna 1: Contenido de agua en la nieve caida hasta Abril 1, desde 1919 hast 1935
Colunna 2: Produccion de agua (en pulgadas) en el rio Snake, entre los meses de abril y julio.
23.1 10.5
32.8 16.7
31.8 18.2
32.0 17.0
30.4 16.3
24.0 10.5
39.5 23.1
24.2 12.4
52.5 24.9
37.9 22.8
30.5 14.1
25.1 12.9
12.4 8.8
35.1 17.4
31.5 14.9
21.1 10.5
27.6 16.1
16. Los siguientes datos fueron registrados en el río Amazonas (Iquitos, Perú) para observar si la
deforestación afecta los niveles del agua del río. (Ver datos Amazonas en la página de internet del
curso).
columna 1: año
columna 2: nivel de agua máximo (en metros) en el rio Amazonas en Iquitos
columna 3: nivel de agua mínimo (en metros) en el rio Amazonas en Iquitos
a) Hacer un diagrama de puntos de Nivel máximo versus año, Nivel mínimo versus año y de Nivel
Máximo versus Nivel mínimo. Piensa Ud. que hay una tendencia lineal?.
b) Obtener la linea de regresion de Nivel máximo versus año, Nivel mínimo versus año y de Nivel
Máximo versus Nivel mínimo. Piensa Ud. que hay una tendencia lineal. Interpretar los
coeficientes y los “p-values” de la pruebas t y F.
c) Interpretar el Coeficiente de determinación R2 para cada una de las 3 regresiones.
d) Obtener un intervalo de confianza del 95% para el valor predicho y un intervalo de confianza para
el valor medio del nivel máximo del agua para el año 1980.
17. Los siguientes datos se han recolectado para explicar el rendimiento en millas por gallon de
varios modelos de carros.
a) Hacer un diagrama de puntos de MPG versus HP. Piensa Ud. que hay una tendencia lineal.
b) Ajustar la linea de regresión de MPG versus HP. Trazar la linea sobre el plot hallado en a).
Comentar los coeficientes de regresión. Interpretar los “p-values” de la prueba t y el de la prueba
F.
c) Interpretar el Coeficiente de determinación R2
d) Obtener un intervalo de confianza del 99% para . Interpretar su resultado
e) Obtener un intervalo de confianza del 90% para el valor predicho y un intervalo de confianza para
el valor medio de MPG cuando HP=100.
f) Hacer un diagrama de puntos de MPG versus WT. Piensa Ud. que hay una tendencia lineal.
g) Ajustar la linea de regresión de MPG versus WT. Trazar la linea sobre el plot hallado en a).
Comentar los coeficientes de regresión. Interpretar los “p-values” de la prueba t y el de la prueba
F.
h) Interpretar el Coeficiente de determinación R2
i) Obtener un intervalo de confianza del 99% para . Interpretar su resultado
j) Obtener un intervalo de confianza del 90% para el valor predicho y un intervalo de confianza para
el valor omedio de MPG cuando WT=35.
18.
a) Si Y=3.5-1.5X , SST=219 y SSE=59, hallar e interpretar el valor de la correlación entre X y Y
b) Considerando los datos dados en a) y que la muestra de entrenamiento consiste de 36 datos, hallar
el valor de la prueba estadística para probar que la pendiente de regresión es cero.
19.Considere que (X,Y) tiene una distribución normal bivariada con parámetros x, y, x , y y el
coeficiente de correlación . Probar que
y
a)La media condicional de Y dado X es E (Y / X ) x . Donde , y y x .
x
Notar que si la pendiente de la línea de regresión es cero entonces la correlación es 0, y que y
varian en la misma dirección.