Prob 1
Prob 1
Prob 1
La base de datos siguiente muestra un estudio realizado durante 10 años por la Asociación Estadounidense de
Cardiología proporcionó datos sobre la relación que guardan la edad (Age), la presión sanguínea (Pressure) y el
hábito de fumar sobre el riesgo de sufrir un infarto; el riesgo (Risk) se interpreta como la probabilidad (multiplic
por 100) de que el paciente sufra un infarto en los próximos 10 años. Para la variable fumador (Smoker), defina
variable ficticia que tome los valores 1 si el individuo es fumador y 0 si no lo es, es decir si la variable Fumador ti
el valor de YES, se le asigna un 1 y si toma el valor de NO, se le asigna un valor de 0; esto se muestra en la siguie
tabla:
tipo-> Y X X X X
Riesgo Edad Pressure Fuma Smoker
12 57 152 0 No
24 67 163 0 No
13 58 155 0 No
56 86 177 1 Yes
28 59 196 0 No
51 76 189 1 Yes
18 56 155 1 Yes
31 78 120 0 No
37 80 135 1 Yes
15 78 98 0 No
22 71 152 0 No
36 70 173 1 Yes
15 67 135 1 Yes
48 77 209 1 Yes
15 60 199 0 No
36 82 119 1 Yes
8 66 166 0 No
34 80 125 1 Yes
3 62 117 0 No
37 59 207 1 Yes
Se piensa que el Riesgo (probabilidad de que la persona sufra un infarto) aumenta si la edad,
la presión arterial aumenta y si es fumador. Si necesita un nivel de confianza utilice el 95%.
Note que en la redacción no dice cuál es la variable X y cuál es la variable Y, pero la
redacción dice que “el riesgo se ve afectado por la edad, la presión arterial y si es fumador”,
lo anterior indica que la variable dependientes (Y) es el riesgo y las otras variables son las
que causan un efecto en Y, estás son denominadas variables independientes (X) que sería la
edad, o la presión arterial o si es fumador o no. Basándose en la tabla anterior, usando un
nivel de significancia del 5%; se le pide que conteste lo siguiente:
a. Presente un diagrama de dispersión (Scatter en inglés):
Edad
90
85
70
65
60
55
50
0 10 20 30 40 50 60
E indique el tipo de relación que se tiene entre la dependiente (Y) y la variable edad (X), ¿qué indica la gráfica?
Esta grafica nos muestra que en la mayoría de los casos mientas mas edad mas aumenta el riesgo de
un infarto
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.650239601
Coeficiente de determinación R^2 0.422811538
R^2 ajustado 0.390745512
Error típico 11.59254546
Observaciones 20
ANÁLISIS DE VARIANZA
Grados de liberSuma de cuadPromedio de l F Valor crítico de F
Regresión 1 1771.982016 1771.982016 13.185654581 0.001909879
Residuos 18 2418.967984 134.3871102
Total 19 4190.95
c. De los resultados que se obtuvieron del Excel, muestre en qué lugar se encuentra la ecuación de regresión
estimada para predecir el riesgo de sufrir un infarto.
ŷ=−42.7954+1.0042𝑥_1
d. Realice la prueba de hipótesis (por medio de la prueba t) para mostrar que, a mayor edad, mayor sería el ries
de contraer un infarto.
g.l.= 1y 18
F= 13.185654581
α= 0.05
P-valor= 0.0019098794
V.C.≈ 4.4138734192
e. Indique la calidad de ajuste (muestre R cuadrada y el error estándar del estimado) e indique si usaría esta
ecuación para saber si es cierto lo que indican sobre el riesgo y la edad, para poder determinar si la variable eda
hace se incremente el riesgo.
No usaría esta ecuación dado que la R cuadrada esta muy lejos del 1 y el error típico esta muy elevado
f. Ahora realice una regresión múltiple y muestre sus resultados, usando todas las variables independientes (X´s
que son: Edad, Presión, Fuma) y la variable Riesgo (Y). Note que la variable cualitativa también entraría en esta
regresión ya que al convertirse en una variable ficticia (con 1 y 0) puede ser usada en la regresión.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.934605168
Coeficiente de determinación R^2 0.87348682
R^2 ajustado 0.849765599
Error típico 5.756574565
Observaciones 20
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadrados F Valor crítico de F
Regresión 3 3660.739588 1220.246529 36.823012229 2.064039E-07
Residuos 16 530.2104116 33.13815073
Total 19 4190.95
g. De los resultados que se obtuvieron del Excel, muestre en qué lugar se encuentra la ecuación de regresión
estimada para predecir el riesgo de sufrir un infarto.
ŷ=−91.7594978+1.07674106𝑥_1+0251871347𝑥_2+8.73987105𝑥_3
Ninguna variable mostro correlación mayor a 0.7 o menor a -0.7 y los valores del VIF menores a 10 por lo que se
muestra que no existe relación entre las variables independientes
i. Realice las pruebas de hipótesis (prueba t) necesarias para indicar que variables deberían de estar en la ecuaci
o que variables no deberían de estar en la ecuación.
g.l.= 3 y16
F= 36.823012229
α= 0.05
P-valor= 2.064039E-07
V.C.≈ 3.2388715175
p-calor= 7.487302E-06 p-calor= 4.243665E-05
α= 0.05 α= 0.05
0.0000074873 < 0.05 0.0000424366 < 0.05
j. Midiendo la calidad de ajuste de esta nueva regresión, ¿se explica de mejor manera el riesgo?
Si usaría esta ecuación dado que los valores de R cuadrada y de error estándar no llegan a valores de riesgo
k. Compare ambas regresiones por la calidad de ajuste (aquí solo podrá comparar la R-cuadrada ajustada y el er
estándar); ¿Cuál de las dos sería la mejor regresión?
Comparando las dos regresiones utilizaría la segunda (la que involucra las 3 variables independientes) dado que
esta nos dio un valor de R cuadrada más cercano a 1 y un error estándar menor el cual nos muestra que los valo
no son atípicos como en la primera regresión
or la Asociación Estadounidense de
la presión sanguínea (Pressure) y el
reta como la probabilidad (multiplicada
a variable fumador (Smoker), defina una
es, es decir si la variable Fumador tiene
or de 0; esto se muestra en la siguiente
or crítico de F
Riesgo
3
8
12
13
15
15
15
18
22
24
28
31
34
36
36
37
37
48
51
56
Residuos
0
-5 50 55 60 65 70 75 80 85
-10
-15
Edad
or crítico de F
0
-59.48868866 -124.030308 -59.4886887
-5 80 100 120 140 160 180 200
1.428568194 0.724913919 1.428568194
-10
0.347687289 0.155939656 0.347687289 -15
15.10131559 2.378426519 15.10131559
Pressure
3 0
8 -5 0 0.2 0.4 0.6 0.8 1
12 -10
13 -15
15 Fuma
15
15
18
22
Edad Curva de regresión ajustada
24 60
40
Riesgo
Riesgo
20 Pronóstico Rie
0
Edad Curva de regresión ajustada
60
28 40
Riesgo
Riesgo
31
20 Pronóstico Rie
34
36 0
36 50 55 60 65 70 75 80 85 90
37 Edad
37
48
51
56
or manera el riesgo?
75 80 85 90 20 Pronóstico Riesgo
0
80 100 120 140 160 180 200 220
Pressure
0
0 0.2 0.4 0.6 0.8 1 1.2
Fuma
40
Riesgo
0.8 1 1.2
20
0
0 20 40 60 80 100 120
Muestra percentil
ajustada
Riesgo
Pronóstico Riesgo
ajustada
Riesgo
Pronóstico Riesgo
5 90