0% encontró este documento útil (0 votos)
463 vistas15 páginas

Prob 1

Descargar como xlsx, pdf o txt
Descargar como xlsx, pdf o txt
Descargar como xlsx, pdf o txt
Está en la página 1/ 15

Problema 1

La base de datos siguiente muestra un estudio realizado durante 10 años por la Asociación Estadounidense de
Cardiología proporcionó datos sobre la relación que guardan la edad (Age), la presión sanguínea (Pressure) y el
hábito de fumar sobre el riesgo de sufrir un infarto; el riesgo (Risk) se interpreta como la probabilidad (multiplic
por 100) de que el paciente sufra un infarto en los próximos 10 años. Para la variable fumador (Smoker), defina
variable ficticia que tome los valores 1 si el individuo es fumador y 0 si no lo es, es decir si la variable Fumador ti
el valor de YES, se le asigna un 1 y si toma el valor de NO, se le asigna un valor de 0; esto se muestra en la siguie
tabla:

tipo-> Y X X X X
Riesgo Edad Pressure Fuma Smoker
12 57 152 0 No
24 67 163 0 No
13 58 155 0 No
56 86 177 1 Yes
28 59 196 0 No
51 76 189 1 Yes
18 56 155 1 Yes
31 78 120 0 No
37 80 135 1 Yes
15 78 98 0 No
22 71 152 0 No
36 70 173 1 Yes
15 67 135 1 Yes
48 77 209 1 Yes
15 60 199 0 No
36 82 119 1 Yes
8 66 166 0 No
34 80 125 1 Yes
3 62 117 0 No
37 59 207 1 Yes

Se piensa que el Riesgo (probabilidad de que la persona sufra un infarto) aumenta si la edad,
la presión arterial aumenta y si es fumador. Si necesita un nivel de confianza utilice el 95%.
Note que en la redacción no dice cuál es la variable X y cuál es la variable Y, pero la
redacción dice que “el riesgo se ve afectado por la edad, la presión arterial y si es fumador”,
lo anterior indica que la variable dependientes (Y) es el riesgo y las otras variables son las
que causan un efecto en Y, estás son denominadas variables independientes (X) que sería la
edad, o la presión arterial o si es fumador o no. Basándose en la tabla anterior, usando un
nivel de significancia del 5%; se le pide que conteste lo siguiente:
a. Presente un diagrama de dispersión (Scatter en inglés):

Edad
90

85

80 f(x) = 0.42101432849354 x + 58.1036638470991


R² = 0.422811538125972
75

70

65

60

55

50
0 10 20 30 40 50 60

E indique el tipo de relación que se tiene entre la dependiente (Y) y la variable edad (X), ¿qué indica la gráfica?

Esta grafica nos muestra que en la mayoría de los casos mientas mas edad mas aumenta el riesgo de
un infarto

Ahora por medio del Análisis de datos:


b. Realice una regresión simple por medio del Excel y muestre sus resultados relacionado a la variable
riesgo y edad.

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.650239601
Coeficiente de determinación R^2 0.422811538
R^2 ajustado 0.390745512
Error típico 11.59254546
Observaciones 20

ANÁLISIS DE VARIANZA
Grados de liberSuma de cuadPromedio de l F Valor crítico de F
Regresión 1 1771.982016 1771.982016 13.185654581 0.001909879
Residuos 18 2418.967984 134.3871102
Total 19 4190.95

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%


Intercepción -42.79646547 19.38164818 -2.20809216 0.0404505696 -83.5157973
Edad 1.0042687612 0.276566202 3.631205665 0.0019098794 0.423224731
Análisis de los residuales Resultados de datos de probabilidad

ObservaciónPronóstico Riesgo ResiduosResiduos estándares Percentil


1 14.446853923 -2.44685392 -0.21685517 2.5
2 24.489541535 -0.48954154 -0.04338617 7.5
3 15.451122684 -2.45112268 -0.2172335 12.5
4 43.570647998 12.429352 1.101565251 17.5
5 16.455391445 11.54460855 1.023153872 22.5
6 33.527960386 17.47203961 1.548479093 27.5
7 13.442585162 4.557414838 0.403905998 32.5
8 35.536497908 -4.53649791 -0.40205221 37.5
9 37.545035431 -0.54503543 -0.04830438 42.5
10 35.536497908 -20.5364979 -1.82007014 47.5
11 28.50661658 -6.50661658 -0.57665619 52.5
12 27.502347819 8.497652181 0.753113948 57.5
13 24.489541535 -9.48954154 -0.84102125 62.5
14 34.532229147 13.46777085 1.193596286 67.5
15 17.459660207 -2.45966021 -0.21799014 72.5
16 39.553572953 -3.55357295 -0.31493939 77.5
17 23.485272774 -15.4852728 -1.37239965 82.5
18 37.545035431 -3.54503543 -0.31418274 87.5
19 19.468197729 -16.4681977 -1.45951248 92.5
20 16.455391445 20.54460855 1.820788959 97.5

c. De los resultados que se obtuvieron del Excel, muestre en qué lugar se encuentra la ecuación de regresión
estimada para predecir el riesgo de sufrir un infarto.

ŷ=−42.7954+1.0042𝑥_1

d. Realice la prueba de hipótesis (por medio de la prueba t) para mostrar que, a mayor edad, mayor sería el ries
de contraer un infarto.

g.l.= 1y 18
F= 13.185654581
α= 0.05
P-valor= 0.0019098794
V.C.≈ 4.4138734192

e. Indique la calidad de ajuste (muestre R cuadrada y el error estándar del estimado) e indique si usaría esta
ecuación para saber si es cierto lo que indican sobre el riesgo y la edad, para poder determinar si la variable eda
hace se incremente el riesgo.

R^2 ajustado 0.390745512


Error típico 11.59254546

No usaría esta ecuación dado que la R cuadrada esta muy lejos del 1 y el error típico esta muy elevado

f. Ahora realice una regresión múltiple y muestre sus resultados, usando todas las variables independientes (X´s
que son: Edad, Presión, Fuma) y la variable Riesgo (Y). Note que la variable cualitativa también entraría en esta
regresión ya que al convertirse en una variable ficticia (con 1 y 0) puede ser usada en la regresión.

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.934605168
Coeficiente de determinación R^2 0.87348682
R^2 ajustado 0.849765599
Error típico 5.756574565
Observaciones 20

ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadrados F Valor crítico de F
Regresión 3 3660.739588 1220.246529 36.823012229 2.064039E-07
Residuos 16 530.2104116 33.13815073
Total 19 4190.95

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%


Intercepción -91.75949844 15.22276009 -6.02778326 1.757555E-05 -124.0303082
Edad 1.0767410566 0.165963611 6.48781412 7.487302E-06 0.724913919
Pressure 0.2518134725 0.045225519 5.567951023 4.243665E-05 0.155939656
Fuma 8.7398710557 3.000815432 2.912498704 0.010173553 2.378426519

Análisis de los residuales Resultados de datos de probabilidad

ObservaciónPronóstico Riesgo ResiduosResiduos estándares Percentil


1 7.8903896078 4.109610392 0.777952939 2.5
2 21.427748371 2.572251629 0.486929544 7.5
3 9.722571082 3.277428918 0.620420238 12.5
4 54.151088117 1.848911883 0.35000068 17.5
5 21.123664511 6.876335489 1.301696484 22.5
6 46.405439222 4.594560778 0.869754482 27.5
7 16.308960024 1.691039976 0.320115386 32.5
8 22.443920676 8.556079324 1.619673501 37.5
9 37.114475932 -0.11447593 -0.0216704 42.5
10 16.904024281 -1.90402428 -0.36043351 47.5
11 22.9647644 -0.9647644 -0.18263077 52.5
12 35.915977322 0.084022678 0.015905568 57.5
13 23.116842197 -8.1168422 -1.53652552 62.5
14 52.518449728 -4.51844973 -0.85534659 67.5
15 22.955845986 -7.95584599 -1.50604879 72.5
16 35.238942485 0.761057515 0.144068871 77.5
17 21.106447732 -13.1064477 -2.48106233 82.5
18 34.596341207 -0.59634121 -0.11288793 87.5
19 4.4606233529 -1.46062335 -0.27649731 92.5
20 32.633483765 4.366516235 0.826585445 97.5

g. De los resultados que se obtuvieron del Excel, muestre en qué lugar se encuentra la ecuación de regresión
estimada para predecir el riesgo de sufrir un infarto.

ŷ=−91.7594978+1.07674106𝑥_1+0251871347𝑥_2+8.73987105𝑥_3

h. Existe la multicolinealidad, si es así, ¿entre que variables?

Edad Pressure Fuma


Edad 1 -0.30895167 0.410767454 Edad
Pressure -0.308951674 1 0.166646069 Pressure
Fuma 0.410767454 0.166646069 1 Fuma

Ninguna variable mostro correlación mayor a 0.7 o menor a -0.7 y los valores del VIF menores a 10 por lo que se
muestra que no existe relación entre las variables independientes

i. Realice las pruebas de hipótesis (prueba t) necesarias para indicar que variables deberían de estar en la ecuaci
o que variables no deberían de estar en la ecuación.

g.l.= 3 y16
F= 36.823012229
α= 0.05
P-valor= 2.064039E-07
V.C.≈ 3.2388715175
p-calor= 7.487302E-06 p-calor= 4.243665E-05
α= 0.05 α= 0.05
0.0000074873 < 0.05 0.0000424366 < 0.05

H0 es rechazada en todas las pruebas

j. Midiendo la calidad de ajuste de esta nueva regresión, ¿se explica de mejor manera el riesgo?

R^2 ajustado 0.849765599


Error típico 5.756574565

Si usaría esta ecuación dado que los valores de R cuadrada y de error estándar no llegan a valores de riesgo

k. Compare ambas regresiones por la calidad de ajuste (aquí solo podrá comparar la R-cuadrada ajustada y el er
estándar); ¿Cuál de las dos sería la mejor regresión?

Comparando las dos regresiones utilizaría la segunda (la que involucra las 3 variables independientes) dado que
esta nos dio un valor de R cuadrada más cercano a 1 y un error estándar menor el cual nos muestra que los valo
no son atípicos como en la primera regresión
or la Asociación Estadounidense de
la presión sanguínea (Pressure) y el
reta como la probabilidad (multiplicada
a variable fumador (Smoker), defina una
es, es decir si la variable Fumador tiene
or de 0; esto se muestra en la siguiente

rto) aumenta si la edad,


nfianza utilice el 95%.
able Y, pero la
terial y si es fumador”,
ras variables son las
dientes (X) que sería la
anterior, usando un
60

ble edad (X), ¿qué indica la gráfica?

mas aumenta el riesgo de

ultados relacionado a la variable

or crítico de F

Superior 95% Inferior 95.0%Superior 95.0%


-2.077133626 -83.5157973 -2.07713363
1.585312792 0.423224731 1.585312792
sultados de datos de probabilidad

Riesgo
3
8
12
13
15
15
15
18
22
24
28
31
34
36
36
37
37
48
51
56

ncuentra la ecuación de regresión

ue, a mayor edad, mayor sería el riesgo

13.1856546 > 4.41387342

0.00190988 < 0.05

stimado) e indique si usaría esta


a poder determinar si la variable edad,
or típico esta muy elevado

das las variables independientes (X´s


cualitativa también entraría en esta
usada en la regresión.

Edad Gráfico de los residuales


10
5

Residuos
0
-5 50 55 60 65 70 75 80 85
-10
-15
Edad

or crítico de F

Pressure Gráfico de los residuales


10
5
Superior 95% Inferior 95.0%Superior 95.0%
Residuos

0
-59.48868866 -124.030308 -59.4886887
-5 80 100 120 140 160 180 200
1.428568194 0.724913919 1.428568194
-10
0.347687289 0.155939656 0.347687289 -15
15.10131559 2.378426519 15.10131559
Pressure

sultados de datos de probabilidad Fuma Gráfico de los residuales


10
Riesgo 5
Residuos

3 0
8 -5 0 0.2 0.4 0.6 0.8 1
12 -10
13 -15
15 Fuma
15
15
18
22
Edad Curva de regresión ajustada
24 60

40
Riesgo
Riesgo

20 Pronóstico Rie

0
Edad Curva de regresión ajustada
60
28 40
Riesgo

Riesgo
31
20 Pronóstico Rie
34
36 0
36 50 55 60 65 70 75 80 85 90
37 Edad
37
48
51
56

ncuentra la ecuación de regresión

Edad Pressure Fuma


1.460349757 0.56688543 -0.69433338
0.56688543 1.248620414 -0.44093577
-0.69433338 -0.44093577 1.358689767

es del VIF menores a 10 por lo que se

iables deberían de estar en la ecuación

36.82301223 > 3.238871517

0.000000206 < 0.05


p-calor= 0.010173553
α= 0.05
0.01017 < 0.05

or manera el riesgo?

dar no llegan a valores de riesgo

mparar la R-cuadrada ajustada y el error

variables independientes) dado que


enor el cual nos muestra que los valores
iduales Pressure Curva de regresión ajustada
60
40
Riesgo
Riesgo

75 80 85 90 20 Pronóstico Riesgo

0
80 100 120 140 160 180 200 220
Pressure

esiduales Fuma Curva de regresión ajustada


60
40
Riesgo
Riesgo

180 200 220 20 Pronóstico Riesgo

0
0 0.2 0.4 0.6 0.8 1 1.2
Fuma

iduales Gráfico de probabilidad normal


60

40
Riesgo

0.8 1 1.2
20

0
0 20 40 60 80 100 120
Muestra percentil

ajustada

Riesgo
Pronóstico Riesgo
ajustada

Riesgo
Pronóstico Riesgo

5 90

También podría gustarte