Trabajo de Metodos Regresion Lineal

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

Universidad Nacional

Micaela Bastidas de
Apurímac
Escuela académica profesional de ingeniería
agroindustrial

Curso: Métodos estadísticos para la investigación

Tema: Regresión lineal

Docente: ING Luis Fernando Pérez Falcón

Alumna: Luisa Llacchua Molina.

Código: 102078

Abancay- Apurímac

2023
PRACTICA DE REGRESION LINEAL

Descripción del problema

Para estudiar la relación entre el peso y la altura en bebes, se midió la altura (cm) que depende
de su peso obtenido por él bebe, registrándose 15 mediciones. Los datos se encuentran en:

LA TABLA SIGUIENTE.

N° Peso (g): X Altura (cm): Y


1 300 20
2 320 22
3 350 25
4 375 27
5 400 30
6 425 33
7 450 35
8 480 38
9 510 40
10 550 43
11 570 45
12 600 48
13 630 51
14 655 53
15 689 55
Ind dep

Siga los procedimientos de la guía práctica

Análisis estadístico

El objetivo del estudio fue establecer la relación del peso si afecta la altura datos en estudio. Se
intentó modelar la relación existente entre la variación de la altura con el peso de los bebes.

Modelo lineal matemático: Y= α + β x + ε donde,

Y = Es la variable respuesta (dependiente) (Valores experimentales conocidos).

X = Es la variable predictora (independiente, regresora) (Valores experimentales conocidos).

α = Punto de corte (intercepto) con el eje “y” (ordenada) (Parámetro teórico).

β = Pendiente de la recta (Parámetro teórico).

ε = Ruido o Error experimental.

Siendo la variable dependiente la altura (y) y la independiente el peso(x). Previo a someter los
datos a un análisis de varianza (ANDEVA), se verificaron los supuestos del modelo de regresión
sobre los términos del error. Usualmente se suponen normales y aleatorios. Para ello se
utilizaron técnicas basadas en los residuos. Se utilizó la prueba de Anderson–Darling para
verificar el supuesto de normalidad de los residuos.

El supuesto de aleatoriedad de los residuos se verificó utilizando una prueba gráfica de los
Residuos v/s los predichos. En el caso de que los supuestos no se cumplan, se deberán probar
trasformaciones de las variables originales. Posteriormente a la verificación de los supuestos,
se procedió a interpretar el ANDEVA.

Se plantearon las siguientes hipótesis:

Ho: β = 0 (la regresión no es significativa)

HA: β ≠ 0 (la regresión es significativa)

Las hipótesis de interés se contrastaron usando un nivel de significación del 5%. Paralelamente
se probó la significancia de los parámetros α y β. Se plantearon las siguientes

hipótesis:

Ho: α = 0 (la función pasa por el origen, entonces el intercepto es nulo)

HA: α ≠ 0 (el intercepto es significativo, no es nulo).

Ho: β = 0 (no existe efecto de “x” sobre “y”, la pendiente es constante)

HA: β ≠ 0 (existe efecto lineal de “x” sobre “y”, la pendiente es significativa)

Las hipótesis de interés se contrastaron usando un nivel de significación del 5%. Para medir la
bondad del modelo se obtuvo el Coeficiente de Determinación (R2), que expresa el porcentaje
de la variación total de “y” que se debe al efecto de la variable “x”.

Resultados

a) Grafico de dispersión

Se tomó como variable dependiente a la altura y como variable regresora el peso. El siguiente

gráfico, muestra el comportamiento de las variables.

Bienvenido a Minitab, presione F1 para obtener ayuda.

Análisis de regresión: Peso (g): X vs. Altura (cm): y

La ecuación de regresión es
Peso (g): X = 73.6 + 11.0 Altura (cm): y

Coef.
Predictor Coef de EE T P
Constante 73.589 6.145 11.97 0.000
Altura (cm): y 10.9737 0.1566 70.09 0.000

S = 6.69293 R-cuad. = 99.7% R-cuad.(ajustado) = 99.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 220053 220053 4912.40 0.000
Error residual 13 582 45
Total 14 220635

Observaciones poco comunes


Altura Peso Ajuste Residuo
Obs (cm): y (g): X Ajuste SE Residuo estándar
15 55.0 689.00 677.14 3.22 11.86 2.02R

R denota una observación con un residuo estandarizado grande.

Gráfica de probabilidad de RESID1

Gráfica de probabilidad de RESID1


Normal
99
Media -2.46321E-13
Desv .Est. 6.449
95 N 15
AD 0.231
90
Valor P 0.761
80
70
Porcentaje

60
50
40
30
20

10

1
-15 -10 -5 0 5 10 15
RESID1

El grafico muestra los resultados de la prueba de Anderson Darling para verificar la


distribución normal de los errores. Se plantearon las siguientes hipótesis:
Ho: Errores son normales.
HA: Errores no son normales.
Las hipótesis de interés se contrastaron usando un nivel de significación del 1 %.
Para un nivel de significancia del 1 %, se acepta la hipótesis nula de que los errores son
normales
(p-value = 0,761 > que 0,01).

Análisis de regresión: Peso (g): X vs. Altura (cm): y

La ecuación de regresión es
Peso (g): X = 73.6 + 11.0 Altura (cm): y

Coef.
Predictor Coef de EE T P
Constante 73.589 6.145 11.97 0.000
Altura (cm): y 10.9737 0.1566 70.09 0.000

S = 6.69293 R-cuad. = 99.7% R-cuad.(ajustado) = 99.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 220053 220053 4912.40 0.000
Error residual 13 582 45
Total 14 220635

Observaciones poco común

Altura Peso Ajuste Residuo


Obs (cm): y (g): X Ajuste SE Residuo estándar
15 55.0 689.00 677.14 3.22 11.86 2.02R

R denota una observación con un residuo estandarizado grande.

Residuos vs. ajustes para Peso (g): X

vs. ajustes
(la respuesta es Peso (g): X)
15

10

5
Residuo

-5

-10

300 400 500 600 700


Valor ajustado

Para que exista aleatoriedad de los residuos, estos deben comportarse de forma uniforme, sin
patrón alguno, como en una franja, es decir, la variabilidad de los residuos debe ser siempre
constante, independiente del valor que tomen los valores “y” estimados (ó “fitted values” ó
“predichos”).
Por tanto, en este caso se acepta el supuesto de aleatoriedad de los errores.

Análisis de regresión: Peso (g): X vs. Altura (cm): y

La ecuación de regresión es
Peso (g): X = 73.6 + 11.0 Altura (cm): y

Coef.
Predictor Coef de EE T P
Constante 73.589 6.145 11.97 0.000
Altura (cm): y 10.9737 0.1566 70.09 0.000

S = 6.69293 R-cuad. = 99.7% R-cuad.(ajustado) = 99.7%

Análisis de varianza
Fuente GL SC MC F P
Regresión 1 220053 220053 4912.40 0.000
Error residual 13 582 45
Total 14 220635

Observaciones poco comunes

Altura Peso Ajuste Residuo


Obs (cm): y (g): X Ajuste SE Residuo estándar
15 55.0 689.00 677.14 3.22 11.86 2.02R

R denota una observación con un residuo estandarizado grande.

Residuos vs. ajustes para Peso (g): X

Como puede verse en la salida de los resultados, hay una relación lineal significativa entre el
peso y la altura (p value = 0,000 < 0,05), sustentada en el rechazo de la hipótesis nula, por lo
tanto se concluye que la regresión es significativa. Tomando la información sobre los
coeficientes de regresión se puede escribir la ecuación del modelo ajustado:

Peso (g): X = 73.6 + 11.0 Altura (cm): y

Esta recta permite estimar el valor de “y” (valor predicho) para cualquier valor de “x”. El
modelo ajustado puede ser usado con fines predictivos; por ejemplo, para una altura de 55 el
peso esperado es de 689gr.

Para los parámetros se plantearon las siguientes hipótesis:


Ho: α = 0 (la función pasa por el origen, entonces el intercepto es nulo)
HA: α ≠ 0 (el intercepto es significativo, no es nulo)
Ho: β = 0 (no existe efecto de “x” sobre “y”, la pendiente es constante)
HA: β ≠ 0 (existe efecto de “x” sobre “y”, la pendiente es significativa)

Estas pruebas de hipótesis se realizan con el estadístico t-student.


Las hipótesis de interés se contrastaron usando un nivel de significación del 5%.
El análisis de regresión muestra que el intercepto y la pendiente del modelo de regresión son
significativas dado que el p value de ambos coeficientes es < 0,05. Por tanto, los valores α
(73.6) y β (11.0) quedan en el modelo de la regresión.
Otros cálculos
Resulta fácil e instructivo verificar algunos resultados del análisis:
CM (Varianza) = SC (Variación) / gl
CM regresión = 220053 / 1 = 220053
Coeficiente de determinación = R2 = Variación debida a la variable independiente (SC Reg)
Variación total (SC Total)
R2 = 220053 / 220635 = 0,997
Es decir, la altura explica un 97 % de la variación total de la biomasa. El 5 % restante es ruido.

MS error = CME = varianza del error = S2 error


CME = 45

Pooled StDev = desviación estándar común = √ CME = S

S = √ 45 = 6.71

F = 220053/45 = 4890.07
T (para la constante) = 73.589/6.145 = 11.97

Observaciones inusuales (Outlier)


Las últimas líneas de resultados señalan observaciones potencialmente anómalas (Inusual
Observation).
Se advierte que las observaciones 16 y 28 son detectadas como observaciones inusuales ya que
presentan un gran valor de residuos (> 2). Estas observaciones habría que revisarlas
críticamente en la planilla original de datos.

Análisis de regresión: Peso (g): X vs. Altura (cm): y

La ecuación de regresión es
Peso (g): X = 73.59 + 10.97 Altura (cm): y

S = 6.69293 R-cuad. = 99.7% R-cuad.(ajustado) = 99.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 220053 220053 4912.40 0.000
Error 13 582 45
Total 14 220635

Línea ajustada: Peso (g): X vs. Altura (cm): y

Gráfica de línea ajustada


Peso (g): X = 73.59 + 10.97 Altura (cm): y
700 S 6.69293
R-cuad. 99.7%
R-cuad.(ajustado) 99.7%

600
Peso (g): X

500

400

300

20 30 40 50 60
Altura (cm): y

Residuos vs. ajustes para Altura (cm): y


vs. ajustes
(la respuesta es Peso (g): X)
15

10

5
Residuo

-5

-10

300 400 500 600 700


Valor ajustado

Coeficiente de correlación lineal de Pearson estadísticamente significativos al 1 % (evaluados


con el estadístico t de Student)

También podría gustarte