Estadística Inferencial II U1
Estadística Inferencial II U1
Estadística Inferencial II U1
Estadística Inferencial II
8,5
8,0
7,5
7,0
6,5
6,0
1975 1980 1985 1990 1995 2000
A ños
2 CAPÍTULO 1 Regresión lineal simple y múltiple
Contenido
CAPÍTULO 1. Regresión lineal simple y múltiple………………………………. 4
1.1. Regresión Lineal simple………………………………………………………. 4
1.1.1. Prueba de hipótesis en la regresión lineal simple…………...……………. 12
1.1.2. Calidad del ajuste en regresión lineal simple……………...……………. .. 19
1.1.3. Estimación y predicción por intervalo en regresión lineal simple……….... 23
1.1.4. Uso de software estadístico………………………………………....……... 25
Para ilustrar el concepto, considérense los datos de la tabla 1.1. En esta tabla, se
relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto
(papel).
4 134
6 145
8 142
10 149
12 144
14 160
16 156
18 157
20 168
22 166
24 167
26 171
28 174
30 183
180
170
Resistencia
160
150
140
130
5 10 15 20 25 30
Porcentaje de fibra
El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor se
ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la más
sencilla sea encontrar la línea recta para la cual las diferencias entre los valores reales y
los valores pronosticados a partir de la recta ajustada de regresión sean tan pequeñas
como sea posible. Sin embargo, como estas diferencias son positivas para algunas
observaciones y negativas para otras, en términos matemáticos se minimiza la suma de
los cuadrados de las diferencias.
Gráfica de línea ajustada
Resistencia = 130,7 + 1,624 Porcentaje de fibra
190 S 3,87648
R-cuad. 93,0%
R-cuad.(ajustado) 92,4%
180
170
Resistencia
160
150
140
130
5 10 15 20 25 30
Porcentaje de fibra
Figura 1.3 Línea recta que mejor se ajusta a los datos, donde la
distancia a los puntos es la más pequeña posible
Suponga que las variables y Y están relacionadas linealmente y que para cada
valor de , la variable dependiente, Y, es una variable aleatoria. Es decir, que cada
observación de Y puede ser descrita por el modelo:
8 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 8
donde es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el
modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y
como el valor esperado del error es cero, , se puede ver que el valor esperado
de la variable Y, para cada valor de , está dado por línea recta
(1.2)
(1.3)
(1.4)
donde
9 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 9
(1.7)
De esta forma, para obtener la recta ajustada es necesario aplicar las fórmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la
resistencia de la pulpa.
Tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple para los datos de la resistencia
de la pulpa.
Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra
y resistencia del papel, está dada por
En la figura 1.3 se muestra el ajuste de esta línea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de
resistencia de 1,6242 en promedio. La ecuación (1.8) sirve para estimar la resistencia
promedio esperada para cualquier porcentaje de fibra utilizada.
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,964432318
Coeficiente de determinación R^2 0,930129695
R^2 ajustado 0,92430717
Error típico 3,876481166
Observaciones 14
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Intercepción 130,6747253
Coeficientes 2,417790201
Error típico 54,047173t
Estadístico 1,05975E-15
Probabilidad 125,406813
Inferior 95%
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444
Resumen de Minitab
Análisis de regresión: Resistencia vs. Porcentaje de fibra
La ecuación de regresión es
Resistencia = 131 + 1,62 Porcentaje de fibra
Coef.
1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 11
1
Predictor Coef de EE T P
Constante 130,675 2,418 54,05 0,000
Porcentaje de fibra 1,6242 0,1285 12,64 0,000
1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 12
2
Análisis de varianza
Fuente GL SC MC F P
Regresión 1 2400,5 2400,5 159,75 0,000
Error residual 12 180,3 15,0
Total 13 2580,9
Sumatoria de XY
Sumatoria de XX
Variabilidad total
Media de X
Media de Y
Ejemplo
Suponga que el gerente de una cadena de servicios de entrega de paquetería desea
desarrollar un modelo para predecir las ventas semanales (en miles de dólares) para las
tiendas individuales basado en el número de clientes que realizan compras. Se
seleccionó una muestra aleatoria entre todas las tiendas de la cadena con los siguientes
resultados.
Respuestas
a)
11
10
Ventas
7
6
400 500 600 700 800 900 1000
Clientes
Resumen de Excel
En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes,
sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la relación
entre y . Una primera forma de hacer esto es probar una serie hipótesis sobre el
modelo. Para ello es necesario suponer una distribución de probabilidad para el
término de error, Es usual suponer normalidad: se distribuye en forma normal,
independiente, con media cero y varianza .
(1.9)
13 CAPÍTULO 1 Regresión lineal simple
Prueba
y múltiple
de hipótesis en regresión lineal simple 13
(1.10)
(1.11)
(1.13)
Por lo tanto, un estimador insesgado de está dado por:
Por otro lado, con respecto del parámetro suele ser de interés probar la
siguiente hipótesis:
(1.15)
El cual tiene una distribución -Student con grados de libertad, por lo que
se rechaza si:
(1.17)
y el criterio de rechazo es el mismo.
La estimación de los parámetros del modelo y las pruebas de hipótesis sobre los
mismos se sintetizan en la siguiente tabla:
Intercepción
Pendiente
Se rechaza la Hipótesis nu
16 CAPÍTULO 1 Regresión lineal simple
Prueba
y múltiple
de hipótesis en regresión lineal simple 16
Resumen de Excel
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 2,308620077 0,486903934 4,741428269 0,000162977
Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11
Ejercicios
4.- Se utilizaron métodos de regresión para analizar los datos de un estudio para
investigar la relación entre la temperatura superficial de una carretera (x) y la deflexión
del pavimento (y). Las cantidades resumidas fueron , Ʃ , Ʃ = 8,86,
Ʃ , Ʃ = 143 215,8, Ʃ = 1 083,67.
5.- Se piensa que el número de libras de vapor consumidas mensualmente por una
planta química se relaciona con la temperatura ambiente promedio (en ) de ese mes.
En la tabla siguiente se muestra la temperatura y el consumo anual:
4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3 14,7 15,0 17,3 19,2 23,1 27,4 27,7 31,8 39,5
0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60 0,78 0,81 0,78 0,69 1,30 1,05 1,06 1,74 1, 62
8.- En un artículo de Wear se presentan los datos del desgaste por rozamiento del acero
dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad del aceite
y = volumen del desgaste ( ), son:
240 181 193 155 172 110 113 75 94
1,6 9,4 15,5 20,0 22,0 35,5 43,0 40,5 33,0
9.- Considérense los datos del ejercicio 4 para = temperatura superficial de una
carretera y = deflexión del pavimento.
Tiempo 10 15 20 8 12 13 15 12 14 20 19 18
(minutos)
Rendimiento 64 81,7 76,2 68,5 77,9 82,2 74,2 70 76 83,2 85,3
(%)
20 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 20
11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura
promedio.
a) Pruebe la significación de la regresión usando . ¿Cuál es el valor P para esta
prueba? Enuncie las conclusiones que resultan de esta prueba.
b) Estime
c) Estime los errores estándar de la pendiente y la ordenada al origen.
d) Pruebe la hipótesis contra usando .
Encuentre el valor P para esta prueba.
e) Pruebe la hipótesis contra usando . Encuentre
el valor P para esta prueba y saque conclusiones.
En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una
relación significativa entre y ; sin embargo, no hemos visto si tal relación permite
hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué
tanta de la variabilidad presente en fue explicada por el modelo, además si se cumplen
los supuestos de los residuos.
(1.17)
21 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 21
= = 2580,86
Regresión 1
Error o residual
Total
Resumen de Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,964432318
Coeficiente de determinación R^2 0,930129695
R^2 ajustado 0,92430717
Error típico 3,876481166
Observaciones 14
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Fuente GL SC MC F P
Regresión 1 2400,5 2400,5 159,75 0,000
Error residual 12 180,3 15,0
Total 13 2580,9
(1.18)
21 CAPÍTULO 1 Regresión lineal simpleCalidad
y múltiple
de ajuste en regresión lineal simple 21
(1.19)
=
(1.20)
Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se construye
la gráfica de probabilidad normal que se muestra en la figura 1.4. En ésta se aprecia
que el supuesto de normalidad sobre los errores se cumple razonablemente bien, ya
que los puntos en esta gráfica tienden a ajustarse a la línea recta.
95
90
80
70
Porcentaje
60
50
40
30
20
10
5
1
-10 -5 0 5 10
Residuo
Figura 1.4 Gráfica de probabilidad normal para los residuos de la resistencia de la pulpa
vs. ajustes
(la respuesta es Resistencia)
7,5
5,0
2,5
Residuo
0,0
-2,5
-5,0
Figura 1.5 Gráfica de residuos contra estimados o predichos para la resistencia de la pulpa
(1.21)
A este intervalo se le conoce como intervalo para la recta de regresión. Note que su
amplitud depende del y de la distancia entre y . La amplitud es mínima cuando
= y se incrementa conforme se hace más grande.
Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo de
la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza para la
respuesta media en = 12 (porcentaje de fibra)
(1.22)
(1.23)
Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de
nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042
Ejercicios
1 40 825
2 42 830
3 49 890
4 46 895
5 44 890
6 48 910
7 46 915
8 43 960
9 53 990
10 52 1010
11 54 1012
12 57 1030
13 58 1050
2.- Remítase a los datos del ejercicio 3 (de la sección anterior) para
intrínseca del concreto y a la compresión.
Encuentre un intervalo de confianza de 95% para:
a) la pendiente
b) la ordenada al origen
c) la permeabilidad media cuando
d) Encuentre un intervalo de predicción 95% para la permeabilidad cuando
Excel
En la hoja de cálculo de Excel se incluye la regresión lineal simple y múltiple; para
ello, es necesario realizar la siguiente secuencia de opciones:
1.- En la hoja de cálculo de Excel (pantalla principal) hacer clic con el puntero en el
símbolo del sistema localizado en el extremo superior izquierdo
5.- De esta ventana activar la casilla de herramientas para análisis (palomearla) y dar
clic en aceptar. De esta manera hemos activado la opción de análisis de datos.
Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y
curva de regresión ajustada y aceptar.
En Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja
de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego
Regresión seguida de Regresión nuevamente
29 CAPÍTULO 1 Regresión lineal simple y múltiple
Uso de un software estadístico 29
En muchas situaciones prácticas existen varias variables independientes que se cree que
influyen o están relacionadas con una variable de respuesta , y por lo tanto será
necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de
. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa
habitación tal vez sea necesario considerar el tipo de residencia, el número de personas
que la habitan, la temperatura promedio de la zona, etcétera.
(1.22)
Donde los son los parámetros del modelo que se conocen como coeficientes
de regresión y es el error aleatorio, con media cero, . Si en la
ecuación (1.22) , estamos en el caso de regresión lineal simple y el modelo es una
línea recta; si , tal ecuación representa un plano. En general, la ecuación (1.22)
representa un hiperplano en el espacio de dimensiones generado por las variables
{ }.
El término lineal del modelo de regresión se emplea debido a que la ecuación
(1.22) es función lineal de los parámetros desconocidos La interpretación
de éstos es muy similar a lo ya explicado para el caso de regresión lineal simple: es
la ordenada al origen, y mide el cambio esperado en por cambio unitario en
cuando el resto de las variables regresoras se mantienen fijas o constantes.
Para encontrar los coeficientes de regresión múltiple por el método de mínimos
cuadrados aplicamos el siguiente sistema de ecuaciones normales:
(1.23)
Por ejemplo La siguiente tabla muestra los pesos Y a la libra más cercana, las
estaturas X1 a la pulgada más cercana y las edades X2 al año más cercano de 12
muchachos.
31 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal múltiple 31
64 57 8
71 59 10
53 49 6
67 62 11
55 51 8
58 50 7
77 55 10
57 48 9
56 52 10
51 42 6
76 61 12
68 57 9
Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple
Y X1 X2 Y2 X 12 X 22 X 1Y X 2Y X1 X 2
64 57 8 4096 3249 64 3648 512 456
71 59 10 5041 3481 100 4189 710 590
53 49 6 2809 2401 36 2597 318 294
67 62 11 4489 3844 121 4154 737 682
55 51 8 3025 2601 64 2805 440 408
58 50 7 3364 2500 49 2900 406 350
77 55 10 5929 3025 100 4235 770 550
57 48 9 3249 2304 81 2736 513 432
56 52 10 3136 2704 100 2912 560 520
51 42 6 2601 1764 36 2142 306 252
76 61 12 5776 3721 144 4636 912 732
68 57 9 4624 3249 81 3876 612 513
y x1 x2 y
2
x1 x2 x1 y
2 2
x2 y x1 x2
753 643 106 48,139 34,843 976 40,830 6,796 5,779
La ecuación de regresión es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad
Coef.
Predictor Coef de EE T P
Constante 3,65 16,17 0,23 0,826
Estatura 0,8546 0,4517 1,89 0,091
Edad 1,506 1,414 1,07 0,315
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25
34 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 34
Resultados en Excel
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12
ANÁLISIS DE VARIANZA
Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 libertad
Grados de 258,8766464 28,76407182
Total 11 888,25
Intercepción 3,651215805
Coeficientes 16,16780562
Error típico 0,22583249t
Estadístico 0,82637676
Probabilidad -32,9229014
Inferior 95%
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262
Observación
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625
Pronóstico Peso -1,565096251
Residuos
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356
Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para
regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple
tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar
su verdadera contribución a la explicación de la respuesta. También requerimos de la
suposición de que los errores se distribuyen en forma normal, independientes, con
media cero y varianza . Una consecuencia de esta suposición es que
las observaciones son: .
(1.24)
Ejemplo
Se probará la significación de la regresión (con utilizando los datos de los
pesos , estaturas y edades de la tabla 1.5
10,94
= =
Tabla 1.7 ANOVA para la significancia del modelo de regresión lineal múltiple
Error o residuo
Total n-1
36 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 36
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25
Coeficiente de determinación
El que un modelo sea significativo no necesariamente implica que sea bueno en
términos de que explique la variación de los datos. Por ello es importante tener
mediciones adicionales de la calidad del ajuste del modelo, como las gráficas de
residuales y el coeficiente de determinación. Con la información del análisis de varianza
de la tabla 1.7 es muy sencillo calcular el coeficiente de determinación , y el
coeficiente de determinación ajustado :
(1.25)
(1.26)
(1.27)
(1.28)
(1.29)
. . .
. . .
.
.
38 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 38
14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno
( ) con la profundidad en pies ( ) y el contenido de humedad . Se hicieron 10
observaciones, obteniéndose las siguientes cantidades resumidas
, , , , , , ,
, y
pH Temperatura Espesor
1,2 -8 9
1,8 -8 14
1,2 8 10
1,8 8 19
1,2 -8 8
1,8 -8 12
1,2 8 11
1,8 8 20
1,5 0 14
1,5 0 13
16.- Se realizó un experimento para estudiar el sabor del queso panela en función de la
cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio
reportado por un grupo de cinco panelistas que probaron todos los quesos y los
calificaron en una escala hedónica. Los datos obtenidos se muestran a continuación:
a) Ajuste el modelo
b) ¿El modelo explica la variación observada en el sabor? Argumente con base en la
significancia del modelo, los residuales y el coeficiente de determinación.
c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del
ajuste aplique las pruebas de hipótesis
d) Compare el error estándar de estimación ( y los coeficientes de determinación
( ) para ambos modelos
e) ¿Cuál modelo prefiere para explicar el sabor?
17.- Se piensa que la energía eléctrica consumida mensualmente por una planta química
se relaciona con la temperatura ambiente promedio ( , el número de días laborales del
mes ( , la pureza promedio del producto y las toneladas del producto producidas
. Se cuenta con los datos del último año, los cuales se presentan en la tabla
siguiente:
240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
40 CAPÍTULO 1 Regresión
Intervalos
lineal
desimple
confianza
y múltiple
y predicción en regresión múltiple 40
Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y
curva de regresión ajustada y aceptar y tendremos el resultado.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,92290147 40,22533308 -32,92290147 40,22533308
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125376 1,876345234 -0,167125376 1,876345234
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959268 4,705623908 -1,692959268 4,705623908
Utilizando Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja
de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego
Regresión seguida de Regresión nuevamente
La ecuación de regresión es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad
Coef.
Predictor Coef de EE T P
Constante 3,65 16,17 0,23 0,826
Estatura 0,8546 0,4517 1,89 0,091
Edad 1,506 1,414 1,07 0,315
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25
Fuente GL SC sec.
Estatura 1 596,74
Edad 1 32,63
Parábola de Regresión
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la
situación real dada.
La expresión general de un polinomio de 2º grado es:
Modelo potencial:
Si tomamos logaritmos en la expresión de la función potencial, obtendremos:
Modelo exponencial:
Tomando logaritmos en la expresión de la función exponencial, obtendremos:
Modelo logarítmico:
La curva logarítmica Y = a + b es también una recta, pero en lugar de estar
referida a las variables originales X e Y, está referida a y a Y.