Regresión Lineal Simple: Contenido 14.7
Regresión Lineal Simple: Contenido 14.7
Regresión lineal
simple. En Estadística para negocios y economía (pp.590-673)(1079p.)(13a ed). Ciudad de
México : Cengage Learning. (C99646)
Con frecuencia las decisiones gerenciales se basan en la relación entre dos o más variables. Por
ejemplo, al analizar la relación entre el gasto en publicidad y las ventas, un gerente de marketin
puede tratar de predecir las ventas correspondientes a un determinado gasto en publicidad. E~
otro caso, una empresa de servicios públicos establece la relación entre la temperatura diaria y
la demanda de electricidad para predecir la necesidad de fluido eléctrico considerando las tern.
peraturas diarias que se esperan para el mes siguiente. Algunas veces los directivos se apoyan
en la intuición para juzgar la relación entre dos variables. Sin embargo, cuando se dispone de
datos, puede emplearse un procedimiento estadístico llamado análisis de regresión para obtener
una ecuación que indique cuál es la relación entre las variables.
En la terminología que se emplea en regresión, la variable a predecir se llama variable de.
pendiente, y a la variable o variables que se usan para predecir su valor se le llama variable
Sir Francis Galton independiente. Por ejemplo, al analizar el efecto de los gastos en publicidad sobre las ventas,
(1822-19ll)fue el primero como lo que busca el gerente de marketing es predecir estas últimas, las ventas serán la variable
en emplear los métodos
dependiente. Los gastos en publicidad serían la variable independiente utilizada para ayudar a
estadísticos para estudiar la
relación entre dos variables.
predecir las ventas. En la notación estadística, y denota la variable dependiente y x la variable
Galton se interesaba en dependiente.
estudiar la relación entre En este capítulo se estudia el tipo más sencillo de análisis de regresión en el que interviene
las estaturas de padre e hijo. una variable independiente y una variable dependiente, y donde la relación entre estas variables
Karl Pearson (1857-1936),
es aproximada mediante una línea recta. A este tipo de análisis se le conoce como regresión
discípulo de Galton, analizó
esta relación de estatura
lineal simple. Al análisis en el que intervienen dos o más variables independientes se le llama
de padre e hijo en 1 078 análisis de regresión múltiple; éste y los casos en los que la relación es curvilínea se estudian
parejas de individuos. en los capítulos 15 y 16.
(3 0 y (3 1 se conocen como parámetros del modelo, y E (la letra griega épsilon) es una varia-
ble aleatoria denominada término del error. Este último da cuenta de la variabilidad de y, que
no puede explicarse por la relación lineal entre x y y.
14.1 Modelo de regresión lineal simple 593
La población de los restaurantes Armand's puede verse también como un conjunto de sub-
poblaciones, una para cada uno de los valores de x. Por ejemplo, una subpoblación está confor-
mada por todos los restaurantes Armand's localizados cerca de los campus universitarios con
8 000 estudiantes; otra subpoblación consta de todos los restaurantes Armand's localizados cerca
de los campus universitarios con 9 000 estudiantes, y así sucesivamente. Para cada subpoblación
existe una distribución de valores y . Así, existe una distribución de valores y que corresponde
a los restaurantes localizados cerca de los campus con 8 000 estudiantes, otra distribución y para
los restaurantes ubicados cerca de los campus con 9 000 estudiantes, y así sucesivamente. Cada
una de estas distribuciones tiene su propia media o valor esperado. A la ecuación que describe
la relación entre el valor esperado de y, que se denota E(y) , y x se le llama ecuación de regre-
sión. La siguiente es la ecuación de regresión para la regresión lineal simple.
E(y) E(y)
Intersección
f3o
La pendiente (3 1 Intersección La pendiente (3 1 es O
es negativa !301--~~~~~~~-
Intersección Recta de regresión
f3o
Recta de regresión
594 Capítulo 14 Regresión lineal simple
y = b0 + b 1x (14.3)
Ecuación de regresión
b0 y b 1 estimada
proporcionan estimaciones
y= bo + b¡X
de /30 y /31 Estadísticos muestrales
b0 ,b 1
14.2 Método de mínimos cuadrados 595
Student Quarterly
Restaurant Population (lOOOs) Sales ($1000s)
X¡ Y;
2 58
ATA 2 6 105
3 8 88
Armand's
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
596 Capítulo 14 Regresión lineal simple
220
200 •
180
~
•
160
• •
140
•
120
• •
100 •
80 •
60
•
40
20
o 2 4 6 8 10 12 14 16 18 20 22 24 26
existe una relación lineal positiva entre x y y. Así, para representar la relación entre las ventas
trimestrales y la población de estudiantes, se elige el modelo de regresión lineal simple. Una vez
que se decide esto, la siguiente tarea es usar los datos muestrales de la tabla 14.l para determi-
nar los valores de b0 y b 1 en la ecuación de regresión lineal simple estimada. Para el restaurante
i-ésimo, la ecuación de regresión simple estimada es
(14.4)
donde
Como Y; denota las ventas observadas (reales) del restaurante i, y Y; el valor predicho de las
ventas en la ecuación (14.4), para cada uno de los restaurantes de la muestra habrá un valor
de ventas observadas Y; y un valor de ventas estimadas Y;· Para que la recta de regresión estimada
proporcione un buen ajuste de los datos, las diferencias entre los valores observados y predichos
deben ser pequeñas.
En el método de mínimos cuadrados se usan los datos muestrales para obtener los valores
de b0 y b 1 que minimicen la suma de los cuadrados de las desviaciones (diferencias) entre los
valores observados de la variable dependiente Y; y los valores predichos de la variable depen -
diente Y;· El criterio que se emplea en el método de mínimos cuadrados se basa en la expresión
(14.5).
14.2 Método de mínimos cuadrados 597
Se puede usar el cálculo diferencial para demostrar (vea el apéndice 14.1) que los valores
de b0 y b 1 que minimizan la expresión (14.5) se pueden encontrar usando las ecuaciones (14.6)
y (14.7).
En la tabla 14.2 se presentan algunos cálculos necesarios para obtener la ecuación de regre-
sión estimada por mínimos cuadrados en el ejemplo de Armand's Pizza Parlors. Como la mues-
tra es de 10 restaurantes, tenemos n = 10 observaciones. Dado que en las ecuaciones (14.6) y
(14.7) se necesitan .X y y, se empieza por calcularlas.
X = LX¡ = 140 = 14
n 10
Utilizando las ecuaciones (14.6) y (14.7) y la información de la tabla 14.2, se calcula la pen-
diente y la intersección de la ecuación de regresión estimada para Armand's Pizza Parlors. La
pendiente (b 1) se calcula como se muestra enseguida.
1
Otra fórmula para calcular b 1 es
- u ,y, - (u ,'i:.y¡)/ n
b, - rx~ - crxY/n
Esta forma de la ecuación (14.6) suele recomendarse cuando se usa una calculadora para determinar b 1•
598 Capítulo 14 Regresión lineal simple
TABLA 14.2 Cálculos de la ecuación de regresión estimada por mínimos cuadrados para
Armand's Pizza Parlors
b = 2:(x; - x)(Y; - y)
1 2:(x; _ :X)2
2840
=
568
=5
b0 =y - b 1x
= 130 - 5(14)
= 60
y= 60 + 5x
De esta manera, las ventas trimestrales predichas para este restaurante serían de $140000. En
las secciones siguientes se verán los métodos para evaluar el uso correcto de la ecuación de
regresión para realizar estimaciones y predicciones.
14.2 Método de mínimos cuadrados 599
FIGURA 14.4 Gráfica de la ecuación de regresión estimada para Arrnand's Pizza Parlors:
y= 60 + Sx
y
..--
"'
~
'"'
c:s
:o
220
"C
~
"C
200 •
~"' 180
g •
160
-;"'
~
• •
-"'"''
~
.§
140
-'j ""'
E:,()
~ ')}.
•
-"''"' 120
•
• • Pendiente b¡ = 5
-=
>
c:s
~
100
80 •
Intersección
con el eje y
bo = 60
:¡ o
•
2 4 6 8 10 12 14 16 18 20 22 24 26
X
El método de mínimos cuadrados proporciona una ción de mejor ajuste. Si se empleara otro criterio,
ecuación de regresión estimada que minimiza la suma como minimizar la suma de las desviaciones absolutas
de los cuadrados de las desviaciones entre los valores entre Y; y Y;, se obtendría una ecuación diferente. El
observados de la variable dependiente Y; y los valo- método de rrúnimos cuadrados es el que más se utiliza
res estimados de la variable dependiente Y;· El criterio en la práctica.
de rrúnimos cuadrados permite seleccionar la ecua-
Métodos
l. Dadas las siguientes cinco observaciones de las variables x y y:
AUTO
2 3 4 5
7 5 11 14
e) Trate de aproximar la relación entre x y y trazando una recta que pase a través de los puntos
de los datos.
d) Utilice las ecuaciones (14.6) y (14.7) para calcular b0 y b 1 y determine la ecuación de
regresión estimada.
e) Use la ecuación de regresión estimada para predecir el valor de y cuando x = 4.
2. Dadas las siguientes cinco observaciones de las variables x y y:
3 12 6 20 14
X¡ 1
40 55 10 15
X¡ 2 6 9 13 20
Y; 7 18 9 26 23
Aplicaciones
AUTO evhluacióñ
4. Los siguientes datos proporcionan el porcentaje de mujeres que trabajan en cinco empresas
'··' 1 de la industria de ventas y comercio minoristas. También se muestra el porcentaje de puestos
gerenciales ocupados por mujeres en cada empresa.
% que trabaja 67 45 73 54 61
% de puestos gerenciales 49 21 65 47 33
a) Elabore un diagrama de dispersión para estos datos con el porcentaje de mujeres que trabaja
en la empresa como variable independiente.
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Trate de aproximar la relación entre el porcentaje de mujeres que trabaja en la empresa Y
el porcentaje de puestos gerenciales ocupados por mujeres en la misma.
d) Determine la ecuación de regresión estimada calculando los valores de b 0 y b 1•
e) Prediga el porcentaje de puestos gerenciales que serían ocupados por mujeres si la empresa
contara con 60% de empleadas.
5. Brawdy Plastics, Inc. fabrica tensores plásticos de cinturones de seguridad para General Mo-
tors, en su planta de Buffalo, Nueva York. Después del ensamble y la pintura final, se colocan
las partes en una banda transportadora que las lleva a la estación de inspección final. La veloci-
dad con que las piezas pasan a dicha inspección depende de la velocidad de la banda (pies por
minuto). Aunque es deseable contar con líneas más rápidas, a la gerencia le preocupa que un
14.2 Método de mínimos cuadrados 601
incremento de la velocidad impida que los inspectores identifiquen las partes defectuosas. Para
probar esta teoría, la empresa lleva a cabo un experimento en el que el mismo lote de partes, con
un número conocido de piezas defectuosas, se inspecciona a diferentes velocidades. Se recaban
los siguientes datos:
6. La National Football League (NFL) registra diversos datos sobre el desempeño de individuos y
equipos. Para investigar acerca de la importancia de los pases en el porcentaje de juegos gana-
dos por un equipo, se muestra el número de promedio de yardas por intento de pase (Yds/ Att)
y el porcentaje de juegos ganados (WinPct) para una muestra de 10 equipos de la NFL durante
la temporada 2011 (sitio web de la NFL, 12 de febrero de 2012).
a) Elabore un diagrama de dispersión con el número de yardas por intento de pase en el eje
horizontal y el porcentaje de juegos ganados en el eje vertical.
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Determine la ecuación de regresión estimada que puede utilizarse para predecir el porcen-
taje de juegos ganados, dado el número promedio de yardas por intento de pase.
d) Proporcione una interpretación de la pendiente de la ecuación de regresión estimada.
602 Capítulo 14 Regresión lineal simple
e) Durante la temporada 2011 , el número promedio de yardas por intento de pase de los Chiefs
de Kansas City fue 6.2. Utilice la ecuación de regresión estimada que obtuvo en el inciso e)
para predecir el porcentaje de juegos ganados por este equipo. (Nota : Para la temporada
2011, el récord de Kansas City fue de 7 victorias y 9 derrotas.) Compare su predicción con
el porcentaje real de juegos ganados por Kansas City.
7. Un gerente de ventas obtuvo los siguientes datos sobre ventas anuales (Annual Sales) y años de
experiencia (Years ofExperience) de 10 vendedores (Salesperson).
a) Con estos datos, trace un diagrama de dispersión tomando como variable independiente los
años de experiencia.
b) Obtenga una ecuación de regresión estimada que pueda utilizarse para predecir las ventas
anuales proporcionando los años de experiencia.
e) Utilice la ecuación de regresión estimada para predecir las ventas anuales de un vendedor
con 9 años de experiencia.
a) Elabore un diagrama de dispersión para estos datos, utilizando como variable indepen-
diente la velocidad de ejecución (speed).
b) ¿Qué le indica el diagrama de dispersión que elaboró en el punto anterior sobre la relación
entre las dos variables?
e) Determine la ecuación de regresión estimada usando el método de mínimos cuadrados.
á) Proporcione una interpretación de la pendiente de la ecuación de regresión estimada.
e) Suponga que la empresa Zecco.com ha desarrollado un nuevo software para incrementar su
velocidad de ejecución. Si este software fuera capaz de incrementar dicha velocidad de 2.5
al valor medio de velocidad de las otras 10 firmas de corretaje evaluadas, ¿qué predeciría
en relación con la calificación de satisfacción general?
Ingresos
Empresa Automóviles (miles) (millones de dólares)
10. El 31 de marzo de 2009, las acciones de Ford Motor Company se negociaban en un mínimo
histórico de $2.63 en 26 años. El consejo de administración de la empresa le ofreció a su CEO
un paquete de opciones y acciones restringidas con un valor estimado de 16 millones de dóla-
res. Para el 26 de abril de 2011, el precio de las acciones de Ford había incrementado a $15.58
y el paquete de gratificación del CEO tenía un valor de $202.8 millones, con una ganancia de
$186.8 millones. La siguiente tabla muestra el precio de las acciones en 2009 y 2011 (Stock
Price) de 10 empresas y el paquete de gratificación de acciones que se les ofreció a los CEO a
finales de 2008 y 2009 (Options and Grants Value), así como el valor de este paquete en 2011.
También se presenta el incremento porcentual en el precio de las acciones (lncrease in stock
Price) y las ganancias porcentuales del valor de las acciones (Gain in options value) (The Wall
Street Joumal, 27 de abril de 2011).
a) Con estos datos elabore un diagrama de dispersión utilizando como variable independiente
el incremento porcentual en el precio de las acciones (lncrease in Stock Price).
b) · ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Obtenga la ecuación de regresión estimada por mínimos cuadrados.
604 Capítulo 14 Regresión lineal simple
Options Options
and and
Stock Stock % Grants Grants % Gain
Price Price Increase Value Value in
2009 2011 in Stock 2009 2011 Options
Company ($) ($) Price ($ millions) ($ millions) Value
FordMotor 2.63 15.58 492 16.0 202.8 1168
DATA. Abercrornbie & Fitch 23.80 70.47 196 46.2 196.1 324
Nabors Industries 9.99 32.06 221 37.2 132.2 255
CEOGrants
Starbucks 9.99 32.06 221 12.4 75.9 512
Salesforce.corn 32.73 137.61 320 7.8 67.0 759
Starwood Hotels 12.70 60.28 375 5.8 57.1 884
Caterpillar 27.96 111.94 300 4.0 47.5 1088
Oracle 18.07 34.97 94 61.9 97.5 58
Capital One 12.24 54.61 346 6.0 40.6 577
Dow Chernical 8.43 39.97 374 5.0 38.8 676
11 . Con el fin de ayudar a los compradores a elegir una computadora laptop, Consumer Reports
asigna una calificación general para el producto que prueba con base en factores como er-
gonomía, portabilidad, desempeño, pantalla y duración de la batería. Una calificación general
alta indica mejores resultados en la prueba. Los siguientes datos muestran el precio promedio
de venta (Price $) y la calificación general (Overall Score) de diez modelos de 13 pulgadas
(Brand & Model) (sitio web de Consumer Reports, 25 de octubre de 2012).
Price Overall
Brand & Model ($) Seo re
12. Concur Technologies, Inc. es una empresa grande de gestión de gastos con sede en Redmond,
Washington. The Wall Street Joumal le pidió a Concur evaluar los datos de 8.3 millones de
reportes de gastos para conocer más acerca de los gastos en viajes de negocios. El análisis
de los datos mostró que Nueva York era la ciudad más cara, con una tarifa promedio de hotel de
198 dólares por día y un gasto promedio en entretenimiento de 12 dólares, incluyendo comidas
en grupo y boletos para espectáculos, deportes y otros eventos. En comparación, los prome-
dios en Estados Unidos para estas dos categorías son $89 por tarifa diaria de hotel y $99 para
entretenimiento. La siguiente tabla contiene las tarifas promedio de los hoteles (Room Rate)
y la cantidad que se gasta en entretenimiento (Entertainment) para una muestra de 9 de las 25
ciudades más visitadas de Estados Unidos (The Wall Street Joumal, 18 de agosto de 2011).
RoomRate Entertainment
City ($) ($)
Boston 148 161
Denver 96 105
DATA. Nashville 91 101
New Orleans 110 142
BusinessTravel Phoenix 90 100
San Diego 102 120
San Francisco 136 167
San fose 90 140
Tampa 82 98
a) Con estos datos, elabore un diagrama de dispersión utilizando como variable independiente
la tarifa de hotel (Room Rate).
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Desarrolle la ecuación de regresión estimada de mínimos cuadrados.
d) Proporcione una interpretación a la pendiente de la ecuación de regresión estimada.
e) La tarifa promedio de hotel en Chicago es de $128, considerablemente más alta que el
promedio nacional. Prediga el gasto por entretenimiento por día para Chicago.
13. Para el Interna! Revenue Service (Servicio de Administración Tributaria de Estados Unidos),
el carácter razonable de las deducciones declaradas por un contribuyente depende de su ingre-
so bruto ajustado. Deducciones grandes que incluyen donaciones de caridad o por atención
médica son más apropiadas para contribuyentes con un ingreso bruto ajustado grande. Si las
deducciones de una persona son mayores que las deducciones declaradas promedio correspon-
dientes a un determinado nivel de ingresos, incrementan las posibilidades de que se le realice
una auditoría. Los datos (en miles de dólares) sobre ingreso bruto ajustado y el monto promedio
o razonable de deducciones declaradas se listan a continuación.
a) Con estos datos, trace un diagrama de dispersión empleando como variable independiente
el ingreso bruto ajustado.
b) Use el método de mínimos cuadrados para desarrollar la ecuación de regresión estimada.
e) Calcule el monto razonable de deducciones declaradas de un contribuyente cuyo ingreso
bruto ajustado es de $52 500. Si éste tiene deducciones declaradas por $20 400, ¿se justifica
una auditoría? Explique.
606 Capítulo 14 Regresión lineal simple
14. Un hospital grande de la ciudad llevó a cabo un estudio para investigar la relación entre el
número de días de ausencia no autorizada de sus empleados y la distancia (en millas) entre su
hogar y el trabajo. Se recabó la siguiente información de una muestra de 10 empleados:
8
2 5
4 8
6 7
8 6
10 3
12 5
14 2
14 4
18 2
a) Trace un diagrama de dispersión para estos datos. ¿Parece existir una relación lineal razo-
nable? Explique.
b) Desarrolle la ecuación de regresión estimada de mínimos cuadrados que relaciona la dis-
tancia al trabajo con el número de días de ausencia.
e) Prediga el número de días de ausencia para un empleado que vive a 5 millas del hospital.
8 Coeficiente de determinación
En el ejemplo de Armand's Pizza Parlors, para aproximar la relación lineal entre el tamaño
de la población de estudiantes x y las ventas trimestrales y se desarrolló la ecuación de regre-
sión estimada y = 60 + 5x. Ahora la pregunta es: ¿qué tan bien se ajusta a los datos la ecuación
de regresión estimada? En esta sección se muestra que el coeficiente de determinación propor-
ciona una medida de la bondad de ajuste para la ecuación de regresión estimada.
A la diferencia que existe en la observación i-ésima entre el valor observado de la variable
dependiente, Y;, y el valor estimado de la variable dependiente, Y;· se le llama residual i-ésimo.
Éste representa el error que existe al usar Y; para estimar Y;- Por lo tanto, para la observación
i-ésima el residual es Y; - Y;· La suma de los cuadrados de estos residuales o errores es la
cantidad que se minimiza empleando el método de núnimos cuadrados. Esta cantidad, también
conocida como suma de cuadrados debido al error, se denota como SCE.
El valor de la SCE es una medida del error al utilizar la ecuación de regresión estimada para
calcular los valores de la variable dependiente de la muestra.
En la tabla 14.3 se indican los procedimientos que se requieren para calcular la suma
de cuadrados debido al error en el caso de Armand's Pizza Parlors. Por ejemplo, los valores de
·las variables independiente y dependiente del restaurante 1 son x 1 = 2 y y 1 = 58. El valor
14.3 Coeficiente de determinación 607
TABlA 14.3 Cálculo de la suma de cuadrados debido al error para el ejemplo de Armand's
Pizza Parlors
TABlA 14.4 Cálculo de la suma total de cuadrados para el ejemplo de Armand's Pizza Parlors
X¡ =
Población Y;= Ventas Desviación
Restaurante de estudiantes trimestrales Desviación al cuadrado
(miles) (miles de dólares) Y; -y (y¡ - J)2
1 2 58 -72 5184
2 6 105 -25 625
3 8 88 -42 1764
4 8 118 -12 144
5 12 117 -13 169
6 16 137 7 49
7 20 157 27 729
8 20 169 39 1521
9 22 149 19 361
10 26 202 72 5184
STC = 15730
608 Capítulo 14 Regresión lineal simple
220
"'=
:Q
180
'e
Q,I
'e
160 'J}.
• ·"'
~"" 5'10 -y
Y10 - y
~ )( ~··,.,.,··
"'
Q,I
::: 140 i""'" ··' •
e
'-'
•. ""~
•
120 ~ y=y=130
~
"'
Q,I
• r
fl
•
:: 100 • ,-'.,,.,.
"'
Q,I
. ,,,,...
.§
b 80 +'
• ';>'- •
·"
...."'= 60 '-
•
=
Q,I
> 40
20
X
o 2 4 6 8 10 12 14 16 18 20 22 24 26
Con base en lo que se expresó, se esperaría que existiera alguna relación entre STC, SCR y
SCE. En efecto, la relación entre estas tres sumas de cuadrados constituye uno de los resultados
más importantes de la estadística.
La ecuación (14.11) indica que la suma total de cuadrados puede dividirse en dos componen-
tes: la suma de cuadrados debido a la regresión y la suma de cuadrados debido al error. Por
consiguiente, si se conocen los valores de dos de estas sumas, es fácil calcular la tercera suma
de cuadrados. Por ejemplo, en el caso de Armand's Pizza Parlors se conocen SCE = 1530 y
STC = 15730; por lo tanto, al despejar SCR en la ecuación (14.11), se encuentra que la suma de
cuadrados debido a la regresión es
Ahora se verá cómo se usan estas tres sumas de cuadrados, STC, SCR y SCE, para obtener
una medida de la bondad de ajuste de la ecuación de regresión estimada. Esta ecuación se
ajustaría perfectamente a los datos si cada uno de los valores de la variable dependiente Y; se en-
contrara sobre la línea de regresión. En este caso, para todas las observaciones se tendria que
y¡ - Y¡ seria igual a O, con lo que SCE = O. Como STC = SCR + SCE, vemos que para que haya
un ajuste perfecto, SCR debe ser igual a STC, y el cociente (SCR/STC) debe ser igual a 1. Cuando
los ajustes son malos, se tendrán valores altos para SCE. Si en la ecuación (14.11) despejamos
ésta, tenemos que SCE = STC - SCR. Por consiguiente, el valor más grande de SCE (y, por lo
tanto, el ajuste más pobre) se presenta cuando SCR = O y SCE = STC.
El cociente SCR/STC, que puede tomar valores entre O y 1, se usa para evaluar la bondad de
ajuste de la ecuación de regresión estimada. A este cociente se le llama coeficiente de determi-
nación y se denota como r 2 .
COEFICIENTE DE DETERMINACIÓN
SCR
r 2 =-- (14.12)
STC
Coeficiente de correlación
En el capítulo 3 se presentó el coeficiente de correlación como una medida descriptiva de la
intensidad de la relación lineal entre dos variables x y y. Los valores del coeficiente de corre-
lación siempre estarán entre -1 y + 1. Un valor de + 1 indica que las dos variables x y y están
perfectamente relacionadas en un sentido lineal positivo. Es decir, todos los puntos de datos se
encuentran en una recta con pendiente positiva. Un valor de -1 indica que x y y están perfecta-
mente relacionadas en un sentido lineal negativo con todos los puntos de los datos en una recta
con pendiente negativa. Los valores del coeficiente de correlación cercanos a O indican que x y y
no se relacionan linealmente.
En la sección 3.5 se presentó la ecuación para calcular el coeficiente de correlación mues-
tral. Cuando se ha realizado un análisis de regresión y calculado el coeficiente de detennína-
ción r 2, el coeficiente de correlación muestral se puede obtener como se índica a continuación.
donde
Métodos
15. Los siguientes datos provienen del ejercicio l.
AUTO é:Valuacióri
. ' ~ . f- ;,,.
2 3 4 5
7 5 11 14
12 6 20 14
40 55 10 15
6 9 13 20
18 9 26 23
La ecuación de regresión estimada para estos datos es y = 7.6 + 0.9x. ¿Qué porcentaje de la
suma total de cuadrados puede explicarse mediante esta ecuación? ¿Cuál es el valor del coe-
ficiente de correlación muestra!?
Aplicaciones
18. Los siguientes datos muestran la marca, el precio($) y la calificación general para seis audí-
AUTO fonos estéreo evaluados por Consumer Reports (sitio web de Consumer Reports, 5 de marzo
de 2012). La calificación general se basa en la calidad del sonido con base en la eficacia en
la reducción de ruido . Las calificaciones van de O (la menor) a 100 (la mayor). La ecuación
de regresión estimada para estos datos es y = 23.194 + 0.318x, donde x + precio($) y
y = calificación general.
612 Capítulo 14 Regresión lineal simple
19. En el ejercicio 7 un gerente de ventas obtuvo los siguientes datos sobre x = ventas anuales (An-
nual Sales) y y = años de experiencia (Years of Experience) de 1O vendedores (Salesperson).
La ecuación de regresión estimada para estos datos es y = 80 + 4x.
Annual
Years of Sales
Salesperson Experience ($1000s)
1 1 80
2 3 97
DATA. 3
4
4
4
92
102
Sales 5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
20. La revista líder de ciclismo Bicycling revisa cientos de bicicletas al año. Su sección "Road-
Race" contiene revisiones de bicicletas principalmente de carreras. Uno de los factores más
importantes en la selección de una bicicleta de carreras es el peso de la misma. Los siguientes
datos contienen el peso en libras (weight) y el precio (price $) de 10 marcas (brands) de las
bicicletas revisadas por la revista (sitio web Bicycling, 8 de marzo de 2012).
a) Utilice los datos para determinar la ecuación de regresión estimada para saber el precio de
una bicicleta cuando se conoce su peso.
b) Calcule r 2 . ¿La ecuación de regresión estimada tiene bondad de ajuste?
e) Prediga el precio de una bicicleta que pesa 15 libras.
21. Una aplicación importante del análisis de regresión en la contaduría es la estimación de costos.
A partir de datos sobre volumen de producción y costos, y empleando el método de mínimos
cuadrados para desarrollar una ecuación de regresión estimada que relacione ambos datos, un
contador puede calcular los costos correspondientes a un determinado volumen de producción.
Considere la siguiente muestra de datos sobre volumen de producción y costo total de una
operación de manufactura.
a) Utilice estos datos para determinar la ecuación de regresión estimada útil, a efecto de pro-
nosticar el costo total dado un volumen de producción determinado.
b) ¿Cuál es el costo variable por unidad producida?
e) Calcule el coeficiente de determinación. ¿Qué porcentaje de la variación en el costo total
puede explicarse por el volumen de producción?
á) Con base en el programa de la empresa, el mes próximo se deberán producir 500 unidades.
Prediga el costo total de esta operación.
22. Remítase al ejercicio 9, en el que se usaron los siguientes datos para investigar la relación entre
la cantidad de automóviles en servicio (en miles) y los ingresos anuales (en millones de dóla-
res) para seis empresas pequeñas de alquiler de automóviles (sitio web de Auto Rental News, 7
de agosto de 2012).
Automóviles Ingresos
Empresa (miles) (millones de dólares)
Con x = automóviles en servicio (en miles) y y= ingresos anuales (en millones de dólares), la
ecuación de regresión estimada es y= -17.005 + 12.966x. Para estos datos, SCE = 1043.03.
a) Calcule el coeficiente de determinación r2.
b) ¿La ecuación de regresión estimada proporciona un buen ajuste? Explique.
e) ¿Cuál es el valor del coeficiente de correlación muestra!? ¿Refleja una relación débil o
fuerte entre el número de automóviles en servicio y los ingresos anuales?
614 Capítulo 14 Regresión lineal simple
y = {3 0 + {3 1x + E
Después, si se utiliza el método de rrúnimos cuadrados, se obtienen los valores de b0 y b 1, que
son las estimaciones de los parámetros del modelo /3 0 y /3 1, respectivamente. Así se llega a la
ecuación de regresión estimada
y = {3 0 + {3 1x + E
l. El término del error E es una variable aleatoria cuya media, o valor esperado, es
cero; es decir, E( E) = O.
Implicación. /3 0 y /3 1 son constantes, por lo tanto, E( /3 0) = /3 0 y E( /3 1) = /3 1; así,
para un valor dado de x, el valor esperado de y es
En la figura 14.6 se ilustran los supuestos del modelo y sus implicaciones; observe que en
esta interpretación gráfica el valor de E(y) cambia con base en el valor específico de x que se
considere. Sin embargo, sea cual fuere el valor de x, la distribución de probabilidad de e y, por
lo tanto, la distribución de probabilidad de y, son distribuciones normales que tienen todas la
misma varianza. El valor específico del error e en cualquier punto depende de si el valor real de
y es mayor o menor que E(y).
14.5 Prueba de significancia 615
Distribución de y
Distribución de y enx = 30
en x = 20
y
E(y) cuando
X= lQ
E(y) cuando
x=O
~/30
x=O
\
E(y)cuando E(y) = /3 0 = f3 1x
X= 30
En este punto hay que considerar que también se está formulando un supuesto o una hipó-
tesis acerca de la forma de la relación entre x y y. Es decir, se supone que la base de la relación
entre las variables es una recta representada por /3 0 + f3 1x. No se debe perder de vista el he-
cho de que puede haber otro modelo, por ejemplo y = (3 0 + {3 1x 2 + E, que resulte mejor para
la relación subyacente.
§ Prueba de significancia
En una ecuación de regresión lineal simple, la media o valor esperado de y es una función lineal
de x: E(y) = (3 0 + /3 1x. Pero si el valor de /3 1 es cero, E(y) = /3 0 + (O)x = /3 0 . En este caso, el
valor medio de y no depende del valor de x y, por lo tanto, podernos concluir que x y y no se
relacionan linealmente. Asimismo, si el valor de /3 1 es distinto de cero, se concluirá que las dos
variables están relacionadas. Así, para probar si existe una relación significativa de regresión,
se debe realizar una prueba de hipótesis a efecto de determinar si el valor de (3 1 es distinto de
cero. Existen dos pruebas que son las más usuales. En ambas se requiere una estimación de a 2 ,
la varianza de E en el modelo de regresión.
Estimación de u2
Con base en el modelo de regresión y sus supuestos podemos concluir que a 2 , la varianza de E,
representa también la varianza de los valores de y respecto de la línea de regresión. Recuer-
de que a las desviaciones de los valores de y respecto de la línea de regresión estimada se les
conoce como residuales. Por lo tanto, SCE, la suma de los cuadrados de los residuales, es una
medida de la variabilidad de las observaciones reales respecto de la línea de regresión estimada.
616 Capítulo 14 Regresión lineal simple
Cada suma de cuadrados está asociada con un número llamado grados de libertad. Los exper-
tos en estadística han demostrado que la SCE tiene n - 2 grados de libertad, porque para calcu-
larla es necesario estimar dos parámetros (/3a y /3 1). El error cuadrado medio se calcula al dividir
SCE entre n - 2. El ECM proporciona un estimador insesgado de a 2 . Como el valor del ECM
provee un estimado de a 2 , se emplea también la notación s 2.
SCE
s2 = ECM = - - (14.15)
n - 2
En la sección 14.3 se encontró que en el ejemplo de Annand's Pizza Parlors, SCE = 1530;
por lo tanto,
1530
s2 = ECM = - - = 191.25
8
(14.16)
Prueba t
El modelo de regresión lineal simple es y = f3a + f3 1x + E. Si x y y se relacionan linealmente,
*
entonces /3 1 O. El objetivo de la prueba tes determinar si se puede concluir que {3 1 i:- O. Para
probar la hipótesis siguiente acerca del parámetro /3 1 se emplearán los siguientes datos mues-
trales.
Ha: /31 =O
H,:/3 1 i:-O
*
Si Ha es rechazada, se concluirá que /3 1 O y que entre las dos variables existe una relación
estadísticamente significativa. Si Ha no es rechazada, habrá evidencia insuficiente para concluir
que existe esta relación significativa. La base para esta prueba de hipótesis la proporcionan las
propiedades de la distribución de muestreo de b1, el estimador de /3 1 obtenido mediante el mé-
todo de mínimos cuadrados.
14.5 Prueba de significancia 617
Primero, considere qué ocurriría si para el mismo estudio de regresión se usara una mues-
tra aleatoria diferente. Suponga, por ejemplo, que Armand's Pizza Parlors usa los registros de
ventas de una muestra diferente de 10 restaurantes. El análisis de regresión de esta otra mues-
tra dará como resultado una ecuación de regresión similar a la ecuación de regresión anterior
y = 60 + 5x. Sin embargo, no puede esperarse que se obtenga exactamente la misma ecuación
(una ecuación en la que exactamente la intersección con el eje y sea 60 y la pendiente sea 5).
Los estimadores b0 y bl> que se obtienen con el método de mínimos cuadrados, son estadísticos
muestrales que tienen su propia distribución de muestreo. A continuación se presentan las pro-
piedades de la distribución de muestreo de b 1•
DISTRIBUCIÓN DE MUESTREO DE b 1
Valor esperado
E(b 1) = {3 1
Desviación estándar
( 14.17)
Forma de distribución
Normal
Observe que el valor esperado de b 1 es igual af3 1, por lo que b 1 es un estimador insesgado de {3 1•
Como no se conoce el valor de a , se obtiene una estimación de ab,1 que se denota sb,1 esti-
mando a mediantes en la ecuación (14.17). De esta manera obtenemos el siguiente estimador
de ab 1.
En el ejemplo de Armand's Pizza Parlors, s = 13.829. Por lo tanto, dado que 2.(x; - :X) 2 = 568,
como se aprecia en la tabla 14.2, tenemos
13 329
· = 0.5803
Vs68
que es la desviación estándar estimada de b 1.
La prueba t para determinar si la relación es significativa se basa en el hecho de que el
estadístico de prueba
sigue una distribución t con n - 2 grados de libertad. Si la hipótesis nula es verdadera, entonces
{3 1 = Ü y t = b 1/sb.1
Ahora se realizará esta prueba de significancia con los datos de Armand's Pizza Parlors,
empleando como nivel de significancia a = 0.01. El estadístico de prueba es
5
t = .!!i_ = - - = 8.62
sb 1 0.5803
618 Capítulo 14 Regresión lineal simple
En los apéndices 14.3 y En las tablas de la distribución t (tabla 2 del apéndice D) encontramos que paran - 2 :::::: 10 _
14.4 se describe el uso de
2 = 8 grados de libertad, t = 3.355 proporciona un área de 0.005 en la cola superior. Por
Minitab y de &:cel para 1
calcular el valor-p.
tanto, el área en la cola superior de la distribución t correspondiente al estadístico de prueb~
t = 8.62 debe ser menor de 0.005. Como esta es una prueba de dos colas, este valor se duplica
y concluimos que el valor-p asociado con t = 8.62 debe ser menor que 2(0.005) = 0.01. Con
ayuda de Excel o Minitab se encue~tra el valor-p =. 0.000. Dado que el valor-pes menor que
a = 0.01, H0 es rechazada y conclmmos que {3 1 es diferente de cero. Esto es suficiente eviden-
cia para asegurar que existe una relación significativa entre la población de estudiantes y las
ventas trimestrales. A continuación se presenta un resumen de la prueba t de significancia para
la regresión lineal simple.
Ho: f31 =O
Hª: f31 *O
ESTADÍSTICO DE PRUEBA t
(14.19)
REGLA DE RECHAZO
El estimador puntual es b 1 y el margen de error ta/2 slJ,· El coeficiente de confianza para este
intervalo es 1 - a, y tª 12 es el valor t que proporciona un área a/2 en la cola superior de la
distribución t con n - 2 grados de libertad. Suponga que en el caso de Armand's Pizza Parlors
se desea obtener una estimación de {3 1 mediante un intervalo de 99% de confianza. En la tabla
2 del apéndice B encontramos que el valor t correspondiente a a = 0.01 y n - 2 = 10 - 2 =
8 grados de libertad es t 0.005 = 3.355. Por lo tanto, la estimación mediante un intervalo de
99% de confianza de {3 1 es
Ho: /31 =O
Hª: f31 *O
Si se utiliza a = 0.01 como nivel de significancia, se puede usar como alternativa el intervalo
de 99% de confianza para llegar a la conclusión de la prueba de hipótesis que se obtiene con l o~
datos de Armand's. Como O, que es el valor hipotético de {3 1, no está incluido en el intervalo de
confianza (3.05 a 6.95), H0 puede ser rechazada y concluimos que entre el tamaño de la población
14.5 Prueba de significancia 619
Prueba F
Una prueba F basada en la distribución de probabilidad F también puede emplearse para probar
la significancia en la regresión. Cuando sólo se tiene una variable independiente, la prueba F
*
lleva a la misma conclusión que la prueba t; es decir, si esta t indica que /3 1 O y por lo tanto
existe una relación significativa, la prueba F también indicará que existe esta relación. Pero
cuando hay más de una variable independiente, sólo la prueba F puede usarse para probar que
existe una relación significativa general.
La lógica detrás del uso de la prueba F para determinar si la relación de regresión es
estadísticamente significativa se basa en el desarrollo de dos estimaciones independientes de a 2.
Se explicó cómo el ECM proporciona una estimación de a 2. Si la hipótesis nula H0 : /3 1 = O es
verdadera, la suma de cuadrados debido a la regresión, SCR, dividida entre sus grados de liber-
tad proporciona otra estimación independiente de a 2 . A esta estimación se le llama cuadrado
medio debido a la regresión, o simplemente cuadrado medio de la regresión, y se denota con
CMR. En general,
SCR
CMR = ~~~~~~~~~~~~~
En los modelos que se consideran en este libro, el número de grados de libertad de la regre-
sión es siempre igual al número de variables independientes en el modelo:
CMR = SCR
~~~~~~~~~~~~~~
(14.20)
Número de variables independientes
Como en este capítulo sólo se consideran modelos de regresión con una sola variable inde-
pendiente, CMR = SCR/1 = SCR. Por lo tanto, en el ejemplo de Armand's Pizza Parlors,
CMR = SCR = 14200.
Si la hipótesis nula (H0 : {3 1 = O) es verdadera, CMR y ECM son dos estimaciones indepen-
dientes de a 2 y la distribución de muestreo de CMR/ECM sigue una distribución F en la que el
número de grados de libertad en el numerador es igual a 1 y el número de grados de libertad en
el denominador es igual a n - 2. Por consiguiente, si {3 1 = O, el valor de CMR/ECM deberá ser
*
un valor cercano a l. Pero si la hipótesis nula es falsa, (/3 1 0), CMR sobreestimará a 2 y el valor
de CMR/ECM se inflará; de esta manera, valores grandes de CMR/ECM conducirán al rechazo de
H0 y a la conclusión de que la relación entre x y y es estadísticamente significativa.
A continuación se realizará la prueba F en el ejemplo de Armand's Pizza Parlors. El esta-
dístico de prueba es
CMR 14200
F = - - = - - = 74.25
ECM 191.25
En la regresión lineal En la tabla de la distribución F (tabla 4 del apéndice B) se observa que con un grado de liber-
simple, la prueba F y la tad en el numerador y n - 2 = 10 - 2 = 8 grados de libertad en el denominador, F = 11.26
prueba t proporcionan
proporciona un área de 0.01 en la cola superior. Por lo tanto, el área en la cola superior de la
resultados idénticos.
distribución F que corresponde al estadístico de prueba F = 74.25 debe de ser menor de 0.01.
Así, concluimos que el valor-p debe de ser menor que 0.01. Si se usa Excel o Minitab se en-
cuentra que el valor-p = 0.000. Como el valor-p es menor que a = 0.01, H 0 es rechazada y
concluimos que entre el tamaño de la población de estudiantes y las ventas trimestrales existe
una relación significativa. A continuación se presenta un resumen de la prueba F de significan-
cia para la regresión lineal simple
620 Capítulo 14 Regresión lineal simple
TABLA 14.5 Forma general de la tabla ANOVA para la regresión lineal simple
En toda tabla para el
análisis de varianza, la
suma total de cuadrados Fuente Suma de Grados Cuadrado
es la suma de la suma de de variación cuadrados de libertad medio F Valor-p
cuadrados de la regresión SCR CMR
más la suma de cuadrados Regresión SCR CMR= - - F=--
del error; además, el 1 ECM
total de los grados de SCE
Error SCE n-2 ECM=--
libertad es la suma n-2
de los grados de libertad de
Total STC n - 1
la regresión más los grados
de libertad del error.
Total 15730 9
14.5 Prueba de significancia 621
en la columna 2. En la columna 3 se indican los grados de libertad 1 para SCR, n - 2 para SCE y
n - 1 para STC. Los valores de CMR y ECM aparecen en la columna 4, mientras que la 5 contie-
ne el valor de F = CMR/ECM, y la 6 el valor-p que corresponde al valor de F de la columna 5.
Casi todos los resultados proporcionados por computadora para el análisis de regresión inclu-
yen un resumen de la tabla ANOVA de la prueba F de significancia.
FIGURA 14.7 Ejemplo de una aproximación lineal para una relación no lineal
l. Los supuestos acerca del término del error (sec- para denotar el coeficiente de correlación pobla-
ción 14.4) permiten las pruebas de significancia cional, las hipótesis son las siguientes.
estadística de esta sección. Las propiedades de la
distribución de muestreo de b 1 y las subsiguien- Ho: Pxy =O
tes pruebas t y F se derivan directamente de estos H.: Pxy *O
supuestos.
2. No se debe confundir la significancia estadísti- Si H 0 es rechazada, podemos concluir que existe
ca con la significancia práctica. Con tamaños de una relación significativa. En el apéndice 14.2 se
muestra muy grandes se pueden obtener resulta- proporcionan los detalles de esta prueba. Sin em-
dos estadísticamente significativos para valores bargo, las pruebas t y F presentadas en esta sec-
pequeños de b 1; en tales casos hay que tener cui- ción aportan el mismo resultado que la prueba de
dado al concluir que la relación tiene significan- significancia usando el coeficiente de correlación.
cia práctica. Por consiguiente, si ya se ha realizado una prueba
3. Una prueba de significancia para la relación li- t o una prueba F, no es necesario realizar la de
neal entre x y y también se puede realizar usando significancia usando el coeficiente de correlación.
el coeficiente de correlación muestral rxy· Con Pxy
Métodos
23. A continuación se presentan los datos del ejercicio 1.
AUTO e'.valúació'n.
2 3 4 5
7 5 11 14
Ho: /31 = O
H.: /3 1 *O
e) Use la prueba F para probar las hipótesis del inciso d) empleando 0.05 como nivel de
significancia. Presente los resultados en el formato de tabla del análisis de varianza.
24. A continuación se presentan los datos del ejercicio 2.
12 6 20 14
X¡ 1 3
40 55 10 15
14.5 Prueba de significancia 623
Ho: /31 =O
H.: /3 1 i= O
e) Aplique la prueba F para probar las hipótesis del inciso á) empleando 0.05 como nivel de
significancia. Presente los resultados en el formato de tabla del análisis de varianza.
25 . A continuación se presentan los datos del ejercicio 3.
6 9 13 20
18 9 26 23
Aplicaciones
26. En el ejercicio 18 los datos sobre el precio($) y la puntuación total (Score) para seis auriculares
AUTO estéreo probada por Consumer Reports eran como sigue (sitio web de Consumer Reports, 5 de
marzo de 2012).
a) ¿La prueba t indica que existe una relación significativa entre el promedio y el sueldo
mensual? ¿Cuál es su conclusión? Use a = 0.05.
b) Determine si la relación es significativa usando la prueba F. ¿Cuál es su conclusión? Uti-
lice a = 0.05 .
e) Muestre la tabla de ANOVA.
27. Con la finalidad de identificar los puestos de trabajo de sueldo alto para personas a quienes
les disgusta el estrés, se recabaron los siguientes datos sobre sueldos anuales promedio (en
miles de dólares)(Average Annual Salary) y la tolerancia al estrés (Stress Tolerance) para di-
versos trabajos (Jobs) (Business Insider, 8 de noviembre de 2013).
Average Annual
Job Salary ($1000s) Stress Tolerance
Art directors 81 69.0
Astronomers 96 62.0
Audiologists 70 67.5
Dental hygienists 70 71.3
SalaryStress
Economists 92 63.3
Engineers 92 69.5
Law teachers 100 62.8
Optometrists 98 65 .5
Political scientists 102 60.1
Urban and regional planners 65 69 .0
624 Capítulo 14 Regresión lineal simple
La tolerancia al estrés se mide con una escala de O a 100, donde una calificación baja indica u
nivel bajo de estrés. n
a) Trace un diagrama de dispersión para estos datos, utilizando como variable independiente el
sueldo anual promedio. ¿Qué le indica este diagrama sobre la relación entre las dos variables?
b) Utilice estos datos para desarrollar una ecuación de regresión estimada que pueda usarse
para predecir la tolerancia al estrés a partir del sueldo anual.
e) Utilice un nivel de significancia de 0.05. ¿Existe relación estadística significativa entre las
dos variables ?
d) ¿Se sentiría cómodo prediciendo el nivel de tolerancia al estrés a partir del sueldo anual de
un puesto? Explique.
e) ¿Le parece razonable que exista relación entre el salario anual y la tolerancia al estrés?
Explique.
28. En el ejercicio 8, los datos de las calificaciones en x representaban la calidad de la velocidad
de ejecución y y la satisfacción general con las transacciones electrónicas, que nos proporcio-
naron una ecuación de regresión estimada de y = 0.2046 + 0.9077x. Pruebe si la velocidad de
BrokerRatings ejecución y la satisfacción se relaciona con un nivel de significancia de 0.05. Elabore la tabla
ANOVA. ¿Cuál es su conclusión?
29. Remítase al ejercicio 21, en el que se usaron los datos sobre volumen y costos de producción
para desarrollar una ecuación de regresión estimada que relacionaba el volumen y los costos de
producción de una determinada operación. Use a = 0.05 para probar si el volumen de produc-
ción se relaciona de forma significativa con el costo total. Muestre la tabla de ANOV A. ¿Cuál es
su conclusión?
30. Remítase al ejercicio 9, en el que se utilizaron los siguientes datos para investigar la relación
entre el número de automóviles en servicio (en miles) y los ingresos anuales (en millones) para
seis pequeñas empresas que alquilan automóviles (sitio web de Auto Rental News , 7 de agosto
de 2012).
Automóviles Ingresos
Empresa (miles) (millones de dólares)
detenninación indica que el ajuste es bueno, la ecuación de regresión estimada es útil para es-
timación y predicción.
En el ejemplo de Annand's Pizza Parlors, la ecuación de regresión estimada es y = 60 +
5x. Al final de la sección 14. l establecimos que y puede emplearse como estimador puntual de
E(y), la media o valor esperado de y dado el valor de x, como un predictor del valor individual
de y . Por ejemplo, suponga que los gerentes de Annand's desean una estimación puntual de la
media de las ventas trimestrales de todos los restaurantes que se encuentren cerca de campus
universitarios con 10000 estudiantes. Usando la ecuación de regresión estimada y = 60 + 5x,
con x = 10 (o 10000 estudiantes) obtenemos y = 60 + 5(10) = 110. Por lo tanto, una estima-
ción puntual de la media de las ventas trimestrales de todos los restaurantes de este ejemplo con
1O000 estudiantes es $11O000. En este caso estamos empleando y como el estimador puntual
del valor de la media de y cuando x = 10.
También podemos utilizar la ecuación de regresión estimada para predecir un valor indivi-
dual de y dado un valor de x. Ahora suponga que los gerentes de Annand's desean predecir las
ventas de un determinado restaurante ubicado cerca de Talbot College, una escuela con 10000
estudiantes, y calculamos y = 60 + 55(10) = 110, con lo que podemos predecir que el valor
de las ventas trimestrales sería de $110000 para ese nuevo restaurante. En este caso, estamos
utilizando y como predictor de y para una nueva observación cuando x = 10.
Cuando se utiliza la ecuación de regresión estimada para calcular el valor medio de y o para
predecir un valor individual de y, es claro que la estimación o predicción dependerá del valor
dado por x. Por esta razón, la siguiente notación servirá para hacer aclaraciones mientras anali-
zamos con más detalle las cuestiones sobre estimación y predicción.
Para ejemplificar el uso de esta notación, suponga que queremos estimar el valor medio de las
ventas trimestrales para todos los restaurantes de Annand's que se ubican cerca de un campus
con 10000 estudiantes. En este caso, x* = 10 y E(y*) denota el valor medio desconocido de
las ventas trimestrales para todos los restaurantes cuando x* = 10. Por lo tanto, el estimador
puntual de E(y*) resulta de y= 60 + 5(10) = 110, o $110000. Pero, al emplear esta notación,
Y* = 11 O también es el predictor de las ventas trimestrales para el nuevo restaurante ubicado
cerca de Talbot College, escuela con 1O000 estudiantes.
En los resultados calculados en la sección 14.5 para el ejemplo de Annand's Pizza Parlors
se tienes= 13.829. Como x* = 10, :X= 14 y :L(x; - :x)2 = 568, usando la ecuación (14.23) se
obtiene
1 (10 - 14)2
sy• = 13.829 lO + 568
= l3.829Yo.1282 = 4.95
Para obtener con la expresión (14.24) un intervalo de 95% de confianza para la media de
las ventas trimestrales de todos los restaurantes Annand's ubicados cerca de campus con 10000
estudiantes, se requiere el valor de t para a/2 = 0.025 y n - 2 = 10 - 2 = 8 grados de li-
bertad. En la tabla 2 del apéndice B se encuentra t0 _025 = 2.306. Por lo tanto, corno y* = 110
y el margen de error de ta/2sy• = 2.306(4.95) = 11.415, la estimación del intervalo de 95 % de
confianza es
110 :± 11.415
En dólares, el intervalo de 95% de confianza para la media de las ventas trimestrales de todos
los restaurantes que se encuentran cerca de un campus con 10 000 estudiantes es $110 000 ::!::
$11415. Así, el intervalo de confianza de 95% para la media de las ventas trimestrales cuando
el tamaño de la población es 10000 es de $98 585 a $121415 .
Observe que la desviación estándar estimada de y* dada por la ecuación (14.23) es menor
cuando x * - :X = O. En este caso, la desviación estándar estimada de y* se convierte en
~
2
1 (x - :X)
S y• = S -
n
+ "-X¡ -
°"'( -)2 =
x
S -
n
Este resultado implica que se obtiene la mejor o más precisa estimación del valor medio de Y
cuando x* = :X. De hecho, entre más alejado esté x* de :X, mayor será x * - :X. Como resultado,
los intervalos de confianza para el valor medio de y son más amplios a medida que x* se aleja
de :X. En la figura 14.8 se muestra este patrón.
14.6 Uso de la ecuación de regresión estimada para estimación y predicción 627
FIGURA 14.8 Intervalos de confianza para la media de las ventas y correspondientes a valores dados
de la población de estudiantes x
200
,....
"'41...
-'"'º
'ti
41
180
160
- Límite inferior
'ti
"'q,¡
]
._, 140
Los límites
-;"' 120
q,¡
...
... de los
intervalos de
"'q,¡ confianza
El
·¡: 100
... dependen de x*
..."'"' 80
Enx* = ise
~ = tiene la menor
amplitud del
60
.•.
intervalo
de confianza
40
20 i = 14
ºo 2 4 6 8 10 12 14 16 18 20 22 24 26
X
La fórmula para estimar la varianza que corresponde a la predicción del valor de y cuando
x = x*, que se denota como s~rcd' es
= s2 + s2[.!. + _(x_*_-_x_)_2]
n L(X; - x)2
Por lo tanto, una estimación de la desviación estándar de un solo valor de y* está dada por
2
~ 1 (x* - x)
sprcd = s l + -;; + L(x¡ - x)2 (14.26)
1 (10 - 14)2
sprect = 13.829 1+-+----
10 568
= 13.829 Vu282
= 14.69
La fórmula general para un intervalo de predicción es la siguiente:
El intervalo de predicción de 95% de las ventas trimestrales del restaurante de Talbot College se
encuentra usando ta¡2 = t 0.025 = 2.306 y sprcd = 14.69. Por lo tanto, con y* = 110 y un margen
de error de t 0.025 sprcd = 2.306(14.69) = 33.875, el intervalo de predicción de 95% es
110 ± 33.875
En dólares, este intervalo de predicción es de $110000 ± $33 875 o de $76125 a $143 875.
Observe que el intervalo de predicción para un solo restaurante que se encuentre cerca de Talbot
College, un campus con 10000 estudiantes, es más amplio que el intervalo de confianza para la
media de las ventas de todos los restaurantes ubicados cerca de campus con 10000 estudiantes.
Esta diferencia refleja el hecho de que se puede estimar con más precisión la media de y que un
solo valor de y.
14.6 Uso de la ecuación de regresión estimada para estimación y predicción 629
FIGURA 14. 9 Intervalos de confianza y de predicción para las ventas y que corresponden a valores dados
de la población de estudiantes x
240
220
( Límites del
~
200
Q,j intervalo de
lo<
411 .Sconfianza
:o 180
"é
Q,j
"é 160 Los intervalos de predicción
<1.1
Q,j
::= son más amplios
! 140
<1.1
Q,j
-; 120
....
lo<
<1.1
Q,j
.5 100 intervalo de
....lo< predicción
<1.1
....411 80
=
~
Los dos intervalos
60 tienen la menor
amplitud en
40 x* =x
i = 14
20
o X
o 2 4 6 8 10 12 14 16 18 20 22 24 26
Población de estudiantes (miles)
En general, tanto las líneas Tanto las estimaciones mediante un intervalo de confianza como mediante un intervalo de
de los límites para los predicción son más precisas cuando el valor de la variable independiente x* está cercano a :X.
intervalos de confianza
En la figura 14.9 se muestra la forma general de los intervalos de confianza y de predicción que
como las de los límites para
los intervalos de predicción son más amplios.
presentan cierta curvatura.
Utilizamos un intervalo de predicción para prede- liarse para los valores de x en los datos de la muestra.
cir el valor de una variable dependiente y para una Sin embargo, desarrollar un intervalo de predicción de
nueva observación. Como ejemplo, mostramos cómo las ventas trimestrales para alguno de los diez restau-
desarrollar un intervalo de predicción para las ventas rantes incluidos en los datos de la tabla 14.l no tiene
trimestrales de un nuevo restaurante que Armand's sentido, porque ya conocemos el valor de las ventas
está considerando construir cerca de Talbot College, para cada restaurante. En otras palabras, un intervalo
un campus con 10000 estudiantes. El hecho de que de predicción sólo tiene sentido para algo nuevo, en
el valor de x = 10 no sea uno de los valores de la este caso, una nueva observación que corresponde a un
población de estudiantes para los datos de la muestra valor particular de x que puede ser o no igual a alguno
de Armand's presentados en la tabla 14.l no implica de los valores de x en la muestra.
que los intervalos de predicción no puedan desarro-
630 Capítulo 14 Regresión lineal simple
Métodos
32. Los siguientes datos provienen del ejercicio 1.
AUTO evaluación
2 3 4 5
7 5 11 14
12 6 20 14
40 55 10 15
6 9 13 20
18 9 26 23
Obtenga los intervalos de confianza y de predicción de 95% cuando x = 12. Explique por qué
son diferentes estos dos intervalos.
Aplicaciones
35. Los siguientes datos corresponden a los sueldos mensuales y y las calificaciones promedio
AUTO évaluadóri
•,.,..• .,_ a- (GPA) de grado x para un grupo de estudiantes que obtuvo el título de licenciado en administra-
ción de empresas.
Sueldo mensual
GPA (dólares)
2.6 3600
3.4 3900
3.6 4300
3.2 3800
3.5 4200
2.9 3900
36. En el ejercicio 7, los datos para y= ventas anuales (miles de dólares) y x =número de años de
experiencia para una muestra de 10 vendedores nos dio una ecuación de regresión estimada
Sales
de y= 80 + 4x. Para estos datos, x = 7, 2:(x¡ - i) 2 = 142 y s = 4.6098.
a) Estime la media de ventas anuales de todos los vendedores con nueve años de experiencia
con un intervalo de confianza de 95%.
b) La empresa está considerando contratar a Tom Smart, un vendedor con nueve años de
experiencia. Desarrolle un intervalo de predicción de 95% de las ventas anuales para Tom
Smart.
e) Analice las diferencias en sus respuestas de los incisos a) y b).
37. En el ejercicio 13 se proporcionaron datos sobre el ingreso bruto ajustado x y el monto de las
deducciones declaradas por los contribuyentes. Los datos se reportaron en miles de dólares.
Como la ecuación de regresión estimada es y = 4.68 + 0.16x, el estimado puntual de un nivel
razonable del total de las deducciones declaradas para un contribuyente cuyo ingreso bruto
ajustado sea $52 500 es $13 080.
a) Obtenga un intervalo de confianza de 95% para el monto medio del total de las deducciones
declaradas de todos los contribuyentes cuyo ingreso bruto ajustado sea $52500.
b) Obtenga un intervalo de predicción de 95% para el monto del total de las deducciones
declaradas de un contribuyente cuyo ingreso bruto ajustado sea $52500.
e) Si el contribuyente del inciso b) solicita un total de $20400 por deducciones declaradas,
¿se justificaría que un agente fiscal lo requiriera para aplicarle una auditoría?
á) Retome su respuesta del inciso b) para proporcionar al agente fiscal una guía acerca del
monto del total de las deducciones declaradas que puede solicitar un contribuyente cuyo
ingreso bruto ajustado sea $52 500, antes de que sea recomendable una auditoría.
38. Remítase al ejercicio 21, donde se utilizaron los datos de volumen de producciónx y costo total
y de una determinada operación de manufactura para obtener la ecuación de regresión estimada
y = 1246.67 + 7 .6x.
a) El plan de producción de la empresa muestra que el próximo mes deberán fabricarse 500
unidades. ¿Cuál es la estimación puntual del costo total para ese mes?
b) Obtenga un intervalo de predicción de 99% para el costo total de producción del siguiente
mes.
e) Si al final del próximo mes el informe de costos de un contador indica que en ese lapso
los costos reales de producción fueron de $6000, ¿deberían preocuparse los gerentes por
haber incurrido en costos totales tan altos en ese mes? Analice.
39. En el ejercicio 12, los datos siguientes sobre x = tarifa diaria por habitación de hotel (Room
Rate) y y = cantidad gastada en entretenimiento (Entertainment) (The Wall Street Joumal, 18
de agosto de 2011) generaron la ecuación de regresión estimada y = 17.49 + l.0334x. Para
estos datos, SCE = 1541.4.
RoomRate Entertainment
City ($) ($)
a) Prediga el importe gastado en entretenimiento en una ciudad determinada, con una tarifa
diaria de habitación de hotel de $89.
b) Obtenga un intervalo de confianza de 95% para la media de la cantidad gastada en entre-
tenimiento de todas las ciudades, con tarifa de habitación de hotel de $89.
e) La tarifa promedio para un hotel en Chicago es $128. Elabore un intervalo de predicción
de 95% para la cantidad que se gastará en entretenimiento en Chicago.
632 Capítulo 14 Regresión lineal simple
Analysis of Variance
Model Summary
Predicted f or Sales
Regression Equation
Sales = 60.00 + 5.000 Population
Variable Setting
Population 10
2
En el apéndice 14.3 se explican los posos o seguir con Minitob paro obtener estos resultados.
14.7 Solución por computadora 633
Aplicaciones
AUTO evaluación
40. La división comercial de una firma de bienes raíces realiza un análisis de regresión sobre la
relación entre x, rentas brutas anuales (en miles de dólares), y y, precio de venta (en miles de
dólares) de edificios de departamentos. Se recabaron datos sobre varias propiedades vendidas
últimamente, y con la computadora se obtuvieron los resultados que se muestran enseguida.
Analysis of Variance
SO URCE DF Adj SS
Regression 1 41587.3
Error 7
Total 8 51984.1
Regression Equation
y= 20.0 + 7.21 X
634 Capítulo 14 Regresión lineal simple
Regression Equation
y = 6.1092 + .8951 X
Analysis of Variance
Regression Equation
y = 80.0 + 50.00 X
43. En 2012, Idea Works levantó una encuesta en la que obtuvo datos que muestran la cantidad dis-
ponible de asientos que existen cuando un cliente trata de redimir puntos o millas para obtener
viajes gratuitos. Para cada aerolínea, la columna Porcentaje 2011 (2011 Percentage) muestra el
porcentaje de asientos disponibles en 2011, y la columna Porcentaje 2012 (2012 Percentage)
muestra el porcentaje correspondiente a 2012 (The Wall Street Joumal, 17 de mayo de 2012).
2011 2012
Airline Percentage Percentage
AirBerlin 96.4 100.0
Air Canada 82.1 78.6
Air France, KLM 65.0 55.7
AirTran Airways 47.l 87.l
Alaska Airlines 64.3 59.3
American Airlines 62.9 45.7
British Airways 61.4 79.3
Cathay Pacific 66.4 70.7
Delta Air Lines 27.1 27.1
Emirates 35.7 32.9
DATA. GOL Airlines (Brazil) 100.0 97.l
AirlineSeats Iberia 70.7 63.6
JetBlue 79.3 86.4
Lan (Chile) 75 .7 78.6
Lufthansa, Swiss, Austrian 85.0 92.l
Qantas 75 .0 78.6
SAS Scandinavian 52.9 57.9
Singapore Airlines 90.7 90.7
Southwest 99.3 100.0
Turkish Airways 49.3 38.6
United Airlines 71.4 87.l
US Airways 25.7 33.6
Virgin Australia 91.4 90.0
a) Trace un diagrama de dispersión con los porcentajes de 2011 como variable independiente.
b) ¿Qué le indica el diagrama del inciso a) sobre la relación entre las dos variables?
e) Desarrolle la ecuación de regresión estimada.
cf) Pruebe si existe una relación significativa con a =0.05.
e) ¿La ecuación de regresión estimada ofrece un buen ajuste?
44. Las carreras de autos, las escuelas de manejo de alto desempeño y los programas de educación
para conducir realizados por clubes de automovilistas siguen creciendo en popularidad. Todas
esas actividades requieren que el participante utilice un casco certificado por la Snell Memorial
Foundation, una organización sin fines de lucro dedicada a la investigación, educación, prueba
y desarrollo de estándares de seguridad de los cascos. Snell "SA" (Sports Application) evaluó
que los cascos profesionales estén diseñados para carreras de autos y proporcionen resistencia
a impactos extremos y una alta protección contra el fuego. Uno de los factores clave en la se-
lección de un casco es el peso, ya que los más ligeros generan menos tensión en el cuello. Los
siguientes datos muestran el peso (Weight) y el precio (Price) de 18 cascos (Helmet) SA.
RESIDUAL DE LA OBSERVACIÓN i
Y; - Y; (14.28)
donde
En otras palabras, el residual i-ésimo es el error que resulta de usar la ecuación de regresión es-
timada para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan los residua-
les correspondientes a los datos del ejemplo de Armand's Pizza Parlors. En la segunda columna
de la tabla se presentan los valores observados de la variable dependiente, y en la tercera los
valores estimados de la variable dependiente obtenidos con la ecuación de regresión estimada
y = 60 + 5x. Un análisis de los residuales correspondientes, en la cuarta columna de la tabla,
ayuda a detenninar si los supuestos acerca del modelo de regresión son adecuados.
A continuación se revisan los supuestos de regresión en el ejemplo de Armand's Pizza Par-
lors. Se asumió un modelo de regresión lineal simple.
Este modelo indica que se supone que las ventas trimestrales (y) son la función lineal del tama-
ño de la población de estudiantes (x) más un término del error E. En la sección 14.4 se plantea-
ron los siguientes supuestos para el término del error E.
l. E(E) = 0.
2. La varianza de E, que se denota a 2, es la misma para todos los valores de x.
3. Los valores de E son independientes.
4. El término del error E tiene una distribución normal.
Estos supuestos constituyen la base teórica para las pruebas t y F que se usan para determinar
si la relación entre x y y es significativa, y para las estimaciones de los intervalos de confianza
y de predicción que se presentaron en la sección 14.6. Si los supuestos sobre el término del
error E son dudosos, quizá las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean válidos.
Los residuales proporcionan la mejor información de E; por lo tanto, su análisis es muy
importante para determinar si los supuestos planteados acerca de E son apropiados. Gran parte
del análisis residual se basa en analizar gráficas. En esta sección se estudiarán las siguientes
gráficas de residuales.
y-y
+20
•
•
+10
•
•
Cll
~
=
'.9= o
Cll
G.l
=: • • •
-10
• •
-20
•
X
o 2 4 6 8 10 12 14 16 18 20 22 24 26
repres~nta de forma adecuada la relación entre las variables, el aspecto general de la gráfica de
residuales será el de una banda horizontal de puntos como en la gráfica A de la figura. Pero si
la varianza de e no es la misma para todos los valores x (por ejemplo, si la variabilidad respecto
de la línea de regresión es mayor para valores mayores de x), el aspecto de la gráfica puede ser
como la gráfica en B. En este caso se viola el supuesto de que E tiene una varianza constante.
En la gráfica C se muestra otra forma que puede adoptar la gráfica de residuales. En este caso,
se concluye que el modelo de regresión empleado no representa de forma adecuada la relación
entre las variables, y deberá considerarse un modelo de regresión curvilíneo o múltiple.
De vuelta a la gráfica de los residuales del ejemplo de Armand's Pizza Parlors de la figu-
ra 14.11, estos residuales parecen tener una forma que se aproxima a la de la banda horizontal de
la gráfica A de la figura 14.12. Por lo tanto, concluimos que esta gráfica no muestra evidencias
de que los supuestos formulados para el modelo de regresión de Annand's puedan ser dudosos.
Concluimos que el modelo de regresión lineal simple que se utilizó es válido.
Para la adecuada interpretación de las gráficas de residuales, la experiencia y el criterio son
muy importantes. Es raro que estas gráficas tengan exactamente la forma de uno de los patro-
nes que se muestran en la figura 14.12. Sin embargo, los analistas que realizan frecuentemente
estudios de regresión y gráficas de residuales se vuelven expertos en reconocer las diferencias
entre las formas razonables y las que indican que se puede dudar de los supuestos del modelo.
Una gráfica de residuales proporciona una técnica para evaluar la validez de los supuestos en
un modelo de regresión.
y- y
Gráfica A
-;"' • • • • • •
• •
<i.I
• • • •
~ = o Patrón adecuado • • •
·o;; • • • • • •
<i.I
i:z:: •
y- y
Gráfica B
•
• •
• • •
-;"'
<i.I • •
= •
Varianza no constante •
~
·o;;
o • •
<i.I
i:z::
• •
• • •
• •
•
y- y
Gráfica C
•
• • •
•
• •
•
o1 - - - - • • • •
• Modelo de forma no adecuada
• • • •
•
•
640 Capítulo 14 Regresión lineal simple
FIGURA 14.13 Gráfica de residuales contra los valores predichos para Annand's Pizza Parlors
y-y
+20
•
•
+10
•
•
-;"'
Q,I
=
:9 o
=::"' • • •
Q,I
-10
• •
-20
•
60 80 100 120 140 160 180
deArmand's de la tabla 14.7, las coordenadas del primer punto son (70, -12), que corresponden
ay 1 = 70 y y1 - y1 = -12; las coordenadas del segundo punto son (90, 15), y así sucesivamen-
te. En la figura 14.13 se presenta esta gráfica de residuales. Observe que su forma es igual a la
de la gráfica de residuales contra la variable independiente x. Éste no es un patrón que pudiera
llevar a dudar de los supuestos del modelo. En la regresión lineal simple, tanto la gráfica de
residuales contra x como la gráfica de residuales contra y tienen la misma forma. En el análisis
de regresión múltiple, la gráfica de residuales contra y se usa más, debido a que se tiene más de
una variable independiente.
Residuales estandarizados
Muchas gráficas de residuales que se obtienen con software de computadora utilizan una ver-
sión estandarizada de los residuales. Como se demostró en el capítulo anterior, una variable
aleatoria se estandariza al sustraerle su media y dividir el resultado entre su desviación estándar.
Cuando se emplea el método de mínimos cuadrados, la media de los residuales es cero. Por
consiguiente, para obtener el residual estandarizado sólo es necesario dividir cada residual
entre su desviación estándar.
Se puede demostrar que la desviación estándar del residual i depende del error estándar de
la estimación s y del valor correspondiente de la variable independiente X¡.
(14.30)
3 En realidad, esta ecuación proporciona una estimación de la desviación estándar del residual i-ésimo, ya que se usa s en
lugar de a.
14.8 Análisis de residuales: validación de los supuestos del modelo 641
donde
sy
1
_Y; = desviación estándar del residual i
s = error estándar de la estimación
1 (X¡ - x)2
h . =-+-~-- ( 14.31)
' n L(X¡ - :X) 2
Observe que la ecuación (14.30) indica que la desviación estándar del residual i-ésimo
depende de X¡ debido a la presencia de h; en la fórmula. 4 Una vez determinada la desviación es-
tándar de cada uno de los residuales, se pueden calcular los residuales estandarizados al dividir
cada residual entre sus desviaciones estándar correspondientes.
Y; - y¡
(14.32)
sy¡- Y¡
En la tabla 14.8 se presentan los cálculos de los residuales estandarizados con el ejemplo
de Arrnand's Pizza Parlors. Recuerde que ya en cálculos previos se obtuvo s = 13.829. La
figura 14.14 es la gráfica de los residuales estandarizados contra la variable independiente x.
Esta gráfica permite ver si es correcto el supuesto de que el término del error E tiene distri-
Pequeñas desviaciones bución normal. Si este supuesto se satisface, debe parecer que la distribución de los residuales
de la normalidad no tienen
estandarizados proviene de una distribución de probabilidad normal estándar. 5 Por lo tanto, al
un gran efecto sobre las
pruebas estadísticas que se
observar la gráfica de los residuales estandarizados se espera encontrar que aproximadamente
utilizan en el análisis 95% de ellos esté entre -2 y +2. En la figura 14.14 vemos que en el ejemplo de Arrnand's to-
de regresión. dos los residuales estandarizados se encuentran entre -2 y +2. Así, con base en los residuales
TABLA 14.8 Cálculo de los residuales estandarizados del ejemplo de Armand's Pizza Parlors
(X¡ - X)2
Restaurante Residuales
X¡ X¡-X (X¡ - X)2 I(x¡ - X) 2 h¡ s,,-;1 Y¡ -y¡ estandarizados
1 2 -12 144 0.2535 0.3535 11.1193 -12 -1.0792
2 6 -8 64 0.1127 0.2127 12.2709 15 1.2224
3 8 -6 36 0.0634 0.1634 12.6493 -12 -0.9487
4 8 -6 36 0.0634 0.1634 12.6493 18 1.4230
5 12 -2 4 0.0070 0.1070 13.0682 -3 -0.2296
6 16 2 4 0.0070 0.1070 13.0682 -3 -0.2296
7 20 6 36 0.0634 0.1634 12.6493 -3 -0.2372
8 20 6 36 0.0634 0.1634 12.6493 9 0.7115
9 22 8 64 0.1127 0.2127 12.2709 -21 -1.7114
10 26 12 144 0.2535 0.3535 11.1193 12 1.0792
Total 568
4
A h1 se le conoce como el valor de influencio de lo observación i. El valor de inAuencio se abordará en lo sección 14. 9,
cuando se consideren los observaciones inAuyentes.
5
Como en lo Fórmula (14.30) se usos en lugar de a, lo distribución de los residuales estandarizados no es técnicamente
normal. Sin embargo, en lo mayoría de los estudios de regresión el tamaño de lo muestro es suficientemente grande poro
que uno aproximación normal seo muy bueno.
642 Capítulo 14 Regresión lineal simple
+2
•
• •
•
• • •
• •
•
-2
X
o 2 4 6 8 10 12 14 16 18 20 22 24 26
TABLA 14.9
Punto normal para
n = 10
estandarizados, esta gráfica no da razones para dudar del supuesto de que e tiene una distribu-
Estadístico Puntuación
de orden normal ción normal.
1 -1.55 Debido al esfuerzo que significa calcular los valores estimados de y, los residuales y los
2 -1.00 residuales estandarizados, la mayoría del software para estadística proporcionan, de manera
3 -0.65 opcional, estos datos como parte de los resultados de la regresión. Por lo tanto, las gráficas de
4 -0.37
5 -0.12 residuales se pueden obtener con facilidad. Tratándose de problemas grandes, el software es la
6 0.12 única opción práctica para obtener las gráficas de residuales analizadas en esta sección.
7 0.37
8 0.65
9 1.00 Gráfica de probabilidad normal
10 1.55
Otro enfoque para determinar la validez del supuesto de que el término del error tiene una dis-
tribución normal es la gráfica de probabilidad normal. Para mostrar cómo se elabora, se pre-
senta el concepto de puntos normales.
Suponga que se toman de forma aleatoria 10 valores de una distribución normal donde la
TABLA 14.10 media es cero y la desviación estándar es uno, y este proceso de muestreo se repite una y otra
Puntuaciones normal y vez con los 1Ovalores de cada muestra ordenados de menor a mayor. Por ahora, considere sólo
residual estandarizadas el valor menor de cada muestra. A la variable aleatoria que representa el valor menor de estos
ordenadas de Armand' s diversos muestreos se le conoce como estadístico de primer orden.
Pizza Parlors Los expertos en estadística han demostrado que, en muestras de tamaño 1O tomadas de una
distribución normal estándar, el valor esperado del estadístico de primer orden es -1 .55. A este
Puntuación Residuales
normal estandarizados valor esperado se le conoce como punto normal. En el caso de una muestra de tamaño n = 1O,
ordenados hay 10 estadísticos de orden y 10 puntos normales (vea la tabla 14.9). En general, un conjunto
-1.55 -1.7114 de datos que conste de n observaciones tendrá n estadísticos de orden y, por lo tanto, n puntos
-1.00 - 1.0792 normales.
- .65 -0.9487
- .37 -0.2372 A continuación vemos el uso de estos 10 puntos normales para determinar si los residuales
- .12 -0.2296 estandarizados de Armand's Pizza Parlors aparentemente provienen de una distribución nor-
.12 -0.2296 mal estándar. Para empezar, se ordenan los 10 residuales estandarizados de la tabla 14.8. En la
.37 0.7115
.65 1.0792 tabla 14.1O se presentan juntos los 1O puntos normales y los residuales estandarizados ordena-
1.00 1.2224 dos. Si se satisface el supuesto de normalidad, el residual estandarizado menor deberá tener un
1.55 1.4230 valor similar al del punto normal menor, el siguiente residual deberá tener un valor similar al
14.8 Análisis de residuales: validación de los supuestos del modelo 643
FIGURA 14. 15 Gráfica de probabilidad normal obtenida con los datos de Armand' s Pizza Parlors
"'o
"O
cu
N
·¡:
cu
"O
e
....cu o
"'
Q,I
"'
Q,I
-;
=
"O
·~
Q,I
~ -1
-2
-2 -1 o +l +2
Puntos normales
del siguiente punto normal, y así sucesivamente. En el caso de que los residuales estandarizados
se encuentren distribuidos de manera aproximadamente normal, en una gráfica en la que los
puntos normales correspondan al eje horizontal y los residuales estandarizados al eje vertical,
los puntos estarán situados cerca de una recta de 45 grados que pase por el origen. A esta gráfica
se le conoce como gráfica de probabilidad normal.
La figura 14.15 presenta la gráfica de probabilidad normal del ejemplo de Armand's Pizza
Parlors. Para determinar si el patrón observado se desvía lo suficiente de la recta como para
concluir que los residuales estandarizados no provienen de una distribución normal, habrá que
emplear el propio criterio. En la figura, todos los puntos se agrupan cerca de esta recta. Por lo
tanto, se concluye que el supuesto de que los términos del error tienen una distribución normal
es razonable. En general, entre más cerca de la recta a 45 grados se agrupen los puntos, más
fuerte es la evidencia a favor del supuesto de normalidad. Cualquier curvatura sustancial en la
gráfica es evidencia de que los residuales no provienen de una distribución normal. Tanto los
puntos normales como la correspondiente gráfica de probabilidad normal pueden obtenerse
fácilmente empleando software como Minitab.
l. Las gráficas de residuales y de probabilidad nor- delo de regresión sean válidos. Aun cuando no se
mal se usan para confirmar los supuestos de un encuentre ninguna infracción, esto no necesaria-
modelo de regresión. Si en esta revisión se encuen- mente implica que el modelo vaya a proporcionar
tra que uno o más supuestos son dudosos, habrá buenas predicciones. Pero si además existen otras
que considerar un modelo de regresión diferente o pruebas estadísticas que favorezcan la conclu-
una transformación de los datos . Cuando se violan sión de significancia y el coeficiente de determina-
los supuestos, las medidas a tomar deben basarse ción es grande, deberá ser posible obtener buenas
en un criterio adecuado; las recomendaciones de estimaciones y predicciones empleando la ecua-
un experto en estadística pueden ser útiles. ción de regresión estimada.
2. El análisis de residuales es el principal método es-
tadístico para verificar que los supuestos del mo-
644 Capítulo 14 Regresión lineal simple
Métodos
45. Dados los datos de las dos variables x y y:
AUTO evaluación
11 15 18 20
8 12 20 30
Observación X¡ J¡ Observación X¡ J¡
2 4 6 7 6
2 3 5 7 7 9
3 4 4 8 8 5
4 5 6 9 9 11
5 7 4
Aplicaciones
47. A continuación se presentan datos sobre los gastos en publicidad y los ingresos (en miles de
AUTO eyaluación dólares) del restaurante Four Seasons.
a) Sea x igual a gastos en publicidad y y igual a ingresos. Utilice el método de mínimos cua-
drados para obtener una recta que aproxime la relación entre las dos variables.
b) Utilizando 0.05 como nivel de significancia, pruebe si los ingresos y los gastos en publici-
dad están relacionados.
e) Elabore una gráfica de residuales de y - y contra y. Use el resultado del inciso a) para
obtener los valores de y.
d) ¿Qué conclusiones se pueden formular del análisis de residuales? ¿Se puede aplicar este
modelo o se debe buscar uno mejor?
14.9 Análisis de residuales: observaciones atípicas y observaciones inAuyentes 645
48. Remítase al ejercicio 7, donde se obtuvo una ecuación de regresión estimada que relaciona los
años de experiencia con las ventas anuales.
a) Calcule los residuales y trace una gráfica de residuales para este problema.
b) A la luz de la gráfica, ¿los supuestos acerca de los términos del error parecen razonables?
49. En 2011, los precios de las casas y las tasas de los créditos hipotecarios cayeron a un nivel
tan bajo que en muchas ciudades el costo de comprar una casa era menor que rentarla. Los
siguientes datos muestran los precios del alquiler o renta (Rent $) de 1Omercados y la hipoteca
mensual (Mortgage $) de una casa con precio sobre la mediana (con impuestos y seguro) en
10 ciudades con un pago hipotecario mensual promedio menor que la renta (The Wall Street
Joumal, 26-27 de noviembre de 2011).
a) Desarrolle la ecuación de regresión estimada que pueda usarse para predecir la hipoteca
mensual a partir del precio de la renta.
b) Elabore una gráfica de residuales para la variable independiente.
e) A la luz de la gráfica, ¿los supuestos acerca de los términos del error y de la forma del
modelo parecen razonables?
. ~-··
/
,/'
.._.....,... . •·'
,1
/'"
•/
·'~
...•'.·'· •
• • ,,<"'
• f
'~
. _,,,...- Observación atípica
TABLA 14.11 la regresión lineal simple, las observaciones atípicas pueden detectarse mediante un sencillo
Conjunto de datos análisis del diagrama de dispersión.
para ilustrar el efecto Para detectar observaciones atípicas también se usan los residuales estandarizados. Si una
de una observación observación se aleja mucho del patrón del resto de los datos (por ejemplo, la observación atípica
atípica de la figura 14.16), el valor absoluto del correspondiente residual estandarizado será grande.
X¡ Y; Mucho del software identifica de manera automática las observaciones cuyos residuales tienen
1 45 un valor absoluto grande. En la figura 14.18 se presentan los resultados de Minitab para el aná-
1 55 lisis de regresión de los datos de la tabla 14. 1 L En la parte resaltada se lee que el residual estan-
2 50 darizado de la observación 4 es 2.67. Minitab proporciona una lista de todas las observaciones
3 75
3 40 cuyo residual estandarizado sea menor que -2 o mayor que +2 en la sección Unusual Obser-
3 45 vations de la pantalla; en tales casos la observación aparece en una fila aparte con una R al lado
4 30 del residual estandarizado, como se observa en la figura 14.18. Si los errores están distribuidos
4 35
5 25 normalmente, sólo 5% de los residuales estandarizados se encontrará fuera de estos límites.
6 15
FIGURA 14. 17 Diagrama de dispersión del conjunto de datos con observación atípica
80
•
60
•
•
• •
40 •
•
•
20
•
•
X
o 2 3 4 5 6
....
~ ~--::.""
14. 9 Análisis de residuales: observaciones atípicas y observaciones inAuyentes 647
FIGURA 14. 18 Resultado de Minitab para el análisis de regresión de un conjunto de datos con
una observación atípica
Model Surnmary
s R-sq R-sq(adj)
12.6704 49.68% 43.39%
Coefficients
Term Coef SE Coef T-Value P-Value
Constant 64.96 9.258 7.02 0.000
X -7.33 2.608 -2.81 0.023
Regression Equation
y= 64.96 - 7.33 X
Std
Obs y Fit Residual Res id
4 75.00 42.97 32.03 2.67 R
R Large residual
FIGURA 14. 19 Resultados de Minitab para un conjunto de datos con una observación atípica
corregida
Analysis of Variance
Model Summary
s R-sq R-sq(adj)
5.24808 83.80% 81. 77%
Coefficients
Regression Equation
Y = 59.24 - 6.95 X
648 Capítulo 14 Regresión lineal simple
Para decidir qué hacer con una observación atípica, primero hay que verificar si es correcta.
Puede ser que se trate de un error en el que se incurre al anotar los datos o al ingresarlos a la
computadora. Suponga, por ejemplo, que al verificar la observación atípica de la figura 14.1?
se encuentra que hubo un error; el valor correcto de la observación 4 es x 4 = 3, y4 = 30. En l~
figura 14.19 se presenta el resultado que proporciona Minitab una vez corregido el valor de y
Se observa que el dato incorrecto afecta de forma significativa la bondad de ajuste. Con el dat~
correcto, el valor de R-sq aumenta de 49.68% a 83.8%, y el de b0 disminuye de 64.96 a 59.24
La pendiente de la recta cambia de -7.33 a -6.95 . La identificación de los datos atípicos per~
mite corregir errores y mejora los resultados de la regresión.
•• Observación
14.9 Análisis de residuales: observaciones atípicas y observaciones influyentes 649
TABLA 14.12
INFLUENCIA DE LA OBSERVACIÓN i
Conjunto de datos con
una observación de
1 (X¡ - x) 2
gran influencia h . =-+-~-- (14.33)
' n L(X; - x)2
X¡ Y¡
10 125
10 130
15 120
20 115 Con base en esta fórmula, es claro que entre más alejada de su media x se encuentre X;, mayor
20 120
25 110 será la influencia de la observación i.
70 100 Mucho del software para estadística identifica automáticamente los puntos de gran influen-
cia como parte de los resultados de regresión estándar. Para ilustrar cómo identifica Minitab los
puntos de gran influencia, se considerará el conjunto de datos de la tabla 14.12.
Al revisar la figura 14.21, que es el diagrama de dispersión del conjunto de datos que se
presenta en la tabla 14.12, vemos que la observación 7 (x = 70, y = 100) tiene un valor extre-
mo de x. Por lo tanto, es de esperar que sea identificado como un punto de gran influencia. La
influencia de esta observación se calcula usando la ecuación (14.33) como sigue:
2 2
h = _!_ + (x 7 - :X) = _!_ + (70 - 24.286) = 0. 94
7
n L(X; - :X) 2 7 2621.43
En el caso de la regresión lineal simple, Minitab identifica como observaciones de gran in-
fluencia aquellas para las que h; > 6/n o 0.99, lo que sea menor. En el conjunto de datos de la
tabla 14.12, 6/n = 6/7 = 0.86. Como~ = 0.94 > 0.86, Minitab identificará la observación 7
El software es esencial como una cuyo valor de x tiene una gran influencia. En la figura 14.22 se presenta el resultado
para efectuar los cálculos que proporciona Minitab para el análisis de regresión de este conjunto de datos. A la 7 (x = 70,
que permiten identificar las
y = 100) la identifica como una observación de gran influencia y la presenta en una fila especial
observaciones influyentes.
Aquí se analiza la regla en la parte inferior de los resultados con una X en el margen derecho.
de selecci6n que emplea Las observaciones influyentes debido a la interacción de una observación de gran influencia
Minitab. y de residuales grandes suelen ser difíciles de detectar. Existen procedimientos de diagnóstico
que toman en cuenta ambos aspectos para determinar si una observación es influyente. En el
capítulo 15 se estudiará uno de estos procedimientos, el estadístico D de Cook.
FIGURA 14.21 Diagrama de dispersión del conjunto de datos con un dato de gran influencia
130.00 •
•
120.00 • •
•
110.00 • Observación de
gran influencia
100.00
.....__.__ _ _ _.___ _ __.__ _ ___._ _ _ _..__ _ _
~- ~---X
FIGURA 14.22 Resultado de Minitab para el conjunto de datos con una observación de gran
influencia
Una vez identificada una observación como poten- liarizado con el material más avanzado, un procedi-
cialmente influyente, debido a que tiene un residual miento sencillo es realizar el análisis de regresión con
grande, o por ser de gran influencia, su efecto en la y sin esa observación. Este método permite apreciar
ecuación de regresión estimada debe evaluarse. En el efecto de la observación potencialmente influyente
libros más avanzados se presentan los métodos apro- en el resultado.
piados de diagnóstico. Pero cuando no se está fami-
-------------------------------------------------------------------------==---
Métodos
50. Considere los siguientes datos para las variables x y y:
AUTO
X¡ 1135 110 130 145 175 160 120
100 120 120 130 130 110
a) Calcule los residuales estandarizados de estos datos. ¿Éstos incluyen alguna observación
atípica? Explique.
b) Trace una gráfica de residuales estandarizados contra y. ¿Se observa en esta gráfica alguna
observación atípica?
e) Con estos datos elabore un diagrama de dispersión. ¿Se aprecia en este diagrama alguna
observación atípica? En general, ¿qué consecuencias tienen estos hallazgos para la regre-
sión lineal simple?
14. 9 Análisis de residuales: observaciones atípicas y observaciones inAuyentes 651
5 7 8 10 12 12 22
14 16 15 18 20 24 19
a) Calcule los residuales estandarizados de estos datos. ¿Identifica alguna observación atí-
pica? Explique.
b) Calcule los valores de influencia para estos datos. ¿Parece haber alguna observación in-
fluyente? Explique.
e) Elabore un diagrama de dispersión con estos datos. ¿Se advierte alguna observación atí-
pica? Explique.
Aplicaciones
52. Charity Navigator es el evaluador independiente de caridad más grande de Estados Unidos. Los
siguientes datos muestran el total de gastos (Total Expenses $), el porcentaje del presupues-
to total que se utiliza en gastos administrativos (Administrative Expenses), el porcentaje que
se gasta en recaudación de fondos (Fundraising Expenses) y el porcentaje que se utiliza en los
gastos de los programas (Program Expenses) para 10 organizaciones grandes de caridad (sitio
web de Charity Navigator, 12 de abril de 2012). Los gastos administrativos incluyen gastos
generales, personal administrativo y costos asociados, así como reuniones organizacionales.
Los gastos de recaudación de fondos es el dinero que la caridad gasta para obtener dinero, y
los gastos en programas y servicios son los que requiere para ofrecerlos. La suma de estos tres
porcentajes no es 100% por el redondeo .
a) Elabore un diagrama de dispersión con .los gastos para la recaudación de fondos (Fundrai-
sing Expenses) en el eje horizontal y los gastos del programa (Program Expenses) en el eje
vertical. Observe los datos e identifique si existe alguna observación atípica o influyente.
b) Desarrolle una ecuación de regresión estimada que pueda utilizarse para predecir los gastos
del programa (Program Expenses), dados los gastos de recaudación de fondos (Fundraising
Expenses).
e) ¿Tiene sentido el valor de la pendiente en la ecuación de regresión estimada en el contexto
del problema?
d) Aplique el análisis residual para identificar observaciones atípicas u observaciones influ-
yentes. Resuma brevemente sus hallazgos y conclusiones.
53 . Numerosos países, en especial de Europa, tienen reservas significativas de oro, pero muchos
de ellos tienen también grandes niveles de endeudamiento. Los siguientes datos muestran el
valor total de las reservas de oro en miles de millones de dólares (Gold Value) y el nivel de
endeudamiento (Debt) como porcentaje del producto interno bruto para una muestra de nueve
países (sitios web de WordPress and Trading Economics, 24 de febrero de 2012).
652 Capítulo 14 Regresión lineal simple
Gold
Value Debt
Country ($ billions) (% ofGDP)
China 63 17.7
France 146 81.7
DATAl l Germany 203 83.2
Indonesia 33 69.2
GoldHoldlngs
Italy 147 119.0
Netherlands 36 63.7
Russia 50 9.9
Switzerland 62 55.0
United States 487 93.2
a) Elabore un diagrama de dispersión con el valor de las reservas de oro del país como variable
independiente.
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso anterior sobre la relación
entre las dos variables? ¿Parecen existir observaciones atípicas u observaciones influyen-
tes? Explique su respuesta.
e) Utilice el banco de datos completo y desarrolle una ecuación de regresión estimada que
pueda emplearse para predecir el nivel de endeudamiento de un país, dado el valor de sus
reservas de oro.
d) Aplique el análisis residual para identificar observaciones atípicas u observaciones influ-
yentes.
e) Suponga que después de observar el diagrama de dispersión que elaboró en el inciso a)
puede identificar visualmente lo que parece ser una observación influyente. Elimine esta
observación del banco de datos y desarrolle la ecuación de regresión estimada con el resto
de los datos. Compare la pendiente estimada de la nueva ecuación de regresión estimada
con la que desarrolló en el inciso e). ¿Este enfoque confirma las conclusiones a las que
llegó en el inciso d)? Explique.
54. Los siguientes datos muestran los ingresos anuales (Revenue) en millones de dólares y el val01
estimado del equipo (Value) de los 30 principales equipos de las Grandes Ligas de béisbol de
Estados Unidos (sitio web de Forbes, 16 de enero de 2014).
En este capítulo se estudia el análisis de regresión para determinar cómo es la relación entre una
variable dependiente y y una variable independiente x. En la regresión lineal simple, el mode-
lo de regresión es y = {3 0 + f3 1x + E. La ecuación de regresión lineal simple E(y) = {3 0 + {3 1x
describe la relación de la media o valor esperado de y con x. Para obtener la ecuación de regre-
sión estimada y = b0 + b 1x se emplearon datos muestrales y el método de mínimos cuadrados.
En efecto, b0 y b 1 son estadísticos muestrales útiles para estimar los parámetros desconocidos
del modelo, {3 0 y {3 1•
El coeficiente de determinación se presentó como una medida de la bondad de ajuste para
la ecuación de regresión estimada, y se puede interpretar como la proporción de la variación
en la variable dependiente y que puede explicarse por la ecuación de regresión estimada. Asi-
mismo, se revisó la correlación como una medida descriptiva de la intensidad de la relación
lineal entre dos variables.
Se analizaron los supuestos acerca del modelo de regresión y su correspondiente térmi-
no del error, y se presentaron las pruebas t y F, basadas en esos supuestos, como un medio para
determinar si la relación entre dos variables es estadísticamente significativa. Se mostró cómo
usar la ecuación de regresión estimada para obtener estimaciones de intervalos de confianza
para el valor medio de y y estimaciones por medio de intervalos de predicción para valores
individuales de y.
El capítulo concluyó con una sección sobre soluciones por computadora de los problemas
de regresión y dos secciones sobre el uso del análisis residual para validar los supuestos del .
modelo e identificar las observaciones atípicas e influyentes.
Análisis residual Análisis de los residuales que se usa para determinar si parecen ser válidos
los supuestos planteados acerca del modelo de regresión. También se utiliza para identificar
observaciones atípicas y observaciones influyentes.
Coeficiente de correlación Medida de la intensidad de la relación lineal entre dos variables
(ya estudiado en el capítulo 3).
654 Capítulo 14 Regresión lineal simple
( 14.3)
(14.5)
(14.7)
Coeficiente de determinación
SCR
r2 = - - (14.12)
STC
SCE
s 2 = ECM = - - ( 14.15)
n - 2
( 14.16)
Desviación estándar de b1
a
a =-;==== (14.17)
b¡ V2:Cx; - :x)2
Estadístico de prueba t
( 14.19)
SCR
CMR = ~~~~~~~~~~~~-
(14.20)
Número de variables independientes
Estadístico de prueba F
CMR
F=-- ( 14.21)
ECM
1 (x* - x)
s.Y* = s - + - - - -2 ( 14.23)
n 2:(x; - :X)
(14.24)
~ 1 (x* - x)2
s
pred
=s I+-+
n L(X; - :X)2 (14.26)
(14.27)
Residual de la observación i
Y; - Y; ( 14.28)
( 14.30)
Y; -y¡
(14.32)
sY;-.Y;
Influencia de la observación i
55. ¿Un valor alto de r 2 implica que entre las dos variables existe una relación de causa y efecto?
Explique.
56. Explique la diferencia entre un intervalo de estimación del valor medio de y dado el valor de x
y el intervalo de estimación para un valor individual de y para una x determinada.
Ejercicios complementarios 657
57. ¿Qué objeto tiene probar si /3 1 = O? Si se rechaza que /3 1 = O, ¿eso significa un buen ajuste?
58. Los índices de Dow Jorres Industrial Average (DITA) y Standard & Poor's 500 (S&P 500)
se emplean como medidas de los movimientos generales en el mercado de valores. El DITA se
basa en el movimiento en los precios de 30 empresas grandes, mientras que el S&P 500 es un
índice conformado por 500 acciones. Algunos dicen que el S&P 500 es una mejor medida del
desempeño del mercado de valores porque su base es más amplia. A continuación se presentan
los precios de cierre para el DITA y el S&P 500 durante 15 semanas, comenzando el 6 de enero
de 2012 (sitio web Barran, 17 de abril de 2012).
59. ¿La cantidad de pies cuadrados de espacio habitable es un buen predictor del precio de venta de
una casa? Los siguientes datos muestran el área (Size) y el precio de venta (Selling Price) para
quince casas en Winston Salem, Carolina del Norte (Zillow.com, 5 de abril de 2015).
2.60 259.9
2.27 177.0
2.30 175.0
2.08 189.9
1.12 95 .0
1.38 82.1
1.80 169.0
1.57 96.5
1.45 114.9
60. Uno de los más grandes cambios en la educación superior de los años recientes ha sido el
crecimiento de las universidades en línea. La Online Education Database es una organización
independiente cuya misión es elaborar una lista amplia de las universidades en línea más acre-
ditadas. La siguiente tabla muestra los porcentajes(%) de la tasa de retención (Retention Rate)
y la tasa de graduación (Graduation Rate) de 29 universidades.
Retention Graduation
Rate (%) Rate ($)
7 25
51 25
4 28
29 32
33 33
47 33
63 34
DATA. 45 36
OnlineEdu 60 36
62 36
67 36
65 37
78 37
75 38
54 39
45 41
38 44
(continúa )
Ejercicios complementarios 659
Retention Graduatioo
Rate (%) Rate ($)
51 45
69 46
60 47
37 48
63 50
73 51
78 52
48 53
95 55
68 56
100 57
100 61
61. Jensen Tire & Auto está en el proceso de decidir si firma un contrato de mantenimiento para
su nueva máquina de alineación y balanceo de neumáticos por computadora. Los gerentes
piensan que los gastos de mantenimiento deberán relacionarse con el uso, y recabaron los datos
siguientes acerca del uso semanal en horas (Weekly Usage/hours) y los gastos anuales de man-
tenimiento (A.'lilual Maintenance Expense) en cientos de dólares.
a) Obtenga la ecuación de regresión estimada que relaciona los gastos anuales de manteni-
miento con el uso semanal.
b) Pruebe la significancia de la relación del inciso a) con 0.05 como nivel de significancia.
e) Jensen espera usar la nueva máquina 30 horas a la semana. Obtenga un intervalo de pre-
dicción de 95% para los gastos anuales de mantenimiento de la empresa.
d) Si el precio del contrato de mantenimiento es por $3 000 anuales, ¿recomendaría firmarlo?
¿Por qué?
660 Capítulo 14 Regresión lineal simple
62. En un detenninado proceso de manufactura, se cree que la velocidad (pies por minuto) de la
línea de ensamble afecta el número de partes defectuosas halladas en el proceso de inspección.
Para probar esto, los gerentes han ideado un procedimiento en el que la misma cantidad de par-
tes por lote se examina visualmente a diferentes velocidades de la línea. Se obtienen los datos
siguientes:
Número de partes
Velocidad de la línea defectuosas encontradas
20 21
20 19
40 15
30 16
60 14
40 17
a) Con estos datos elabore un diagrama de dispersión. ¿Aparenta ser razonable una relación
lineal? Explique.
b) Obtenga por el método de núnimos cuadrados la ecuación de regresión estimada.
e) ¿Existe una relación significativa entre las dos variables? Use a = 0.05 .
d) ¿La ecuación de regresión estimada proporciona un buen ajuste? Explique.
e) Utilice la ecuación de regresión estimada obtenida en el inciso b) para calcular un inter-
valo de confianza de 95% para el número esperado de días de ausencia de los empleados
que viven a 5 millas de la empresa.
64. La autoridad de tránsito local de una zona metropolitana importante desea determinar si existe
relación entre la antigüedad de un autobús (Age ofBus/years) y los gastos anuales derivados de
su mantenimiento (Maintenance Cost/$). En una muestra de 10 autobuses se obtuvieron los
datos siguientes.
Ejercicios complementarios 661
a) Con ayuda del método de mínimos cuadrados, obtenga la ecuación de regresión estimada.
b) Realice una prueba para determinar si las dos variables se relacionan de manera significa-
tiva con a = 0.05.
e) ¿La recta de mínimos cuadrados proporciona un buen ajuste a los datos observados? Ex-
plique.
d) Calcule un intervalo de predicción de 95% para los gastos de mantenimiento de un deter-
minado autobús cuya antigüedad es de 4 años.
65 . Un profesor de marketing del Givens College desea conocer la relación entre las horas desti-
nadas al estudio (Hours Spent Studying) y la calificación obtenida (Total Points Earned) en un
curso. A continuación se presentan los datos obtenidos de 10 estudiantes que tomaron el curso
el trimestre pasado.
Hours Total
Spent Studying Points Eamed
45 40
30 35
90 75
60 65
HoursPts
105 90
65 50
90 90
80 80
55 45
75 65
66. Las betas del mercado para las acciones individuales son determinadas por una regresión lineal
simple. Por cada acción, la variable dependiente es el porcentaje de su rendimiento trimestral
(la apreciación de capital más dividendos) menos el porcentaje del rendimiento que podria ob-
tenerse en una inversión libre de riesgo (la tasa de los bonos del Tesoro se usa como tasa libre de
riesgo). La variable independiente es el porcentaje de rendimiento trimestral (la apreciación
de capital más dividendos) para el mercado de valores (S&P 500) menos el porcentaje de ren-
dimiento de inversión libre de riesgo. La ecuación de regresión estimada se desarrolla con datos
trimestrales; la beta del mercado para la acción es la pendiente de la ecuación de regresión esti-
mada (b 1) . Con frecuencia, el valor de la beta del mercado se interpreta como medida del riesgo
asociado con la acción. Las betas de mercado superiores a 1 indican que la acción es más volátil
662 Capítulo 14 Regresión lineal simple
que el promedio del mercado, mientras que las menores de 1 son menos volátiles que el pro-
medio. Suponga que los siguientes datos son las diferencias entre el porcentaje de rendimiento
y el rendimiento libre de riesgo para S&P 500 y Horizon Technology durante 10 trimestres.
S&PSOO Horizoo
1.2 -0.7
-2.5 -2.0
-3.0 -5.5
2.0 4.7
5.0 1.8
MktBeta 1.2 4.1
3.0 2.6
-1.0 2.0
0.5 -1.3
2.5 5.5
a) Desarrolle la ecuación de regresión estimada que podría usarse para predecir la beta del
mercado para Horizon Technology. ¿Cuál es la beta de Horizon Technology?
b) Pruebe si existe una relación significativa con un nivel de significancia de 0.05.
e) ¿La ecuación de regresión estimada ofrece un buen ajuste? Explique.
d) Utilice las betas de mercado de Xerox y de Horizon Technology para comparar el riesgo
asociado de las dos acciones.
67. La Transactional Records Access Clearinghouse de la Universidad de Syracuse publica datos
que muestran las probabilidades de una auditoría del Departamento del Tesoro de Estados Uni-
dos. En la siguiente tabla se muestra la media del ingreso bruto ajustado (Adjusted Gross In-
come) y el porcentaje de declaraciones que fueron auditadas (Percent Audited) en 20 distritos .
Adjusted Perceot
District Gross Income ($) Aud.ited
Los Ángeles 36,664 1.3
Sacramento 38,845 1.1
Atlanta 34,886 1.1
Boise 32,512 1.1
DATA. Dallas 34,531 1.0
IRSAudit Providence 35,995 1.0
San José 37,799 0.9
Cheyenne 33,876 0.9
Fargo 30,513 0.9
Nueva Orleáns 30,174 0.9
Oklahoma City 30,060 0.8
Houston 37,153 0.8
Portland 34,918 0.7
Phoenix 33,291 0.7
Augusta 31,504 0.7
Albuquerque 29,199 0.6
Greensboro 33,072 0.6
Columbia 30,859 0.5
Nashville 32,566 0.5
Buffalo 34,296 0.5
a) Obtenga la ecuación de regresión estimada que sirve para predecir el porcentaje de audito-
rías, dado el promedio del ingreso bruto ajustado que se reportó.
b) Empleando como nivel de significancia 0.05, determine si hay relación entre el ingreso
bruto ajustado y el porcentaje de auditorías.
Caso práctico l Medición del riesgo en el mercado de valores 663
DATA f'ltRl~ la rentabilidad total del mercado de valores.* En este caso práctico se utilizará el índice S&p
¡¡¡ 500 como medida de la rentabilidad total del mercado de valores y se obtendrá una ecuación
Beta de regresión estimada usando datos mensuales. La beta de una acción es la pendiente en la
ecuación de regresión estimada (b¡). Los datos del archivo Beta proporcionan la rentabilidad
total (apreciación del capital más dividendos) de ocho acciones comunes muy conocidas y la
del S&P 500 a lo largo de 36 meses.
El valor beta del mercado bursátil siempre será 1; por lo tanto, una acción que tienda a
aumentar o a disminuir con el mercado bursátil tendrá también una beta cercana a l. Betas
mayores que 1 corresponden a acciones más volátiles que el mercado y betas menores que 1
corresponden a acciones menos volátiles que el mercado. Por ejemplo, si la beta de una acción
es 1.4, esta acción es 40% más volátil que el mercado, y si es 0.4, la acción es 60% menos volátil
que el mercado.
Informe gerencial
Se le ha encomendado la tarea de analizar las características del riesgo de estas acciones. Ela-
bore un informe que comprenda los puntos siguientes, sin limitarse sólo a ellos.
a) Calcular los estadísticos descriptivos de cada una de las acciones y del S&P 500. Co-
mente los resultados. ¿Qué acción es la más volátil?
b) Calcular la beta de cada acción. ¿Cuál de estas acciones se esperaría que se comportara
mejor en un mercado de alta calidad? ¿Cuál conservaría mejor su valor en un mercado
para el sector popular?
e) Comente qué tanto de la rentabilidad de cada una de las acciones es explicada por el
mercado.
• Distintos fuentes emplean diferentes métodos para calcular las betas. Por ejemplo, algunas fuentes, antes de calcular la
ecuación de regresión estimada, restan de las variables tanto dependiente como independiente la rentabilidad que pc-
dría haberse obtenido con una inversión libre de riesgo (por ejemplo, letras del Tesoro o T-bills). Otras emplean diversos
índices para la rentabilidad total del mercado de valores; por ejemplo, Value Line calcula las betas utilizando el índice
compuesto de la bolsa de Nueva York.
Caso práctico 3 Cómo seleccionar una cámara digital 665
Informe gerencial
l. Elabore resúmenes numéricos y gráficos de los datos.
2. Aplique el análisis de regresión para investigar la relación entre el número de accidentes
fatales y el porcentaje de conductores menores de 21 años. Analice sus hallazgos.
3. ¿Qué conclusión y recomendaciones puede deducir a partir de su análisis?
Informe gerencial
l. Elabore resúmenes numéricos de los datos.
2. Utilice la calificación general como variable dependiente y elabore tres diagramas de
dispersión empleando en cada caso como variables independientes el precio, el número
de megapíxeJes y el peso. ¿Cuál de las tres variables independientes parece ser un mejor
predictor de la calificación general?
3. Utilice la regresión lineal simple y desarrolle una ecuación de regresión estimada que
pueda utilizarse para predecir la calificación general, dado el precio de la cámara. Para
esta ecuación de regresión estimada realice un análisis residual y analice sus hallazgos
y conclusiones.
4. Con ayuda sólo de los datos de las cámaras de Canon, analice si es apropiado utilizar
la regresión lineal simple y realice las recomendaciones pertinentes en relación con la
predicción de la calificación general utilizando el precio de la cámara.
666 Capítulo 14 Regresión lineal simple
Price Weight
Observation Brand ($) Megapixels (oz.) Seo re
Canon 330 10 7 66
2 Canon 200 12 5 66
3 Canon 300 12 7 65
4 Canon 200 10 6 62
5 Canon 180 12 5 62
DATAIUI 6 Canon 200 12 7 61
Cameras 7 Canon 200 14 5 60
8 Canon 130 10 7 60
9 Canon 130 12 5 59
10 Canon 110 16 5 55
11 Canon 90 14 5 52
12 Canon 100 10 6 51
13 Canon 90 12 7 46
14 Nikon 270 16 5 65
15 Nikon 300 16 7 63
16 Nikon 200 14 6 61
17 Nikon 400 14 7 59
18 Nikon 120 14 5 57
19 Nikon 170 16 6 56
20 Nikon 150 12 5 56
21 Nikon 230 14 6 55
22 Nikon 180 12 6 53
23 Nikon 130 12 6 53
24 Nikon 80 12 7 52
25 Nikon 80 14 7 50
26 ' Nikon 100 12 4 46
27 Nikon 110 12 5 45
28 Nikon 130 14 4 42
Un automóvil con un puntaje de valor de 1.0 se considera como "valor promedio". Uno con
un puntaje de 2.0 se considera dos veces tan bueno como un automóvil con un puntaje de 1.0; un
automóvil con un puntaje de valor de 0.5 se considera promedio, y así sucesivamente. Los da-
tos de 20 automóviles familiares, incluyendo el precio ($) de cada vehículo probado, son los
siguientes:
Road-
Test Predicted Value
Car Price ($) Cost/Mile Seo re Reliability Seo re
Nissan Altima 2.5 S (4-cyl.) 23,970 0.59 91 4 1.75
Kia Optima LX (2.4) 21,885 0.58 81 4 1.73
Subaru Legacy 2.5i Premium 23,830 0.59 83 4 1.73
Ford Fusion Hybrid 32,360 0.63 84 5 1.70
Honda Accord LX-P (4-cyl.) 23,730 0.56 80 4 1.62
Mazda6 i Sport (4-cyl.) 22,035 0.58 73 4 1.60
Hyundai Sonata GLS (2.4) 21,800 0.56 89 3 1.58
Ford Fusion SE (4-cyl.) 23,625 0.57 76 4 1.55
DATA. Chevrolet Malibu LT (4-cyl.) 24,115 0.57 74 3 1.48
FamilySedans Kia Optima SX (2.0T) 29,050 0.72 84 4 1.43
Ford Fusion SEL (V6) 28,400 0.67 80 4 1.42
Nissan Altima 3.5 SR (V6) 30,335 0.69 93 4 1.42
Hyundai Sonata Limited (2.0T) 28,090 0.66 89 3 1.39
Honda Accord EX-L (V6) 28,695 0.67 90 3 1.36
Mazda6 s Grand Touring (V6) 30,790 0.74 81 4 1.34
Ford Fusion SEL (V6, AWD) 30,055 0.71 75 4 1.32
Subaru Legacy 3.6R Limited 30,094 0.71 88 3 1.29
Chevrolet Malibu LTZ (V6) 28,045 0.67 83 3 1.20
Chrysler 200 Limited (V6) 27,825 0.70 52 5 1.20
Chevrolet Impala LT (3.6) 28,995 0.67 63 3 1.05
Informe gerencial
l. Elabore resúmenes numéricos de los datos.
2. Utilice el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación del valor, dado el precio del automóvil.
3. Aplique el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación del valor, dado el costo de los primeros cinco
años de vida del automóvil.
4. Utilice el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación de las pruebas generales.
S. Utilice el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación del valor, dada la confiabilidad predicha.
6. ¿A qué conclusiones llega con este análisis?
Greg cuenta con datos de la última temporada, como el número de clientes que compraron
el pase, por código o zona postal, dentro de un área de 50 millas del parque. También cuenta con
la población total por código postal en el sitio web del U.S. Census Bureau. Greg considera que
puede emplear el análisis de regresión para predecir la cantidad de clientes en un código postal
determinado a partir de su población total. De ser posible, podría desarrollar una campaña de
correo directo dirigida a los códigos postales, donde la cantidad de clientes es menor que la
esperada.
Informe gerencial
l. Calcule las estadísticas descriptivas y con los datos trace un diagrama de dispersión.
Analice sus hallazgos.
2. Utilice la regresión lineal simple para desarrollar una ecuación de regresión estimada
que pueda usarse para predecir el número de clientes por código postal a partir de su
población total.
3. Pruebe si existe una relación significativa a un nivel de significancia de 0.05.
4. ¿La ecuación de regresión estimada tiene un buen ajuste?
5. Utilice el análisis residual para determinar si el modelo de regresión es apropiado.
6. Analice si se debe usar la ecuación de regresión estimada para guiar la campaña de
marketing y, de ser así, cómo debe hacerse.
7. ¿Qué otros datos serían útiles para predecir el número de clientes en un área?
(14.34)
a2:(y¡ - ba - b¡xY
abo
= -22:< Y,. - b - b x)
o 1 ,
=o (14.35)
a2:(y¡ - ba - b1xY - -
ab -
2~ < - b - b )
~x; Y; º ¡x; = o (14.36)
1
Al dividir la ecuación (14.35) entre 2 y hacer las sumas por separado, obtenemos
Apéndice 14.2 Prueba de significancia usando correlación 669
Al llevar 2:y¡ al otro lado del signo igual y observar que 2:b0 = nb0 , conseguimos
(14.37)
{ 14.38)
A las expresiones (14.37) y (14.38) se les conoce como ecuaciones normales. Al despejar b0 en
la ecuación (14.37) obtenemos
2:y 2:x.
bo = n- ' - bi -n ' (14.39)
(14.42)
Las ecuaciones (14.41) y (14.42) son las fórmulas (14.6) y (14.7) que se usaron en este capítulo
para calcular los coeficientes de la ecuación de regresión estimada.
Ha: Pxy =O
Ha: Pxy i= O
ESTADÍSTICO DE PRUEBA
(14.43)
REGLA DE RECHAZO
¡;;-=2 ~ 10 - 2
t = rxy y~ = 0.9501 _ (0. ) = 8.61
1 9501 2
El cuadro de diálogo Regression de Minitab tiene otras posibilidades más que se pueden
aprovechar seleccionando las opciones deseadas. Por ejemplo, para obtener una gráfica de resi-
duales en la que los valores predichos de la variable dependiente yaparezcan en el eje horizontal
y los valores de los residuales estandarizados en el eje vertical, el paso 5 deberá ser el siguiente:
Después de estimar el modelo de regresión, pueden llevarse a cabo los siguientes pasos para
obtener los intervalos de confianza y de predicción que se analizan en la sección 14.6.
- --- ------ •••• -- ------ - --- --··--- ·------ -- ------·- · ---···· - -- • • • • • • • ..!. - -
10..Ji"-............-O::::..im..'2~'""""= ----· ..•... ~ -------· ......... - .•. -· ------------ ·- · ·········--·· ~---- .... --- -- ... '
't-"
-····-·····---------'. .......
1 _ _,_ -- - · • ·---- ••• ~ •• -
~_¡.:..;:;...__,:~====~~-.· :___
/'i~:::r· · - ··--. ------+----·.. ------ ---- ......... ;. ---........ ---. i· -.-- --- ---- ... ;.... -· ----· .. --.- -·-- ---
~--
______ ,_______________, _______________ ---- ,__ -· . -- ·-----~----·
-- -··· -·--- ·-··- . - ...
~--
_· ~-
i..=...¡..;;;..;===---'----':..._"' - _·:...:1.::.:or·~-----~- -~-~~- · -· ~- ·-____ .. __
21
--------'-----'---------~---'-----------------