0% encontró este documento útil (0 votos)
237 vistas84 páginas

Regresión Lineal Simple: Contenido 14.7

Este documento describe el uso de un modelo de regresión lineal simple por parte de Alliance Data Systems para predecir las ventas de una campaña de marketing directo. Los analistas de ADS obtuvieron una ecuación de regresión que relacionaba el monto de la compra con la cantidad gastada en tiendas similares. El modelo final incluyó variables adicionales como la tenencia de tarjeta de crédito y el ingreso estimado para mejorar la precisión de las predicciones. El capítulo proporciona una introducción al análisis de regresión lineal simple.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
237 vistas84 páginas

Regresión Lineal Simple: Contenido 14.7

Este documento describe el uso de un modelo de regresión lineal simple por parte de Alliance Data Systems para predecir las ventas de una campaña de marketing directo. Los analistas de ADS obtuvieron una ecuación de regresión que relacionaba el monto de la compra con la cantidad gastada en tiendas similares. El modelo final incluyó variables adicionales como la tenencia de tarjeta de crédito y el ingreso estimado para mejorar la precisión de las predicciones. El capítulo proporciona una introducción al análisis de regresión lineal simple.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 84

Anderson, D., Sweeney, D., Williams, T., Camm, J., Cochran, J. ( 2019 ).

Regresión lineal
simple. En Estadística para negocios y economía (pp.590-673)(1079p.)(13a ed). Ciudad de
México : Cengage Learning. (C99646)

Regresión lineal simple


CONTENIDO 14.7 SOLUCIÓN POR
COMPUTADORA
ESTADÍSTICA EN LA PRÁCTICA:
ALLIANCE DATA SYSTEMS 14.8 ANÁLISIS DE RESIDUALES:
VALIDACIÓN DE LOS
14.1 MODELO DE REGRESIÓN SUPUESTOS DEL MODELO
LINEAL SIMPLE Gráfica de residuales contra x
Modelo de regresión y ecuación Gráfica de residuales contra y
de regresión Residuales estandarizados
Ecuación de regresión estimada Gráfica de probabilidad normal
14.2 MÉTODO DE MÍNIMOS 14.9 ANÁLISIS DE RESIDUALES:
CUADRADOS OBSERVACIONES ATÍPICAS
14.3 COEFICIENTE DE Y OBSERVACIONES
DETERMINACIÓN INFLUYENTES
Coeficiente de correlación Detección de observaciones
14.4 SUPUESTOS DEL MODELO atípicas
Detección de observaciones
14.5 PRUEBA DE SIGNIFICANCIA influyentes
Estimación de a 2
Prueba t APÉNDICES
Intervalo de confianza para /3 1 14.1 OBTENCIÓN DE LA
PruebaF FÓRMULA DE MÍNIMOS
Algunas advertencias acerca de CUADRADOS CON BASE
la interpretación de las pruebas EN EL CÁLCULO
de significancia 14.2 PRUEBA DE SIGNIFICANCIA
USANDO CORRELACIÓN
14.6 USO DE LA ECUACIÓN DE
14.3 ANÁLISIS DE REGRESIÓN
REGRESIÓN ESTIMADA
CONMINITAB
PARA ESTIMACIÓN
14.4 ANÁLISIS DE REGRESIÓN
Y PREDICCIÓN
CONEXCEL
Estimación por intervalo
Intervalo de confianza para
el valor medio de y
Intervalo de predicción para
un solo valor de y
Estadística en la práctica 591

ALLIANCE DATA SYSTEMS*


DALLAS. TEXAS
Alliance Data Systems (ADS) ofrece procesamiento de
transacciones y servicios de crédito y marketing en la
creciente industria de administración de las relaciones con
el cliente (CRM, por sus siglas en inglés). ADS opera por
medio de tres negocios: Loyaltyüne, Epsilon y Private
Label Services and Credit. El negocio de Loyaltyüne
ofrece servicios de lealtad a los clientes, como análisis
de clientes, servicios creativos y soluciones móviles . El
negocio de Epsilon se enfoca en los programas de marketing
que utilizan datos transaccionales e incluye tecnologías de
bases de datos de clientes y modelos predictivos. El negocio
de Private Label Services and Credit ofrece, entre otros
servicios, procesamiento de tarjetas de crédito, de pagos y
cobro de servicios para núnoristas de marca privada. ADS se
fundó en 1996, tiene su sede en Plano, Texas, y tiene más
de 15 000 empleados de tiempo completo. Los expertos de Alliance Data Systems analizan el uso de un
modelo de regresión para predecir las ventas de una campaña
Como parte de sus servicios de marketing, ADS diseña
de marketing directo. © Cortesía de Alliance Data Systems.
campañas y promociones por correo directas. La empresa
posee una base de datos con información sobre los hábitos
de consumo de más de 100 núllones de consunúdores, lo semejantes en los últimos 39 meses . Los analistas de ADS
que le permite dirigir sus acciones a quienes tienen la ma- obtuvieron una ecuación de regresión estimada en la que se
yor probabilidad de beneficiarse de la publicidad por co- relacionaba el monto de compra con la cantidad que se gastó
rreo directo. El grupo de desarrollo analítico de ADS emplea en tiendas semejantes:
el análisis de regresión para construir modelos que núden
y predicen la receptividad del consunúdor a las campañas y = 26.7 + 0.00205x
de marketing directo. Algunos modelos de regresión predi-
cen la probabilidad de compra de las personas que reciben donde
la publicidad y otros pronostican la cantidad que gastarán
cuando realicen una compra. y = monto de la compra
En una determinada campaña, una cadena de tiendas x = monto que se gastó en tiendas similares
minoristas deseaba atraer a nuevos clientes. Para predecir
el efecto de la campaña, los analistas de ADS tomaron de Con esta ecuación pudieron predecir que una persona que
la base de datos una muestra de consunúdores, les envia- hubiera gastado $10000 en tiendas semejantes en los úl-
ron material promociona! y después recabaron datos sobre timos 39 meses, gastaría $47.20 como respuesta a la pu-
su respuesta. Los datos se referían al monto de la compra blicidad por correo directo. En este capítulo se verá cómo
realizada por quienes respondieron a la campaña, así como obtener estas ecuaciones de regresión estimada.
a diversas variables específicas del consumidor que se con- El modelo final que obtuvieron los analistas de ADS
sideraron útiles para predecir las ventas. La variable que también incluía otras variables que incrementaban el po-
más contribuyó a predecir el monto de compra fue la can- der predictivo de la ecuación anterior, entre ellas la exis-
tidad total de adquisiciones a crédito realizadas en tiendas tencia o no de una tarjeta de crédito bancaria, el ingreso
estimado y la cantidad promedio que se gastó en cada visita
• U:is autores agradecen a Philip Clemance, director de Desarrollo Ana- a la tienda seleccionada. En el capítulo siguiente se verá
lítico de Alliance Data Systems, por proporcionar este material poro cómo incorporar estas variables adicionales a un modelo de
Estadística en la prádíca. regresión múltiple.
592 Capítulo 14 Regresión lineal simple

Con frecuencia las decisiones gerenciales se basan en la relación entre dos o más variables. Por
ejemplo, al analizar la relación entre el gasto en publicidad y las ventas, un gerente de marketin
puede tratar de predecir las ventas correspondientes a un determinado gasto en publicidad. E~
otro caso, una empresa de servicios públicos establece la relación entre la temperatura diaria y
la demanda de electricidad para predecir la necesidad de fluido eléctrico considerando las tern.
peraturas diarias que se esperan para el mes siguiente. Algunas veces los directivos se apoyan
en la intuición para juzgar la relación entre dos variables. Sin embargo, cuando se dispone de
datos, puede emplearse un procedimiento estadístico llamado análisis de regresión para obtener
una ecuación que indique cuál es la relación entre las variables.
En la terminología que se emplea en regresión, la variable a predecir se llama variable de.
pendiente, y a la variable o variables que se usan para predecir su valor se le llama variable
Sir Francis Galton independiente. Por ejemplo, al analizar el efecto de los gastos en publicidad sobre las ventas,
(1822-19ll)fue el primero como lo que busca el gerente de marketing es predecir estas últimas, las ventas serán la variable
en emplear los métodos
dependiente. Los gastos en publicidad serían la variable independiente utilizada para ayudar a
estadísticos para estudiar la
relación entre dos variables.
predecir las ventas. En la notación estadística, y denota la variable dependiente y x la variable
Galton se interesaba en dependiente.
estudiar la relación entre En este capítulo se estudia el tipo más sencillo de análisis de regresión en el que interviene
las estaturas de padre e hijo. una variable independiente y una variable dependiente, y donde la relación entre estas variables
Karl Pearson (1857-1936),
es aproximada mediante una línea recta. A este tipo de análisis se le conoce como regresión
discípulo de Galton, analizó
esta relación de estatura
lineal simple. Al análisis en el que intervienen dos o más variables independientes se le llama
de padre e hijo en 1 078 análisis de regresión múltiple; éste y los casos en los que la relación es curvilínea se estudian
parejas de individuos. en los capítulos 15 y 16.

Modelo de regresión lineal simple


Arrnand's Pizza Parlors es una cadena de restaurantes de comida italiana que abarca un área
de cinco estados. Las ubicaciones con mayor éxito se encuentran cerca de los campus univer-
sitarios. Los gerentes creen que las ventas trimestrales de estos restaurantes (que se denotan
con y) están directamente relacionadas con el tamaño de la población estudiantil (que se deno-
tan con x); es decir, en los establecimientos que están cerca de algún campus con una pobla-
ción estudiantil grande se generan más ventas que en aquellos situados cerca de algún campus
con una población estudiantil pequeña. Si se aplica el análisis de regresión, se puede desarro-
llar una ecuación que muestre cuál es la relación de la variable dependiente y con la variable
independiente x.

ModelC? de regresión y ecuación de regresión


En el ejemplo de Arrnand's Pizza Parlors, la población consta de todos los restaurantes de esta
cadena. Para cada restaurante en la población hay un valor x (población estudiantil) y un valor
correspondiente y (ventas trimestrales). La ecuación que describe cómo se relaciona y con x, Y
proporciona un término para el error, se llama modelo de regresión. El siguiente es el modelo
que se emplea en la regresión lineal simple.

MODELO DE REGRESIÓN LINEAL SIMPLE

y = f3o + f31x + E ( 14. 1)

(3 0 y (3 1 se conocen como parámetros del modelo, y E (la letra griega épsilon) es una varia-
ble aleatoria denominada término del error. Este último da cuenta de la variabilidad de y, que
no puede explicarse por la relación lineal entre x y y.
14.1 Modelo de regresión lineal simple 593

La población de los restaurantes Armand's puede verse también como un conjunto de sub-
poblaciones, una para cada uno de los valores de x. Por ejemplo, una subpoblación está confor-
mada por todos los restaurantes Armand's localizados cerca de los campus universitarios con
8 000 estudiantes; otra subpoblación consta de todos los restaurantes Armand's localizados cerca
de los campus universitarios con 9 000 estudiantes, y así sucesivamente. Para cada subpoblación
existe una distribución de valores y . Así, existe una distribución de valores y que corresponde
a los restaurantes localizados cerca de los campus con 8 000 estudiantes, otra distribución y para
los restaurantes ubicados cerca de los campus con 9 000 estudiantes, y así sucesivamente. Cada
una de estas distribuciones tiene su propia media o valor esperado. A la ecuación que describe
la relación entre el valor esperado de y, que se denota E(y) , y x se le llama ecuación de regre-
sión. La siguiente es la ecuación de regresión para la regresión lineal simple.

ECUACIÓN DE REGRESIÓN LINEAL SIJ\.1PLE

E(y) = f3o + f31x ( 14.2)

La gráfica de la ecuación de regresión lineal simple es una recta; {3 0 es la intersección de la recta


de regresión con el eje y, {3 1 es la pendiente y E(y) es la media o valor esperado de y para un
valor dado de x.
En la figura 14.1 se presentan ejemplos de posibles rectas de regresión. La de la gráfica A
indica que el valor medio de y se relaciona positivamente con x, con los valores mayores de E(y)
asociados a valores mayores de x. La recta de regresión de la gráfica B indica que el valor medio
de y se relaciona negativamente con x, con valores menores de E(y) que corresponden a valores
mayores de x. La gráfica C muestra el caso en el que el valor medio de y no se relaciona con x;
es decir, el valor medio de y es el mismo para todos los valores de x.

Ecuación de regresión estimada


Si se conocieran los valores de los parámetros poblacionales {3 0 y {3 1, se podría emplear la
ecuación (14.2) para calcular el valor medio de y para un valor dado de x. Sin embargo, en
la práctica no se conocen los valores de estos parámetros y es necesario estimarlos usando datos
muestrales. Se calculan estadísticos muestrales (que se denotan con b0 y b 1) como estimaciones de
los parámetros poblacionales {3 0 y {3 1• Al sustituir b0 y b 1 por {3 0 y {3 1 en la ecuación de regresión,

FIGURA 14.1 Líneas de regresión posibles en la regresión lineal simple

Gráfica A Gráfica B Gráfica C


Relación lineal positiva Relación lineal negativa No existe relación

E(y) E(y)

Intersección
f3o
La pendiente (3 1 Intersección La pendiente (3 1 es O
es negativa !301--~~~~~~~-
Intersección Recta de regresión
f3o
Recta de regresión
594 Capítulo 14 Regresión lineal simple

se obtiene la ecuación de regresión estimada. La ecuación de regresión estimada de una regre-


sión lineal simple se presenta a continuación.

ECUACIÓN DE REGRESIÓN LINEAL SIMPLE ESTIMADA

y = b0 + b 1x (14.3)

La figura 14.2 proporciona un resumen del proceso de estimación de la regresión lineal


simple.
A la gráfica de la ecuación de regresión lineal simple estimada se le llama recta de regresión
estimada; b 0 es la intersección con el eje y, y b 1 la pendiente. En la sección siguiente se muestra
el uso del método de mínimos cuadrados para calcular los valores de b0 y b 1 en la ecuación de
regresión estimada.
En general, y es el estimador puntual de E(y), el valor medio de las y para un valor dado
de x. Por lo tanto, para estimar la media o el valor esperado de las ventas trimestrales de todos
El valor de ynos los restaurantes situados cerca de los campus con 10000 estudiantes, Armand's tendrá que sus-
proporciona un estimador tituir x por 10 000 en la ecuación (14.3). Sin embargo, en algunos casos a la cadena le interesará
puntual para E(y) para predecir las ventas de un determinado restaurante. Por ejemplo, suponga que desea pronosticar
un valor dado de x y
las ventas trimestrales del que se encuentra cerca de Talbot College, una escuela con 1O000 es-
una predicción del valor
individual de y para un tudiantes. Resulta que la mejor estimación de la y que corresponde a un determinado valor de x
valor dado de x. es también la proporcionada por y. Así, para predecir las ventas trimestrales del restaurante en
cuestión, Armand's también sustituirá la x de la ecuación (14.3) por 10000.

FIGURA 14.2 Proceso de estimación en la regresión lineal simple

La estimación de /30 y /3 1es


un proceso estadístico muy Modelo de regresión
parecido a la estimación y= f3o + {3¡X + E
deµ que se estudia en el
Ecuación de regresión
capítulo 7. Tanto /3 0 como
E(y) = /30 + /3 1x
/3 1 son los parámetros de
interés desconocidos, y Parámetros desconocidos
b0 y b1 son los estadísticos /30,/31 X
muestra/es que se usan para n
estimar los parámetros.

Ecuación de regresión
b0 y b 1 estimada
proporcionan estimaciones
y= bo + b¡X
de /30 y /31 Estadísticos muestrales
b0 ,b 1
14.2 Método de mínimos cuadrados 595

l. El análisis de regresión no puede entenderse co- 2. La ecuación de regresión en la regresión lineal


mo un procedimiento para establecer una relación simple es E(y) = /3 0 + /3 1x. En libros más avanza-
de causa y efecto entre las variables. Sólo indica dos sobre análisis de regresión suele escribirse la
cómo o en qué medida las variables se relacionan ecuación como E( ylx) = /3 0 + /3 1x, enfatizando así
la una con la otra. Toda conclusión acerca de una que lo que proporciona esta expresión es el valor
relación causa y efecto debe basarse en los cono- medio de las y para un valor dado de x.
cimientos de los especialistas en la aplicación de
que se trate.

Método de mínimos cuadrados


En la regresión lineal simple El método de núnimos cuadrados es un procedimiento en el que se usan los datos muestra-
cada observación consta les para encontrar la ecuación de regresión estimada. Para ilustrar este método, suponga que
de dos valores: uno para se recolectan datos de una muestra de 10 restaurantes Armand's Pizza Parlors ubicados todos
la variable independiente
y otro para la variable
cerca de campus universitarios. Para la i-ésima observación o restaurante de la muestra, X; es el
dependiente. tamaño de la población de estudiantes (en miles), y Y; son las ventas trimestrales (en miles de
dólares). En la tabla 14.l se presentan los valores de X; y Y; en esta muestra de 10 restaurantes.
Como se puede ver, el restaurante 1, con x 1 = 2 y y 1 = 58, se encuentra cerca de un cam-
pus con 2 000 estudiantes y sus ventas trimestrales son de $58 000. El restaurante 2, con x2 = 6
y y 2 = 105, se encuentra cerca de un campus con 6000 estudiantes y sus ventas trimestrales
son de $105 000. El valor mayor corresponde a las ventas del restaurante 10, que se encuentra
cerca de un campus con 26 000 estudiantes y sus ventas trimestrales son de $202 000.
La figura 14.3 es el diagrama de dispersión de los datos de la tabla 14.1. La población de
estudiantes (Student Population) se indica en el eje horizontal (en miles) y las ventas trimestra-
les (Quarterly Sales) en el eje vertical (en miles de dólares). Los diagramas de dispersión para
el análisis de regresión se trazan colocando la variable independiente x en el eje horizontal y la
variable dependiente y en el eje vertical. Este diagrama permite observar gráficamente los datos
y obtener conclusiones acerca de la relación entre las variables.
¿Qué conclusión preliminar se puede formular a partir de la figura 14.3? Las ventas tri-
mestrales parecen ser mayores cerca de los campus en los que la población de estudiantes es
más grande. Además, en estos datos se observa que la relación entre el tamaño de la población
y las ventas parece que puede aproximarse mediante una línea recta; en efecto, se observa que

TABLA 14.1 Población de estudiantes y ventas trimestrales en 10 restaurantes Annand's


Pizza Parlors

Student Quarterly
Restaurant Population (lOOOs) Sales ($1000s)
X¡ Y;
2 58
ATA 2 6 105
3 8 88
Armand's
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
596 Capítulo 14 Regresión lineal simple

FIGURA 14.3 Diagrama de dispersión de la población de estudiantes y ventas trimestrales


en Annand' s Pizza Parlors

220

200 •
180

~

160
• •
140

120
• •
100 •
80 •
60

40

20

o 2 4 6 8 10 12 14 16 18 20 22 24 26

Población de estudiantes (miles)

existe una relación lineal positiva entre x y y. Así, para representar la relación entre las ventas
trimestrales y la población de estudiantes, se elige el modelo de regresión lineal simple. Una vez
que se decide esto, la siguiente tarea es usar los datos muestrales de la tabla 14.l para determi-
nar los valores de b0 y b 1 en la ecuación de regresión lineal simple estimada. Para el restaurante
i-ésimo, la ecuación de regresión simple estimada es

(14.4)

donde

Y; = valor predicho de las ventas trimestrales (en miles de dólares)


del i-ésimo restaurante
b0 = intersección de la recta de regresión estimada con el eje y
b 1 = pendiente de la recta de regresión estimada
X; = tamaño de la población de estudiantes (en miles) del i-ésimo restaurante

Como Y; denota las ventas observadas (reales) del restaurante i, y Y; el valor predicho de las
ventas en la ecuación (14.4), para cada uno de los restaurantes de la muestra habrá un valor
de ventas observadas Y; y un valor de ventas estimadas Y;· Para que la recta de regresión estimada
proporcione un buen ajuste de los datos, las diferencias entre los valores observados y predichos
deben ser pequeñas.
En el método de mínimos cuadrados se usan los datos muestrales para obtener los valores
de b0 y b 1 que minimicen la suma de los cuadrados de las desviaciones (diferencias) entre los
valores observados de la variable dependiente Y; y los valores predichos de la variable depen -
diente Y;· El criterio que se emplea en el método de mínimos cuadrados se basa en la expresión
(14.5).
14.2 Método de mínimos cuadrados 597

CRITERIO DE MÍNIMOS CUADRADOS

Carl Friedrich Gauss min L(Y; - y¡)2 (14.S)


(1777-1855) propuso
el método de mínimos donde
cuadrados.
Y; = valor observado de la variable dependiente en la observación i-ésima
Y; = valor estimado de la variable dependiente en la observación i-ésima

Se puede usar el cálculo diferencial para demostrar (vea el apéndice 14.1) que los valores
de b0 y b 1 que minimizan la expresión (14.5) se pueden encontrar usando las ecuaciones (14.6)
y (14.7).

PENDIENTE E INTERSECCIÓN CON EL EJE y DE LA ECUACIÓN DE REGRESIÓN


ESTIMADA 1

Al determinar b 1 con ayuda


b = _L_(x~;_-_x_)_(Y~;_-_y_) (14.6)
de una calculadora, en 1 L(X¡ - .X)2
los cálculos intermedios
deben llevarse tantas cifras (14.7)
significativas como sea
posible. Se recomiendan donde
por lo menos cuatro dígitos
significativos. X;= valor de la variable independiente en la observación i-ésima
Y; = valor de la variable dependiente en la observación i-ésima
.X= media de la variable independiente
y = media de la variable dependiente
n = número total de observaciones

En la tabla 14.2 se presentan algunos cálculos necesarios para obtener la ecuación de regre-
sión estimada por mínimos cuadrados en el ejemplo de Armand's Pizza Parlors. Como la mues-
tra es de 10 restaurantes, tenemos n = 10 observaciones. Dado que en las ecuaciones (14.6) y
(14.7) se necesitan .X y y, se empieza por calcularlas.

X = LX¡ = 140 = 14
n 10

y= 2:y; = 1300 = l30


n 10

Utilizando las ecuaciones (14.6) y (14.7) y la información de la tabla 14.2, se calcula la pen-
diente y la intersección de la ecuación de regresión estimada para Armand's Pizza Parlors. La
pendiente (b 1) se calcula como se muestra enseguida.

1
Otra fórmula para calcular b 1 es
- u ,y, - (u ,'i:.y¡)/ n
b, - rx~ - crxY/n
Esta forma de la ecuación (14.6) suele recomendarse cuando se usa una calculadora para determinar b 1•
598 Capítulo 14 Regresión lineal simple

TABLA 14.2 Cálculos de la ecuación de regresión estimada por mínimos cuadrados para
Armand's Pizza Parlors

Restaurante i X¡ Y; X¡-X y¡-y (X¡ - X)(y¡ - Y) (X¡ - X)2


2 58 -12 -72 864 144
2 6 105 -8 -25 200 64
3 8 88 -6 -42 252 36
4 8 118 -6 -12 72 36
5 12 117 -2 -13 26 4
6 16 137 2 7 14 4
7 20 157 6 27 162 36
8 20 169 6 39 234 36
9 22 149 8 19 152 64
10 26 202 12 72 864 144
Totales 140 1300 2840 568
LX¡ LY; L(X¡ - i)(y¡ - y) L(x¡ - x) 2

b = 2:(x; - x)(Y; - y)
1 2:(x; _ :X)2
2840
=
568
=5

La intersección con el eje y (b 0 ) se calcula así:

b0 =y - b 1x
= 130 - 5(14)

= 60

Por lo tanto, la ecuación de regresión estimada es

y= 60 + 5x

En la figura 14.4 se ilustra esta ecuación graficada sobre el diagrama de dispersión.


La pendiente de la ecuación de regresión estimada (b 1 = 5) es positiva, lo que implica que
a medida que aumenta el tamaño de la población de estudiantes, las ventas se incrementan.
Se concluye (con base en las ventas dadas en miles de dólares y el tamaño de la población en
miles) que un incremento de 1000 en el tamaño de la población de estudiantes corresponde a
un incremento de $5 000 en las ventas esperadas; es decir, se prevé que las ventas trimestrales
se incrementen $5 por cada estudiante.
Debe tenerse mucho Si se considera que la ecuación de regresión estimada obtenida por el método de mínimos
cuidado al usar la ecuación cuadrados describe de forma adecuada la relación entre x y y, parecerá razonable usar esta ecua-
de regresión estimada para
ción a efecto de pronosticar el valor de y para un valor dado de x. Por ejemplo, si se quisieran
hacer predicciones fuera
del rango de valores de la
predecir las ventas trimestrales de un restaurante ubicado cerca de un campus de 16000 estu-
variable independiente, ya diantes, se calcularía como sigue:
que fuera de ese rango no
puede asegurarse que esta y = 60 + 5(16) = 140
relación sea válida.

De esta manera, las ventas trimestrales predichas para este restaurante serían de $140000. En
las secciones siguientes se verán los métodos para evaluar el uso correcto de la ecuación de
regresión para realizar estimaciones y predicciones.
14.2 Método de mínimos cuadrados 599

FIGURA 14.4 Gráfica de la ecuación de regresión estimada para Arrnand's Pizza Parlors:
y= 60 + Sx

y
..--
"'
~

'"'
c:s
:o
220
"C
~
"C
200 •
~"' 180
g •
160
-;"'
~
• •
-"'"''
~


140
-'j ""'
E:,()
~ ')}.

-"''"' 120


• • Pendiente b¡ = 5

-=
>
c:s
~
100

80 •
Intersección
con el eje y
bo = 60
:¡ o

2 4 6 8 10 12 14 16 18 20 22 24 26
X

Población de estudiantes {miles)

El método de mínimos cuadrados proporciona una ción de mejor ajuste. Si se empleara otro criterio,
ecuación de regresión estimada que minimiza la suma como minimizar la suma de las desviaciones absolutas
de los cuadrados de las desviaciones entre los valores entre Y; y Y;, se obtendría una ecuación diferente. El
observados de la variable dependiente Y; y los valo- método de rrúnimos cuadrados es el que más se utiliza
res estimados de la variable dependiente Y;· El criterio en la práctica.
de rrúnimos cuadrados permite seleccionar la ecua-

Métodos
l. Dadas las siguientes cinco observaciones de las variables x y y:
AUTO
2 3 4 5
7 5 11 14

a) Trace el diagrama de dispersión correspondiente a estos datos.


b) ¿Qué indica el diagrama de dispersión del inciso a) respecto de la relación entre las dos
variables?
600 Capítulo 14 Regresión lineal simple

e) Trate de aproximar la relación entre x y y trazando una recta que pase a través de los puntos
de los datos.
d) Utilice las ecuaciones (14.6) y (14.7) para calcular b0 y b 1 y determine la ecuación de
regresión estimada.
e) Use la ecuación de regresión estimada para predecir el valor de y cuando x = 4.
2. Dadas las siguientes cinco observaciones de las variables x y y:

3 12 6 20 14
X¡ 1

40 55 10 15

a) Trace el diagrama de dispersión correspondiente a estos datos.


b) ¿Qué indica el diagrama de dispersión del inciso a) respecto de la relación entre las dos
variables?
e) Trate de aproximar la relación entre x y y trazando una recta que pase a través de los puntos
de los datos.
d) Utilice las ecuaciones (14.6) y (14.7) para calcular b0 y b 1 y determine la ecuación de
regresión estimada.
e) Use la ecuación de regresión estimada para predecir el valor de y cuando x = 10.
3. Dadas las cinco observaciones siguientes obtenidas de un estudio de regresión sobre dos va-
riables:

X¡ 2 6 9 13 20

Y; 7 18 9 26 23

a) Trace el diagrama de dispersión correspondiente a estos datos.


b) Determine la ecuación de regresión estimada correspondiente a estos datos.
e) Use la ecuación de regresión estimada para predecir el valor de y cuando x = 6.

Aplicaciones
AUTO evhluacióñ
4. Los siguientes datos proporcionan el porcentaje de mujeres que trabajan en cinco empresas
'··' 1 de la industria de ventas y comercio minoristas. También se muestra el porcentaje de puestos
gerenciales ocupados por mujeres en cada empresa.

% que trabaja 67 45 73 54 61
% de puestos gerenciales 49 21 65 47 33

a) Elabore un diagrama de dispersión para estos datos con el porcentaje de mujeres que trabaja
en la empresa como variable independiente.
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Trate de aproximar la relación entre el porcentaje de mujeres que trabaja en la empresa Y
el porcentaje de puestos gerenciales ocupados por mujeres en la misma.
d) Determine la ecuación de regresión estimada calculando los valores de b 0 y b 1•
e) Prediga el porcentaje de puestos gerenciales que serían ocupados por mujeres si la empresa
contara con 60% de empleadas.

5. Brawdy Plastics, Inc. fabrica tensores plásticos de cinturones de seguridad para General Mo-
tors, en su planta de Buffalo, Nueva York. Después del ensamble y la pintura final, se colocan
las partes en una banda transportadora que las lleva a la estación de inspección final. La veloci-
dad con que las piezas pasan a dicha inspección depende de la velocidad de la banda (pies por
minuto). Aunque es deseable contar con líneas más rápidas, a la gerencia le preocupa que un
14.2 Método de mínimos cuadrados 601

incremento de la velocidad impida que los inspectores identifiquen las partes defectuosas. Para
probar esta teoría, la empresa lleva a cabo un experimento en el que el mismo lote de partes, con
un número conocido de piezas defectuosas, se inspecciona a diferentes velocidades. Se recaban
los siguientes datos:

Velocidad de la línea Número de partes defectuosas encontradas


20 23
20 21
30 19
30 16
40 15
40 17
50 14
50 11

a) Trace un diagrama de dispersión con la velocidad de la línea como variable independiente.


b) ¿Qué le indica el diagrama elaborado en el inciso anterior sobre la relación entre las dos
variables?
e) Utilice el método de mínimos cuadrados para desarrollar la ecuación de regresión estimada.
d) Prediga la cantidad de partes defectuosas que se encontrarán en la línea a una velocidad de
25 pies por minuto.

6. La National Football League (NFL) registra diversos datos sobre el desempeño de individuos y
equipos. Para investigar acerca de la importancia de los pases en el porcentaje de juegos gana-
dos por un equipo, se muestra el número de promedio de yardas por intento de pase (Yds/ Att)
y el porcentaje de juegos ganados (WinPct) para una muestra de 10 equipos de la NFL durante
la temporada 2011 (sitio web de la NFL, 12 de febrero de 2012).

Tearn Yds/Att WinPct


Arizona Cardinals 6.5 50
Atlanta Falcons 7.1 63
Carolina Panthers 7.4 38
Chicago Bears 6.4 50
DATA. Dallas Cowboys 7.4 50
NFLPassing New England Patriots 8.3 81
Philadelphia Eagles 7.4 50
Seattle Seahawks 6.1 44
St. Louis Rams 5.2 13
Tampa Bay Buccaneers 6.2 25

a) Elabore un diagrama de dispersión con el número de yardas por intento de pase en el eje
horizontal y el porcentaje de juegos ganados en el eje vertical.
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Determine la ecuación de regresión estimada que puede utilizarse para predecir el porcen-
taje de juegos ganados, dado el número promedio de yardas por intento de pase.
d) Proporcione una interpretación de la pendiente de la ecuación de regresión estimada.
602 Capítulo 14 Regresión lineal simple

e) Durante la temporada 2011 , el número promedio de yardas por intento de pase de los Chiefs
de Kansas City fue 6.2. Utilice la ecuación de regresión estimada que obtuvo en el inciso e)
para predecir el porcentaje de juegos ganados por este equipo. (Nota : Para la temporada
2011, el récord de Kansas City fue de 7 victorias y 9 derrotas.) Compare su predicción con
el porcentaje real de juegos ganados por Kansas City.

7. Un gerente de ventas obtuvo los siguientes datos sobre ventas anuales (Annual Sales) y años de
experiencia (Years ofExperience) de 10 vendedores (Salesperson).

Years of Annual Sales


Salesperson Experience ($1000s)
1 1 80
2 3 97
3 4 92
DATADll 4 4 102
Sales 5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136

a) Con estos datos, trace un diagrama de dispersión tomando como variable independiente los
años de experiencia.
b) Obtenga una ecuación de regresión estimada que pueda utilizarse para predecir las ventas
anuales proporcionando los años de experiencia.
e) Utilice la ecuación de regresión estimada para predecir las ventas anuales de un vendedor
con 9 años de experiencia.

8. El estudio en línea Broker Survey de la American Association of Individual Investors (AAII )


encuesta a sus miembros sobre su experiencia con corredores o brókers de descuento. Como
parte de la encuesta se les pregunta a los socios acerca de la velocidad de ejecución de su corre-
dor (speed) así como sobre la satisfacción general con transacciones electrónicas (satisfaction).
Las posibles respuestas eran sin opinión (0), insatisfecho (1 ), poco satisfecho (2), satisfecho (3)
y muy satisfecho (4). Se calcularon las calificaciones de cada bróker como promedios pon-
derados de las calificaciones de los encuestados. A continuación se presenta una parte de los
resultados de la encuesta (sitio web de la AAII, 7 de febrero de 2012).

Brokerage Speed Satisfaction


Scottrade, Inc. 3.4 3.5
Charles Schwab 3.3 3.4
DATA. Fidelity Brokerage Services 3.4 3.9
BrokerRatings TD Ameritrade 3.6 3.7
E*Trade Financial 3.2 2.9
Vanguard Brokerage Services 3.8 2.8
USAA Brokerage Services 3.8 3.6
Thinkorswim 2.6 2.6
Wells Fargo lnvestments 2.7 2.3
Interactive Brokers 4.0 4.0
Zecco.com 2.5 2.5
14.2 Método de mínimos cuadrados 603

a) Elabore un diagrama de dispersión para estos datos, utilizando como variable indepen-
diente la velocidad de ejecución (speed).
b) ¿Qué le indica el diagrama de dispersión que elaboró en el punto anterior sobre la relación
entre las dos variables?
e) Determine la ecuación de regresión estimada usando el método de mínimos cuadrados.
á) Proporcione una interpretación de la pendiente de la ecuación de regresión estimada.
e) Suponga que la empresa Zecco.com ha desarrollado un nuevo software para incrementar su
velocidad de ejecución. Si este software fuera capaz de incrementar dicha velocidad de 2.5
al valor medio de velocidad de las otras 10 firmas de corretaje evaluadas, ¿qué predeciría
en relación con la calificación de satisfacción general?

9. Las empresas en el mercado estadounidense de alquiler de automóviles varian mucho en el


tamaño de su flotilla, cantidad de ubicaciones e ingresos anuales. En 2011, Hertz contaba con
320 000 automóviles en servicio y sus ingresos anuales rondaron los 4 200 millones de dólares.
Los siguientes datos muestran la cantidad de automóviles en servicio (en miles) y los ingresos
anuales (en millones de dólares) para seis empresas pequeñas que rentan automóviles (sitio
web de Auto Renta[ News , 7 de agosto de 2012).

Ingresos
Empresa Automóviles (miles) (millones de dólares)

U-Save Auto Rental System, Inc. 11.5 118


Payless Car Rental System, Inc. 10.0 135
ACE Rent A Car 9.0 100
Rent-A-Wreck of America 5.5 37
Triangle Rent-A-Car 4.2 40
Affordable/ Sensible 3.3 32

a) Trace un diagrama de dispersión con la cantidad de automóviles en servicio como variable


independiente.
b) ¿Qué le indica el diagrama que elaboró en el inciso anterior sobre la relación entre las dos
variables?
e) Utilice el método de mínimos cuadrados para desarrollar la ecuación de regresión estimada.
á) Estime el cambio en el ingreso anual por cada automóvil adicional que se pone en servicio.
e) Fox Rent A Car tiene 11000 automóviles en servicio. Utilice la ecuación de regresión
estimada que desarrolló en el inciso e) para predecir sus ingresos anuales.

10. El 31 de marzo de 2009, las acciones de Ford Motor Company se negociaban en un mínimo
histórico de $2.63 en 26 años. El consejo de administración de la empresa le ofreció a su CEO
un paquete de opciones y acciones restringidas con un valor estimado de 16 millones de dóla-
res. Para el 26 de abril de 2011, el precio de las acciones de Ford había incrementado a $15.58
y el paquete de gratificación del CEO tenía un valor de $202.8 millones, con una ganancia de
$186.8 millones. La siguiente tabla muestra el precio de las acciones en 2009 y 2011 (Stock
Price) de 10 empresas y el paquete de gratificación de acciones que se les ofreció a los CEO a
finales de 2008 y 2009 (Options and Grants Value), así como el valor de este paquete en 2011.
También se presenta el incremento porcentual en el precio de las acciones (lncrease in stock
Price) y las ganancias porcentuales del valor de las acciones (Gain in options value) (The Wall
Street Joumal, 27 de abril de 2011).
a) Con estos datos elabore un diagrama de dispersión utilizando como variable independiente
el incremento porcentual en el precio de las acciones (lncrease in Stock Price).
b) · ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Obtenga la ecuación de regresión estimada por mínimos cuadrados.
604 Capítulo 14 Regresión lineal simple

Options Options
and and
Stock Stock % Grants Grants % Gain
Price Price Increase Value Value in
2009 2011 in Stock 2009 2011 Options
Company ($) ($) Price ($ millions) ($ millions) Value
FordMotor 2.63 15.58 492 16.0 202.8 1168
DATA. Abercrornbie & Fitch 23.80 70.47 196 46.2 196.1 324
Nabors Industries 9.99 32.06 221 37.2 132.2 255
CEOGrants
Starbucks 9.99 32.06 221 12.4 75.9 512
Salesforce.corn 32.73 137.61 320 7.8 67.0 759
Starwood Hotels 12.70 60.28 375 5.8 57.1 884
Caterpillar 27.96 111.94 300 4.0 47.5 1088
Oracle 18.07 34.97 94 61.9 97.5 58
Capital One 12.24 54.61 346 6.0 40.6 577
Dow Chernical 8.43 39.97 374 5.0 38.8 676

d) Proporcione una interpretación a la pendiente de la ecuación de regresión estimada.


e) ¿Las recompensas ofrecidas a los CEO se basan en incrementos de desempeño medidos
por el precio de las acciones?

11 . Con el fin de ayudar a los compradores a elegir una computadora laptop, Consumer Reports
asigna una calificación general para el producto que prueba con base en factores como er-
gonomía, portabilidad, desempeño, pantalla y duración de la batería. Una calificación general
alta indica mejores resultados en la prueba. Los siguientes datos muestran el precio promedio
de venta (Price $) y la calificación general (Overall Score) de diez modelos de 13 pulgadas
(Brand & Model) (sitio web de Consumer Reports, 25 de octubre de 2012).

Price Overall
Brand & Model ($) Seo re

Sarnsung Ultrabook NP900X3C-A01 US 1250 83


Apple MacBook Air MC965LIJA 1300 83
DATA. Apple MacBook Air MD231LIJA 1200 82
Computer HP ENVY 13-2050nr Spectre XT 950 79
Sony VAIO SVS13112FXB 800 77
Acer Aspire 55-391-9880 Ultrabook 1200 74
Apple MacBook Pro MDlOlLIJA 1200 74
Apple MacBook Pro MD3 l 3LL/A 1000 73
Dell Inspiren Il3Z-6591SLV 700 67
Sarnsung NP535U3C-A01 US 600 63

a) Trace un diagrama de dispersión, con el precio corno variable independiente.


b) ¿Qué le indica el diagrama del inciso anterior sobre la relación entre las dos variables?
e) Utilice el método de mínimos cuadrados para desarrollar una ecuación de regresión es-
timada.
d) Interprete la pendiente de la ecuación de regresión estimada.
e) Otra de las computadoras probadas por Consumer Reports es laAcer Aspire 53-951-6646
Ultrabook, con un precio de $700. Prediga la calificación general para esta computadora
mediante la ecuación de regresión estimada que desarrolló en el inciso e).
14.2 Método de mínimos cuadrados 605

12. Concur Technologies, Inc. es una empresa grande de gestión de gastos con sede en Redmond,
Washington. The Wall Street Joumal le pidió a Concur evaluar los datos de 8.3 millones de
reportes de gastos para conocer más acerca de los gastos en viajes de negocios. El análisis
de los datos mostró que Nueva York era la ciudad más cara, con una tarifa promedio de hotel de
198 dólares por día y un gasto promedio en entretenimiento de 12 dólares, incluyendo comidas
en grupo y boletos para espectáculos, deportes y otros eventos. En comparación, los prome-
dios en Estados Unidos para estas dos categorías son $89 por tarifa diaria de hotel y $99 para
entretenimiento. La siguiente tabla contiene las tarifas promedio de los hoteles (Room Rate)
y la cantidad que se gasta en entretenimiento (Entertainment) para una muestra de 9 de las 25
ciudades más visitadas de Estados Unidos (The Wall Street Joumal, 18 de agosto de 2011).

RoomRate Entertainment
City ($) ($)
Boston 148 161
Denver 96 105
DATA. Nashville 91 101
New Orleans 110 142
BusinessTravel Phoenix 90 100
San Diego 102 120
San Francisco 136 167
San fose 90 140
Tampa 82 98

a) Con estos datos, elabore un diagrama de dispersión utilizando como variable independiente
la tarifa de hotel (Room Rate).
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso a) sobre la relación entre
las dos variables?
e) Desarrolle la ecuación de regresión estimada de mínimos cuadrados.
d) Proporcione una interpretación a la pendiente de la ecuación de regresión estimada.
e) La tarifa promedio de hotel en Chicago es de $128, considerablemente más alta que el
promedio nacional. Prediga el gasto por entretenimiento por día para Chicago.
13. Para el Interna! Revenue Service (Servicio de Administración Tributaria de Estados Unidos),
el carácter razonable de las deducciones declaradas por un contribuyente depende de su ingre-
so bruto ajustado. Deducciones grandes que incluyen donaciones de caridad o por atención
médica son más apropiadas para contribuyentes con un ingreso bruto ajustado grande. Si las
deducciones de una persona son mayores que las deducciones declaradas promedio correspon-
dientes a un determinado nivel de ingresos, incrementan las posibilidades de que se le realice
una auditoría. Los datos (en miles de dólares) sobre ingreso bruto ajustado y el monto promedio
o razonable de deducciones declaradas se listan a continuación.

Ingreso bruto ajustado Monto razonable de las deducciones


(miles de dólares) declaradas (miles de dólares)
22 9.6
27 9.6
32 10.l
48 11.l
65 13.5
85 17.7
120 25.5

a) Con estos datos, trace un diagrama de dispersión empleando como variable independiente
el ingreso bruto ajustado.
b) Use el método de mínimos cuadrados para desarrollar la ecuación de regresión estimada.
e) Calcule el monto razonable de deducciones declaradas de un contribuyente cuyo ingreso
bruto ajustado es de $52 500. Si éste tiene deducciones declaradas por $20 400, ¿se justifica
una auditoría? Explique.
606 Capítulo 14 Regresión lineal simple

14. Un hospital grande de la ciudad llevó a cabo un estudio para investigar la relación entre el
número de días de ausencia no autorizada de sus empleados y la distancia (en millas) entre su
hogar y el trabajo. Se recabó la siguiente información de una muestra de 10 empleados:

Distancia al trabajo Número de días


(millas) de ausencia

8
2 5
4 8
6 7
8 6
10 3
12 5
14 2
14 4
18 2

a) Trace un diagrama de dispersión para estos datos. ¿Parece existir una relación lineal razo-
nable? Explique.
b) Desarrolle la ecuación de regresión estimada de mínimos cuadrados que relaciona la dis-
tancia al trabajo con el número de días de ausencia.
e) Prediga el número de días de ausencia para un empleado que vive a 5 millas del hospital.

8 Coeficiente de determinación
En el ejemplo de Armand's Pizza Parlors, para aproximar la relación lineal entre el tamaño
de la población de estudiantes x y las ventas trimestrales y se desarrolló la ecuación de regre-
sión estimada y = 60 + 5x. Ahora la pregunta es: ¿qué tan bien se ajusta a los datos la ecuación
de regresión estimada? En esta sección se muestra que el coeficiente de determinación propor-
ciona una medida de la bondad de ajuste para la ecuación de regresión estimada.
A la diferencia que existe en la observación i-ésima entre el valor observado de la variable
dependiente, Y;, y el valor estimado de la variable dependiente, Y;· se le llama residual i-ésimo.
Éste representa el error que existe al usar Y; para estimar Y;- Por lo tanto, para la observación
i-ésima el residual es Y; - Y;· La suma de los cuadrados de estos residuales o errores es la
cantidad que se minimiza empleando el método de núnimos cuadrados. Esta cantidad, también
conocida como suma de cuadrados debido al error, se denota como SCE.

SUMA DE CUADRADOS DEBIDO AL ERROR

SCE = L(Y; - y¡)2 (14.8)

El valor de la SCE es una medida del error al utilizar la ecuación de regresión estimada para
calcular los valores de la variable dependiente de la muestra.
En la tabla 14.3 se indican los procedimientos que se requieren para calcular la suma
de cuadrados debido al error en el caso de Armand's Pizza Parlors. Por ejemplo, los valores de
·las variables independiente y dependiente del restaurante 1 son x 1 = 2 y y 1 = 58. El valor
14.3 Coeficiente de determinación 607

TABlA 14.3 Cálculo de la suma de cuadrados debido al error para el ejemplo de Armand's
Pizza Parlors

X¡ = Población Y;= Ventas Ventas Error


Restaurante de estudiantes trimestrales predichas Error al cuadrado
(miles) (miles de dólares) J; = 60 + Sx¡ Y; -y¡ (y¡ - y¡)2
2 58 70 -12 144
2 6 105 90 15 225
3 8 88 100 -12 144
4 8 118 100 18 324
5 12 117 120 -3 9
6 16 137 140 -3 9
7 20 157 160 -3 9
8 20 169 160 9 81
9 22 149 170 -21 441
10 26 202 190 12 144
SCE = 1530

predicho de sus ventas trimestrales obtenido con la ecuación de regresión estimada es y1 = 60 +


5(2) = 70. Por consiguiente, para el restaurante 1 el error al usar y1 para estimar y 1 es y 1 -
y1 = 58 - 70 = -12. El error al cuadrado, (-12)2 = 144, aparece en la última columna de
la tabla 14.3. Después de calcular y elevar al cuadrado los residuales de cada uno de los res-
taurantes de la muestra, se suman y obtenemos que SCE = 1 530. Por lo tanto, esta suma mide
el error que existe al utilizar la ecuación de regresión estimada y = 60 + 5x para predecir las
ventas.
Ahora suponga que se le solicita una estimación de las ventas trimestrales sin conocer el
tamaño de la población de estudiantes. Sin conocer ninguna otra variable relacionada, se em-
plearía la media muestral como una estimación de las ventas trimestrales de cualquiera de los
restaurantes. En la tabla 14.2 se mostró que, con base en los datos de las ventas, LY; = 1300.
Así, el valor medio de las ventas trimestrales en la muestra de los 10 restaurantes Arrnand's
es y = Ly¡/n = 1300/10 = 130. En la tabla 14.4 se presenta la suma de las desviaciones al
cuadrado que se obtiene cuando se usa la media muestral y = 130 para estimar el valor de las
ventas trimestrales de cada uno de los restaurantes. Para el restaurante i-ésimo de la muestra, la
diferencia Y; - y proporciona una medida del error que implica usar y para predecir las ventas.
La correspondiente suma de cuadrados, que se llama suma total de cuadrados, se denota STC.

TABlA 14.4 Cálculo de la suma total de cuadrados para el ejemplo de Armand's Pizza Parlors

X¡ =
Población Y;= Ventas Desviación
Restaurante de estudiantes trimestrales Desviación al cuadrado
(miles) (miles de dólares) Y; -y (y¡ - J)2
1 2 58 -72 5184
2 6 105 -25 625
3 8 88 -42 1764
4 8 118 -12 144
5 12 117 -13 169
6 16 137 7 49
7 20 157 27 729
8 20 169 39 1521
9 22 149 19 361
10 26 202 72 5184
STC = 15730
608 Capítulo 14 Regresión lineal simple

SUMA TOTAL DE CUADRADOS

STC = 2:(y¡ - y) 2 (14.9)

La cifra debajo de la última columna de la tabla 14.4 es la suma total de cuadrados en el


ejemplo de Armand's Pizza Parlors; ésta es STC = 15 730.
Como la STC = 15730 y En la figura 14.5 se indica la línea de regresión estimada y= 60 + 5x y la línea correspon-
la SCE = 1 530, la línea de diente a y = 130. Observe que los puntos se agrupan de manera más cerrada en tomo a la recta
regresión estimada se ajusta de regresión estimada que en tomo a la línea y = 130. Por ejemplo, vemos que para el décimo.
mucho mejor a los datos que
la línea y = y.
restaurante de la muestra, el error es mucho mayor cuando se usa y = 130 para predecir y 10
que cuando se utiliza j/10 = 60 + 5(26) = 190. Se puede entender la STC como una medida de
cuánto se agrupan las observaciones en tomo a la línea y, y la SCE como una medida de cuánto
se agrupan las observaciones en tomo a la línea y.
Para medir cuánto se desvían de y los valores y en la línea de regresión, se calcula otra
suma de cuadrados, la cual se llama suma de cuadrados debido a la regresión, que se denota
con SCR.

SUMA DE CUADRADOS DEBIDO A LA REGRESIÓN

SCR = L(Y; - y) 2 (14.10)

FIGURA 14.5 Desviaciones respecto a la línea de regresión estimada y a la línea y = y para


el ejemplo de Armand's Pizza Parlors

220

,-, 200 Y10 -


.
Y10
{.
•. ~
"'
Q,I

"'=
:Q
180
'e
Q,I
'e
160 'J}.
• ·"'
~"" 5'10 -y
Y10 - y
~ )( ~··,.,.,··
"'
Q,I
::: 140 i""'" ··' •
e
'-'
•. ""~

120 ~ y=y=130
~
"'
Q,I
• r
fl

:: 100 • ,-'.,,.,.
"'
Q,I
. ,,,,...

b 80 +'
• ';>'- •
·"
...."'= 60 '-

=
Q,I

> 40

20
X
o 2 4 6 8 10 12 14 16 18 20 22 24 26

Población de estudiantes (miles)


14.3 Coeficiente de determinación 609

Con base en lo que se expresó, se esperaría que existiera alguna relación entre STC, SCR y
SCE. En efecto, la relación entre estas tres sumas de cuadrados constituye uno de los resultados
más importantes de la estadística.

RELACIÓN ENTRE STC, SCR Y SCE

La SCR puede entenderse STC = SCR + SCE ( 14. 11)


como la parte explicada
de la STC, y la SCE puede donde
entenderse como la parte
no explicada de la STC.
STC = suma total de cuadrados
SCR = suma de cuadrados debido a la regresión

SCE = suma de cuadrados debido al error

La ecuación (14.11) indica que la suma total de cuadrados puede dividirse en dos componen-
tes: la suma de cuadrados debido a la regresión y la suma de cuadrados debido al error. Por
consiguiente, si se conocen los valores de dos de estas sumas, es fácil calcular la tercera suma
de cuadrados. Por ejemplo, en el caso de Armand's Pizza Parlors se conocen SCE = 1530 y
STC = 15730; por lo tanto, al despejar SCR en la ecuación (14.11), se encuentra que la suma de
cuadrados debido a la regresión es

SCR = STC - SCE = 15730 - 1530 = 14200

Ahora se verá cómo se usan estas tres sumas de cuadrados, STC, SCR y SCE, para obtener
una medida de la bondad de ajuste de la ecuación de regresión estimada. Esta ecuación se
ajustaría perfectamente a los datos si cada uno de los valores de la variable dependiente Y; se en-
contrara sobre la línea de regresión. En este caso, para todas las observaciones se tendria que
y¡ - Y¡ seria igual a O, con lo que SCE = O. Como STC = SCR + SCE, vemos que para que haya
un ajuste perfecto, SCR debe ser igual a STC, y el cociente (SCR/STC) debe ser igual a 1. Cuando
los ajustes son malos, se tendrán valores altos para SCE. Si en la ecuación (14.11) despejamos
ésta, tenemos que SCE = STC - SCR. Por consiguiente, el valor más grande de SCE (y, por lo
tanto, el ajuste más pobre) se presenta cuando SCR = O y SCE = STC.
El cociente SCR/STC, que puede tomar valores entre O y 1, se usa para evaluar la bondad de
ajuste de la ecuación de regresión estimada. A este cociente se le llama coeficiente de determi-
nación y se denota como r 2 .

COEFICIENTE DE DETERMINACIÓN

SCR
r 2 =-- (14.12)
STC

En el ejemplo de Armand's Pizza Parlors, el valor del coeficiente de determinación es

r2 = SCR = 14200 = 0. 9027


STC 15730
610 Capítulo 14 Regresión lineal simple

Cuando el coeficiente de detenninación se expresa en forma de porcentaje, r 2 se puede in-


terpretar como el porcentaje de la suma total de cuadrados que se explica mediante el uso de
la ecuación de regresión estimada. En el ejemplo de Arrnand's Pizza Parlors se concluye que
90.27% de la suma total de cuadrados se explica utilizando la ecuación de regresión estimada
y = 60 + 5x para predecir las ventas trimestrales. En otras palabras, 90.27% de la variabilidad
en las ventas se explica por la relación lineal que existe entre éstas y el tamaño de la pobla-
ción de estudiantes. Sería satisfactorio encontrar un buen ajuste para la ecuación de regresión
estimada.

Coeficiente de correlación
En el capítulo 3 se presentó el coeficiente de correlación como una medida descriptiva de la
intensidad de la relación lineal entre dos variables x y y. Los valores del coeficiente de corre-
lación siempre estarán entre -1 y + 1. Un valor de + 1 indica que las dos variables x y y están
perfectamente relacionadas en un sentido lineal positivo. Es decir, todos los puntos de datos se
encuentran en una recta con pendiente positiva. Un valor de -1 indica que x y y están perfecta-
mente relacionadas en un sentido lineal negativo con todos los puntos de los datos en una recta
con pendiente negativa. Los valores del coeficiente de correlación cercanos a O indican que x y y
no se relacionan linealmente.
En la sección 3.5 se presentó la ecuación para calcular el coeficiente de correlación mues-
tral. Cuando se ha realizado un análisis de regresión y calculado el coeficiente de detennína-
ción r 2, el coeficiente de correlación muestral se puede obtener como se índica a continuación.

COEFICIENTE DE CORRELACIÓN MUESTRAL

rxy = (signo de b1)VCoeficíente de determinación


( 14.13)
= (signo de b 1)Vr2

donde

b1 = pendiente de la ecuación de regresión estimada y = b0 + b 1x

El signo del coeficiente de correlación muestral es positivo si la ecuación de regresión es-


timada tiene pendiente positiva (b 1 > 0), y es negativo sí la ecuación de regresión estimada tiene
pendiente negativa (b 1 < O).
En el ejemplo de Arrnand's Pizza Parlors, el valor del coeficiente de determinación corres-
pondiente a la ecuación de regresión estimada y = 60 + 5x es 0.9027 . Como la pendiente de
esta ecuación es positiva, la ecuación (14.13) indica que el coeficiente de correlación mues-
tral es + V0.9027 = +0.9501. Con este coeficiente rxy = +0.9501, concluimos que existe una
fuerte relación lineal positiva entre x y y.
En el caso de una relación lineal entre dos variables, tanto el coeficiente de determinación
como el coeficiente de correlación muestral proporcionan medidas de la fuerza de la relación.
El primero provee una medida entre O y 1, mientras que el segundo proporciona una medida en-
tre - 1 y + 1. Aunque el coeficiente de correlación muestral está restringido a la relación lineal
entre dos variables, el coeficiente de detenninación puede emplearse para relaciones no lineales
y para otras en las que hay dos o más variables independientes. Por lo tanto, ofrece un rango de
aplicación más amplio.
14.3 Coeficiente de determinación 611

l. Al desarrollar la ecuación de regresión estimada debe basarse en consideraciones que implican el


mediante el método de mínimos cuadrados y calcu- tamaño de la muestra y las propiedades de la dis-
lar el coeficiente de determinación, no se planteó tribución de muestreo adecuada de los estimado-
ningún supuesto probabilístico acerca del ténnino res de mínimos cuadrados.
de error e; tampoco se realizó ninguna prueba es- 2. Para fines prácticos, cuando se trata de datos que
tadística de significancia para la relación entre x se manejan por lo general en las ciencias sociales,
y y. Los valores grandes de r 2 implican que la lí- valores de r 2 tan pequeños como 0.25 suelen con-
nea de mínimos cuadrados se ajusta mejor a los siderarse útiles. En datos de física o de ciencias
datos; es decir, las observaciones se encuentran de la vida suelen encontrarse valores r 2 de 0.60
más cerca de la línea de mínimos cuadrados. Sin o más, en algunos casos mayores de 0.90. En las
embargo, si se usa sólo r 2 no se pueden formular aplicaciones de negocios, los valores de r 2 varían
conclusiones acerca de si la relación entre x y y enormemente dependiendo de las características
es estadísticamente significativa. Tal conclusión de cada aplicación.

Métodos
15. Los siguientes datos provienen del ejercicio l.
AUTO é:Valuacióri
. ' ~ . f- ;,,.
2 3 4 5
7 5 11 14

La ecuación de regresión estimada para estos datos es y = 0.20 + 2.60x.


a) Calcule las SCE, STC y SCR con ayuda de las ecuaciones (14.8), (14.9) y (14.10).
b) Calcule el coeficiente de determinación r 2 . Comente acerca de la bondad de ajuste.
e) Determine el coeficiente de correlación muestra!.
16. Los datos que se presentan a continuación provienen del ejercicio 2.

12 6 20 14
40 55 10 15

La ecuación de regresión estimada para estos datos es y = 68 - 3x.


a) Calcule las SCE, STC y SCR.
b) Calcule el coeficiente de determinación r 2 . Comente acerca de la bondad de ajuste.
e) Determine el coeficiente de correlación muestra!.
17. Los datos que se presentan a continuación provienen del ejercicio 3.

6 9 13 20
18 9 26 23

La ecuación de regresión estimada para estos datos es y = 7.6 + 0.9x. ¿Qué porcentaje de la
suma total de cuadrados puede explicarse mediante esta ecuación? ¿Cuál es el valor del coe-
ficiente de correlación muestra!?

Aplicaciones
18. Los siguientes datos muestran la marca, el precio($) y la calificación general para seis audí-
AUTO fonos estéreo evaluados por Consumer Reports (sitio web de Consumer Reports, 5 de marzo
de 2012). La calificación general se basa en la calidad del sonido con base en la eficacia en
la reducción de ruido . Las calificaciones van de O (la menor) a 100 (la mayor). La ecuación
de regresión estimada para estos datos es y = 23.194 + 0.318x, donde x + precio($) y
y = calificación general.
612 Capítulo 14 Regresión lineal simple

Marca Precio($) Calificación


Bose 180 76
Skullcandy 150 71
Koss 95 61
Phillips/O'Neill 70 56
Denon 70 40
NC 35 26

a) Calcule las SCE, STC y SCR.


b) Calcule el coeficiente de determinación r 2 . Comente acerca de la bondad de ajuste.
e) ¿Cuál es el valor del coeficiente de correlación de la muestra?

19. En el ejercicio 7 un gerente de ventas obtuvo los siguientes datos sobre x = ventas anuales (An-
nual Sales) y y = años de experiencia (Years of Experience) de 1O vendedores (Salesperson).
La ecuación de regresión estimada para estos datos es y = 80 + 4x.

Annual
Years of Sales
Salesperson Experience ($1000s)
1 1 80
2 3 97
DATA. 3
4
4
4
92
102
Sales 5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136

a) Calcule las SCE, STC y SCR.


b) Calcule el coeficiente de determinación r2 • Comente acerca de la bondad de ajuste.
e) ¿Cuál es el valor del coeficiente de correlación muestra!?

20. La revista líder de ciclismo Bicycling revisa cientos de bicicletas al año. Su sección "Road-
Race" contiene revisiones de bicicletas principalmente de carreras. Uno de los factores más
importantes en la selección de una bicicleta de carreras es el peso de la misma. Los siguientes
datos contienen el peso en libras (weight) y el precio (price $) de 10 marcas (brands) de las
bicicletas revisadas por la revista (sitio web Bicycling, 8 de marzo de 2012).

Brand Weight Price ($)


FELTF5 17.8 2100
PINARELLO París 16.1 6250
ORBEA Orca GDR 14.9 8370
EDDY MERCKX EMX-7 15.9 6200
BH RCl Ultegra 17.2 4000
RacingBicycles
BH Ultralight 386 13.1 8600
CERVELO S5 Tearn 16.2 6000
GIANT TCR Advanced 2 17.1 2580
WILIER TRIESTINA Gran Turismo 17.6 3400
SPECIALIZED S-Works Amira SL4 14.1 8000
14.3 Coeficiente de determinación 613

a) Utilice los datos para determinar la ecuación de regresión estimada para saber el precio de
una bicicleta cuando se conoce su peso.
b) Calcule r 2 . ¿La ecuación de regresión estimada tiene bondad de ajuste?
e) Prediga el precio de una bicicleta que pesa 15 libras.

21. Una aplicación importante del análisis de regresión en la contaduría es la estimación de costos.
A partir de datos sobre volumen de producción y costos, y empleando el método de mínimos
cuadrados para desarrollar una ecuación de regresión estimada que relacione ambos datos, un
contador puede calcular los costos correspondientes a un determinado volumen de producción.
Considere la siguiente muestra de datos sobre volumen de producción y costo total de una
operación de manufactura.

Volumen de producción (unidades) Costo total ($)


400 4000
450 5000
550 5400
600 5900
700 6400
750 7000

a) Utilice estos datos para determinar la ecuación de regresión estimada útil, a efecto de pro-
nosticar el costo total dado un volumen de producción determinado.
b) ¿Cuál es el costo variable por unidad producida?
e) Calcule el coeficiente de determinación. ¿Qué porcentaje de la variación en el costo total
puede explicarse por el volumen de producción?
á) Con base en el programa de la empresa, el mes próximo se deberán producir 500 unidades.
Prediga el costo total de esta operación.

22. Remítase al ejercicio 9, en el que se usaron los siguientes datos para investigar la relación entre
la cantidad de automóviles en servicio (en miles) y los ingresos anuales (en millones de dóla-
res) para seis empresas pequeñas de alquiler de automóviles (sitio web de Auto Rental News, 7
de agosto de 2012).

Automóviles Ingresos
Empresa (miles) (millones de dólares)

U-Save Auto Renta! System, loe. 11.5 118


Payless Car Renta! System, loe. 10.0 135
ACE Rent A Car 9.0 100
Rent-A-Wreck of America 5.5 37
Triangle Rent-A-Car 4.2 40
Affordable/Sensible 3.3 32

Con x = automóviles en servicio (en miles) y y= ingresos anuales (en millones de dólares), la
ecuación de regresión estimada es y= -17.005 + 12.966x. Para estos datos, SCE = 1043.03.
a) Calcule el coeficiente de determinación r2.
b) ¿La ecuación de regresión estimada proporciona un buen ajuste? Explique.
e) ¿Cuál es el valor del coeficiente de correlación muestra!? ¿Refleja una relación débil o
fuerte entre el número de automóviles en servicio y los ingresos anuales?
614 Capítulo 14 Regresión lineal simple

8 Supuestos del modelo


En un análisis de regresión se comienza por formular un supuesto acerca del modelo apropiado
para la relación entre las variables dependientes e independientes. En el caso de la regresión
lineal simple, se supone que el modelo de regresión es

y = {3 0 + {3 1x + E
Después, si se utiliza el método de rrúnimos cuadrados, se obtienen los valores de b0 y b 1, que
son las estimaciones de los parámetros del modelo /3 0 y /3 1, respectivamente. Así se llega a la
ecuación de regresión estimada

Como se vio, el valor del coeficiente de determinación (r 2) es una medida de la bondad de


ajuste de la ecuación de regresión estimada. Sin embargo, aun cuando se obtenga un valor
grande para r 2 , la ecuación de regresión estimada no debe aplicarse sino hasta que se realice
un análisis para determinar si el modelo que se empleó es apropiado. Un paso importante para
ver si el supuesto del modelo es adecuado consiste en probar la significancia de la relación. Las
pruebas de significancia en el análisis de regresión se basan en los siguientes supuestos acerca
del término del error E.

SUPUESTOS ACERCA DEL TÉRMINO DEL ERROR E EN EL MODELO DE REGRESIÓN

y = {3 0 + {3 1x + E
l. El término del error E es una variable aleatoria cuya media, o valor esperado, es
cero; es decir, E( E) = O.
Implicación. /3 0 y /3 1 son constantes, por lo tanto, E( /3 0) = /3 0 y E( /3 1) = /3 1; así,
para un valor dado de x, el valor esperado de y es

E(y) = f3o + f31x (14.14)

Como ya se indicó, a la ecuación (14.14) se le conoce como ecuación de re-


gresión.
2. La varianza de e, que se denota con a 2 , es la misma para todos los valores de x.
Implicación. La varianza de y respecto de la recta de regresión es igual a a 2 y es
la misma para todos los valores de x.
3. Los valores de e son independientes.
Implicación . El valor de e correspondiente a un determinado valor de x no se re-
laciona con el valor de e para cualquier otro valor de x; por lo tanto, el valor de y
correspondiente a un valor particular de x no se relaciona con el valor de y de
ningún otro valor de x.
4. El término del error e es una variable aleatoria distribuida normalmente.
Implicación. Como y es una función lineal de e, también y es una variable alea-
toria distribuida normalmente.

En la figura 14.6 se ilustran los supuestos del modelo y sus implicaciones; observe que en
esta interpretación gráfica el valor de E(y) cambia con base en el valor específico de x que se
considere. Sin embargo, sea cual fuere el valor de x, la distribución de probabilidad de e y, por
lo tanto, la distribución de probabilidad de y, son distribuciones normales que tienen todas la
misma varianza. El valor específico del error e en cualquier punto depende de si el valor real de
y es mayor o menor que E(y).
14.5 Prueba de significancia 615

FIGURA 14.6 Supuestos para el modelo de regresión

Distribución de y
Distribución de y enx = 30
en x = 20
y

E(y) cuando
X= lQ

E(y) cuando
x=O
~/30

x=O

\
E(y)cuando E(y) = /3 0 = f3 1x
X= 30

Nota: Las distribuciones y tienen la misma


forma para cada uno de los valores de x.

En este punto hay que considerar que también se está formulando un supuesto o una hipó-
tesis acerca de la forma de la relación entre x y y. Es decir, se supone que la base de la relación
entre las variables es una recta representada por /3 0 + f3 1x. No se debe perder de vista el he-
cho de que puede haber otro modelo, por ejemplo y = (3 0 + {3 1x 2 + E, que resulte mejor para
la relación subyacente.

§ Prueba de significancia
En una ecuación de regresión lineal simple, la media o valor esperado de y es una función lineal
de x: E(y) = (3 0 + /3 1x. Pero si el valor de /3 1 es cero, E(y) = /3 0 + (O)x = /3 0 . En este caso, el
valor medio de y no depende del valor de x y, por lo tanto, podernos concluir que x y y no se
relacionan linealmente. Asimismo, si el valor de /3 1 es distinto de cero, se concluirá que las dos
variables están relacionadas. Así, para probar si existe una relación significativa de regresión,
se debe realizar una prueba de hipótesis a efecto de determinar si el valor de (3 1 es distinto de
cero. Existen dos pruebas que son las más usuales. En ambas se requiere una estimación de a 2 ,
la varianza de E en el modelo de regresión.

Estimación de u2
Con base en el modelo de regresión y sus supuestos podemos concluir que a 2 , la varianza de E,
representa también la varianza de los valores de y respecto de la línea de regresión. Recuer-
de que a las desviaciones de los valores de y respecto de la línea de regresión estimada se les
conoce como residuales. Por lo tanto, SCE, la suma de los cuadrados de los residuales, es una
medida de la variabilidad de las observaciones reales respecto de la línea de regresión estimada.
616 Capítulo 14 Regresión lineal simple

El error cuadrado medio (ECM) proporciona una estimación de a 2 ; esta estimación es de la


SCE dividida entre sus grados de libertad.
Como Y; = ba + b 1x;. SCE se puede expresar como

Cada suma de cuadrados está asociada con un número llamado grados de libertad. Los exper-
tos en estadística han demostrado que la SCE tiene n - 2 grados de libertad, porque para calcu-
larla es necesario estimar dos parámetros (/3a y /3 1). El error cuadrado medio se calcula al dividir
SCE entre n - 2. El ECM proporciona un estimador insesgado de a 2 . Como el valor del ECM
provee un estimado de a 2 , se emplea también la notación s 2.

ERROR CUADRADO MEDIO (ESTIMACIÓN DE a 2)

SCE
s2 = ECM = - - (14.15)
n - 2

En la sección 14.3 se encontró que en el ejemplo de Annand's Pizza Parlors, SCE = 1530;
por lo tanto,
1530
s2 = ECM = - - = 191.25
8

proporciona un estimador insesgado de a 2 .


Para estimar a se calcula la raíz cuadrada de s 2 . Al valor que se obtiene, s, se le conoce
como error estándar de estimación.

ERROR ESTÁNDAR DE ESTIMACIÓN

(14.16)

En el ejemplo de Annand's Pizza Parlors, s = YECM = V191.25 = 13.829. El error estándar


de estimación se emplea en el siguiente análisis acerca de las pruebas de significancia de la
relación entre x y y.

Prueba t
El modelo de regresión lineal simple es y = f3a + f3 1x + E. Si x y y se relacionan linealmente,
*
entonces /3 1 O. El objetivo de la prueba tes determinar si se puede concluir que {3 1 i:- O. Para
probar la hipótesis siguiente acerca del parámetro /3 1 se emplearán los siguientes datos mues-
trales.

Ha: /31 =O
H,:/3 1 i:-O
*
Si Ha es rechazada, se concluirá que /3 1 O y que entre las dos variables existe una relación
estadísticamente significativa. Si Ha no es rechazada, habrá evidencia insuficiente para concluir
que existe esta relación significativa. La base para esta prueba de hipótesis la proporcionan las
propiedades de la distribución de muestreo de b1, el estimador de /3 1 obtenido mediante el mé-
todo de mínimos cuadrados.
14.5 Prueba de significancia 617

Primero, considere qué ocurriría si para el mismo estudio de regresión se usara una mues-
tra aleatoria diferente. Suponga, por ejemplo, que Armand's Pizza Parlors usa los registros de
ventas de una muestra diferente de 10 restaurantes. El análisis de regresión de esta otra mues-
tra dará como resultado una ecuación de regresión similar a la ecuación de regresión anterior
y = 60 + 5x. Sin embargo, no puede esperarse que se obtenga exactamente la misma ecuación
(una ecuación en la que exactamente la intersección con el eje y sea 60 y la pendiente sea 5).
Los estimadores b0 y bl> que se obtienen con el método de mínimos cuadrados, son estadísticos
muestrales que tienen su propia distribución de muestreo. A continuación se presentan las pro-
piedades de la distribución de muestreo de b 1•

DISTRIBUCIÓN DE MUESTREO DE b 1

Valor esperado

E(b 1) = {3 1
Desviación estándar

( 14.17)

Forma de distribución
Normal

Observe que el valor esperado de b 1 es igual af3 1, por lo que b 1 es un estimador insesgado de {3 1•
Como no se conoce el valor de a , se obtiene una estimación de ab,1 que se denota sb,1 esti-
mando a mediantes en la ecuación (14.17). De esta manera obtenemos el siguiente estimador
de ab 1.

A la desviación estándar DESVIACIÓN ESTÁNDAR ESTIMADA DE b 1


de b 1 se le conoce también
como error estándar s
de b 1• Así, sb, proporciona s = ---;:::==== (14.18)
b¡ V2.(x¡ - :x)z
una estimación del error
estándar de b 1•

En el ejemplo de Armand's Pizza Parlors, s = 13.829. Por lo tanto, dado que 2.(x; - :X) 2 = 568,
como se aprecia en la tabla 14.2, tenemos
13 329
· = 0.5803
Vs68
que es la desviación estándar estimada de b 1.
La prueba t para determinar si la relación es significativa se basa en el hecho de que el
estadístico de prueba

sigue una distribución t con n - 2 grados de libertad. Si la hipótesis nula es verdadera, entonces
{3 1 = Ü y t = b 1/sb.1
Ahora se realizará esta prueba de significancia con los datos de Armand's Pizza Parlors,
empleando como nivel de significancia a = 0.01. El estadístico de prueba es

5
t = .!!i_ = - - = 8.62
sb 1 0.5803
618 Capítulo 14 Regresión lineal simple

En los apéndices 14.3 y En las tablas de la distribución t (tabla 2 del apéndice D) encontramos que paran - 2 :::::: 10 _
14.4 se describe el uso de
2 = 8 grados de libertad, t = 3.355 proporciona un área de 0.005 en la cola superior. Por
Minitab y de &:cel para 1
calcular el valor-p.
tanto, el área en la cola superior de la distribución t correspondiente al estadístico de prueb~
t = 8.62 debe ser menor de 0.005. Como esta es una prueba de dos colas, este valor se duplica
y concluimos que el valor-p asociado con t = 8.62 debe ser menor que 2(0.005) = 0.01. Con
ayuda de Excel o Minitab se encue~tra el valor-p =. 0.000. Dado que el valor-pes menor que
a = 0.01, H0 es rechazada y conclmmos que {3 1 es diferente de cero. Esto es suficiente eviden-
cia para asegurar que existe una relación significativa entre la población de estudiantes y las
ventas trimestrales. A continuación se presenta un resumen de la prueba t de significancia para
la regresión lineal simple.

PRUEBA t DE SIGNIFICANCIA PARA LA REGRESIÓN LINEAL SIMPLE

Ho: f31 =O
Hª: f31 *O

ESTADÍSTICO DE PRUEBA t

(14.19)

REGLA DE RECHAZO

Método del valor-p: Rechazar H0 si el valor-p ::s a


Método del valor crítico: Rechazar H0 si t ::s - ta¡2 o si t 2: tª 12

donde ta¡2 se toma de la distribución t con n - 2 grados de libertad.

Intervalo de confianza para P1


La fórmula de un intervalo de confianza para {3 1 es la siguiente:

El estimador puntual es b 1 y el margen de error ta/2 slJ,· El coeficiente de confianza para este
intervalo es 1 - a, y tª 12 es el valor t que proporciona un área a/2 en la cola superior de la
distribución t con n - 2 grados de libertad. Suponga que en el caso de Armand's Pizza Parlors
se desea obtener una estimación de {3 1 mediante un intervalo de 99% de confianza. En la tabla
2 del apéndice B encontramos que el valor t correspondiente a a = 0.01 y n - 2 = 10 - 2 =
8 grados de libertad es t 0.005 = 3.355. Por lo tanto, la estimación mediante un intervalo de
99% de confianza de {3 1 es

b 1 ::t: ta¡2 s/J 1 =5 :!: 3.355(0.5803) = 5 ::t: 1.95

o el intervalo que va de 3.05 a 6.95.


Al emplear la prueba t de significancia, las hipótesis probadas fueron

Ho: /31 =O
Hª: f31 *O

Si se utiliza a = 0.01 como nivel de significancia, se puede usar como alternativa el intervalo
de 99% de confianza para llegar a la conclusión de la prueba de hipótesis que se obtiene con l o~
datos de Armand's. Como O, que es el valor hipotético de {3 1, no está incluido en el intervalo de
confianza (3.05 a 6.95), H0 puede ser rechazada y concluimos que entre el tamaño de la población
14.5 Prueba de significancia 619

de estudiantes y las ventas trimestrales sí existe una relación estadísticamente significativa. En


general, se puede usar un intervalo de confianza para probar cualquier hipótesis de dos colas
acerca de /3 1. Si el valor hipotético de {3 1 está contenido en el intervalo de confianza, H0 no es
rechazada; de lo contrario, es rechazada.

Prueba F
Una prueba F basada en la distribución de probabilidad F también puede emplearse para probar
la significancia en la regresión. Cuando sólo se tiene una variable independiente, la prueba F
*
lleva a la misma conclusión que la prueba t; es decir, si esta t indica que /3 1 O y por lo tanto
existe una relación significativa, la prueba F también indicará que existe esta relación. Pero
cuando hay más de una variable independiente, sólo la prueba F puede usarse para probar que
existe una relación significativa general.
La lógica detrás del uso de la prueba F para determinar si la relación de regresión es
estadísticamente significativa se basa en el desarrollo de dos estimaciones independientes de a 2.
Se explicó cómo el ECM proporciona una estimación de a 2. Si la hipótesis nula H0 : /3 1 = O es
verdadera, la suma de cuadrados debido a la regresión, SCR, dividida entre sus grados de liber-
tad proporciona otra estimación independiente de a 2 . A esta estimación se le llama cuadrado
medio debido a la regresión, o simplemente cuadrado medio de la regresión, y se denota con
CMR. En general,

SCR
CMR = ~~~~~~~~~~~~~

Grados de libertad de la regresión

En los modelos que se consideran en este libro, el número de grados de libertad de la regre-
sión es siempre igual al número de variables independientes en el modelo:

CMR = SCR
~~~~~~~~~~~~~~
(14.20)
Número de variables independientes

Como en este capítulo sólo se consideran modelos de regresión con una sola variable inde-
pendiente, CMR = SCR/1 = SCR. Por lo tanto, en el ejemplo de Armand's Pizza Parlors,
CMR = SCR = 14200.
Si la hipótesis nula (H0 : {3 1 = O) es verdadera, CMR y ECM son dos estimaciones indepen-
dientes de a 2 y la distribución de muestreo de CMR/ECM sigue una distribución F en la que el
número de grados de libertad en el numerador es igual a 1 y el número de grados de libertad en
el denominador es igual a n - 2. Por consiguiente, si {3 1 = O, el valor de CMR/ECM deberá ser
*
un valor cercano a l. Pero si la hipótesis nula es falsa, (/3 1 0), CMR sobreestimará a 2 y el valor
de CMR/ECM se inflará; de esta manera, valores grandes de CMR/ECM conducirán al rechazo de
H0 y a la conclusión de que la relación entre x y y es estadísticamente significativa.
A continuación se realizará la prueba F en el ejemplo de Armand's Pizza Parlors. El esta-
dístico de prueba es

CMR 14200
F = - - = - - = 74.25
ECM 191.25

En la regresión lineal En la tabla de la distribución F (tabla 4 del apéndice B) se observa que con un grado de liber-
simple, la prueba F y la tad en el numerador y n - 2 = 10 - 2 = 8 grados de libertad en el denominador, F = 11.26
prueba t proporcionan
proporciona un área de 0.01 en la cola superior. Por lo tanto, el área en la cola superior de la
resultados idénticos.
distribución F que corresponde al estadístico de prueba F = 74.25 debe de ser menor de 0.01.
Así, concluimos que el valor-p debe de ser menor que 0.01. Si se usa Excel o Minitab se en-
cuentra que el valor-p = 0.000. Como el valor-p es menor que a = 0.01, H 0 es rechazada y
concluimos que entre el tamaño de la población de estudiantes y las ventas trimestrales existe
una relación significativa. A continuación se presenta un resumen de la prueba F de significan-
cia para la regresión lineal simple
620 Capítulo 14 Regresión lineal simple

PRUEBA F DE SIGNIFICANCIA EN EL CASO DE LA REGRESIÓN LINEAL SIMPLE


Si H0 es falsa, ECM Ho: f31 =O
proporciona una estimación
insesgada de a 2 y el CMR
H 0 : {3 1 *O
sobreestima a 2. Si H0 es
verdadera, tanto ECM como ESTADÍSTICO DE PRUEBA
CMR proporcionan una
estimación insesgada CMR
F=-- (14.21)
de a 2; en este caso el ECM
valor de CMR/ECM es
cercano a l.
REGLA DE RECHAZO

Método del valor-p: Rechazar H 0 si el valor-p ::s a


Método del valor crítico: Rechazar H 0 si F:::: Fa

donde Fª es un valor de distribución F con un grado de libertad en el numerador y n - 2


grados de libertad en el denominador.

En el capítulo 13 vimos que el análisis de varianza (ANOVA) y la tabla de ANOVA pueden


utilizarse para proporcionar una visión resumida de los cálculos que se emplean en el análisis de
varianza. Una tabla similar de ANOVA se emplea para resumir los cálculos de la prueba F de sig-
nificancia para la regresión. En la tabla 14.5 se presenta la forma general de una tabla de ANOVA
para la regresión lineal simple, y en la 14.6 la tabla de ANOVA con los cálculos para la prueba F
del ejemplo de Armand' s Pizza Parlors. Regresión, error y total son las etiquetas de las tres fuen-
tes de variación, y SCR, SCE y STC son las sumas de cuadrados correspondientes que aparecen

TABLA 14.5 Forma general de la tabla ANOVA para la regresión lineal simple
En toda tabla para el
análisis de varianza, la
suma total de cuadrados Fuente Suma de Grados Cuadrado
es la suma de la suma de de variación cuadrados de libertad medio F Valor-p
cuadrados de la regresión SCR CMR
más la suma de cuadrados Regresión SCR CMR= - - F=--
del error; además, el 1 ECM
total de los grados de SCE
Error SCE n-2 ECM=--
libertad es la suma n-2
de los grados de libertad de
Total STC n - 1
la regresión más los grados
de libertad del error.

TABLA 14.6 Tabla ANOVA para el ejemplo de Armand's Pizza Parlors

Fuente Suma de Grados Cuadrado


de variación cuadrados de libertad medio F Valor-p
14200 14200
Regresión 14200 - - = 14200 - - = 74.25 0.000
1 191.25

Error 1530 8 1 530 = 191.25


8

Total 15730 9
14.5 Prueba de significancia 621

en la columna 2. En la columna 3 se indican los grados de libertad 1 para SCR, n - 2 para SCE y
n - 1 para STC. Los valores de CMR y ECM aparecen en la columna 4, mientras que la 5 contie-
ne el valor de F = CMR/ECM, y la 6 el valor-p que corresponde al valor de F de la columna 5.
Casi todos los resultados proporcionados por computadora para el análisis de regresión inclu-
yen un resumen de la tabla ANOVA de la prueba F de significancia.

Algunas advertencias acerca de la interpretación


de las pruebas de significancia
Cuando la hipótesis nula H0 : fJ 1 = O es rechazada, determinar que la relación que existe en-
tre x y y es significativa no permite que se concluya que existe una relación de causa y efecto
entre x y y. Sólo puede concluirse que existe esta relación cuando el analista pueda proporcio-
El análisis de regresión que nar justificaciones teóricas de que, en efecto, la relación es causal. En el ejemplo de Annand's
se usa para identificar la Pizza Parlors, concluimos que existe una relación significativa entre el tamaño de la pobla-
relación entre las variables, ción de estudiantes x y las ventas trimestrales y; aún más, la ecuación de regresión estimada
no puede emplearse como
evidencia de una relación
y = 60 + Sx proporciona una estimación de la relación obtenida por el método de mínimos
de causa y efecto. cuadrados. Sin embargo, por el solo hecho de que se haya encontrado que existe una relación
estadísticamente significativa entre x y y, no podemos concluir que cambios en la población de
estudiantes x causen cambios en las ventas trimestrales y. Lo apropiado de concluir que existe
una relación de causa y efecto se deja a las justificaciones teóricas de soporte y al buen juicio
de los analistas. Los gerentes de Annand's creían que el incremento en la población de estu-
diantes probablemente fuera una causa del incremento de las ventas trimestrales. Por lo tanto,
el resultado de la prueba de significancia les permite concluir que existe una relación de causa
y efecto.
Además, el hecho de que se pueda rechazar H 0 : fJ 1 = O y demostrar que existe significan-
cia estadística no permite concluir que la relación entre x y y sea lineal. Lo único que se puede
establecer es que x y y están relacionadas y que la relación lineal explica una porción signifi-
cativa de la variabilidad de y sobre el rango de los valores de x observados en la muestra. En
la figura 14.7 se ilustra esta situación. La prueba de significancia lleva a rechazar la hipótesis
nula H0 : {3 1 = O y a la conclusión de que x y y se relacionan significantemente, pero en la figura
se observa que la verdadera relación entre x y y no es lineal. Aunque la aproximación lineal

FIGURA 14.7 Ejemplo de una aproximación lineal para una relación no lineal

Relación real ----1~,


I
I
I
I
/
/
/
/
/ y= bo + b¡X

Valor menor Valor mayor


dex dex

Rango de los valores


observados de x
622 Capítulo 14 Regresión lineal simple

proporcionada por y = b0 + b 1x es buena en el rango de los valores de x observados en la mues-


tra, se vuelve deficiente para valores de x fuera de ese rango.
Dada una relación significativa, la ecuación de regresión estimada se puede usar con
confianza para predicciones correspondientes a valores de x dentro del rango de los valores de
x observados en la muestra. En el ejemplo de Armand's Pizza Parlors, este rango corresponde a
los valores de x entre 2 y 26. A menos que existan otras razones que indiquen que el modelo es
válido más allá de este rango, las predicciones fuera del rango de la variable independiente deben
realizarse con cuidado. En el ejemplo de Armand's Pizza Parlors, como se ha encontrado que
la relación de regresión es significativa al nivel de significancia de 0.01, se puede confiar en
usarla para predecir las ventas de restaurantes en los que la población de estudiantes correspon-
diente esté en el intervalo de 2 000 a 26 000.

l. Los supuestos acerca del término del error (sec- para denotar el coeficiente de correlación pobla-
ción 14.4) permiten las pruebas de significancia cional, las hipótesis son las siguientes.
estadística de esta sección. Las propiedades de la
distribución de muestreo de b 1 y las subsiguien- Ho: Pxy =O
tes pruebas t y F se derivan directamente de estos H.: Pxy *O
supuestos.
2. No se debe confundir la significancia estadísti- Si H 0 es rechazada, podemos concluir que existe
ca con la significancia práctica. Con tamaños de una relación significativa. En el apéndice 14.2 se
muestra muy grandes se pueden obtener resulta- proporcionan los detalles de esta prueba. Sin em-
dos estadísticamente significativos para valores bargo, las pruebas t y F presentadas en esta sec-
pequeños de b 1; en tales casos hay que tener cui- ción aportan el mismo resultado que la prueba de
dado al concluir que la relación tiene significan- significancia usando el coeficiente de correlación.
cia práctica. Por consiguiente, si ya se ha realizado una prueba
3. Una prueba de significancia para la relación li- t o una prueba F, no es necesario realizar la de
neal entre x y y también se puede realizar usando significancia usando el coeficiente de correlación.
el coeficiente de correlación muestral rxy· Con Pxy

Métodos
23. A continuación se presentan los datos del ejercicio 1.
AUTO e'.valúació'n.
2 3 4 5
7 5 11 14

a) Calcule el error cuadrado medio usando la ecuación (14.15).


b) Calcule el error estándar de estimación con la ecuación (14.16).
e) Utilizando la ecuación (14.18), calcule la desviación estándar estimada de b 1.
d) Use la prueba t para probar las hipótesis siguientes (a = 0.05).

Ho: /31 = O
H.: /3 1 *O
e) Use la prueba F para probar las hipótesis del inciso d) empleando 0.05 como nivel de
significancia. Presente los resultados en el formato de tabla del análisis de varianza.
24. A continuación se presentan los datos del ejercicio 2.

12 6 20 14
X¡ 1 3
40 55 10 15
14.5 Prueba de significancia 623

a) Usando la ecuación (14.15), calcule el error cuadrado medio.


b) Calcule el error estándar de estimación usando la ecuación (14.16).
e) Con la ecuación (14.18), calcule la desviación estándar estimada de b 1.
á) Use la prueba t para probar las hipótesis siguientes (a = 0.05):

Ho: /31 =O
H.: /3 1 i= O

e) Aplique la prueba F para probar las hipótesis del inciso á) empleando 0.05 como nivel de
significancia. Presente los resultados en el formato de tabla del análisis de varianza.
25 . A continuación se presentan los datos del ejercicio 3.

6 9 13 20
18 9 26 23

a) ¿Cuál es el valor del error estándar de estimación?


b) Pruebe si existe una relación significativa utilizando la prueba t. Use a = 0.05 .
e) Utilice la prueba F para ver si existe una relación significativa. Use a = 0.05 . ¿Cuál es su
conclusión?

Aplicaciones
26. En el ejercicio 18 los datos sobre el precio($) y la puntuación total (Score) para seis auriculares
AUTO estéreo probada por Consumer Reports eran como sigue (sitio web de Consumer Reports, 5 de
marzo de 2012).

Brand Price ($) Seore


Bose 180 76
Skullcandy 150 71
Koss 95 61
Phillips/O' Neill 70 56
De non 70 40
NC 35 26

a) ¿La prueba t indica que existe una relación significativa entre el promedio y el sueldo
mensual? ¿Cuál es su conclusión? Use a = 0.05.
b) Determine si la relación es significativa usando la prueba F. ¿Cuál es su conclusión? Uti-
lice a = 0.05 .
e) Muestre la tabla de ANOVA.
27. Con la finalidad de identificar los puestos de trabajo de sueldo alto para personas a quienes
les disgusta el estrés, se recabaron los siguientes datos sobre sueldos anuales promedio (en
miles de dólares)(Average Annual Salary) y la tolerancia al estrés (Stress Tolerance) para di-
versos trabajos (Jobs) (Business Insider, 8 de noviembre de 2013).

Average Annual
Job Salary ($1000s) Stress Tolerance
Art directors 81 69.0
Astronomers 96 62.0
Audiologists 70 67.5
Dental hygienists 70 71.3
SalaryStress
Economists 92 63.3
Engineers 92 69.5
Law teachers 100 62.8
Optometrists 98 65 .5
Political scientists 102 60.1
Urban and regional planners 65 69 .0
624 Capítulo 14 Regresión lineal simple

La tolerancia al estrés se mide con una escala de O a 100, donde una calificación baja indica u
nivel bajo de estrés. n
a) Trace un diagrama de dispersión para estos datos, utilizando como variable independiente el
sueldo anual promedio. ¿Qué le indica este diagrama sobre la relación entre las dos variables?
b) Utilice estos datos para desarrollar una ecuación de regresión estimada que pueda usarse
para predecir la tolerancia al estrés a partir del sueldo anual.
e) Utilice un nivel de significancia de 0.05. ¿Existe relación estadística significativa entre las
dos variables ?
d) ¿Se sentiría cómodo prediciendo el nivel de tolerancia al estrés a partir del sueldo anual de
un puesto? Explique.
e) ¿Le parece razonable que exista relación entre el salario anual y la tolerancia al estrés?
Explique.
28. En el ejercicio 8, los datos de las calificaciones en x representaban la calidad de la velocidad
de ejecución y y la satisfacción general con las transacciones electrónicas, que nos proporcio-
naron una ecuación de regresión estimada de y = 0.2046 + 0.9077x. Pruebe si la velocidad de
BrokerRatings ejecución y la satisfacción se relaciona con un nivel de significancia de 0.05. Elabore la tabla
ANOVA. ¿Cuál es su conclusión?
29. Remítase al ejercicio 21, en el que se usaron los datos sobre volumen y costos de producción
para desarrollar una ecuación de regresión estimada que relacionaba el volumen y los costos de
producción de una determinada operación. Use a = 0.05 para probar si el volumen de produc-
ción se relaciona de forma significativa con el costo total. Muestre la tabla de ANOV A. ¿Cuál es
su conclusión?
30. Remítase al ejercicio 9, en el que se utilizaron los siguientes datos para investigar la relación
entre el número de automóviles en servicio (en miles) y los ingresos anuales (en millones) para
seis pequeñas empresas que alquilan automóviles (sitio web de Auto Rental News , 7 de agosto
de 2012).

Automóviles Ingresos
Empresa (miles) (millones de dólares)

U-Save Auto Renta! System, Inc. 11.5 118


Payless Car Renta! System, Inc. 10.0 135
ACE Rent A Car 9.0 100
Rent-A-Wreck of America 5.5 37
Triangle Rent-A-Car 4.2 40
Affordable/Sensible 3.3 32

Si x = automóviles en servicio (en miles) y y = ingresos anuales (en millones de dólares), la


ecuación de regresión estimada es y = -17.005 + 12.966x. Para estos datos, SCE = 1043.03
y STC = 10 568. ¿La evidencia indica que existe una relación significativa entre el número de
automóviles en servicio y los ingresos anuales?
31. En el ejercicio 20, los datos sobre x = peso (libras) y y = precio ($)de 1Obicicletas de carreras
generaron una ecuación de regresión estimada y= 28 574 - 1439x (sitio web Bicycling, 7 de
RacingBicycles
marzo de 2012). Para estos datos, SCE = 7102 922.54 y STC = 52120 800. Utilice la prueba F
con un nivel de significancia de 0.05 para determinar si el peso y el precio de la bicicleta están
relacionados.

Uso de la ecuación de regresión estimada


para estimación y predicción
Al usar el modelo de regresión lineal simple se plantea un supuesto acerca de la relación entre
x y y. Después se usa el método de mínimos cuadrados para obtener una ecuación de regre-
sión lineal simple estimada. Si existe una relación significativa entre x y y, y el coeficiente de
14.6 Uso de la ecuación de regresión estimada para estimación y predicción 625

detenninación indica que el ajuste es bueno, la ecuación de regresión estimada es útil para es-
timación y predicción.
En el ejemplo de Annand's Pizza Parlors, la ecuación de regresión estimada es y = 60 +
5x. Al final de la sección 14. l establecimos que y puede emplearse como estimador puntual de
E(y), la media o valor esperado de y dado el valor de x, como un predictor del valor individual
de y . Por ejemplo, suponga que los gerentes de Annand's desean una estimación puntual de la
media de las ventas trimestrales de todos los restaurantes que se encuentren cerca de campus
universitarios con 10000 estudiantes. Usando la ecuación de regresión estimada y = 60 + 5x,
con x = 10 (o 10000 estudiantes) obtenemos y = 60 + 5(10) = 110. Por lo tanto, una estima-
ción puntual de la media de las ventas trimestrales de todos los restaurantes de este ejemplo con
1O000 estudiantes es $11O000. En este caso estamos empleando y como el estimador puntual
del valor de la media de y cuando x = 10.
También podemos utilizar la ecuación de regresión estimada para predecir un valor indivi-
dual de y dado un valor de x. Ahora suponga que los gerentes de Annand's desean predecir las
ventas de un determinado restaurante ubicado cerca de Talbot College, una escuela con 10000
estudiantes, y calculamos y = 60 + 55(10) = 110, con lo que podemos predecir que el valor
de las ventas trimestrales sería de $110000 para ese nuevo restaurante. En este caso, estamos
utilizando y como predictor de y para una nueva observación cuando x = 10.
Cuando se utiliza la ecuación de regresión estimada para calcular el valor medio de y o para
predecir un valor individual de y, es claro que la estimación o predicción dependerá del valor
dado por x. Por esta razón, la siguiente notación servirá para hacer aclaraciones mientras anali-
zamos con más detalle las cuestiones sobre estimación y predicción.

x* = el valor dado de la variable independiente x


y* = la variable aleatoria que denota los posibles valores de la variable dependiente y
cuandox = x*
E(y*) = la media o el valor esperado para la variable dependiente y cuando x = x*
y = b0 + b 1x* = el estimador puntual de E(y*) y el predictor de un valor individual
de y * cuando x = x*

Para ejemplificar el uso de esta notación, suponga que queremos estimar el valor medio de las
ventas trimestrales para todos los restaurantes de Annand's que se ubican cerca de un campus
con 10000 estudiantes. En este caso, x* = 10 y E(y*) denota el valor medio desconocido de
las ventas trimestrales para todos los restaurantes cuando x* = 10. Por lo tanto, el estimador
puntual de E(y*) resulta de y= 60 + 5(10) = 110, o $110000. Pero, al emplear esta notación,
Y* = 11 O también es el predictor de las ventas trimestrales para el nuevo restaurante ubicado
cerca de Talbot College, escuela con 1O000 estudiantes.

Estimación por intervalo


Las estimaciones puntuales no proporcionan información alguna acerca de la precisión de una
estimación y/o predicción. Para eso debemos desarrollar intervalos de confianza e intervalos
Tanto los intervalos de
confianza como los
de predicción. El intervalo de confianza es una estimación del valor medio de las y que
de predicción indican la corresponden a un valor dado de x. El intervalo de predicción se usa cuando se necesita una
precisión de los resultados estimación por intervalo de un solo valor de y para un valor dado de x . Aunque el predictor de y
de la regresión. Los para un valor dado de x es el mismo que el estimador puntual del valor medio de y para un valor
intervalos más estrechos
dado de x, el intervalo que obtenemos para los dos casos es diferente. Como mostraremos, el
proporcionan un mayor
grado de precisión. margen de error es mayor para los intervalos de predicción. Comenzaremos por mostrar cómo
desarrollar una estimación de intervalo para el valor medio de y .
626 Capítulo 14 Regresión lineal simple

Intervalo de confianza para el valor medio de y


En general, no se puede esperar que y* sea exactamente igual a E(y*). Para hacer una inferencia
acerca de qué tan cerca está y* de la media verdadera E(y*), es necesario estimar la varianza de
y*. La fórmula para estimar la varianza de y* que se denota con es st.
2 - 2 [.!. + _(x_*_-_x_)_2J (14.22)
sy• - s n :L(x; - x)2

La estimación de la desviación estándar de y* es determinada por la raíz cuadrada de la ecua-


ción (14.22).
1 (x* - :X)2
- + - - - -2 (14.23)
n L(X; - :X)

En los resultados calculados en la sección 14.5 para el ejemplo de Annand's Pizza Parlors
se tienes= 13.829. Como x* = 10, :X= 14 y :L(x; - :x)2 = 568, usando la ecuación (14.23) se
obtiene
1 (10 - 14)2
sy• = 13.829 lO + 568

= l3.829Yo.1282 = 4.95

A continuación se presenta la fórmula general para obtener un intervalo de confianza.

INTERVALO DE CONFIANZA PARA E(y*)

El margen de error asociado (14.24)


con esta estimación de
intervalo es ta 12 s:¡ ..
donde el coeficiente de confianza es 1 - a y ta¡2 se basa en una distribución t con n - 2
grados de libertad.

Para obtener con la expresión (14.24) un intervalo de 95% de confianza para la media de
las ventas trimestrales de todos los restaurantes Annand's ubicados cerca de campus con 10000
estudiantes, se requiere el valor de t para a/2 = 0.025 y n - 2 = 10 - 2 = 8 grados de li-
bertad. En la tabla 2 del apéndice B se encuentra t0 _025 = 2.306. Por lo tanto, corno y* = 110
y el margen de error de ta/2sy• = 2.306(4.95) = 11.415, la estimación del intervalo de 95 % de
confianza es
110 :± 11.415
En dólares, el intervalo de 95% de confianza para la media de las ventas trimestrales de todos
los restaurantes que se encuentran cerca de un campus con 10 000 estudiantes es $110 000 ::!::
$11415. Así, el intervalo de confianza de 95% para la media de las ventas trimestrales cuando
el tamaño de la población es 10000 es de $98 585 a $121415 .
Observe que la desviación estándar estimada de y* dada por la ecuación (14.23) es menor
cuando x * - :X = O. En este caso, la desviación estándar estimada de y* se convierte en

~
2
1 (x - :X)
S y• = S -
n
+ "-X¡ -
°"'( -)2 =
x
S -
n

Este resultado implica que se obtiene la mejor o más precisa estimación del valor medio de Y
cuando x* = :X. De hecho, entre más alejado esté x* de :X, mayor será x * - :X. Como resultado,
los intervalos de confianza para el valor medio de y son más amplios a medida que x* se aleja
de :X. En la figura 14.8 se muestra este patrón.
14.6 Uso de la ecuación de regresión estimada para estimación y predicción 627

FIGURA 14.8 Intervalos de confianza para la media de las ventas y correspondientes a valores dados
de la población de estudiantes x

220 Límite superior

200
,....
"'41...
-'"'º
'ti
41
180

160
- Límite inferior
'ti
"'q,¡
]
._, 140
Los límites
-;"' 120
q,¡

...
... de los
intervalos de
"'q,¡ confianza
El
·¡: 100
... dependen de x*
..."'"' 80
Enx* = ise

~ = tiene la menor
amplitud del
60
.•.
intervalo
de confianza
40

20 i = 14

ºo 2 4 6 8 10 12 14 16 18 20 22 24 26
X

Población de estudiantes (miles)

Intervalo de predicción para un solo valor de y


Suponga que en lugar del valor medio de las ventas de todos los restaurantes Armand's que se
encuentran cerca de campus con 10000 estudiantes, se busque estimar las ventas de un solo
restaurante que se encuentra cerca de Talbot College, una escuela de 10000 estudiantes. Como
ya se indicó, el predictor de y*, el valor de y que corresponde a un valor dado x*, se obtiene me-
diante la ecuación de regresión estimada y* = b0 + b 1x*. En el caso del nuevo establecimiento
cerca de Talbot College, como x* = 10, la predicción de las ventas trimestrales será y* = 60 +
5(10) = 110, o $110 000. Observe que este valor es el mismo que el obtenido como estimación
puntual de la media de las ventas en todos los restaurantes que se encuentran cerca de campus
con 10000 estudiantes.
Para obtener un intervalo de predicción es necesario determinar primero la varianza co-
rrespondiente al uso de y* como estimación de un valor individual de y cuando x = x*. Esta
varianza está formada por la suma de los dos componentes siguientes:

l. La varianza de los valores individuales de y* respecto de la media E(y*), para la cual


una estimación está dada por s 2
2. La varianza correspondiente al uso de y* para estimar E(y*), para la cual una estima-
ción está dada por s~.
628 Capítulo 14 Regresión lineal simple

La fórmula para estimar la varianza que corresponde a la predicción del valor de y cuando
x = x*, que se denota como s~rcd' es

= s2 + s2[.!. + _(x_*_-_x_)_2]
n L(X; - x)2

= s2[ 1 + _!_ + _(x_*_-_x_)_2J


n L(X¡ - :X) 2 (14.25)

Por lo tanto, una estimación de la desviación estándar de un solo valor de y* está dada por

2
~ 1 (x* - x)
sprcd = s l + -;; + L(x¡ - x)2 (14.26)

En el ejemplo de Armand's Pizza Parlors, la desviación estándar estimada que corresponde a


la predicción de las ventas trimestrales de un determinado restaurante ubicado cerca de Talbot
College, un campus con 10000 estudiantes, se calcula como sigue:

1 (10 - 14)2
sprect = 13.829 1+-+----
10 568

= 13.829 Vu282

= 14.69
La fórmula general para un intervalo de predicción es la siguiente:

INTERVALO DE PREDICCIÓN PARA y*

El margen de error (14.27)


asociado con este intervalo
de estimación es ta/2spr<SJ.
donde el coeficiente de confianza es 1 - a y tª 12 se basa en una distribución t con n - 2
grados de libertad.

El intervalo de predicción de 95% de las ventas trimestrales del restaurante de Talbot College se
encuentra usando ta¡2 = t 0.025 = 2.306 y sprcd = 14.69. Por lo tanto, con y* = 110 y un margen
de error de t 0.025 sprcd = 2.306(14.69) = 33.875, el intervalo de predicción de 95% es

110 ± 33.875

En dólares, este intervalo de predicción es de $110000 ± $33 875 o de $76125 a $143 875.
Observe que el intervalo de predicción para un solo restaurante que se encuentre cerca de Talbot
College, un campus con 10000 estudiantes, es más amplio que el intervalo de confianza para la
media de las ventas de todos los restaurantes ubicados cerca de campus con 10000 estudiantes.
Esta diferencia refleja el hecho de que se puede estimar con más precisión la media de y que un
solo valor de y.
14.6 Uso de la ecuación de regresión estimada para estimación y predicción 629

FIGURA 14. 9 Intervalos de confianza y de predicción para las ventas y que corresponden a valores dados
de la población de estudiantes x

240

220
( Límites del
~
200
Q,j intervalo de
lo<
411 .Sconfianza
:o 180

Q,j
"é 160 Los intervalos de predicción
<1.1
Q,j
::= son más amplios
! 140
<1.1
Q,j
-; 120
....
lo<
<1.1
Q,j

.5 100 intervalo de
....lo< predicción
<1.1
....411 80
=
~
Los dos intervalos
60 tienen la menor
amplitud en
40 x* =x
i = 14
20

o X
o 2 4 6 8 10 12 14 16 18 20 22 24 26
Población de estudiantes (miles)

En general, tanto las líneas Tanto las estimaciones mediante un intervalo de confianza como mediante un intervalo de
de los límites para los predicción son más precisas cuando el valor de la variable independiente x* está cercano a :X.
intervalos de confianza
En la figura 14.9 se muestra la forma general de los intervalos de confianza y de predicción que
como las de los límites para
los intervalos de predicción son más amplios.
presentan cierta curvatura.

Utilizamos un intervalo de predicción para prede- liarse para los valores de x en los datos de la muestra.
cir el valor de una variable dependiente y para una Sin embargo, desarrollar un intervalo de predicción de
nueva observación. Como ejemplo, mostramos cómo las ventas trimestrales para alguno de los diez restau-
desarrollar un intervalo de predicción para las ventas rantes incluidos en los datos de la tabla 14.l no tiene
trimestrales de un nuevo restaurante que Armand's sentido, porque ya conocemos el valor de las ventas
está considerando construir cerca de Talbot College, para cada restaurante. En otras palabras, un intervalo
un campus con 10000 estudiantes. El hecho de que de predicción sólo tiene sentido para algo nuevo, en
el valor de x = 10 no sea uno de los valores de la este caso, una nueva observación que corresponde a un
población de estudiantes para los datos de la muestra valor particular de x que puede ser o no igual a alguno
de Armand's presentados en la tabla 14.l no implica de los valores de x en la muestra.
que los intervalos de predicción no puedan desarro-
630 Capítulo 14 Regresión lineal simple

Métodos
32. Los siguientes datos provienen del ejercicio 1.
AUTO evaluación
2 3 4 5
7 5 11 14

a) Use la ecuación (14.23) para estimar la desviación estándar de y* cuando x = 4.


b) Con la expresión (14.24) obtenga un intervalo de confianza de 95% para el valor esperado
de y cuando x = 4.
e) Use la ecuación (14.26) para estimar la desviación estándar de un valor de y cuando x:::: 4.
á) Utilice la expresión (14.27) a efecto de obtener un intervalo de predicción de 95% para y
cuandox = 4.
33. Los siguientes datos provienen del ejercicio 2.

12 6 20 14

40 55 10 15

a) Estime la desviación estándar de y* cuando x = 8.


b) Obtenga un intervalo de 95% de confianza para el valor esperado de y cuando x == 8.
e) Estime la desviación estándar de un valor individual de y cuando x = 8.
á) Obtenga un intervalo de predicción de 95% para y cuando x = 8.
34. Los siguientes datos corresponden al ejercicio 3.

6 9 13 20

18 9 26 23

Obtenga los intervalos de confianza y de predicción de 95% cuando x = 12. Explique por qué
son diferentes estos dos intervalos.

Aplicaciones
35. Los siguientes datos corresponden a los sueldos mensuales y y las calificaciones promedio
AUTO évaluadóri
•,.,..• .,_ a- (GPA) de grado x para un grupo de estudiantes que obtuvo el título de licenciado en administra-
ción de empresas.

Sueldo mensual
GPA (dólares)
2.6 3600
3.4 3900
3.6 4300
3.2 3800
3.5 4200
2.9 3900

La ecuación de regresión estimada para estos datos es y = 2090.5 + 581.lx y ECM ==


21284.
a) Desarrolle un estimador puntual para el sueldo inicial de un estudiante con una calificación
de 3.0.
b) Estime la media del sueldo inicial de todos los estudiantes con una calificación de 3.0 con
un intervalo de confianza de 95%.
e) Desarrolle un intervalo de predicción de 95% para Ryan Dailey, un estudiante con una
calificación de 3.0.
d) Analice las diferencias en sus respuestas a los incisos b) y e).
14.6 Uso de la ecuación de regresión estimada para estimación y predicción 631

36. En el ejercicio 7, los datos para y= ventas anuales (miles de dólares) y x =número de años de
experiencia para una muestra de 10 vendedores nos dio una ecuación de regresión estimada
Sales
de y= 80 + 4x. Para estos datos, x = 7, 2:(x¡ - i) 2 = 142 y s = 4.6098.
a) Estime la media de ventas anuales de todos los vendedores con nueve años de experiencia
con un intervalo de confianza de 95%.
b) La empresa está considerando contratar a Tom Smart, un vendedor con nueve años de
experiencia. Desarrolle un intervalo de predicción de 95% de las ventas anuales para Tom
Smart.
e) Analice las diferencias en sus respuestas de los incisos a) y b).
37. En el ejercicio 13 se proporcionaron datos sobre el ingreso bruto ajustado x y el monto de las
deducciones declaradas por los contribuyentes. Los datos se reportaron en miles de dólares.
Como la ecuación de regresión estimada es y = 4.68 + 0.16x, el estimado puntual de un nivel
razonable del total de las deducciones declaradas para un contribuyente cuyo ingreso bruto
ajustado sea $52 500 es $13 080.
a) Obtenga un intervalo de confianza de 95% para el monto medio del total de las deducciones
declaradas de todos los contribuyentes cuyo ingreso bruto ajustado sea $52500.
b) Obtenga un intervalo de predicción de 95% para el monto del total de las deducciones
declaradas de un contribuyente cuyo ingreso bruto ajustado sea $52500.
e) Si el contribuyente del inciso b) solicita un total de $20400 por deducciones declaradas,
¿se justificaría que un agente fiscal lo requiriera para aplicarle una auditoría?
á) Retome su respuesta del inciso b) para proporcionar al agente fiscal una guía acerca del
monto del total de las deducciones declaradas que puede solicitar un contribuyente cuyo
ingreso bruto ajustado sea $52 500, antes de que sea recomendable una auditoría.
38. Remítase al ejercicio 21, donde se utilizaron los datos de volumen de producciónx y costo total
y de una determinada operación de manufactura para obtener la ecuación de regresión estimada
y = 1246.67 + 7 .6x.
a) El plan de producción de la empresa muestra que el próximo mes deberán fabricarse 500
unidades. ¿Cuál es la estimación puntual del costo total para ese mes?
b) Obtenga un intervalo de predicción de 99% para el costo total de producción del siguiente
mes.
e) Si al final del próximo mes el informe de costos de un contador indica que en ese lapso
los costos reales de producción fueron de $6000, ¿deberían preocuparse los gerentes por
haber incurrido en costos totales tan altos en ese mes? Analice.
39. En el ejercicio 12, los datos siguientes sobre x = tarifa diaria por habitación de hotel (Room
Rate) y y = cantidad gastada en entretenimiento (Entertainment) (The Wall Street Joumal, 18
de agosto de 2011) generaron la ecuación de regresión estimada y = 17.49 + l.0334x. Para
estos datos, SCE = 1541.4.

RoomRate Entertainment
City ($) ($)

Boston 148 161


Denver 96 105
DATA. Nashville
New Orleans
91
110
101
142
BusinessTravel Phoenix 90 100
San Diego 102 120
San Francisco 136 167
San José 90 140
Tampa 82 98

a) Prediga el importe gastado en entretenimiento en una ciudad determinada, con una tarifa
diaria de habitación de hotel de $89.
b) Obtenga un intervalo de confianza de 95% para la media de la cantidad gastada en entre-
tenimiento de todas las ciudades, con tarifa de habitación de hotel de $89.
e) La tarifa promedio para un hotel en Chicago es $128. Elabore un intervalo de predicción
de 95% para la cantidad que se gastará en entretenimiento en Chicago.
632 Capítulo 14 Regresión lineal simple

§ Solución por computadora


Realizar los cálculos del análisis de regresión sin una computadora puede requerir mucho tiem-
po. En esta sección se verá cómo puede minimizarse la complicación de tantos cálculos usando
software, como Minitab.
Los datos sobre población de estudiantes y ventas de Arrnand's Pizza Parlors se han ingresa-
do en la hoja de cálculo de Minitab. A la variable independiente se le ha llamado Pop (Población)
y a la variable dependiente Sales (Ventas), para facilitar la interpretación de los resultados que
proporciona la computadora. Usando Minitab para el ejemplo de Arrnand's se obtuvieron los
resultados que se muestran en la figura 14.10. 2
Se resaltan las porciones de resultados que se refieren a temas analizados en este capítulo
(aquellas que no están resaltadas no forman parte del alcance de este libro, pero pueden encon-
trarse en libros de estadística avanzada).

FIGURA 14.10 Resultados en Minitab para el problema de Arrnand's Pizza Parlors

Regression Analysis: Sales Versus Population

Analysis of Variance

SO URCE DF Adj SS Adj MS F-Value P-Value


Regression 1 14200.0 14200.00 74.25 0.000
Population 1 14200.0 14200.00 74.25 0.000
Error 8 1530.0 191. 2 - ANOVA table
Lack-of-Fit 6 1008.0 168.0 0.64 o. 714
Pure Error 2 522.0 261. o
Total 9 15730.0

Model Summary

Para una regresión s R-sq R-sq(adj) R-sq(pred)


lineal simple, ¡3.8293 90.27% 89.06% 83.58%
Adj SS y Adj MS
son iguales a los Coefficients
valores de SS y MS
que se describen
Term Coef SE Coef T-Value P-Value VIF
en este capítulo.
La interpretación
Constant 60.00 9.23 6.50 0.000
difiere de la Population 5.000 0.580 8.62 0.000 l. 00
regresión múltiple
que se analiza en Regression Equation ~---- Estimated Regression Equation
el capítulo 15. Sales = 60.00 + 5.000 Population

Predicted f or Sales

Regression Equation
Sales = 60.00 + 5.000 Population

Variable Setting
Population 10

Fit SE Fit 95% CI 95% p r ~ Interval Estimated


110 4. 95099 (98.5830, 121.417) (76~1275, 143.873)

2
En el apéndice 14.3 se explican los posos o seguir con Minitob paro obtener estos resultados.
14.7 Solución por computadora 633

La interpretación de la porción resaltada de la impresión continúa.

l. La tabla ANO VA se imprime debajo del encabezado de Análisis de Varianza (Analysis of


Variance). Minitab usa la etiqueta de Error para el error de fuente de variación. Observe
que DF es una abreviatura para grados de libertad (degrees of freedom) y que SCT de
14 200 se presenta debajo de la columna Adj MS y el SCE de 191.2 aparece debajo la fila
de error bajo Adj MS. La razón de estas dos variables nos da un valor F de 74.25, con
un valor p correspondiente de 0.000. Como el valor pes cero (en tres puntos decimales),
se considera que la relación entre ventas (Sales) y población (Population) es estadística-
mente significativa.
2. Debajo del encabezado de Resumen del modelo (Model Summary), Minitab presenta
el error estándar de la estimación, s = 13.8293, así como la información de ajuste.
Observe que "R-sq = 90.27%" es el coeficiente de determinación expresado como
porcentaje. El valor "R-Sq(adj) = 89.06%" se analiza en el capítulo 15.
3. Se presenta una tabla que muestra los valores de los coeficientes b0 y b 1, la desviación
estándar de cada coeficiente, el valor t que se obtiene al dividir cada coeficiente entre
su desviación estándar, y el valor p que se asocia con la prueba t. Esto aparece debajo
del encabezado de Coeficientes (Coef.ficients). Como el valor pes cero (en tres puntos
decimales), el resultado de la muestra indica que se debe rechazar la hipótesis nula
(H0 :_8 1 = 0). Como alternativa, se puede comparar 8.62 (que se ubica en la columna del
Valor T) con el valor crítico apropiado. Este procedimiento para la prueba t se describe
en la sección 14.5.
4. Bajo el encabezado de Ecuación de regresión (Regression Equation), Minitab presenta
la ecuación de la regresión estimada como Ventas (Sales) = 60.00 + 5.000 Población
(Population).
5. El intervalo de confianza de 95% de la estimación de las ventas esperadas, a un intervalo
de predicción de ventas para un restaurante ubicado cerca de un campus con 10000
estudiantes, aparece debajo de la tabla ANOVA. El intervalo de confianza es (98.5830,
121.4417) y el intervalo de predicción es (76.1275, 143.873), como se presenta en la
sección 14.6.

Aplicaciones
AUTO evaluación
40. La división comercial de una firma de bienes raíces realiza un análisis de regresión sobre la
relación entre x, rentas brutas anuales (en miles de dólares), y y, precio de venta (en miles de
dólares) de edificios de departamentos. Se recabaron datos sobre varias propiedades vendidas
últimamente, y con la computadora se obtuvieron los resultados que se muestran enseguida.

Analysis of Variance

SO URCE DF Adj SS
Regression 1 41587.3
Error 7
Total 8 51984.1

Predictor Coef SE Coef T.Value


Constant 20.000 3.2213 6.21
X 7 .210 l. 3626 5.29

Regression Equation

y= 20.0 + 7.21 X
634 Capítulo 14 Regresión lineal simple

a) ¿Cuántos edificios de departamentos se incluyeron en la muestra?


b) Escriba la ecuación de regresión estimada.
e) ¿Cuál es el valor de sb 1?
d') Use el estadístico F para probar la significancia de la relación empleando 0.05 como nivel
de significancia.
e) Estime el precio de venta de un edificio de departamentos cuyas rentas anuales brutas son
de $50000.
41. A continuación se presenta una parte de los resultados por computadora de un análisis de re-
gresión en el que se relaciona y = gastos de mantenimiento (dólares por mes) con x == uso
(horas por semana) para una marca determinada de terminal de computadora.

Anal y sis of Variance

SO URCE DF Adj SS Adj MS


Regression 1 1575.76 1575.76
Error 8 349.14 43.64
Total 9 1924.90

Predictor Coef SE Coef


Constant 6.1092 0.9361
X 0.8951 0.1490

Regression Equation

y = 6.1092 + .8951 X

a) Escriba la ecuación de regresión estimada.


b) Utilice una prueba t para determinar si los gastos mensuales de mantenimiento se relacio-
nan con el uso; maneje 0.05 como nivel de significancia.
e) Utilice la ecuación de regresión estimada para predecir los gastos mensuales de manteni-
miento de una terminal que se usa 25 horas por semana.
42. Un modelo de regresión que relaciona x, el número de vendedores en una sucursal, con y, las
ventas anuales en esa sucursal (en miles de dólares), proporcionó el resultado de computadora
que se muestra a continuación, empleando análisis de regresión de los datos.

Analysis of Variance

SO URCE DF Adj SS Adj MS


Regression 1 6828.6 6828.6
Error 28 2298.8 82.1
Total 29 9127.4

Predictor Coef SE Coef T


Constant 80.0 11.333 7.06
X so.o 5.482 9.12

Regression Equation

y = 80.0 + 50.00 X

a) Escriba la ecuación de regresión estimada.


b) ¿Cuántas sucursales participaron en el estudio? .
c) Calcule el estadístico F y pruebe la significancia de la relación empleando 0.05 como m-
vel de significancia.
d') Prediga las ventas anuales de la sucursal de Memphis. En esta sucursal operan 12 ven-
dedores.
14.7 Solución por computadora 635

43. En 2012, Idea Works levantó una encuesta en la que obtuvo datos que muestran la cantidad dis-
ponible de asientos que existen cuando un cliente trata de redimir puntos o millas para obtener
viajes gratuitos. Para cada aerolínea, la columna Porcentaje 2011 (2011 Percentage) muestra el
porcentaje de asientos disponibles en 2011, y la columna Porcentaje 2012 (2012 Percentage)
muestra el porcentaje correspondiente a 2012 (The Wall Street Joumal, 17 de mayo de 2012).

2011 2012
Airline Percentage Percentage
AirBerlin 96.4 100.0
Air Canada 82.1 78.6
Air France, KLM 65.0 55.7
AirTran Airways 47.l 87.l
Alaska Airlines 64.3 59.3
American Airlines 62.9 45.7
British Airways 61.4 79.3
Cathay Pacific 66.4 70.7
Delta Air Lines 27.1 27.1
Emirates 35.7 32.9
DATA. GOL Airlines (Brazil) 100.0 97.l
AirlineSeats Iberia 70.7 63.6
JetBlue 79.3 86.4
Lan (Chile) 75 .7 78.6
Lufthansa, Swiss, Austrian 85.0 92.l
Qantas 75 .0 78.6
SAS Scandinavian 52.9 57.9
Singapore Airlines 90.7 90.7
Southwest 99.3 100.0
Turkish Airways 49.3 38.6
United Airlines 71.4 87.l
US Airways 25.7 33.6
Virgin Australia 91.4 90.0

a) Trace un diagrama de dispersión con los porcentajes de 2011 como variable independiente.
b) ¿Qué le indica el diagrama del inciso a) sobre la relación entre las dos variables?
e) Desarrolle la ecuación de regresión estimada.
cf) Pruebe si existe una relación significativa con a =0.05.
e) ¿La ecuación de regresión estimada ofrece un buen ajuste?
44. Las carreras de autos, las escuelas de manejo de alto desempeño y los programas de educación
para conducir realizados por clubes de automovilistas siguen creciendo en popularidad. Todas
esas actividades requieren que el participante utilice un casco certificado por la Snell Memorial
Foundation, una organización sin fines de lucro dedicada a la investigación, educación, prueba
y desarrollo de estándares de seguridad de los cascos. Snell "SA" (Sports Application) evaluó
que los cascos profesionales estén diseñados para carreras de autos y proporcionen resistencia
a impactos extremos y una alta protección contra el fuego. Uno de los factores clave en la se-
lección de un casco es el peso, ya que los más ligeros generan menos tensión en el cuello. Los
siguientes datos muestran el peso (Weight) y el precio (Price) de 18 cascos (Helmet) SA.

Weight (oz) Price ($)


64 248
64 278
·DATA. 64 200
64 200
RaceHelmets
58 300
47 700
(continúa)
636 Capítulo 14 Regresión lineal simple

Weight (oz) Price ($)


49 900
59 340
66 199
58 299
58 299
52 479
52 479
63 369
62 369
54 559
63 250
63 280

a) Trace un diagrama de dispersión usando como variable independiente el peso.


b) ¿Parece existir alguna relación entre las dos variables?
e) Obtenga la ecuación de regresión estimada que pueda utilizarse para predecir el precio con
base en el peso.
el) Pruebe la relación significativa en un nivel de significancia de 0.05.
e) ¿La ecuación de regresión estimada proporciona un buen ajuste? Explique.

Análisis de residuales: validación


de los supuestos del modelo
El análisis de residuales Como ya se indicó, el residual de la observación i es la diferencia entre el valor observado de la
es la herramienta principal variable dependiente (y¡) y el valor estimado de la variable dependiente (y¡).
para detenninar si el
modelo de regresión
empleado es apropiado.

RESIDUAL DE LA OBSERVACIÓN i

Y; - Y; (14.28)

donde

Y; = valor observado de la variable dependiente


Y; = valor predicho de la variable dependiente

En otras palabras, el residual i-ésimo es el error que resulta de usar la ecuación de regresión es-
timada para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan los residua-
les correspondientes a los datos del ejemplo de Armand's Pizza Parlors. En la segunda columna
de la tabla se presentan los valores observados de la variable dependiente, y en la tercera los
valores estimados de la variable dependiente obtenidos con la ecuación de regresión estimada
y = 60 + 5x. Un análisis de los residuales correspondientes, en la cuarta columna de la tabla,
ayuda a detenninar si los supuestos acerca del modelo de regresión son adecuados.
A continuación se revisan los supuestos de regresión en el ejemplo de Armand's Pizza Par-
lors. Se asumió un modelo de regresión lineal simple.

y = /Jo + f31x + E (14.29)


14.8 Análisis de residuales: validación de los supuestos del modelo 637

TABLA 14.7 Residuales en el ejemplo de Arrnand's Pizza Parlors

Población de estudiantes Ventas Ventas estimadas Residuales


X; Y; Y;= 60 + Sx; Y; -y;
2 58 70 -12
6 105 90 15
8 88 100 -12
8 118 100 18
12 117 120 -3
16 137 140 -3
20 157 160 -3
20 169 160 9
22 149 170 -21
26 202 190 12

Este modelo indica que se supone que las ventas trimestrales (y) son la función lineal del tama-
ño de la población de estudiantes (x) más un término del error E. En la sección 14.4 se plantea-
ron los siguientes supuestos para el término del error E.

l. E(E) = 0.
2. La varianza de E, que se denota a 2, es la misma para todos los valores de x.
3. Los valores de E son independientes.
4. El término del error E tiene una distribución normal.

Estos supuestos constituyen la base teórica para las pruebas t y F que se usan para determinar
si la relación entre x y y es significativa, y para las estimaciones de los intervalos de confianza
y de predicción que se presentaron en la sección 14.6. Si los supuestos sobre el término del
error E son dudosos, quizá las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean válidos.
Los residuales proporcionan la mejor información de E; por lo tanto, su análisis es muy
importante para determinar si los supuestos planteados acerca de E son apropiados. Gran parte
del análisis residual se basa en analizar gráficas. En esta sección se estudiarán las siguientes
gráficas de residuales.

l. Una gráfica de residuales contra los -valores de la variable independiente x.


2. Una gráfica de residuales contra los valores pronosticados para la variable depen-
diente y.
3. Una gráfica de residuales estandarizados.
4. Una gráfica de probabilidad normal.

Gráfica de residuales contra x


En la gráfica de residuales contra la variable independiente x, los valores de esta variable se re-
presentan en el eje horizontal y los valores de los residuales correspondientes en el eje vertical.
Para cada residual se grafica un punto. La primera coordenada de cada punto está dada por el
valor X;, y la segunda por el correspondiente valor del residual Y; - Y;· En la gráfica de residua-
les contra x obtenida con los datos de Armand's Pizza Parlors de la tabla 14.7, las coordenadas
del primer punto son (2, -12), que corresponden a x 1 = 2 y y 1 - y1 = -12; las coordena-
das del segundo punto son (6, 15), que corresponden a x2 = 6 y y 2 - y1 = 15, y así sucesi-
vamente. En la figura 14.11 se muestra la gráfica de residuales obtenida.
Antes de interpretar los resultados se considerarán algunas formas generales que pueden
adoptar las gráficas de residuales. En la figura 14.12 se muestran tres ejemplos. Si el supuesto de
que la varianza de E es el mismo para todos los valores de x y el modelo de regresión empleado
638 Capítulo 14 Regresión lineal simple

FIGURA 14.11 Gráfica de residuales contra la variable independiente x para Arrnand's


Pizza Parlors

y-y
+20


+10


Cll
~
=
'.9= o
Cll
G.l
=: • • •
-10
• •

-20

X
o 2 4 6 8 10 12 14 16 18 20 22 24 26

repres~nta de forma adecuada la relación entre las variables, el aspecto general de la gráfica de
residuales será el de una banda horizontal de puntos como en la gráfica A de la figura. Pero si
la varianza de e no es la misma para todos los valores x (por ejemplo, si la variabilidad respecto
de la línea de regresión es mayor para valores mayores de x), el aspecto de la gráfica puede ser
como la gráfica en B. En este caso se viola el supuesto de que E tiene una varianza constante.
En la gráfica C se muestra otra forma que puede adoptar la gráfica de residuales. En este caso,
se concluye que el modelo de regresión empleado no representa de forma adecuada la relación
entre las variables, y deberá considerarse un modelo de regresión curvilíneo o múltiple.
De vuelta a la gráfica de los residuales del ejemplo de Armand's Pizza Parlors de la figu-
ra 14.11, estos residuales parecen tener una forma que se aproxima a la de la banda horizontal de
la gráfica A de la figura 14.12. Por lo tanto, concluimos que esta gráfica no muestra evidencias
de que los supuestos formulados para el modelo de regresión de Annand's puedan ser dudosos.
Concluimos que el modelo de regresión lineal simple que se utilizó es válido.
Para la adecuada interpretación de las gráficas de residuales, la experiencia y el criterio son
muy importantes. Es raro que estas gráficas tengan exactamente la forma de uno de los patro-
nes que se muestran en la figura 14.12. Sin embargo, los analistas que realizan frecuentemente
estudios de regresión y gráficas de residuales se vuelven expertos en reconocer las diferencias
entre las formas razonables y las que indican que se puede dudar de los supuestos del modelo.
Una gráfica de residuales proporciona una técnica para evaluar la validez de los supuestos en
un modelo de regresión.

Gráfica de residuales contra y


En otras gráficas de residuales, los valores pronosticados para la variable dependiente y se re-
presentan en el eje horizontal y los valores de los residuales en el eje vertical. A cada residual
corresponde un punto en la gráfica. La primera coordenada de cada uno de los puntos está
dada por Y; y la segunda es el valor correspondiente del residual i-ésimo, Y; - Y;· Con los datos
14.8 Análisis de residuales : validación de los supuestos del modelo 639

FIGURA 14. 12 Gráfica de residuales de tres estudios de regresión

y- y
Gráfica A

-;"' • • • • • •
• •
<i.I

• • • •
~ = o Patrón adecuado • • •
·o;; • • • • • •
<i.I
i:z:: •

y- y
Gráfica B

• •
• • •
-;"'
<i.I • •
= •
Varianza no constante •
~
·o;;
o • •
<i.I
i:z::
• •
• • •
• •

y- y
Gráfica C


• • •

• •

o1 - - - - • • • •
• Modelo de forma no adecuada
• • • •


640 Capítulo 14 Regresión lineal simple

FIGURA 14.13 Gráfica de residuales contra los valores predichos para Annand's Pizza Parlors

y-y
+20


+10


-;"'
Q,I

=
:9 o
=::"' • • •
Q,I

-10
• •

-20

60 80 100 120 140 160 180

deArmand's de la tabla 14.7, las coordenadas del primer punto son (70, -12), que corresponden
ay 1 = 70 y y1 - y1 = -12; las coordenadas del segundo punto son (90, 15), y así sucesivamen-
te. En la figura 14.13 se presenta esta gráfica de residuales. Observe que su forma es igual a la
de la gráfica de residuales contra la variable independiente x. Éste no es un patrón que pudiera
llevar a dudar de los supuestos del modelo. En la regresión lineal simple, tanto la gráfica de
residuales contra x como la gráfica de residuales contra y tienen la misma forma. En el análisis
de regresión múltiple, la gráfica de residuales contra y se usa más, debido a que se tiene más de
una variable independiente.

Residuales estandarizados
Muchas gráficas de residuales que se obtienen con software de computadora utilizan una ver-
sión estandarizada de los residuales. Como se demostró en el capítulo anterior, una variable
aleatoria se estandariza al sustraerle su media y dividir el resultado entre su desviación estándar.
Cuando se emplea el método de mínimos cuadrados, la media de los residuales es cero. Por
consiguiente, para obtener el residual estandarizado sólo es necesario dividir cada residual
entre su desviación estándar.
Se puede demostrar que la desviación estándar del residual i depende del error estándar de
la estimación s y del valor correspondiente de la variable independiente X¡.

DESVIACIÓN ESTÁNDAR DEL RESIDUAL i-ésimo3

(14.30)

3 En realidad, esta ecuación proporciona una estimación de la desviación estándar del residual i-ésimo, ya que se usa s en
lugar de a.
14.8 Análisis de residuales: validación de los supuestos del modelo 641

donde

sy
1
_Y; = desviación estándar del residual i
s = error estándar de la estimación
1 (X¡ - x)2
h . =-+-~-- ( 14.31)
' n L(X¡ - :X) 2

Observe que la ecuación (14.30) indica que la desviación estándar del residual i-ésimo
depende de X¡ debido a la presencia de h; en la fórmula. 4 Una vez determinada la desviación es-
tándar de cada uno de los residuales, se pueden calcular los residuales estandarizados al dividir
cada residual entre sus desviaciones estándar correspondientes.

RESIDUAL ESTANDARIZADO DE LA OBSERVACIÓN i

Y; - y¡
(14.32)
sy¡- Y¡

En la tabla 14.8 se presentan los cálculos de los residuales estandarizados con el ejemplo
de Arrnand's Pizza Parlors. Recuerde que ya en cálculos previos se obtuvo s = 13.829. La
figura 14.14 es la gráfica de los residuales estandarizados contra la variable independiente x.
Esta gráfica permite ver si es correcto el supuesto de que el término del error E tiene distri-
Pequeñas desviaciones bución normal. Si este supuesto se satisface, debe parecer que la distribución de los residuales
de la normalidad no tienen
estandarizados proviene de una distribución de probabilidad normal estándar. 5 Por lo tanto, al
un gran efecto sobre las
pruebas estadísticas que se
observar la gráfica de los residuales estandarizados se espera encontrar que aproximadamente
utilizan en el análisis 95% de ellos esté entre -2 y +2. En la figura 14.14 vemos que en el ejemplo de Arrnand's to-
de regresión. dos los residuales estandarizados se encuentran entre -2 y +2. Así, con base en los residuales

TABLA 14.8 Cálculo de los residuales estandarizados del ejemplo de Armand's Pizza Parlors

(X¡ - X)2
Restaurante Residuales
X¡ X¡-X (X¡ - X)2 I(x¡ - X) 2 h¡ s,,-;1 Y¡ -y¡ estandarizados
1 2 -12 144 0.2535 0.3535 11.1193 -12 -1.0792
2 6 -8 64 0.1127 0.2127 12.2709 15 1.2224
3 8 -6 36 0.0634 0.1634 12.6493 -12 -0.9487
4 8 -6 36 0.0634 0.1634 12.6493 18 1.4230
5 12 -2 4 0.0070 0.1070 13.0682 -3 -0.2296
6 16 2 4 0.0070 0.1070 13.0682 -3 -0.2296
7 20 6 36 0.0634 0.1634 12.6493 -3 -0.2372
8 20 6 36 0.0634 0.1634 12.6493 9 0.7115
9 22 8 64 0.1127 0.2127 12.2709 -21 -1.7114
10 26 12 144 0.2535 0.3535 11.1193 12 1.0792
Total 568

Nota: En la tabla 14.7 se calcularon los valores de los residuales.

4
A h1 se le conoce como el valor de influencio de lo observación i. El valor de inAuencio se abordará en lo sección 14. 9,
cuando se consideren los observaciones inAuyentes.
5
Como en lo Fórmula (14.30) se usos en lugar de a, lo distribución de los residuales estandarizados no es técnicamente
normal. Sin embargo, en lo mayoría de los estudios de regresión el tamaño de lo muestro es suficientemente grande poro
que uno aproximación normal seo muy bueno.
642 Capítulo 14 Regresión lineal simple

FIGURA 14. 14 Gráfica de residuales estandarizados contra la variable independiente x


obtenida con los datos de Armand's Pizza Parlors '

+2


• •

• • •

• •


-2

X
o 2 4 6 8 10 12 14 16 18 20 22 24 26

TABLA 14.9
Punto normal para
n = 10
estandarizados, esta gráfica no da razones para dudar del supuesto de que e tiene una distribu-
Estadístico Puntuación
de orden normal ción normal.
1 -1.55 Debido al esfuerzo que significa calcular los valores estimados de y, los residuales y los
2 -1.00 residuales estandarizados, la mayoría del software para estadística proporcionan, de manera
3 -0.65 opcional, estos datos como parte de los resultados de la regresión. Por lo tanto, las gráficas de
4 -0.37
5 -0.12 residuales se pueden obtener con facilidad. Tratándose de problemas grandes, el software es la
6 0.12 única opción práctica para obtener las gráficas de residuales analizadas en esta sección.
7 0.37
8 0.65
9 1.00 Gráfica de probabilidad normal
10 1.55
Otro enfoque para determinar la validez del supuesto de que el término del error tiene una dis-
tribución normal es la gráfica de probabilidad normal. Para mostrar cómo se elabora, se pre-
senta el concepto de puntos normales.
Suponga que se toman de forma aleatoria 10 valores de una distribución normal donde la
TABLA 14.10 media es cero y la desviación estándar es uno, y este proceso de muestreo se repite una y otra
Puntuaciones normal y vez con los 1Ovalores de cada muestra ordenados de menor a mayor. Por ahora, considere sólo
residual estandarizadas el valor menor de cada muestra. A la variable aleatoria que representa el valor menor de estos
ordenadas de Armand' s diversos muestreos se le conoce como estadístico de primer orden.
Pizza Parlors Los expertos en estadística han demostrado que, en muestras de tamaño 1O tomadas de una
distribución normal estándar, el valor esperado del estadístico de primer orden es -1 .55. A este
Puntuación Residuales
normal estandarizados valor esperado se le conoce como punto normal. En el caso de una muestra de tamaño n = 1O,
ordenados hay 10 estadísticos de orden y 10 puntos normales (vea la tabla 14.9). En general, un conjunto
-1.55 -1.7114 de datos que conste de n observaciones tendrá n estadísticos de orden y, por lo tanto, n puntos
-1.00 - 1.0792 normales.
- .65 -0.9487
- .37 -0.2372 A continuación vemos el uso de estos 10 puntos normales para determinar si los residuales
- .12 -0.2296 estandarizados de Armand's Pizza Parlors aparentemente provienen de una distribución nor-
.12 -0.2296 mal estándar. Para empezar, se ordenan los 10 residuales estandarizados de la tabla 14.8. En la
.37 0.7115
.65 1.0792 tabla 14.1O se presentan juntos los 1O puntos normales y los residuales estandarizados ordena-
1.00 1.2224 dos. Si se satisface el supuesto de normalidad, el residual estandarizado menor deberá tener un
1.55 1.4230 valor similar al del punto normal menor, el siguiente residual deberá tener un valor similar al
14.8 Análisis de residuales: validación de los supuestos del modelo 643

FIGURA 14. 15 Gráfica de probabilidad normal obtenida con los datos de Armand' s Pizza Parlors

"'o
"O
cu
N
·¡:
cu
"O
e
....cu o
"'
Q,I

"'
Q,I
-;
=
"O
·~
Q,I
~ -1

-2

-2 -1 o +l +2
Puntos normales

del siguiente punto normal, y así sucesivamente. En el caso de que los residuales estandarizados
se encuentren distribuidos de manera aproximadamente normal, en una gráfica en la que los
puntos normales correspondan al eje horizontal y los residuales estandarizados al eje vertical,
los puntos estarán situados cerca de una recta de 45 grados que pase por el origen. A esta gráfica
se le conoce como gráfica de probabilidad normal.
La figura 14.15 presenta la gráfica de probabilidad normal del ejemplo de Armand's Pizza
Parlors. Para determinar si el patrón observado se desvía lo suficiente de la recta como para
concluir que los residuales estandarizados no provienen de una distribución normal, habrá que
emplear el propio criterio. En la figura, todos los puntos se agrupan cerca de esta recta. Por lo
tanto, se concluye que el supuesto de que los términos del error tienen una distribución normal
es razonable. En general, entre más cerca de la recta a 45 grados se agrupen los puntos, más
fuerte es la evidencia a favor del supuesto de normalidad. Cualquier curvatura sustancial en la
gráfica es evidencia de que los residuales no provienen de una distribución normal. Tanto los
puntos normales como la correspondiente gráfica de probabilidad normal pueden obtenerse
fácilmente empleando software como Minitab.

l. Las gráficas de residuales y de probabilidad nor- delo de regresión sean válidos. Aun cuando no se
mal se usan para confirmar los supuestos de un encuentre ninguna infracción, esto no necesaria-
modelo de regresión. Si en esta revisión se encuen- mente implica que el modelo vaya a proporcionar
tra que uno o más supuestos son dudosos, habrá buenas predicciones. Pero si además existen otras
que considerar un modelo de regresión diferente o pruebas estadísticas que favorezcan la conclu-
una transformación de los datos . Cuando se violan sión de significancia y el coeficiente de determina-
los supuestos, las medidas a tomar deben basarse ción es grande, deberá ser posible obtener buenas
en un criterio adecuado; las recomendaciones de estimaciones y predicciones empleando la ecua-
un experto en estadística pueden ser útiles. ción de regresión estimada.
2. El análisis de residuales es el principal método es-
tadístico para verificar que los supuestos del mo-
644 Capítulo 14 Regresión lineal simple

Métodos
45. Dados los datos de las dos variables x y y:
AUTO evaluación
11 15 18 20
8 12 20 30

a) Obtenga una ecuación de regresión estimada para estos datos.


b) Calcule los residuales.
e) Trace una gráfica de residuales contra la variable independiente x. ¿Los supuestos acerca
de los términos del error parecen cumplirse?
d) Calcule los residuales estandarizados.
e) Elabore una gráfica de residuales estandarizados contra y. ¿Qué conclusiones puede for-
mular de esta gráfica?

46. En un estudio de regresión se emplearon los siguientes datos.

Observación X¡ J¡ Observación X¡ J¡
2 4 6 7 6
2 3 5 7 7 9
3 4 4 8 8 5
4 5 6 9 9 11
5 7 4

a) Obtenga una ecuación de regresión estimada para estos datos.


b) Trace una gráfica de residuales. ¿Los supuestos acerca del término del error parecen cum-
plirse?

Aplicaciones
47. A continuación se presentan datos sobre los gastos en publicidad y los ingresos (en miles de
AUTO eyaluación dólares) del restaurante Four Seasons.

Gastos en publicidad Ingresos


19
2 32
4 44
6 40
10 52
14 53
20 54

a) Sea x igual a gastos en publicidad y y igual a ingresos. Utilice el método de mínimos cua-
drados para obtener una recta que aproxime la relación entre las dos variables.
b) Utilizando 0.05 como nivel de significancia, pruebe si los ingresos y los gastos en publici-
dad están relacionados.
e) Elabore una gráfica de residuales de y - y contra y. Use el resultado del inciso a) para
obtener los valores de y.
d) ¿Qué conclusiones se pueden formular del análisis de residuales? ¿Se puede aplicar este
modelo o se debe buscar uno mejor?
14.9 Análisis de residuales: observaciones atípicas y observaciones inAuyentes 645

48. Remítase al ejercicio 7, donde se obtuvo una ecuación de regresión estimada que relaciona los
años de experiencia con las ventas anuales.
a) Calcule los residuales y trace una gráfica de residuales para este problema.
b) A la luz de la gráfica, ¿los supuestos acerca de los términos del error parecen razonables?

49. En 2011, los precios de las casas y las tasas de los créditos hipotecarios cayeron a un nivel
tan bajo que en muchas ciudades el costo de comprar una casa era menor que rentarla. Los
siguientes datos muestran los precios del alquiler o renta (Rent $) de 1Omercados y la hipoteca
mensual (Mortgage $) de una casa con precio sobre la mediana (con impuestos y seguro) en
10 ciudades con un pago hipotecario mensual promedio menor que la renta (The Wall Street
Joumal, 26-27 de noviembre de 2011).

City Rent ($) Mortgage ($)

Atlanta 840 539


Chicago 1062 1002
Detroit 823 626
Jacksonville, Fla. 779 711
DATA. Las Vegas 796 655
RentMortgage Miami 1071 977
Minneapolis 953 776
Orlando, Fla. 851 695
Phoenix 762 651
St. Louis 723 654

a) Desarrolle la ecuación de regresión estimada que pueda usarse para predecir la hipoteca
mensual a partir del precio de la renta.
b) Elabore una gráfica de residuales para la variable independiente.
e) A la luz de la gráfica, ¿los supuestos acerca de los términos del error y de la forma del
modelo parecen razonables?

Análisis de residuales: observaciones atípicas


y observaciones influyentes
En la sección 14.8 se mostró cómo aplicar el análisis de residuales para determinar infracciones
a los supuestos del modelo de regresión. En esta sección se retoma este análisis para identifi-
car observaciones que se pueden clasificar como atípicas o especialmente influyentes sobre la
ecuación de regresión estimada. También se analizan algunos pasos que deben seguirse cuando
se presentan tales observaciones.

Detección de observaciones atípicas


La figura 14.16 es un diagrama de dispersión de un conjunto de datos que contiene una ob-
servación atípica, un dato (una observación) que no sigue la tendencia del resto de los datos.
Las observaciones atípicas representan observaciones sospechosas que requieren un análisis
cuidadoso. Pueden consistir de datos erróneos; si es así, deben ser corregidos. Puede tratarse de
una violación de los supuestos del modelo; si es el caso, habrá que considerar otro modelo. Por
último, puede tratarse simplemente de valores inusuales que se presenten por casualidad. En ese
caso, esos valores deberán conservarse.
Para ilustrar el proceso de detección de las observaciones atípicas, considere el conjunto
de datos de la tabla 14.11; la figura 14.17 muestra el diagrama de dispersión respectivo. Con
excepción de la observación 4 (x4 = 3, y 4 = 75), estos datos parecen seguir un patrón que indica
una relación lineal negativa. En efecto, dado el patrón del resto de los datos, se esperaría que y 4
fuera mucho más pequeño, por lo que a esta observación se le considera atípica. En el caso de
646 Capítulo 14 Regresión lineal simple

FIGURA 14.16 Conjunto de datos con una observación atípica

. ~-··
/
,/'

.._.....,... . •·'
,1
/'"
•/
·'~

...•'.·'· •
• • ,,<"'

• f
'~
. _,,,...- Observación atípica

TABLA 14.11 la regresión lineal simple, las observaciones atípicas pueden detectarse mediante un sencillo
Conjunto de datos análisis del diagrama de dispersión.
para ilustrar el efecto Para detectar observaciones atípicas también se usan los residuales estandarizados. Si una
de una observación observación se aleja mucho del patrón del resto de los datos (por ejemplo, la observación atípica
atípica de la figura 14.16), el valor absoluto del correspondiente residual estandarizado será grande.
X¡ Y; Mucho del software identifica de manera automática las observaciones cuyos residuales tienen
1 45 un valor absoluto grande. En la figura 14.18 se presentan los resultados de Minitab para el aná-
1 55 lisis de regresión de los datos de la tabla 14. 1 L En la parte resaltada se lee que el residual estan-
2 50 darizado de la observación 4 es 2.67. Minitab proporciona una lista de todas las observaciones
3 75
3 40 cuyo residual estandarizado sea menor que -2 o mayor que +2 en la sección Unusual Obser-
3 45 vations de la pantalla; en tales casos la observación aparece en una fila aparte con una R al lado
4 30 del residual estandarizado, como se observa en la figura 14.18. Si los errores están distribuidos
4 35
5 25 normalmente, sólo 5% de los residuales estandarizados se encontrará fuera de estos límites.
6 15

FIGURA 14. 17 Diagrama de dispersión del conjunto de datos con observación atípica

80

60


• •
40 •


20


X
o 2 3 4 5 6

....
~ ~--::.""
14. 9 Análisis de residuales: observaciones atípicas y observaciones inAuyentes 647

FIGURA 14. 18 Resultado de Minitab para el análisis de regresión de un conjunto de datos con
una observación atípica

Regression Analysis: y Versus X


Analysis of Variance

SO URCE DF Adj SS Adj MS F-Value P-Value


Regression 1 1268.2 1268.2 7.90 0.023
Error 8 1284.3 160.5
Total 9 2552.5

Model Surnmary

s R-sq R-sq(adj)
12.6704 49.68% 43.39%

Coefficients
Term Coef SE Coef T-Value P-Value
Constant 64.96 9.258 7.02 0.000
X -7.33 2.608 -2.81 0.023

Regression Equation

y= 64.96 - 7.33 X

Fits and Diagnostics for Unusual Observations

Std
Obs y Fit Residual Res id
4 75.00 42.97 32.03 2.67 R

R Large residual

FIGURA 14. 19 Resultados de Minitab para un conjunto de datos con una observación atípica
corregida

Regression Analysis: y Versus X

Analysis of Variance

SO URCE DF Adj SS Adj MS F-Value P-Value


Regression 1 1139. 66 1139.66 41. 38 0.000
Error 8 220.34 27.54
Total 9 1360. 00

Model Summary

s R-sq R-sq(adj)
5.24808 83.80% 81. 77%

Coefficients

Term Coef SE Coef T-Value P-Value


Constant 59.24 3.83 15.45 0.000
X -6.95 l. 08 -6.43 0.000

Regression Equation

Y = 59.24 - 6.95 X
648 Capítulo 14 Regresión lineal simple

Para decidir qué hacer con una observación atípica, primero hay que verificar si es correcta.
Puede ser que se trate de un error en el que se incurre al anotar los datos o al ingresarlos a la
computadora. Suponga, por ejemplo, que al verificar la observación atípica de la figura 14.1?
se encuentra que hubo un error; el valor correcto de la observación 4 es x 4 = 3, y4 = 30. En l~
figura 14.19 se presenta el resultado que proporciona Minitab una vez corregido el valor de y
Se observa que el dato incorrecto afecta de forma significativa la bondad de ajuste. Con el dat~
correcto, el valor de R-sq aumenta de 49.68% a 83.8%, y el de b0 disminuye de 64.96 a 59.24
La pendiente de la recta cambia de -7.33 a -6.95 . La identificación de los datos atípicos per~
mite corregir errores y mejora los resultados de la regresión.

Detección de observaciones influyentes


Algunas veces una o más observaciones tienen una influencia fuerte en los resultados. En la
figura 14.20 se muestra un ejemplo de una observación influyente en una regresión lineal sim-
ple. La recta de regresión estimada tiene pendiente negativa, pero si la observación influyente
se elimina del conjunto de datos, la pendiente cambia a positiva y la intersección con el eje y es
menor. Es claro que esta sola observación tiene mucha más influencia sobre la recta de regresión
estimada que cualquiera otra; el efecto de la eliminación de cualquiera de las otras observacio-
nes sobre la ecuación de regresión estimada es muy pequeño.
Cuando sólo se tiene una variable independiente, las observaciones influyentes pueden
identificarse mediante un diagrama de dispersión. Una observación de este tipo puede ser atípica
(cuyo valor de y se desvía sustancialmente de la tendencia general), puede ser un valor de x muy
alejado de la media (por ejemplo, vea la figura 14.20), o tratarse de la combinación de estos dos
factores (un valor de y algo fuera de la tendencia y un valor de x un poco extremo).
Las observaciones influyentes deben examinarse con cuidado, dado el gran efecto que tie-
nen sobre la ecuación de regresión estimada. Lo primero que hay que hacer es verificar que no
se haya cometido algún error al recolectar los datos. Si se cometió, se corrige y se obtiene una
nueva ecuación de regresión estimada. Si la observación es válida, podemos considerarnos afor-
tunados. Tal dato, cuando es correcto, contribuye a una mejor comprensión del modelo adecua-
do y conduce a una mejor ecuación de regresión estimada. En la figura 14.20, la presencia de la
observación influyente, si es correcta, llevará a tratar de obtener datos con valores x intermedios
que permitan comprender mejor la relación entre x y y.
Las observaciones en las que la variable independiente asume valores extremos se denomi-
nan puntos (datos, observaciones) de gran influencia. La observación influyente de la figura
14.20 es un punto de gran influencia. La influencia de una observación depende de qué tan lejos
de su media se encuentra el valor de la variable independiente. En el caso de una sola variable
independiente, la influencia de la i-ésima observación, que se denota h¡, se calcula mediante la
ecuación (14.33).

FIGURA 14.20 Conjunto de datos con una observación influyente

•• Observación
14.9 Análisis de residuales: observaciones atípicas y observaciones influyentes 649

TABLA 14.12
INFLUENCIA DE LA OBSERVACIÓN i
Conjunto de datos con
una observación de
1 (X¡ - x) 2
gran influencia h . =-+-~-- (14.33)
' n L(X; - x)2
X¡ Y¡
10 125
10 130
15 120
20 115 Con base en esta fórmula, es claro que entre más alejada de su media x se encuentre X;, mayor
20 120
25 110 será la influencia de la observación i.
70 100 Mucho del software para estadística identifica automáticamente los puntos de gran influen-
cia como parte de los resultados de regresión estándar. Para ilustrar cómo identifica Minitab los
puntos de gran influencia, se considerará el conjunto de datos de la tabla 14.12.
Al revisar la figura 14.21, que es el diagrama de dispersión del conjunto de datos que se
presenta en la tabla 14.12, vemos que la observación 7 (x = 70, y = 100) tiene un valor extre-
mo de x. Por lo tanto, es de esperar que sea identificado como un punto de gran influencia. La
influencia de esta observación se calcula usando la ecuación (14.33) como sigue:

2 2
h = _!_ + (x 7 - :X) = _!_ + (70 - 24.286) = 0. 94
7
n L(X; - :X) 2 7 2621.43

En el caso de la regresión lineal simple, Minitab identifica como observaciones de gran in-
fluencia aquellas para las que h; > 6/n o 0.99, lo que sea menor. En el conjunto de datos de la
tabla 14.12, 6/n = 6/7 = 0.86. Como~ = 0.94 > 0.86, Minitab identificará la observación 7
El software es esencial como una cuyo valor de x tiene una gran influencia. En la figura 14.22 se presenta el resultado
para efectuar los cálculos que proporciona Minitab para el análisis de regresión de este conjunto de datos. A la 7 (x = 70,
que permiten identificar las
y = 100) la identifica como una observación de gran influencia y la presenta en una fila especial
observaciones influyentes.
Aquí se analiza la regla en la parte inferior de los resultados con una X en el margen derecho.
de selecci6n que emplea Las observaciones influyentes debido a la interacción de una observación de gran influencia
Minitab. y de residuales grandes suelen ser difíciles de detectar. Existen procedimientos de diagnóstico
que toman en cuenta ambos aspectos para determinar si una observación es influyente. En el
capítulo 15 se estudiará uno de estos procedimientos, el estadístico D de Cook.

FIGURA 14.21 Diagrama de dispersión del conjunto de datos con un dato de gran influencia

130.00 •


120.00 • •

110.00 • Observación de
gran influencia

100.00
.....__.__ _ _ _.___ _ __.__ _ ___._ _ _ _..__ _ _
~- ~---X

10.00 25 .00 40.00 55 .00 70.00 85 .00


650 Capítulo 14 Regresión lineal simple

FIGURA 14.22 Resultado de Minitab para el conjunto de datos con una observación de gran
influencia

Regression Analysis: y Versus X


Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 473.65 473.65 19.87 0.007
Error 5 119.21 23.84
Total 6 592.86
Model Summary
s R-sq R-sq(adj)
4.88282 79.89% 75. 87%
Coeff icients
Term Coef SE Coef T-Value P-Value
Constant 127.47 2.96 43.04 0.000
X -0.4251 0.0954 -4.46 0.007
Regression Equation
y= 127.47 - 0.4251 X
Fits and Diagnostics far Unusual Observations
Std
Obs y Fit Residual Res id
7 100.00 97. 71 2.29 1.91 X
X Unusual X

Una vez identificada una observación como poten- liarizado con el material más avanzado, un procedi-
cialmente influyente, debido a que tiene un residual miento sencillo es realizar el análisis de regresión con
grande, o por ser de gran influencia, su efecto en la y sin esa observación. Este método permite apreciar
ecuación de regresión estimada debe evaluarse. En el efecto de la observación potencialmente influyente
libros más avanzados se presentan los métodos apro- en el resultado.
piados de diagnóstico. Pero cuando no se está fami-

-------------------------------------------------------------------------==---

Métodos
50. Considere los siguientes datos para las variables x y y:
AUTO
X¡ 1135 110 130 145 175 160 120
100 120 120 130 130 110

a) Calcule los residuales estandarizados de estos datos. ¿Éstos incluyen alguna observación
atípica? Explique.
b) Trace una gráfica de residuales estandarizados contra y. ¿Se observa en esta gráfica alguna
observación atípica?
e) Con estos datos elabore un diagrama de dispersión. ¿Se aprecia en este diagrama alguna
observación atípica? En general, ¿qué consecuencias tienen estos hallazgos para la regre-
sión lineal simple?
14. 9 Análisis de residuales: observaciones atípicas y observaciones inAuyentes 651

51. Considere los siguientes datos para las variables x y y:

5 7 8 10 12 12 22

14 16 15 18 20 24 19

a) Calcule los residuales estandarizados de estos datos. ¿Identifica alguna observación atí-
pica? Explique.
b) Calcule los valores de influencia para estos datos. ¿Parece haber alguna observación in-
fluyente? Explique.
e) Elabore un diagrama de dispersión con estos datos. ¿Se advierte alguna observación atí-
pica? Explique.

Aplicaciones
52. Charity Navigator es el evaluador independiente de caridad más grande de Estados Unidos. Los
siguientes datos muestran el total de gastos (Total Expenses $), el porcentaje del presupues-
to total que se utiliza en gastos administrativos (Administrative Expenses), el porcentaje que
se gasta en recaudación de fondos (Fundraising Expenses) y el porcentaje que se utiliza en los
gastos de los programas (Program Expenses) para 10 organizaciones grandes de caridad (sitio
web de Charity Navigator, 12 de abril de 2012). Los gastos administrativos incluyen gastos
generales, personal administrativo y costos asociados, así como reuniones organizacionales.
Los gastos de recaudación de fondos es el dinero que la caridad gasta para obtener dinero, y
los gastos en programas y servicios son los que requiere para ofrecerlos. La suma de estos tres
porcentajes no es 100% por el redondeo .

Administrative Fundraising Program


Total Expenses Expenses Expenses Expenses
Charity ($) (%) (%) (%)
American Red Cross 3,354,177,445 3.9 3.8 92.1
World Vision 1,205,887 ,020 4.0 7.5 88.3
DATA. Smithsonian Institution 1,080,995 ,083 23.5 2.6 73 .7
Food For The Poor 1,050,829,851 0.7 2.4 96.8
Charities
American Cancer Society 1,003,781,897 6.1 22.2 71.6
Volunteers of America 929, 158,968 8.6 1.9 89.4
Dana-Farber Cancer Institute 877,321,613 13. l 1.6 85.2
AmeriCares 854,604,824 0.4 0.7 98.8
ALSAC-St. Jude Children's 829,662,076 9.6 16.9 73.4
Research Hospital
City ofHope 736,176,619 13.7 3.0 83.l

a) Elabore un diagrama de dispersión con .los gastos para la recaudación de fondos (Fundrai-
sing Expenses) en el eje horizontal y los gastos del programa (Program Expenses) en el eje
vertical. Observe los datos e identifique si existe alguna observación atípica o influyente.
b) Desarrolle una ecuación de regresión estimada que pueda utilizarse para predecir los gastos
del programa (Program Expenses), dados los gastos de recaudación de fondos (Fundraising
Expenses).
e) ¿Tiene sentido el valor de la pendiente en la ecuación de regresión estimada en el contexto
del problema?
d) Aplique el análisis residual para identificar observaciones atípicas u observaciones influ-
yentes. Resuma brevemente sus hallazgos y conclusiones.
53 . Numerosos países, en especial de Europa, tienen reservas significativas de oro, pero muchos
de ellos tienen también grandes niveles de endeudamiento. Los siguientes datos muestran el
valor total de las reservas de oro en miles de millones de dólares (Gold Value) y el nivel de
endeudamiento (Debt) como porcentaje del producto interno bruto para una muestra de nueve
países (sitios web de WordPress and Trading Economics, 24 de febrero de 2012).
652 Capítulo 14 Regresión lineal simple

Gold
Value Debt
Country ($ billions) (% ofGDP)
China 63 17.7
France 146 81.7
DATAl l Germany 203 83.2
Indonesia 33 69.2
GoldHoldlngs
Italy 147 119.0
Netherlands 36 63.7
Russia 50 9.9
Switzerland 62 55.0
United States 487 93.2

a) Elabore un diagrama de dispersión con el valor de las reservas de oro del país como variable
independiente.
b) ¿Qué le indica el diagrama de dispersión que elaboró en el inciso anterior sobre la relación
entre las dos variables? ¿Parecen existir observaciones atípicas u observaciones influyen-
tes? Explique su respuesta.
e) Utilice el banco de datos completo y desarrolle una ecuación de regresión estimada que
pueda emplearse para predecir el nivel de endeudamiento de un país, dado el valor de sus
reservas de oro.
d) Aplique el análisis residual para identificar observaciones atípicas u observaciones influ-
yentes.
e) Suponga que después de observar el diagrama de dispersión que elaboró en el inciso a)
puede identificar visualmente lo que parece ser una observación influyente. Elimine esta
observación del banco de datos y desarrolle la ecuación de regresión estimada con el resto
de los datos. Compare la pendiente estimada de la nueva ecuación de regresión estimada
con la que desarrolló en el inciso e). ¿Este enfoque confirma las conclusiones a las que
llegó en el inciso d)? Explique.
54. Los siguientes datos muestran los ingresos anuales (Revenue) en millones de dólares y el val01
estimado del equipo (Value) de los 30 principales equipos de las Grandes Ligas de béisbol de
Estados Unidos (sitio web de Forbes, 16 de enero de 2014).

Terun Revenue ($ millions) Value ($ millions)


Arizona Diamondbacks 195 584
Atlanta Braves 225 629
Baltimore Orioles 206 618
Boston Red Sox 336 1312
Chicago Cubs 274 1000
Chicago White Sox 216 692
Cincinnati Reds 202 546
Cleveland lndians 186 559
Colorado Rockies 199 537
DATAl l Detroit Tigers 238 643
MLBValues Houston Astros 196 626
Kansas City Royals 169 457
Los Angeles Angels of Anaheim 239 718
Los Angeles Dodgers 245 1615
Miarni Marlins 195 520
Milwaukee Brewers 201 562
Minnesota Twins 214 578
NewYorkMets 232 811
New York Yankees 471 2300
(continúa )
Glosario 653

Team Revenue ($ millions) Value ($ millions)


Oakland Athletics 173 468
Philadelphia Phillies 279 893
Pittsburgh Pirates 178 479
San Diego Padres 189 600
San Francisco Giants 262 786
Seattle Mariners 215 644
St. Louis Cardinals 239 716
Tampa Bay Rays 167 451
Tennessee Rangers 239 764
Toronto Blue Jays 203 568
Washington Nationals 225 631

a) Trace un diagrama de dispersión con Ingresos (Revenue) en el eje horizontal y Valor


(Value) en el vertical. A la luz del diagrama de dispersión, ¿parece haber observaciones
atípicas u observaciones influyentes en los datos?
b) Desarrolle una ecuación de regresión estimada que pueda usarse para predecir el valor del
equipo a partir de sus ingresos anuales.
e) Aplique el análisis residual para determinar si existen observaciones atípicas o influyentes.
Resuma brevemente sus hallazgos y conclusiones.

En este capítulo se estudia el análisis de regresión para determinar cómo es la relación entre una
variable dependiente y y una variable independiente x. En la regresión lineal simple, el mode-
lo de regresión es y = {3 0 + f3 1x + E. La ecuación de regresión lineal simple E(y) = {3 0 + {3 1x
describe la relación de la media o valor esperado de y con x. Para obtener la ecuación de regre-
sión estimada y = b0 + b 1x se emplearon datos muestrales y el método de mínimos cuadrados.
En efecto, b0 y b 1 son estadísticos muestrales útiles para estimar los parámetros desconocidos
del modelo, {3 0 y {3 1•
El coeficiente de determinación se presentó como una medida de la bondad de ajuste para
la ecuación de regresión estimada, y se puede interpretar como la proporción de la variación
en la variable dependiente y que puede explicarse por la ecuación de regresión estimada. Asi-
mismo, se revisó la correlación como una medida descriptiva de la intensidad de la relación
lineal entre dos variables.
Se analizaron los supuestos acerca del modelo de regresión y su correspondiente térmi-
no del error, y se presentaron las pruebas t y F, basadas en esos supuestos, como un medio para
determinar si la relación entre dos variables es estadísticamente significativa. Se mostró cómo
usar la ecuación de regresión estimada para obtener estimaciones de intervalos de confianza
para el valor medio de y y estimaciones por medio de intervalos de predicción para valores
individuales de y.
El capítulo concluyó con una sección sobre soluciones por computadora de los problemas
de regresión y dos secciones sobre el uso del análisis residual para validar los supuestos del .
modelo e identificar las observaciones atípicas e influyentes.

Análisis residual Análisis de los residuales que se usa para determinar si parecen ser válidos
los supuestos planteados acerca del modelo de regresión. También se utiliza para identificar
observaciones atípicas y observaciones influyentes.
Coeficiente de correlación Medida de la intensidad de la relación lineal entre dos variables
(ya estudiado en el capítulo 3).
654 Capítulo 14 Regresión lineal simple

Coeficiente de determinación Medida de la bondad de ajuste de la ecuación de regresión


estimada. Se interpreta como la proporción de la variabilidad en la variable dependiente y que
se explica por la ecuación de regresión estimada.
Diagrama de dispersión Gráfica de datos bivariados en la que la variable independiente se
ubica en el eje horizontal y la variable dependiente en el eje vertical.
Ecuación de regresión Ecuación que describe cómo se relaciona la media o valor esperado
de la variable dependiente con la variable independiente; en la regresión lineal simple, E(y) ::::
/Jo + f31x.
Ecuación de regresión estimada Estimación de la ecuación de regresión que se obtiene a
partir de datos muestrales aplicando el método de mínimos cuadrados. En la regresión lineal
simple, la ecuación de regresión estimada es y = b0 + b 1x.
Error cuadrado medio Estimación insesgada de la varianza del término del error a 2. Se
denota como ECM o s 2.
Error estándar de estimación Raíz cuadrada del error cuadrado medio; se denota como s. Es
una estimación de a, la desviación estándar del término del error E.
Gráfica de probabilidad normal Gráfica en la que los residuales estandarizados se grafican
contra los puntos normales. Ayuda a determinar si parece ser válido el supuesto de que los tér-
minos del error tienen una distribución normal.
Gráfica de residuales Representación gráfica de los residuales. Se usa para determinar si
parecen ser válidos los supuestos planteados acerca del modelo de regresión.
Intervalo de confianza Estimación por intervalo del valor medio de y para un valor dado de x.
Intervalo de predicción Estimación por intervalo de un solo valor de y para un valor dado
dex.
Método de mínimos cuadrados Procedimiento para obtener la ecuación de regresión estima-
da. El objetivo es minimizar 2:(y¡ - y¡)2.
Modelo de regresión Ecuación que describe cómo se relacionan y y x, más un término del
error. En la regresión lineal simple, el modelo de regresión es y = /3 0 + /3 1x + E.
Observación atípica Dato u observación que no sigue la tendencia del resto de los datos .
Observación influyente Observación que tiene una fuerte influencia o efecto en los resulta-
dos de regresión.
Puntos de gran influencia Observaciones en las que la variable independiente presenta va-
lores extremos.
Regresión lineal simple Análisis de regresión en el que participan una variable independiente
y una variable dependiente, y la relación entre estas variables se aproxima mediante una recta.
Residual estandarizado Valor que se obtiene al dividir un residual entre su desviación es-
tándar.
Residual i-ésimo Diferencia que existe entre el valor observado de la variable dependiente y
el valor predicho aplicando la ecuación de regresión estimada; para la observación i-ésima, el
residual i-ésimo es Y¡ - Y¡·
Tabla de ANOVA En el análisis de varianza, tabla que se usa para resumir los cálculos asocia-
dos con la prueba F de significancia.
Variable dependiente Variable que se predice o se explica. Se denota con y.
Variable independiente Variable que predice o se explica. Se denota con x.

Modelo de regresión lineal simple

y =/Jo + f31x + E ( 14. 1)

Ecuación de regresión lineal simple

E(y) = /Jo + f31x (14.2)


Fórmulas clave 655

Ecuación de regresión lineal simple estimada

( 14.3)

Criterio de mínimos cuadrados

(14.5)

Pendiente e intersección con el eje y de la ecuación de regresión estimada


b = _2:_(x~;-_x)_(Y~;_-_y_)
1 (14.6)
L(X; - :x)2

(14.7)

Suma de cuadrados debido al error

SCE = L(Y; - y¡)2 (14.8)

Suma total de cuadrados

STC = L(Y; - y) 2 (14.9)

Suma de cuadrados debido a la regresión

SCR = L(Y; - y)2 (14.10)

Relación entre STC, SCR y SCE

STC = SCR + SCE ( 14.11)

Coeficiente de determinación
SCR
r2 = - - (14.12)
STC

Coeficiente de correlación muestral

rr; = (signo de b 1)VCoeficiente de determinación


(14.13)
= (signo de b 1)..¡;:'5-

Error cuadrado medio (estimación de q 2)

SCE
s 2 = ECM = - - ( 14.15)
n - 2

Error estándar de estimación

( 14.16)

Desviación estándar de b1
a
a =-;==== (14.17)
b¡ V2:Cx; - :x)2

Desviación estándar estimada de b 1


s
s =-;==== ( 14. 18)
º1 V2:(x¡ - :x)2
656 Capítulo 14 Regresión lineal simple

Estadístico de prueba t

( 14.19)

Cuadrado medio de la regresión

SCR
CMR = ~~~~~~~~~~~~-
(14.20)
Número de variables independientes

Estadístico de prueba F
CMR
F=-- ( 14.21)
ECM

Desviación estándar estimada de y*

1 (x* - x)
s.Y* = s - + - - - -2 ( 14.23)
n 2:(x; - :X)

Intervalo de confianza para E(y*)

(14.24)

Desviación estándar estimada para un solo valor

~ 1 (x* - x)2
s
pred
=s I+-+
n L(X; - :X)2 (14.26)

Intervalo de predicción para y*

(14.27)

Residual de la observación i
Y; - Y; ( 14.28)

Desviación estándar del residual i-ésimo

( 14.30)

Residual estandarizado de la observación i

Y; -y¡
(14.32)
sY;-.Y;

Influencia de la observación i

h. = ..!_ + (x; - :X)2 (14.33)


' n 2:(x; - :X)2

55. ¿Un valor alto de r 2 implica que entre las dos variables existe una relación de causa y efecto?
Explique.
56. Explique la diferencia entre un intervalo de estimación del valor medio de y dado el valor de x
y el intervalo de estimación para un valor individual de y para una x determinada.
Ejercicios complementarios 657

57. ¿Qué objeto tiene probar si /3 1 = O? Si se rechaza que /3 1 = O, ¿eso significa un buen ajuste?
58. Los índices de Dow Jorres Industrial Average (DITA) y Standard & Poor's 500 (S&P 500)
se emplean como medidas de los movimientos generales en el mercado de valores. El DITA se
basa en el movimiento en los precios de 30 empresas grandes, mientras que el S&P 500 es un
índice conformado por 500 acciones. Algunos dicen que el S&P 500 es una mejor medida del
desempeño del mercado de valores porque su base es más amplia. A continuación se presentan
los precios de cierre para el DITA y el S&P 500 durante 15 semanas, comenzando el 6 de enero
de 2012 (sitio web Barran, 17 de abril de 2012).

Date DJIA S&P

January 6 12,360 1278


January 13 12,422 1289
January 20 12,720 1315
January 27 12,660 1316
February 3 12,862 1345
February 10 12,801 1343
DATA. February 17 12,950 1362
DJIAS&PSOO February 24 12,983 1366
March 2 12,978 1370
March 9 12,922 1371
March 16 13,233 1404
March 23 13,081 1397
March 30 13,212 1408
April 5 13,060 1398
April 13 12,850 1370

a) Elabore un diagrama de dispersión con DITA como variable independiente.


b) Desarrolle la ecuación de regresión estimada.
e) Pruebe si existe una relación significativa con un a = 0.05.
d) ¿La ecuación de regresión estimada muestra bondad de ajuste? Explique.
e) Suponga que el precio de cierre para el DITA es 13 500. Prediga el precio de cierre del S&P
500.
f) ¿Debe preocuparnos que el valor del precio de cierre del DITA de 13 500 utilizado para pre-
decir el valor del S&P 500 en el inciso e) se encuentra fuera del rango de datos empleados
para desarrollar la ecuación de regresión estimada?

59. ¿La cantidad de pies cuadrados de espacio habitable es un buen predictor del precio de venta de
una casa? Los siguientes datos muestran el área (Size) y el precio de venta (Selling Price) para
quince casas en Winston Salem, Carolina del Norte (Zillow.com, 5 de abril de 2015).

Size Selling Price


(lOOOs sq. ft) ($1000s)
1.26 117.5
3.02 299.9
DATAllJI 1.99 139.0
WSHouses
0.91 45.6
1.87 129.9
2.63 274.9
(continúa)
658 Capítulo 14 Regresión lineal simple

Size Selling Price


(lOOOs sq. ft) ($1000s)

2.60 259.9
2.27 177.0
2.30 175.0
2.08 189.9
1.12 95 .0
1.38 82.1
1.80 169.0
1.57 96.5
1.45 114.9

a) Trace el diagrama de dispersión, con el espacio habitable como variable independiente y


el precio de venta como variable dependiente. ¿Qué le indica el diagrama sobre la relación
entre el tamaño y el precio de venta de la casa?
b) Desarrolle una ecuación de regresión estimada que pueda predecir el precio de venta con
el número de pies cuadrados habitables.
e) ¿Existe una relación significativa entre las dos variables con 0.05 de significancia?
d) Utilice la ecuación de regresión estimada para predecir el precio de venta de casas de 2 000
pies cuadrados en Winston Salem, Carolina del Norte.
e) ¿Considera que la ecuación de regresión estimada desarrollada en el inciso b) es un buen
predictor del precio de venta de una casa determinada en la localidad?
f) ¿Se sentiría cómodo al usar la ecuación de regresión del inciso b) para predecir el precio
de venta de una casa determinada en Seattle, Washington? ¿Por qué?

60. Uno de los más grandes cambios en la educación superior de los años recientes ha sido el
crecimiento de las universidades en línea. La Online Education Database es una organización
independiente cuya misión es elaborar una lista amplia de las universidades en línea más acre-
ditadas. La siguiente tabla muestra los porcentajes(%) de la tasa de retención (Retention Rate)
y la tasa de graduación (Graduation Rate) de 29 universidades.

Retention Graduation
Rate (%) Rate ($)

7 25
51 25
4 28
29 32
33 33
47 33
63 34
DATA. 45 36
OnlineEdu 60 36
62 36
67 36
65 37
78 37
75 38
54 39
45 41
38 44
(continúa )
Ejercicios complementarios 659

Retention Graduatioo
Rate (%) Rate ($)

51 45
69 46
60 47
37 48
63 50
73 51
78 52
48 53
95 55
68 56
100 57
100 61

a) Trace el diagrama de dispersión con la tasa de retención como variable independiente.


¿Qué indica el diagrama respecto de la relación entre las dos variables?
b) Obtenga la ecuación de regresión estimada.
e) Pruebe la significancia de la relación. Use a = 0.05 .
d) ¿La ecuación de regresión estimada proporciona un buen ajuste? Explique.
e) Suponga que usted es el rector de South University. Luego de revisar los resultados, ¿es-
taría usted preocupado por el desempeño de su institución comparada con otras universi-
dades en línea?
f) Ahora suponga que es el rector de la Universidad de Phoenix. Luego de revisar los resul-
tados, ¿estaría usted preocupado por el desempeño de su institución comparada con otras
universidades en línea?

61. Jensen Tire & Auto está en el proceso de decidir si firma un contrato de mantenimiento para
su nueva máquina de alineación y balanceo de neumáticos por computadora. Los gerentes
piensan que los gastos de mantenimiento deberán relacionarse con el uso, y recabaron los datos
siguientes acerca del uso semanal en horas (Weekly Usage/hours) y los gastos anuales de man-
tenimiento (A.'lilual Maintenance Expense) en cientos de dólares.

Week.ly Usage Annual


(hours) Maintenance Expense
13 17.0
10 22.0
20 30.0
28 37.0
Jensen
32 47.0
17 30.5
24 32.5
31 39.0
40 51.5
38 40.0

a) Obtenga la ecuación de regresión estimada que relaciona los gastos anuales de manteni-
miento con el uso semanal.
b) Pruebe la significancia de la relación del inciso a) con 0.05 como nivel de significancia.
e) Jensen espera usar la nueva máquina 30 horas a la semana. Obtenga un intervalo de pre-
dicción de 95% para los gastos anuales de mantenimiento de la empresa.
d) Si el precio del contrato de mantenimiento es por $3 000 anuales, ¿recomendaría firmarlo?
¿Por qué?
660 Capítulo 14 Regresión lineal simple

62. En un detenninado proceso de manufactura, se cree que la velocidad (pies por minuto) de la
línea de ensamble afecta el número de partes defectuosas halladas en el proceso de inspección.
Para probar esto, los gerentes han ideado un procedimiento en el que la misma cantidad de par-
tes por lote se examina visualmente a diferentes velocidades de la línea. Se obtienen los datos
siguientes:

Número de partes
Velocidad de la línea defectuosas encontradas
20 21
20 19
40 15
30 16
60 14
40 17

a) Obtenga la ecuación de regresión estimada que relaciona la velocidad de la línea de pro-


ducción con el número de partes defectuosas encontradas.
b) Empleando un nivel de significancia 0.05, determine si la velocidad de la línea y el número
de partes defectuosas están relacionados.
e) ¿La ecuación de regresión estimada proporciona un buen ajuste de los datos?
d) Obtenga un intervalo de confianza de 95% para predecir el número medio de partes de-
fectuosas si la velocidad de la línea es de 50 pies por minuto.
63. Un hospital de una ciudad grande contrató a un sociólogo para que investigara la relación entre
el número de días de ausencia (Number of Days Absent) de los empleados sin autorización por
año y la distancia en millas entre su casa y el trabajo (Distance to Work/miles). Se tomó una
muestra de 10 empleados y se obtuvieron los datos siguientes:

Distance to Work (miles) Number of Days Absent


1 8
3 5
4 8
6 7
8 6
Absent 10 3
12 5
14 2
14 4
18 2

a) Con estos datos elabore un diagrama de dispersión. ¿Aparenta ser razonable una relación
lineal? Explique.
b) Obtenga por el método de núnimos cuadrados la ecuación de regresión estimada.
e) ¿Existe una relación significativa entre las dos variables? Use a = 0.05 .
d) ¿La ecuación de regresión estimada proporciona un buen ajuste? Explique.
e) Utilice la ecuación de regresión estimada obtenida en el inciso b) para calcular un inter-
valo de confianza de 95% para el número esperado de días de ausencia de los empleados
que viven a 5 millas de la empresa.
64. La autoridad de tránsito local de una zona metropolitana importante desea determinar si existe
relación entre la antigüedad de un autobús (Age ofBus/years) y los gastos anuales derivados de
su mantenimiento (Maintenance Cost/$). En una muestra de 10 autobuses se obtuvieron los
datos siguientes.
Ejercicios complementarios 661

Age of Bus (years) Maintenance Cost ($)


350
2 370
2 480
2 520
2 590
AgeCost 3 550
4 750
4 800
5 790
5 950

a) Con ayuda del método de mínimos cuadrados, obtenga la ecuación de regresión estimada.
b) Realice una prueba para determinar si las dos variables se relacionan de manera significa-
tiva con a = 0.05.
e) ¿La recta de mínimos cuadrados proporciona un buen ajuste a los datos observados? Ex-
plique.
d) Calcule un intervalo de predicción de 95% para los gastos de mantenimiento de un deter-
minado autobús cuya antigüedad es de 4 años.

65 . Un profesor de marketing del Givens College desea conocer la relación entre las horas desti-
nadas al estudio (Hours Spent Studying) y la calificación obtenida (Total Points Earned) en un
curso. A continuación se presentan los datos obtenidos de 10 estudiantes que tomaron el curso
el trimestre pasado.

Hours Total
Spent Studying Points Eamed
45 40
30 35
90 75
60 65
HoursPts
105 90
65 50
90 90
80 80
55 45
75 65

a) Obtenga la ecuación de regresión estimada que indica la relación entre la calificación


obtenida y las horas dedicadas al estudio.
b) Empleando a = 0.05, pruebe la significancia del modelo.
e) Prediga la calificación total que obtendrá Mark Sweeney, quien dedicó 95 horas al estudio.
d) Calcule un intervalo de predicción de 95% para la calificación de Mark Sweeney.

66. Las betas del mercado para las acciones individuales son determinadas por una regresión lineal
simple. Por cada acción, la variable dependiente es el porcentaje de su rendimiento trimestral
(la apreciación de capital más dividendos) menos el porcentaje del rendimiento que podria ob-
tenerse en una inversión libre de riesgo (la tasa de los bonos del Tesoro se usa como tasa libre de
riesgo). La variable independiente es el porcentaje de rendimiento trimestral (la apreciación
de capital más dividendos) para el mercado de valores (S&P 500) menos el porcentaje de ren-
dimiento de inversión libre de riesgo. La ecuación de regresión estimada se desarrolla con datos
trimestrales; la beta del mercado para la acción es la pendiente de la ecuación de regresión esti-
mada (b 1) . Con frecuencia, el valor de la beta del mercado se interpreta como medida del riesgo
asociado con la acción. Las betas de mercado superiores a 1 indican que la acción es más volátil
662 Capítulo 14 Regresión lineal simple

que el promedio del mercado, mientras que las menores de 1 son menos volátiles que el pro-
medio. Suponga que los siguientes datos son las diferencias entre el porcentaje de rendimiento
y el rendimiento libre de riesgo para S&P 500 y Horizon Technology durante 10 trimestres.

S&PSOO Horizoo
1.2 -0.7
-2.5 -2.0
-3.0 -5.5
2.0 4.7
5.0 1.8
MktBeta 1.2 4.1
3.0 2.6
-1.0 2.0
0.5 -1.3
2.5 5.5

a) Desarrolle la ecuación de regresión estimada que podría usarse para predecir la beta del
mercado para Horizon Technology. ¿Cuál es la beta de Horizon Technology?
b) Pruebe si existe una relación significativa con un nivel de significancia de 0.05.
e) ¿La ecuación de regresión estimada ofrece un buen ajuste? Explique.
d) Utilice las betas de mercado de Xerox y de Horizon Technology para comparar el riesgo
asociado de las dos acciones.
67. La Transactional Records Access Clearinghouse de la Universidad de Syracuse publica datos
que muestran las probabilidades de una auditoría del Departamento del Tesoro de Estados Uni-
dos. En la siguiente tabla se muestra la media del ingreso bruto ajustado (Adjusted Gross In-
come) y el porcentaje de declaraciones que fueron auditadas (Percent Audited) en 20 distritos .

Adjusted Perceot
District Gross Income ($) Aud.ited
Los Ángeles 36,664 1.3
Sacramento 38,845 1.1
Atlanta 34,886 1.1
Boise 32,512 1.1
DATA. Dallas 34,531 1.0
IRSAudit Providence 35,995 1.0
San José 37,799 0.9
Cheyenne 33,876 0.9
Fargo 30,513 0.9
Nueva Orleáns 30,174 0.9
Oklahoma City 30,060 0.8
Houston 37,153 0.8
Portland 34,918 0.7
Phoenix 33,291 0.7
Augusta 31,504 0.7
Albuquerque 29,199 0.6
Greensboro 33,072 0.6
Columbia 30,859 0.5
Nashville 32,566 0.5
Buffalo 34,296 0.5

a) Obtenga la ecuación de regresión estimada que sirve para predecir el porcentaje de audito-
rías, dado el promedio del ingreso bruto ajustado que se reportó.
b) Empleando como nivel de significancia 0.05, determine si hay relación entre el ingreso
bruto ajustado y el porcentaje de auditorías.
Caso práctico l Medición del riesgo en el mercado de valores 663

e) ¿La ecuación de regresión estimada proporciona un buen ajuste? Explique.


d) Con la ecuación de regresión estimada del inciso a) calcule un intervalo de confianza de
95% para el porcentaje esperado de auditorías en un distrito donde el promedio del ingreso
bruto ajustado es $35 000.
68. El Camry de Toyota es uno de los automóviles más vendidos en Estados Unidos. El precio
de un Camry usado depende de varios factores, como el modelo, las millas recorridas y las
condiciones generales. Con el fin de investigar la relación entre las millas recorridas (Miles) y
el precio de venta (Price) de un Camry modelo 2007, se presentan los datos de las millas reco-
rridas y precio de 19 operaciones de venta (sitio web de PriceHub, 24 de febrero de 2012).

Miles (lOOOs) Price ($1000s)


22 16.2
29 16.0
36 13.8
47 11.5
DATA. 63 12.5
Camry 77 12.9
73 11.2
87 13.0
92 11.8
101 10.8
110 8.3
28 12.5
59 11.1
68 15.0
68 12.2
91 13.0
42 15.6
65 12.7
110 8.3

a) Elabore un diagrama de dispersión utilizando las millas recorridas de los automóviles en


el eje horizontal y el precio en el eje vertical.
b) ¿Qué le indica el diagrama que desarrolló en el inciso anterior sobre la relación entre las
variables?
e) Desarrolle una ecuación de regresión estimada que pueda emplearse para predecir el precio
del automóvil dadas las millas recorridas.
d) Pruebe si existe una relación significativa con un nivel de significancia de 0.05.
e) ¿La ecuación de regresión estimada muestra bondad de ajuste? Explique.
f) Interprete la pendiente de la ecuación de regresión estimada.
g) Suponga que está considerando comprar un Camry 2007 usado que tiene 60000 millas
recorridas . Prediga el precio de este automóvil utilizando la ecuación de regresión estimada
que desarrolló en el inciso e). ¿Ofrecería este precio al vendedor?

Caso práctico 1 Medición del riesgo en el mercado de valores


Una medida del riesgo o volatilidad de una acción bursátil es la desviación estándar del rendi-
miento total (apreciación del capital más dividendos) durante varios periodos. Aunque la des-
viación estándar es fácil de calcular, no considera la variación del precio de una acción en
función de un índice estándar del mercado, como el S&P 500. Por esta razón, muchos analistas
financieros prefieren emplear otra medida para medir el riesgo, conocida como beta.
La beta de una acción individual se determina mediante regresión lineal simple. La variable
dependiente es la rentabilidad total de la acción de que se trate y la variable independiente es
664 Capítulo 14 Regresión lineal simple

DATA f'ltRl~ la rentabilidad total del mercado de valores.* En este caso práctico se utilizará el índice S&p
¡¡¡ 500 como medida de la rentabilidad total del mercado de valores y se obtendrá una ecuación
Beta de regresión estimada usando datos mensuales. La beta de una acción es la pendiente en la
ecuación de regresión estimada (b¡). Los datos del archivo Beta proporcionan la rentabilidad
total (apreciación del capital más dividendos) de ocho acciones comunes muy conocidas y la
del S&P 500 a lo largo de 36 meses.
El valor beta del mercado bursátil siempre será 1; por lo tanto, una acción que tienda a
aumentar o a disminuir con el mercado bursátil tendrá también una beta cercana a l. Betas
mayores que 1 corresponden a acciones más volátiles que el mercado y betas menores que 1
corresponden a acciones menos volátiles que el mercado. Por ejemplo, si la beta de una acción
es 1.4, esta acción es 40% más volátil que el mercado, y si es 0.4, la acción es 60% menos volátil
que el mercado.

Informe gerencial
Se le ha encomendado la tarea de analizar las características del riesgo de estas acciones. Ela-
bore un informe que comprenda los puntos siguientes, sin limitarse sólo a ellos.

a) Calcular los estadísticos descriptivos de cada una de las acciones y del S&P 500. Co-
mente los resultados. ¿Qué acción es la más volátil?
b) Calcular la beta de cada acción. ¿Cuál de estas acciones se esperaría que se comportara
mejor en un mercado de alta calidad? ¿Cuál conservaría mejor su valor en un mercado
para el sector popular?
e) Comente qué tanto de la rentabilidad de cada una de las acciones es explicada por el
mercado.

Caso práctico 2 Departamento del Transporte de Estados Unidos


Como parte de un estudio sobre seguridad en el transporte, el Departamento del Transporte de Es-
tados Unidos recabó datos de una muestra de 42 ciudades sqbre el número de accidentes fatales
por cada 1000 licencias (Fatal Accidents per 1000 Licenses) autorizadas, y sobre el porcentaje
de licencias de conductores menores de 21 años (Percent Under 21). A continuación se pre-
sentan los datos obtenidos en el lapso de un año, los cuales se encuentran en el archivo Safety.

Percent Fatal Accidents Percent Fatal Accidents


Under21 per 1000 Licenses Under 21 per 1000 Licenses
13 2.962 17 4.100
12 0.708 8 2.190
8 0.885 16 3.623
12 1.652 15 2.623
DATA. 11 2.091 9 0.835
Safety
17 2.627 8 0.820
18 3.830 14 2.890
8 0.368 8 1.267
13 1.142 15 3.224
8. 0.645 10 1.014
9· 1.028 10 0.493
(continúa)

• Distintos fuentes emplean diferentes métodos para calcular las betas. Por ejemplo, algunas fuentes, antes de calcular la
ecuación de regresión estimada, restan de las variables tanto dependiente como independiente la rentabilidad que pc-
dría haberse obtenido con una inversión libre de riesgo (por ejemplo, letras del Tesoro o T-bills). Otras emplean diversos
índices para la rentabilidad total del mercado de valores; por ejemplo, Value Line calcula las betas utilizando el índice
compuesto de la bolsa de Nueva York.
Caso práctico 3 Cómo seleccionar una cámara digital 665

Percent Fatal Accidents Percent Fatal Accidents


Under 21 per 1000 Licenses Under 21 per 1000 Licenses
16 2.801 14 1.443
12 1.405 18 3.614
9 1.433 10 1.926
10 0.039 14 1.643
9 0.338 16 2.943
11 1.849 12 1.913
12 2.246 15 2.814
14 2.855 13 2.634
14 2.352 9 0.926
11 1.294 17 3.256

Informe gerencial
l. Elabore resúmenes numéricos y gráficos de los datos.
2. Aplique el análisis de regresión para investigar la relación entre el número de accidentes
fatales y el porcentaje de conductores menores de 21 años. Analice sus hallazgos.
3. ¿Qué conclusión y recomendaciones puede deducir a partir de su análisis?

Caso práctico 3 Cómo seleccionar una cámara digital


La revista Consumer Reports evaluó 166 cámaras digitales con base en una calificación gene-
ral que incluía factores como número de megapíxeles, peso (en onzas), calidad de imagen y
facilidad de uso. Las calificaciones generales van de O a 100, en las que los puntajes más altos
indican un mejor resultado. Elegir una cámara entre muchas opciones puede ser un proceso
difícil, siendo el precio uno de los factores clave para la mayoría de los consumidores, pero si
un consumidor gasta más, ¿obtendrá en realidad una cámara de calidad superior? Por otro lado,
¿las cámaras con más megapíxeles, un factor que se asocia con la calidad de imagen, cuestan
más que las demás? La tabla 14.3 muestra la marca (Brand), precio promedio de venta (Price),
número de megapíxeles (Megapixels), peso en onzas (Weight) y la calificación general (Score)
de 13 cámaras subcompactas de Canon y 15 de Nikon evaluadas por Consumer Reports (sitio
web de Consumer Reports, 7 de febrero de 2012).

Informe gerencial
l. Elabore resúmenes numéricos de los datos.
2. Utilice la calificación general como variable dependiente y elabore tres diagramas de
dispersión empleando en cada caso como variables independientes el precio, el número
de megapíxeJes y el peso. ¿Cuál de las tres variables independientes parece ser un mejor
predictor de la calificación general?
3. Utilice la regresión lineal simple y desarrolle una ecuación de regresión estimada que
pueda utilizarse para predecir la calificación general, dado el precio de la cámara. Para
esta ecuación de regresión estimada realice un análisis residual y analice sus hallazgos
y conclusiones.
4. Con ayuda sólo de los datos de las cámaras de Canon, analice si es apropiado utilizar
la regresión lineal simple y realice las recomendaciones pertinentes en relación con la
predicción de la calificación general utilizando el precio de la cámara.
666 Capítulo 14 Regresión lineal simple

TABlA 14.13 Datos de 28 cámaras digitales

Price Weight
Observation Brand ($) Megapixels (oz.) Seo re
Canon 330 10 7 66
2 Canon 200 12 5 66
3 Canon 300 12 7 65
4 Canon 200 10 6 62
5 Canon 180 12 5 62
DATAIUI 6 Canon 200 12 7 61
Cameras 7 Canon 200 14 5 60
8 Canon 130 10 7 60
9 Canon 130 12 5 59
10 Canon 110 16 5 55
11 Canon 90 14 5 52
12 Canon 100 10 6 51
13 Canon 90 12 7 46
14 Nikon 270 16 5 65
15 Nikon 300 16 7 63
16 Nikon 200 14 6 61
17 Nikon 400 14 7 59
18 Nikon 120 14 5 57
19 Nikon 170 16 6 56
20 Nikon 150 12 5 56
21 Nikon 230 14 6 55
22 Nikon 180 12 6 53
23 Nikon 130 12 6 53
24 Nikon 80 12 7 52
25 Nikon 80 14 7 50
26 ' Nikon 100 12 4 46
27 Nikon 110 12 5 45
28 Nikon 130 14 4 42

Caso práctico 4 Cómo encontrar el automóvil de mayor valor


Cuando tratamos de decidir qué automóvil comprar, el valor real no se determina necesariamen-
te por cuánto se gasta en la compra inicial. En vez de ello, los automóviles que son confiables
y económicos representan a menudo las opciones de mayor valor, pero sin importar qué tan
confiable o económico sea, deben funcionar correctamente.
La revista Consumer Reports desarrolló una estadística conocida como calificación de valor
para medir el valor de los automóviles, la cual se basa en los costos de los automóviles en un pe-
riodo de cinco años, calificaciones generales de pruebas y tasas predichas de confiabilidad. Los
costos en el periodo de cinco años incluyen los costos durante los primeros cinco años de vida
del aut9móvil, considerando depreciación, combustible, mantenimiento y reparaciones, entre
otros. Para estos costos se emplea la medida de costo por milla conducida (Cost per Mile Dri-
ven) tomando como promedio 12000 millas anuales. Las calificaciones de pruebas generales
(Road Test Score) incluyen los resultados de más de 50 pruebas y evaluaciones en una escala de
100 puntos, en la cual los puntajes más altos indican mejor desempeño, comodidad, convenien-
cia y rendimiento del combustible. El automóvil evaluado por Consumer Reports que obtuvo la
mejor calificación fue el Lexus LS 460L, con un puntaje de 99. Las calificaciones de confiabi-
lidad predicha (Predicted Reliability) (1 = Deficiente, 2 = Justo, 3 = Bueno, 4 = Muy bueno
y 5 = Excelente) se basan en los datos de la encuesta Consumer Reports' Annual Auto Survey.
Coso práctico 5 Buckeye Creek Amusement Pork 667

Un automóvil con un puntaje de valor de 1.0 se considera como "valor promedio". Uno con
un puntaje de 2.0 se considera dos veces tan bueno como un automóvil con un puntaje de 1.0; un
automóvil con un puntaje de valor de 0.5 se considera promedio, y así sucesivamente. Los da-
tos de 20 automóviles familiares, incluyendo el precio ($) de cada vehículo probado, son los
siguientes:

Road-
Test Predicted Value
Car Price ($) Cost/Mile Seo re Reliability Seo re
Nissan Altima 2.5 S (4-cyl.) 23,970 0.59 91 4 1.75
Kia Optima LX (2.4) 21,885 0.58 81 4 1.73
Subaru Legacy 2.5i Premium 23,830 0.59 83 4 1.73
Ford Fusion Hybrid 32,360 0.63 84 5 1.70
Honda Accord LX-P (4-cyl.) 23,730 0.56 80 4 1.62
Mazda6 i Sport (4-cyl.) 22,035 0.58 73 4 1.60
Hyundai Sonata GLS (2.4) 21,800 0.56 89 3 1.58
Ford Fusion SE (4-cyl.) 23,625 0.57 76 4 1.55
DATA. Chevrolet Malibu LT (4-cyl.) 24,115 0.57 74 3 1.48
FamilySedans Kia Optima SX (2.0T) 29,050 0.72 84 4 1.43
Ford Fusion SEL (V6) 28,400 0.67 80 4 1.42
Nissan Altima 3.5 SR (V6) 30,335 0.69 93 4 1.42
Hyundai Sonata Limited (2.0T) 28,090 0.66 89 3 1.39
Honda Accord EX-L (V6) 28,695 0.67 90 3 1.36
Mazda6 s Grand Touring (V6) 30,790 0.74 81 4 1.34
Ford Fusion SEL (V6, AWD) 30,055 0.71 75 4 1.32
Subaru Legacy 3.6R Limited 30,094 0.71 88 3 1.29
Chevrolet Malibu LTZ (V6) 28,045 0.67 83 3 1.20
Chrysler 200 Limited (V6) 27,825 0.70 52 5 1.20
Chevrolet Impala LT (3.6) 28,995 0.67 63 3 1.05

Informe gerencial
l. Elabore resúmenes numéricos de los datos.
2. Utilice el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación del valor, dado el precio del automóvil.
3. Aplique el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación del valor, dado el costo de los primeros cinco
años de vida del automóvil.
4. Utilice el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación de las pruebas generales.
S. Utilice el análisis de regresión para obtener una ecuación de regresión estimada que
pueda usarse para predecir la calificación del valor, dada la confiabilidad predicha.
6. ¿A qué conclusiones llega con este análisis?

Caso prácticos Buckeye Creek Amusement Park


El parque de diversiones Buckeye Creek abre de inicios de mayo a finales de octubre. El parque
DATA depende de las ventas de pases por temporada, las cuales le generan importantes ingresos antes
BuckeyeCreek de su apertura. Además, los compradores de pases contribuyen con una parte importante de las
ventas de alimentos, bebidas y novedades en el parque. Se le solicita a Greg Ross, director de
marketing, que desarrolle una campaña destinada a incrementar las ventas de pases de temporada.
668 Capítulo 14 Regresión lineal simple

Greg cuenta con datos de la última temporada, como el número de clientes que compraron
el pase, por código o zona postal, dentro de un área de 50 millas del parque. También cuenta con
la población total por código postal en el sitio web del U.S. Census Bureau. Greg considera que
puede emplear el análisis de regresión para predecir la cantidad de clientes en un código postal
determinado a partir de su población total. De ser posible, podría desarrollar una campaña de
correo directo dirigida a los códigos postales, donde la cantidad de clientes es menor que la
esperada.

Informe gerencial
l. Calcule las estadísticas descriptivas y con los datos trace un diagrama de dispersión.
Analice sus hallazgos.
2. Utilice la regresión lineal simple para desarrollar una ecuación de regresión estimada
que pueda usarse para predecir el número de clientes por código postal a partir de su
población total.
3. Pruebe si existe una relación significativa a un nivel de significancia de 0.05.
4. ¿La ecuación de regresión estimada tiene un buen ajuste?
5. Utilice el análisis residual para determinar si el modelo de regresión es apropiado.
6. Analice si se debe usar la ecuación de regresión estimada para guiar la campaña de
marketing y, de ser así, cómo debe hacerse.
7. ¿Qué otros datos serían útiles para predecir el número de clientes en un área?

Apéndice 14.1 Obtención de la fórmula de mínimos


cuadrados con base en el cálculo
Como ya se indicó en este capítulo, el método de mínimos cuadrados se usa para determinar
los valores de b0 y b 1 que minimicen la suma de los cuadrados de los residuales, la cual está
dada por

Al sustituir Y; = b0 + b 1x;, obtenemos

(14.34)

como expresión que se debe minimizar.


Para minimizar la fórmula (14.34), se obtienen las derivadas parciales respecto de b0 Y bl'
se igualan a cero y se despeja. Haciendo esto obtenemos

a2:(y¡ - ba - b¡xY
abo
= -22:< Y,. - b - b x)
o 1 ,
=o (14.35)

a2:(y¡ - ba - b1xY - -
ab -
2~ < - b - b )
~x; Y; º ¡x; = o (14.36)
1

Al dividir la ecuación (14.35) entre 2 y hacer las sumas por separado, obtenemos
Apéndice 14.2 Prueba de significancia usando correlación 669

Al llevar 2:y¡ al otro lado del signo igual y observar que 2:b0 = nb0 , conseguimos

(14.37)

Simplificaciones algebraicas similares aplicadas a la ecuación (14.36) producen

{ 14.38)

A las expresiones (14.37) y (14.38) se les conoce como ecuaciones normales. Al despejar b0 en
la ecuación (14.37) obtenemos

2:y 2:x.
bo = n- ' - bi -n ' (14.39)

Utilizando la ecuación (14.39) para sustituir a b0 en la (14.38) tenemos

LX;LY; - (2:x¡)2 b + (2:x1)b = 2:xy. (14.40)


n n 1 ' 1 , ,

Al reordenar los términos de la ecuación (14.40) obtenemos

b = Lx;Y; - (2:x¡2:y¡)/n = 2:(x¡ - x)(Y; - y)


(14.41)
2:x~ - (2:x¡)2 /n
1
2:(x¡ - x)1

Como y = 2:y¡/n y x = 2:xjn, la fórmula (14.39) se puede reescribir como

(14.42)

Las ecuaciones (14.41) y (14.42) son las fórmulas (14.6) y (14.7) que se usaron en este capítulo
para calcular los coeficientes de la ecuación de regresión estimada.

Apéndice 14.2 Prueba de significancia usando


correlación
Al emplear el coeficiente de correlación muestra! rxy• también se puede determinar si la relación
lineal entre x y y es significativa mediante la siguiente prueba de hipótesis acerca del coeficien-
te de correlación p~blacional Pxy·

Si H0 es rechazada, se concluye que el coeficiente de correlación poblacional no es igual a cero


y que la relación lineal entre las dos variables es significativa. A continuación se presenta esta
prueba de ~ignificancia.
670 Capítulo 14 Regresión lineal simple

PRUEBA DE SIGNIFICANCIA USANDO CORRELACIÓN

Ha: Pxy =O
Ha: Pxy i= O

ESTADÍSTICO DE PRUEBA

(14.43)

REGLA DE RECHAZO

Método del valor-p: Rechazar H 0 si el valor-p :s a


Método del valor crítico: Rechazar H0 si t :s -ta¡2 o si t ~ ta¡2

donde ta¡2 pertenece a la distribución t con n - 2 grados de libertad.

En la sección 14.3 se encontró que con una muestra de n = 10 el coeficiente de correla-


ción muestral para la población de estudiantes y las ventas trimestrales eran rxy = 0.9501. El
estadístico de prueba es

¡;;-=2 ~ 10 - 2
t = rxy y~ = 0.9501 _ (0. ) = 8.61
1 9501 2

En la tabla de la distribución t se encuentra que para n - 2 = 1O - 2 = 8 grados de libertad,


t = 3.355 proporciona en la cola superior un área de 0.005 . Por lo tanto, el área en la cola su-
perior que corresponde al estadístico de prueba t = 8.61 debe ser menor que 0.005. Como esta
es una prueba de dos colas, se duplica este valor y se concluye que el valor-p que corresponde a
t = 8.61 debe ser menor que 2(0.005) = 0.01. Con Excel o con Minitab se obtiene el valor-p =
0.000. Como el valor-pes menor que a = 0.01, H 0 es rechazada y se concluye que Pxy es dife-
rente de cero. Esta evidencia es suficiente para concluir que entre la población de estudiantes y
las ventas trimestrales existe una relación lineal significativa.
Observe que, excepto por el redondeo, el valor del estadístico de prueba t y la conclusión
sobre la significancia de la relación son idénticos a los resultados obtenidos en la prueba t
de la sección 14.5, donde se usó la ecuación de regresión estimada y= 60 + 5x. El análisis de
regresión permite obtener una conclusión sobre la relación significativa entre las variables x y y,
además de la ecuación que indica cuál es la relación entre las variables. Por consiguiente, la ma-
yoría de los analistas emplea software moderno para realizar el análisis de regresión y encuentra
que no se requiere el uso de la correlación como prueba de significancia.

Apéndice 14.3 Análisis de regresión con Minitab


En la sec~ión 14.7 se estudió la solución de los problemas de regresión por computadora mos-
trando los resultados que genera Minitab para el problema de Armand 's Pizza Parlors. En este
Armand's apéndice se describen los pasos necesarios para generar la solución por computadora en Minitab.
Primero se ingresan los datos en una hoja de trabajo. Como se muestra en la tabla 14.1, los
datos restaurante, población de estudiantes y ventas se ingresan en las columnas Cl , C2 y C3.
Los nombres de las variables Restaurant, Population y Sales se ingresan como encabezados de
esas columnas. En los pasos subsecuentes, para referirse a los datos se emplearán los nombres
de las variables o los indicadores de las columnas Cl, C2 y C3. Los pasos siguientes describen
cómo usar Minitab para obtener los resultados del análisis de regresión que se muestran en la
figura 14.10.
Apéndice 14.4 Análisis de regresión con Excel 671

Paso l. Seleccione el menú Stat.


Paso 2. Seleccione el menú Regression.
Paso 3. Elija Regression.
Paso 4. Elija Fit Regression Model.
Paso S. Cuando aparezca el cuadro de diálogo Regression:
Ingrese Sales en el cuadro Responses.
Ingrese Population en el cuadro Continuous predictor.
Haga clic en OK.

El cuadro de diálogo Regression de Minitab tiene otras posibilidades más que se pueden
aprovechar seleccionando las opciones deseadas. Por ejemplo, para obtener una gráfica de resi-
duales en la que los valores predichos de la variable dependiente yaparezcan en el eje horizontal
y los valores de los residuales estandarizados en el eje vertical, el paso 5 deberá ser el siguiente:

Paso S Cuando aparezca el cuadro de diálogo Regression:


Ingrese Sales en el cuadro Responses.
Ingrese Population en el cuadro Continuous predictor.
Haga clic en el botón Graphs.
Cuando aparezca el cuadro de diálogo Regression-Graphs:
Seleccione Standardized en Residuals for Plots.
Elija Residuals versus fits en Residual Plots.
Haga clic en OK.
Cuando aparezca el cuadro de diálogo Regression:
Haga clic en OK.

Después de estimar el modelo de regresión, pueden llevarse a cabo los siguientes pasos para
obtener los intervalos de confianza y de predicción que se analizan en la sección 14.6.

Paso 1 Seleccione el menú Stat.


Paso 2 Seleccione el menú Regression.
Paso 3 Seleccione Regression.
Paso 4 Seleccione Predict.
Paso S Cuando aparezca el cuadro de diálogo de Predict:
Seleccione Sales del menú desplegable del cuadro Response.
Seleccione Enter individual values del menú desplegable del siguiente cuadro.
Ingrese 1O en el primer cuadro bajo Population.
Haga clic en OK.

Apéndice 14.4 Análisis de regresión con Excel


En este apéndice se ilustra el uso de la herramienta Regression de Excel para realizar los
cálculos del análisis de regresión empleando el problema de Armand's Pizza Parlors. Con-
Armand's sulte la figura 14.23 para seguir la descripción de los pasos. En las celdas Al:Cl de la hoja de
cálculo se ingresan los rótulos Restaurant, Population y Sales. Para identificar cada una de las
1O observaciones, S('.: introducen los números 1 a 1O en las celdas A2:A11. Los datos muestrales
se ingresan en las celdas B2:Cl l. Los siguientes pasos indican cómo usar Excel para obtener
los resultados del análisis de regresión.

Paso l. Haga clic en la ficha Data en la cinta.


Paso 2. En el grupo Analysis, haga clic en Data Analysis.
Paso 3. Elija Regression en la lista de Analysis Tools.
Paso 4. Haga clic en OK.
672 Capítulo 14 Regresión lineal simple

FIGURA 14.23 Solución con Excel al problema de Armand's Pizza Parlors

- --- ------ •••• -- ------ - --- --··--- ·------ -- ------·- · ---···· - -- • • • • • • • ..!. - -

10..Ji"-............-O::::..im..'2~'""""= ----· ..•... ~ -------· ......... - .•. -· ------------ ·- · ·········--·· ~---- .... --- -- ... '

't-"
-····-·····---------'. .......
1 _ _,_ -- - · • ·---- ••• ~ •• -

~_¡.:..;:;...__,:~====~~-.· :___

/'i~:::r· · - ··--. ------+----·.. ------ ---- ......... ;. ---........ ---. i· -.-- --- ---- ... ;.... -· ----· .. --.- -·-- ---
~--
______ ,_______________, _______________ ---- ,__ -· . -- ·-----~----·
-- -··· -·--- ·-··- . - ...
~--

_· ~-
i..=...¡..;;;..;===---'----':..._"' - _·:...:1.::.:or·~-----~- -~-~~- · -· ~- ·-____ .. __
21

_,~ ,~;2260 ~ - ~6;.-W33 '.··:.:~ ~000:-


0:5803. · 8.~167 -.2.55E-OS .

--------'-----'---------~---'-----------------

Paso 5. Cuando aparezca el cuadro de diálogo Regression:


Ingrese C 1:C11 en el cuadro Input Y Range.
Introduzca B 1:B11 en el cuadro Input X Range.
Seleccione Labels.
Elija Confidence Level.
Ingrese 99 en el cuadro Confidence Level.
Seleccione Output Range.
Ingrese Al3 en el cuadro Output Range.
(También se puede ingresar cualquier celda de la esquina superior izquierda para
indicar dónde deberán comenzar los resultados.)
Haga clic en OK.
La primera sección del resultado, titulada Regression Statistics, contiene resúmenes estadís-
ticos como el coeficiente de detenninación (R Square). La segunda sección, titulada ANOVA,
contiene la tabla del análisis de varianza. La última sección, que no tiene ningún título, incluye
los coeficientes de regresión estimados e información relacionada con ellos. A continuación se
proporciona la interpretación de los resultados de la regresión comenzando con la infonnación
contenida.en las celdas A28:I30.

Interpretación de los resultados de la ecuación


de regresión estimada
La intersección de la recta de regresión con el eje y, b0 = 60, se presenta en la celda B29, Y la
pendiente de la recta de regresión estimada, b 1 = 5, aparece en la celda B30. Las etiquetas
Intercept en la celda A29 y Population en la celda A30 sirven para identificar estos dos valores.
Apéndice 14.4 Análisis de regresión con Excel 673

En la sección 14.5 se mostró que la desviación estándar estimada de b1 es sb 1 = 0.5803 .


Observe que el valor de la celda C30 es 0.5803. El rótulo Standard Error que aparece en la cel-
da C28 es la manera en que Excel indica que el valor de la celda C30 es el error estándar o la
desviación estándar de b 1• Recuerde que en la prueba t de significancia de la relación fue nece-
sario calcular el estadístico t, t = b¡/ sb . Si se utilizan los datos de Armand's, el valor calculado
1
fue t = 5/ 0.5803 = 8.62. El rótulo t Stat de la celda D28 sirve para recordar que en la celda
D30 se encuentra el valor del estadístico de prueba t.
El valor en la celda E30 es el valor-p que corresponde a la prueba t de significancia. El va-
lor-p que despliega Excel en la celda E30 está en notación científica. Para obtenerlo en notación
decimal se recorre el punto decimal 5 posiciones a la izquierda, con lo que resulta 0.0000255 .
Dado que el valor-p = 0.0000255 <a = 0.01, H0 es rechazada y se concluye que existe una
relación significativa entre la población de estudiantes y las ventas trimestrales.
La información de las celdas F28 :I30 se puede emplear para obtener estimaciones por in-
tervalos de confianza para la intersección con el eje y y la pendiente de la ecuación de regre-
sión estimada. Excel proporciona siempre los límites inferior y superior de un intervalo de
95% de confianza. Como en el paso 4 se seleccionó Confidence Leve! y se ingresó 99 en el
cuadro respectivo, la herramienta de Excel para la regresión proporciona también los límites
inferior y superior de un intervalo de 99% de confianza. El valor en la celda H30 es el lími-
te inferior de la estimación por intervalo de 99% de confianza de {3 1 y el valor en la celda 130
es el límite superior. Por lo tanto, una vez redondeada, el intervalo de 99% de confianza para es-
timar {3 1 va de 3.05 a 6.95. Los valores en las celdas F30 a 030 proporcionan los límites inferior
y superior del intervalo de 95% de confianza, por lo que éste va de 3.66 a 6.34.

Interpretación de los resultados del ANOVA


La información en las celdas A22:F26 es un resumen de los cálculos del análisis de varian-
za. Las tres fuentes de variación están rotuladas como Regression, Residual y Total. La etiqueta
df en la celda B23 representa los grados de libertad, la etiqueta SS en la celda C23 presenta la
suma de los cuadrados y MS en la celda D23 representa el cuadrado de la media.
En la sección 14.5 se dijo que el error cuadrado medio, que se obtiene al dividir el error o
la suma de cuadrados del residual entre sus grados de libertad, proporciona una estimación
de a 2. El valor en la celda D25, 191.25, es el error cuadrado medio de los resultados de regre-
sión para el problema de Armand's. En la sección 14.5 también se mostró que se puede usar una
prueba F como prueba de significancia en la regresión. El valor en la celda F24, 0.0000255, es
La etiqueta Significance F
el valor-p que corresponde a la prueba F de significancia. Dado que el valor-p = 0.0000255 <
se entiende mejor si se
considera el valor en la a = 0.01, H0 es rechazada y se concluye que se tiene una relación significativa entre la pobla-
celda F24 como el nivel de ción de estudiantes y las ventas trimestrales. En la celda F23, el rótulo que emplea Excel para
significancia de la prueba F. identificar el valor-p de la prueba F de significancia es Significance F.

Interpretación de los resultados


. de los estadísticos de regresión
El coeficiente de determinación, 0.9027, aparece en la celda B 17; el rótulo correspondiente,
R Square, se prese_!lta en la celda A 17. La raíz cuadrada del coeficiente de determinación es
el coeficiente de correlación muestra!, 0.9501, que aparece en la celda B 16. Observe que para
identificar este valor, Excel emplea como rótulo Multiple R (celda A16). En la celda A19, el
rótulo Standard Error se usa para identificar el valor del error estándar de estimación que apa-
rece en la celda B 19. Así que el error estándar de estimación es 13.8293. Hay que considerar
que en los resultados de Excel, el rótulo Standard Error está en dos lugares: en la sección de
los resultados titulada Regression Statistics, Standard Error se refiere a la estimación de a, y
en la sección de los resultados correspondiente a la ecuación de regresión estimada se refiere
a sb 1, la desviación estándar de la distribución muestra! de b 1•

También podría gustarte