Regresión LIneal Simple
Regresión LIneal Simple
Regresión LIneal Simple
I – INTRODUCCIÓN……………………………………………………………………...4
Diagramas de dispersión…………………………………………………………………...5
Inferencia estadística……………………………………………………………………..10
II - CASO A RESOLVER………………………………………………………………..14
b) Establecer un modelo lineal que relacione las dos variables y grafique la ecuación de
la línea recta…………………………………………………………………………....15
d) Si se decide por gastar en publicidad 200,000 pesos, ¿cuál sería el volumen de ventas
esperado?..................................................................................................................18
¿Tiene sentido?.......................................................................................................19
interpretar…………………………………………………………………………………21
0.05…………………………………………………………………………………………22
Conclusión…………………………………………………………………………………24
Bibliografía………………………………………………………………………………..25
Probabilidad y Estadística
I – INTRODUCCIÓN
Son frecuentes en la práctica situaciones en las que se cuenta con observaciones de diversas
variables, y es razonable pensar en una relación entre ellas. El poder determinar si existe esta
relación —y, en su caso, una forma funcional para la misma— es de sumo interés. Por una
parte, ello permitiría, conocidos los valores de algunas variables, efectuar predicciones sobre
los valores previsibles de otra. Podríamos también responder con criterio estadístico a
cuestiones acerca de la relación de una variable sobre otra.
El análisis de regresión es una técnica estadística para investigar la relación funcional entre
dos o más variables, ajustando algún modelo matemático. La regresión lineal simple utiliza
una sola variable de regresión y el caso más sencillo es el modelo de línea recta. Supóngase
que se tiene un conjunto de n pares de observaciones (xi, yi), se busca encontrar una recta
que describa de la mejor manera cada uno de esos pares observados.
Se puede afirmar que el uso de gráficos para analizar datos en estadística se ha visto
incrementado en la segunda mitad del siglo xx. A principio de los sesenta, Tukey (1962)
afirma que las técnicas gráficas tendrán grandes posibilidades en el futuro del análisis de
datos. Posterior- mente, Tukey (1977) expondrá la importancia de los gráficos para el análisis
exploratorio de datos, proponiendo una nueva filosofía para dicho análisis: el enfoque
exploratorio en el análisis de datos, donde las representaciones gráficas tienen un papel
fundamental, por lo que propone algunas nuevas. Todo esto se ha visto favorecido en las
últimas décadas la propagación del uso de ordenadores en la enseñanza de la estadística, dada
su capacidad de manejar datos y su facilidad para realizar todo tipo de gráficos.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las
ordenadas (llamadas residuos) entre los puntos generados por la función elegida y los
correspondientes valores en los datos. Específicamente, se llama mínimos cuadrados
promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso
por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el
residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un
gran número de iteraciones para converger.
Desde un punto de vista estadístico, un requisito implícito para que funcione el método de
mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria.
El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de
sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución
normal. También es importante que los datos a procesar estén bien escogidos, para que
permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en
particular, véase mínimos cuadrados ponderados).
Una manera sencilla y eficaz de estudiar la posible correlación entre variables es recurrir a
los diagramas de dispersión, que son representaciones gráficas en un sistema de ejes
cartesianos donde cada par (x,y) se representa por un punto. La representación gráfica
resultante se denomina diagrama de dispersión o nube de puntos.
Inferencia en la Regresión
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los
individuos de la población ya sea por el coste que supondría, o por la imposibilidad de
acceder a ello. Mediante la técnica inferencial obtendremos conclusiones para una población
no observada en su totalidad, a partir de estimaciones o resúmenes numéricos efectuados
sobre la base informativa extraída de una muestra de dicha población
Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más
poblaciones son iguales. Los ANOVA evalúan la importancia de uno o más factores al
comparar las medias de la variable de respuesta en los diferentes niveles de los factores. La
hipótesis nula establece que todas las medias de la población (medias de los niveles de los
factores) son iguales mientras que la hipótesis alternativa establece que al menos una es
diferente.
Para ejecutar un ANOVA, debe tener una variable de respuesta continua y al menos un factor
categórico con dos o más niveles. Los análisis ANOVA requieren datos de poblaciones que
sigan una distribución aproximadamente normal con varianzas iguales entre los niveles de
factores. Sin embargo, los procedimientos de ANOVA funcionan bastante bien incluso
cuando se viola el supuesto de normalidad, a menos que una o más de las distribuciones sean
muy asimétricas o si las varianzas son bastante diferentes. Las transformaciones del conjunto
de datos original pueden corregir estas violaciones.
Por ejemplo, usted diseña un experimento para evaluar la durabilidad de cuatro productos de
alfombra experimentales. Usted coloca una muestra de cada tipo de alfombra en diez hogares
y mide la durabilidad después de 60 días. Debido a que está examinando un factor (tipo de
alfombra), usted utiliza un ANOVA de un solo factor.
Si el valor p es menor que el nivel de significancia, entonces usted concluye que al menos
una media de durabilidad es diferente. Para información más detallada sobre las diferencias
entre medias específicas, utilice un método de comparaciones múltiples como el de Tukey.
El análisis de regresión tiene por objetivo estimar el valor promedio de una variable, variable
dependiente, con base en los valores de una o más variables adicionales, variables
explicativas. En este tipo de análisis, la variable dependiente es estocástica mientras que las
variables explicativas son no estocásticas en su mayor parte1. El análisis de regresión ha
cobrado popularidad debido al gran número de paquetes estadísticos que lo incluyen y por
ser un “proceso robusto que se adapta a un sinfín de aplicaciones científicas y ejecutivas que
permite la toma de decisiones” (Linne et al. 2000, p. 47, tr.). En este trabajo, el mejor ajuste
de los modelos estará determinado por el análisis de regresión lineal.
Probabilidad y Estadística
II - CASO A RESOLVER
En la siguiente tabla, se muestran el conjunto de datos era tomado sobre grupos de trabajadoras de
Inglaterra y Gales en el año 1995-2000. Cada grupo estaba formado por trabajadores de la misma
profesión (médicos, trabajadores textiles, decoradores, etc.) y en cada uno de los veinticinco grupos
muestreados se han observado dos variables: el Índice estandarizado de consumo de cigarrillos y el
índice de muertes por cáncer de pulmón.
Fuente:
(Occupational mortality: the registar generalís decennial supplement for England and Wales, 1995-
2000, series Ds, n.1, London: HMSO,338).
Índice
índice de muertes
estandarizado de
por cáncer de
consumo de
pulmón
cigarrillos
Con los datos que se proporcionan en la tabla anterior se realiza un gráfico de dispersión en
donde se localiza los cigarrillos fumados y las muertes ocasionados por cáncer de pulmón.
b) Establecer un modelo lineal que relacione las dos variables y grafique la ecuación de
la línea recta.
∑𝑥∑𝑦
∑ 𝑥𝑦 −
𝛣̂ ₁ = 𝑛
2
(∑ 𝑥)
∑ 𝑥2 −
𝑛
(2,572)(2,725)
(288,068) −
𝛣̂ ₁ = 25
(6,615,184)2
(271,706) −
25
𝛣̂ ₁ = 1.087532
𝛣̂ ₀ = 𝑦̅ − 𝛣̂ ₁𝑥̅
𝛣̂ ₀ = (109) − (1.087532)(102.88)
𝛣̂ 0 = −2.88531
𝑌̂ = 𝛣̂ ₀ + 𝛣̂ ₁𝑋
Probabilidad y Estadística
Así pues, se produce un valor estimado de muertes por cáncer pulmonar para cada valor del
consumo de cigarrillos.
Índice índice de
estandarizado muertes por
de consumo cáncer de
de cigarrillos pulmón
X Y
0 -2.88531
77 84
137 116
117 123
94 128
116 155
102 101
111 118
93 113
88 104
102 88
91 104
104 129
107 86
112 96
113 144
110 139
125 113
133 146
115 128
105 115
87 79
91 85
100 120
76 60
66 51
Probabilidad y Estadística
Los datos de la tabla anterior se representan en forma de línea recta en una nueva gráfica de
dispersión, en donde representa los valores estimados
El error o residuo es la diferencia que hay entre el valor de 𝑌 original y el valor deseado, es
decir, es una resta entre la gráfica de dispersión original y la ecuación de la línea recta.
Gráfico de Dispersión
Muertes por Cancér de Pulmón
200
150
100
50
0
0 20 40 60 80 100 120 140 160
Índice de Consumo de Cigarrillos
índice de muertes
Pronóstico para
por cáncer de Residuos
Y
pulmón
Y ӯ Ŷ
84 80.85466512 3.145334881
116 146.1066007 -30.1066007
123 124.3559555 -1.355955507
128 99.34271353 28.65728647
155 123.2684232 31.73157675
101 108.0429716 -7.042971611
118 117.8307619 0.169238051
113 98.25518127 14.74481873
104 92.81751998 11.18248002
88 108.0429716 -20.04297161
104 96.08011675 7.919883245
129 110.2180361 18.78196387
86 113.4806329 -27.48063291
96 118.9182942 -22.91829421
144 120.0058265 23.99417353
139 116.7432297 22.25677031
113 133.0562136 -20.05621358
146 141.7564717 4.243528338
128 122.180891 5.819109012
115 111.3055684 3.694431609
79 91.72998772 -12.72998772
85 96.08011675 -11.08011675
120 105.8679071 14.13209291
60 79.76713286 -19.76713286
51 68.89181026 -17.89181026
Si el error es positivo significa que las muertes por cáncer pulmonar original están por debajo
de la ecuación de la línea recta y si es negativo significa que está por encima de la ecuación
de la línea recta. En ambos casos el error representa que tan alejado está el valor real del
pronosticado.
Probabilidad y Estadística
d) ¿cuál sería las muertes pronosticadas para todos los casos?
Ejemplo.
𝑌̂ = 𝛣̂ ₀ + 𝛣̂ ₁𝑋
𝑌̂ = (−2.88531) + (1.08753)(51)
𝑌̂ = 68.891
índice de muertes
Pronóstico para
por cáncer de
Y
pulmón
Y ӯ
84 80.85466512
116 146.1066007
123 124.3559555
128 99.34271353
155 123.2684232
101 108.0429716
118 117.8307619
113 98.25518127
104 92.81751998
88 108.0429716
104 96.08011675
129 110.2180361
86 113.4806329
96 118.9182942
144 120.0058265
139 116.7432297
113 133.0562136
146 141.7564717
128 122.180891
115 111.3055684
79 91.72998772
85 96.08011675
120 105.8679071
60 79.76713286
51 68.89181026
Probabilidad y Estadística
e) Interprete la pendiente y la ordenada al origen. En el caso de la Ordenada del origen.
¿Tiene sentido?
∑𝑥∑𝑦
∑ 𝑥𝑦 −
𝑟= 𝑛
2 2
√∑ 𝑥 2 − (∑ 𝑥) √∑ 𝑦 2 − (∑ 𝑦)
𝑛 𝑛
(2,572)(2,725)
(288,068) −
𝑟= 25
2 2
√(271,706) − (2,572) √(313,391) − (2,725)
25 25
∑𝑥∑𝑦
𝑆𝐶𝑅 = 𝛣̂ ₁ (∑ 𝑥𝑦 − )
𝑛
(2,572)(2,725)
𝑆𝐶𝑅 = (1.087532) ((288,407) − )
25
𝑆𝐶𝑅 = 8,395.74704
2
(∑ 𝑦)
2
𝑆𝐶𝑇 = ∑ 𝑦 −
𝑛
(2,725)2
𝑆𝐶𝑇 = (313,391) −
25
Probabilidad y Estadística
𝑆𝐶𝑇 = 16,366
𝑆𝐶𝐸 = 7,970.25296
𝑆𝐶𝑅
𝐶𝑀𝑅 =
1
8,395.74704
𝐶𝑀𝑅 =
1
𝐶𝑀𝑅 = 8,395.74704
𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑛−2
7,970.25296
𝐶𝑀𝐸 =
25 − 2
𝐶𝑀𝐸 = 346.5327374
𝐶𝑀𝑅
𝐹=
𝐶𝑀𝐸
8,395.74704
𝐹=
346.5327374
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑎 = 24.22786113
𝐹0.05,1,18 = 4.28
𝐻0 : 𝛣̂ ₁ = 0
𝐻𝑎 : 𝛣̂ ₁ ≠ 0
Entonces como 24.2278 ≥ 4.28, se rechaza la hipótesis nula y se acepta la alterna, es decir,
sí hay relación.
Probabilidad y Estadística
Conclusión
El análisis de regresión es una técnica estadística empleada para el estudio dela relación entre
variables determinísticas o aleatorias que provienen de un proceso investigativo, el caso más
sencillo de estudio se conoce como modelo de regresión lineal simple, caracterizado porque
solo hay dos variables, una independiente y una dependiente, y la gráfica de dispersión
muestra que se relacionan por medio de una recta.
Bibliografía
*Cardona Madariaga, D., González Rodríguez, J., Rivera Lozano, M. and Cárdenas Vallejo, E. (2013).
Inferencia estadística Módulo de regresión lineal simple. 1st ed.