Regresion Lineal Simple Estadistica Inferencial Ii PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

ESTADISTICA INFERENCIAL II

UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

UNIDAD I
REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN

1.1 MODELO DE REGRESIÓN SIMPLE


Todos los días las personas que administran tienen que tomar decisiones personales y profesionales que se
basan en las predicciones de hechos futuros. Para hacer tales pronósticos debe confiarse en la relación
(intuitiva y calculada) entre lo que se conoce y lo que va a estimarse. Si puede determinar cómo se relaciona
lo conocido con el evento futuro, contribuirá de manera importante al proceso de toma de decisiones. Y ése
es precisamente el tema de este punto, la manera de determinar la relación entre variables.

Los análisis de regresión y correlación mostrarán como determinar la naturaleza y la fuerza de una relación
entre dos variables. Se aprenderá también a predecir con cierto grado de exactitud, el valor de una variable
desconocida basada en observaciones anteriores de esa variable y de otras.

El término regresión fue usado por primera vez como concepto estadístico en 1877 por Sir Francis Galton.
Galton efectúo un estudio que demostró que la altura de los hijos de padres altos tendía a retroceder o
regresar hacia la talla media de la población. Regresión fue el nombre que se le dio al proceso general de
predecir una variable (talla de los niños) a partir de otra (talla de los padres).

En el análisis de regresión, se desarrollará una ecuación de estimación, es decir, la fórmula matemática que
relaciona las variables conocidas con las desconocidas. Luego de haber aprendido el patrón de dicha
relación, se hace el análisis de correlación para determinar el grado de relación que hay entre las variables.
Así pues, el análisis de correlación nos dice con qué precisión la ecuación de estimación describe la relación.

El análisis de regresión se usa con propósitos de predicción. La meta del análisis de regresión es desarrollar
un modelo estadístico que se pueda usar para predecir los valores de una variable dependiente o de
respuesta basados en los valores de al menos una variable independiente o explicativa.

El análisis de regresión y correlación se basan en la relación o asociación existente entre dos o más
variables. La variable conocida recibe el nombre de variable independiente (x), mientras que la que
intentamos predecir se llama variable dependiente (y).

ING. EN GESTIÓN EMPRESARIAL Página 1


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

Existen dos tipos de relaciones entre las variables:

Relación Directa: Esta se presenta cuando al aumentar la variable independiente también lo hace la variable
dependiente.

Relación Inversa: Cuando al aumentar la variable independiente, la variable dependiente disminuye.

El primer paso al determinar si existe una relación entre dos variables consiste en examinar la gráfica de
los datos observados (o desconocidos). Esta gráfica o diagrama recibe el nombre de Diagrama de
Dispersión.

El Diagrama de Dispersión nos proporciona dos tipos de información: visualmente podemos buscar los
patrones que indican que las variables están relacionadas después, si existe una relación entre ellas podemos
ver qué clase de línea o ecuación de estimación describe dicha relación.

A continuación se muestran algunos ejemplos de diagramas de dispersión:

• • • • •
• • • • • •
• • • • • •
• • • • • •
• • • • • •
• • • •

Lineal directo Lineal inverso Curvilíneo directo

• • • • •• • • •
• •• •• • • • •• •
• • •• • • • • • • ••
• •• • • •• • • • •• • •
• •• ••• • • • • • • •
• • •• • • • • •• •
• • •• • •
Curvilíneo inverso Lineal inverso con Sin relación
más dispersión

ING. EN GESTIÓN EMPRESARIAL Página 2


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

Para calcular la línea de regresión con más precisión, aplicando una ecuación que relaciona las dos variables
matemáticamente.

La ecuación de una recta donde la variable dependiente Y está determinada por la variable independiente
X:
Intersección en Y
Y  a  bX

Variable dependiente Variable independiente


Pendiente de
la línea

La representación gráfica de la ecuación de la recta, es:

Y
Y  a  bX

Ahora surge la necesidad de calcular los valores de las constantes numéricas a y b.

Para ello se utiliza un Método Matemático llamado MINIMOS CUADRADOS, el cual usa los datos del
diagrama de dispersión y se obtiene con ellos la línea de mejor ajuste, es decir aquella línea que minimiza
el error entre los puntos estimados sobre la línea y los puntos reales observados que quedarán por encima
y por debajo de ella (suma de los cuadrados de los errores ).

También pueden encontrar la fórmula de regresión lineal simple de la siguiente manera:

Yˆi  Valor pronosticado de Y para la observación i

X i = Valor de X para la observación i

ING. EN GESTIÓN EMPRESARIAL Página 3


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

Las fórmulas que miden los valores para b y a, son:

b
 XY  n X Y
X  nX
2 2

b = pendiente de la línea de estimación de mejor ajuste.


X =valores de la variable independiente.
Y = valores de la variable dependiente.
X = media de los valores de la variable independiente.
Y = media de los valores de la variable dependiente.
n = número de datos.

a  Y - bX

a = intersección en Y.

SCXY
b Esta es otra forma de encontrar el valor de b
SCX

Donde:

n n

n n
( X i )( Yi )
SCXY   ( X i  X )(Yi  Y )   X iYi  i 1 i 1

i 1 i 1 n

2
 n 
  Xi 
SCX   ( X i  X )2   X i2   i 1 
n n

i 1 i 1 n

Con estas dos ecuaciones podemos encontrar la línea de regresión del mejor ajuste para un conjunto de
datos cualquiera de dos variables de puntos de datos.

Para simplificar el uso de las fórmulas, se recomienda construir una tabla que contenga los valores de cada
una de las partes que las conforman.

METODO DE MINIMOS CUADRADOS:

La técnica matemática que determina los valores de a y de b que minimizan la suma de los cuadrados de
las diferencias se conoce como métodos de mínimos cuadrados.

Cualesquiera valores de a y b diferentes que los determinados por el método de mínimos cuadrados darán
como resultado una suma mayor que los cuadrados de las diferencias entre el valor real Y y el valor
pronosticado Y.

Donde: Yi  el valor real de Y para la observación i n

 (Y  Yˆ )
i
2

Yˆ  valor pronosticado de Y para la observación i


i 1

ING. EN GESTIÓN EMPRESARIAL Página 4


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

OBTENCION DE LA SUMA DE CUADRADOS

Para examinar que tan bien predice la variable independiente a la variable dependiente en el modelo
estadístico, es necesario desarrollar varias medidas de variación. La primera es la suma de cuadrados
totales (SCT); la cuál es una medida de variación de los valores Yi alrededor de su media Y . En un
análisis de regresión la variación total o suma de cuadrados total se puede dividir en la variación explicada
o suma de cuadrados de regresión (SCR), que es atribuible a la relación X y Y, y la variación no
explicada o suma de cuadrados del error (SCE), que es atribuible a otros factores distintos a la relación
entre X y Y.

Estas medidas de variación se pueden explicar de la siguiente manera:

n
SCE=  (Y  Yˆ )
i 1
i
2

n Yˆ  b0  b1 X i
SCT=  (Y  Y ) 2
n

 (Yˆ  Y )
i
2
i 1 SCR= i
i 1

La suma de cuadrados de la regresión (SCR) representa la diferencia entre Ŷi (el valor de Y que se
pronostica a partir de la relación de regresión) y Ῡ(el valor promedio de Y). La suma de cuadrados del
error (SCE) representa parte de la variación en Y que no explica la regresión. Se basa en la diferencia entre
Yi y Ŷi. Estas medidas de variación se representan a continuación:

CÁLCULO DE LAS MEDIDAS MEDIDAS DE VARIACIÓN EN LA REGRESIÓN:

Suma de cuadrados total = suma de cuadrados de regresión + suma de cuadrados del error

SCT=SCR+SCE

SUMA DE CUADRADOS TOTAL (SCT)

La suma de los cuadrados totales (SCT) es igual a la suma de los cuadrados de las diferencias entre cada
valor de Y observado y el valor promedio de Y.

SCT= Variación total o suma de cuadrados totales

2
 n 
  Yi 
SCT   Y i   i 1 
n n
SCT=  (Y  Y )
i 1
i
2
ó
i 1
2

ING. EN GESTIÓN EMPRESARIAL Página 5


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

SUMA DE CUADRADOS DE LA REGRESIÓN (SCR)

La suma de los cuadrados de la regresión (SCR) es igual a la suma de los cuadrados de las diferencias entre
cada valor pronosticado de Y y el valor promedio de Y

SCR= Variación explicada o suma de cuadrados de regresión

n
SCR=  (Yˆ  Y )
i 1
i
2
=

2
 n 
  Yi 
SCR  a  Yi  b X iYi   i 1 
n n

i 1 i 1 n

o también: SCR=SCT-SCE

SUMA DE CUADRADOS DEL ERROR (SCE)

La suma de los cuadrados del error

La Suma de Cuadrados del Error es igual a la suma de los cuadrados de las diferencias entre cada valor

SCE= Variación no explicada o suma de cuadrados del error

n n n n
SCE=  (Y  Yˆ )
i 1
i
2
  Y 2i  a Yi  b X iYi
i 1 i 1 i 1

COEFICIENTE DE DETERMINACIÓN:

Por si mismos SCR, SCE y SCT tienen muy poco que puede interpretarse. Sin embargo, una sencilla razón
de la suma de cuadrados de regresión (SCR) entre la suma de cuadrados total (SCT) proporciona una medida
de la utilidad de la ecuación de regresión. La razón se llama Coeficiente de Determinación r² y se define
como:

SCR Sumatoria de cuadrados de regresión


r2  =
SCT
Sumatoria de cuadrados total
Para situaciones en las que el interés principal es el análisis de regresión, el Coeficiente de Correlación lo
obtenemos a partir del Coeficiente de Determinación, mediante la siguiente fórmula:

r  r2

SCXY
r
o también: SCX SCY

Dónde:

SCY   Yi  Y 
n
2

i 1

ING. EN GESTIÓN EMPRESARIAL Página 6


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

O también:

Un valor muy cercano a 1, implica una asociación fuerte positiva entre ambas variables estudiadas.

ERROR ESTANDAR DE LA ESTIMACIÓN

Aunque el método de mínimos cuadrados proporciona una recta que se ajusta a los datos con una variación
mínima, se ha visto en el cálculo de la suma de cuadrados del error (SCT) que, a menos que todos los datos
observados estén sobre la recta de regresión, la ecuación de regresión no es un pronosticador perfecto. Igual
que no se espera que todos los valores sean idénticos a su media aritmética, tampoco puede pensarse que
todos los datos estén justo sobre la recta de regresión. Por tanto es necesario desarrollar un estadístico que
mida la variación de los valores Y reales a partir de los valores Y pronosticados, de la misma manera que
se desarrollo la desviación estándar como medida de variabilidad de cada observación alrededor de su
media. Esta desviación estándar alrededor de la recta de regresión se llama error estándar de la
estimación; y se representa mediante la siguiente fórmula:

SCE  (Y  Yˆ )
i i
2

Sxy   i 1

n2 n2

ANALISIS RESIDUAL

El análisis residual es un enfoque gráfico para evaluar que tan adecuado es el modelo de regresión ajustado
a los datos. Además, este enfoque permite analizar las violaciones potenciales de las suposiciones del
modelo de regresión.

El error residual o estimado ei se define como la diferencia entre los valores observados (Yi ) y
pronosticado (Yˆi ) de la variable dependiente para un valor dado de X i . Entonces, se aplica la siguiente
definición.

ei  Yi  Yˆi

Para evaluar lo idóneo del modelo de regresión ajustado, se grafican los residuales en el eje vertical en
función de los valores correspondientes X i de la variable independiente en el eje horizontal.

ING. EN GESTIÓN EMPRESARIAL Página 7


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

INFERENCIAS ACERCA DE LA PENDIENTE (PRUEBA DE HIPOTESIS)

PRUEBA t PARA LA PENDIENTE

Es posible determinar la existencia de una relación significativa entre las variables X e Y probando si 1
(la pendiente de la población) es igual a 0. Si la hipótesis se rechaza, la conclusión es que existe evidencia
de una relación lineal. Las hipótesis nula y alternativa se establecen como sigue:

H 0 : 1  0 (no hay una relación lineal)

H 0 : 1  0 (hay una relación lineal)

Y el estadístico está dado por:

b1  1
t
Sb 1

Donde:

SYX
Sb 1 
SCX

n
SCX   ( X i  X )2
i 1

2
 n 
  Xi 
SCX   X 2i   i 1 
n

i 1 n

El estadístico de prueba sigue una distribución t con n-2 grados de libertad.

ING. EN GESTIÓN EMPRESARIAL Página 8


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

ESTIMACIÓN DEL INTERVALO DE CONFIANZA PARA LA PENDIENTE ( 1 )

Una alternativa para probar la existencia de una relación lineal entre las variables es establecer
una estimación del intervalo de confianza de 1 y determinar si el valor hipotético ( 1  0 ) está
incluido en este intervalo. La estimación del intervalo de confianza para 1 se obtiene como se
muestra en la siguiente ecuación:

bi  tn2Sb1

Definimos viendo la ecuación que la estimación del intervalo de confianza para la pendiente se
obtiene tomando la pendiente de la muestra bi y sumando y restando el valor crítico del estadístico
t multiplicado por el error estándar de la pendiente.

OBTENCIÓN DE INTERVALOS DE CONFIANZA ESTIMADOS

Una estimación del intervalo de confianza para la respuesta media se puede desarrollar para hacer
inferencias acerca del valor promedio pronosticado de Y.

Estimación del intervalo de confianza para la  yx , la media de Y.

Yˆi  tn2 SYX hi

Donde:

1 ( X  X )2
hi   n i
 ( X i  X )2
n
i 1

Yˆi = valor promedio pronosticado de Y: Yˆi  b0  b1 X i

SYX = error estándar de la estimación

n  tamaño de la muestra

X i =valor dado de X

OBTENCIÓN DEL INTERVALO DE PREDICCIÓN ESTIMADO

Además de obtener una estimación del intervalo de confianza para el valor promedio, con
frecuencia es importante predecir la respuesta que se obtendrá para un valor individual. Aunque
la forma del intervalo de predicción estimado es similar a la del intervalo de confianza estimado
de la ecuación anterior; el intervalo de predicción estima un valor individual, no un parámetro. El
intervalo de predicción estimado para una respuesta individual YI en un valor dado X i se muestra
en la siguiente ecuación:

ING. EN GESTIÓN EMPRESARIAL Página 9


ESTADISTICA INFERENCIAL II
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ

Yˆi  tn2 SYX 1  hi

Donde:

hi , Yˆi , SYX , n y X i se definen en la ecuación anterior a ésta.

PRUEBA DE HIPÓTESIS PARA UNA PENDIENTE DE POBLACIÓN b MEDIANTE


LA PRUEBA F

El estadístico F es igual a la media cuadrática de la regresión (MCR) Dividida entre la media


cuadrática del error (MCE).

Dónde:

MCR
F
MCE
SCR
MCR 
p
SCE
MCE 
n  p 1

p= número de variables explicativas en el modelo de regresión.

El estadístico de prueba F sigue una distribución F con p y n-p-1 grados de libertad.

ESTIMACIÓN DEL INTERVALO DE CONFIANZA PARA LA PENDIENTE

Una alternativa para probar la existencia de una relación lineal entre las variables es establecer
una estimación del intervalo de confianza de y determinar si el valor hipotético está
incluido en éste intervalo. La estimación del intervalo de confianza para se obtiene como se
muestra en la siguiente ecuación:

Definimos viendo la ecuación que la estimación del intervalo de confianza para la pendiente se
obtiene tomando la pendiente de la muestra b1 y sumando y restando el valor crítico del estadístico
t multiplicado por el error estándar de la pendiente.

ING. EN GESTIÓN EMPRESARIAL Página 10

También podría gustarte