5 Estadistica (ErEstim AnCorrelac)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

4.

3 Error estándar de la estimación

Este error estándar se simboliza por se y es similar a la


desviación estándar, en cuanto a que ambas son medidas
de dispersión. Se debe recordar que la desviación estándar
se utiliza para medir la dispersión de un conjunto de
observaciones respecto a la media. El error estándar de
la estimación, por otra parte, mide la variabilidad, o
dispersión, de los valores observados alrededor de la
recta de regresión.

Método La siguiente ecuación simplifica los cálculos, porque al


abreviado del organizar primero los datos para calcular la pendiente y la
error estándar ordenada Y, determinamos cada valor que necesitamos
de estimación para la ecuación excepto uno: el valor de ΣY2.
Si agregamos una última columna a la tabla de la página
23 con los resultados de Y2, podemos obtener dicho valor,
el cual debe ser igual a 150.

Error estándar de la estimación


[21]
∑ 𝑌 2 − 𝑎 ∑ 𝑌 − 𝑏 ∑ 𝑋𝑌
𝑠𝑒 = √
𝑛−2

Donde:
Y = Valores de la variable dependiente.
a = Ordenada Y (ordenada en el origen).
b = Pendiente de la línea de estimación de mejor ajuste.
X = Valores de la variable independiente.
n = Número de puntos.

Substituyendo los datos del ejemplo del Departamento de salubridad que busca la relación
entre la antigüedad de un camión de basura y los gastos anuales de reparación que debe
esperar, se tiene:

150 − (3.75 ∗ 24) − (0.75 ∗ 78)


𝑠𝑒 = √ = 0.866
4−2

Error estándar de $86.60


Interpretación Como ocurría en el caso de la desviación estándar,
del Error mientras más grande sea el error estándar de la
estándar de la estimación, mayor será la dispersión de los puntos
estimación alrededor de la línea de regresión. De manera inversa, si
se= 0, esperamos que la ecuación de estimación sea un
estimador “perfecto” de la variable dependiente. En ese
caso, todos los puntos caerían directamente sobre la línea
de regresión y no habría puntos dispersos alrededor.
Usaremos el error estándar de la estimación como una
herramienta, de la misma forma que podemos usar la
desviación estándar. Esto es, suponiendo que los puntos
observados siguen una distribución normal alrededor de la
recta de regresión, podemos esperar encontrar el 68% de
los puntos dentro de ±1se (o más menos 1 error estándar
de la estimación), el 95.5% de los puntos dentro de ±2se y
el 99.7% de los puntos dentro de ±3se.

Intervalos de Podemos concebir al error estándar de la estimación como


confianza para la herramienta estadística que podemos usar para hacer
la estimación afirmaciones de probabilidad acerca del intervalo
alrededor del valor estimado de Ŷ, dentro del cual cae el
valor real de Y. Podemos ver, por ejemplo, que hay una
seguridad del 95.5% de que el valor real de Y caerá dentro
de dos errores estándar del valor estimado de Ŷ. Llamamos
a estos intervalos alrededor de la Ŷ estimada, intervalos de
confianza para la estimación.
Así, se puede aplicar ahora este concepto de intervalos de
confianza para la estimación al problema del jefe del
Departamento de Salubridad, recordando que la ecuación
de estimación usada para predecir el gasto anual de
reparación es: Ŷ = 3.75 + 0.75X ; y que se predijo que con
un camión de 4 años de antigüedad se tendría un gasto de
reparaciones anual de $675; y también recordará que
calculamos el error estándar de la estimación como se =
0.866 ($86.60).
Ahora podemos combinar estas dos piezas de información
y decir que estamos seguros aproximadamente el 68% del
tiempo, de que el gasto real de reparaciones estará dentro
de ±1 error estándar de la estimación de Ŷ. Podemos
calcular los límites superior e inferior de este intervalo de
confianza para el gasto de reparación de la siguiente
manera:

Ŷ + 1se = $675 + [(1)($86.60)]


=$761.40 ← Límite superior del intervalo de predicción
y
Ŷ - 1se = $675 – [(1)($86.60)]
= $588.40 ← Límite inferior del intervalo de predicción
Si, en lugar de esto, decimos que estamos seguros
aproximadamente el 95.5% del tiempo de que el gasto real
de reparaciones estará dentro de ±2 errores estándar de la
estimación de Ŷ, podríamos calcular los límites de este
nuevo intervalo de confianza de la siguiente manera:

Ŷ + 2se = $675 + [(2)($86.60)]


= $848.20 ← Límite superior
y

Ŷ - 2se = $675 – [(2)($86.60)]


= $501.80 ← Límite inferior

4.4 Análisis de correlación

El análisis de correlación es la herramienta estadística que podemos usar para


describir el grado en el que una variable está linealmente relacionada con
otra. Con frecuencia, el análisis de correlación se utiliza junto con el de regresión
para medir qué tan bien la línea de regresión explica los cambios de la variable
dependiente, Y. Sin embargo, la correlación también se puede usar sola para medir
el grado de asociación entre dos variables. Los estadísticos han desarrollado dos
medidas para describir la correlación entre dos variables: el coeficiente de
determinación y el coeficiente de correlación.

Coeficiente de El coeficiente de determinación muestral se deriva de la


determinación relación entre dos tipos de variación de los valores Y en un
conjunto de datos:
1. alrededor de la recta de regresión ajustada; y,
2. alrededor de su propia media.
El término variación en estos dos casos se utiliza en su
sentido estadístico usual para expresar “la suma de los
cuadrados de un grupo de desviaciones”. Usando esta
definición, es razonable expresar la variación de los valores
Y alrededor de la recta de regresión con esta ecuación:

∑(Y-Ŷ )2 [22]
La segunda variación, la de los valores de Y alrededor de
su propia media, está determinada por:

∑(Y-Ȳ )2 [23]

Con base en estas dos variaciones, es posible determinar


el Coeficiente de determinación muestral mediante la
siguiente ecuación:

Coeficiente de determinación muestral

∑(𝑌 − 𝑌̂)2 [24]


𝑟2 = 1 −
∑(𝑌 − 𝑌̅)2

Interpretación En los problemas con que se topa la mayoría de los


de los valores responsables de la toma de decisiones, por lo general r2
r2 caerá en alguna parte entre estos los extremos de 0 y 1.
Por lo que se debe recordar que r2 cercana a 1 indica una
fuerte correlación entre X y Y, mientras que r2 cercana a 0
significa que existe poca correlación entre estas dos
variables.

Fórmula abreviada del Coeficiente de determinación de la muestra

𝑎 ∑ 𝑌 + 𝑏 ∑ 𝑋𝑌 − 𝑛𝑌̅ 2 [25]
𝑟2 =
∑ 𝑌 2 − 𝑛𝑌̅ 2

Donde:
r2 = Coeficiente de determinación de la muestra
Ȳ = Media de los valores observados de la variable dependiente.
Y = Valores de la variable dependiente.
a = Ordenada Y (ordenada en el origen).
b = Pendiente de la línea de estimación de mejor ajuste.
X = Valores de la variable independiente.
n = Número de puntos.

Ejemplo
Para ver por qué esta fórmula constituye un método abreviado, la aplicaremos a la regresión
que relaciona el caso de los gastos de investigación y desarrollo con las ganancias. Considere
que deberá agregar una columna, Y2. Recuerde que cuando encontramos los valores para a y
b, la recta de regresión para este problema era: Ŷ = 20 + 2X
Así, podemos concluir que la variación en los gastos de investigación y desarrollo (la variable
independiente X) explica el 82.6% de la variación en las ganancias anuales (la variable
dependiente Y).
Coeficiente de El coeficiente de correlación es la segunda medida que
correlación podemos usar para describir qué tan bien explica una
variable a otra. Cuando tratamos con muestras, el
coeficiente de correlación de la muestra se denota por r, y
es la raíz cuadrada del coeficiente de determinación de
muestra:

𝑟 = √𝑟 2 [26]

Cuando la pendiente de la ecuación de estimación es


positiva, r es la raíz cuadrada positiva, pero si b es
negativa, r es la raíz cuadrada negativa. Entonces, el signo
de r indica la dirección de la relación entre las dos
variables X y Y. Si existe una relación inversa (si Y
disminuye al aumentar X), entonces r caerá entre 0 y -1.
De manera similar, si existe una relación directa (si Y
aumenta al aumentar X), entonces r será un valor en el
intervalo de 0 a 1. La figura de la siguiente página ilustra
estas características de r.

El coeficiente de correlación es más difícil de interpretar que r2. ¿Qué significa r =


0.9? Para responder esta pregunta, debemos recordar que r=0.9 es lo mismo que
r2=0.81. Esto último nos dice que el 81% de la variación en Y es explicada por la
recta de regresión. De esta forma, vemos que r es sólo la raíz cuadrada de r2, y su
significado es qué tanto se relacionan las variables x y y. Por lo que r = 0.9 significa
que el 90% de los datos se relacionan entre sí.

Por lo que, por ejemplo, para el problema que relaciona los gastos de investigación
y desarrollo con las ganancias anuales, el coeficiente de correlación r sería igual
0.909, que es la raíz cuadrada de 0.826 (coeficiente de determinación muestral del
mismo ejemplo); y por lo tanto, la relación entre las dos variables es directa y la
pendiente es positiva; por tanto, el signo de r es positivo.
Ver archivo IV Reg Simple y Correl.xlsx para comprobación de resultado.

También podría gustarte