Estadistica II (Parte 1)

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 10

UC - Estadística Aplicada Doc. Mgt.

Victor Huaraccallo Huillca

INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

 Al realizar una investigación estadística a menudo se sabe o se supone que


la población (discreta o continua), de la cual se selecciona una muestra, tiene
una forma funcional cuyo parámetro o parámetros se intenta determinar.
 Los métodos de inferencia estadística consisten en seleccionar una muestra
aleatoria de la población de manera que a partir de la información que se
obtenga de la muestra determinar el valor del parámetro desconocido.
 El método de estimación de un parámetro puede ser puntual, en este caso
la estimación es un número.
 El método de estimación por intervalo, incluye un intervalo en el que está
comprendido los valores del parámetro.

ESTIMACIÓN PUNTUAL DE PARÁMETROS

Definición: un estimador puntual es un estadístico que se calcula a partir de la


información de la muestra y se utiliza para estimar el parámetro de la población.

CASO PRÁCTICO DE ESTIMACIÓN PUNTUAL

El problema de muestreo en la empresa Electronics Associates. Al director de


personal de Electronics Associates, Inc. (EAI) se le ha asignado la tarea de
elaborar un perfil de los 2500 gerentes de la empresa. Las características por
identificar son, entre otras, el sueldo anual promedio y la proporción de gerentes
que terminaron el programa de adiestramiento administrativo de la empresa.

Solución

Según Gerencia de Economía y financiamiento de la CMIC con información de


Engineering News Record, se define a los 2500 gerentes de la empresa Shell Oil
company como la población a estudiar, podemos determinar el salario anual y el
estado de adiestramiento en el programa.

Tenemos:
La media poblacional 𝜇 = 51 800 soles
Desviación estándar poblacional 𝜎 = 4 000 soles
Además, los datos dejan ver que 1500 de 2500 gerentes terminaron el
programa
1500
Proporción poblacional 𝑝 = = 0.60
2500

 Ahora, supongamos que no tenemos a la mano la información de los


gerentes o tal vez por cuestiones económicas no es posible reunir toda la
información, para elaborar estimaciones de los parámetros (es una
característica numérica de la población).
 El asunto que deseamos considerar es como el director del personal
puede obtener estimador de esos parámetros poblacionales con una
muestra de gerentes en lugar de hacerlo con los 2500 de la
población.
 Supongamos que se usara una muestra de 30 gerentes, los datos son:

1
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

Salario anual ¿Programa de Salario anual ¿Programa de


(dólares) adiestramiento (dólares) adiestramiento
gerencial? gerencial?
49094.30 Si 51766.00 Si
53263.90 Si 52541.30 No
49643.50 Si 44980.00 Si
49894.90 Si 51932.60 Si
47261.60 No 52973.00 Si
55924.00 Si 45120.90 Si
49092.30 Si 51753.00 Si
51404.40 Si 54391.80 No
50975.70 Si 50164.20 No
55109.70 Si 52973.60 No
45922.60 Si 50241.30 No
57268.40 No 52793.90 No
55688.80 Si 50797.40 Si
51564.70 No 55860.90 Si
56188.20 No 57309.10 No

Para estimar la media de la población 𝜇 y la desviación estándar 𝜎 del salario


anual de los gerentes, entonces:

∑ 𝑥𝑖
𝑥̅ = =
𝑛

∑(𝑥𝑖 −𝑥̅ )2
𝑠=√ =
𝑛−1

Además, al calcular la proporción de gerentes que contestaron Si en la muestra,


podemos estimar la proporción de gerentes, en la población, que terminaron el
programa de adiestramiento gerencial, esto es

𝑝̅ =

Este valor se usa como estimación de la proporción 𝑝 de la población.


 Este procedimiento estadístico es denominado Estimación Puntual,
entonces:
𝑥̅ es un estimador puntual de 𝜇
𝑠 es un estimador puntual de 𝜎
𝑝̅ es un estimador puntual de 𝑝
 A los valores numéricos se les denomina Estimaciones Puntuales del
parámetro en estudio.
 El valor absoluto de la diferencia entre una estimación puntual insesgada
y el parámetro poblacional correspondiente se llama error de muestreo,
por lo tanto:
|𝑥̅ − 𝜇| = soles
|𝑠 − 𝜎| = soles
|𝑝̅ − 𝑝| =

2
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

 En este caso podemos calcular los errores de muestreo porque


conocemos los parámetros poblacionales.
 Sin embargo en una aplicación real de muestreo no podemos calcular de
manera exacta el error de muestreo por que no se conoce el valor del
parámetro poblacional.

EJEMPLO
Al director de personal de Electronics Associates, Inc. (EAI) se le ha asignado la
tarea de elaborar un perfil de los 200 gerentes de la empresa. Las características
por identificar son, entre otras, el sueldo anual promedio y la proporción de
gerentes que terminaron el programa de adiestramiento administrativo de la
empresa.

El asunto que deseamos considerar, es como el director del personal


puede obtener un estimador de esos parámetros poblacionales con una
muestra de gerentes en lugar de hacerlo con los 200 de la población.
Supongamos que se usara una muestra de 30 gerentes, los datos son:

Salario anual ¿Programa de Salario anual ¿Programa de


(dólares) adiestramiento (dólares) adiestramiento
gerencial? gerencial?

1 49094.30 Si 26 50241.30 No 51 54391.80 No 76 51753.00 Si


2 53263.90 Si 27 52793.90 No 52 55924.00 Si 77 54391.80 No
3 49643.50 Si 28 50797.40 Si 53 49092.30 Si 78 51753.00 Si
4 49894.90 Si 29 55860.90 Si 54 51404.40 Si 79 54391.80 No
5 47261.60 No 30 57309.10 No 55 50975.70 Si 80 55924.00 Si
6 55924.00 Si 31 49894.90 Si 56 55109.70 Si 81 49092.30 Si
7 49092.30 Si 32 47261.60 No 57 45922.60 Si 82 51404.40 Si
8 51404.40 Si 33 55924.00 Si 58 57268.40 No 83 50975.70 Si
9 50975.70 Si 34 49092.30 Si 59 55688.80 Si 84 55109.70 Si
10 55109.70 Si 35 51404.40 Si 60 51564.70 No 85 45922.60 Si
11 45922.60 Si 36 50975.70 Si 61 56188.20 No 86 57268.40 No
12 57268.40 No 37 51753.00 Si 62 51766.00 Si 87 55688.80 Si
13 55688.80 Si 38 54391.80 No 63 52541.30 No 88 51564.70 No
14 51564.70 No 39 50164.20 No 64 52973.60 No 89 56188.20 No
15 56188.20 No 40 52973.60 No 65 50241.30 No 90 51766.00 Si
16 51766.00 Si 41 50241.30 No 66 52793.90 No 91 52541.30 No
17 52541.30 No 42 52793.90 No 67 50797.40 Si 92 52973.60 No
18 44980.00 Si 43 50797.40 Si 68 55860.90 Si 93 50241.30 No
19 51932.60 Si 44 55860.90 Si 69 57309.10 No 94 52793.90 No
20 52973.00 Si 45 47261.60 No 70 49894.90 Si 95 55860.90 Si
21 45120.90 Si 46 55924.00 Si 71 47261.60 No 96 57309.10 No
22 51753.00 Si 47 49092.30 Si 72 55924.00 Si 97 49894.90 Si
23 54391.80 No 48 51404.40 Si 73 49092.30 Si 98 47261.60 No
24 50164.20 No 49 50975.70 Si 74 51404.40 Si 99 55924.00 Si
25 52973.60 No 50 51753.00 Si 75 50975.70 Si 100 49092.30 Si

3
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

101 51404.40 Si 126 55109.70 Si 151 51564.70 No 176 50164.20 No


102 50975.70 Si 127 45922.60 Si 152 56188.20 No 177 52973.60 No
103 51753.00 Si 128 57268.40 No 153 51766.00 Si 178 50241.30 No
104 54391.80 No 129 55688.80 Si 154 52541.30 No 179 52793.90 No
105 51753.00 Si 130 51564.70 No 155 44980.00 Si 180 50797.40 Si
106 54391.80 No 131 56188.20 No 156 51932.60 Si 181 55860.90 Si
107 55924.00 Si 132 51766.00 Si 157 52973.00 Si 182 47261.60 No
108 49092.30 Si 133 52541.30 No 158 45120.90 Si 183 55924.00 Si
109 51404.40 Si 134 52973.60 No 159 51753.00 Si 184 49092.30 Si
110 50975.70 Si 135 50241.30 No 160 54391.80 No 185 51404.40 Si
111 55109.70 Si 136 52793.90 No 161 50164.20 No 186 50975.70 Si
112 45922.60 Si 137 55860.90 Si 162 52973.60 No 187 51753.00 Si
113 57268.40 No 138 57309.10 No 163 50241.30 No 188 54391.80 No
114 55688.80 Si 139 49894.90 Si 164 52793.90 No 189 55924.00 Si
115 51564.70 No 140 47261.60 No 165 50797.40 Si 190 49092.30 Si
116 56188.20 No 141 49894.90 Si 166 55860.90 Si 191 51404.40 Si
117 51766.00 Si 142 47261.60 No 167 57309.10 No 192 50975.70 Si
118 52541.30 No 143 55924.00 Si 168 49894.90 Si 193 55109.70 Si
119 54391.80 No 144 49092.30 Si 169 47261.60 No 194 45922.60 Si
120 51753.00 Si 145 51404.40 Si 170 55924.00 Si 195 57268.40 No
121 54391.80 No 146 50975.70 Si 171 49092.30 Si 196 55688.80 Si
122 55924.00 Si 147 55109.70 Si 172 51404.40 Si 197 51564.70 No
123 49092.30 Si 148 45922.60 Si 173 50975.70 Si 198 56188.20 No
124 51404.40 Si 149 57268.40 No 174 51753.00 Si 199 51766.00 Si
125 50975.70 Si 150 55688.80 Si 175 54391.80 No 200 52541.30 No

1. Estimar la media de la población 𝜇, la desviación estándar 𝜎 del salario


anual de los gerentes, y la proporción de gerentes que terminaron el curso
de adiestramiento.
2. Utilizar distribuciones muestrales para generar 20 nuevas muestra de 30
gerentes para mejorar la estimación de los parámetros poblacionales.

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS


ERROR MUESTRAL

Siempre que se usa una media de muestra para proporcionar un estimador


puntual de una media poblacional, alguien puede preguntar: ¿Qué tan buena es
la estimación?, la pregunta ¿Qué tan bueno?, es una forma de indagar el error
incurrido cuando se usa el valor de 𝑥̅ como una estimación puntual de 𝜇.

 El error estándar de la media de una muestra de una población infinita (o


población finita con sustitución) es:
𝝈
𝝈𝒙̅ =
√𝒏
 Si la población es finita de tamaño N y el muestreo es sin reposición el
error estándar de la media muestral es:

𝝈 𝑵−𝒏
𝝈𝒙̅ = √
√𝒏 𝑵 − 𝟏

4
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

INTERVALO DE CONFIANZA PARA LA MEDIA 𝝁

En esta sección se mostrara como usar una muestra aleatoria simple para
obtener una estimación del intervalo de una media poblacional. Nos centraremos
en el caso de muestras grandes donde el tamaño de la muestra es por lo
menos 30. Empezamos con una situación donde se supone que se conoce la
desviación estándar de la poblacional 𝝈. Después consideraremos el caso donde
no se conoce la desviación estándar poblacional 𝜎 y, como resultado, se estima
mediante la desviación estándar muestral 𝑠.

CASO: varianza poblacional 𝝈𝟐 supuesta conocida

Sea 𝑥1 , 𝑥2 , … , 𝑥𝑛 una muestra aleatoria extraída de una población 𝑁(𝜇, 𝜎 2 ), donde


𝜎 2 es conocida, además (𝑛 ≥ 30).

El mejor estimador puntual de 𝜇 es 𝑋. Se utiliza entonces, la distribución muestral


de 𝑋 para determinar intervalos de confianza de 𝜇.

 Si la población es normal, 𝑁(𝜇, 𝜎 2 ), entonces, la distribución de la


estadística 𝑋 es normal 𝑁(𝜇, 𝜎 2 /𝑛), para cualquier valor de 𝑛, (𝑛 ≥ 2).

 Si la población no es normal, pero tiene media 𝜇 y varianza 𝜎 2 finitas,


entonces, siempre que el tamaño 𝑛 de la muestra sea suficientemente
grande, (𝑛 ≥ 30) por el Teorema del Limite Central (𝑇𝐿𝐶), la distribución
de 𝑋 es aproximadamente normal 𝑁(𝜇, 𝜎 2 ).

Por lo tanto, según sea el caso, la distribución de la variable aleatoria:

𝑋−𝜇
𝑍= ~ 𝑁(0,1)
𝜎/√𝑛

El intervalo de confianza del (𝟏 − 𝜶) ∗ 𝟏𝟎𝟎% para 𝝁 es:

𝝈 𝝈
̅ − 𝒁(𝟏−𝜶)
𝒙 ̅ + 𝒁(𝟏−𝜶)
≤𝝁≤ 𝒙
𝟐 √𝒏 𝟐 √𝒏
𝛼
El valor 𝑍(1−𝛼) se busca en 𝑁(0,1)/𝑃 [𝑍 ≤ 𝑍(1−𝛼) ] = 1 − 2
2 2

Para una población finita (muestreo sin remplazo)

5
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

𝑋−𝜇
𝑍= ~ 𝑁(0,1)
𝜎 √𝑁 − 𝑛
√𝑛 𝑁 − 1
Luego para muestras aleatorias de tamaño 𝑛 escogida de una población finita
de tamaño 𝑁 con varianza 𝜎 2 (conocida) el intervalo de confianza (1 − 𝛼) ∗
100% para 𝜇 es:

𝝈 𝑵−𝒏 𝝈 𝑵−𝒏
̅ − 𝒁(𝟏−𝜶)
𝒙 √ ̅ + 𝒁(𝟏−𝜶)
≤𝝁≤ 𝒙 √
𝟐 √𝒏 𝑵 − 𝟏 𝟐 √𝒏 𝑵 − 𝟏

Nota: si 𝜇 se estima puntualmente por 𝑥̅ , entonces el error de la estimación es el


valor numérico |𝑥̅ − 𝜇|

𝒆𝒓𝒓𝒐𝒓

̅
𝒙 𝝁 𝒃
𝒂

̅ − 𝒁(𝟏−𝜶) 𝜎𝑥̅
𝒂=𝒙 ̅ + 𝒁(𝟏−𝜶) 𝜎𝑥̅
𝒃=𝒙
𝟐 𝟐

 El valor mínimo del error de estimación es igual a cero, esto ocurre,


cuando 𝑥̅ estima exactamente a 𝜇.
 El valor máximo del error de estimación es igual a: 𝒁(𝟏−𝜶) 𝜎𝑥̅ , ya que del
𝟐
intervalo de estimación de 𝜇 resulta:
|𝒙
̅ − 𝝁| ≤ 𝒁(𝟏−𝜶) 𝝈𝒙̅
𝟐

Si 𝑥̅ estima a 𝜇, entonces, se tiene una confianza del (1 − 𝛼) ∗ 100% de que el


error de la estimación no será superior a 𝑍(1−𝛼) 𝜎𝑥̅ , donde 𝜎𝑥̅ es el error estándar
2
de la media.

CASO: varianza poblacional 𝝈𝟐 supuesta desconocida

I. Población no normal

Si la población no es normal pero el tamaño de la muestra es suficientemente


grande (𝑛 ≥ 30), se utiliza la desviación estándar 𝑠̂ de la muestra, como
estimación puntual de la desviación estándar 𝜎 de la población, entonces:

̅ − 𝒁(𝟏−𝜶) 𝝈̅𝒙 ≤ 𝝁 ≤ 𝒙
𝒙 ̅ + 𝒁(𝟏−𝜶) 𝝈̅𝒙
𝟐 𝟐

6
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

𝝈 𝒔̂
 Donde el error estándar 𝝈𝒙̅ = se sustituye 𝝈
̂ 𝒙̅ = si el muestreo es con
√𝒏 √𝒏
o sin sustitución en una población infinita (con sustitución en una
población finita de tamaño N).
𝒔̂ 𝑁−𝑛
 El error estándar se sustituye por 𝝈
̂ 𝒙̅ = √ si el muestreo es sin
√𝑛 𝑁−1
sustitución en una población finita de tamaño N.

II. Población Normal

Si 𝑥̅ y 𝑠̂ son la media y la desviación estándar respectivamente para un valor


particular 𝑥1 , 𝑥2 , … , 𝑥𝑛 de la muestra aleatoria de tamaño 𝑛 escogida de una
población normal con varianza 𝜎 2 desconocida, entonces, el intervalo de
confianza de (𝟏 − 𝜶) ∗ 𝟏𝟎𝟎% para 𝜇 es:

𝒔̂ 𝒔̂
̅ − 𝒕(𝟏−𝜶 ,𝒏−𝟏)
𝒙 ̅ + 𝒕(𝟏−𝜶 ,𝒏−𝟏)
≤𝝁≤ 𝒙
𝟐 √𝒏 𝟐 √𝒏

El valor 𝑡(1−𝛼 ,𝑛−1) se enceuntra en al tabla 𝑡 de estudentr con 𝑛 − 1 grados de


2
libertad.

Observación: (Grados de libertad) el número de grados de libertad denotado


por “r”, corresponde al número de variables aleatorias independientes que se
suman, o es el número de variables que pueden variar libremente. Aquí, la
independencia es funcional y no estadístico.

Ejemplo

El artículo “Study on the Life Distribution of Microdrills” (Z. Yang, Y. Chen y Y.


Yang, en Journal of Engineering Manufacture, 2002:301-305) notifica que en una
muestra de 50 microperforadoras, éstas perforan una aleación de acero con bajo
contenido de carbono, el tiempo de vida promedio (expresado como el número
de huecos perforados antes de que falle) era de 12.68 con desviación estándar
de 6.83. Determine un intervalo de confianza de 95% para la media del tiempo
de vida de las microperforadoras bajo estas condiciones.

7
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

Ejemplo
Con base en los datos del tiempo de vida de las microperforadoras que se
presentó en el ejemplo anterior, un ingeniero notifica un intervalo de confianza
de (11.09, 14.27), pero olvidó especificar el nivel. ¿Cuál es el nivel de confianza
de este intervalo de confianza?

Ejemplo
El artículo “Direct Strut-and-Tie Model for Prestressed Deep Beams” (K. Tan, K.
Tong y C. Tang, en Journal of Structural Engineering, 2001:1076-1084) presenta
mediciones de la fuerza nominal de corte (en kN) para una muestra de 15 vigas
de concreto. Los resultados son
580 400 428 825 580 875 920 550
575 750 636 360 590 735 950
¿Es adecuado utilizar la estadística t de Student para construir un intervalo de
confianza de 99% para la media de la fuerza de corte? Si es así, construya el
intervalo de confianza. Si no, explique por qué.

8
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

INTERVALO DE CONFIANZA PARA LA VARIANZA

Un estimador puntual de la varianza 𝜎 2 es la varianza muestral, definido por

2
∑(𝑥𝑖 − 𝑥̅ )2
𝑠 =
𝑛−1

Si 𝑠 2 es la varianza de una muestra aleatoria de tamaño n seleccionada de una


población normal, entonces, el intervalo de confianza de (1 − 𝛼) ∗ 100% para 𝜎 2
es:
(𝒏 − 𝟏)𝒔𝟐 𝟐
(𝒏 − 𝟏)𝒔𝟐
≤𝝈 ≤ 𝟐
𝝌𝟐 𝜶 𝝌𝜶
(𝟏− 𝟐 ; 𝒏−𝟏) ( 𝟐 ; 𝒏−𝟏)

2
Los valores 𝜒(1− 𝛼 y 𝜒(2𝛼; 𝑛−1) se hallan en la tabla chi-cuadrado con n-1
; 𝑛−1)
2 2
grados de libertad.

Ejemplo
En la actualidad las monedas de 1 centavo de dólar se acuñan con una
desviación estándar de 0.0165 g. Se prueba un nuevo equipo con la intención de
mejorar la calidad al reducir la variación. Se obtiene una muestra aleatoria simple
de 10 monedas de 1 centavo acuñadas con el equipo nuevo. Una gráfica
cuantilar normal y un histograma indican que los pesos provienen de una
población distribuida normalmente, y la muestra tiene una desviación estándar
de 0.0125 g. Utilice los resultados muestrales para construir un estimado de un
intervalo de confianza del 95% de s, la desviación estándar de los pesos de
monedas de 1 centavo fabricadas con el equipo nuevo. Con base en los
resultados, ¿parece que el equipo nuevo sirve para reducir la variación de los
pesos?

9
UC - Estadística Aplicada Doc. Mgt. Victor Huaraccallo Huillca

INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN

El estimador puntual de 𝑝 es la estadística “proporción de éxitos en la muestra”


definida por:
𝑥
𝑝̅ =
𝑛
Dónde 𝑥: Número de éxitos en la muestra
𝑛: Total de datos observados

Si 𝑝̅ es la proporción de éxitos en una muestra aleatoria de tamaño n,


entonces, el intervalo de confianza del (1 − 𝛼) ∗ 100% para 𝑝 es:

̅(𝟏 − 𝒑
𝒑 ̅) ̅(𝟏 − 𝒑
𝒑 ̅)
̅ − 𝒁(𝟏−𝜶)
𝒑 ∗√ ̅ + 𝒁(𝟏−𝜶) ∗ √
≤𝒑≤𝒑
𝟐 𝒏 𝟐 𝒏

Ejemplo
Los métodos de interpolación se usan para calcular las alturas sobre el nivel del
mar para ubicaciones donde las mediciones directas no están disponibles. En el
artículo “Transformation of Ellipsoid Heights to Local Leveling Heights” (M.
Yanalak y O. Baykal, en Journal of Surveying Engineering, 2001:90-103), se
evalúa un método de promedio ponderado de interpolación para calcular las
alturas de mediciones GPS. El método se estableció para interpretar errores
“grandes” (errores cuya magnitud están por encima de umbral comúnmente
aceptado) en 26 de 74 ubicaciones de prueba. Determine un intervalo de
confianza de 90% para la proporción de ubicaciones en las que este método
tendrá errores grandes.

Ejemplo
En el ejemplo anterior, ¿qué tamaño muestral se necesita para obtener un
intervalo de confianza de 95% con ancho ±0.08?

10

También podría gustarte