PYE5
PYE5
PYE5
Fecha: 28.04.2017.
Introducción.
Los dos tipos de problemas que atiende la estadística inferencial son: la estimación y el contraste
de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a una
población. Estás técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se dispone
de muestras aleatorias, por lo tanto la situación ambiental es la que se esquematiza en la figura.
Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la
denominada población de muestreo: población (la mayor parte de las veces no definida con
precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización
está amenazada por dos posibles tipos de errores: error aleatorio que es el que las técnicas
estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral, pero también de
la variabilidad de la variable a estudiar y el error sistemático que tiene que ver con la diferencia
entre la población de muestreo y la población diana y que solo puede ser controlado por el diseño
del estudiado.
Cuando se estudian las características de una población, existen diversas razones prácticas para
preferir algunas partes o muestras de ella para observar y medir. He aquí algunas razones para
muestrear:
Hay dos fuentes básicas de error de muestreo. La primera es sencillamente conocida como “mala
suerte”, debido a la cuestión de suerte, la muestra pudiese tener características no propias de la
población.
Una segunda fuente de error de muestreo es el sesgo muestral. El sesgo resulta de la tendencia a
favorecer la selección de ciertas muestras sobre otras en la recolección de los datos de la muestra.
Tipos de muestreos.
Garantiza que cada muestra de algún tamaño dado tenga la misma probabilidad de ser
seleccionada.
B) Muestreo sistematico.
Se forma seleccionando cada iésimo ítem de la población. Si se determina que i es igual a 10,
una muestra sistemática consta de cada décima observación en la población. La población
debe ordenarse o enumerarse de forma aleatoria.
C) Muestreo estratificado.
(p + q)n = 1
Por supuesto que nunca se puede calcular realmente el tamaño del error de muestro debido a que
la media poblacional sigue siendo desconocida. Sin embargo, se debe ser consciente de que es
más probable que ocurra algún error de muestreo.
7.- ¿Se puede esperar, que al analizar una muestra de una población, un
estadístico pudiera ser igual al parámetro poblacional correspondiente?
Varía y está sometido al error (variabilidad) del muestreo. Los parámetros no varían, son
constantes y además desconocidos. Contienen las características de la población.
Si usted conoce la población, puede determinar la distribución de muestreo. Sin embargo, puede
obtener información útil sobre la distribución de muestreo sin conocer la población. Por ejemplo, si
no conoce la población, podría decir que existe un 85% de certeza de que la media de la muestra
esté dentro de un cierto número de desviaciones estándar de la media de la población. También
podría decir que, si las medias de dos poblaciones son iguales, la diferencia entre las medias de
las muestras debería ubicarse entre ciertos valores.
Hasta ahora estábamos admitiendo que se conoce la varianza de la población de la que se extrae
la muestra, pero esta no ser ‘a la situación general, sino que la mayoría de las veces no
conocemos la varianza de la población, entonces como se dispone de una muestra aleatoria de
tamaño n, podemos, calcular la varianza muestral S 2 y utilizarla en lugar de la varianza
poblacional σ 2 desconocida, pues S 2 es, como veremos después, un buen estimador de σ 2.
Cuando σ 2 es desconocido, la distribución muestral de Z = X¯−µ σ/√ n depende del tamaño de la
muestra.
11.- Distribuciones de muestreo para medias, o2 desconocida, la distribución T
de Student.
Cuando se calcula un intervalo de confianza para la media poblacional, suele no contarse con una
buena estimación de la desviación estándar poblacional. En tales casos se usa la misma muestra
para estimar μ y σ. Esta situación es el caso que se conoce como σ desconocida. Cuando se usa
s para estimar σ, el margen de error y la estimación por intervalo de la media poblacional se basan
en una distribución de probabilidad conocida como distribución t. Aunque la elaboración
matemática de la distribución t parte de la suposición de que la población de la que se muestrea
tiene una distribución normal, las investigaciones han demostrado que la distribución t se aplica en
muchas situaciones en que la población se desvía significantemente de una población normal.
Más adelante, en esta misma sección, se proporcionan lineamientos para usar la distribución t
cuando la población no está distribuida normalmente.
La distribución t es una familia de distribuciones de probabilidad similares; cada distribución
t depende de un parámetro conocido como grados de libertad. La distribución t para un grado de
libertad es única, como lo es la distribución t para dos grados de libertad, para tres grados de
libertad, etc. A medida que el número de grados de libertad aumenta, la diferencia entre la
distribución t y la distribución normal estándar se va reduciendo. En la figura 8.4 se muestran las
distribuciones t para 10 y 20 grados de libertad y su relación con la distribución de probabilidad
normal estándar. Observe que una distribución t para más grados de libertad exhibe menos
variabilidad y un mayor parecido con la distribución normal estándar, también que la media de toda
distribución t es cero.
Para indicar el área en la cola superior de la distribución t, a la t se le pone un subíndice. Por
ejemplo, así como se usó z0.025 para indicar el valor de z que deja en la cola superior de la
distribución normal estándar un área de 0.025, se usará t0.025 para indicar el valor de t que deja
en la cola superior de la distribución t un área de 0.025. En general se usará la notación tα/2 para
representar el valor de t que deja un área de α/2 en la cola superior de la distribución t. Véase
figura 8.5. La tabla 2 del apéndice B contiene una tabla con la distribución t. En la tabla 8.2 se
muestra parte de esa tabla. Cada renglón de la tabla corresponde a una distribución t distinta con
los grados de libertad que se indican. Por ejemplo, en la distribución t con 9 grados de libertad,
t0.025 _ 2.262. De manera similar en la distribución t con 60 grados de libertad, t0.025 _ 2.000. A
medida que los grados de libertad aumentan, t0.025 se aproxima a z0.025 _ 1.96. En efecto, el
valor z de la distribución normal estándar se encuentra en el renglón correspondiente a infinitos
grados de libertad (cuyo encabezado es _) de la tabla de las distribuciones t. Si los grados de
libertad son más de 100, se puede usar el renglón correspondiente a infinitos grados de libertad
para aproximar el verdadero valor de t; en otras palabras, para más de 100 grados de libertad, el
valor z normal estándar proporciona una buena aproximación al valor t.
Características:
Margen de error en estimación por intervalo
En la sección 8.1 se mostró que la estimación por intervalo de la media poblacional cuando σ es
conocida es Para calcular una estimación por intervalo para μ en el caso en que no se conoce σ se
usa la desviación estándar muestral s para estimar σ, y zα/2 se sustituye por el valor ta/2 de la
distribución t.
El estadístico de prueba:
ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL: σ DESCONOCIDA
s
(8.2)
x¯ ± tα/2 Vn
Uso de la tabla:
Área o
probabilidad
0t
El estadístico de prueba
�
p¯(1 p¯)
(8.6)
n
Error tipo 2 = se define como la aceptación de la hipótesis nula cuando ésta es falsa.