Unidad 1 Esyadistica II
Unidad 1 Esyadistica II
Unidad 1 Esyadistica II
El propósito de un estudio estadístico suele ser, extraer conclusiones acerca de la naturaleza de una
población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los
casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo
que nos lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de
muestreo.
Una parte fundamental para realizar un estudio estadístico de cualquier tipo es obtener unos
resultados confiables y que puedan ser aplicables. Como ya se comentó anteriormente, resulta casi
imposible o impráctico llevar a cabo algunos estudios sobre toda una población, por lo que la solución
es llevar a cabo el estudio basándose en un subconjunto de ésta denominada muestra
Sin embargo, para que los estudios tengan la validez y confiabilidad buscada es necesario que tal
subconjunto de datos, o muestra, posea algunas características específicas que permitan, al final,
generalizar los resultados hacia la población en total. Esas características tienen que ver
principalmente con el tamaño de la muestra y con la manera de obtenerla.
El Muestreo es más que el procedimiento empleado para obtener una o más muestras de una
población; el muestreo es una técnica que sirve para obtener una o más muestras de población.
Este se realiza una vez que se ha establecido un marco muestral representativo de la población, se
procede a la selección de los elementos de la muestra aunque hay muchos diseños de la muestra.
Al tomar varias muestras de una población, las estadísticas que calculamos para cada muestra no
necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra.
La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución
de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras.
El muestreo, como ya se mencionó, implica algo de incertidumbre que debe ser aceptada para poder
realizar el trabajo, pues aparte de que estudia una población resulta ser un trabajo en ocasiones
demasiado grande, se ofrecen las siguientes razones extras:
Recursos limitados. Es decir, no existen los recursos humanos, materiales o económicos para
realizar el estudio sobre el total de la población. Es como cuando se compra un aparato, un automóvil
usado (por ejemplo), que se prueba unos minutos (el encendido, una carrerita, etc.) para ver si
funciona correctamente y luego se adquiere, pero no se espera a probarlo toda la vida (encendiéndolo
y apagándolo o, simplemente, dejándolo encendida) antes de realizar la adquisición.
Costo reducido. Si los datos que buscamos los podemos obtener a partir de una pequeña parte del
total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo,
1
Estadística II
cuando se realizan encuestas previas a un referéndum, es más barato preguntar a 4.000 personas su
intención de voto, que a 30.000.000;
Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para el estudio
paleontológico de los dinosaurios (el T. Rex por ejemplo) sería muy bueno contar con, al menos,
muchos restos fósiles y así realizar tales investigaciones; sin embargo, se cuenta sólo con una docena
de esqueletos fosilizados (casi todos incompletos) de esas criaturas en todo el mundo.
El muestreo puede ser más exacto. Esto es en el caso en el que el estudio sobre la población total
puede causar errores por su tamaño o, en el caso de los censos, que sea necesario utilizar personal
no lo suficientemente capacitado; mientras que, por otro lado, el estudio sobre una muestra podría ser
realizada con menos personal pero más capacitado.
Mayor Alcance. En una encuesta por ejemplo, se puede realizar mayor cantidad de preguntas, es
decir se puede tratar un mayor número de variables.
Única alternativa. Algunas veces la población es infinita y no es posible analizar toda la población.
Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible
en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es
mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.
1) Muestreo Probabilístico. Consiste en elegir una muestra de una población al azar. Podemos
distinguir varios tipos de muestreo:
2
Estadística II
b) Muestreo aleatorio sistemático
Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta
completar la muestra.
Por ejemplo si tenemos una población formada por 100 elementos y queremos extraer una muestra de
25 elementos, en primer lugar debemos establecer el intervalo de selección que será igual a 100/25 =
4. A continuación elegimos el elemento de arranque, tomando aleatoriamente un número entre el 1 y el
4, y a partir de él obtenemos los restantes elementos de la muestra.
2, 6, 10, 14,..., 98
En una fábrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay
200 trabajadores en la sección A, 150 en la B, 150 en la C y 100 en la D.
Tipo de
Características Ventajas Inconveniente
Muestreo
Se selecciona una muestra Sencillo y de fácil Requiere que se posea de
de tamaño n de una comprensión. antemano un listado completo
población de N unidades, Cálculo rápido de medias y de toda la población.
Aleatorio cada elemento tiene una varianzas. Cuando se trabaja con
Simple probabilidad de inclusión Se basa en la teoría muestras pequeñas es posible
igual y conocida de n/N estadística, y por tanto existen que no represente a la
paquetes informáticos para población adecuadamente.
analizar los datos.
Conseguir un listado de los N • Fácil de aplicar. Si la constante de muestreo
elementos de la población. • No siempre es necesario tener está asociada con el fenómeno
Determinar tamaño muestral un listado de toda la población. de interés, las estimaciones
n. • Cuando la población está obtenidas a partir de la
Definir un intervalo k= N/n. ordenada siguiendo una muestra pueden contener
Sistemático
Elegir un número aleatorio, r, tendencia conocida asegura sesgo de selección
entre 1 y k (r= arranque una cobertura de unidades de
aleatorio). todos los tipos.
Seleccionar los elementos
de la lista.
3
Estadística II
En ciertas ocasiones Tiende a asegurar que la Se ha de conocer la
resultará conveniente muestra represente distribución en la población de
estratificar la muestra según adecuadamente a la población las variables utilizadas para la
ciertas variables de interés. en función de unas variables estratificación.
Para ello debemos conocer seleccionadas.
la composición estratificada Se obtienen estimaciones
de la población objetivo a más precisa
Estratificado hacer un muestreo. Una vez Su objetivo es conseguir una
calculado el tamaño muestra lo más semejante
muestral apropiado, este se posible a la población en lo que
reparte de manera a la o las variables
proporcional entre los estratificadoras se refiere.
distintos estratos definidos
en la población usando una
simple regla de tres.
Se realizan varias fases de o Es muy eficiente cuando la o El error estándar es mayor
muestreo sucesivas población es muy grande y que en el muestreo aleatorio
(polietápico) dispersa. simple o estratificado.
La necesidad de listados de o No es preciso tener un listado o El cálculo del error estándar
Conglomerado las unidades de una etapa de toda la población, sólo de las es complejo.
se limita a aquellas unidades primarias de
unidades de muestreo muestreo.
seleccionadas en la etapa
anterior.
Con independencia del tipo de muestreo que utilice, el muestreo puede hacerse con o sin reposición, y
la población de partida puede ser infinita o finita.
Sin reposición de los elementos: Cada elemento extraído se descarta para la subsiguiente
extracción. Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida
media de las bombillas que la integran, no será posible medir más que una vez la bombilla
seleccionada.
Con reposición de los elementos: Las observaciones se realizan con reemplazamiento de los
individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy
grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse
sin reposición aunque, realmente, no lo sea.
Si consideremos todas las posibles muestras de tamaño n en una población, para cada muestra
podemos calcular un estadístico (media, desviación típica, proporción, ...) que variará de una a otra.
4
Estadística II
En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas
de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los estudios de
caso-control, donde los casos no son seleccionados aleatoriamente de la población.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen
unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y
residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que
cumplan esas características. Este método se utiliza mucho en las encuestas de opinión.
También puede ser que el investigador seleccione directa e intencionadamente los individuos de la
población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los
que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios
alumnos).
c) Bola de nieve.
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir
una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con
poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
d) Muestreo Discrecional
A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al
estudio.
1.- Objetivos del muestreo. Se debe presentar una exposición clara de los objetivos del estudio, ya
que de otra forma se pueden olvidar los objetivos principales establecidos en la planeación y tomar
decisiones equivocadas. Esta etapa comprende la identificación del problema y el establecimiento de
las metas del estudio.
2.- Definición del marco de muestreo. Antes de la selección de la muestra, la población debe ser
dividida en partes denominadas unidades de muestra. El marco de muestreo es el conjunto de las
unidades de muestreo que constituyen una población. Este generalmente puede ser de dos tipos:
a) Marco lista: Es una lista depurada (sin traslapes o duplicaciones) que permite identificar a cada
unidad de muestreo. Por ejemplo, una lista que contenga el nombre de todos los proveedores de caña
5
Estadística II
de azúcar de un ingenio. Es recomendable que además de identificar a cada unidad muestral, incluya
algunas otras características de interés, por ejemplo, tamaño de la finca de cada proveedor.
b) Es un plano o mapa que permite identificar pequeñas áreas usadas como unidades de muestreo en
las que se ha dividido el área total.
3.- Variables a medir y métodos de medición. Debemos tener especial cuidado en la construcción
de la forma de registro de la información que se va a recolectar de forma tal que esta pueda ser
debidamente pre-codificada. Es importante considerar el tipo de variable a medir, por ejemplo: si se va
a estudiar el rendimiento de caña de azúcar, la variable es de tipo continuo, si interesa estimar la
proporción de agricultores que utilizan herbicidas para el control de malezas, se medirá una variable de
tipo binomial. El tipo de variable a medir ayuda a definir el esquema o tipo de muestreo.
4.- Nivel de Precisión deseado. Especificar lo más adecuado posible el nivel de precisión deseado de
tal forma que se pueda reducir la incertidumbre de los resultados.
5.-Tipo o Esquema de Muestreo. Existen actualmente una gran variedad de tipos o esquemas de
muestreo que han sido desarrollados para diferentes situaciones, entre los mas usados están:
muestreo simple aleatorio, muestreo aleatorio estratificado, muestreo sistemático.
6.- Determinación del tamaño de muestra (n). Hacer estimaciones del tamaño de la muestra
partiendo de un conocimiento del nivel de precisión deseado.
7.- Encuesta piloto. Es de gran utilidad probar los métodos de campo que se van a emplear en una
pequeña escala, para mejorar el cuestionario antes de iniciar el trabajo definitivo.
En un estudio, es conveniente someter el método a una prueba previa por las siguientes razones:
a) Algunas veces es imprescindible realizar un premuestreo para tener una estimación preliminar de
la variabilidad de la población.
b) Verificar la funcionalidad de un método de muestreo.
c) Estimar costos.
d) Conocer la eficiencia de la organización del trabajo de campo.
e) Captar la aceptación, rechazo o dificultad para obtener la información.
8.- Organización del trabajo de campo. El personal debe recibir la capacitación con relación al
propósito de la encuesta y debe ser supervisado por personal especializado.
10.- Resumen y análisis. Después de realizar la encuesta se corrigen errores, se desechan datos
equivocados y se redacta el informe. Este informe debe contemplar números, graficas, redacción en
prosa, infografías, cuadros comparativos, matrices, etc. Puede consistir sólo en la presentación e
interpretación de distribuciones simples, tabulaciones, gráficas o puede considerar un análisis
estadístico más complejo (Estimación, pruebas de hipótesis, etc.) esto depende básicamente de los
objetivos del trabajo.
6
Estadística II
Conceptos.
Población: Conjunto total de elementos objeto de estudio. También se denomina universo o colectivo.
La población puede estar formada por personas, hogares, instituciones u objetos.
Método de Muestreo. Procedimiento utilizado para seleccionar de forma representativa las unidades
muestrales.
Error de Muestreo: Error cometido al no tratar toda la población. Es un error admitido y controlado al
generalizar los resultados de una muestra obtenida aleatoriamente a la población total.
Error No Muestral: Error ajeno al proceso de muestreo difícil de acotar y motivado principalmente por
una elevada tasa de no respuesta, errores de diseño de cuestionario, sesgos del entrevistador, etc. Un
control riguroso de todo el proceso de realización del estudio reduce este tipo de errores que pueden
restar gran parte de la validez de los resultados.
Dispersión: Medida estadística del nivel de variación de la opinión del colectivo total sobre el tema
analizado respecto al valor medio.
Inferencia Estadística: Proceso de proyección o estimación de resultados válidos para una población
a partir de los resultados obtenidos de una muestra de esa población
Parámetro: Característica de la población que nos interesa. El valor verdadero del parámetro no se
conoce, puesto que es lo que tratamos de descubrir mediante el procedimiento muestral.
Exactitud. Representa la aproximación más cercana de la muestra al valor verdadero del parámetro
de la población, expresándose a menudo como un intervalo.
Intervalo de Confianza: Intervalo con una determinada probabilidad de incluir el valor poblacional.
Este intervalo se determina a partir de los resultados muestrales y el error de muestreo.
7
Estadística II
1.4 Distribuciones Muestrales
La estadística inferencial involucra el uso de un estadístico para sacar una conclusión o inferencia
sobre el parámetro correspondiente de la población
Una distribución de probabilidad de todos los parámetros de las muestras es una distribución muestral.
Esta distribución muestral puede ser de medias y de proporciones.
Cualquier distribución de probabilidad (y por lo tanto cualquier distribución de muestreo) puede ser
descrita parcialmente por su media y su desviación estándar.
Distribución de
Población Muestra Estadística de Muestreo
Muestreo
Agua de un Pozo Recipientes de 10 Numero medio de partes de Distribución de
galones de agua mercurio por millón de partes de muestreo de la media
agua.
Todos los equipo Grupos de 11 Estatura media Distribución de
profesionales de jugadores muestreo de la media
Fut-Bol
Partes producidas 50 partes Proporción defectuosa Distribución de
por un proceso de muestreo de la
fabricación proporción
1.5 De Medias.
8
Estadística II
La distribución muestral de la media muestral es la distribución de los valores de las medias
muestrales de todas las posibles muestras del mismo tamaño n tomadas de la misma población
1. El promedio de todos los valores posibles de medias muestrales es igual al parámetro μ. En otras
palabras, la media muestral X es un estimador insesgado de μ.
μ x =μ
2.- Error estándar de la media muestral: Es la desviación estándar de las posibles medias muestrales.
3. Si la población original tiene distribución Normal, entonces para cualquier tamaño muestral n la
distribución de la media muestral es también Normal.
Ejemplo:
Media muestral Xi P (cada. Xi )
150 1/6 Población
200 1/6
Con N
250 2/6
300 1/6
elementos
350 1/6 X media 1 X media K
1.0 Desv.est.1 Desv.est.K
X Xi X Xi
K K
150 200 250 250 300 150350 200 250 250 300 350
X
Varianza X de lasmedias
de la distribución muestral 250 muestrales 250
6 2 6
X2
( X X ) ( X ) 2
K K
Del ejemplo anterior:
(150 250) 2 (200 250) 2 ... (350 250) 2
X2 4.167
6
Error estándar de la distribución muestral de las medias muestrales X
n
9
Estadística II
En el caso anterior vale 64.55
N n
X
n N 1
Las distribuciones muestrales adoptan diferentes formas según las estadísticas investigadas y las
características de la población estudiada.
Ejemplos:
Suponga que X = peso de carga de camionetas en kilos, tiene distribución normal con media = 300 k y
varianza = 25. Se toma una muestra aleatoria de 40 camionetas cargadas y se calcula la media
muestral. Haga un esquema de las distribuciones de la variable aleatoria X y de la media muestral.
Suponga que X = la edad de las madres en los nacimientos en León, Gto. el año 2005, tiene
distribución normal con media = 26,5 años y desviación estándar 6,3 años.
a) Describa la distribución de la edad de la madre.
b) ¿Cuál es la probabilidad de que una madre elegida al azar tenga más de 30 años?
c) Suponga que tomamos una muestra aleatoria de n=25 madres ¿cuál es la probabilidad de que la
media muestral sea mayor a 30?
d) ¿porqué las respuestas en (b) y (c) son distintas?
Las llamadas durante un mes promediaron 150 seg. Con una desviación estándar de 15 seg.
a. ¿Cuál es la probabilidad de que una llamada en particular dure entre 150 y 155 segundos?
;
Por tanto la probabilidad de que una llamada dure entre 150 y 155 segundos es del 12.93%.
b. ¿Cuál es la probabilidad de que la media de n=50 llamadas esté entre 150 y 155 segundos?
Ahora se aplica la distribución muestral de las medias, con:
10
Estadística II
Para el caso de las medias el área es mayor debido a que las medias muestrales están menos
dispersas que los valores individuales de llamadas.
c. ¿Cuál es la probabilidad de que la media de n=35 llamadas esté entre 145 y 155 segundos?
Ahora se aplica la distribución muestral de las medias, con:
d. ¿Cuál es la probabilidad de que la media de n=35 llamadas sea mayor a 155 segundos?
Ahora se aplica la distribución muestral de las medias, con:
1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige una muestra aleatoria de
11
Estadística II
La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales,
entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras.
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias es:
Si una población tiene media μ y desviación típica σ, y tomamos muestras de tamaño n (n>30, ó
cualquier tamaño si la población es "normal"), las medias de estas muestras siguen
aproximadamente la distribución:
Consecuencias:
1. Permite averiguar la probabilidad de que la media de una muestra concreta esté en un cierto
intervalo.
2. Permite calcular la probabilidad de que la suma de los elementos de una muestra esté, a priori, en
un cierto intervalo.
Las bolsas de sal envasadas por una máquina tienen μ = 500 g y σ = 35 g. Las bolsas se
empaquetaron en cajas de 100 unidades.
1. Calcular la probabilidad de que la media de los pesos de las bolsas de un paquete sea menor que
495 g.
2. Calcular la probabilidad de que una caja 100 de bolsas pese más de 51 kg.
12
Estadística II
F(X)
Distribución de las medias muestrales
Distribución de valores individuales
X 1 , X 2 ,..., X n
A medida que n se vuelve más grande, la distribución de las medias muestrales se aproximará a una
distribución normal con una media X=μ y σx = σ / X X / n
Si X1, X2,….Xn es una muestra aleatoria de una Población (X) con distribución normal n( , )
2
Histogram of Poblacion
40
30
Frequency
20
10
0
2 4 6 8
Poblacion
14
Estadística II
1.7 De Proporciones.
Proporción promedio E ( p) p
p i
Desviación estándar de la Proporción
K
(1 )
p
n
La población es demasiado grande. Hacer un censo sería demasiado caro. Decidimos estimar el
verdadero parámetro a partir de una muestra.
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones
muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para
tamaños de muestra grande (n1p1 5, n1q1 5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones
muestrales aproximadamente normales, así que su diferencia p 1-p2 también tiene una distribución
muestral aproximadamente normal.
16
Estadística II
Es el procedimiento utilizado para conocer las características de un parámetro poblacional, a partir del
conocimiento de la muestra.
Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de un valor de un
parámetro de la población; pero también necesitamos precisar un:
Intervalo de confianza
Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de confianza
específico.
Nivel de confianza
Probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza.
Limites de Confianza.
Son los límites del intervalo de confianza (Inferior LIC y Superior LSC), se determinan sumando y
restando a la media de la muestra X un cierto número Z (dependiendo del nivel o coeficiente de
confianza) de errores estándar de la media σ X .
Grado de Confianza.
Se refiere a la probabilidad de que, al aplicar repetidamente el procedimiento, el intervalo contenga el
parámetro, es decir, expresa la proporción de intervalo que efectivamente incluyen el parámetro.
Nivel de Significación.
Es una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
Una estimación es un valor específico observado de un estadístico (estimador). Podemos hacer dos
tipos de estimaciones concernientes a una población: una Estimación de Intervalo y una Estimación
Puntual.
Propiedades:
• Insesgadez: Si el valor del estadístico muestral es igual al parámetro poblacional que se estudia, se
dice que el estudio muestral es una estimador insesgado del parámetro poblacional.
• Eficiencia: Se dice que el estimador con menor error estándar tiene mayor eficiencia relativa que los
otros.
Cuando se muestrean poblaciones normales, el error estándar de la media muestral es menor que el
error estándar de la mediana muestral.
17
Estadística II
• Consistencia: Un estimador es consistente si el valor del estimador tiende a estar más cerca del
parámetro poblacional a medida que el tamaño de la muestra aumenta. En otras palabras, una
muestra grande tiende a proporcionar mejor estimación puntual que una pequeña.
Estimación puntual. Es un solo valor o número que se utiliza para estimar un parámetro de población
desconocido. A menudo una estimación puntual es insuficiente debido a que solo se tienen dos
opciones: es correcta o está equivocada. Se estaría haciendo una estimación puntual si por ejemplo,
un jefe de departamento de una Universidad afirmara “Nuestros datos actuales indican que la materia
de matemáticas tendremos 350 alumnos el siguiente semestre”.
Sólo utiliza la información de una muestra para llegar a un sólo número o punto que estima el
parámetro de interés. La estimación real se hace a través de un estimador (regla que expresa cómo
calcular la estimación basándose en la información de la muestra y se anuncia generalmente mediante
una fórmula; puede ser la media, mediana o desviación estándar). Por ejemplo, un biólogo desea
determinar el número promedio de huevos puestos en una estación y en cada nido por pájaros Febe.
Se sabe que el promedio de huevos para la muestra de 50 nidos es de 4.62; en tal caso la media
muestral es el estimador y el valor de 4.62 es de una estimación puntual.
Estimación por intervalo. Utiliza los datos de una muestra para determinar los valores extremos o los
puntos que puedan abarcar el valor real del parámetro estimado. Retomando el ejemplo de los huevos
de la ave Febe, el intervalo (4.57 – 4.67) sería una estimación por intervalo del verdadero número
promedio de huevos en cada nido. Cuando se trata de intervalos, la estimación presenta las siguientes
modalidades de acuerdo con el parámetro que se desea conocer.
Sea α la probabilidad de tener error en la estimación del parámetro, entonces 1- α es un valor que
indica que el intervalo contiene el parámetro en cuestión; si este valor se localiza en el área bajo la
curva normal estándar (acumulada), los límites de 1- α son - Z α /2 y + Z α /2 . Como la distribución
muestral de x se puede aproximar mediante la distribución normal de media μ y error típico
e(x) = entonces el intervalo que contiene la verdadera media de la población será:
18
Estadística II
19