Unidad 4 Muestreo
Unidad 4 Muestreo
Unidad 4 Muestreo
DE JESUS CARRANZA
UNIDAD 4. MUESTREO.
GRUPO: 304-C
La idea es bastante simple. Imagina que queremos saber algo de un universo o población,
por ejemplo, qué porcentaje de los habitantes de México fuma habitualmente. Una forma
de obtener este dato sería contactar con todos los habitantes de México (122 millones de
personas) y preguntarles si fuman. La otra forma sería seleccionar un subconjunto de
individuos (por ejemplo, 1.000 personas), preguntarles si fuman y usar esta información
como una aproximación de la información buscada. Pues bien, este grupo de 1.000
personas que me permiten conocer mejor cómo se comportan el total de mexicanos es
una muestra, y la forma en que los seleccionamos es el muestreo.
Universo o población: Es el total de individuos que deseo estudiar o caracterizar.
En el ejemplo anterior es la población de México, pero podemos pensar en todo tipo de
universos, más generales y más concretos. Por ejemplo, si quiero saber cuánto fuman de
medios los fumadores de México, el universo en este caso serían "los fumadores de
México".
Muestra: Es el conjunto de individuos del universo que selecciono para estudiarlos,
por ejemplo a través de una encuesta.
Por ejemplo, en nuestro caso de fumadores mexicanos, si selecciono una muestra de 471
individuos y les pregunto si fuman, el resultado que obtenga tendrá un margen de error
máximo de +-5% con un nivel de confianza del 97%. Esta forma de expresar los
resultados es la correcta cuando usamos muestreo.
La teoría del muestreo se basa en el concepto de muestra aleatoria simple. Una muestra
aleatoria simple es aquella muestra en la que se seleccionan individuos del universo de
forma totalmente aleatoria. Esto implica que todos los individuos deben tener idéntica
probabilidad (no nula) de ser seleccionados en mi muestra.
Pero una cosa es la teoría y otra la práctica. Sólo en entornos muy controlados es posible
hacer muestras aleatorias. Por otra parte, cuando tenemos universos compuestos por
grupos homogéneos (entre si) de personas, podemos aprovechar esta agrupación para
mejorar la calidad de mi muestra (o reducir el tamaño de la misma).
¿Qué tamaño de muestra necesito usar para estudiar cierto universo? Depende del
tamaño del universo y del nivel de error que esté dispuesto a aceptar, tal y como
explicábamos en su día en este post. Cuanta más precisión exija, mayor muestra
necesito. Si quiero tener una certeza absoluta en mi resultado, hasta el último decimal, mi
muestra tendrá que ser tan grande como mi universo.
Pero el tamaño de la muestra tiene una propiedad fundamental que explica por qué el
muestreo se usa tanto en tantos ámbitos del conocimiento. Esta propiedad podría
resumirse como sigue: a medida que estudio universos mayores, el tamaño de muestra
que necesito cada vez representa un porcentaje menor de dicho universo.
✔ Ventajas:
Necesitamos estudiar menos individuos, necesitamos menos recursos (tiempo y
dinero).
La manipulación de datos es mucho más simple. Si con una muestra de 1.000
personas tengo suficiente, ¿para qué quiero analizar un fichero de millones de registro
La pregunta obvia es, ¿qué es mejor, usar reposición o no usala? Es un simple problema
matemático. César Pérez López, en su libro "Muestreo Estadístico" (Pearson, 2005)
desarrolla de forma muy clara una comparación entre ambas técnicas. Tanto si lo
miramos desde el punto de vista de qué técnica genera estimaciones más precisas como
desde el punto de vista de qué técnica permite tener la misma precisión con menor
tamaño de muestra, se puede concluir que el muestreo aleatorio simple sin reposición
siempre es más eficiente.
Para poder observar este resultado, partimos de la siguiente expresión para el tamaño de
muestra en un M.A.S. sin reposición. La fórmula relaciona el tamaño de muestra
necesario cuando el universo es finito con el tamaño necesario cuando el universo es
infinito:
Donde n0 es el tamaño de muestra necesario para un universo infinito y N es el tamaño
del universo finito. Es posible demostrar que el tamaño de muestra cuando usamos
reemplazo (nr) es siempre igual al tamaño necesario para universo infinito (nr=n0). Si eso
sucede, podemos afirmar que
Beneficios del muestreo aleatorio simple
El desarrollo de la informática ha permitido que diseñar una muestra aleatoria simple sea
extremadamente rápido y fiable. La generación de números aleatorios mediante software
(estrictamente son números pseudo-aleatorios) es cada vez más fiable.
Cuando seleccionamos una característica de los individuos para definir los estratos, suele
ocurrir que el tamaño de las subpoblaciones resultantes en el universo son diferentes. Por
ejemplo, si queremos estudiar el tanto por ciento de la población que fuma en México y
pensamos que la edad puede ser un buen criterio para estratificar (es decir, pensamos
que existen diferencias importantes en el hábito de fumar dependiendo de la edad),
podemos definir 3 estratos: menores de 20 años, de 20 a 44 años y mayores de 44 años.
Es de esperar que al dividir toda la población mexicana en estos 3 estratos no resulten
grupos de igual tamaño. Efectivamente, si miramos datos oficiales, obtenemos:
Muestreo estratificado uniforme
Hablaremos de una afijación uniforme cuando asignamos el mismo tamaño de muestra a
todos los estratos definidos, sin importar el peso que tienen esos estratos en la población.
Siguiendo con el ejemplo anterior, un muestreo estratificado uniforme definiría la siguiente
muestra por estrato:
Estrato Población Proporción Muestra
Esta técnica favorece los estratos que tienen menos peso en la población, equiparándolos
en importancia a los estratos más relevantes. Globalmente, reduce la eficiencia de
nuestra muestra (menor precisión en los resultados), pero como contrapartida permite
estudiar características particulares de cada estrato con mayor precisión. En nuestro
ejemplo, si queremos emitir alguna afirmación específica sobre la población del estrato 3
(mayores de 44 años), podremos hacerlo con menor nivel de error muestral si empleamos
una muestra de 333 unidades que si lo hacemos con una muestra de 227 (como ocurría
en el muestreo estratificado proporcional).
3. Muestreo estratificado óptimo (respecto a la desviación estándar)
Eficiencia de los diferentes muestreos estratificados
Las preguntas inevitables son: ¿cuándo conviene emplear la estratificación?, ¿qué tipo de
estratificación es más conveniente?
Z = Es la desviación del valor medio que aceptamos para lograr el nivel de
confianza deseado. En función del nivel de confianza que busquemos, usaremos un valor
determinado que viene dado por la forma que tiene la distribución de Gauss. Los valores
más frecuentes son:
Muestreo probabilístico:
muestreo sistemático
✔ Ventajas
Desventajas
Sólo existe la ya mencionada posibilidad de que el orden en que se han listado los
candidatos a la muestra tenga algún tipo de periodicidad oculta que coincida con el
intervalo escogido para generar la muestra sistemática. En este caso, podríamos generar
una muestra sesgada.
El muestreo sistemático se ideó para mejorar las propiedades del muestreo aleatorio
simple, pero el grado de mejora es variable dependiendo de las propiedades del universo
estudiado.
Para entender las propiedades de este muestreo, hay que tener en cuenta una cosa: si
fijamos el intervalo o coeficiente de elevación según el tamaño de la muestra que
necesitamos, sólo hay un elemento aleatorio dentro del proceso de muestreo: la unidad
inicial que seleccionamos del primer bloque de individuos. El resto queda fijado de
antemano. Esto equivale a decir que sólo tenemos k posibles muestras diferentes a
obtener y que el muestreo es simplemente escoger una de las k muestras disponibles.
Es posible demostrar que cuanto más supera la varianza dentro de las k posibles
muestras que podemos generar a la varianza poblacional, más precisión ganamos usando
el muestreo sistemático respecto al aleatorio simple. Lo anterior puede interpretarse
diciendo que el muestreo sistemático es más preciso que el aleatorio simple cuando la
variabilidad dentro de las posibles muestras es superior a la variabilidad dentro de las
unidades de la población. La precisión del muestreo sistemático coincide con la del
aleatorio simple cuando ambas variabilidades coinciden, y esto se da cuando la
disposición de los elementos en la población es totalmente aleatoria.
Muestreo probabilístico:
muestreo por
conglomerados
El muestreo por conglomerados.- Es
una técnica que aprovecha la
existencia de grupos o
conglomerados en la población que
representan correctamente el total
de la población en relación a la
característica que queremos medir. Dicho de otro modo, estos grupos contienen toda la
variabilidad de la población. Si esto sucede, podemos seleccionar únicamente algunos de
estos conglomerados para realizar el estudio.
Podemos ver esta técnica desde otro punto de vista. Mientras que en todas las técnicas
vistas hasta ahora las unidades de muestreo coinciden con las unidades a estudiar
(individuos), en el muestreo por conglomerados las unidades de muestreo son grupos de
unidades de estudio, algo que puede resultar muy beneficioso en relación al coste del
propio muestreo. A cambio, es habitual obtener una menor precisión al usar esta técnica,
causada por falta de heterogeneidad dentro de los conglomerados.
El proceso de muestreo
El primer paso para aplicar esta técnica es definir los conglomerados. Se trata de
identificar una característica que permita dividir la población en grupos disjuntos (sin
solapamiento) y de forma exhaustiva (todos los individuos deben estar en un grupo), de
tal manera que los grupos no difieran entre sí en relación a aquello que queremos medir.
Una vez hemos definido estos conglomerados, seleccionaremos al azar algunos de ellos
para estudiarlos.
Es por ello que pese a que ambas técnicas dividen la población en estratos o
conglomerados, el proceso de selección de individuos es radicalmente diferente.
Ventajas y desventajas del muestreo por conglomerados
Eficiencia del muestreo por conglomerados
¿Cómo podemos comparar esta técnica con otras vistas con anterioridad? Lo bien o mal
que va a funcionar esta técnica va a depender, de forma similar a como ocurría en el
muestreo estratificado, de la relación entre la varianza dentro y fuera de los
conglomerados.