Investigación
Investigación
Investigación
ALVARADO
1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población,
se denomina error de muestreo.
2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomo la
muestra. Error de Inferencia.
En la estadística se usa la palabra población para referirse no sólo a personas si no a todos los
elementos que han sido escogidos para su estudio y el término muestra se usa para describir una
porción escogida de la población.
I. Muestreo probabilístico
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que estamos manejando es muy grande.
2.- Muestreo aleatorio sistemático:
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en
lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que
es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado
de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que
empleamos como punto de partida será un número al azar entre 1 y k.
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya
que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir
una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una
muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos
mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o
sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y
suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar
categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna
característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el
sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que
todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato
funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o
el estratificado para elegir los elementos concretos que formarán parte de la muestra. En
ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento
detallado de la población. (Tamaño geográfico, sexos, edades,...).
Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la
desviación.
4.- Muestreo aleatorio por conglomerados:
Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades muéstrales son los elementos de la
población.
El teorema central del límite tiene una serie de propiedades de gran utilidad en el ámbito
estadístico y probabilístico. Las principales son:
Que la distribución de las medias muestrales se parezca a una normal es tremendamente útil.
Porque la distribución normal es muy fácil de aplicar para realizar contrastes de hipótesis y
construcción de intervalos de confianza. En estadística que una distribución sea normal es
bastante importante, dado que muchos estadísticos requieren este tipo de distribución. Además,
el TCL nos permitirá hacer inferencia sobre la media poblacional a través de la media muestral. Y
esto es de gran utilidad cuando por falta de medios no podemos recolectar datos de toda una
población.
Ejemplo del teorema central del límite
Imaginemos que queremos analizar las rentabilidades medias históricas del índice S&P 500, que
como sabemos, tiene unas 500 compañías dentro del mismo. Pero no tenemos suficiente
información como para analizar la totalidad de las 500 compañías del índice. En este caso la
rentabilidad media del S&P 500 sería la media poblacional.
Ahora bien, siguiendo al TCL podemos coger una muestra de estas 500 empresas para realizar el
análisis. La única limitación que tenemos es que en la muestra tiene que haber más de 30
compañías para que se cumpla el teorema. Entonces imaginemos que cogemos 50 compañías del
índice de manera aleatoria y repetimos el proceso varias veces. Los pasos a seguir del ejemplo
serían los siguientes:
Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del límite central)
que la fdp de la media muestral es también normal con media m y varianza s2/n. Esto es exacto
para poblaciones normales y aproximado (buena aproximación con n>30) para poblaciones
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20
en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar
comprendida en el intervalo
En general esto es poco útil, en los casos en que no se conoce m tampoco suele conocerse s2; en el
caso más realista de s2 desconocida los intervalos de confianza se construyen con la t de
Student (otra fdp continua para la que hay tablas) en lugar de la z.
Este manera de construir los intervalos de confianza sólo es válido si la variable es normal.
Cuando n es grande (>30) se puede sustituir t por z sin mucho error.
6.1.4 Distribución muestral de una proporción.
La distribución muestral de proporciones permite investigar la proporción de algún atributo en
una muestra (variables cualitativas), se genera como la distribución muestral de medias, a
excepción de que al extraer las muestras de la población se calcula el estadístico proporción en
lugar del estadístico promedio.
Además, muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse
utilizando proporciones o porcentajes, acción que se denomina cálculo de probabilidaddel
estadístico de diferencia de proporciones dentro de la distribución muestral con el mismo nombre.