Investigación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

INSTITUTO TECNOLÓGICO SUPERIOR DE

ALVARADO

Nombre del alumno: Christopher Palagot


Prieto
Núm. de control: 22620378
Materia: Probabilidad y Estadística
Docente: Felipe Sosa
Fecha de entrega: 11/04/2023
Carrera: Ing. En sistemas computacionales
6.1 Muestreo
En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos
de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la
población. El muestreo es por lo tanto una herramienta de la investigación científica, cuya función
básica es determinar que parte de una población debe examinarse, con la finalidad de hacer
inferencias sobre dicha población. La muestra debe lograr una representación adecuada de la
población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población
que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto
útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar
las características de ésta. Los errores más comunes que se pueden cometer son:

1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población,
se denomina error de muestreo.

2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomo la
muestra. Error de Inferencia.

En la estadística se usa la palabra población para referirse no sólo a personas si no a todos los
elementos que han sido escogidos para su estudio y el término muestra se usa para describir una
porción escogida de la población.

6.1.1 Tipos de muestreo.


Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general
pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de
muestreo no probabilísticos.

I. Muestreo probabilístico

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de


equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad
de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles
muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de
muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por
tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos
los siguientes tipos:

1.- Muestreo aleatorio simple:

El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la


población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números
aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos
sujetos como sea necesario para completar el tamaño de muestra requerido.

Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que estamos manejando es muy grande.
2.- Muestreo aleatorio sistemático:

Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en
lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que
es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado
de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que
empleamos como punto de partida será un número al azar entre 1 y k.

El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya
que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir
una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una
muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos
mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o
sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.

3.- Muestreo aleatorio estratificado:

Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y
suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar
categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna
característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el
sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que
todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato
funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o
el estratificado para elegir los elementos concretos que formarán parte de la muestra. En
ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento
detallado de la población. (Tamaño geográfico, sexos, edades,...).

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede


ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos
muéstrales.

Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en


cada estrato.

Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la
desviación.
4.- Muestreo aleatorio por conglomerados:

Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades muéstrales son los elementos de la
población.

En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población


que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los
departamentos universitarios, una caja de determinado producto, etc., son conglomerados
naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo,
las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de
"muestreo por áreas".

El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de


conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar
después todos los elementos pertenecientes a los conglomerados elegidos.

6.1.2 Teorema de Límite central.


Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media
muestral se acercará a la media de la población. Por tanto, mediante el TCL podemos definir la
distribución de la media muestral de una determinada población con una varianza conocida. De
manera que la distribución seguirá una distribución normal si el tamaño de la muestra es lo
suficientemente grande.

Principales propiedades del teorema central del límite

El teorema central del límite tiene una serie de propiedades de gran utilidad en el ámbito
estadístico y probabilístico. Las principales son:

Si el tamaño de la muestra es suficientemente grande, la distribución de las medias muestrales


seguirá aproximadamente una distribución normal. El TCL considera una muestra como grande
cuando el tamaño de la misma es superior a 30. Por tanto, si la muestra es superior a 30, la media
muestral tendrá una función de distribución próxima a una normal. Y esto se cumple
independientemente de la forma de la distribución con la que estamos trabajando.

La media poblacional y la media muestral serán iguales. Es decir, la media de la distribución de


todas las medias muestrales será igual a la media del total de la población.

La varianza de la distribución de las medias muestrales será σ²/n. Que es la varianza de la


población dividido entre el tamaño de la muestra.

Que la distribución de las medias muestrales se parezca a una normal es tremendamente útil.
Porque la distribución normal es muy fácil de aplicar para realizar contrastes de hipótesis y
construcción de intervalos de confianza. En estadística que una distribución sea normal es
bastante importante, dado que muchos estadísticos requieren este tipo de distribución. Además,
el TCL nos permitirá hacer inferencia sobre la media poblacional a través de la media muestral. Y
esto es de gran utilidad cuando por falta de medios no podemos recolectar datos de toda una
población.
Ejemplo del teorema central del límite

Imaginemos que queremos analizar las rentabilidades medias históricas del índice S&P 500, que
como sabemos, tiene unas 500 compañías dentro del mismo. Pero no tenemos suficiente
información como para analizar la totalidad de las 500 compañías del índice. En este caso la
rentabilidad media del S&P 500 sería la media poblacional.

Ahora bien, siguiendo al TCL podemos coger una muestra de estas 500 empresas para realizar el
análisis. La única limitación que tenemos es que en la muestra tiene que haber más de 30
compañías para que se cumpla el teorema. Entonces imaginemos que cogemos 50 compañías del
índice de manera aleatoria y repetimos el proceso varias veces. Los pasos a seguir del ejemplo
serían los siguientes:

• Elegimos la muestra de unas 50 compañías y obtenemos la rentabilidad media de la


totalidad de la muestra.

• De manera continuada seguimos escogiendo 50 compañías y obtenemos la rentabilidad


media.

• La distribución de todas las rentabilidades medias de todas las muestras escogidas se


aproximará a una distribución normal.

• Las rentabilidades medias de todas las muestras seleccionadas se aproximarán a la


rentabilidad media del total del índice. Tal y como demuestra el teorema Central del
Límite.

Por tanto, mediante inferencia de la rentabilidad media de la muestra podemos acercarnos a la


rentabilidad media del índice.
6.1.3 Distribución muestral de la media.

Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del límite central)
que la fdp de la media muestral es también normal con media m y varianza s2/n. Esto es exacto
para poblaciones normales y aproximado (buena aproximación con n>30) para poblaciones

cualesquiera. Es decir es el error típico, o error estándar de la media.

¿Cómo usamos esto en nuestro problema de estimación?


1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1 (la llamada z);
pero haciendo la transformación (llamada tipificación)

una normal de media m y desviación s se transforma en una z.

Llamando za al valor de una variable


normal tipificada que deja a su
derecha un área bajo la curva de a, es
decir, que la probabilidad que la
variable sea mayor que ese valor
es a (estos son los valores que ofrece
la tabla de la normal)

podremos construir intervalos de la


forma

para los que la probabilidad es 1 - a.


Teniendo en cuenta la simetría de la normal y manipulando algebraícamente

que también se puede escribir

o, haciendo énfasis en que es el error estándar de la media,

Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un intervalo de este


tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, o nivel de
significación de 100a%. El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96.
Al valor se le denomina estimación puntual y se dice que es un estimador de m.

Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20

en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar
comprendida en el intervalo

que sería el intervalo de confianza al 95% para m

En general esto es poco útil, en los casos en que no se conoce m tampoco suele conocerse s2; en el
caso más realista de s2 desconocida los intervalos de confianza se construyen con la t de
Student (otra fdp continua para la que hay tablas) en lugar de la z.

o, haciendo énfasis en que es el error estándar estimado de la media,

Este manera de construir los intervalos de confianza sólo es válido si la variable es normal.
Cuando n es grande (>30) se puede sustituir t por z sin mucho error.
6.1.4 Distribución muestral de una proporción.
La distribución muestral de proporciones permite investigar la proporción de algún atributo en
una muestra (variables cualitativas), se genera como la distribución muestral de medias, a
excepción de que al extraer las muestras de la población se calcula el estadístico proporción en
lugar del estadístico promedio.

En la distribución muestral de proporciones, la fórmula para calcular la probabilidad parte de la


aproximación de distribución normal a binomial, diferenciando si es una población finita.

Además, muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse
utilizando proporciones o porcentajes, acción que se denomina cálculo de probabilidaddel
estadístico de diferencia de proporciones dentro de la distribución muestral con el mismo nombre.

También podría gustarte