Unidad 4. Estadistica Administrativa

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 41

INTRODUCCION

El muestreo es una herramienta de la investigación científica. Su


función básica es determinar que parte de una realidad en estudio
(población o universo) debe examinarse con la finalidad de hacer
inferencias sobre dicha población. El error que se comete debe al
hecho de que se obtiene conclusiones sobre cierta realidad a partir de
la observación de solo una parte de ella, se denomina error de
muestreo. Obtener una muestra adecuada significa lograr una versión
simplificada de la población, que reproduzca de algún modo sus
rasgos básicos.
CONTENIDO
PRESENTACION

INTRODUCCION

4. MUESTREO

4.1 DEFINICION Y EXPRESION

4.1.1 TIPOS DE MUESTREO ALEATORIO, SISTEMATIZADO,


ESTRATIFICADO Y CONGLOMEDARO

4.2 CONCEPTO DE DISTRIBUCION DE MUESTREO DE LA MEDIA

4.2.1 DISTRIBUCION MUESTRAL DE LA DIRERENCIA ENTRE DOS MEDIAS

4.3 TEOREMA DE LIMITE CENTRAL

4.4 DETERMINACION DEL TAMAÑO DE LA MUESTRA DE UNA POBLACION

4.5 INTERVALOS DE CONFIANZA PARA LA MEDIA, CON EL USO DE LA


DISTRIBUCION NORMAL Y “T” DE STUDENT

4.6 INTERVALOS DE CONFIANZA PARA DIFERENCIA ENTRE DOS MEDIAS


μ1-μ2 COMO σ12 Y σ22, σ12= σ22, PERO CONOCIDAS, CON EL USO DE LA
DISTRIBUCION NORMAL Y LA “T” DE STUDENT

4.7 UNA SOLA MUESTRA: ESTIMACION DE LA PROPORCION

4.8 TAMAÑO DE LA MUESTRA COMO UNA ESTIMACION DE P Y UN GRADO


DE CONFIANZA (1.-a) 100%
4. MUESTREO
4.1 DEFINICION

Se le llama muestra a cualquier subconjunto de elementos de la población. El interés de


la estadística es proporcionar métodos que permitan elegir una muestra de datos
representativos destinados a suministrar información acerca de una población, teniendo
como característica fundamental que todos sus elementos deben tener todas las
características de la población.

La muestra y sus características dependen del criterio de muestreo empleado para su


determinación. Sin embargo, para que una muestra sea representativa de la población,
esta deberá contener aproximadamente entre el 5% y el 10% de los datos de la población
cuando esta es finita, 13 además, los elementos de la muestra deben ser escogidos al
azar y se deben observar todas las características de la población.

El muestreo es un proceso o conjunto de métodos para obtener una muestra finita de una
población finita o infinita, con el fin de estimar valores de parámetros o corroborar
hipótesis sobre la forma de una distribución de probabilidades o sobre el valor de un
qparámetro de una o más poblaciones.

El muestreo es el proceso mediante el cual se selecciona un grupo de observaciones que


pertenecen a una población. Esto, con el fin de realizar un estudio estadístico. El
muestreo, en otras palabras, es el procedimiento mediante el cual se toman a ciertos
individuos que pertenecen a una población que está siendo sujeto de un análisis.
elementos se seleccionan al azar con una medida de probabilidad, sino que, además,
requiere pericia por parte de investigador/a en el diseño de la muestra a la hora de
determinar:

• La técnica de selección de elementos de investigación.


• La selección de los estimadores apropiados.
• La elección de un tamaño adecuado de la muestra con precisión (margen de error)
y un nivel de confianza aceptable.
• Y el uso de marcos muestrales actualizados. Existen muchas formas de
seleccionar muestras dentro de una población.

4.1.1 TIPOS DE MUESTREO ALEATORIO, SISTEMATIZADO, ESTRATIFICADO


Y CONGLOMEDARO

Técnicas de muestreo: El muestreo es utilizado en la estadística con la finalidad de


optimizar recursos (tiempo, mano de obra, materiales e insumos). Para lograrlo, los 19
métodos estadísticos ofrecen dos tipos de muestreo: probabilístico y no probabilístico.

Técnica de muestreo probabilístico

Los métodos de muestreo probabilístico buscan que todos los elementos que conforman
la población tengan igual probabilidad al ser seleccionados en la muestra. Es decir, todas
las muestras de un tamaño determinado que se puedan sacar de una población tendrán la
misma probabilidad de ser elegidas. Este método de muestreo es el más recomendable,
dado que aseguran de alguna manera la representatividad de la muestra que se extrae;
se dice de alguna manera porque pueden emplearse técnicas para determinar el tamaño
representativo de la muestra para poblaciones finitas e infinitas, a partir del nivel de
confianza, error de muestreo y tamaño de la población. A continuación, se describen los
principales métodos de muestreo probabilístico.

Muestreo sistemático. Se utiliza cuando el universo es de gran tamaño o ha de


extenderse en el tiempo y requiere de una selección aleatoria inicial de observaciones
seguida de otra selección de observaciones, obtenida mediante una constante
denominada constante de sistematización Cs=N/n donde N es el tamaño de la población y
n el tamaño de la muestra.

FORMULA: K=N/n

DONDE: K es el tamaño del intervalo

N es el tamaño de la población

N es el tamaño de la muestra

EJEMPLO:

Se acercan las navidades y cierta empresa de turrones cree que no va a poder entregar
todos los pedidos a tiempo, a no ser que aumente la plantilla. La empresa dispone de un
listado ordenado alfabéticamente de 20 personas con las mismas características para el
puesto y que actualmente están en paro. Puesto que el tiempo apremia y no es posible
hacer una entrevista para seleccionar al personal, si decide elegir a 5 trabajadores de
forma aleatoria usando el muestreo sistemático.

DONDE:

K= es un valor fijo que indica la separación entre los elementos sucesivos de la muestra
de la población.

H= indica el punto de inicio para seleccionar los elementos de la muestra. Se elige


aleatoriamente.

SOLUCION:

1) Tenemos que elegir 5 elementos sistemáticamente un total de 20. Se debe elegir


uno.
2) Se elige el punto de partida eligiendo un numero al azar entre el 1 y 4.

3) Los elementos de la muestra serán:

EJEMPLO 2:

Una empresa publicitaria esta iniciando una campaña de promoción para un nuevo
producto. La empresa quiere muestrear clientes potenciales en una pequeña comunidad
para determinar la aceptación del producto. Para eliminar algo de los costos asociados
con las entrevistas personales, el investigador decide seleccionar una muestra sistemática
entre N=5000 nombres listados en un registro de la comunidad y recolectar los datos
mediante entrevistas por teléfono. Determinar el tamaño de la muestra requerido para
estimar p. la proporción de personas que consideran aceptable, con un límite para el error
de estimación de 3%.
Muestreo estratificado

En este muestreo se involucra la división previa de la población en subgrupos,


clases o estratos que se suponen más homogéneos, y a los cuales se les asigna
una cuota que determina el número de miembros del 20 estrato que compondrán
la muestra, estos son escogidos mediante muestreo aleatorio simple.
Según la cantidad de elementos de la muestra que se han de elegir de cada uno
de los estratos, existen dos técnicas de muestreo estratificado:

a) Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional a


su tamaño en la población.
b) Asignación óptima: la muestra recogerá más individuos de aquellos estratos que
tengan más variabilidad. Para ello, es necesario un conocimiento previo de la población.

FORMULA: nh= Nh x n
n
nh= tamaño de la muestra del estrato h

Nh=tamaño de la muestra de población de h

n= tamaño total de la muestra

EJEMPLO:

Supongamos que queremos realizar un muestreo en una población de 1000 personas dividiendo la
población en estratos A (con 300 personas) y B (con 700 personas). Si queremos que el estrato A
represente el 40% y el B el 70% podemos calcular el tamaño de la siguiente manera.

Para el estrato A
(tamaño total de la muestra × tamaño de la población del estrato A)
tamaño total de la población

100 × 300/1000 = 30 → tamaño de la muestra para el estrato A

Para el estrato B

(tamaño total de la muestra × tamaño de la población del estrato B)


tamaño total de la población

100 × 700/1000 = 70 → tamaño de la muestra para el estrato B

Por lo tanto, en este ejemplo necesitaríamos seleccionar a 30 personas aleatoriamente de estrato


A y 70 personas del estrato B para tener una muestra representativa de la población.

FORMULA:

𝑁ⅈ
𝑛𝑖 = 𝑛 ⋅
𝑁

Siendo N el número de elementos de la población, n el de la muestra, Ni el del estrato i.

EJEMPLO:

Suponemos que se esta haciendo un estudio sobre la toma de pastillas para dormir en una ciudad
de 100.000 habitantes. La variable edad se considera adecuada para obtener resultados en esta
investigación. Se incluye solamente los mayores de 40 años en el estudio. Se distribuyen en tres
grupos o estratos, resultando una agrupación, según el censo:

De 40 a 55 años………..25.000

De 56 a 70 años……….18.000

Mayores de 70 años………7.000

Total …………………………50.000

Por el procedimiento de muestreo elegido obtenemos una muestra de 750 sujetos. Para asignar el
numero de componentes a los tres estratos de edad, aplicaremos la formula anterior:

25.000
𝑛𝑖 = 750 ⋅ = 375
50.000
18.000
𝑛𝑖 = 750 ⋅ = 270
50.000
7.000
𝑛𝑖 = 𝑛 ⋅ = 105
50.000

Donde n/N es una constante llamada razón de muestreo, que en este caso es de 0,015.
Resulta una distribución muestral por estratos tal que asi:

ESTRATO POBLACION TAMAÑO DE LA MUESTRA

1 25.000 375

2 18.000 270

3 7.000 105

TOTAL 50.000 750

El muestreo aleatorio estratificado permite la estimación separada de parámetros


poblacionales dentro de cada estrato. En resumen, los motivos principales para
utilizar muestreo aleatorio estratificando en lugar de muestreo irrestricto aleatorio
son los siguientes:

→ La estratificación puede producir un límite más pequeño para el error de


estimación que el que se generaría por una muestra irrestricta aleatoria del
mismo tamaño. Este resultado es particularmente cierto si las mediciones
dentro de los estratos son homogéneas.

→ El costo por observación en la encuesta puede ser reducido mediante la


estratificación de los elementos de la población en grupos convenientes.

→ Se pueden obtener estimaciones de parámetros poblacionales para


subgrupos de la población. Los subgrupos deben ser entonces estratos
identificables.

n = Tamaño de la muestra

Este método para seleccionar n₁, n2... tomado la fórmula:

Ni = elementos por estrato

En algunos problemas de muestreo estratificado, el costo por obtener información

Es el mismo para todos los estratos. Si los costos son desconocidos, podríamos
suponer que los costos por observación son iguales. Si c₁=₂=…=C, entonces los
términos de costo se cancelan en la Ecuación (5.9) y

EJEMPLO

La empresa publicitaria del Ejemplo considera que las varianzas aproximadas

Que se usaron en los ejemplos previos son erróneas y que las de los estratos son
iguales. El valor común de o, fue aproximado por 10 en un estudio preliminar. Se
van a efectuar entrevistas por teléfono, por lo que los costos serán iguales en todos
los estratos. La empresa desea estimar el número promedio de horas por semana
que se ve la televisión en los hogares del municipio, con un límite para el error de
estimación igual a 2 horas.

Encuentre el tamaño de muestra y los tamaños de estratos necesarios para lograr


esta exactitud.

Solución:

Tenemos que:

Entonces, ya que D = 1, de la Ecuación (5.14) resulta:


Estos resultados difieren de los del Ejemplo 5.7 porque aquí hemos supuesto que
las varianzas son iguales en todos los estratos y son aproximadas por un valor
común.

En ocasiones la cantidad de dinero que se va a gastar en el muestreo es fijada antes


de iniciar el experimento. Entonces el investigador debe encontrar un tamaño de
muestra y esquema de asignación que minimice la varianza del estimador para un
presupuesto fijo.

Muestreo por conglomerados

Consiste en crear grupos más pequeños que la población, los cuales reflejen o compartan
todas las características de esta. Luego, elegimos alguno de los conglomerados como
muestra y lo analizamos de forma detallada.

Se le llama muestreo por conglomerados al dividir primero la población en grupos o


conglomerados convenientes para el muestreo, seleccionando de cada uno de ellos una
porción, al azar o por un método sistemático. Bajo este método, aunque no todos los
grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado.
Por tanto, la muestra es aleatoria. Una muestra por conglomerados, usualmente produce
un mayor error muestral que una muestra aleatoria simple del mismo tamaño; sin
embargo, puede ser obtenida dentro de un corto periodo de tiempo y a bajo costo.
Además, una muestra por conglomerados ofrece la misma precisión en la estimación que
una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada
conglomerado es proporcionalmente tan grande como la de la población.

ESTIMACIÓN DE UNA MEDIA Y TOTAL DE POBLACIONES


El muestreo por conglomerados es muestreo irrestricto aleatorio con cada unidad
de muestreo conteniendo un número de elementos. Por esto los estimadores de la
media poblacional μ y el total 𝜏 son similares a los de muestreo irrestricto aleatorio.
En particular la media muestra 𝜏 𝑦 es un buen estimador de la media

Poblacional μ. En esta sección se estudian un estimador de a y dos estimadores de.

En este capítulo se utiliza la siguiente notación:

N = número de conglomerados en la población

n = número de conglomerados seleccionados en una muestra irrestricta aleatoria

= número de elementos en el conglomerado i, i = 1,.... N

= tamaño promedio del conglomerado en la muestra


M= = número de elementos en la población

= tamaño promedio del conglomerado en la población

= total de todas las observaciones en el i- ésimo conglomerado f

El estimador de la media poblacional μ es la media muestro al, l LI a cuál es dada

Varianza estimada de Y22

Límite para el error de estimación

Aquí puede ser estimado por si se desconoce M. La varianza estimada en


la Ecuación (8.2) es sesgada y sería un buen estimador de únicamente si n fuera
grande, digamos n ≥ 20. El sesgo desaparece cuando los tamaños de los
conglomerados m₁, m₂,...m N son iguales. Vamos a ilustrar el uso de la fórmula con
un ejemplo.
Ejemplo:

Se realizan entrevistas en cada uno de los 25 bloques muestreados en el Ejemplo


8.1. Los datos sobre ingresos se presentan en la Tabla 8.1. Use los datos para
estimar el ingreso promedio por persona en la ciudad y establezca un límite para el
error de estimación.

Ingreso por persona

Solución:

El mejor estimador de la media poblacional μ es dado por la ecuación de media


poblacional μ y se calcula como sigue.

Para calcular (ỹ), necesitamos las siguientes cantidades:


La siguiente igualdad es fácilmente establecida:

Sustituyendo en esta ecuación los datos de la Tabla 8.1 se tiene

Ya que M es desconocido, la M que aparece en la Ecuación (8.2) debe ser estimada


por m, donde

El 8.1 nos da N= 415. Entonces de la Ecuación (8.2)

Entonces la estimación de μ con un límite para el error de estimación, es dada por:


La mejor
estimación del
ingreso promedio
por persona es $
8801, y el error de
estimación debe ser menor que $ 1617 con una probabilidad cercana a 0.95. Este
límite para el error de estimación es bastante grande; podría ser reducido mediante
el muestreo de más conglomerados y, consecuentemente, incrementando el tamaño
de muestra.

El total poblacional T es ahora M𝜇 porque M denota el número total de elementos


en la población T

Estimador del total poblacional T:

Varianza estimada de:

Límite para el error de estimación:


4.2 CONCEPTO DE DISTRIBUCION DE MUESTREO DE LA MEDIA

La distribución de muestreo de la media se obtiene tomando la estadística bajo estudio de


la muestra como la media. Calcular esto significa tomar todas las muestras posibles de
tamaño n de la población de tamaño N y luego trazar la distribución de probabilidad. Se
puede demostrar que la media de la distribución de muestreo es, de hecho, la media de la
población.

La distribución de muestreo de una medida es un concepto fundamental en estadística.


Se refiere a la distribución de los posibles valores que puede tomar una estadística
muestral, como la media, la varianza o cualquier otra medida, si se calcula repetidamente
a partir de muestras tomadas de una población.

Por ejemplo, si tomamos múltiples muestras de una población y calculamos la media de


cada muestra, obtendremos una serie de valores de la media muestral. La distribución de
estos valores de la media muestral es lo que se conoce como la distribución de muestreo
de la media. Esta distribución nos proporciona información sobre la variabilidad de la
media muestral y nos permite realizar inferencias sobre la verdadera media poblacional.

La importancia de comprender la distribución de muestreo de una medida radica en que


nos permite evaluar la precisión de nuestras estimaciones. Por ejemplo, si queremos
estimar la media poblacional a partir de una muestra, conocer la distribución de muestreo
de la media nos permite determinar intervalos de confianza y realizar pruebas de hipótesis
sobre el verdadero valor de la media. Además, la distribución de muestreo nos
proporciona las bases para entender conceptos clave en estadística, como el teorema del
límite central, que establece que, bajo ciertas condiciones, la distribución de muestreo de
la media tiende a seguir una distribución normal, independientemente de la forma de la
distribución poblacional subyacente.

FORMULA:

• Media: La media de la distribución de muestreo de la media es igual a la media de la


población (μ). μ_m = μ

• Desviación estándar: La desviación estándar de la distribución de muestreo de la media,


también conocida como error estándar de la media (σm), se calcula como:
σm = σ / √n

Donde: • σ: Desviación estándar de la población

• n: Tamaño de la muestra

EJEMPLO: Supongamos que tenemos una población de 100 personas con una altura
media de 170 cm y una desviación estándar de 10 cm. Si extraemos una muestra
aleatoria de 30 personas:

• Media: La media de la distribución de muestreo de la media será de 170 cm.

• Desviación estándar: El error estándar de la media será de 5.77 cm (10 cm / √30).

Aplicaciones:

• Inferencia estadística: Permite realizar inferencias sobre la población a partir de una


muestra.

• Estimación de intervalos de confianza: Permite estimar un intervalo dentro del cual se


encuentra la verdadera media de la población con un cierto nivel de confianza.

• Pruebas de hipótesis: Permite realizar pruebas de hipótesis sobre la media de la


población.

CORRECCION:

EJEMPLO:

La media de la población normal, es µ= 60 y la desviación estándar poblacional es σ = 12.


Se toma una muestra aleatoria de n = 9. Calcule la probabilidad de que la media muestral
sea; a) Mayor que 63 b) Menor que 56 c) Entre 56 y 63.
El valor estandarizado se busca en tabla Z y se tiene que la probabilidad es .2734 ó
27.34%, como se busca que sea mayor se resta de .5 la cantidad que no interesa para el
estudio quedando:

4.2.1 DISTRIBUCION MUESTRAL DE LA DIRERENCIA ENTRE DOS MEDIAS

Cada muestra de tamaño n que podemos extraer de una población proporciona una
media. Si consideramos cada una de estas medias como valores de una variable aleatoria
podemos estudiar su distribución que llamaremos distribución muestral de medias. Si
tenemos una población normal N(m,s) y extraemos de ella muestras de tamaño n, la
distribución muestral de medias sigue también una distribución normal.

Si la población no sigue una distribución normal, pero n>30, aplicando el llamado


Teorema central del limite la distribución muestral de medias se aproxima también a la
normal anterior.

Para saber si el nivel promedio de plomo es diferente entre niños de la 2ªRegión y niños
de la R.M., es preciso conocer la distribución de la diferencia de medias muestrales que
se designa:
La distribución muestral de las diferencias de medias se puede construir con el siguiente
procedimiento: Obtener todas las muestras posibles de tamaño n de la Población 1 y
calcular la media para cada muestra.

Obtener todas las muestras posibles independientes de tamaño n de la Población 2 y


calcular las medias para cada una de estas muestras. Calcular todas las diferencias que
se puedan hacer con las medias que se obtuvieron de la Población 1 y de la Población 2.
La distribución muestral de diferencias de medias consta de las diferencias calculadas y
de su frecuencia de ocurrencia. La media la distribución de diferencias de medias es igual
a μ1 ‐μ2 y varianza de la distribución de diferencias de medias es igual a σ12/n1 +
σ22/n2cuando las muestras son independientes.

La forma funcional de la distribución muestral de diferencia de medias depende de la


forma funcional de las poblaciones de donde se extraen las muestras.

Si ambas poblaciones se distribuyen normalmente, la distribución muestral de diferencia


de medias, se distribuirá normalmente.

Si una o ambas poblaciones no se distribuyen normalmente, la distribución muestral de


diferencia de medias se distribuirá normalmente si n1y n2son grandes. Esta sería una
extensión del teorema del límite central.

Si n1y n2son grandes la distribución muestral de la diferencia entre dos medias


muestrales será aproximadamente normal y tendrá una media igual a μ1 ‐μ2y una
varianza igual a σ12/n1 + σ22/n2 sin tener en cuenta la forma funcional de las
poblaciones originales.

Luego podemos trabajar con z:

EJEMPLO:

Tenemos dos poblaciones de alumnos de último año de un colegio que han sido
evaluados en puntaje en Matemáticas

Supuesto: Los puntajes de las dos poblaciones se distribuyen normalmente con las
siguientes medias y varianzas:

μ1= 50 μ2= 40

σ21= 40 σ22= 60
Una m. a. de n = 10 se saca de la población 1 y una m. a. de tamaño n= 12 se saca de la
población 2. ¿Cuál es la probabilidad de que la diferencia entre las medias esté entre 5 y
15?

•La distribución muestral de diferencia de medias es

CORRECCION:

Inicialmente estaremos interesados en verificar si ambas distribuciones tienen la misma


media poblacional, es decir si μ1 = μ2 ó equivalentemente μ1 - μ2 = 0, por lo que
debemos hacer las siguientes consideraciones:

a) Distribución de la diferencia entre dos medias cuando las varianzas son conocidas.

b) Distribución de la diferencia entre dos medias cuando las varianzas son conocidas y
diferentes

c) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas
pero iguales.

d) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas y
diferentes

EJEMPLO:

Cuando las varianzas son conocidas: En un estudio para comparar los pesos promedio de
niños y niñas de sexto grado en una escuela primaria se usará una muestra aleatoria de
n1 = 20 niños y otra de n2 = 25 niñas. Se sabe que tanto para niños como para niñas los
pesos siguen una distribución normal. El promedio de los pesos de todos los niños de
sexto grado de esa escuela es de μ1 = 100 libras y su desviación estándar es de σ1 =
14.142, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa
escuela es de μ2 = 85 libras y su desviación estándar es de σ2 = 12.247 libras. Si 𝑥̅ 1
representa el promedio de los pesos de 20 niños y 𝑥̅ 2 es el promedio de los pesos de una
muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20
niños sea al menos 20 libras más grande que el de las 25 niñas.

e cuando las varianzas poblacionales son conocidas e iguales. De una población se toma
una muestra de n1 = 40 observaciones. La media muestral es de x1 = 102 y la desviación
estándar de σ1 = 5. De otra población se toma una muestra de n2 =50 observaciones y la
media muestral es ahora x2 = 99 y la desviación estándar es 6. Calcule el valor
estadístico de la prueba. Se debe suponer que las medias poblacionales son iguales.
4.3 TEOREMA DE LIMITE CENTRAL

El teorema central del límite (TCL) es una teoría estadística que establece que, dada una
muestra aleatoria suficientemente grande de la población, la distribución de las medias
muestrales seguirá una distribución normal. Además, el TCL afirma que a medida que el
tamaño de la muestra se incrementa, la media muestral se acercara a la media de la
población. Por tanto, mediante el TCL podemos definir la distribución de la media muestral
de una determinada población con una varianza conocida. De manera que la distribución
seguirá una distribución normal si el tamaño de la muestra es lo suficientemente grande.

El teorema del límite central es un concepto fundamental en estadística que establece


que, bajo ciertas condiciones, la distribución de las medias muestrales tiende a
aproximarse a una distribución normal a medida que el tamaño de la muestra
aumenta, independientemente de la forma de la distribución poblacional subyacente.
Este teorema es de gran importancia, ya que proporciona una base sólida para
realizar inferencias sobre la media poblacional a partir del estudio de muestras. En
situaciones donde la distribución poblacional no es normal o desconocida, el teorema
del límite central permite utilizar la distribución normal como una aproximación válida
para la distribución de las medias muestrales.
Las implicaciones prácticas del teorema del límite central son significativas. Por
ejemplo, cuando se trabaja con muestras grandes, es posible utilizar la distribución
normal para calcular intervalos de confianza y realizar pruebas de hipótesis sobre la
media poblacional, incluso si la distribución poblacional original no es normal.
Además, el teorema del límite central es ampliamente aplicable en diversos campos,
desde la economía hasta las ciencias sociales y naturales. Su utilidad radica en que
proporciona un marco sólido para el análisis estadístico en situaciones donde se
trabaja con muestras y se realizan inferencias sobre parámetros poblacionales.

Fórmula:

Si una población tiene media μ y desviación típica σ, y tomamos muestras de tamaño n


(n>30, ó cualquier tamaño si la población es "normal"), las medias de estas muestras
siguen aproximadamente la distribución:

La distribución normal se define por su media (μ) y desviación estándar (σ). En el


contexto del Teorema del Límite Central:
• • La media de la distribución de muestreo de la media (μm) es igual a la media
de la población (μ).

μm = μ
• • La desviación estándar de la distribución de muestreo de la media, también
conocida como error estándar de la media (σm), se calcula como:

σm = σ / √n
Donde:
• • σ: Desviación estándar de la población

• • n: Tamaño de la muestra

CONSECUENCIAS:
1.
Permite averiguar la probabilidad de que la media de una muestra concreta esté en un
cierto intervalo.

2.
Permite calcular la probabilidad de que la suma de los elementos de una muestra esté, a
priori, en un cierto intervalo.

3.
Inferir la media de la población a partir de una muestra.
EJEMPLO:

Las bolsas de sal envasadas por una máquina tienen μ = 500 g y σ = 35 g. Las bolsas se
empaquetaron en cajas de 100 unidades.

1.
Calcular la probabilidad de que la media de los pesos de las bolsas de un paquete sea
menor que 495 g.

2.
Calcular la probabilidad de que una caja 100 de bolsas pese más de 51 kg.
Ejemplo:
Supongamos que tenemos una población con una distribución no normal (por
ejemplo, sesgada a la derecha) con una media (μ) de 10 y una desviación estándar
(σ) de 4. Si extraemos muestras aleatorias de tamaño 50 de esta población:
• • El Teorema del Límite Central nos dice que, a medida que tomemos muchas
muestras grandes (n = 50), la distribución de las medias muestrales se aproximará a
una distribución normal.

• • La media de la distribución de muestreo de la media seguirá siendo 10 (μm =


μ).

• • El error estándar de la media será σm = σ / √n = 4 / √50 ≈ 0.57.

Aplicando la distribución normal:


Una vez que sabemos que la distribución de las medias muestrales se aproxima a una
normal con μm = 10 y σm = 0.57, podemos utilizar la fórmula de la distribución normal
para calcular la probabilidad de que la media de una muestra específica caiga dentro
de un cierto intervalo. Por ejemplo, podemos calcular la probabilidad de que la media
de una muestra esté entre 9 y 11.
Tenga en cuenta que el Teorema del Límite Central solo garantiza la aproximación a
la normalidad para muestras lo suficientemente grandes. No existe un tamaño mínimo
universal, pero en general, muestras mayores a 30 suelen ser suficientes.

4.4 DETERMINACION DEL TAMAÑO DE LA MUESTRA DE UNA POBLACION

Una muestra es una selección de los encuestados elegidos y que representan a la


población total. El tamaño de la muestra es una porción significativa de la población que
cumple con las características de la investigación reduciendo los costos y el tiempo.
Saber cómo determinar el tamaño de la muestra antes de comenzar una investigación es
un principio estadístico que nos ayuda a evitar el sesgo en la interpretación de los
resultados obtenidos.

El tamaño de la muestra de una encuesta es muy importante para poder realizar una
investigación de manera correcta, por lo que hay que tener en cuenta los objetivos y las
circunstancias en que se desarrolle la investigación. Recuerda que la finalidad es que las
personas completen la encuesta y te otorguen los datos que estás buscando. Una
muestra demasiado grande dará lugar a la perdida de valiosos recursos como tiempo y
dinero, mientras que una muestra pequeña puede no proporcionar información confiable.

El tamaño de la muestra puede ser:

Representativa: Hace referencia a que todos los miembros de un grupo de personas


tengan las mismas oportunidades de participar en la investigación.
Adecuada: Se refiere a que el tamaño de la muestra debe de ser obtenido mediante un
análisis que permite resultados como disminuir el margen de error.
El tamaño muestral dependerá de decisiones estadísticas y no estadísticas, pueden incluir
por ejemplo la disponibilidad de los recursos el presupuesto o el equipo que estará en
campo.

Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

1. Tamaño de la población. Una población es una colección bien definida de objetos


o individuos que tienen características similares. O hablamos de dos tipos:
población objetivo, que suele tiene diversas características y también es conocida
como la población teórica. La población accesible es la población sobre la que los
investigadores aplicaran sus conclusiones.
2. Margen de error (intervalo de confianza). El margen de error es una estadística
que expresa la cantidad de error de muestreo aleatorio e los resultados de una
encuesta, es decir, es la medida estadística del número de veces de cada 100 que
se esper que los resultados se encuentren dentro de un rengo especifico.
3. Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con
una determinar una probabilidad alta. Por ejemplo, un intervalo de confianza de
95% significa que los resultados de una acción probablemente cubrirán las
expectativas el 95% de las veces.
4. Desviación estándar. Es un índice numérico de la dispersión de un conjunto de
datos (o población). Mientras mayor es la desviación estándar mayor es la
dispersión de la población.

FORMULAS:

EJEMPLO:

Calcular el tamaño de muestra que se requiere para estimar el ingreso medio de un


despacho de consultoría de 90 empleados en nomina, donde se conoce que existe una
desviación de $15,000. El tamaño de muestra debe garantizar un error máximo de $5,000,
con un nivel de significancia del 95%.

Se identifican las siguientes variables:

N=90 (población) S= 15,000 (deviación estándar) E= 5,000 (error) Z=1.96 (nivel


de significancia).
El ejercicio solicita calcular el ingreso medio, por lo tanto, habrá que utilizar la formula que
obtiene una media para una población conocida (N), es decir:

Una empresa que comercializa aparatos electrónicos desea estimar el numero promedio
de aparatos que adquieren anualmente sus principales clientes. Se conoce que la
desviación estándar es de 90 aparatos. Es necesario calcular el tamaño de muestra que
garantice un nivel de confianza de 99% con un error permitido de 10 piezas.

Se desea conocer cual es el grado de satisfacción de los 3582 alumnos de primer ingreso
de la facultad de contaduría y administración de la UNAM, respecto al servicio de las
ventanillas. En las últimas tres generaciones, esta aceptación fue del 40%. Es necesario
determinar a cuantos alumnos hay que entrevistar para garantizar un error máximo de 0
puntos porcentuales con un nivel de significancia del 90%.

Se identifican las siguientes variables:


N=3582 (alumnos) P= 40%, es decir: 0.40 (proporcional muestral) e= 10%,es decir:
0.10(error) Z=1.64 (nivel de significancia)

Dado que el parámetro que se busca estimar es una proporción, el tamaño de muestra se
determina con la siguiente formula:

Históricamente, la proporción de vuelos demorados de una aerolínea es de 10%. Los


responsables del aerolínea desean revisar los itinerarios de una muestra de vuelos del
ultimo año para comprobar si se sigue observando la misma demora.

Se pide calcular el tamaño de muestra que permita estimar la proporción de vuelos


demorados en un año, con un nivel de confianza de 95% y un error de tres puntos
porcentuales.

Se identifican las siguientes variables:

P= 10%, es decir: 0.10 (proporción muestral) e= 3%, es decir:0.03 (error) Z= 1.96(


nivel de significancia)

Se desconoce el tamaño de la población y el parámetro que se busca estimar es una


proporción, el tamaño de muestra se determina con la siguiente formula:
4.5 INTERVALOS DE CONFIANZA PARA LA MEDIA, CON EL USO DE LA
DISTRIBUCION NORMAL Y “T” DE STUDENT.

Un intervalo de confianza es un intervalo que contiene el valor real del parámetro de la


población con un cierto nivel de confianza. En otras palabras, es un rango de valores
dentro del cual se encuentra la media real de la población con una probabilidad
predeterminada.

Tipos de distribuciones:

• Distribución normal: Se utiliza cuando se conoce la desviación estándar de la


población (σ) o cuando el tamaño de la muestra es lo suficientemente grande (n ≥ 30).

• Distribución t de Student: Se utiliza cuando se desconoce la desviación estándar de la


población (σ) y el tamaño de la muestra es pequeño (n < 30).

Existe la fórmula para calcular el valor de t en la distribuciones T Student.. Se usa la siguiente


fórmula para transformar distribuciones normales a t.

Para muestras aleatorias de tamaño n desde una población normal.


El numerador representa la diferencia a probar y el denominador la desviación estándar de la
diferencia llamado también Error Estándar.

En esta fórmula t representa al valor estadístico que se estará buscando X es el promedio de


la variable analizada de la muestra, y μ es el promedio poblacional de la variable a estudiar.
En el denominador se tiene a s como representativo de la desviación estándar de la muestra
y n el tamaño de ésta.
La distribución t es más útil para tamaños muestrales pequeños, cuando la desviación
estándar de la población no se conoce o ambos en comparación con la distribución normal
estándar.
Como se mencionó, este escenario es poco útil desde el punto de vista práctico pues para
utilizarlo usted requiere conocer la varianza de la población (σ). Recordemos que la media
es una variable aleatoria que posee una distribución muestral (o sea su valor cambia de
muestra a muestra).

Supuesto: La muestra proviene de una población normal con varianza conocida. En la


práctica, esto es una situación muy poco probable; sin embargo, su cálculo nos sirve para
ilustrar algunos aspectos teóricos de los intervalos de confianza. El intervalo de confianza
para la media poblacional está dado por:

Donde: P indica la probabilidad de la expresión entre paréntesis, la cual es igual a 1-α,


valor conocido como nivel de confianza. Alfa (α) representa el área bajo la curva no
contenida por el intervalo. L

Si deseamos estimar una media: debemos saber:

El nivel de confianza o seguridad (1-a). El nivel de confianza prefijado da lugar a un


coeficiente (Za ). Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58.
La precisión con que se desea estimar el parámetro (2 * d es la amplitud del intervalo
de confianza).
Una idea de la varianza S2 de la distribución de la variable cuantitativa que se supone
existe en la población.
Ejemplo: El señor Juan Pérez se dedica a hacer tarjetas postales y los vende en 50
papelerías; como el negocio no marcha como él espera, desea saber cómo esta el
ausentismo entre sus trabajadores, y ver si esa es la causa de la baja en las ventas. A
continuación se da el número de días de ausencia durante una quincena en una muestra
de 10 trabajadores 4,1, 2, 2, 1, 2, 2, 1, 0, 3  Determine la media y desviación estándar de
la muestra  ¿Cual la mejor estimación de ese valor?  Proporcione un intervalo de
confianza de 95 % para la media poblacional  Explique porque se usa la distribución t
como parte del intervalo de confianza  ¿Es razonable concluir que el trabajador promedio
no faltó ningún día durante una quincena?

Media 1.8 Desviación Estándar 1.135 Varianza 1.289

Respuesta, la verdadera media poblacional de ausencia en una quincena va de los 0.988


a los 2.612 días. ¿Es razonable concluir que el trabajador promedio no falto ningún día
durante una quincena? No, porque según el resultado el intervalo está entre los valores
(0.988, 2.612) y el “0” se encuentra fuera del intervalo, por lo tanto no es razonable pensar
que hubo cero ausencias en la quincena.
4.6 INTERVALOS DE CONFIANZA PARA DIFERENCIA ENTRE DOS MEDIAS
μ1-μ2 COMO σ12 Y σ22, σ12= σ22, PERO CONOCIDAS, CON EL USO DE LA
DISTRIBUCION NORMAL Y LA “T” DE STUDENT.

Para calcular el intervalo de confianza de dos medias se debe saber si las varianzas
poblacionales son conocidas o desconocidas, y en caso de que sean desconocida, se
debe probar si son iguales o diferentes. Cada uno de estos 3 casos se analizarán por
separado.

Sean x11, x12,.. x1n1, una muestra aleatoria de n1 observaciones tomadas de una primera
población con valor esperado σ 1, y varianza σ 2 1; y x21, x22,.. x2n2, una muestra aleatoria de
n2 observaciones tomada de la segunda población con valor esperado σ 2, y varianza σ 22.

Si x1 y x2 son las medias muestrales, la estadística x1 – x2 es un estimador puntual de σ 1


σ 2, y tiene una distribución normal si las dos poblaciones son normales, o
aproximadamente normal si cumple con las condiciones del teorema del límite central
(tamaños de muestras relativamente grandes. Por lo tanto

Fórmula para el intervalo de confianza:

IC = p ± Z * √(p(1-p) / n)

Donde:

• IC: Intervalo de confianza

• p: Proporción muestral

• Z: Valor crítico del nivel de confianza (se encuentra en tablas)

• n: Tamaño de la muestra

Ejemplo:

Para el mismo ejemplo anterior, con un nivel de confianza del 95%, se calcula el intervalo
de confianza:

• p: 0.12

• Z: 1.96 (valor crítico para un nivel de confianza del 95%)


• n: 100

Sustituyendo en la fórmula:

IC = 0.12 ± 1.96 * √ (0.12(1-0.12) / 100) = (0.05, 0.19)

Interpretación:

Con un 95% de confianza, la verdadera proporción de personas zurdas en la ciudad


se encuentra entre el 5% y el 19

Sea X una variable binomial de parámetros n y p (una variable binomial es el número de


éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por
ejemplo: número de diabéticos en 2000 personas).

Si n es grande y p no está próximo a 0 o 1 (np 3 5) X es aproximadamente normal con

media np y varianza npq (siendo q = 1 - p) y se puede usar el estadístico (proporción

muestral), que es también aproximadamente normal, con error típico dado por

en consecuencia, un IC para p al 100(1 - a) % será.


En esta sección, se abordará el cálculo de intervalos de confianza para la diferencia
entre dos medias poblacionales (μ1 - μ2) utilizando la distribución normal y la "T" de
Student, considerando que las varianzas poblacionales (σ1² y σ2²) son conocidas y
homocedásticas (σ1² = σ2²).
Fórmula para la distribución normal:
IC = (μ1 - μ2) ± Z * √(σ1²/n1 + σ2²/n2)
Donde:
• IC: Intervalo de confianza

• μ1 - μ2: Diferencia entre las medias muestrales

• Z: Valor crítico del nivel de confianza (se encuentra en tablas)

• σ1²: Varianza poblacional 1 (conocida)

• σ2²: Varianza poblacional 2 (conocida)

• n1: Tamaño de la muestra 1

• n2: Tamaño de la muestra 2

Fórmula para la distribución t de Student:


IC = (μ1 - μ2) ± t * √((s1²/n1 + s2²/n2) / df)
Donde:
• IC: Intervalo de confianza

• μ1 - μ2: Diferencia entre las medias muestrales

• t: Valor crítico de la distribución t de Student con df grados de libertad (se encuentra


en tablas)

• s1²: Varianza muestral 1

• s2²: Varianza muestral 2

• n1: Tamaño de la muestra 1

• n2: Tamaño de la muestra 2

• df: Grados de libertad = n1 + n2 - 2


Ejemplo:
Objetivo: Calcular un intervalo de confianza del 95% para la diferencia entre las medias
de dos poblaciones, considerando que las varianzas poblacionales son conocidas e
iguales a 100, y se tienen muestras de 30 y 40 individuos con medias de 150 y 160
respectivamente.
Datos:
• σ1² = σ2² = 100

• n1 = 30

• n2 = 40

• μ1 = 150

• μ2 = 160

Cálculo:
Distribución normal:
• Z para un nivel de confianza del 95% = 1.96

• IC = (150 - 160) ± 1.96 * √(100/30 + 100/40)

• IC ≈ (-10.64, 8.64)

Distribución t de Student:
• df = 30 + 40 - 2 = 68

• t para un nivel de confianza del 95% y 68 grados de libertad = 1.995

• IC = (150 - 160) ± 1.995 * √((100/30 + 100/40) / 68)

• IC ≈ (-10.70, 8.70)

Interpretación:
• Con un 95% de confianza, la diferencia real entre las medias de las dos poblaciones
se encuentra entre -10.64 y 8.64 si se utiliza la distribución normal, o entre -10.70 y
8.70 si se utiliza la distribución t de Student.

EJEMPLO 2:
Una empresa comercial que procesa muchos de sus pedidos por teléfono tiene 2 tipos de
clientes: generales y comerciales. Se recogen los pedidos de tiempo telefónico por
artículo requerido, por una muestra aleatoria de 12 llamadas de clientes generales y 10
llamadas de clientes comerciales. Se supone que las cantidades de tiempos para cada
tipo de llamadas tiene una distribución aproximadamente normal. Obtenga el Intervalo de
Confianza de 95% para la diferencia de la cantidad media de tiempo por artículo requerida
para cada llamada.
Interpretación: como el cero se encuentra incluido en el intervalo, se puede decir con un
95% de confianza que no hay diferencia en el tiempo medio de cada llamada requerida
para cada artículo.
4.7 UNA SOLA MUESTRA: ESTIMACION DE LA PROPORCION.

La estimación de la proporción a partir de una sola muestra consiste en calcular un valor


que represente la proporción real de una población que posee una característica
específica, utilizando únicamente la información de una muestra aleatoria.

Fórmula:

La fórmula para estimar la proporción a partir de una sola muestra es:

p=x/n

Donde:

• p: Proporción muestral (estimación)

• x: Número de "éxitos" en la muestra (individuos que poseen la característica)

• n: Tamaño de la muestra (total de individuos en la muestra)

Ejemplo:

Supongamos que se desea estimar la proporción de personas en una ciudad que son
zurdas. Se toma una muestra aleatoria de 100 personas y se observa que 12 de ellas son
zurdas.

Cálculo:

• x: 12 (número de personas zurdas en la muestra)

• n: 100 (tamaño de la muestra)

Sustituyendo en la fórmula:

p = 12 / 100 = 0.12

Interpretación:

Se estima que la proporción de personas zurdas en la ciudad es del 12%.

Intervalos de confianza:

Además de la estimación puntual, es posible calcular un intervalo de confianza para la


proporción real en la población. Este intervalo indica un rango dentro del cual se
encuentra la verdadera proporción con un cierto nivel de confianza (usualmente 95% o
99%).
4.8 TAMAÑO DE LA MUESTRA COMO UNA ESTIMACION DE P Y UN GRADO
DE CONFIANZA (1.-a) 100%.

El tamaño de la muestra necesario para estimar una proporción con un grado de


confianza del 100% (α = 1 - 100%) depende de varios factores, como el margen de error
que se está dispuesto a aceptar, la proporción estimada de la población y el nivel de
confianza deseado.

En la práctica, no es posible alcanzar un 100% de confianza, ya que siempre existe un


margen de error asociado a la estimación. Sin embargo, se puede obtener un nivel de
confianza muy alto (cercano al 100%) utilizando un tamaño de muestra suficientemente
grande.

Fórmula:

La fórmula para calcular el tamaño de la muestra para estimar una proporción con un
grado de confianza del 100% (α = 1 - 100%) es:

n = Z^2 * p * q / E^2
Donde:

• n: Tamaño de la muestra

• Z: Valor crítico del nivel de confianza (se encuentra en tablas)

• p: Proporción estimada (valor inicial, puede ser 0.5 si se desconoce)

• q: 1 - p

• E: Margen de error

Ejemplo:

Objetivo: Calcular el tamaño de la muestra necesario para estimar la proporción de


personas en una ciudad que son zurdas con un nivel de confianza del 100% (α = 1 -
100%) y un margen de error del 5%.

Datos:

• p: 0.1 (valor inicial, se puede ajustar si se tiene información previa)

• q: 1 - 0.1 = 0.9

• E: 0.05

• Z: 2.576 (para un nivel de confianza del 99.99%)

Cálculo:

n = 2.576^2 * 0.1 * 0.9 / 0.05^2 n ≈ 1230.4

Redondeo:

n = 1231

Interpretación:

Se necesita una muestra de al menos 1231 personas para estimar la proporción de


personas zurdas en la ciudad con un nivel de confianza del 100% (α = 1 - 100%) y un
margen de error del 5%.

Se desea calcular un intervalo aleatorio que contenga al verdadero valor del parámetro, θ,
con una cierta probabilidad h1(T) ≤θ≤ h2(T)

Las funciones h1 y h2 son funciones de un estadístico T relacionado con el parámetro a


estimar en cada caso

Nivel de confianza (1−α)


El nivel de confianza, 1−α, es la probabilidad de que un intervalo de confianza contenga al
verdadero valor del parámetro.
P [ h1 (T) ≤θ≤ h2 (T)] = 1−α
De cada 100 intervalos construidos a partir de 100 muestras, 100 (1−α) % deberían
contener al verdadero valor del parámetro

CORRECCION:

Determinación del tamaño de la muestra que se requiere para estimar la proporción.


Antes de tomar una muestra se puede determinar el tamaño de la muestra mínimo
requerido especificando el nivel de confianza que desea, el error de muestreo aceptable y
haciendo una estimación inicial (subjetiva) de 𝜋 la proporción poblacional desconocida:

En esta ecuación z es el valor para el intervalo de confianza especificado,𝜋 es una


estimación inicial de la proporción poblacional y E es el error del muestreo es mas y en
menos tolerado por el intervalo (siempre un medio de todo intervalo de confianza) Si no es
posible hacer una estimación inicial de 𝜋, entonces se debe estimar que es .50. Esta
estimación es conservadora ya que es el valor para el que se requiere mayor tamaño para
la muestra. Bajo esta suposición la formula general para el tamaño de la muestra se
simplifica como sigue:

Cuando se calcula el tamaño de la muestra cualquier resultado fraccionario se redondea


siempre hacia arriba. 71 Además cualquier tamaño de muestra menor que 100 que se
obtenga con los cálculos debe incrementarse a 100 debido a que las formulas se basan
en el uso de la distribución normal.

Ejemplo:

Suponga que se especifica que la estimación mediante un intervalo de 95% debe ser ±.05
y que no se hace ninguna suposición previa acerca del posible valor de 𝜋. El tamaño
mínimo de la muestra que debe tomarse es:

Además de estimar la proporción poblacional, también se puede estimar el número total


en una categoría de la población.
CONCLUSION.

Principalmente estos temas los vimos al principio de la unidad pero era un muestro un
poco simple en el cual no eran tantos cálculos, y ahorita durante las clase uno si se
sorprendía con los distintos tipos de muestras que había para diferentes cosas que la
verdad si no le entiendes o no pones atención en el tema cuando ves la formula se te
hace muy complicado pero en realidad al saber bien cuales son los valores que ocupas
veras que la fórmula es muy fácil de resolver y no habrá ningún problema con los
muestreos.

También podría gustarte