Estadistica Unidad 4
Estadistica Unidad 4
Pgina 1
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Unidades de muestreo: nmero de elementos de la poblacin, no solapados, que se van a estudiar. Todo miembro de la poblacin pertenecer a una y slo una unidad de muestreo. Unidades de anlisis: objeto o individuo del que hay que obtener la informacin. Marco muestral: lista de unidades o elementos de muestreo. Muestra: conjunto de unidades o elementos de anlisis sacados del marco.
El muestreo aleatorio simple puede ser de dos tipos: Sin reposicin de los elementos: cada elemento extrado se descarta para la subsiguiente extraccin. Por ejemplo, si se extrae una muestra de una "poblacin" de bombillas para estimar la vida media de las bombillas que la integran, no ser posible medir ms que una vez la bombilla seleccionada. Con reposicin de los elementos: las observaciones se realizan con reemplazamiento de los individuos, de forma que la poblacin es idntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extraccin es tan pequea que el muestreo puede considerarse sin reposicin aunque, realmente, no lo sea. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy til la extraccin de nmeros aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.
Pgina 2
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
PROCEDIMIENTO DE LA TABLA DE NUMEROS ALEATORIOS Codificar numricamente cada elemento de la poblacin (se puede usar una existente, caso de las facturas). Determinar el numero de cifras a tomar en la tabla segn el tamao de poblacin. Ejemplo: Si N=350 se tomaran nmeros de Determinar la orientacin de la seleccin tanto en forma vertical como horizontal. Ejemplo: De izquierda a derecha y de arriba hacia abajo. Iniciar al azar la seleccin en la tabla y tantos nmeros como tamao de la muestra, Identificar los elementos de la poblacin segn los nmeros elegidos en la tabla.
Muestreo estratificado
Consiste en la divisin previa de la poblacin de estudio en grupos o clases que se suponen homogneos respecto a caracterstica a estudiar. A cada uno de estos estratos se le asignara una cuota que determinara el nmero de miembros del mismo que compondrn la muestra. Segn la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos tcnicas de muestreo estratificado:
proporcional a su tamao en la poblacin. Asignacin ptima: la muestra recoger ms individuos de aquellos estratos que tengan ms variabilidad. Para ello es necesario un conocimiento previo de la poblacin.
Por ejemplo, para un estudio de opinin, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. As, si la poblacin est compuesta de un 55% de mujeres y un 45% de hombres, se tomara una muestra que contenga tambin esa misma proporcin.
Muestreo sistemtico
Se utiliza cuando el universo o poblacin es de gran tamao, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevacin K= N/n; donde N es el tamao del universo y n el tamao de la muestra. Determinar en qu fecha se producir la primera extraccin, para ello hay que elegir al
Pgina 3
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
azar un nmero entre 1 y K; de ah en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenmeno.
Muestreo por conglomerados
Tcnica similar al muestreo por estadios mltiples, se utiliza cuando la poblacin se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la poblacin, es decir, la representan fielmente respecto a la caracterstica a elegir, pueden seleccionarse slo algunos de estos grupos oconglomerados para la realizacin del estudio. Dentro de los grupos seleccionados se ubicarn las unidades elementales, por ejemplo, las personas a encuestar, y podra aplicrsele el instrumento de medicin a todas las unidades, es decir, los miembros del grupo, o slo se le podra aplicar a algunos de ellos, seleccionados al azar. Este mtodo tiene la ventaja de simplificar la recogida de informacin muestral. Cuando, dentro de cada conglomerado, se extraen los individuos que formarn parte de la muestra por m.a.s., el muestreo se llama bietpico. Las ideas de estratificacin y conglomerados son opuestas. El primer mtodo funciona mejor cuanto ms homognea es la poblacin respecto del estrato, aunque ms diferentes son stos entre s. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre s.
Ventajas e inconvenientes de los distintos tipos de muestreo probabilstico CARACTERISTICAS VENTAJAS Sencillo y comprensin. de fcil Requiere que se posea de antemano un listado completo de toda la poblacin. Cuando se trabaja con muestras pequeas es posible que no represente a la poblacin adecuadamente. INCONVENIENTES
Se selecciona una muestra de Clculo rpido de medias y tamao n de una poblacin de N varianzas. Aleatorio simple unidades, cada elemento tiene una probabilidad de inclusin Se basa en la teora igual y conocida de n/N. estadstica, y por tanto existen paquetes informticos para analizar los datos
Pgina 4
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Conseguir un listado de los N elementos de la poblacin Fcil de aplicar. Determinar tamao muestral n. No siempre es necesario Si la constante de tener un listado de toda la muestreo est asociada Definir un intervalo k= N/n. poblacin. con el fenmeno de inters, las estimaciones Elegir un nmero aleatorio, r, Cuando la poblacin est obtenidas a partir de la entre 1 y k (r= arranque ordenada siguiendo una muestra pueden contener aleatorio). tendencia conocida, asegura sesgo de seleccin una cobertura de unidades de Seleccionar los elementos de la todos los tipos. lista. En ciertas ocasiones resultar conveniente estratificar la muestra segn ciertas variables de inters. Para ello debemos conocer la composicin estratificada de la poblacin objetivo a hacer un muestreo. Una vez calculado el tamao muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la poblacin usando una simple regla de tres. Tiende a asegurar que la muestra represente adecuadamente a la poblacin en funcin de unas variables seleccionadas. Se ha de conocer la distribucin en la Se obtienen estimaciones poblacin de las variables ms precisa utilizadas para la estratificacin. Su objetivo es conseguir una muestra lo ms semejante posible a la poblacin en lo que a la o las variables estratificadoras se refiere. Es muy eficiente cuando la El error estndar es poblacin es muy grande y mayor que en el dispersa. muestreo aleatorio simple o estratificado. No es preciso tener un listado de toda la poblacin, slo de El clculo del error las unidades primarias de estndar es complejo. muestreo.
Sistemtico
Estratificado
Se realizan varias fases de muestreo sucesivas (polietpico)La necesidad de listados de las unidades de una Conglomerados etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Como el anlisis de las distribuciones asociadas con los estadsticos muestrales, podremos juzgar la confiabilidad de un estadstico muestral como un instrumento para hacer inferencias sobre un parmetro poblacional desconocido. Como los valores de un estadstico, tal como x, varan de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribucin de frecuencias. La distribucin de frecuencia de un estadstico muestral se denomina distribucin muestral. En general, la distribucin muestral de un estadstico es la de todos sus valores posibles calculados a partir de muestras del mismo tamao. Suponga que se han seleccionado muestras aleatorias de tamao 20 en una poblacin grande. Se calcula la media muestral x para cada muestra; la coleccin de todas estas medias muestrales recibe el nombre de distribucin muestral de medias, lo que se puede ilustrar en la siguiente figura:
Suponga que se eligen muestras aleatorias de tamao 20, de una poblacin grande, y se calcula la desviacin estndar de cada una. La coleccin de todas estas desviaciones estndar muestrales se llama distribucin muestral de la desviacin estndar, y lo podemos ver en la siguiente figura:
Pgina 6
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Ejemplo 1
Se eligen muestras ordenadas de tamao 2, con reemplazo, de la poblacin de valores 0, 2, 4 y 6. Encuentre: , la media poblacional. , la desviacin estndar poblacional. x, la media de la distribucin muestral de medias. x, la desviacin estndar de la distribucin muestral de medias. Adems, grafique las frecuencias para la poblacin y para la distribucin muestral de medias. Solucin:
a. La media poblacional es:
Pgina 7
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
c. A continuacin se listan los elementos de la distribucin muestral de la media y la correspondiente distribucin de frecuencias.
Pgina 8
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Como para cualquier variable aleatoria, la distribucin muestral de medias tiene una media o valor esperado, una varianza y una desviacin estndar, se puede demostrar que la distribucin muestral de medias tiene una media igual a la media poblacional. Esto es:
Distribuciones muestrales Despus de haber realizado el ejercicio anterior se puede ver que una distribucin muestral se genera extrayendo todas las posibles muestras del mismo tamao de la poblacin y calculndoles a stas su estadstico. Si la poblacin de la que se extraen las muestras es normal, la distribucin muestral de medias ser normal sin importar el tamao de la muestra.
Pgina 9
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Si la poblacin de donde se extraen las muestras no es normal, entonces el tamao de la muestra debe ser mayor o igual a 30, para que la distribucin muestral tenga una forma acampanada. Mientras mayor sea el tamao de la muestra, ms cerca estar la distribucin muestral de ser normal. Para muchos propsitos, la aproximacin normal se considera buena si se cumple n=30. La forma de la distribucin muestral de medias sea aproximadamente normal, an en casos donde la poblacin original es bimodal, es realmente notable.
Es conocido de nosotros durante este curso, que en base a la distribucin muestral de medias que se gener en el tema anterior, la formula para el calculo
de probabilidad es la siguiente: . Como en este caso no conocemos el parmetro y lo queremos estimar por medio de la media de la muestra, slo se despejar de la formula anterior, quedando lo siguiente:
Probabilidad y Estadstica descriptiva Pgina 10
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
De esta formula se puede observar que tanto el tamao de la muestra como el valor de z se conocern. Z se puede obtener de la tabla de la distribucin normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribucin llamada "t" de student si la poblacin de donde provienen los datos es normal. Para el caso de tamaos de muestra grande se puede utilizar una estimacin puntual de la desviacin estndar, es decir igualar la desviacin estndar de la muestra a la de la poblacin (s= ). Ejemplos:
1. Se encuentra que la concentracin promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentracin media de zinc en el ro. Suponga que la desviacin estndar de la poblacin es 0.3.
Solucin: La estimacin puntual de es = 2.6. El valor de z para un nivel de confianza del 95% es 1.96, por lo tanto:
Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo ser ms amplio:
Pgina 11
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
El intervalo de confianza proporciona una estimacin de la presicin de nuestra estimacin puntual. Si es realmente el valor central de intervalo, entonces estima sin error. La mayor parte de las veces, sin embargo, no ser exactamente igual a y la estimacin puntual es errnea. La magnitud de este error ser el valor absoluto de la diferencia entre y , y podemos tener el nivel de confianza de que esta diferencia no exceder
. Como se puede observar en los resultados del ejercicio se tiene un error de estimacin mayor cuando el nivel de confianza es del 99% y ms pequeo cuando se reduce a un nivel de confianza del 95%.
2. Una empresa elctrica fabrica focos que tienen una duracin aproximadamente distribuida de forma normal con una desviacin estndar de 40 horas. Si una muestra de 30 focos tiene una duracin promedio de 780 horas, encuentre un intervalos de confianza de 96% para la media de la poblacin de todos los focos que produce esta empresa.
Solucin:
Con un nivel de confianza del 96% se sabe que la duracin media de los focos que produce la empresa est entre 765 y 795 horas.
3. La prueba de corte sesgado es el procedimiento ms aceptado para evaluar la calidad de una unin entre un material de reparacin y su sustrato de concreto. El
Pgina 12
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez artculo "Testing the Bond Between Repair Materials and Concrete Substrate" informa que, en cierta investigacin, se obtuvo una resistencia promedio muestral de 17.17 N/mm2, con una muestra de 48 observaciones de resistencia al corte, y la desviacin estndar muestral fue 3.28 N/mm2. Utilice un nivel de confianza inferior del 95% para estimar la media real de la resistencia al corte.
Solucin: En este ejercicio se nos presentan dos situaciones diferentes a los ejercicios anteriores. La primera que desconoce la desviacin estndar de la poblacin y la segunda que nos piden un intervalo de confianza unilateral. El primer caso ya se haba comentado y se solucionar utilizando la desviacin estndar de la muestra como estimacin puntual de sigma. Para el intervalo de confianza unilateral, se cargar el rea bajo la curva hacia un solo lado como sigue:
Esto quiere decir que con un nivel de confianza de 95%, el valor de la media est en el intervalo (16.39, ).
Si recordamos a la distribucin normal, esta es una distribucin continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor y es simtrica. Con esta distribucin podamos calcular la probabilidad de algn evento relacionado con la variable aleatoria, mediante la siguiente frmula:
Pgina 13
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
En donde z es una variable estandarizada con media igual a cero y varianza igual a uno. Con esta frmula se pueden a hacer los clculos de probabilidad para cualquier ejercicio, utilizando la tabla de la distribucin z. Sabemos que cuando se extraen muestras de tamao mayor a 30 o bien de cualquier tamao de una poblacin normal, la distribucin muestral de medias tiene un comportamiento aproximadamente normal, por lo que se puede utilizar la formula de la distribucin normal con y , entonces la frmula para calcular la probabilidad del comportamiento del estadstico, en este caso la media de la muestra , quedara de la siguiente manera:
Ejemplo: Una empresa elctrica fabrica focos que tienen una duracin que se distribuye aproximadamente en forma normal, con media de 800 horas y desviacin estndar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de 775 horas. Solucin:
Pgina 14
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
La interpretacin sera que la probabilidad de que la media de la muestra de 16 focos sea menor a 775 horas es de 0.0062. Ejemplo: Las estaturas de 1000 estudiantes estn distribuidas aproximadamente en forma normal con una media de 174.5 centmetros y una desviacin estndar de 6.9 centmetros. Si se extraen 200 muestras aleatorias de tamao 25 sin reemplazo de esta poblacin, determine:
a. El nmero de las medias muestrales que caen entre 172.5 y 175.8 centmetros. b. El nmero de medias muestrales que caen por debajo de 172 centmetros.
Solucin: Como se puede observar en este ejercicio se cuenta con una poblacin finita y un muestreo sin reemplazo, por lo que se tendr que agregar el factor de correccin. Se proceder a calcular el denominador de Z para slo sustituirlo en cada inciso.
a.
Pgina 15
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
b.
Pgina 16
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
La distribucin es aproximadamente normal para n 1 30 y n2 30. Si las poblaciones son normales, entonces la distribucin muestral de medias es normal sin importar los tamaos de las muestras.
y que
, por lo que
y que
La frmula que se utilizar para el calculo de probabilidad del estadstico de diferencia de medias es:
Ejemplo: En un estudio para comparar los pesos promedio de nios y nias de sexto grado en una escuela primaria se usar una muestra aleatoria de 20 nios y otra de 25 nias. Se sabe que tanto para nios como para nias los pesos siguen una distribucin normal. El promedio de los pesos de todos los nios de sexto grado de esa escuela es de 100 libras y su desviacin estndar es de 14.142, mientras que el promedio de los pesos de todas las nias del sexto grado de esa escuela es de 85 libras y su desviacin estndar es de 12.247 libras. Si
Probabilidad y Estadstica descriptiva
representa el promedio
Pgina 17
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
de los pesos de 20 nios y es el promedio de los pesos de una muestra de 25 nias, encuentre la probabilidad de que el promedio de los pesos de los 20 nios sea al menos 20 libras ms grande que el de las 25 nias. Solucin: Datos:
1=
100 libras
1= 2=
n1 = 20 nios n2 = 25 nias =?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de nios sea al menos 20 libras ms grande que el de la muestra de las nias es 0.1056.
Ejemplo:
Pgina 18
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Uno de los principales fabricantes de televisores compra los tubos de rayos catdicos a dos compaas. Los tubos de la compaa A tienen una vida media de 7.2 aos con una desviacin estndar de 0.8 aos, mientras que los de la B tienen una vida media de 6.7 aos con una desviacin estndar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compaa A tenga una vida promedio de al menos un ao ms que la de una muestra aleatoria de 40 tubos de la compaa B. Solucin: Datos:
A=
7.2 aos
A= B=
nA = 34 tubos nB = 40 tubos =?
Pgina 19
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Ejemplo: Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrndose una desviacin estndar de 1.23km/L para la primera gasolina y una desviacin estndar de 1.37km/L para la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos.
a. Cul es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de 0.45km/L que la segunda gasolina? b. Cul es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83km/L a favor de la gasolina 1?.
Solucin: En este ejercicio no se cuenta con los parmetros de las medias en ninguna de las dos poblaciones, por lo que se supondrn que son iguales. Datos:
1= 2=
n1 = 35 autos n2 = 42 autos
a. =?
Pgina 20
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
b.
La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre entre 0.65 y 0.83 Km/Lto a favor de la gasolina 1 es de 0.0117.
Pgina 21
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Una poblacin binomial est estrechamente relacionada con la distribucin muestral de proporciones; una poblacin binomial es una coleccin de xitos y fracasos, mientras que una distribucin muestral de proporciones contiene las posibilidades o proporciones de todos los nmeros posibles de xitos en un experimento binomial, y como consecuencia de esta relacin, las afirmaciones probabilsticas referentes a la proporcin muestral pueden evaluarse usando la aproximacin normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporcin si se divide el nmero obtenido entre el nmero de intentos.
Pgina 22
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
Artculos Buenos
Artculos Malos
de
1 2 3 4 5 Total
4 3 2 1 0 792
8C5*4C0=56
Para calcular la media de la distribucin muestral de proporciones se tendra que hacer la sumatoria de la frecuencia por el valor de la proporcin muestral y dividirla entre el nmero total de muestras. Esto es:
Como podemos observar la media de la distribucin muestral de proporciones es igual a la Proporcin de la poblacin.
p
=P
2 La varianza de la distribucin binomial es = npq, por lo que la varianza de la 2 distribucin muestral de proporciones es p =(Pq)/n. Si se sustituten los valores en esta frmula tenemos que:
Pgina 23
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez
, este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de correccin para una poblacin finita y un muestreo sin reemplazo:
La frmula que se utilizar para el clculo de probabilidad en una distribucin muestral de proporciones est basada en la aproximacin de la distribucin normal a la binomial . Esta frmula nos servir para calcular la probabilidad del comportamiento de la proporcin en la muestra.
Ejemplo:
Pgina 24
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporcin de la muestra de la gente que fuma cigarrillos sea menor que 0.55. Solucin: Este ejercicio se puede solucionar por dos mtodos. El primero puede ser con la aproximacin de la distribucin normal a la binomial y el segundo utilizando la frmula de la distribucin muestral de proporciones. Aproximacin de la distribucin normal a la binomial: Datos: n=800 estudiantes p=0.60 x= (.55)(800) = 440 estudiantes p(x 440) = ? Media= np= (800)(0.60)= 480
p(x 440) = 0.0017. Este valor significa que existe una probabilidad del 0.17% de que al extraer una muestra de 800 estudiantes, menos de 440 fuman cigarrillos.
Pgina 25
MUESTREO
Unidad 4 Christian Roberto Garca Gutirrez Distribucin Muestral de Proporciones Datos: n=800 estudiantes P=0.60 p= 0.55 p(p 0.55) = ?
Observe que este valor es igual al obtenido en el mtodo de la aproximacin de la distribucin normal a la binomial, por lo que si lo buscamos en la tabla de "z" nos da la misma probabilidad de 0.0017. Tambin se debe de tomar en cuenta que el factor de correccin de 0.5 se esta dividiendo entre el tamao de la muestra, ya que estamos hablando de una proporcin. La interpretacin en esta solucin, estara enfocada a la proporcin de la muestra, por lo que diramos que la probabilidad de que al extraer una muestra de 800 estudiantes de esa universidad, la proporcin de estudiantes que fuman cigarrillos sea menor al 55% es del 0.17%.
Pgina 26