Probabilidad y Estasistica
Probabilidad y Estasistica
Probabilidad y Estasistica
x
i 1
donde:
x = media aritmtica
xi = dato i
n = nmero de datos en la muestra
Ejemplos:
1. Se han tomado como muestra las medidas de seis cables usados en un arns
para lavadora, las cuales son; 15.2 cm, 15.0, 15.1, 15.2, 15.1 y 15.0, determine
su media aritmtica.
Solucin:
Pgina 1 de 127
3. 3.
Se hacen varias lecturas de una muestra que contiene cobre, las
lecturas se hacen en un espectrofotmetro de absorcin atmica y son la
siguientes: 12.3%, 12.28, 12.27, 12.3, 12.24, 15.01, determine la
concentracin promedio de Cu en la muestra.
Solucin:
_
12.73%Cu
6
6
12.278%Cu
5
5
media correcta
_
y esta sera la
20 18 18 19 18 19 20 18 18 19 187
18.7 aos
10
10
Pgina 2 de 127
G n x1 * x2 * ...* xn
Donde:
G = media geomtrica
xi = dato i
n = nmero de datos en la muestra
Ejemplos:
1. 1. Las siguientes temperaturas han sido tomadas de un proceso qumico,
13.4oC, 12.8, 11.9, 13.6, determine la temperatura promedio de este proceso.
Solucin:
4
4
G = 13.4 x12.8 x11.9 x13.6 27758.7968 = 12.9077 oC
3) Media aritmtica ponderada ( xw ). Esta media se usa cuando el peso que tiene
cada uno de los datos de la muestra es diferente, se calcula de la siguiente manera:
k
xw
wi xi
i 1
k
wi
i 1
donde:
Pgina 3 de 127
Xw
88.0
48
48
1
n
1 / n1 / xi
i 1
n
n
1 / xi
i 1
Ejemplo: Determine la media armnica de los siguientes datos, 3.1, 2.8, 2.84, 3.05, 3.09
Solucin:
Pgina 4 de 127
5
5
2.9703
0.3226 0.3571 0.3521 0.3279 0.3236 1.6833
Pgina 5 de 127
circuitos y sus mediciones son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5, 11.4
cm.
Solucin:
Ordenando los datos de mayor a menor valor,
11.5, 11.4, 11.4, 11.3, 11.2, 11.2, 11.2, 11,1 cm.
Se observa que en la parte central de los datos no hay dato alguno por lo
que la mediana se determina con el promedio de los datos subrayados,
entonces,
Xmed
11.3 11.2
11.25cm
2
Pgina 6 de 127
Frecuencia
1
1
5*
2
1
1
1
Frecuencia
2
7*
8*
2
2
3
1
En este caso se observa que las edades que ms frecuencia tienen son las de
18 y 19 aos, por lo que se concluye que existen dos modas,
Xmod1= 18 aos , Xmod2= 19aos
Hay que hacer notar que la frecuencia para ambas modas puede ser de
igual magnitud o diferente, como en el caso que se ilustra.
b2. Medidas de Dispersin. Cuando se tiene una muestra de datos obtenida
de una poblacin cualquiera, es importante determinar sus medidas de
tendencia central as como tambin es bsico el determinar que tan
dispersos estn los datos en la muestra, por lo que se hace necesario
determinar su rango, la varianza, la desviacin estndar, etc., ya que una
excesiva variabilidad o dispersin en los datos indica la inestabilidad del
proceso en anlisis en la mayora de los casos.
1) 1) Rango o recorrido. El rango es la diferencia entre el valor mayor y
el valor menor encontrados en la muestra, tambin se le denomina
recorrido ya que nos dice entre que valores hace su recorrido la variable
de inters; y se determina de la siguiente manera:
R = VM Vm
Pgina 7 de 127
Donde:
R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra
Ejemplo:
1. Se han tomado como muestras las mediciones de la resistencia a la
tensin de la soldadura usada para unir dos cables, estas son: 78.5kg, 82.4,
87.3, 78.0, 90.0, 86.5, 77.9, 92.4, 75.9, determine su rango o recorrido.
Solucin:
VM = 92.4 kg
Vm = 75.9 kg
R = VM Vm = 92.4 75.9 = 16.5 kg
2. Se toman las mediciones de la cantidad de grasa de la leche en gramos
por cada 100 ml de leche que entra a un proceso de pasteurizacin, a
continuacin se enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61,
16.33, determine el rango o recorrido de la cantidad de grasa de la leche.
Solucin:
VM = 17.61
Vm = 12.76
R = 17.61 12.76 = 4.85gramos
_
Donde:
xi = dato i
_
Pgina 8 de 127
xi x
i 1
Ejemplo:
1. Determine la desviacin absoluta media de los siguientes datos que son
las concentraciones de plomo de algunas muestras, las que a continuacin
se enumeran: 18gr, 12, 21, 19, 16, 20, 22
Solucin:
Para determinar la desviacin absoluta media o promedio, lo primero que
hay que hacer es calcular la media aritmtica de los datos de la muestra, la
que es 128/7 =18.286, luego se procede a calcular el promedio de las
diferencias absolutas entre cada dato y la media calculada.
_
d
_
2.5305 gr
7
7
xi x
i 1
2
S
n 1
Donde n es el nmero de datos en la muestra.
Pgina 9 de 127
Ejemplo:
Los siguientes datos es la cantidad de glucosa en miligramos encontrada en
muestras de sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3,
determine su varianza.
Solucin:
Lo primero que hay que calcular es la media aritmtica de la muestra
como ya se ha hecho anteriormente.
14.86mg
5
5
2
5 1
2
2
0.4356 7.6176 0.5476 10.4976 0.3136 19.412
4.853mg
4
4
Nota:
Dentro de la inferencia estadstica se plantea la deferencia entre una
variancia muestral s2 y una poblacional, representada por 2.
s2
s s
donde:
s2= varianza o variancia
Por tanto la desviacin estndar de la muestra anterior sera;
2
s=
4.853mg 2.2029mg
Pgina 10 de 127
Nmero de clases
5a7
6 a 10
7 a 12
10 a 20
El uso de esta tabla es uno de los criterios que se puede tomar en cuenta para
establecer el nmero de clases en las que se van a agrupar los datos, existen otros
para hacerlo.
c. Determinar la amplitud de clase para agrupar (C).
Rango
k
7.00
6.50
6.70
6.70
6.75
7.00
6.50
6.00
6.50
6.25
6.75
6.25
6.75
6.75
6.25
6.50
6.25
6.00
6.25
7.00
6.50
6.50
6.75
6.65
6.75
7.15
6.65
6.75
6.75
7.00
7.00
7.00
7.10
7.10
7.15
LI
LS Frecuencia Marca
clase
5.97 6.18
6.19 6.40
6.41 6.62
6.63 6.84
6.85 7.06
7.07 7.28
Total
2
5
7
13
7
6
40
b) b) Grficas:
Pgina 12 de 127
6.075
6.295
6.515
6.735
6.955
7.175
HISTOGRAMA
FRECUENCIA
16
13
5.965 - 6.185
11
6
6.185 - 6.405
6.405 - 6.625
6.625 - 6.845
6.845 - 7.065
-4
7.065 - 7.285
LIMITES REALES
FRECUENCIA
POLIGONO DE FRECUENCIA
16
14
12
10
8
6
4
2
0
5.635 5.855 6.075 6.295 6.515 6.735 6.955 7.175 7.395 7.615
MARCA DE CLASE
Pgina 13 de 127
FRECUENCIA RELATIVA
ACUMULADA
0.85
0.8
0.675
0.6
0.4
0.35
0.2
0
0.175
0.05
0
5.965
6.185
6.405
6.625
6.845
7.065
7.285
LIMITES REALES
DISTRIBUCION DE PROBABILIDAD
PROBABILIDAD
0.4
0.325
5.965 - 6.185
0.3
0.175
0.2
0.125
0.1
0.175
6.185 - 6.405
0.15
0.05
6.405 - 6.625
6.625 - 6.845
6.845 - 7.065
7.065 - 7.285
LIMITES REALES
_
a) a) Media ( x ).
k
x * f
i
i 1
40
40
268.52
6.713 pu lg adas
= 40
Donde:
k = nmero de clases
xi = marca de clase i
fi = frecuencia de la clase i
k
n=
f
i 1
Pgina 14 de 127
b) b) Mediana (Xmed).
n / 2 Fme 1
40 / 2 14
A 6.625
( 0.22 ) 6.7265
fme
13
Xmed Li
Donde:
Li = lmite real inferior de la clase que contiene a la mediana
Fme-1 = sumatoria de las frecuencias anteriores a la clase en donde se encuentra la
mediana
fme = frecuencia de la clase en donde se encuentra la mediana
A = amplitud real de la clase en donde se encuentra la mediana
A = LRS-LRI
LRS = lmite real superior de la clase que contiene a la mediana
LRI = lmite real inferior de la clase que contiene a la mediana
N = nmero de datos en la muestra
f) Moda (Xmod).
d1
6
A 6.625
X mod Li
Donde:
Li = lmite real inferior de la clase que contiene a la moda
fmo fmo 1 13 7 6
d1 =
=
fmo fmo 1 13 7 6
d2 =
=
fmo = frecuencia de la clase que contiene a la moda
fmo-1= frecuencia de la clase anterior a la que contiene a la moda
fmo+1= frecuencia de la clase posterior a la que contiene a la moda
A = amplitud real de la clase que contiene a la moda
A = LRS LRI
LRS = lmite real superior de la clase que contiene a la moda
LRI = lmite real inferior de la clase que contiene a la moda
g) Desviacin estndar (S).
k
i 1
fi 1
i 1
Pgina 15 de 127
( xi x ) fi
( xi x ) fi
i 1
n 1
40 1
0.814088 0.87362 ... 1.280664
3.65904
0.3063 pu lg adas
39
39
=
Donde:
xi = marca de clase i
_
x = media aritmtica
fi = frecuencia de la clase i
k
fi n
i 1
e) Problemas Propuestos.
1.Determine la media y la desviacin estndar de las siguientes millas por galn
obtenidas en 20 corridas de prueba realizadas en avenidas urbanas con un automvil
de tamao mediano.
19.7
21.9
22.8
22.0
21.5
20.5
23.2
23.0
22.5
19.3
21.4
21.1
22.2
19.9
20.8
20.9
22.6
21.7
19.4
21.3
15.2
28.3
33.7
29.5
Pgina 16 de 127
35.4
27.1
29.4
21.8
21.3
25.0
21.9
37.5
28.4
32.7
29.3
33.5
26.9
29.5
17.3
29.6
34.6
30.2
29.0
26.8
29.3
23.9
36.8
28.7
24.5
23.0
29.2
34.8
31.0
26.4
23.5
18.6
25.4
36.9
34.1
24.6
27.5
28.9
29.6
24.8
22.2
28.1
22.7
25.4
31.3
34.5
33.2
23.6
37.0
38.4
28.3
24.0
b) 1.5 2 personas
2
0.3456
3
0.1536
4
0.0256
b) 1.8 2 mujeres
Pgina 17 de 127
a)0
computadoras
b)0
computadoras
c)1una
computadora
5. Sea x la variable aleatoria que representa la vida en horas de un cierto
dispositivo electrnico. La funcin de densidad de probabilidad es:
f(x)
20 ,000
x 3 , para x 100 y 0 en cualquier otro caso
f(x)
2( x 2 )
5
0 x 1
r. 8/15
8. La funcin de densidad de la variable aleatoria continua x, el nmero total de
horas en unidades de 100 horas, de que una familia utilice una aspiradora
durante un ao es de;
f(x) = x, para 0 x 1, f(x) = (2 - x) para 1 x 2, 0 en cualquier otro caso.
Encuentre el nmero promedio de horas por ao que la familia utiliza la
aspiradora.
r. 100 horas
Pgina 18 de 127
13. Suponga las probabilidades de 0.4, 0.3, 0.2 y 0.1, respectivamente, de que 0, 1, 2
o 3 fallas de energa elctrica afecten una cierta subdivisin en un ao cualquiera.
Encuentre la media y la desviacin estndar de la variable aleatoria x que
representa el nmero de fallas de energa elctrica que afectan esta subdivisin.
r. = 1 , = 1
14. La variable aleatoria x, que representa el nmero de pedacitos de chocolate en
una rebanada de pastel, tiene la siguiente distribucin de probabilidad:
x
2
p(x) 0.01
3
4
5
0.25 0.4 0.3
6
0.04
Estadstica inferencial
(Licenciatura en Psicologa)
Pgina 19 de 127
Pgina 20 de 127
Prefacio.
El presente ensayo fue elaborado para la acreditacin de la materia Estadstica inferencial,
de la Licenciatura en Psicologa, ante la Universidad Abierta de San Luis Potos, Mxico.
Para la elaboracin del presente ensayo, fue necesario para cumplir con el temario referido
en la gua de estudio de la materia correspondiente, recopilar el material de cuatro
diferentes obras, las cuales se citan en la bibliografa.
Respetando el temario antes citado, el ensayo se elabor en siete captulos, siendo estos los
siguiente:
1.
2.
3.
4.
5.
6.
7.
Debido al uso de smbolos inherentes a esta disciplina, para la correcta presentacin de este
trabajo, es necesario tener instalados las fuentes: Symbol, WP MathA y WP MathB.
Cabe destacar la importancia que tiene esta materia en la licenciatura en psicologa,
encontrndose en ella las bases necesarias para la correcta interpretacin y elaboracin de
material estadstico. El cual es una parte fundamental en los estudios realizados en esta
disciplina.
Pgina i de 127
ndice.
1. Introduccin a la estadstica inferencial.................................................................................
1.1 Introduccin a la estadstica inferencial......................................................................
1.2 Objetivo de la estadstica............................................................................................
1.2.1 Estadstica descriptiva.....................................................................................
1.2.2 Estadstica inferencial.....................................................................................
1.3 Poblacin y muestra....................................................................................................
1.3.1 Poblacin.........................................................................................................
1.3.2 Muestra...........................................................................................................
1.4 Parmetros y estadsticas............................................................................................
1.4.1 Funcin de parmetros y estadstica...............................................................
1.4.2 Uso de estadsticas para estimar parmetros...................................................
1.4.3 Smbolos estndar...........................................................................................
1.5 Muestreo aleatorio simple...........................................................................................
2. Distribuciones muestrales y el teorema central del limite.....................................................
2.1 Concepto de distribucin de muestreo........................................................................
2.1.1 Media..............................................................................................................
2.1.2 Varianza...........................................................................................................
2.1.3 Desviacin tpica o estndar.........................................................................10
2.2 Distribucin muestral de medias...............................................................................10
2.2.1 Muestreo con reemplazamiento....................................................................10
2.2.2 Muestreo sin reemplazamiento.....................................................................12
2.3 El teorema del lmite central.....................................................................................14
2.4 La distribucin t de Student......................................................................................16
2.5 Distribucin Ji cuadrada...........................................................................................20
3. Propiedades de los estimadores y Estimacin puntual........................................................22
3.1 Definicin de estimador............................................................................................22
3.2 Definicin de estimacin..........................................................................................22
3.3 Criterios para seleccionar un buen estimador...........................................................22
3.3.1 Cualidades de un buen estimador.................................................................22
3.3.2 Bsqueda del mejor estimador......................................................................24
3.4 Tipos de estimacin...................................................................................................24
3.4.1 Definicin de estimacin puntual.................................................................24
3.4.2 Desventajas de las estimaciones puntuales...................................................24
3.4.3 Definicin de estimacin de intervalo..........................................................25
3.5 Estimador sesgado e insesgado.................................................................................25
Pgina ii de 127
6. Estadstica no paramtrica...................................................................................................58
6.1 Escalas de medicin..................................................................................................58
6.2 Mtodos estadsticos paramtricos contra no paramtricos......................................59
6.3 Prueba de corridas para aleatoriedad........................................................................59
6.4 Una muestra: Prueba de los signos...........................................................................60
6.5 Una muestra: Prueba de Wilcoxon............................................................................61
6.6 Dos muestras independientes: Prueba de Mann-Whitney........................................62
6.7 Observaciones apareadas: Prueba de los Signos.......................................................63
6.8 Observaciones apareadas: Prueba de Wilcoxon........................................................63
6.9 Varias muestras independientes: Prueba de Kruskal-Wallis.....................................64
7. Muestreo
..............................................................................................................66
7.1 Introduccin..............................................................................................................66
7.2 Muestreo Aleatorio....................................................................................................66
7.3 Diseos de muestras..................................................................................................70
7.4 Muestreo sistemtico................................................................................................71
7.5 Muestreo estratificado...............................................................................................71
7.6 Muestreo por conglomerados....................................................................................74
Conclusiones
..............................................................................................................76
Bibliografa..............................................................................................................................84
Pgina iv de 127
Pgina 5 de 127
Pgina 6 de 127
Pgina 7 de 127
poblacin debe tener igual probabilidad de ser seleccionada. En estas condiciones, se dice que la muestra es aleatoria. La obtencin de
una muestra representativa es uno de los aspectos ms importantes de la teora estadstica. Incluye preguntas como, qu tan grande
debe ser la muestra?, qu tipo de datos deben ser recolectados?, cmo se recogern stos? Estas preguntas sern contestadas ms
adelante. (El nmero de unidades elementales de una muestra se denota con la letra n).
1.4 Parmetros y estadsticas
1.4.1 Funcin de parmetros y estadstica
Matemticamente, podemos describir muestras y poblaciones al emplear mediciones como la media, la mediana, la moda y la
desviacin estndar. Cuando estos trminos describen las caractersticas de una muestra, se denominan estadsticas. Cuando describen
las caractersticas de una poblacin, se llaman parmetros. Una estadstica es una caracterstica de una muestra y un parmetro es una
caracterstica de una poblacin.
1.4.2 Uso de estadsticas para estimar parmetros
Supongamos que la estatura media en centmetros de todos los alumnos de dcimo ao en Estados Unidos es de 152 cm. En este caso,
152 cm es una caracterstica de la poblacin de "todos los alumnos de dcimo ao" y puede llamarse un parmetro de poblacin. Por
otra parte, si decimos que la estatura media en la clase de dcimo ao de la maestra Jones, en Bennetsville, es de 152 cm, estamos
usando 152 cm para describir una caracterstica de la muestra "alumnos de dcimo grado de la maestra Jones". En ese caso, 152 cm
sera una estadstica de muestra. Si estamos convencidos de que la estatura media de los alumnos de dcimo ao de la maestra Jones es
una estimacin exacta de la estatura media de todos los alumnos de dicho nivel de Estados Unidos, podramos usar la estadstica de
muestra "estatura media de los alumnos de dcimo grado de la maestra Jones" para estimar el parmetro de poblacin "estatura media
de los alumnos de dcimo grado de Estados Unidos" sin tener que medir a todos los millones de alumnos de Estados Unidos que estn
en ese grado.
Tabla 1 - Diferencias entre poblaciones y muestras:
Poblacin
Definicin
Pgina 8 de 127
Coleccin
de
Muestra
elementos Parte
porcin
de
la
considerados
Caractersticas
Smbolos
Pgina 9 de 127
2,4
4,4
2,6
4,6
6,2
5,4
6,6
Al sustituir:
2,6
4,6
Cada una de estas muestras tiene 1/3 de probabilidad de ser escogida. Cmo escoger una muestra aleatoria simple? Uno de los
mtodos sencillos consiste en numerar todos los elementos de la poblacin, escribir los nmeros en tarjetas, fichas o bolas, poner luego
en una caja o bolsa estos objetos numerados y mezclarlos completamente. Se determina entonces el tamao n de la muestra y se sacan
los objetos al azar, uno por uno, hasta tener el nmero deseado.
Otro mtodo ms tcnico y confiable consiste en usar tablas de nmeros aleatorios. En la mayor parte de los libros de estadstica
aparece este tipo de tablas; sin embargo, uno mismo puede elaborar las suyas, haciendo uso de una urna con 10 bolas -de ping pong,
por ejemplo- numeradas del 0 al 9; se sacan las bolas con reemplazamiento, se anotan los nmeros que salgan y se forman bloques de
Pgina 10 de 127
nmeros con los dgitos que se desee. El proceso es eminentemente aleatorio, ya que cada dgito tiene la misma probabilidad de salir:
1/10.
Pgina 11 de 127
Pgina 12 de 127
Pgina 13 de 127
Pgina 14 de 127
Tambin habremos de referirnos a la media como el valor esperado de X, y se denotar con E (X).
2.1.2 Varianza ( 2).
Es el promedio de la suma de los cuadrados de las desviaciones. Se entiende por desviacin la diferencia de una media respecto a la
media: Xi - .
Pgina 15 de 127
Como puede verse, la varianza es una medida de dispersin. Indica, en promedio, qu tan alejados estn los datos respecto de la media.
Pgina 16 de 127
Por simplicidad, en las expresiones anteriores se acostumbra suprimir el subndice i, as como los lmites de las sumatorias:
Pgina 17 de 127
f)
Solucin
Tabla 4 Muestras de tamao n = 2 y sus respectivas medias, tomadas de una poblacin de cinco calificaciones; con reemplazo.
b)
Pgina 18 de 127
c)
Cada f en las sumatorias representa la frecuencia con que aparece cada valor Xi.
La serie de medias la transformamos en una distribucin muestral de medas de la siguiente manera.
*Estas frmulas se pueden aplicar cuando todos los eventos son igual mente probables, como es el caso, por tratarse de muestreo
aleatorio simple.
Observacin. Hemos obtenido al 2/x = 1; a fin de relacionar este valor con el de 2, notemos que
Es decir:
Pgina 19 de 127
Tabla 5 Distribucin muestral de medias calculadas en muestras de tamao n = 2 de las calificaciones de cinco estudiantes, y clculo
de la media de las medias y desviacin tpica de la distribucin muestral de medias.
relacin que nos dice que la desviacin tpica o estndar de la distribucin muestral de medias, que llamaremos error estndar de la
distribucin muestral de medias, es directamente proporcional a la desviacin tpica poblacional e inversamente proporcional a la raz
cuadrada del tamao de la muestra. Esta frmula, deducida aqu a partir de un caso particular, resulta ser vlida en general, es de gran
utilidad para la inferencia estadstica. Si aplicamos la frmula del error estndar de la distribucin muestral de medias encontrada para
nuestro ejercicio, tenemos:
f)
Las probabilidades de las 25 medias muestrales se presentan en la ltima columna de la tabla 5. Cuando las 25 muestras se
seleccionan al azar, cada muestra tendr la probabilidad de 1/25 de ser seleccionada. Puesto que hay cuatro muestras con media 5.5,
por ejemplo, y el total de medias es 25, la probabilidad de que una muestra seleccionada tenga media de 5.5 es, entonces, 4/25.
2.2.2 Muestreo sin reemplazamiento
Con la misma poblacin de las calificaciones de cinco estudiantes, vamos a contestar las mismas preguntas:
Pgina 20 de 127
a)
b)
Tabla 6. Muestras de tamao n = 2 y sus respectivas medias tomadas de una poblacin de cinco calificaciones, sin reemplazo.
c)
Tabla 7. Distribucin muestral de medias calculadas en muestras de tamao n = 2 de las calificaciones de cinco estudiantes y clculo
de la media de las medias y desviacin tpica de la distribucin muestral de medias.
Pgina 21 de 127
Obsevacin. El muestreo sin reemplazo genera poblaciones finitas, de tal manera que para calcular la desviacin tpica de la
distribucin muestral de medias, o sea, el error estndar de las medias, en muestreo sin reemplazo, se tiene que introducir el factor de
correccin finita
Pgina 22 de 127
Pgina 23 de 127
para muestras aleatorias de poblaciones infinitas, encontramos que si es la media de una muestra aleatoria de
tamao n de una poblacin infinita con la media y la desviacin estndar y n es grande, entonces
es un valor de una variable aleatoria que tiene aproximadamente la distribucin normal estndar.
El teorema del lmite central es de importancia fundamental para la estadstica porque justifica el uso de mtodos de curva normal en
una gran variedad de problemas; se aplica a poblaciones infinitas y tambin a poblaciones finitas cuando n, a pesar de ser grande, no
constituye ms que una pequea porcin de la poblacin. Es difcil sealar con precisin qu tan grande debe ser n de modo que se
pueda aplicar el teorema del lmite central, pero a menos de que la distribucin de la poblacin tenga una forma muy inusual, por lo
regular se considera que n = 30 es lo suficientemente alto. Ntese que cuando en realidad estamos tomando una muestra de una
poblacin, la distribucin del muestreo de la media es una distribucin normal, no obstante el tamao de n.
Ahora veamos qu probabilidad ocupar el lugar de "como mnimo de 0.75", si usamos el teorema del lmite central en vez del
teorema de Chebyshev en el ejemplo anterior.
Ejemplo base en el teorema del lmite central, cul es la probabilidad de que el error sea menor que 5, cuando se usa la media de una
muestra aleatoria de tamao n = 64 para estimar la media de una poblacin infinita con = 20?
Solucin La probabilidad se obtiene por medio del rea de la zona blanca bajo la curva de la figura 1, especficamente, por medio del
rea de curva normal estndar entre
Pgina 24 de 127
poblacin, . Sin embargo, cuando no conocemos este valor, establecimos que se poda sustituir por la desviacin tpica muestral S,
y el intervalo quedaba as: Z S /n . Ahora, cuando el tamao de la muestra es menor que 30, o sea, para el que llamamos
muestreo pequeo, la sustitucin de por S no es apropiada; en consecuencia, se hace necesario considerar una forma alternativa para
estimar la media poblacional a partir de una muestra pequea.
Pgina 25 de 127
Muchos problemas cientficos han sido resueltos por la va de la experimentacin. Supongamos que se toman todas las muestras
posibles, de tamao n menor que 30, de una determinada poblacin con distribucin normal, y se calcula la estadstica de prueba t para
construir un polgono de frecuencias con los valores calculados y S de cada una de estas muestras y visualizar as la forma de la
distribucin. t se define as:
Donde
= media poblacional.
La distribucin t queda as:
Esta distribucin t fue descubierta por William Gosset, quien la public en 1908 con el seudnimo de Student. Desde entonces se le
conoce como distribucin t de Student. Por la naturaleza de este ensayo, omitimos la explicacin matemtica de esta distribucin. Slo
manejaremos su aplicacin para la estimacin y prueba de hiptesis. Al igual que la distribucin Z, la distribucin t tiene forma
acampanada y perfectamente simtrica con respecto a t = 0, pero con una dispersin mayor, la cual aumenta a medida que disminuye el
tamao de la muestra.
Pgina 26 de 127
Antes de estudiar la distribucin t debemos sealar que no slo existe una, sino varias distribuciones t. Cada una de ellas est asociada
con lo que se denomina grados de libertad (v), que se definen como el nmero de observaciones menos uno; es decir, v = n - 1. En
otras palabras, la forma de la distribucin depender del tamao de la muestra. Por ejemplo, los valores de t para muestras de tamao 4
quedan descritos por la distribucin t con tres grados de libertad (4 - 1 = 3); la distribucin t con 29 grados de libertad describe la
distribucin de los valores t para muestras de tamao 30. En la figura 2 ilustramos dos distribuciones t con tres y 29 grados de libertad
y la distribucin normal:
Pgina 27 de 127
de - 5.84. En consecuencia, 99% del rea bajo t est incluida en el intervalo 5.84; es decir, hay una probabilidad de 0.99 de que la
variable t est en el intervalo [ - 5.84, 5.84].
En forma anloga, el valor 2.76, ubicado en la ltima columna, rotulada t0.005, y el rengln 29, corresponde al valor crtico de la
distribucin t para 29 grados de libertad, e indica que 0.5% del rea bajo esta curva est a la derecha de 2.76 o a la izquierda de - 2.76.
En consecuencia, 0.99 del rea bajo la curva t est incluida en el intervalo 2.76; o sea, hay una probabilidad de 0.99 de que la
variable t est en el intervalo [ - 2.76, 2.76].
Es importante observar que el valor crtico de t ha disminuido al crecer el nmero de grados de libertad. Si el tamao de la muestra
hubiese aumentado en forma infinita, el valor de t tomara el valor de 2.58, que es igual al valor de Z para la curva normal.
De la misma manera podemos interpretar los otros valores de la tabla. Por ejemplo, para una distribucin t con 15 grados de libertad y
un coeficiente de confianza de 0.95, el valor crtico de t se ubica en la
Pgina 28 de 127
Pgina 29 de 127
novena columna (t0.0025) y el rengln 15; o sea, 2.13. En esta misma distribucin, si n tiende a infinito, el valor que tomara t sera
1.96, el cual se encuentra en la columna 9 y ltimo rengln, igual al valor de Z para la curva normal.
Para la distribucin t con 14 grados de libertad, obtenemos en la tabla que 90% del rea bajo esta curva t est en el intervalo 1.76, es
decir, que hay una probabilidad de 0.90 de que la variable t se encuentre en el intervalo
Como
Por tanto, afirmamos que hay una probabilidad de 0.90 de que la media de la poblacin est en este intervalo. As, pues, podemos
decir que cuando el tamao de la muestra es 15(v = n - 1 = 15 - 1 = 14), hay una confianza de 0.90 de que el parmetro est en el
intervalo
Si el tamao de la muestra fuese 10, los grados de libertad seran 9 (10 - 1 = 9) y para un coeficiente de confianza de 80% el intervalo
de confianza para estimar la media poblacional sera:
En general, para estimar la media poblacional , en cualquier intervalo de confianza, utilizamos la relacin
Pgina 30 de 127
Pgina 31 de 127
3. Estimador y estimaciones
3.1 Definicin de estimador
Cualquier estadstica de muestra que se utilice para estimar un parmetro de poblacin se
conoce como estimador, es decir, un
estimador es una estadstica de muestra utilizada para estimar un parmetro de poblacin. La media de la muestra puede ser un
estimado de la media de la poblacin , y la porcin de la muestra se puede utilizar como estimador de la porcin de la poblacin.
Tambin podemos utilizar el alcance de la muestra como un estimador del alcance de la poblacin.
3.2 Definicin de estimacin
Cuando hemos observado un valor numrico especfico de nuestro estimador, nos referimos a ese valor como una estimacin. En otras
palabras, una estimacin es un valor especfico observado de una estadstica. Hacemos una estimacin si tomamos una muestra y
calculamos el valor que toma nuestro estimador en esa muestra. Suponga que calculamos la lectura media de un odmetro
(kilometraje) a partir de una muestra de taxis en sevicio y encontramos que sta es de 160,000 kilmetros. Si utilizamos este valor
especfico para estimar el kilometraje de la flotilla de taxis completa, el valor obtenido de 160,000 kilmetros sera una estimacin. En
la tabla 9 ilustramos varias poblaciones, parmetros de poblacin, estimadores y estimaciones.
3.3 Criterios para seleccionar un buen estimador
3.3.1 Cualidades de un buen estimador
Algunas estadsticas son mejores estimadores que otras. Afortunadamente, podemos evaluar la calidad de una estadstica como
estimador mediante el uso de cuatro criterios:
1 . Imparcialidad. sta es una propiedad deseable para un buen estimador. El trmino imparcialidad se refiere al hecho de que una
media de muestra es un estimador no sesgado de una media de poblacin porque la media de la distribucin de muestreo de las medias
de muestra tomadas de la misma poblacin es igual a la media de la poblacin misma. Podemos decir que una estadstica es un
estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que estn por encima del parmetro de
Pgina 32 de 127
Tabla 9
la poblacin que se est estimando con la misma frecuencia y la misma extensin con la
del parmetro de poblacin que se est estiman.
2. Eficiencia. Otra propiedad deseable de un buen estimador es que sea eficiente. La eficiencia se refiere al tamao del error estndar
de la estadstica. Si comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir cul de ellas es un estimador
ms eficiente, escogeramos la estadstica que tuviera el menor error estndar o la menor desviacin estndar de la distribucin de
muestreo. Suponga que escogemos una muestra de un tamao determinado y debemos decidir si utilizamos o no la media de la muestra
para estimar la media de la poblacin. Si calculamos el error estndar de la media de la muestra y encontramos que es de 1.05 y luego
calculamos el error estndar de la mediana de la muestra y tenemos que ste es de 1.6, diramos que la media de la muestra es un
estimador ms eficiente de la media de la muestra ya que su error estndar es menor. Tiene sentido pensar que un estimador con un
error estndar menor (con menos variacin) tendr una mayor oportunidad de producir una estimacin ms cercana al parmetro de
poblacin que se est considerando.
3. Coherencia. Una estadstica es un estimador coherente de un parmetro de poblacin si al aumentar el tamao de la muestra, se
tiene casi la certeza de que el valor de la estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un estimador es
Pgina 33 de 127
coherente, se vuelve ms confiable si tenemos tamaos de muestra ms grandes. Si usted se pregunta acerca de la posibilidad de
aumentar el tamao de la muestra para obtener ms informacin sobre un parmetro de poblacin, encuentre primero si su estadstica
es un estimador coherente o no. Si no, usted desperdiciar tiempo y dinero al tomar muestras ms grandes.
4. Suficiencia. Un estimador es suficiente si utiliza una cantidad de la informacin contenida en la muestra que ningn otro estimador
podra extraer informacin adicional de la muestra sobre el parmetro de la poblacin que se est estimando.
Presentamos estos criterios con anticipacin para hacerlo consciente del cuidado que los estadsticos deben tener a la hora de escoger
un estimador.
3.3.2 Bsqueda del mejor estimador
Una estadstica de muestra dada no siempre es el mejor estimador de su parmetro de estimadorpoblacin correspondiente. Considere
una poblacin distribuida de manera simtrica, en la que los valores de la mediana y de la media coinciden. En este caso, la media de
la
muestra sera un estimador imparcial de la mediana de la poblacin debido a que asumira valores que en promedio seran
iguales a la mediana de la poblacin. Tambin, la media de la muestra sera un estimador consistente de la mediana de la poblacin
puesto que, conforme aumenta el tamao de la muestra, el valor de la meda de la muestra tender a acercarse bastante a la mediana de
la poblacin. Y la media de la muestra sera un estimador ms eficiente de la mediana de la poblacin que la mediana de la muestra
misma, ya que en muestras grandes, la media de la muestra tiene una desviacin estndar menor que la de la mediana de la muestra. Al
mismo tiempo, la mediana de la muestra de una poblacin distribuida simtricamente sera un estimador imparcial y consistente de la
media de la poblacin, pero no el ms eficiente estimador porque en muestras grandes su error estndar es mayor que el de la media de
la muestra.
3.4 Tipos de estimacin
3.4.1 Definicin de estimacin puntual
Podemos hacer dos tipos de estimaciones concernientes a una poblacin: una estimacin puntual y una estimacin de intervalo. Una
estimacin puntual es un solo nmero que se utiliza para estimar un parmetro de poblacin desconocido. Si, mientras observamos al
primer integrante de un equipo de ftbol americano salir al campo de juego, usted se dice: Anda! Apuesto a que su lnea defensiva
pesar unos 125 kilogramos, usted ha hecho una estimacin puntual. El jefe de departamento de alguna universidad estara haciendo
Pgina 34 de 127
una estimacin puntual si afirmara: "Nuestros datos actuales indican que en esta materia tendremos 350 estudiantes en el siguiente
semestre".
3.4.2 Desventajas de las estimaciones puntuales
Una estimacin puntual a menudo resulta insuficiente, debido a que slo tiene dos opciones: es correcta o est equivocada. Si se nos
dice solamente que la afirmacin del jefe de departamento sobre la inscripcin est equivocada, usted no sabe qu tanto est mal, y no
puede tener la certeza de la confiabilidad de la estimacin. Si usted se entera de que slo est errada por 10 estudiantes, podra aceptar
a 350 estudiantes como una buena estimacin de la inscripcin futura. Pero si est equivocada en 90 estudiantes, podra usted rechazar
la estimacin por poco confiable. En consecuencia, una estimacin puntual es mucho ms til si viene acompaada por una estimacin
del error que podra estar implicado.
3.4.3 Definicin de estimacin de intervalo
Una estimacin de intervalo es un intervalo de valores que se utiliza para estimar de intervalo un parmetro de poblacin. Esta
estimacin indica el error de dos maneras: por la extensin del intervalo y por la probabilidad de obtener el verdadero parmetro de la
poblacin que se encuentra dentro del intervalo. En este caso, el jefe de departamento dira algo como lo siguiente: Estimo que la
inscripcin real de este curso para el prximo semestre estar entre 330 y 380, y es muy probable que la inscripcin exacta caiga
dentro de este intervalo. Tiene una mejor idea de la confiabilidad de su estimacin. Si el curso se imparte en grupos de 100 estudiantes
cada uno y si, tentativamente, ha programado cinco cursos, entonces, basndose en su estimacin, puede cancelar uno de tales grupos y
dejarlo como optativo.
3.5 Estimador sesgado e insesgado.
Un estimador puntual es el valor numrico de una estadstica muestral empleado para estimar el valor de un parmetro de la poblacin
o proceso. Una de las caractersticas ms importantes de un estimador es que sea insesgado. Un estimador insesgado es una estadstica
muestral cuyo valor esperado es igual al parmetro por estimar. Un valor esperado es el promedio a largo plazo de la estadstica
muestral. La eliminacin de todo sesgo sistemtico est asegurada cuando la estadstica muestral corresponde a una muestra aleatoria
tomada de una poblacin o a un subgrupo racional tomado de un proceso. Ambos mtodos de muestreo garantizan que la muestra sea
insesgada, aunque no eliminan la variabilidad del muestreo, o error de muestreo, como se explicar en la siguiente seccin.
Pgina 35 de 127
En la tabla 10 se presentan algunos de los estimadores puntuales de parmetros de la poblacin de uso ms frecuente. En todos los
casos, el estimador apropiado de un parmetro de la poblacin es sencillamente la estadstica muestral correspondiente.
Tabla 10
Pgina 36 de 127
Cuando se conocen las desviaciones estndar de las dos poblaciones, el error estndar de la diferencia entre medias es
Cuando se desconocen las desviaciones estndar de las poblaciones, el error estndar estimado de la diferencia entre medias dado el
uso apropiado de la distribucin normal es
Los valores de los errores estndar de las respectivas medias incluidos en estas frmulas se calculan con las frmulas dadas, incluida la
posibilidad de usar factores de correccin por finitud cuando corresponda
Ejemplo. El salario medio semanal de una muestra de n = 30 empleados de una gran empresa manufacturera es, = $280.00, con una
desviacin estndar muestral de s = $14.00. En otra gran empresa, una muestra aleatoria de n = 40 empleados por hora tiene un salario
medio semanal de $270.00, con una desviacin estndar muestral de s = $10.00. El intervalo de confianza de 99% para la estimacin
de la diferencia entre los niveles salariales medios semanales de las dos empresas es
Pgina 37 de 127
donde
As, podemos afirmar que el salario promedio semanal de la primera empresa es mayor que el promedio de la segunda Empresa por un
monto de entre $2.23 y $17.77, con una confianza de 99% en esta estimacin por intervalo. Advirtase que los - tamaos de las
muestras son suficientemente grandes para permitir el uso de Z para aproximar el valor t.
Adems del intervalo de confianza de dos extremos, tambin puede elaborarse un intervalo de confianza de un extremo -ara la
diferencia entre medias.
4.2 Distribucin t e intervalos de confianza para la diferencia entre dos medias
El uso de la distribucin t en conjuncin con una muestra es necesario cuando
1 ) Se desconocen las desviaciones estndar a de la poblacin.
2) Las muestras son pequeas (n < 30). Si las muestras son grandes, los valores t pueden ser aproximados por la normal estndar z.
Pgina 38 de 127
3) Se supone que las poblaciones tienen una distribucin aproximadamente normal (recuerde que el teorema central del lmite no
puede aplicarse en muestras pequeas).
Adems de lo anterior, cuando se usa la distribucin t para definir intervalos de confianza para la diferencia entre dos medias, no para
inferencias sobre slo una media poblacional, por lo general se requiere del siguiente supuesto adicional:
4) Las dos varianzas poblacionales (desconocidas) son iguales, a 21 = 22
A causa del anterior supuesto de igualdad, el primer paso para determinar el error estndar de la diferencia entre medias cuando
procede el uso de la distribucin t es combinar las dos varianzas muestrales:
El error estndar de la diferencia entre muestras basado en el uso de la varianza combinada estimada 2 es
Nota: En cierto software de cmputo no se requiere el supuesto de que las dos varianzas de la poblacin sean iguales. Se determina en
cambio un valor corregido para los grados de libertad, lo que resulta en menos g1, y esto a su vez en un valor de t ligeramente mayor y
en un intervalo de confianza ligeramente ms amplio.
EJEMPL02. En relacin con una muestra aleatoria de n1,= 10 focos, el ciclo medio de vida de los focos es 1 = 4 600 horas, con s1, =
250 hr. El ciclo medio de vida y la desviacin estndar de una muestra de n2 = 8 focos de otra marca son 2 = 4 000 hr Y S2 = 200 Hr.
Se supone que el ciclo de vida de ambas marcas tiene una distribucin normal. El intervalo de confianza de 90% para estimar la
diferencia entre el ciclo medio de vida til de las dos marcas de focos es
Pgina 39 de 127
As, podemos afirmar con una confianza de 90% que la primera marca de focos tiene una vida media superior a la de la segunda marca
en un monto de entre 410 y 790 hr.
Obsrvese que en el caso de dos muestras es posible que stas sean pequeas (n < 30) y que aun as sea factible utilizar la distribucin
normal para aproximar t, porque gl :29. Sin embargo, en este caso se debe partir del supuesto de que las dos poblaciones siguen una
distribucin aproximadamente normal, dado que es imposible apelar al teorema central del lmite respecto de una muestra pequea.
Pgina 40 de 127
En el contexto de la estimacin estadstica, la p (o ) de la poblacin se desconoce, porque es justamente el valor por estimar. Si la
poblacin es por finitud, procede el uso del factor de correccin por finitud. Como en el caso del error estndar de la media, por lo
general se considera innecesario el uso de esta correccin si n < 0.05 N.
El intervalo de confianza aproximado para una proporcin poblacional es
Adems del intervalo de confianza de dos extremos, tambin puede determinarse un intervalo de confianza de un extremo para la
proporcin poblacional.
Ejemplo. Una empresa de investigacin de mercado contacta a una muestra aleatoria de 100 varones en una comunidad extensa y
determina que una proporcin muestral de 0.40 prefiere las navajas de afeitar fabricadas por el cliente de esa empresa sobre todas las
dems marcas. El intervalo de confianza de 95% para la proporcin de todos los varones de la comunidad que prefieren las navajas de
afeitar del cliente de la empresa se determina de la siguiente manera:
Pgina 41 de 127
Por lo tanto, con una confianza de 95% estimamos la proporcin de todos los varones de la comunidad que prefieren las navajas del
cliente de la empresa con un valor entre 0.30 y 0.50.
4.4 Determinacin del tamao de muestra requerido para la estimacin de la proporcin
Antes de recolectada una muestra, el tamao de muestra mnimo requerido puede determinarse especificando el nivel de confianza
requerido y el error de muestreo aceptable y haciendo una estimacin inicial (subjetiva) de , la proporcin poblacional desconocida:
z es el valor usado para el intervalo de confianza especificado, es la estimacin inicial de la proporcin poblacional y E es el error de
muestreo "de ms o de menos" permitido en el intervalo (siempre la mitad del intervalo de confianza completo).
Si no es posible determinar un estimado inicial de , se le deber estimar en 0.50. Esta estimacin es conservadora en tanto que
representa el valor para el que se requerira del tamao de muestra mayor. Con base en este supuesto, la frmula general para el tamao
de muestra se simplifica en esta forma:
[Nota: Cuando se busca determinar el tamao de muestra, todo resultado fraccionario se redondea siempre al valor inmediato superior.
Adems, todo tamao de muestra calculado por debajo de 100 se debe incrementar a 100, porque las frmulas se basan en el uso de la
distribucin normal.]
Pgina 42 de 127
Ejemplo. En referencia al estudio mencionado en el ejemplo anterior, supongamos que con anterioridad ala recoleccin de los datos se
especific que la estimacin del intervalo de 95% deba tener un margen de error inferior a 0.05 y que no se hizo juicio preliminar
alguno sobre el probable valor de . El tamao de muestra mnimo por recolectar es
Aparte de estimar la proporcin de la poblacin, tambin puede estimarse el nmero total en una categora de la poblacin.
4.5 Intervalos de confianza para la diferencia entre dos proporciones
Para estimar la diferencia entre las proporciones de dos poblaciones, el estimador puntual insesgado de (1 - 2 ) es (p1 p2). El
intervalo de confianza implica el uso del error estndar de la diferencia entre proporciones. El uso de la distribucin normal se basa en
las mismas condiciones que las expuestas en relacin con la distribucin de muestreo de la proporcin, salvo que este caso involucra a
dos muestras y los requerimientos se aplican a cada una de ellas. El intervalo de confianza para la estimacin de la diferencia entre dos
proporciones poblacionales es
El error estndar de la diferencia entre proporciones se determina por medio de la frmula, en la que el valor de cada respectivo error
estndar de la proporcin se calcula tal como se describi:
Ejemplo. Como se indic que una proporcin de 0.40 varones de una muestra aleatoria de 100 de una comunidad extensa prefiri las
navajas de afeitar del cliente de la empresa sobre todas las dems. En otra comunidad extensa, 60 varones de una muestra aleatoria de
200 prefieren las navajas del cliente de la empresa. El intervalo de confianza de 90% para la diferencia en la proporcin de varones de
las dos comunidades que prefieren las navajas del cliente de la empresa es
Pgina 43 de 127
Dado que la varianza muestral es el estimador insesgado de la varianza poblacional, el valor esperado a largo plazo de la razn anterior
es igual a los grados de libertad, o n - 1. Sin embargo, en cualquier muestra dada por lo general la varianza muestral no es idntica en
valor a la varianza poblacional. Puesto que se sabe que la razn anterior sigue una distribucin ji cuadrada, esta distribucin de
probabilidad puede servir para la realizacin de inferencias estadsticas sobre una varianza o desviacin estndar desconocida.
Las distribuciones ji cuadrada no son simtricas. En consecuencia, un intervalo de confianza de dos extremos para una varianza o
desviacin estndar implica el uso de dos valores diferentes de X2, no del mtodo "de ms o de menos" utilizado en los intervalos de
Pgina 44 de 127
confianza basados en las distribuciones normal y t. La frmula para la elaboracin de un intervalo de confianza para la varianza de la
poblacin es
En la anterior frmula general, los subndices "superior" e "inferior" identifican los puntos percentiles de la distribucin X2 particular
por usar en la elaboracin del intervalo de confianza. Por ejemplo, para un intervalo de confianza de 90% el punto superior es X20.95 y
el punto inferior X20.05 . Al excluir el 5% mayor y el 5% menor de la distribucin ji cuadrada, lo que resta es el 90% "central".
Ejemplo. El salario medio semanal de una muestra de 30 empleados por horade una gran empresa es = $280.00, con una desviacin
estndar muestral de s = $14.00. Se supone que los montos salariales semanales de la empresa tienen una distribucin
aproximadamente normal. El intervalo de confianza de 95% para estimar la desviacin estndar de los salarios semanales de la
poblacin es
En relacin con el ejemplo anterior, represe en el hecho de que, dado que los encabezados son probabilidades de la cola derecha ms
que valores percentiles, los encabezados de columnas que aparecen en la tabla se refieren a los valores complementarios de los valores
percentiles superior e inferior requeridos.
Pgina 45 de 127
Como alternativa a un intervalo de confianza de dos extremos, tambin puede determinarse un intervalo de confianza de un extremo
para la varianza o desviacin estndar.
Pgina 46 de 127
Pgina 47 de 127
La hiptesis alternativa (H1) se acepta slo si la hiptesis nula es rechazada. En muchos libros de texto la hiptesis alternativa tambin
se designa como Ha.
Ejemplo Un auditor desea probar el supuesto de que el valor medio de la totalidad de las cuentas por cobrar de una empresa dada es de
$260.00 tomando una muestra de n = 36 y calculando la media muestral. El auditor desea rechazar el valor supuesto de $260.00 slo si
es claramente contradicho por la media muestral, caso ste en el que el valor hipottico recibira el beneficio de la duda en el
procedimiento de prueba. Las hiptesis nula y alternativa de esta prueba son H0 : = $260.00 y H1 : $260.00.
Paso 2. Especifique el nivel de significancia por aplicar. El nivel de significancia es el estndar estadstico que se especifica para
rechazar la hiptesis nula. Si se especifica un nivel de significancia de 5%, la hiptesis nula se rechaza slo si el resultado muestral es
tan diferente del valor hipottico que una diferencia por ese monto o un monto superior ocurrira al azar con una probabilidad de 0.05 o
menos.
Ntese que si se usa el nivel de significancia de 5%, hay una probabilidad de 0.05 de rechazar la hiptesis nula aun siendo
efectivamente cierta. Esto se llama error tipo I La probabilidad del error tipo I siempre es igual al nivel de significancia empleado
como estndar para rechazar la hiptesis nula; se le designa con la letra griega minscula (alfa), de modo que a designa tambin al
nivel de significancia. Los niveles de significancia de uso ms frecuente en la prueba de hiptesis son los de 5% y 1%.
Ocurre un error tipo II si la hiptesis nula no se rechaza, y es por lo tanto aceptada, cuando en realidad es falsa. La determinacin de la
probabilidad del error tipo II se explica. En la tabla correspondiente se resumen los tipos de decisiones y las posibles consecuencias de
las decisiones tomadas en pruebas de hiptesis.
Paso 3. Seleccione la estadstica de prueba. La estadstica de prueba ser ya sea la estadstica muestral (el estimador insesgado del
parmetro a prueba) o una versin estandarizada de la estadstica muestral. Por ejemplo, para probar un valor hipottico de la media
poblacional, la media de una muestra aleatoria tomada de esa poblacin podra servir como la estadstica de prueba. Sin embargo, si la
distribucin de muestreo de la media es normal, el valor de la media muestral se convierte usualmente en un valor z, el cual funge
entonces como la estadstica de prueba.
Paso 4. Establezca el valor o valores crticos de la estadstica de prueba. Habiendo especificado la hiptesis nula, el nivel de
significancia y la estadstica de prueba por usar, se establece entonces el(los) valor(es) crtico(s) de la estadstica de prueba. Estos
valores pueden ser uno o dos, dependiendo de si estn implicadas las as llamadas pruebas unilaterales o bilaterales. En cualquier caso,
un valor crtico identifica el valor de la estadstica de prueba requerido para rechazar la hiptesis nula.
Pgina 48 de 127
Paso 5. Determine el valor de la estadstica de prueba. Por ejemplo, al probar un valor hipottico de la media poblacional, se recolecta
una muestra aleatoria y se determina el valor de la media muestral. Si el valor crtico fue establecido como un valor z, la media
muestral se convierte a un valor z.
Paso 6. Tome la decisin. El valor observado de la estadstica muestral se compara con el valor (o valores) crtico(s) de la estadstica
de prueba. Se rechaza o no entonces la hiptesis nula. Si la hiptesis nula es rechazada, se acepta la hiptesis alternativa. Esta decisin
tendr relevancia a su vez para otras decisiones por tomar por los gerentes de operacin, como la de si se est sosteniendo o no cierto
estndar de desempeo o cul de dos estrategias de comercializacin seguir.
5.3 Prueba de una hiptesis referente a la media usando la distribucin normal
La distribucin normal de probabilidad puede usarse para probar un valor hipottico de la media de la poblacin 1) si n 30, por
efecto del teorema central del lmite, o 2) cuando n < 30 pero la poblacin tiene una distribucin normal y a es conocida.
Una prueba bilateral se aplica cuando nos interesa una posible desviacin en cualquier direccin respecto del valor hipottico de la
media. La frmula que se emplea para establecer los valores crticos de la media muestral es similar a la frmula para determinar los
lmites de confianza para la estimacin de la media de la poblacin, excepto que el valor hipottico de la media poblacional es en
este caso el punto de referencia, en lugar de la media muestral. Los valores crticos de la media muestral para una prueba de dos
extremos, de acuerdo con el hecho de si se conoce o no, son
Ejemplo. En relacin con la hiptesis nula formulada en el ejemplo anterior, determine los valores crticos de la media muestral para
probar la hiptesis al nivel de significancia del 5%. Dado que se sabe que la desviacin estndar de los montos de las cuentas por
cobrar es = $43.00, los valores crticos son
Hiptesis: H0 := $260.00; Hi, : $260.00
Nivel de significancia: = 0.05
Pgina 49 de 127
En consecuencia, para rechazar la hiptesis nula la media muestral debe tener un valor inferior a $245.95 o superior a $274.05. As, en
el caso de una prueba de dos extremos existen dos regiones de rechazo. Los valores z de 1.96 sirven para establecer los lmites
crticos, dado que, por efecto de la distribucin normal estndar, una proporcin de 0.05 del rea permanece en las dos colas, lo que
corresponde a la = 0.05 especificada.
Fig. 4
En lugar de establecer los valores crticos en trminos de la media muestral, en la prueba de hiptesis los valores crticos suelen
especificarse en trminos de valores z. Para el nivel de significancia del 5% los valores crticos de z para una prueba de dos extremos
son -1.96 y + 1 .96, por ejemplo. Una vez determinado el valor de la media muestral, se le convierte a un valor z para que pueda
comparrsele con los valores crticos de z. La frmula de conversin, segn si ores conocida o no, es
Pgina 50 de 127
Ejemplo. En referencia al problema de prueba de hiptesis de los dos ejemplos anteriores, supongamos que la media muestral es =
$240.00. Determinamos si la hiptesis nula debe rechazarse convirtiendo esta media a un valor z y comparndolo con los valores
crticos de 1.96, en esta forma:
Este valor de z se halla en la regin de rechazo de la cola izquierda del modelo de prueba de hiptesis que aparece en la figura 5. De
este modo, la hiptesis nula es rechazada, y la alternativa, de que $260.00, aceptada. Advirtase que en el ejemplo se habra
llegado a la misma conclusin comparando la media muestral = $240.00 con los lmites crticos para la media identificados en la
figura 4.
Fig. 5
Una prueba unilateral resulta apropiada cuando nos interesan posibles desviaciones slo en una direccin respecto del valor hipottico
de la media. Podra ocurrir que al auditor del ejemplo no le interesara que el promedio real de la totalidad de las cuentas por cobrar
exceda de $260.00, sino slo que pudiera ser inferior a $260.00. As, si el auditor le concede el beneficio de la duda al supuesto
establecido de que la media real es de al menos $260.00, las hiptesis nula y alternativa son
Pgina 51 de 127
Nota: En muchos libros de texto, la hiptesis nula anterior se enunciara como HO : $260.00. Por nuestra parte, hemos incluido
nicamente el signo de igual porque, incluso en una prueba de un extremo, el procedimiento se realiza en relacin con este valor en
particular. Para decirlo de otra manera, es la hiptesis alternativa la que es unilateral.
En una prueba unilateral slo existe una regin de rechazo, de modo que la prueba del ejemplo anterior es una prueba de la cola
inferior. La regin de rechazo de una prueba unilateral se encuentra siempre en la cola que representa el sustento de la hiptesis
alternativa. Como en el caso de una prueba bilateral, el valor crtico puede determinarse para la media como tal o en trminos de un
valor z. Sin embargo, los valores crticos para pruebas unilaterales se diferencian de aquellos para pruebas bilaterales, porque la
proporcin de rea dada se halla en su totalidad en una de las colas de la distribucin. En la tabla 11 se presentan los valores de z
necesarios para pruebas unilaterales y bilaterales. La frmula general para establecer el valor crtico de la media muestral para una
prueba unilateral, segn si a se conoce o no, es
Obsrvese en las frmulas inmediatamente anteriores, que z puede ser negativa, lo que resulta en una sustraccin del segundo trmino
de cada frmula.
Pgina 52 de 127
En esta seccin consideraremos los errores tipo I y tipo II en relacin estrictamente con pruebas unilaterales de una media hipottica.
Sin embargo, los conceptos bsicos aqu ilustrados se aplican tambin a otros modelos de pruebas de hiptesis.
La probabilidad mxima del error tipo I siempre es igual al nivel de significancia empleado en la prueba de la hiptesis nula. Esto es
as a causa de que, por definicin, la proporcin de rea en la regin de rechazo es igual a la proporcin de los resultados muestrales
que ocurriran en esa regin en caso de que la hiptesis nula sea cierta.
La probabilidad del error tipo II suele indicarse con la letra griega (beta). La nica manera en que se te puede determinar es respecto
de un valor especiffico incluido en el rango de la hiptesis alternativa.
Ejemplo. La hiptesis nula es que la media de la totalidad de las cuentas por cobrar es de $260.00 y la hiptesis alternativa que la
media es inferior a esta cantidad, prueba que habr de realizarse al nivel de significancia de 5%. Adems, el auditor indica que una
media de $240.00 (o menos) sera considerada una diferencia material importante con el valor hipottico de $260.00. Como en el caso
anterior, = $43.00 y el tamao de muestra es n = 36 cuentas. La determinacin de la probabilidad del error tipo II implica que
1) formulemos las hiptesis nula y alternativa para esta situacin de prueba,
2) determinemos el valor crtico de la media muestral por emplearen la prueba de la hiptesis nula al nivel de significancia de 5%,
3) identifiquemos la probabilidad de error tipo I asociada con el uso del valor crtico calculado en el paso anterior como base para la
regla de decisin,
4) determinemos la probabilidad de error tipo II asociada con la regla de decisin dado el valor medio alternativo especfico de
$240.00.
La solucin completa es
Pgina 53 de 127
3)
La probabilidad mxima de error tipo 1 es igual a 0.05 (el nivel de significancia usado en la prueba de la hiptesis nula).
4)
La probabilidad de error tipo II es la probabilidad de que la media de la muestra aleatoria sea igual o mayor de $248.21, dado
que la media de la totalidad de las cuentas en realidad $240.00.
En la figura 6 se ilustra el mtodo seguido en el ultimo ejemplo. En general, el valor crtico de la media determinado en relacin con la
hiptesis nula se "reduce" y se emplea como el valor crtico en relacin con la hiptesis alternativa especfica. El problema ilustra la
determinacin de la probabilidad del error tipo II en una prueba bilateral.
Pgina 54 de 127
Fig. 6
Cuando el nivel de significancia y el tamao de muestra se mantienen constantes, la probabilidad del error tipo II disminuye a medida
que el valor alternativo especfico de la media se aleja del valor de la hiptesis nula y aumenta a medida que el valor alternativo se
acerca al valor de la hiptesis nula. Una curva caracterstica operativa (C0) describe grficamente la probabilidad de aceptar la
hiptesis nula dados diversos valores alternativos de la media de la poblacin. La figura es la curva CO aplicable a cualquier prueba de
cola inferior de una media hipottica al nivel de significancia de 5% basada en el uso de la distribucin normal de probabilidad. Ntese
que es aplicable a cualquier prueba de este tipo, porque los valores del eje horizontal han sido enunciados en unidades del error
estndar de la media. Para cualesquiera valores a la izquierda de la probabilidad de aceptacin indica la probabilidad del error tipo
II. A la derecha de , las probabilidades indican la aceptacin correcta de la hiptesis nula. Tal como lo indican las lneas punteadas,
cuando =, la probabilidad de aceptar la hiptesis nula es 1- o, en este caso, 1 - 0.05 = 0.95.
Pgina 55 de 127
Fig. 7
5.5 Determinacin del tamao de muestra requerido para probar la media
Antes de la efectiva recoleccin de una muestra, el tamao de muestra requerido puede determinarse especificando 1) el valor
hipottico de la media, 2) un valor alternativo especfico de la media tal que la diferencia con el valor hipottico nulo se considere
importante, 3) el nivel de significancia por emplear en la prueba, 4) la probabilidad del error tipo II que habr de permitirse y 5) el
valor de la desviacin estndar de la poblacin .
La frmula para determinar el tamao de muestra mnimo requerido en conjuncin con la prueba de un valor hipottico de la media,
con base en el uso de la distribucin normal, es
z0 es el valor crtico de z usado en conjuncin con el nivel de significancia especificado (nivel de ), mientras que z1 es el valor de z
respecto de la probabilidad del error tipo II asignada (nivel de ). El valor de debe conocerse o estimarse. La ultima frmula puede
Pgina 56 de 127
emplearse lo mismo para pruebas unilaterales que bilaterales. El nico valor que difiere en estos dos tipos de pruebas es el valor de z0
utilizado.
[Nota: Cuando se busca determinar el tamao de muestra mnimo, todo resultado fraccionario se redondea siempre al valor inmediato
superior. Adems, a menos que sea conocida y la poblacin tenga una distribucin normal, todo tamao de muestra calculado por
debajo de 30 debe aumentar a 30, basado en el uso de la distribucin normal.]
5.6 Prueba de una hiptesis referente a la media usando la distribucin t
La distribucin t es la base adecuada para la determinacin de la estadstica de prueba estandarizada cuando la distribucin de
muestreo de la media tiene una distribucin normal pero es desconocida. Puede suponerse que la distribucin de muestreo es normal
ya sea porque la poblacin es normal o porque la muestra es suficientemente grande para apelar al teorema central del lmite. Se
requiere de la distribucin t cuando la muestra es pequea (n < 30). Para muestras ms grandes puede usarse la aproximacin normal.
En cuanto al mtodo del valor crtico, el procedimiento es idntico al descrito anteriormente para la distribucin normal, excepto por el
uso de t en lugar de z como la estadstica de prueba. La estadstica de prueba es
Ejemplo. La hiptesis nula de que el ciclo medio de vida til de los focos de cierta marca es de 4 200 horas se formula contra la
alternativa de que es menor. El cielo medio de vida til de una muestra aleatoria de n = 10 focos es = 4 000 hr, con una desviacin
estndar muestral de s = 200 hr. Se supone que, en general, el ciclo de vida til de los focos sigue una distribucin normal. Probamos
la hiptesis nula al nivel de significancia de 5% de la siguiente manera:
Dado que -3.16 se halla en la regin de rechazo de la cola izquierda (a la izquierda de] valor crtico -1.833), la hiptesis nula es
rechazada y la hiptesis alternativa, de que el ciclo medio de vida til real es menor de 4 200 hr, aceptada.
Pgina 57 de 127
5.7 Mtodo del valor P para pruebas de hiptesis referentes a la media de la poblacin
La probabilidad de que ocurra el resultado muestral observado, dado que la hiptesis nula es cierta, se determina por medio del mtodo
del valor P, probabilidad que se compara despus con el nivel de significancia a asignado. En consonancia con el mtodo del valor
crtico que describimos en las secciones anteriores, la idea es que un valor P bajo indica que es poco probable que la muestra ocurra
cuando la hiptesis nula es cierta; por lo tanto, la obtencin de un valor P bajo conduce al rechazo de la hiptesis nula. Advirtase que
el valor P no es la probabilidad de que la hiptesis nula sea cierta dado el resultado muestral. Es, en cambio, la probabilidad del
resultado muestral dado que la hiptesis nula es cierta.
Ejemplo. Remtase al ejemplo anterior, en el que H0 := $260.00, H1 : < $260.00, = 0.05 y = $240.00. Puesto que en esta prueba
unilateral la media muestral se halla en la direccin de la hiptesis alternativa, determinamos la probabilidad de que una media
muestral tenga un valor tan pequeo como ste o an menor:
En la figura 8 se describe grficamente el rea de la cola izquierda para la que se ha determinado la probabilidad. Dado que el valor P
de 0.0026 es menor que el nivel de significancia asignado de = 0.05, se rechaza la hiptesis nula.
Pgina 58 de 127
Fig. 8
En pruebas bilaterales, se determina el valor P de la cola ms pequea de la distribucin, tras de lo cual se le duplica. El valor
resultante indica la probabilidad del monto de diferencia observado en cualquier direccin entre los valores de la media muestral y la
media poblacional hipottica.
El mtodo del valor P debe su difusin al hecho de que el formato estndar de los resultados en computadora de pruebas de hiptesis
incluye valores P. El lector de los resultados determina si se rechaza una hiptesis nula comparando el valor P reportado con el nivel de
significancia deseado.
Cuando se requiere de clculos manuales de probabilidades basadas en el uso de la distribucin t es imposible determinar un valor P
exacto, a causa de las limitaciones de la tabla estndar. En cambio, el uso de software de cmputo no implica ninguna limitacin de
esta clase.
5.8 Mtodo de intervalos de confianza para pruebas de hiptesis referentes a la media
De acuerdo con este mtodo se elabora un intervalo de confianza para la media de la poblacin con base en los resultados muestrales,
tras de lo cual observamos si el valor hipottico de la media poblacional est incluido en el intervalo de confianza. Si el valor
Pgina 59 de 127
hipottico est incluido en el intervalo, la hiptesis nula no puede ser rechazada. Si el valor hipottico no est incluido en el intervalo,
la hiptesis nula se rechaza. Cuando a es el nivel de significancia por utilizar en la prueba, se elabora el intervalo de confianza 1 - .
Ejemplo. Remtase al ejemplo anterior, en el que H0 : = $260.00, H1, : $260.00, = 0.05, = $240.00 y = 7.17. Podemos
probar la hiptesis nula al nivel de significancia de 5% elaborando el intervalo de confianza de 95%:
Dado que el valor hipottico de $260.00 no est incluido en el intervalo de confianza de 95%, la hiptesis nula se rechaza al nivel de
significancia de 5%.
Para una prueba de una cola lo apropiado es un intervalo de confianza unilateral. Sin embargo, un mtodo ms simple consiste en
determinar un intervalo bilateral, pero al nivel de confianza que incluira el rea deseada en la cola de inters. Especficamente, para
una prueba unilateral con = 0.05 lo apropiado es el intervalo de confianza bilateral de 90%, porque este intervalo incluye el rea de
0.05 en la cola de inters.
El mtodo de intervalos de confianza es favorecido en libros de texto que enfatizan el llamado mtodo de anlisis de datos para la
estadstica aplicada a la administracin y la economa. En el rea de la estadstica descriptiva, el mtodo de anlisis de datos concede
especial atencin al anlisis exploratorio de datos. En el rea de la inferencia estadstica, la filosofa del mtodo de anlisis de datos es
que a los administradores les interesan ms la estimacin y los intervalos de confianza referentes a parmetros desconocidos (como el
incierto nivel de ventas de un nuevo producto) que los conceptos de las pruebas de hiptesis.
5.9 Pruebas respecto de la media del proceso en el control estadstico de procesos
El uso e interpretacin de grficas de control en el control estadstico de procesos es una aplicacin directa de los mtodos y conceptos
de la prueba de hiptesis. La hiptesis nula es que el proceso es estable y que slo existen causas comunes de variacin. La hiptesis
alternativa es que el proceso es inestable e incluye variacin por causas atribuibles. El mtodo que se emplea para la prueba de
hiptesis es el mtodo del valor crtico, sobre la norma de que los lmites de control inferior y superior (iguales a los "valores crticos"
del presente captulo) se definen en 3 unidades de error estndar respecto de la media hipottica del proceso.
Pgina 60 de 127
Ejemplo. Se presenta una secuencia de pesos medios para muestras de n = 4 paquetes de papas fritas tomadas en un proceso de
empacamiento. Supongamos que las especificaciones del proceso demandan un peso medio de = 15.0 onzas. Podra inducir la
pregunta de si esta norma se mantiene a lo largo de todo el proceso, y particularmente en las muestras #8 y #9. En los problemas
anteriores observaremos que estas dos medias muestrales se hallan ms all del lmite de control inferior y que es poco probable que
hayan ocurrido debido simplemente a variacin por causas comunes. En consecuencia, rechazaremos la hiptesis nula de que la media
del proceso en el periodo ha sido de 15.0 y concluiremos que existen slidas evidencias de variacin por causas atribuibles respecto de
la media del proceso.
5.10 Tabla de resumen de la prueba de un valor hipottico de la medida
Tabla 12 Prueba de un valor hipottico de la media
Pgina 61 de 127
Como se deduce, podemos comenzar con cualquier diferencia hipottica particular, (12)0, por probar. Sin embargo, la hiptesis
nula usual es que las dos muestras se han obtenido de poblaciones con medias iguales. En este caso, (12)0 = 0, de modo que las
frmulas anteriores se simplifican de la siguiente manera:
En general, el error estndar de la diferencia entre medias se calcula tal como se describi. No obstante, al probar la diferencia entre
dos medias por lo general la hiptesis nula de inters no es slo que las medias muestrales se obtuvieron de poblaciones con medias
iguales, sino tambin que, en realidad, las dos muestras se obtuvieron de la misma poblacin de valores. Esto significa que 1 2, lo
que podemos designar sencillamente como . La supuesta varianza comn suele estimarse mediante la combinacin de las dos
varianzas muestrales, tras de lo cual el valor estimado de 2 sirve como base para el error estndar de la diferencia. La estimacin
combinada de la varianza de la poblacin es
Pgina 62 de 127
El error estndar estimado de la diferencia basado en el supuesto de que las desviaciones estndar (y las varianzas) de la poblacin son
iguales es
El supuesto mismo de que las dos varianzas muestrales se obtuvieron de poblaciones con varianzas iguales puede probarse como la
hiptesis nula. Las pruebas referentes a la diferencia entre medias pueden ser bilaterales o unilaterales, como se ilustra en los
siguientes ejemplos.
Ejemplo. El salario medio semanal de una muestra de n1 = 30 empleados de una gran empresa manufacturera es 1, = $280.00, con una
desviacin estndar muestral de s1, = $14.00. En otra gran empresa, una muestra aleatoria de n2 = 40 empleados tiene un salario medio
de 2 = $270.00, con una desviacin estndar de S2 = $10.00. No se supone que las desviaciones estndar de las dos poblaciones de
montos salariales son iguales. Probamos la hiptesis de que no existe diferencia entre los montos salariales semanales medios de las
dos empresas, con un nivel de significancia del 5%, de la siguiente manera:
Pgina 63 de 127
La z calculada de +3.32 se encuentra en la regin de rechazo del modelo de prueba de hiptesis que aparece en la figura 9. En
consecuencia, la hiptesis nula se rechaza, y la hiptesis alternativa, de que el salario semanal promedio de las dos empresas es
diferente, se acepta.
Fig 9
5.12 Prueba de la diferencia entre medias usando la distribucin t
Cuando la diferencia entre dos medias se prueba con el uso de la distribucin t, un supuesto necesario en el procedimiento estndar
seguido en la mayora de los libros de texto es que las varianzas de las dos poblaciones son iguales. En consecuencia, en una prueba de
este tipo el error estndar estimado de la media se calcula con base en las formulas antes descritas.
Ejemplo. En una muestra aleatoria de n1 = 10 focos, el ciclo medio de vida de los focos es 1 = 4 000 horas, con s1 = 200. Para otra
marca de focos de cuya vida til tambin se presume que sigue una distribucin normal, una muestra aleatoria de n2 = 8 tiene una
media muestral de 2 = 4 300 hr y una desviacin estndar muestral de s = 250. Probamos la hiptesis de que no existe ninguna
diferencia entre el ciclo medio de vida til de las dos marcas de focos, con un nivel de significancia de 1%, de la siguiente manera:
Pgina 64 de 127
La t calculada de -2.833 se encuentra en la regin de aceptacin de la hiptesis nula. Por lo tanto, la hiptesis nula no puede rechazarse
al nivel de significancia de 1%.
5.13 Prueba de la diferencia entre medias con base en observaciones apareadas
Los procedimientos anteriores se basan en el supuesto de que las dos muestras fueron recolectadas como muestras aleatorias
independientes. Sin embargo, en muchas situaciones las muestras se recolectan como pares de valores, como cuando se determina el
nivel de productividad de cada trabajador antes y despus de un curso de capacitacin. Estos valores se llaman observaciones
apareadas o pares asociados. Asimismo, y a diferencia de las muestras independientes, dos muestras que contienen observaciones
apareadas se llaman muestras dependientes.
En el caso de observaciones apareadas, el mtodo apropiado para probar la diferencia entre las medias de dos muestras consiste en
determinar primero la diferencia d entre cada par de valores, para despus probar la hiptesis nula de que la diferencia poblacional
media es de cero. As, desde el punto de vista de los clculos, la prueba se aplica a una muestra de valores d, con H0 : d = 0.
La media y desviacin estndar de la muestra de valores d se obtienen por medio de la aplicacin de las frmulas bsicas de los
captulos anteriores excepto que d es sustituida por X. La diferencia media de un conjunto de diferencias entre observaciones
apareadas es
Pgina 65 de 127
La frmula de desviaciones y la frmula de clculo para la desviacin estndar de las diferencias entre observaciones apareadas son,
respectivamente,
El error estndar de la diferencia media entre observaciones apareadas se obtiene por medio de la frmula (8. 4), para el error estndar
de la media, excepto que d es sustituida de nueva cuenta por X
Dado que el error estndar de la diferencia media se calcula con base en la desviacin estndar de la muestra de diferencias (esto es, el
valor poblacional d es desconocido) y puesto que por lo general puede suponerse que los valores de d siguen una distribucin normal,
la distribucin t es adecuada para probar la hiptesis nula de que d = 0.
Los grados de libertad equivalen al nmero de diferencias menos uno, o n 1, la distribucin z normal estndar puede utilizarse como
una aproximacin de las distribuciones t cuando n 30. El ejemplo ilustra una prueba bilateral, mientras que en otro problema ilustra
una prueba unilateral. La estadstica de prueba empleada para probar la hiptesis de que no existe diferencia entre las medias de un
conjunto de observaciones apareadas es
Ejemplo. Un fabricante de automviles recolecta datos sobre millaje para una muestra de n = 10 autos de diversas categoras de peso
usando gasolina de calidad estndar con y sin cierto aditivo. Por supuesto, los motores fueron ajustados a las mismas especificaciones
antes de cada corrida, y los mismos conductores sirvieron para los dos casos de gasolina (aunque no se les hizo saber qu gasolina se
usaba en una corrida en particular). Dados los datos de millaje en la tabla 13, probamos la hiptesis de que no existe diferencia entre el
millaje medio obtenido con y sin el aditivo, empleando el nivel de significancia de 5%, de la siguiente manera:
Pgina 66 de 127
Tabla 13 Datos de millaje de automviles y hoja de trabajo para calcular la diferencia media y la desviacin estndar de la diferencia
Pgina 67 de 127
La t calculada de +1.59 no se halla en la regin de rechazo de la hiptesis nula. En consecuencia, la hiptesis nula de que no existe
ninguna diferencia en las millas por galn obtenidas con el aditivo cuando se les compara con las obtenidas sin el aditivo se acepta
como verosmil.
5.14 Prueba de una hiptesis referente al valor de la proporcin de la poblacin
La distribucin normal puede servir como aproximacin de una distribucin binomial cuando n 30 y tanto np 5 como n(q) 5,
donde q = 1 - p. sta es la base para la determinacin de intervalos de confianza para la proporcin, en la que tambin se explica el
error estndar de la proporcin. Sin embargo, en el caso de intervalos de confianza se requiere por lo general de un tamao de muestra
de al menos n = 100, como se explic en la seccin correspondiente.
En la determinacin de intervalos de confianza expuesta en la seccin correspondiente, la proporcin muestral P^ sirve de base para el
error estndar. En la prueba de hiptesis, el valor del error estndar de la proporcin se basa por lo general en el uso del valor
hipottico 0:
El procedimiento asociado con la prueba de un valor hipottico de la proporcin de la poblacin es idntico al descrito en la seccin
correspondiente, salvo que la hiptesis nula se refiere al valor de la proporcin poblacional, no de la media poblacional. As, la frmula
de la estadstica z para probar una hiptesis referente al valor de la proporcin de la poblacin es
Ejemplo. El director de la agencia de colocaciones de una universidad sostuvo que al menos 50% de los estudiantes a punto de
graduarse haban cerrado un trato de empleo para el 1 de marzo. Supongamos que se rene una muestra aleatoria de n = 30 estudiantes
a punto de graduarse y que slo 10 de ellos indican haber cerrado un trato de empleo para el 1 de marzo. Puede rechazarse el
argumento del director de la agencia de colocaciones al nivel de significancia de 5%? Utilizamos z como la estadstica de prueba, en
esta forma:
[El uso de la distribucin normal est garantizado, porque n 30, n0 5 y n(1 - 0 ) 5.1]
Pgina 68 de 127
La z calculada de -1.88 es menor que el valor crtico de -1.645 para esta prueba de la cola inferior. Por lo tanto, el argumento del
director se rechaza al nivel de significancia de 5%.
5.15 Determinacin del tamao de muestra requerido para probar la proporcin
Antes de la efectiva recoleccin de una muestra, el tamao de muestra requerido para probar una hiptesis referente a la proporcin
poblacional puede determinarse especificando 1) el valor hipottico de la proporcin, 2) un valor alternativo especfico de la
proporcin tal que la diferencia con el valor hipottico nulo se considere importante, 3) el nivel de significancia por aplicar en la
prueba y 4) la probabilidad de error tipo II que se permitir. La frmula para determinar el tamao de muestra mnimo requerido para
probar un valor hipottico de la proporcin es
z0 es el valor crtico de z usado en conjuncin con el nivel de significancia especificado (nivel de ), mientras que z1, es el valor de z
respecto de la probabilidad de error tipo II asignada (nivel de ). Tal como se afirm en la seccin correspondiente en relacin con la
determinacin del tamao de muestra para probar la media, z0 y z1, siempre tienen signos algebraicos opuestos. El resultado es que los
dos productos en el numerador siempre se acumularn. Asimismo, la frmula puede utilizarse en conjuncin con pruebas ya sea de una
cola o de dos colas, y todo tamao de muestra fraccionario se redondea al valor inmediato superior. Finalmente, el tamao de muestra
debe ser suficientemente grande para garantizar el uso de la distribucin normal de probabilidad en conjuncin con 01.
Ejemplo. Un miembro del Congreso desea probarla hiptesis de que al menos 60% de los votantes est a favor de la legislacin laboral
que acaba de ser presentada a la Cmara, con un nivel de significancia de 5%. La discrepancia con esta hiptesis se considerar
importante si slo 50% (o menos) favorece la legislacin, mientras que el riesgo de un error tipo II de = 0.05 es aceptable. El tamao
de muestra que debera recolectarse, como mnimo, para satisfacer estas especificaciones de toma de decisiones es
Pgina 69 de 127
Pgina 70 de 127
El error estndar de la diferencia entre proporciones usado en conjuncin con la prueba del supuesto de que no hay diferencia es
La frmula de la estadstica z para probar la hiptesis nula de que no existe diferencia entre dos proporciones poblacionales es
Una prueba de la diferencia entre proporciones puede realizarse ya sea como prueba unilateral o como prueba bilateral.
Ejemplo. Una muestra de 50 hogares de una comunidad revela que 10 de ellos vieron un programa especial de televisin sobre la
economa nacional. En una segunda comunidad, 15 hogares de una muestra aleatoria de 50 vieron ese programa especial de televisin.
Probamos la hiptesis de que la proporcin global de espectadores de las dos comunidades no difiere, con un nivel de significancia de
1%, de la siguiente manera:
La z calculada de - 1. 15 se encuentra en la regin de aceptacin de la hiptesis nula. Por lo tanto, la hiptesis de que no existe
diferencia en la proporcin de espectadores de las dos zonas no puede rechazarse.
5.18 Prueba de un valor hipottico de la varianza usando la distribucin Ji cuadrada
Pgina 71 de 127
En el caso de una poblacin con distribucin normal la razn (n - l)s2 / 2 sigue una distribucin de probabilidad X2, la cual es
diferente de acuerdo con los (n - 1) grados de libertad. En consecuencia, la estadstica que se utiliza para probar una hiptesis referente
al valor de la varianza de la poblacin es
La prueba puede ser una prueba unilateral o una prueba bilateral, aunque las hiptesis ms frecuentes sobre una varianza poblacional
se relacionan con pruebas unilaterales.
Ejemplo. El ciclo medio de vida til de una muestra aleatoria de n = 10 focos es = 4 000 horas, con una desviacin estndar de s =
200 hr. Se supone que, en general, el ciclo de vida til de los focos tiene una distribucin normal. Supongamos que antes de que se
recolectara la muestra se estableci la hiptesis de que la desviacin estndar de la poblacin no es mayor de = 150. Con base en los
resultados muestrales, esta hiptesis se prueba al nivel de significancia de 1 % de la siguiente manera:
Dado que la estadstica de prueba calculada de 16.0 no excede el valor crtico de 21.67 en esta prueba de cola superior, la hiptesis
nula de que 150 no puede rechazarse al nivel de significancia de 1%.
Pgina 72 de 127
Pgina 73 de 127
Dado que cada varianza muestral es un estimador insesgado de la varianza de la misma poblacin, el valor esperado a largo plazo de la
razn anterior es de alrededor de 1.0. [Nota: El valor esperado no es de exactamente 1.0, sino de gl2/(gl2 - 2), por razones matemticas
que escapan al alcance de este libro.] Sin embargo, es improbable que las varianzas muestrales de cualquier par de muestras dado sean
idnticas en valor, aun si la hiptesis nula es cierta. Puesto que se sabe que esta razn sigue una distribucin F, esta distribucin de
Pgina 74 de 127
probabilidad puede utilizarse en conjuncin con la prueba de la diferencia entre dos varianzas. Aunque un supuesto matemtico
necesario es que las dos poblaciones tienen una distribucin normal, se ha demostrado que la distribucin F es relativamente robusta, e
insensible a desviaciones respecto de la normalidad cuando cada poblacin es unimodal y los tamaos de muestra son
aproximadamente iguales.
Los grados de libertad gl asociados con el numerador de la razn F calculada son los encabezados de columnas de esa tabla, mientras
que los grados de libertad para el denominador son los encabezados de lneas. En la tabla no se identifican valores crticos de F para la
cola inferior de la distribucin, debido en parte a que, habitualmente, la distribucin F se emplea en pruebas que slo requieren de
probabilidades de la cola superior. Esto es particularmente cierto en el caso del uso de la distribucin F en el anlisis de varianza. Otro
motivo de que slo se ofrezcan valores F de la cola superior es que los valores de F de cola inferior requeridos pueden calcularse
mediante la llamada propiedad del recproco de la distribucin F, de este modo:
Al aplicar la frmula, un valor F en el punto de 5% inferior se determina introduciendo en el denominador un valor de cola superior en
el punto de 5%. Ntese, sin embargo, que los dos valores g1 del denominador siguen un orden inverso en comparacin con el valor F
requerido.
Ejemplo. Se supone que el ciclo de vida de los focos tiene una distribucin normal. Probarnos la hiptesis nula de que las muestras se
obtuvieron de poblaciones con varianzas iguales, con un nivel de significancia de 10%, mediante el uso de la distribucin F.
Para la prueba al nivel de significancia de 10%, el punto de 5% superior para F y el punto de 5% inferior para F son los valores
crticos.
Pgina 75 de 127
Dado que la razn F calculada no es ni menor de 0.304 ni mayor de 3.68, se halla en la regin de aceptacin de la hiptesis nula. As,
el supuesto de que las varianzas de las dos poblaciones son iguales no puede rechazarse al nivel de significancia de 10%.
5.21 Otros mtodos para la prueba de hiptesis nulas
El mtodo del valor P y el mtodo de intervalos de confianza son alternativas al mtodo del valor crtico para las pruebas de hiptesis
referidas en las secciones anteriores de este captulo.
Si se aplica el mtodo del valor P, en lugar de comparar el valor observado de una estadstica de prueba con un valor crtico, la
probabilidad de ocurrencia de la estadstica de prueba, dado que la hiptesis nula es cierta, se determina y compara con el nivel de
significancia a. La hiptesis nula se rechaza si el valor P es menor que la a asignada. Los problemas anteriores ilustran la aplicacin de
este mtodo a pruebas de dos colas y una cola, respectivamente, sobre la diferencia entre medias.
Si se aplica el mtodo de intervalos de confianza, se elabora el intervalo de confianza 1 - a para el valor paramtrico de inters. Si el
valor hipottico del parmetro no est incluido en el intervalo, la hiptesis nula se rechaza. Los problemas 11. 15 y 11. 16 ilustran la
aplicacin de este mtodo a pruebas de dos colas y una cola, respectivamente, sobre la diferencia entre medias.
Pgina 76 de 127
6. Estadstica no paramtrica
6.1 Escalas de medicin
Antes de considerar las diferencias entre los mtodos estadsticos no paramtricos y los procedimientos paramtricos que constituyen
la mayor parte de este libro conviene definir cuatro tipos de escalas de medicin en trminos de la precisin representada por los
valores reportados.
En la escala nominal, los nmeros slo se usan para identificar categoras. No representan ningn monto o cantidad propiamente
dichos.
Ejemplo. Si cuatro regiones de ventas se numeran del 1 al 4 nicamente como nmeros de identificacin general, en ello est
implicada la escala nominal, puesto que los nmeros sirven sencillamente como nombres de categoras.
En la escala ordinal, los nmeros representan rangos o jerarquas. Indican magnitud relativa, aunque las diferencias entre los rangos no
se asumen como iguales.
Ejemplo. Un analista de inversin clasifica cinco emisiones accionarias del 1 al 5 en trminos de potencial de apreciacin. La
diferencia en el potencial de apreciacin entre las emisiones clasificadas como 1 y 2 no sera generalmente la misma que, digamos, la
diferencia entre las emisiones clasificadas como 3 y 4.
En la escala de intervalo se representan medidas que son diferencias entre valores. Sin embargo, el punto cero es arbitrario, y no se
trata de un cero "absoluto". Por lo tanto, los nmeros no pueden compararse usando razones.
Ejemplo. En las escalas de temperatura ya sea Fahrenheit o Celsius, una diferencia de 5o de 70oF a 75oF por ejemplo, es el mismo
monto de diferencia en temperatura de 80oF a 85oF Sin embargo, no podemos decir que 60oF sea dos veces ms caliente que 30oF,
porque el punto 0oF no es un punto cero absoluto (ausencia absoluta de calor).
En la escala de razn s existe un punto cero real, y en consecuencia las medidas pueden compararse en forma de razones.
Pgina 77 de 127
Ejemplo. Adems de ser cierto que una diferencia en valor de inventario de $5 000 es el mismo monto de diferencia entre, por decir
algo, $50 000 y $55 000 o entre $60 000 y $65 000, tambin lo es que un valor de inventario de $100 000 es dos veces ms grande que
un valor de inventario de $50 000.
Pgina 78 de 127
Pgina 79 de 127
El nmero de corridas de elementos semejantes se determina de acuerdo con los datos muestrales, con el uso del smbolo R para
designar el nmero de corridas observadas. Si n1 equivale al nmero de elementos muestreados de un tipo y n2 al nmero de elementos
muestreados del segundo tipo, la media y el error estndar asociados con la distribucin de muestreo de la estadstica de prueba R
cuando la secuencia es aleatoria son
Sin, n1 > 20 o n2 > 20, la distribucin de muestreo de r aproxima la distribucin normal. Por lo tanto, en estas circunstancias la
estadstica R puede convertirse a la estadstica de prueba z de la siguiente manera:
Cuando n1 20 y n2 20, en libros de texto especializados en estadstica no paramtrica se dispone de tablas de valores crticos de la
estadstica de prueba R.
6.4 Una muestra: Prueba de los signos
La prueba de los signos puede utilizarse para probar una hiptesis nula referente al valor de la mediana de la poblacin. En
consecuencia, es el equivalente no paramtrico a la prueba de una hiptesis referente al valor de la media de la poblacin. Es necesario
que los valores de la muestra aleatoria se encuentren al menos en la escala ordinal, aunque no se requiere de supuestos acerca de la
forma de la distribucin de la poblacin.
Las hiptesis nula y alternativa pueden aludir ya sea a una prueba bilateral o unilateral. Si Med0 denota la mediana de la poblacin y
Medo designa al valor hipottico, las hiptesis nula y alternativa para una prueba de dos extremos son
Pgina 80 de 127
Se aplica un signo de ms a cada valor muestral observado mayor que el valor hipottico de la mediana y un signo de menos a cada
valor menor que el valor hipottico de la mediana. Si un valor muestral es exactamente igual a la mediana hipottica, no se le aplica
ningn signo, con lo que el tamao de muestra efectivo se reduce. Si la hiptesis nula sobre el valor de la mediana es cierta, el nmero
de signos de ms debera ser aproximadamente igual al nmero de signos de menos. 0, para decirlo de otra manera, la proporcin de
signos de ms (o de signos de menos) debe ser de alrededor de 0.50. Por consiguiente, la hiptesis nula que se prueba en una prueba
bilateral es H0: = 0.50, donde es la proporcin de la poblacin de los signos de ms (o de menos). As, una hiptesis referente al
valor de la mediana se prueba en realidad como una hiptesis sobre . Si la muestra es grande, se puede hacer uso de la distribucin
normal.
6.5 Una muestra: Prueba de Wilcoxon
Lo mismo que en el caso de la prueba de los signos, la prueba de Wilcoxon puede usarse para probar una hiptesis nula referente al
valor de la mediana de la poblacin. Pero dado que la prueba de Wilcoxon considera ]a magnitud de la diferencia entre cada valor
muestral y el valor hipottico de la mediana, es una prueba ms sensible que la prueba de los signos. Por otra parte, puesto que se
determinan las diferencias, los valores deben estar al menos en la escala de intervalo. No se requiere de ningn supuesto acerca de la
forma de la distribucin de la poblacin.
Las hiptesis nula y alternativa se formulan respecto de la mediana de la poblacin ya sea para una prueba unilateral o bilateral. Se
determina la diferencia entre cada valor observado y el valor hipottico de la mediana, diferencia que, con el signo aritmtico que le
corresponda, se designa como d : d = (X Med0). Si alguna diferencia es igual a cero, la observacin asociada se excluye del anlisis y
el tamao de muestra efectivo se reduce. Los valores absolutos de las diferencias se clasifican entonces de menor a mayor, asignndose
el rango de 1 a la menor diferencia absoluta. Cuando las diferencias absolutas son iguales, se asigna el rango medio a los valores as
relacionados. Finalmente, se obtiene la suma de los rangos en forma separada para las diferencias positivas y para las negativas. La
menor de estas dos sumas es la estadstica T de Wilcoxon para una prueba bilateral. En el caso de una prueba unilateral, la suma menor
debe asociarse con la direccionalidad de la hiptesis nula. Para rechazar la hiptesis nula, el valor obtenido de T debe ser menor que el
valor crtico dado en la tabla.
Cuando n 25 y la hiptesis nula es cierta, la estadstica T tiene una distribucin aproximadamente normal. La media y el error
estndar asociados con esta distribucin de muestreo son, respectivamente,
Pgina 81 de 127
Por lo tanto, en el caso de una muestra relativamente grande la prueba puede realizarse usando la distribucin normal de probabilidad y
calculando la estadstica de prueba z, de la siguiente manera:
Vase el problema anteriores para una aplicacin de la prueba de Wilcoxon a la prueba de una hiptesis nula referente a la mediana de
la poblacin.
6.6 Dos muestras independientes: Prueba de Mann-Whitney
La prueba de Mann-Whitney puede utilizarse para probar la hiptesis nula de que las medianas de dos poblaciones son iguales. Se
supone que las dos poblaciones tienen la misma forma y dispersin, porque tales diferencias tambin podran conducir al rechazo de la
hiptesis nula. Es necesario que los valores de las dos muestras aleatorias independientes estn al menos en la escala ordinal.
Las dos muestras se combinan en un conjunto ordenado, en el que cada valor muestral se identifica segn el grupo muestral original.
Los valores se clasifican entonces de menor a mayor, asignando el rango 1 al menor valor muestral observado. En caso de valores
iguales, se les asigna el rango medio. Si la hiptesis nula es cierta, el promedio de los rangos de cada grupo muestral debera ser
aproximadamente igual. La estadstica calculada para efectuar esta prueba se denomina U, y puede basarse en la suma de los rangos de
cualquiera de las dos muestras aleatorias, de este modo:
Pgina 82 de 127
Por lo tanto, la estadstica de prueba para probar la hiptesis nula de que las medianas de dos poblaciones son iguales es
Pgina 83 de 127
es cierta, el nmero de signos de ms debera ser aproximadamente igual al nmero de signos de menos. Por lo tanto, la hiptesis nula
a prueba es H0 : = 0.50, donde es la proporcin de la poblacin de signos de ms (o de menos). Si la muestra es grande (n > 30),
puede usarse la distribucin normal, como se explica en la seccin 11.5. Ntese que aunque se recolectan dos muestras, la prueba se
aplica al conjunto de signos de ms y de menos que resulta de la comparacin de los pares de medidas.
El problema ilustra el uso de la prueba de los signos para probar la diferencia entre dos medianas de datos recolectados como
observaciones apareadas.
6.8 Observaciones apareadas: Prueba de Wilcoxon
En el caso de dos muestras recolectadas como observaciones apareadas, la prueba de Wilcoxon descrita en la seccin anterior puede
usarse para probar la hiptesis nula de que las dos medianas de la poblacin son iguales. Dado que la prueba de Wilcoxon considera la
magnitud de las diferencias entre los valores de cada par asociado, y no slo la direccin o signo de la diferencia, es una prueba ms
sensible que la prueba de los signos. Sin embargo, los valores muestrales deben hallarse en la escala de intervalo. No se requiere de
ningn supuesto acerca de las formas de las dos distribuciones.
Se determina la diferencia entre cada par de valores, la cual, junto con el signo aritmtico asociado, se designa como d. Si alguna
diferencia es igual a cero, ese par de observaciones se excluye del anlisis, con lo que el tamao de muestra efectivo se reduce.
Despus, los valores absolutos de las diferencias se clasifican de menor a mayor, asignando el rango de 1 a la diferencia absoluta
menor. Cuando las diferencias absolutas son iguales, se asigna el rango medio a los valores as relacionados. Finalmente, se obtiene
por separado la suma de los rangos de las diferencias positivas y de las negativas. La menor de estas dos sumas es la estadstica T de
Wilcoxon para una prueba de dos extremos. En el caso de una prueba de un extremo, la suma menor debe asociarse con la
direccionalidad de la hiptesis nula, como se ilustra en la aplicacin de una muestra de la prueba de Wilcoxon en el problema.
Cuando n 25 y la hiptesis nula es cierta, la estadstica T tiene una distribucin aproximadamente normal. Las frmulas para la
media y error estndar de la distribucin de muestreo de T y la frmula para la estadstica de prueba z se especifican en la seccin 21.5,
sobre la aplicacin de la prueba de Wilcoxon con una muestra .
El problema ilustra el uso de la prueba de Wilcoxon para probar la diferencia entre dos medianas de datos recolectados como
observaciones apareadas.
Pgina 84 de 127
donde N = tamao de muestra combinado de las diversas muestras (ntese que en este caso N no designa al tamao de la poblacin)
Rj . = suma de los rangos de la jsima muestra o grupo de tratamiento
nj. = nmero de observaciones de la jsima muestra
Dado que el tamao de cada grupo muestral sea de al menos nj 5 y la hiptesis nula sea cierta, la distribucin de muestreo de H es
similar a la distribucin X2 con g1 = K - 1, donde K es el nmero de tratamientos o grupos muestrales. El valor de X2 que aproxima el
valor crtico de la estadstica de prueba es siempre el valor de la cola superior. Este procedimiento de prueba es anlogo a la cola
superior de la distribucin F que se emplea en el anlisis de varianza.
En el caso de rangos empatados, la estadstica de prueba H debe corregirse. El valor corregido de la estadstica de prueba se denomina
HC y se calcula en la siguiente forma:
Pgina 85 de 127
El efecto de esta correccin es incrementar el valor de la estadstica H calculada. En consecuencia, si el valor no corregido de H
conduce al rechazo de la hiptesis nula, no hay necesidad de corregir este valor para el efecto de rangos empatados.
El problema ilustra el uso de la prueba de Kruskal-Wallis para probar la hiptesis nula de que varias poblaciones tienen la misma
mediana.
Pgina 86 de 127
7. Muestreo
7.1 Introduccin.
El principal objetivo de la mayora de los estudios, anlisis o investigaciones, es hacer generalizaciones acertadas con base en muestras
de poblaciones de las que se derivan tales muestras. Obsrvese la palabra "acertadas" porque no es fcil responder cundo y en qu
condiciones las muestras permiten tales generalizaciones. Por ejemplo, si queremos calcular la cantidad de dinero promedio que una
persona gasta en unas vacaciones, tomaramos como una muestra las cantidades que gastan los pasajeros de primera clase de un
crucero de cuatro das; o trataramos de estimar o pronosticar el precio al mayoreo de todos los productos agrcolas nicamente con
base en el precio de los esprragos frescos? Es obvio que no, pero saber a qu vacacionistas y qu productos agrcolas debemos incluir
en las muestras no es algo intuitivo ni evidente.
En la mayor parte de los mtodos que estudiaremos en lo que resta del libro, supondremos que estamos manejando las llamadas
muestras aleatorias. Hacemos nfasis en las muestras aleatorias, que estudiamos y definimos en la seccin anterior porque permiten
generalizaciones vlidas o lgicas. No obstante, como veremos, el muestreo aleatorio no siempre es viable o aun deseable,
mencionaremos algunos procedimientos alternativos de muestreo.
El concepto relacionado de una distribucin de muestreo, que nos indica cmo las cantidades determinadas con base en muestras
pueden variar de una muestra a otra. Luego, de la secciones anteriores aprenderemos cmo se pueden medir, pronosticar o inclusive
controlar tales variaciones de la probabilidad.
7.2 Muestreo Aleatorio
Diferenciamos entre poblaciones y muestras, sealando que una poblacin consiste en todas las observaciones concebible (o
hipotticamente) posibles de un fenmeno determinado, mientras que una muestra es slo una parte de una poblacin. En seguida,
tambin diferenciaremos entre dos clases de poblaciones: las poblaciones finitas y las poblaciones infinitas.
Una poblacin es finita si consta de un nmero finito o fijo de elementos, medidas u observaciones. Como ejemplos de poblaciones
finitas podemos mencionar los pesos netos de 3,000 latas de pintura de cierta produccin, las calificaciones SAT de todos los
estudiantes de primer ao admitidos en una preparatoria determinada en el otoo de 1991 y las temperaturas diarias registradas en una
estacin meteorolgica durante los aos de 1987 a 1991.
Pgina 87 de 127
A diferencia de las poblaciones finitas, una poblacin infinita, al menos hipotticamente, contiene una infinidad de elementos. Este es
el caso, por ejemplo, cuando observamos un valor de una variable aleatoria continua y hay una infinidad de resultados distintos.
Tambin es el caso cuando observamos los totales obtenidos en lanzamientos repetidos de un par de dados, cuando medimos en
repetidas ocasiones el punto de ebullicin de un compuesto de silicio y cuando tomamos una muestra con reemplazo de una poblacin
finita. No hay lmite para los nmeros de veces que podemos lanzar un par de dados, para el nmero de veces que podemos medir el
punto de ebullicin del compuesto de silicio, ni para el nmero de veces que podemos tomar una muestra de una poblacin finita y
reemplazarla antes de tomar la siguiente.
Para presentar la idea del muestreo aleatorio de una poblacin finita primero veamos cuntas muestras diferentes de tamao n podemos
tomar de una poblacin finita de tamao N. Refirindonos a la regla para el nmero de combinaciones de n objetos tomando r a la vez
de la pgina 101, encontramos que, con un cambio de las letras, la respuesta es
EJEMPLO
'
Cuntas muestras distintas de n podemos tomar de una poblacin finita de tamao N, cuando
(a) n = 2 y N = 12;
(b) n = 3 y N = l00?
Solucin
Pgina 88 de 127
Una muestra de tamao n de una poblacin finita de tamao N es una variable aleatoria si se selecciona de manera tal
de ser seleccionada.
Por ejemplo, si una poblacin consiste en los N = 5 elementos a, b, c, d y e (que podran ser los ingresos anuales de cinco personas, los
pesos de cinco vacas o los precios de cinco artculos), hay
muestras posibles de tamao n = 3. Estas constan de los elementos
abc, abd, abe, acd, ace, ade, bcd, bce, bde y cde. Si seleccionamos una de estas muestras- de tal forma que cada muestra tenga una
probabilidad de 1/10 de ser seleccionada, decimos que sta es una muestra aleatoria.
A continuacin sigue la pregunta de cmo se toman las muestras aleatorias en la prctica real en una situacin simple como la que
acabamos de describir, podramos escribir cada una de las diez muestras aleatorias en una tira de papel, ponerlas en un sombrero,
revolverlas bien y luego retirar una sin ver. Empero, es obvio que esto sera poco prctico en una situacin real complicada en la que n
y N o slo N son grandes. Por ejemplo, para n = 4 y N = 200 tendramos que clasificar
de stas.
Por fortuna, podemos tomar una muestra aleatoria de una poblacin finita sin hacer una lista de todas las muestras posibles, que hemos
mencionado aqu slo para enfatizar el punto de que la seleccin de una muestra aleatoria debe depender por completo del azar. En vez
de hacer una lista de todas las muestras posibles, podemos escribir cada uno de los N elementos de la poblacin finita en una tira de
papel y retirar n de stas a la vez sin reemplazo, asegurndonos de que cada vez que retiremos otro papel todos los elementos restantes
de la poblacin tengan la misma posibilidad de ser seleccionados. Como se pedir al lector que lo verifique en el ejercicio 10. 14 de la
Pgina 89 de 127
Podemos simplificar an ms este procedimiento relativamente fcil seleccionando nmeros aleatorios en vez de retirar tiras de papel o
bien, podemos dejar que una computadora haga todo el trabajo. Como sealamos en la pgina 205, las tablas editadas de nmeros
aleatorios (como la que se condens en la tabla XI, de este libro) consisten en pginas en las que se disponen los dgitos 0, 1, 2,..., y 9
en forma parecida a si se generaran por medio de un juego de probabilidad o azar que da a cada dgito la misma probabilidad, 1/10, de
aparecer en cualquier lugar determinado de la tabla.
EJEMPLO
Tome una muestra aleatoria de tamao n = 12 de la poblacin consistente en las cantidades de impuestos sobre las
ventas cobradas por 247 farmacias de una ciudad en diciembre de 1990 numerando las farmacias como 001, 002, 003,..., y 247
(digamos, en el orden en que aparecen en el directorio telefnico) y leyendo nmeros aleatorios de tres dgitos de la segunda pgina de
la tabla XI, usando la vigesimasexta, la vigesimasptima y la vigesimaoctava columnas empezando en el sexto rengln y continuando
pgina abajo.
Solucin
046 230 079 022 119 150 056 064 193 232 040 146
donde ignoramos los nmeros mayores que 247; s cualquier nmero se hubiera repetido, tambin lo habramos ignorado. Los doce
nmeros que tenemos aqu son los nmeros asignados a las farmacias; las cifras de impuestos sobre las ventas correspondientes
constituyen la muestra aleatoria deseada.
El procedimiento que usamos en este ejemplo fue bastante sencillo, pero lo habra sido ms si hubiramos tenido el software que deja
la mayor parte del trabajo a una computadora. Por ejemplo, la impresin de la figura 11 presenta una muestra aleatoria generada por
computadora de tamao n = 12 de la poblacin finita que consta de los nmeros 1, 2, 3,..., 246 y 247. Los valores de la muestra son
197, 147, 82, 171, 60, 39, 51, 129, 71, 45, 86 y 224.
Pgina 90 de 127
Pgina 91 de 127
Por ejemplo, si en doce lanzamientos de un dado obtenemos 2, 5, 1, 3, 6, 4, 4, 5, 2, 4, 1 y 2, estos nmeros constituyen una muestra
aleatoria si son valores de variables aleatorias independientes que tienen la misma distribucin de la probabilidad
Para dar otro ejemplo de una muestra aleatoria d una poblacin infinita, suponga que ocho estudiantes obtuvieron las siguientes
lecturas del punto de ebullicin de un compuesto de silicio: 136, 153, 170, 148, 157, 152, 143 y 150 grados Celsius. De acuerdo con la
definicin, estos valores constituyen una muestra aleatoria si son valores de variables aleatorias independientes que tienen la misma
distribucin, digamos, la distribucin normal con = 152 y = 10. Para juzgar si en realidad ste es el caso, tendramos que
cerciorarnos, entre otras cosas, de que las tcnicas de medida de los ocho estudiantes sean igualmente precisas (de modo que sea la
misma para cada una de las variables aleatorias), que no haya colaboracin (que pueda hacer que las variables aleatorias sean
dependientes) y que no haya impurezas en las materias primas.
7.3 Diseos de muestras
La nica clase de muestras que hasta ahora hemos estudiado son las muestras aleatorias y no hemos considerado ni siquiera la
posibilidad de que en ciertas condiciones pueda haber muestras que son mejores (digamos, ms fciles de obtener, ms econmicas o
ms informativas) que las muestras aleatorias y no hemos entrado en detalles sobre la pregunta de lo que podra hacerse cuando el
muestreo aleatorio es imposible. De hecho, hay muchas otras maneras de seleccionar una muestra de una poblacin y hay una gran
cantidad de bibliografa sobre el tema de los procedimientos del diseo del muestreo.
En estadstica, un diseo de una muestra es un plan definitivo, determinado por completo antes de recopilar cualquier dato, para tomar
una muestra de una poblacin de referencia. As, el plan de tomar una muestra aleatoria simple de 12 de 247 farmacias de una ciudad
usando una tabla de nmeros aleatorios de una manera especfica constituye una muestra aleatoria. En las tres secciones siguientes
estudiaremos brevemente algunas de las clases ms comunes de diseos de muestras.
7.4 Muestreo sistemtico
En algunos casos, la manera ms prctica de efectuar un muestreo consiste en seleccionar, digamos, cada vigsimo nombre de una
lista, cada decimasegunda casa de un lado de una calle, cada quincuagsima pieza de una lnea de ensamble y as sucesivamente. Esto
se conoce como muestreo sistemtico y se puede integrar un elemento de azar en esta clase de muestreo usando nmeros aleatorios
para seleccionar la unidad en la que se debe comenzar. Aunque una muestra sistemtica puede no ser una muestra aleatoria de acuerdo
con la definicin, a menudo es razonable tratar las muestras sistemticas como si fueran muestras aleatorias; de hecho, en algunos
Pgina 92 de 127
casos, las muestras sistemticas en realidad pueden ser mejores que las muestras aleatorias simples porque las primeras se extienden en
forma ms regular sobre las poblaciones enteras.
Si los miembros de la poblacin aparecen secuencialmente en el tiempo, como en el caso de las piezas de una lnea de produccin o de
automviles que se aproximan a una caseta de peaje, el muestreo sistemtico dispersara el trabajo del muestreo en el tiempo. Esta
deseable caracterstica del muestreo sistemtico ayuda a reducir el nmero de errores de oficina.
El verdadero riesgo del muestreo sistemtico yace en la posible presencia de periodicidades ocultas. Por ejemplo, si inspeccionamos
cada cuadragsima pieza fabricada por una mquina particular, los resultados seran poco acertados si, como consecuencia de un
fracaso recurrente regularmente, cada dcima pieza producida por la mquina tiene imperfecciones. Del mismo modo, una muestra
sistemtica podra dar resultados sesgados si entrevistamos a los residentes de cada decimasegunda casa a lo largo de cierta calle y as
sucede que cada decimasegunda casa a lo largo de la calle es una casa en esquina o un lote doble.
7.5 Muestreo estratificado
Si tenemos informacin acerca de la constitucin de una poblacin (es decir, su composicin) y sta es importante para nuestra
investigacin, podemos mejorar el muestreo aleatorio por medio de la estratificacin. Este es un procedimiento que consiste en
estratificar (o dividir) en un nmero de subpoblaciones o estratos que no se traslapen y luego tomar una muestra de cada estrato. Si los
artculos seleccionados de cada estrato constituyen muestras aleatorias simples, el procedimiento completo (primero la estratificacin y
luego el muestreo aleatorio) se conoce como muestreo aleatorio (simple) estratificado.
Suponga, por ejemplo, que queremos estimar el peso medio de cuatro personas con base en una muestra de tamao 2 y que los pesos
(desconocidos) de las cuatro personas son 115, 135, 1 85 y 205 libras. Por tanto, el peso medio que queremos estimar es
= 6 muestras posibles son 115 y 135, 115 y 185, 115 y 205, 135 y 185, 135 y 205, y 185 y 205 y las medias correspondientes
son 125, 150, 160, 160, 170 y 195. Obsrvese que ya que cada una de estas muestras tiene una probabilidad de 1/6 las probabilidades
de que nuestro error (la diferencia entre la media de la muestra y = 160) sea 0, 10 o 35 son 1/3, 1/3 y 1/3. Ahora, suponga que
Pgina 93 de 127
sabemos que dos de estas personas son hombres y dos son mujeres y que los pesos (desconocidos) de los hombres son 185 y 205
libras, mientras que los pesos (desconocidos) de las mujeres son 115 y 135 libras. Estratificando la muestra (por sexo) y seleccionando
aleatoriamente a uno de los dos hombres y a una de las dos mujeres, encontramos que slo hay cuatro muestras estratificadas, 115 y
185, 115 y 205, 135 y 185, y 135 y 205. Las medias de estas muestras son 150, 160, 160 y 170 y ahora las probabilidades de que
nuestro error sea 0 o 10 son 1/2 y 1/2 . Es evidente que la estratificacin ha incrementado en gran medida nuestras probabilidades de
tener una estimacin buena (cercana) de] peso medio de las cuatro personas.
Esencialmente, el objetivo de la estratificacin es formar estratos de tal forma que haya alguna relacin entre estar en un estrato
particular y la respuesta que se busca en el estudio estadstico y que en los estratos separados haya tanta homogeneidad (uniformidad)
como sea posible. En nuestro ejemplo existe tal relacin entre el sexo y el peso y hay mucha menos variabilidad en el peso de cada uno
de los dos grupos de la que hay en la poblacin completa.
En el ejemplo anterior, usamos la distribucin proporciona, que implica que los tamaos de las muestras de estratos diferentes son
proporcionales a los tamaos de los estratos. En general, si dividimos una poblacin de tamao N en k estratos de tamao N1, N2,..., y
Nk y tomamos una muestra de tamao n1 del primer estrato, una muestra de tamao n2 del segundo estrato,..., y una muestra de tamao
nk del Ksimo estrato, decimos que la poblacin es proporcional si
o si estas razones tienen casi la misma posibilidad. En el ejemplo sobre los pesos, tuvimos Ni = 2, N2 = 2, n1 = 1 y n2 = 1, de modo que
donde n = n1 + n2 + - - - + nk es el tamao total de la muestra. Cuando es necesario, usamos los nmeros enteros ms prximos a los
valores obtenidos por medio de esta frmula.
Pgina 94 de 127
EJEMPLO
Se debe tomar una muestra estratificada de tamao n = 60 de una muestra de tamao N= 4,000, que consta de tres
estratos de tamao N1 = 2,000, N2 = 1,200 y N3 = 800. Si la distribucin debe ser proporcional, cun grande debe ser la muestra
tomada de cada estrato?
Solucin
Esto ilustra la distribucin proporcional, pero debemos agregar que hay otras maneras de distribuir porciones de una muestra entre los
diferentes estratos. Una de stas, conocida como la distribucin ptima, se describe en el ejercicio 10.26 de la pgina 254. No slo
maneja el tamao del estrato, como en la distribucin proporcional, sino que tambin maneja la variabilidad (o cualquier otra
caracterstica pertinente) del estrato.
La estratificacin no se limita a una variable nica de clasificacin o una caracterstica y las poblaciones a menudo se estratifican de
acuerdo con varias caractersticas. Por ejemplo, en una encuesta sistematizada diseada para determinar la actitud de sus estudiantes,
digamos, hacia un nuevo plan de enseanza, un sistema estatal de educacin preparatoria con 17 escuelas podra estratificar su muestra
no slo con respecto a las preparatorias, sino tambin en relacin con el grado escolar, el sexo y la especialidad. As, parte de la
muestra se destinara a los alumnos de sexo femenino de primer grado de la preparatoria A en la especialidad de ingeniera, otra parte
de la muestra se distribuira a los alumnos de sexo masculino de segundo grado de la preparatoria L en la especialidad de ingls y as
sucesivamente. Hasta cierto punto, la estratificacin como sta, llamada estratificacin cruzada, incrementar la precisin
(confiabilidad) de as estimaciones y otras generalizaciones y se usa comnmente, en particular en el muestreo de la opinin y la
investigacin de mercado.
En el muestreo estratificado, el costo de la toma de muestras aleatorias de los estratos individuales con frecuencia es tan alto que a los
encuestadores slo se les dan cuotas que deben cubrir de los diferentes estratos, con algunas restricciones (si no es que ninguna) sobre
la manera en que las deben cubrir. Por ejemplo, al determinar las actitudes de los electores hacia las mejoras de los servicios de salud
para las personas de edad avanzada, a un encuestador que trabaja en cierta rea se le podra pedir que entreviste a 6 hombres que vivan
en casa propia, trabajen en forma independiente y que sean menores de 30 aos de edad, a 10 mujeres asalariadas de 45 a 60 aos de
edad que vivan en departamento, a 3 hombres jubilados mayores de 60 aos que vivan en casas mviles y as en forma consecutiva,
Pgina 95 de 127
con la seleccin real a discrecin del encuestador. Este procedimiento se conoce como un muestreo por cuotas y es conveniente,
relativamente econmico y en ocasiones necesario, pero como se efecta con frecuencia, las muestras resultantes no tienen las
caractersticas esenciales de las muestras aleatorias. Sin contar con ningn control a su disposicin, los encuestadores tienden
naturalmente a seleccionar a individuos a quienes se tiene acceso ms fcil --personas que trabajan en el mismo edificio, personas que
compran en la misma tienda o quiz residen en la misma rea general. Por tanto, los muestreos por cuotas en esencia son muestras de
la opinin y las inferencias basadas en tales muestras por lo regular no llevan a ninguna clase de evaluacin estadstica formal.
7.6 Muestreo por conglomerados
Para ilustrar otra importante clase de muestreo, suponga que una gran empresa quiere estudiar los patrones variables de los gastos
familiares en el rea de San Diego. Al intentar elaborar los programas de gasto de 1,200 familias, la empresa encuentra que el muestreo
aleatorio simple es prcticamente imposible, dado que no se cuenta con las listas adecuadas y el costo de ponerse en contacto con las
familias dispersas en una vasta rea (tal vez teniendo que llamar dos o tres veces a quienes no se encuentren en casa) es muy alto. Una
manera en que se puede tomar una muestra de esta situacin es dividiendo el rea total de inters en varias reas ms pequeas que no
se traslapen, digamos, manzanas de una ciudad. Entonces se seleccionan algunas casas al azar, y toda! las familias (o muestras de
stas) que residen en estas manzanas constituyen la muestra definitiva.
En este tipo de muestreo, llamado muestreo por conglomerados, se divide la poblacin total en un nmero determinado de
subdivisiones relativamente pequeas y se seleccionan al azar algunas de estas subdivisiones o conglomerados para incluirlos en la
muestra general. Si los conglomerados son subdivisiones geogrficas, como en el ejemplo anterior, este muestreo se llama tambin
muestreo por reas. Para dar otro ejemplo del muestreo por conglomerados, suponga que el decano de estudiantes de una universidad
quiere saber la opinin de la fraternidad hacia la escuela acerca de cierta disposicin nueva. Puede tomar una muestra de
conglomerados entrevistando a algunos o a todos los miembros de varias fraternidades seleccionadas al azar.
Aunque las estimaciones basadas en el muestreo por conglomerados por lo general no son tan confiables como las estimaciones que se
basan en muestras aleatorias simples del mismo tamao, a menudo son ms confiables por costo unitario. Refirindonos de nuevo a la
encuesta sobre los gastos familiares en el rea de San Diego, es fcil apreciar que bien puede ser posible tomar una muestra de
conglomerados de varias veces el tamao de una muestra aleatoria simple por el mismo costo. Es mucho ms econmico visitar y
entrevistar en conjunto a familias que viven cerca que seleccionar al azar a familias que viven en un rea extensa.
En la prctica, se pueden aplicar varios de los mtodos de muestreo que hemos analizado para el mismo estudio. Por ejemplo, si
estadistas del gobierno quieren estudiar la opinin de los profesores de escuelas primarias estadounidenses hacia ciertos programas
Pgina 96 de 127
federales, podran estratificar primero el pas por estados o algunas otras subdivisiones geogrficas. Para tomar una media de cada
estrato, podran usar el muestreo de conglomerados subdividiendo cada estrato en un nmero determinado de subdivisiones
geogrficas ms pequeas (digamos, distritos escolares) y finalmente podran usar un muestreo aleatorio simple o un muestreo
sistemtico para seleccionar una muestra de profesores de educacin primaria de cada conglomerado.
Pgina 97 de 127
Conclusiones
La estadstica es la rama de las matemticas que se ocupa de reunir, organizar, y analizar informacin cuantitativa o cualitativa, y
deducir de ella, gracias al anlisis de estos datos, unos significados precisos o unas previsiones para el futuro, siendo un auxiliar en la
toma de decisiones al proporcionar variaciones, deteccin de patrones y relaciones de datos econmicos y administrativos.
Por el tipo de informacin que se trate, podemos dividir la estadstica en dos categoras, la estadstica descriptiva que trabaja con todo
el universo de la poblacin, por ejemplo la venta de una empresa, en la cual se consideran la totalidad de los productos o servicio
facturados, y la estadstica inferencial, que utiliza para su manejo solo una muestra representativa de la poblacin, como por ejemplo
con la estatura promedio de una escuela, se puede inferir la estatura promedio de la poblacin estudiantil de ese grado de estudio.
A las caractersticas medidas de una muestra se les llama estadstica muestral, y a las caractersticas medidas de una poblacin
estadstica, o universo, se les llama parmetros de la poblacin. En otras palabras las caractersticas de una muestra se llaman
estadsticas, y las caractersticas de una poblacin se llaman parmetros.
En estadstica se conoce como poblacin al agregado de todas la unidades individuales, sean personas, cosas..., que se hallan en una
situacin determinada, pudiendo ser estas finitas e infinitas. Una muestra es solo una parte de la poblacin.
Por claridad, para la representacin de variables en estadsticas se emplean letras latinas minsculas, y en parmetros se emplean
letras griegas o letras latinas maysculas, en la siguiente tabla se muestran las mas usuales, as como, sus diferencias.
Poblacin
Definicin
Caractersticas
Smbolos
Pgina 98 de 127
Coleccin
de
considerados
Muestra
poblacin =
muestra = s
El muestreo aleatorio simple, es un procedimiento de seleccin, donde todos los elementos de una poblacin tienen la
misma probabilidad de ser seleccionados en una muestra.
La distribucin muestral, es la distribucin de los valores individuales en una muestra, la cual sea representativa de la
poblacin. Cabe sealar que el valor de una estadstica muestral varia de una muestra a otra, a causa de la variabilidad
del muestreo aleatorio, o el error de muestreo.
La media ( es el promedio aritmtico de los valores ya sea de la poblacin o de la muestra.
La varianza (2) indica en promedio que tan alejados estn los datos de la media, es el promedio de la suma de los
cuadrados de las desviaciones, entendindose como desviacin la diferencia de un datos con respecto a la media.
La desviacin tpica o estndar (), es la raz cuadrada de la varianza.
La distribucin muestral de medias, es el conjunto de todas las medias, de todas las muestras posibles que se pueden
extraer, con o sin replazo de una determinada poblacin.
Con reemplazamiento se entiende que para integrar una muestra, se selecciona una unidad elemental y luego esta se
regresa a la poblacin antes de tomar la siguiente unidad, y sin reemplazamiento, la unidad seleccionada no es
regresada a la poblacin. Como es observable una unidad elemental puede repetirse con el primer mtodo.
El Teorema del Lmite central determina la incertidumbre acerca del error cuando usamos la media de una muestra para estimar la
media de una poblacin. Nos sirve para muestral grandes, se puede obtener una aproximacin cercana de la distribucin muestral de la
media con una distribucin normal. Justifica el uso de mtodos de curva normal en una gran variedad de problemas, se aplica a
poblaciones infinitas y tambin a poblaciones finitas cuando el tamao de la muestra, a pesar de ser grande, no constituye ms que una
pequea porcin de la poblacin.
La Distribucin t de Student es utilizada para estimar la media poblacional a partir de una muestra pequea, o sea menores a 30.
Existen varias, cada una asociada con el grado de libertad, esto es el numero de observadores menos uno.
Pgina 99 de 127
La Distribucin Ji cuadrada tiene por objeto comparar la media de una muestra hipottica de una poblacin, en un muestreo
pequeo. Se utiliza para comprara la varianza de una muestra con la varianza Hipottica de una poblacin. Se denota con la letra
griega X(Ji) elevada al cuadrado. Este mtodo corresponde al campo de la estadstica paramtrica. Igual que la distribucin t depende
del numero de grados de libertad asociados al problema.
Un estimador es una estadstica de muestra utilizada para estimar un parmetro de poblacin. La media de la muestra ( ) puede ser un
estimado de la media de la poblacin ( ) y la porcin de la muestra se puede utilizar como estimador de la porcin de la poblacin.
Mientras que una estimacin es una valor especfico observado de una estadstica, hacemos una estimacin si tomamos una muestra y
calculamos el valor que toma nuestro estimador es esa muestra.
Las cualidades de un buen estimador son: Imparcialidad (No sesgado), eficiencia, coherencia y suficiencia.
Para buscar el mejor estimador, la muestra debe ser distribuida de manera simtrica, en la que los valores de la mediana y de la
media coinciden.
Una estimacin puntual es un solo numero que se utiliza para estimar un parmetro de poblacin desconocido, una desventaja es que
a menudo resulta insuficiente, debido a que solo tiene dos opciones, correcta o equivocada. Una estimacin de intervalo, se utiliza
para la estimacin de intervalo de un parmetro de poblacin, teniendo un mayor margen en la estimacin.
Un estimador insesgado es una estadstica muestral cuyo valor esperado es igual al parmetro por estimar. La eliminacin de todo
sesgo se asegura cuando la estadstica muestral corresponde a una muestra aleatoria tomada de una poblacin o un subgrupo racional.
En los Intervalos de confianza para la diferencia entre dos medias con el uso de la distribucin normal, el uso de la distribucin
normal se basa en las mismas condiciones que en el caso de la distribucin de muestreo de la media, salvo que estn implicadas dos
muestras. El error estndar pertinente para la distribucin de muestreo es el error estndar de la diferencia entre medias.
El uso de la distribucin t e intervalos de confianza para la diferencia entre dos medias, es necesario cuando: Se desconocen las
desviaciones estndar de la poblacin, las muestras son pequeas, se supone que las poblaciones tiene una distribucin
aproximadamente uniforme, las dos varianzas poblacionales (desconocidas) son iguales.
La determinacin de un intervalo de confianza para una proporcin poblacional desconocida con base en el proceso de Bemoulli son
complejo, los libros de texto recomiendan se utilice la distribucin normal con aproximacin de la solucin exacta de intervalos de
confianza para la proporcin de la poblacin.
Para la determinacin del tamao de muestra requerido para la estimacin de la proporcin, puede determinarse especificando el
nivel de confianza requerido y el error de muestreo aceptable y haciendo una estimacin inicial (subjetiva) de la proporcin
poblacional desconocida.
Los intervalos de confianza para la diferencia entre dos proporciones, se basa en las mismas condiciones que las expuestas en
relacin con la distribucin de muestreo de la proporcin, salvo que este caso involucra a dos muestras y los requerimientos se aplican
a cada una de ellas.
En la distribucin Ji cuadrada e intervalos de confianza para la varianza y desviacin estndar, las distribuciones Ji cuadradas
no son simtricas, en consecuencia, un intervalo de confianza de dos extremos para una varianza o desviacin estndar implica el uso
de dos valores diferentes de X2, no del mtodo de mas o menos utilizados en los intervalos de confianza basados en las
distribuciones normales y t.
Las pruebas de hiptesis paramtricas tienen como propsito determinar si el valor supuesto (hipottico) de un parmetro
poblacional, como la media de la poblacin, debe aceptarse como verosmil con base en evidencias muestrales. Existen tres
procedimientos, los cuales conducen a las mismas decisiones cuando se emplean los mismos estndares de probabilidad (y riesgo),
estos son: mtodo del valor crtico, mtodo del valor P, mtodo de intervalos de confianza.
En el Mtodo del valor crtico, se determinan los as llamados valores crticos de la estadstica de prueba que dictaran el rechazo
de una hiptesis, tras de lo cual la estadstica de prueba observada e compara con los valores crticos.
El mtodo del valor P, se basa en la determinacin de la probabilidad condicional de que el valor observado de una estadstica
muestral puede ocurrir al azar, dado que un supuesto particular sobre el valor del parmetro poblacional asociado sea en efecto
correcto.
El mtodo de intervalos de confianza, se basa en la observacin de si el valor supuesto de un parmetro poblacional est incluido
en el rango de valores que define a un intervalo de confianza para ese parmetro.
En la prueba de una hiptesis referente a la media usando la distribucin normal, puede usarse para probar un valor hipottico de
la media de la poblacin, si n 30, o bien cuando n < 30 pero la poblacin tiene una distribucin normal y a es conocida.
Errores Tipo I y Tipo II en pruebas de hiptesis
En la probabilidad de Error tipo I, por definicin, la proporcin de rea en la regin de rechazo es igual a la proporcin de los
resultados muestrales que ocurriran en esa regin en caso de que la hiptesis nula sea cierta.
La probabilidad del error tipo II hincado con la letra griega (beta), la nica manera en que se puede determinar es respecto de un
valor especfico incluido en el rango de la hiptesis alternativa.
Para la determinacin del tamao de muestra requerido para probar la media, puede determinarse especificando: El valor
hipottico de la media, un valor alternativo especfico de la media tal que la diferencia con el valor hipottico nulo se considere
importante, el nivel de significancia por emplear en la prueba, la probabilidad del error tipo II que habr de permitirse y el valor de la
desviacin estndar de la poblacin .
Prueba de una hiptesis referente a la media usando la distribucin t, el procedimiento es idntico al descrito anteriormente para
la distribucin normal, excepto por el uso de t en lugar de z como la estadstica de prueba.
Mtodo del valor P para pruebas de hiptesis referentes a la media de la poblacin, se determina por medio del mtodo del valor P,
probabilidad que se compara despus con el nivel de significancia a asignado, la idea es que un valor P bajo indica que es poco
probable que la muestra ocurra cuando la hiptesis nula es cierta; por lo tanto, la obtencin de un valor P bajo conduce al rechazo de la
hiptesis nula.
Mtodo de intervalos de confianza para pruebas de hiptesis referentes a la media, de acuerdo con este mtodo se elabora un
intervalo de confianza para la media de la poblacin con base en los resultados muestrales, tras de lo cual observamos si el valor
hipottico de la media poblacional est incluido en el intervalo de confianza.
Pruebas respecto de la media del proceso en el control estadstico de procesos, la hiptesis nula es que el proceso es estable y que
slo existen causas comunes de variacin. La hiptesis alternativa es que el proceso es inestable e incluye variacin por causas
atribuibles.
Pruebas de la diferencia entre dos medidas usando la distribucin normal, . el uso de la distribucin normal se basa en las mismas
condiciones que en el caso de una muestra, excepto que estn implicadas dos muestras aleatorias independientes. Es similar al de la
prueba de una hiptesis referente al valor de una media poblacional, slo difiere en que el error estndar de la diferencia entre las
medias se usa para determinar el valor z (o t) asociado con el resultado muestral.
Prueba de la diferencia entre medias usando la distribucin t, cuando la diferencia entre dos medias se prueba con el uso de la
distribucin t, un supuesto necesario en el procedimiento estndar, es que las varianzas de las dos poblaciones son iguales.
Prueba de la diferencia entre medias con base en observaciones apareadas, en muchas situaciones las muestras se recolectan como
pares de valores, como cuando se determina el nivel de productividad de cada trabajador antes y despus de un curso de capacitacin.
Estos valores se llaman observaciones apareadas o pares asociados.
Prueba de una hiptesis referente al valor de la proporcin de la poblacin, sta es la base para la determinacin de intervalos de
confianza para la proporcin, en la que tambin se explica el error estndar de la proporcin, sin embargo, en el caso de intervalos de
confianza se requiere por lo general de un tamao de muestra de al menos n = 100.
Determinacin del tamao de muestra requerido para probar la proporcin, puede determinarse especificando: el valor hipottico de
la proporcin, un valor alternativo especfico de la proporcin tal que la diferencia con el valor hipottico nulo se considere
importante, el nivel de significancia por aplicar en la prueba y la probabilidad de error tipo II que se permitir.
Pruebas respecto de la proporcin del proceso en el control estadstico de procesos, al igual que en el caso de la media del proceso,
los lmites de control para una proporcin del proceso se definen en 3 unidades de error estndar para el valor hipottico (aceptable).
Prueba de la diferencia entre dos proporciones poblacionales, las dos proporciones muestrales se combinan como base para
determinar el error estndar de la diferencia entre proporciones, las dos varianzas muestrales se combinan como base para calcular el
error estndar de la diferencia entre medias.
Prueba de un valor hipottico de la varianza usando la distribucin Ji cuadrada, La prueba puede ser una prueba unilateral o una
prueba bilateral, aunque las hiptesis ms frecuentes sobre una varianza poblacional se relacionan con pruebas unilaterales.
Pruebas respecto de la variabilidad del proceso en el control estadstico de procesos, La variabilidad del proceso se vigila y controla
ya sea respecto de la desviacin estndar del proceso o del rango del proceso.
Distribucin F y prueba de la igualdad de dos varianzas poblacionales, dado que cada varianza muestral es un estimador insesgado
de la varianza de la misma poblacin, el valor esperado a largo plazo de la razn anterior es de alrededor de 1.0.
Otros mtodos para la prueba de hiptesis nulas, Si se aplica el mtodo del valor P, en lugar de comparar el valor observado de una
estadstica de prueba con un valor crtico, la probabilidad de ocurrencia de la estadstica de prueba, dado que la hiptesis nula es cierta,
se determina y compara con el nivel de significancia.
Estadsticas no paramtricas.
Escalas de medicin, podemos considerar que son cuatro tipos de escalas de medicin en trminos de la precisin representada por los
valores reportados.
Nominal - los nmeros slo se usan para identificar categoras.
Ordinal - los nmeros representan rangos o jerarquas.
Intervalo - se representan medidas que son diferencias entre valores.
De razn - s existe un punto cero real, y en consecuencia las medidas pueden compararse en forma de razones.
Mtodos estadsticos paramtricos contra no paramtricos La base para un anlisis paramtrico es algn parmetro de la poblacin
teniendo una distribucin conocida, con medidas tomadas en la escala de intervalo o razn. En caso de no tenerse uno o ms de estos
requisitos o supuestos, pueden usarse los mtodos no paramtricos, conocidos tambin como mtodos libres de distribucin.
Prueba de corridas para aleatoriedad Se conoce como corrida a una serie de observaciones similares, la prueba de corridas se usa
para probar la aleatoriedad de una serie de observaciones cuando cada observacin puede ser asignada a una de dos categoras.
Una muestra: Prueba de los signos - es el equivalente no paramtrico a la prueba de una hiptesis referente al valor de la media de la
poblacin.
Una muestra: Prueba de Wilcoxon - puede usarse para probar una hiptesis nula referente al valor de la mediana de la poblacin,
como es considera la magnitud de la diferencia entre cada valor muestral y el valor hipottico de la mediana, es una prueba ms
sensible que la prueba de los signos.
Dos muestras independientes: Prueba de Mann-Whitney - puede utilizarse para probar la hiptesis nula de que las medianas de dos
poblaciones son iguales. Se supone que las dos poblaciones tienen la misma forma y dispersin, porque tales diferencias tambin
podran conducir al rechazo de la hiptesis nula
Observaciones apareadas: Prueba de los Signos - puede usarse para probar la hiptesis nula de que las dos medianas de la poblacin
son iguales, los valores muestrales deben estar al menos en la escala ordinal, y no se requiere de ningn supuesto acerca de las formas
de las dos distribuciones poblacionales.
Observaciones apareadas: Prueba de Wilcoxon - puede usarse para probar la hiptesis nula de que las dos medianas de la poblacin
son iguales, dado que considera la magnitud de las diferencias entre los valores de cada par asociado, y no slo la direccin o signo de
la diferencia, es una prueba ms sensible que la prueba de los signos.
Varias muestras independientes: Prueba de Kruskal-Wallis - sirve para probar la hiptesis nula de que varias poblaciones tienen las
mismas medianas, as, es el equivalente no paramtrico del diseo completamente aleatorizado de un factor de anlisis de varianza.
Muestreo
Los estudios, anlisis o investigaciones, tienen como objetivo hacer generalizaciones acertadas con base en muestras, suponiendo que
estamos manejando las llamadas muestras aleatorias, sin embargo, el muestreo aleatorio no siempre es viable o aun deseable.
Muestreo Aleatorio - Existen dos clases de poblaciones: las finitas y las infinitas. Una muestra de una poblacin infinita es
aleatoria si consta de valores de variables aleatorias independientes que tienen la misma distribucin.
Diseos de muestras - es un plan definitivo, determinado por completo antes de recopilar cualquier dato, para tomar una muestra de
una poblacin de referencia.
Muestreo sistemtico - la manera ms prctica de efectuar un muestreo consiste es seleccionar, digamos, cada vigsimo nombre de
una lista, cada decimasegunda casa de un lado de una calle. Se puede integrar un elemento de azar en esta clase de muestreo usando
nmeros aleatorios para seleccionar la unidad en la que se debe comenzar.
Muestreo estratificado - Este es un procedimiento que consiste en estratificar (o dividir) en un nmero de subpoblaciones o estratos
que no se traslapen y luego tomar una muestra de cada estrato.
Muestreo por conglomerados - se divide la poblacin total en un nmero determinado de subdivisiones relativamente pequeas y se
seleccionan al azar algunas de estas subdivisiones o conglomerados para incluirlos en la muestra general.
Bibliografa
Bonilla Gildaberto, Mtodos prcticos de inferencia estadstica, Trillas 1991. ISBN 968-24-3960-4.
Kazmier Leonard J., Estadstica aplicada a la administracin y a la economa, McGrawHill, 3 ed 1998. ISBN 970-10-0961-4.
Freund John E. y Simon, Estadstica elemental, Prentice Hall, 8 ed 1994. ISBN 0-13-602699-0.
Levin Richard I y Rubin, Estadstica para administradores, Prentice may, 6a ed, ISBN 968-880-675-7
Biblioteca de Consulta Encarta 2003, Microsoft Corporation.