Capitulo I Muestreo CORREGIDO

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 506

Métodos Estadísticos Varela/Llanos /Asnate

CAPITULO I
INTRODUCCIÓN AL MUESTREO
1. 1 INTRODUCCIÓN.
Muestreo es el proceso por el cual se realiza inferencias a la
población examinando una parte de ella; este proceso es
aplicable en nuestra vida personal y cotidiana así por
ejemplo una pareja contrae matrimonio en base a un corto
enamoramiento, con un simple grano de arroz el ama de
casa prueba si todo el arroz esta cocinado en un recipiente,
probando el café contenido en una cucharadita se determina
la calidad de la marca del café, los dosajes y análisis
clínicos (sangre, orina, etc.) Se realizan en base a muestras,
una muestra de roca lunar proporcionan información
científica sobre el origen de la luna, una zona turística de un
país muestra lo atractivo de una parle turística de dicho país
y así diferentes aspectos de la vida, cultura y ciencia son
investigados en base a muestras.

El propósito del muestreo es proporcionar diferentes tipos


de información estadística de naturaleza cuantitativa y
cualitativa del todo mediante el examen o análisis de un
poco de unidades seleccionadas.

El método muestral es el procedimiento científico de


selección de unidades muestrales las cuales proveerán los
estimadores requeridos con cierto margen de seguridad.

1
Métodos Estadísticos Varela/Llanos /Asnate

1. 2 VENTAJAS DE MUESTREO:
El estudio de una muestra tiene ventajas potenciales en los
diferentes campos de la actividad humana e investigación
científica. Las ventajas del muestreo son:

a). Costo reducido; una muestra requiere relativamente


mejores recursos para procesarla y diseñarla
adecuadamente, así el costo de unidad de observación es
alto en comparación con un censo, pero el costo total del
estudio por muestreo en mucho menor cubriendo los
mismos objetivos y propósitos de la encuesta o cuestionario,
debido
a que los datos se obtiene únicamente de una pequeña
fracción del total de datos u observaciones en estudio o
investigación.
b). Mayor Rapidez; Un numero pequeño de observaciones
puede recolectarse y procesarse más rápido que la
información de un censo y dar resultados más oportunos.

c). Mayor Alcance; El muestreo tiene un mayor alcance


frente al censo con relación a la variedad de información
dado su flexibilidad adaptabilidad, y posibilidad de estudiar
la interrelación de varios factores en un estudio.

d). Mayor Exactitud; Los datos obtenidos con un censo o


una muestra están sujeto a diferentes tipos de errores y
sesgos, la magnitud de las cuales depende del
procedimiento particular del estudio. Sin embargo, si el
mismo procedimiento se le asigna para la muestra y el
censo, la exactitud de una muestra será la misma, pero
2
Métodos Estadísticos Varela/Llanos /Asnate

comparativamente con una pequeña escala de proporciones


un estudio muestral posibilita mayor exactitud por
practicarse un mejor control sobre la recolección y
procedimiento de datos, empleo de mejor estándar con
intensidad entrenamiento y mejor equipo a los
encuestadores.
d). Único Método de Estudio; Se emplea en estudios
donde el examen de las unidades implican su destrucción,
tales como: El estudio de la calidad de alimentos envasados,
estudio de la calidad de cohetes, granadas y municiones,
etc.

1. 3 DESVENTAJAS DEL MUESTREO:


1. Cuando se requiere información básica para cada
unidad, obviamente tiene que realizarse un censo.
2. En algunos estudios de tabulaciones cruzadas donde el
numero de observaciones muestrales que caen en una
cierta celda son muy pequeños y no satisfacen los
requerimientos de ciertas pruebas.
3. El error debido al muestreo tiende a ser alto en áreas
administrativas pequeña y de gran variabilidad, como
las observaciones en la población son muy variables,
las muestras que se seleccionan difieren unas de las
otras como se estudia una sola muestra para generalizar
a la población, la diferencia entre el valor dado por una
muestra y valor poblacional constituye el error por
muestro en cual puede medirse estadísticamente según
el aumento del tamaño de la muestra
4.

3
Métodos Estadísticos Varela/Llanos /Asnate

1. 4 RELACION ENTRE LA MUESTRA Y EL CENSO

Muestra y censo en general no son competitivos en muchos


casos son complementarios.
En programación se emplea a menudo estimaciones
gruesas, estas estimaciones serian adecuadas si frente a la
falta de datos o deficiencia en los disponibles esto se
obtiene mediante estudios muéstrales integrados, donde se
interrelacionan la demografía sectores económicos y
sociales, en la etapa de implementación de dicha
programación se requieren datos seguros y en detalle, estos
se obtendrán en base aren un censo.

En operaciones tale como: Prueba de procedimientos


censales, ordenamientos de ítems, evaluación y control de
datos procesados, tabulaciones de variables seleccionadas o
ampliadas, se aplica en muestreo como parte integral de un
censo.

1. 5 METODOS MUESTRALES.
1. Muestreo Probabilística; Es un proceso muestral
donde cada elemento de la población tiene una
probabilidad perfectamente conocida de ser incluida en
la muestra, solo una muestra probabilística proporciona
estimaciones con medida de ser precisión.

2. Muestreo no Probabilística; Es un proceso por el cual


tío se pueden asignar objetivamente probabilidades a
los elementos seleccionados y por consiguiente no se
puede determinar la precisión de los resultados
4
Métodos Estadísticos Varela/Llanos /Asnate

muestrales en términos de probabilidades.


Este muestreo puede ser: muestreo ajuicio o criterio,
muestreo por cuotas y también puede ser muestreo por
correo (cuestionarios).

3. Muestreo a criterio o juicio; es un proceso por el cual


la selección de las muestras depende del criterio
humano (experiencia) y no de la rigurosa aplicación de
la teoría de probabilidades por ejemplo un experto
puede coger una muestra de arroz de la parte de su
cosecha para examinar su calidad puede ser físicamente
imposible seleccionar muestras aleatoriamente dentro
del montón de su cosecha y aplicar la teoría de
probabilidades sin embargo el experto puede conocer
ciertos hechos relacionados con la calidad del arroz este
puede ser que todo los granos de arroz sean uniformes
es decir todos los granos de arroz presenten el mismo
peso o grosor lo cual es suficiente para conocer su
calidad

4. Muestreo por cuotas; Es otro forma de muestreo a


juicio en que los sesgos que surgen del método no
probabilística de selección de la unidades muéstrales se
controlan hasta cierto huerto por la estratificación y el
establecimiento de cuotas a cada estrato, es decir que la
población se divide en grupos o estratos.

5. Muestreo o Cuestionario por Correo; Se emplea por


ser de bajo costo y facial administración, el principal
objetivo a este muestreo es el sesgo causado por el no
5
Métodos Estadísticos Varela/Llanos /Asnate

retorno de cuestionarios, lo cual para superarlo se


propone combinar el cuestionario por correo con la
entrevista personal, en los estudios de opinión y de
mercado se emplea estos tipos de muestreo
generalmente. También en investigaciones turísticas.

1.6. DEFINICIÓN DE TERMINOS.


1. Unidad Elemental o simplemente unidad; es el
elemento del cual se requiere información (persona,
familia, vivienda, etc.).

2. Población; es el conjunto de todas las unidades que se


van analizar o estudiar; la población debe ser definido
en su extensión y tiempo.

3. Marco Muestral; es el documento (lista, fichero,


libreta, etc.). Donde se consigna individualmente la
unidades muéstrales, de modo que se puedan sortear
todo los elementos de la muestra esta documento es
indispensable cuando se aplica muestreo probabilística.
El marco muestral debe estar perfectamente actualizado
sin omisiones de ningún tipo Ejemplo parco los
ciudadanos los registros electorales son importantes
para selecciono- los miembros de las cedillas
electorales, para hogares y viviendas en el ministerio de
vivienda existen cedillas especiales que sirven de
información para el Instituto Nacional de Estadística.

Para las empresas turísticas, empresas de producción y


establecimientos industriales el melar marco para la
6
Métodos Estadísticos Varela/Llanos /Asnate

muestra a este respecto lo da el registro que lleva al día


las características de la razón social (SUNAT, Registro
Públicos).

1.7. TIPOS DE MUESTREO PROBABILISTICO.


1. Muestreo Aleatorio Simple. Es un procedimiento de
selección de una muestra por el cual todos y cada uno
de los elementos de la población tienen una
oportunidad igual e independiente de ser incluidos en la
muestra además si se toma la muestra de tamaño “n”
cualquier muestra posible de “n” elementos tiene la
misma probabilidad de ser extraída que cualquier otra
combinación de “n” elementos.

Ya que la muestra se selecciona con o sin reposición,


una muestra aleatoria simple se extrae por selección
aleatoria empleando números aleatorios o colocando los
elementos de la población numerados del 1 a N
elementos

2. Muestreo estratificado.
Es un método que trata de diseñar una muestra más
eficiente que la que se tiene por un procedimiento
simple, el muestreo estratificado requiere que la
población este dividida en grupos homogéneas o clases
llamadas estatus. Para seleccionar muestras se toman de
cada uno de los estratos y hacer las respectivas
estimaciones de los parámetros mas usados: Promedio,
Desviación estándar o desviación típica, o error típico,
coeficientes de variación y otros.
7
Métodos Estadísticos Varela/Llanos /Asnate

3. Muestreo Sistemático:
El muestreo sistemático es otra forma de seleccionar
“n” elementos de una población de tamaño “N”, donde
se seguirá un orden pre establecido es decir tomando
elementos cada cierto número constante de espacios o
cada cierto número de elementos, puesto que las
unidades para este tipo de muestreo deben estar
ordenadas o factibles de ser ordenados, su aplicación
generalmente es en estudio de archivos, estudio de
clientes, etc.

4. Muestreo de Conglomerados.
Se refiere al procedimientos se refiere al procedimiento
de dividir a la población en grupos o conglomerados de
unidades o elementos de la población y se extrae
muestras de conglomerados que representen a la
población cuando se observan todas las unidades
elementales en las agrupaciones muéstrales se conoce
como el nombre de muestreo monoetapico, cuando se
extrae una muestra de todas las agrupaciones se conoce
con el nombre de bietapico en ambos procedimientos
también se muestrea aleatoriamente.

5. Muestreo por Áreas.


El muestreo por áreas es un procedimiento practico por
áreas de listado que proporciona hueros marcos para
seleccionar diferentes zonas: viviendas, zonas
turísticas, zonas residenciales, etc. El muestreo por
áreas también se emplea para seleccionar muchas clases
de muestras: tiendas, granjas, flora, fauna, cosechas,
8
Métodos Estadísticos Varela/Llanos /Asnate

otras; Aunque que por su movilidad agrega huevas


complicaciones.
El muestreo por áreas constituye un marco conveniente
y efectivo para las viviendas y las personas, esto se
debe a varias razones.
a) El empleo de mapas permite identificar claramente a
toda la población de viviendas (conglomerados).
b) Esta identificación posee permanencia, durante el
periodo de encuesta a partir del momento de listado.
c) El trabajador de campo con rapidez y claridad las
fronteras de manzanas y segmentos, y a las viviendas
dentro de ellos.
d) La vivienda sirve de medio conveniente para el
muestreo de personas, puesto que se identifica con
facilidad, es relativamente estable, suele contener pocas
personas, y se pueden identificar, de manera única, a
toda persona con una sola vivienda. En consecuencia, la
vivienda sirve de unidad de muestreo única e
identificable para un conglomerado pequeño de
personas, y de otras poblaciones que puedan asociarse
fácilmente con las viviendas.

1.8. MUESTREO E INVESTIGACIONES


MUESTRALES.
Las páginas anteriores se han dedicado a la variedad de
técnicas que pueden aplicarse en la descripción y análisis de
las observaciones. En el presente capitulo nos interesamos
por algunos de los problemas que se presenten en la
recogida de información estadística, hablamos que los
grandes avances efectuados en las últimas décadas en
9
Métodos Estadísticos Varela/Llanos /Asnate

cuando a la cantidad y alcance de las informaciones (datos a


investigarse en los diferentes aspectos: Negocios, problemas
sociales, problemas públicos y gubernamentales). El
conocimiento estadístico proporciona los mejores bases
para tomar las muestras en las investigaciones y luego
tomar ¡ti respectivas decisiones.
Por eso muestro interés también es en el campo
demográfico de las poblaciones humanas. Por eso el
proceso del analices estadístico descansa en la inferencia
estadística, muestreo estadístico e investigación científica.
Al exponer la teoría de las distribuciones en el muestreo y
de los errores de muestreo los científicos e investigadores
sientan las condiciones de las probabilidades y sus
aplicaciones en el muestreo. Como la aplicación de los
métodos de la probabilidad para optimizar las
investigaciones.

TÉRMINOS BÁSICOS
PARAMETROS POBLACIONALES
El PARAMETRO es una función de los valores de todas las
N unidades de la población. Este valor es único, constante y
por lo general desconocido.
Entre los parámetros más usuales tenemos:
MEDIA POBLACIONAL
Es la media aritmética de los valores de la variable
poblacional en estudio. Se obtiene dividiendo el total
poblacional por el número de unidades de la población. Se
denota por Y o X . Así:
Y X
Y= X=
N N
10
Métodos Estadísticos Varela/Llanos /Asnate

VARIANZA POBLACIONAL
Llamamos varianza poblacional a la variabilidad de los
valores de la variable en estudios en la población y es
medida por la media aritmética del cuadrado de las
desviaciones de las observaciones poblacionales con
respecto a su media.
Se denota por  y2 así:
1 N
σ 2y =  (Yi-Y) 2
N i=1

A esta varianza se le denomina VARIANZA TEORICA por


su empleo en demostraciones de tipo teórico, pero como su
estimador es SESGADO se ha creído conveniente
modificarla a fin de obtener un estimador INSESGADO,
resultando así la VARIANZA PRÁCTICA, denotada y
definida por:

1 N
S2Y =  (Yi-Y) 2
N-1 i=1

La diferencia con la varianza teórica está en el


denominador, luego:
1
SY = 2
σY 2
La N-1 raíz cuadrada positiva de la varianza
se denomina DESVIACIÓN ESTANDAR
POBLACIONAL y se denota por  Y ó sY .
COEFICIENTE DE VARIACIÓN
Para medir la variabilidad poblacional independiente de las
unidades de medición. Se obtiene al dividir la desviación

11
Métodos Estadísticos Varela/Llanos /Asnate

estándar poblacional por la media poblacional. Se denota


por CV. Así:
σY
CV(Y)=
Y

Generalmente se expresa como porcentaje. El cuadrado del


CV se denomina VARIANZA RELATIVA.
Con el CV es posible comparar la variabilidad de diferentes
unidades. Ejemplo, variabilidad del consumo familiar en
diferentes áreas y países.

RAZÓN POBLACIONAL
Se obtiene dividiendo los totales o medias poblacionales
correspondientes a dos variables estudio, se denota por R,
Así:
Y Y
R= =
X X

Donde X, Y, X,Y son totales y medias poblacionales de las


variables en estudio.

COVARIANZA POBLACIONAL ENTRE DOS


VARIABLES ESTUDIO
Mide la variabilidad conjunta de dos variables y se obtiene
tomando la media de los productos de las desviaciones de
las observaciones con respecto a su media. Se denota por
σ YX o C(X, Y). Así:

1 N
C(X,Y)=σ YX =  (Yi -Y)(Xi -X)
N i=1

12
Métodos Estadísticos Varela/Llanos /Asnate

COEFICIENTE DE CORRELACIÓN LINEAL


POBLACIONAL ENTRE DOS VARIABLES
ESTUDIO
Mide la relación entre dos variables y se obtiene dividiendo
la covarianza por el producto de las desviaciones estándar
correspondientes a las variables estudio. Se denota por  XY .

σ XY
ρ XY =
σYσX

El coeficiente de correlación es un número puro que varía


desde -1 (perfecta correlación negativa) a través de 0 (No
existencia de correlación lineal) a + 1 (Perfecta correlación
positiva).

PROPORCIÓN POBLACIONAL
Si “A” unidades del total N poseen un cierto atributo o
pertenecen a una cierta categoría (tal como N° de viviendas
que no poseen desagüe), la proporción poblacional P de
tales unidades es:
A
P=
N

FORMAS DE SELECCIONAR UNA MUESTRA


1.1 MUESTRAS SIN REEMPLAZO.- Se obtiene una
muestra sin reemplazo cuando los elementos de la
población no se repiten en la muestra y esto se debe a que
una unidad seleccionada para integrar la muestra no es
devuelta a la población.
1.2 MUESTRAS CON REEMPLAZO.- Cuando los
elementos de la población se repiten en la muestra y esto se
13
Métodos Estadísticos Varela/Llanos /Asnate

debe a que la unidad seleccionada es devuelta a la población


antes de extraer otro elemento muestral.
NUMERO DE MUESTRAS
Si el muestreo es con reemplazo
Dada una población de N elementos hay Nn formas posibles
de seleccionar una muestra de tamaño n.
Ejemplo: sea N = 3 hogares de los cuales seleccionamos
muestras de tamaño n = 2, con reemplazo.
El número de muestras posibles es: Nn = 32 = 9
Si denotamos por A, B y C a los tres hogares, las muestras
serían:
AA, AB; AC; BA; BB; BC; CA; CB; CC
Si el muestreo es sin reemplazo:
Considerando el orden es:
N!
N(N-1)(N-2)...(N-n+1)= = N Pn
(N-n)!

En nuestro ejemplo anterior, el número de muestras sería:


3!
3 P2 = =3x2=6
(3-2)! Muestras

Las muestras serían:


AB; AC; BC
BA; CA; CB
Note que AB  BA por el orden de los elementos
b) Sin considerar el orden:
Dada una población de tamaño N, el número de muestras de
tamaño n que pueden seleccionarse sin reemplazo y sin
considerar el orden es:
14
Métodos Estadísticos Varela/Llanos /Asnate

N!  N
= 
n!(N-n)!  n 

En nuestro ejemplo, muestras


 3
  =3
Las muestras serían:  2

AB, AC, BC

PROBABILIDAD DE SELECCIÓN DE UNA


MUESTRA DE TAMAÑO “n”
a) En muestreo con reemplazo:
La probabilidad es igual a: 1/Nn
b) En muestreo sin reemplazo:
b.1) considerando el orden

1 1
La probabilidad es igual a: =
N Pn N(N-1)...(N-n+1)

1 n!(N-n)!
b.2 Sin considerar el  orden:
 N N!
 
La probabilidad es igual a:  n 

PROBABILIDAD DE QUE UN ELEMENTO SE


ENCUENTRE EN LA MUESTRA.
a) Si el muestreo es con reemplazo:
La probabilidad es con reemplazo:
La probabilidad de seleccionar un elemento específico en la
primera ocasión es 1/N; como el 1er elemento es devuelto a
la población, la probabilidad de seleccionar el 2do elemento
también es 1/N y así para cualquier elemento específico en
cada una de las n ocasiones. Luego.
La probabilidad de que un elemento sea incluido en una
muestra de tamaño n será:
15
Métodos Estadísticos Varela/Llanos /Asnate

1/N + 1/N + … +1/N = n/N


b) Si el muestreo es sin reemplazo
La probabilidad de seleccionar un elemento específico en la
1era extracción es 1/N.
En la segunda extracción, la probabilidad será igual a la
probabilidad que sea seleccionado en la
 N-1   1  1
    =
2da extracción; esto  N   N-1  N es:

La probabilidad que un elemento específico sea


seleccionado en la 3era extracción es igual a:
Prob. que no sea Prob. que no Prob. que no
seleccionada en la 1ra x sea sea
seleccionada seleccionada
 N-1   N-2   1  1 en la 2da x en la 3ra
=    =
 N   N-1   N-2  N

y así sucesivamente para n extracciones. Por consiguiente:


la probabilidad de que un elemento sea incluido en una
muestra de tamaño n será n/N.
Nota: La probabilidad de que un elemento de la población
se encuentra en la muestra es igual a n/N tanto para
muestreo con y sin reemplazo.

MUESTREO ESTRATIFICADO
1. INTRODUCCION.
En ocasiones la población que se va a investigar se
fracciona o subdivide en grupos de características similares,
En cada subdivisión la población tiende a ser más

16
Métodos Estadísticos Varela/Llanos /Asnate

homogénea que en la población original y esto contribuye a


la exactitud del proceso de muestreo. Las subdivisiones de
la población forman una partición, de manera que cada
unidad pertenece a una y sólo una subdivisión y la unión de
todas ellas conforman la población..En cuanto al método de
selección y en parte al de estimación, a cada una de las
subdivisiones se le trata en forma independiente, aunque el
método de estimación las unirá en forma global. A un
esquema de este tipo se le conoce como MUESTREO
ESTRATIFICADO y a cada subdivisión trabajada de
manera independiente se le denomina ESTRATO.

Para obtener bases para la estratificación, la


población original a investigarse debe de ser estudiada
cuidadosamente; una buena estratificación ayuda aumentar
la precisión de la investigación realizada con una muestra.
Así, por ejemplo, la población del Perú se compone de
hombres, mujeres y niños de diferentes edades, grupos
sociales y ocupaciones. Estas características pueden influir
en los puntos de vista de las personas acerca del objeto de la
investigación y es posible por lo tanto, formar estratos con
personas de características similares, de tal manera que su
opinión pueda evaluarse con mayor precisión.

Si seleccionamos una muestra aleatoria dentro de los


estratos definidos ,el muestreo se denomina MUESTREO
ALEATORIO ESTRATIFICADO(st) y tiende a ser más
seguro que el muestreo aleatorio simple ya que las
características significativas de la. Población quedan
representadas adecuadamente en los diferentes estratos.
17
Métodos Estadísticos Varela/Llanos /Asnate

Una muestra aleatoria simple puede de hecho,


convertirse en la composición correcta de unidades de
muestreo, tomadas de los diversos estratos de una población
pero esto NO puede suponerse en todos los casos. Los
ERRORES DE MUESTREO, que, resultan de una muestra
aleatoria-simple serán mayores que los de una muestra-
aleatoria estratificada del mismo tamaño .Esto sucede
porque cuando se toma una muestra por el método aleatorio
simple hay que considerar dos clases de errores: los que se
encuentran DENTRO de cada estrato y los que hay ENTRE
dos estratos diversos. Por ejemplo, la gente que se halla en
determinado grupo socioeconómico puede tener
perfectamente otro punto de vista diferente del que tienen
los que están en otro grupo. Además, es probable que haya
algunas diferencias de opinión DENTRO de cada grupo
socio económico

Dado que las características de los estratos de la


muestra corresponden a las de la población, la variación
entre los estratos ya se tiene en cuenta cuando usamos. El
muestreo aleatorio estratificado.

Como se anotó antes, el proceso de selección


aleatoria sólo tiene lugar después de la estratificación; por
eso, los errores de muestreo sólo pueden surgir de una
fuente, esto es, de dentro de los estratos. Por lo tanto la
estratificación es más efectiva cuando la-MAYOR PARTE
DE LA VARIACION de la población es causada por la
variación entre los estratos. Los estratos deben por
18
Métodos Estadísticos Varela/Llanos /Asnate

consiguiente, diseñarse de tal manera que difieran


significativamente uno de otro y la población dentro de cada
estrato debe ser tan homogéneo como sea posible. De esta
manera los beneficios de la estratificación se explotan
completamente.

2. RAZONES RARA ESTRATIFICAR


El muestreo estratificado es ampliamente empleado por
varias razones, entre ellas tenemos:
a) Cuando se desea estimaciones por separado para
cada subdivisión de la población, tales como cuando en una
investigación sobre viviendas se requiere información para
grupos sociales diferentes o para grupos económicos
también diferentes.
b) Por conveniencias de tipo administrativo. Así por
ejemplo:
i) Un Centro de Investigación que tiene a cargo una
encuesta y que cuenta con filiales en los diferentes
departamentos del País, puede subdividir la población de
manera que cada una de ellas pueda supervisar la encuesta
en el ámbito correspondiente.
ii) Para una investigación gubernamental, el
País puede estratificarse por razones de costo y otras
conveniencias, en regiones geográficas, tal como Costa,
Sierra y Selva para las cuales el gobierno tiene una
determinada infraestructura administrativa.
c) Cuando para cada tipo de subpoblación hay
problemas muestrales específicos. Así por ejemplo, sí se
desea estimar las ventas de los establecimientos

19
Métodos Estadísticos Varela/Llanos /Asnate

comerciales, se pueden estratificar de acuerdo al volumen


de ventas, o área que ocupa el local o número de empleados.
d) Para lograr ganancia en precisión en los estimadores
de las características poblacionales. Una población
heterogénea se subdivide en subpoblaciones homogéneas,
en donde las unidades varían muy poco de una unidad a
otra, logrando de esta manera decisión con una muestra
muy pequeña en cada estrato. La ganancia en precisión es
superior a la del muestreo aleatorio simple.

3 . NOTACIONES:
h : Denota el estrato ( h = 1, ... L)
i : Denota la unidad dentro del estrato
L : Denota el número de estratos.
Nh: Número de unidades en el estrato “h” o tamaño de
estrato.
nh : Número de unidades de la muestra seleccionada en el
estrato “h” o tamaño de muestra en el estrato h.
yhi: indica el valor de la i-ésima unidad observada en el
estrato “h”

Nh
Wh = : Ponderación del estrato “h” en la
N
población

nh
fh = : Fracción de muestreo en el estrato “h”
Nh

20
Métodos Estadísticos Varela/Llanos /Asnate

Nh

Y
i=1
hi
Yh = : Media del estrato "h"
Nh
nh

y hi
yh  Medía de la muestra del estrato “h”
nh
(Estimador insesgado de Yh )
Nh

 (Y hi  Y h )2
Sh2  Varianza Práctica del estrato “h”
Nh 1
nh

(y hi  y h )2
sh2  Varianza de la muestra en el estrato
nh  1
“h”.
Y h  Nh y h Estimador insesgado del Total del
Estrato “h”

4. ESTIMADORES
A.-ESTIMADOR DE LA MEDIA POBLACIONAL ( y st )
El estimador de la media poblacional en el muestreo
estratificado es:
L L

Y h N h yh
y st  
N N
Donde:
yh : Media de la muestra en el estrato "h"

21
Métodos Estadísticos Varela/Llanos /Asnate

N = Nl +….+ NL : Tamaño de la población

st : denota Muestreo Estratificado.


B. ESTIMADOR DEL TOTAL POBLACIÓNAL
Si se desea estimar el valor total de una característica
usando muestreo estratificado, empleamos la siguiente
expresión:
Yˆ  N y
st st

C. ESTIMADOR DE LA RAZON POBLACIONAL


Si el valor de dos variables estudio para la i-ésima
unidad (i= l,..N ) en el h-ésimo estrato es denotada por Yhi y
Xhi respectivamente, el estimador de la razón poblacional es
dado por:

Rˆ  st
Xˆ st
NOTA.
1) Los estimadores del. Total y de la medid poblacional son
insesgados.
2) El estimador de razón poblacional es consistente pero
sesgado.
3) Los estimadores del total, la media y la razón son los
mismos para muestreo sin y con remplazamiento.
A medida de resumen presentamos el cuadro siguiente:

22
Métodos Estadísticos Varela/Llanos /Asnate

TOTAL, MEDIA Y RAZON DE DOS TOTALES


POBLACIONALES Y SUS; ESTIMADORES
Para el h-ésimo Para la población
estrato
Parámetro Parámetro
Estimador Estimador
(a) (b) (c) (d)
Para una
variable Nh L L

estudio Yh  
i 1
Yhi ; Yˆ
h  N y
h h Y  
h 1
Yh ; y st  
h 1
Yh  Yst
TOTAL
Yh Y
MEDIA Yh  ; yh Y ; yst / N  Yˆst / N
Nh N
Para una
variables Yh y
estudio Rh  ; rh  h
Xh xh Y
RAZON R ; Rˆ st  Yˆst / Xˆ st  rst
DE X
TOTALE
S

23
Métodos Estadísticos Varela/Llanos /Asnate

PROBLEMAS RESUELTOS
1.- En una población con N = 6, A = 4 y A’ = 2, calcular el
valor de a para todas las posibles muestras simples
aleatorias de tamaño 3.
a) Verificar los teoremas dados para la media y la
varianza.
b) Verificar que:
N n Es un estimador insesgado de la varianza de
pq
( n  1) N
p.
Solución
a) Si el muestreo es sin reemplazo el número total de
muestras a seleccionar será:
 N   6
      20
 n   3
A 2 A
P  ; Q  1/ 3
N 3 N
Ahora, sea A1, A2, A3, A4 los elementos de A y B1, B2 los
elementos de A, entonces tenemos:
Muestras a p q Pq (p –
P2)
(1) A1A2A3 3 1 0 0 1/9
(2) A1A2A4 3 1 0 0 1/9
(3) A1A2B1 2 2/3 1/3 2/9 0
(4) A1A2B2 2 2/3 1/3 2/9 0
(5) A1A3A4 3 1 0 0 1/9
(6) A1A3B1 2 2/3 1/3 2/9 0
(7) A1A3B2 2 2/3 1/3 2/9 0
(8) A1A4B1 2 2/3 1/3 2/9 0
(9) A1A4B2 2 2/3 1/3 2/9 0
(10) A1B1B2 1 1/3 2/3 2/9 1/9
(11) A2A3A4 3 -1 0 0 1/9
(12) A2A3B1 2 2/3 1/3 2/9 0
24
Métodos Estadísticos Varela/Llanos /Asnate

(13) A2A3B2 2 2/3 1/3 2/9 0


(14) A2A4B1 2 2/3 1/3 2/9 0
(15) A2A4B2 2 2/3 1/3 2/9 0
(16) A2B1B2 1 1/3 2/3 2/9 1/9
(17) A3A4B1 2 2/3 1/3 2/9 0
(18) A3A4B2 2 2/3 1/3 2/9 0
(19) A3B1B2 1 1/3 2/3 2/9 1/9
(20) A4B1B2 1 1/3 2/3 2/9 1/9
40/3 32/9 8/9

b) b.1.-
E( p)   pi Pr ob( pi)  (40 / 3)(1/120)  2 / 3  P
Luego: E (p) = P
b.2.-
V ( p)   ( pi  P)2 Pr ob( pi)   ( pi  P)2 (1/ 20)
= (8/9) (1/20) =
2/45
Por otra parte:
PQ  N  n  (2 / 3)(1/ 3)  6  3 
     (2 / 27)(3 / 5)  2 / 45
n  N 1  3  5 

Luego: PQ  N  n 
n  N 1 
N n (6  3)
c) E ( s 2p ) 
(n  1) N
E ( pq) 
(3  1)6
 pi qi Pr ob( Pq
i i)

 (3/12) pi qi (1/ 20)


= (3/12) (1/20) (32/9) = 2/45 =
V(p)
Luego, s 2p es un estimador insesgado de V (p).

25
Métodos Estadísticos Varela/Llanos /Asnate

2.- En una muestra simple aleatoria de 200 obtenida de una


población de 2000 colegios, 120 de éstos estuvieron a favor
de una propuesta, 57 se opusieron y 23 se abstuvieron de
opinar. Estimar los límites de confianza al 95% para el
número de colegios en la población que favorecieron la
propuesta.
Solución:
Proporción de colegios a favor de la propuesta:
p = a/n = 120/200 = 0.6
Límites de confianza para P, usando la aproximación
normal:
p   Z ( N  n) / N pq / n  1  1/ 2n 

0.6  1.96 (1  200) / 2000 0.6(0.4) /199  1/ 400 

0.6  0.0669
De donde: LSp = 0.6669 LIp = 0.5331
Luego los límites de A en la población serán:
LSA = NLSp = 2000(0.6669) = 1334
LSA = NLSp = 2000(0.5331) = 1066
Por consiguiente, con el 95% de confianza, el número de
colegios a favor de la propuesta se encuentra entre 1,066 y
1334.

3.- En los resultados de la muestra anterior se obtiene una


evidencia contundente de que la mayoría de los colegios en
la población favorecieron la propuesta.
Solución:
a. Hipótesis Estadística:
Ho P = 0.5
Ha P = 0.5

26
Métodos Estadísticos Varela/Llanos /Asnate

b. Nivel de significancia:
 = 0.05
c. Distribución para la prueba: Distribución normal
d. Función Pivotal:
pP
z
sp
e. Valor Experimental:
0.6  0.5
zo   3.039
0.0329
Donde:
N n
s 2p  pq
(n  1) N
2000  200
 (0.6)(0.4)
(200  1)2000
= 0.00108
Luego: sp = 0.0329
f.- RR y RA de Ho
RA/Ho: Si z < 1.64 se acepta Ho
RA/Ho: Si z > 1.64 se acepta Ho
g. como zo pertenece a la RR/Ho, entonces se acepta H1
h. Conclusión: La mayoría de los colegios están a favor
de la propuesta.
Nota: Z = 3.039 le corresponde una probabilidad de 0.0012,
o sea que la prueba es casi concluyente; pues se acepta Ha
con el 0.12% de participación del azar.

4.- Una población con N = 7 consiste de los elementos de


M1, C1, C2, C3, D1, D2 y D3. Se toma una muestra simple
aleatoria de tamaño 4 con el fin de estimar la proporción de
C respecto a C + D.

27
Métodos Estadísticos Varela/Llanos /Asnate

a) Calcule las distribuciones condicionales de esta


proporción, p.
b) Verifique la fórmula de su varianza condicional.
Solución:
a)
Clase Ai Unidades
1 1 M1
2 3 C1, C2, C3
3 3 D1, D2, D3
Donde: N = 7 y N’ = C + D = 3 + 3 = 6
Ahora, con n = 4 deseamos estimar:
A2 C 3 1
P   
A2  A3 C  D 3  3 2
7
En general existen    35 muestras diferentes de tamaño
 4
4 y las cuales son:
M1C1C2C3 M1C1C2D1 M1C1C2D2 M1C1C2D3 M1C1C3D1
M1C1C3D2 M1C1C3D3 M1C2C3D1 M1C2C3D2 M1C2C3D3
M1C1D1D2 M1C1D1D3 M1C2D1D2 M1C2D1D3 M1C3D1D2
M1C3D1D3 M1C1D2D3 M1C2D2D3 M1C3D2D3 M1D1D2D3
C1C2C3D1 C1C2C3D2 C1C2C3D3 C1C2D1D2 C1C2D1D3
C1C2D2D3 C1C3D1D2 C1C3D1D3 C1C3D2D3 C2C3D1D2
C2C3D1D3 C2C3D2D3 C1D1D2D3 C2D1D2D3 C3D1D2D3

28
Métodos Estadísticos Varela/Llanos /Asnate

Distribución condicional, para n’ = 3:


 A   A   A  A3 
P (a2/A2, A3, n, n’) =  2   3  /  2 
 a2  a3   a2  a3 
 3  3   6 
P (3/3, 3, 4, 3) =    /   = 1/20
 3  0   3 
 3  3   6 
P(2/3, 3, 4, 3) =    /   = 9/20
 2  1   3 
 3  3   6 
P(1/3, 3, 4, 3) =    /   = 9/20
 1  2   3 
 3  3   6 
P(0/3, 3, 4, 3) =    /   = 1/20
 0  3   3 
Distribución condicional para n’ = 4
 3  3   6 
P(3/3, 3, 4, 4) =    /   = 1/5
 3  1   4 
 3  3   6 
P(2/3, 3, 4, 4) =    /   = 3/5
 2  2   4 
 3  3   6 
P(1/3, 3, 4, 4) =    /   = 1/5
 1  3   4 
b) Para n’ = 3 y donde
a2 = N° de elementos muestrales que pertenecen a C
a3 = N° de elementos muestrales que pertenecen a D
P = 3 / (3+3) = 1/2
b.1.- E ( p)  1x10  (2 / 3)(9 / 20)  (1/ 3)(9 / 20)  (0)(1/ 20) 
1/2
Luego, E(p) = P
b.2.-  p2   ( p  P)2 Pr ob. Cond . 

29
Métodos Estadísticos Varela/Llanos /Asnate

= (1/2)2 (1/20) + (1/6)2 (9/20) + (-1/6)2 (9/20) + (-


1/2)2 (1/20)
= 1/20
Por otra parte,
 N ' n '  PQ  6  3  (3 / 6)(3 / 6)
     1/ 20
 N 1  n '  6 1  3
Por consiguiente se cumple la formula:
 N ' n '  PQ
 p2   
 N ' 1  n '

CUADRO DE CALCULOS PARA n’ = 3


Muestras

Cond.
Prob.

(p-P)
a2

a3

M1C1C2C3 3 0 1 1/20 1/2 M1C1D1D2 2 1 1/3 -1/6


M1C1C2D1 2 1 2/3 1/6 M1C1D1D3 1 2 1/3 -1/6
M1C1C2D2 2 1 2/3 1/6 M1C2D1D2 1 2 1/3 -1/6
M1C1C3D3 2 1 2/3 1/6 M1C2D1D3 1 2 1/3 -1/6
M1C1C3D1 2 1 2/3 9/20 1/6 M1C3D1D2 1 2 1/3 9/20 -1/6
M1C1C3D2 2 1 2/3 1/6 M1C3D1D3 1 2 1/3 -1/6
M1C1C3D3 2 1 2/3 1/6 M1C1D2D3 1 2 1/3 -1/6
M1C1C3D1 2 1 2/3 1/6 M1C2D2D3 1 2 1/3 -1/6
M1C2C3D2 2 1 2/3 1/6 M1C3D2D3 1 2 1/3 -1/6
M1C2C3D3 2 1 2/3 1/6 M1D1D2D3 0 3 0 1/20 -1/2

Cuadro de cálculos para n’ = 4

30
Métodos Estadísticos Varela/Llanos /Asnate

Muestras

Cond.
Prob.

(p-P)
a2
a3
p
C1C2C3D1 3 1 3/4 1/5 ¼ C1D1D2D3 1 3 1/4 1/5 -1/4
C1C2C3D2 3 1 3/4 1/4 C2D1D2D3 1 3 1/4 -1/4
C1C2C3D3 3 1 3/4 1/4 C3D1D2D3 1 3 1/4 11/4
C1C2D1D2 2 2 2/4 1/4
C1C2D1D3 2 2 2/4 0
C1C2D2D3 2 2 2/4 0
C1C3D1D2 2 2 2/4 3/5 0
C1C3D1D3 2 2 2/4 0
C1C3D2D3 2 2 2/4 0
C2C3D1D2 2 2 2/4 0
C2C3D1D3 2 2 2/4 0
C2C3D2D3 2 2 2/4 0

Para n’=4:
b.1.- E( p )   pi Pr ob. Cond . pi
= (1/5)(3/4)+(2/4)(3/5)+(1/4)(1/5) = 1/2
Luego se cumple la relación:
E (p) = P
b.2.- V( p )   ( p  P)2 Pr ob. Cond . pi
= (1/4) (1/5) + (0) (3/5) + (-1/4) (1/5) =
= 1/40
Por otra parte,

 N ' n '  PQ  6  4  (1/ 2)(1/ 2)


     1/ 40
 N ' 1  n '  6  1  4
Luego, la relación:

31
Métodos Estadísticos Varela/Llanos /Asnate

 N ' n '  PQ
V( p )    Se cumple
 N ' 1  n '

5.- Se eligió una muestra aleatoria simple de 290 familias de


un área de la ciudad conteniendo 14,828 familias. A cada
familia se le preguntó si la casa era suya o rentada y
también si tenían el uso exclusivo de un baño interior. Los
resultados fueron como sigue.

Propietario Rentada Total


Uso
exclusivo de Si No Si No
baño
141 6 109 34 290

a) Para familias que rentan, estimar el porcentaje en el


área de familias que cuentan con un baño interior de
uso exclusivo y dar el error estándar de su
estimador.
b) Estimar el número total de familias que rentan casa
en el área y que no tienen un baño interior para uso
exclusivo y da el error estándar de este estimador.

Solución
a) Estimador del porcentaje de familias en el área, que
cuentan con baño interior de uso exclusivo:

p  pˆ  a / n '  109 /143  76.2% Con:

32
Métodos Estadísticos Varela/Llanos /Asnate

 n '  pq  143  (0.762)(0.238)


V ( p)  1    1    0.0012648
 N  n ' 1  14828  142

y DE ( p)  0.0012648  3.6%

b) Como el número de familias en el área que rentan


casas no es conocido, el estimador será:
N 14,828
Aˆ  a  (34)  1738 familias
n 290
Con un error estándar de:
S

 Aˆ   N (1  n / N )
pq
n 1
donde; pˆ  a / n  34 / 290  0.1172

(0.1172)(0.8828)
 (14,828) (1  290 /14828)
289
= 14,828 (0.018735)
= 278 familias

6.- Si en el ejercicio anterior el número total de familias que


rentan casa en el área de la ciudad es de 7,526, construya un
nuevo estimador del número de arrendatarios que no
cuentan con la facilidad de un baño exclusivo y dar el error
estándar de este estimador.
Solución:
Estimador de la proporción:
p̂  p = 34/143 = 0.237762237 = 0.2378
Estimador del total:
  Np = 7526(0.2378) = 1,789 familias
33
Métodos Estadísticos Varela/Llanos /Asnate

Error estándar del estimador:


pq
sAˆ  N (1  n / N )
n 1
(0.2378)(0.7622)
= 7,526 (1  143/ 7526)
142
= 7,526 (0.99045) (0.03573) = 276.6
Luego, DE ( Â ) = 268 familias

7.- En la muestra de 30 familias dada en el cuadro siguiente,


se refiere al número de visitas al dentista realizadas en el
último año. Estimar la varianza de la proporción de
personas que vieron a un dentista y comparar ésta con el
estimador de la varianza Binomial.
Solución:
Sea
ai, N° de personas que visitaron al dentista
mi N° de integrantes por familia
Luego, la proporción de personas que visitaron al dentista
será:

p
a i
= 22/104 = 0.21154 = 21.15%
m i

Con una varianza de:


(1  f )  ai  2 p  ai mi  p  mi
2 2 2

V ( p) 
nm 2 n 1
Donde: n es el tamaño de muestra de conglomerados
(familias)
m es el tamaño familiar promedio = m/n = 104/30

34
Métodos Estadísticos Varela/Llanos /Asnate

= 3.4667
personas
Como N es desconocido, asumimos que n/N tiende a
0
Luego:
1  32  2(0.21154)(87)  (0.21154(404) 
V ( p)  2   0.00184
30(3, 46667)  29 
Ahora varianza Binomial:
pq
V( p )  Donde n es el número de personas que
n
consultaron al dentista
(0.21154)(0.7884)
  0.001603
104
Por consiguiente podemos concluir que la varianza
Binomial es menor que la hipergeométrica.
INFORMACIÓN DE UNA MUESTRA SIMPLE
ALEATORIA DE 30 FAMILIAS
N° de N° de Dr. Visto No miai a 2 mi2
i
familia persona en el año
s s Si (ai)
mi
1 5 1 4 5 1 25
2 6 0 6 0 0 26
3 3 1 2 3 1 9
4 3 2 1 6 4 9
5 2 0 2 0 0 4
6 3 0 3 0 0 9
7 3 1 2 3 1 9
8 3 1 2 3 1 9
9 4 1 3 4 1 16
10 5 0 4 0 0 16
11 3 1 2 3 1 9

35
Métodos Estadísticos Varela/Llanos /Asnate

12 2 0 2 2 0 4
13 7 2 5 14 4 49
14 4 1 3 4 1 16
15 3 0 3 0 0 9
16 5 1 4 5 1 25
17 4 4 0 16 16 16
18 4 1 3 4 1 16
19 3 1 2 3 1 9
20 3 0 3 0 0 9
21 4 1 3 4 1 16
22 3 0 3 0 0 9
23 3 1 2 3 1 9
24 1 0 1 0 0 1
25 2 0 2 0 0 4
26 4 0 4 0 0 16
27 3 1 2 3 1 9
28 4 1 3 4 1 16
29 2 0 2 0 0 4
30 4 0 4 0 0 16

8.- Supongamos que el coeficiente de variación del ingreso


monetario de las granjas de pollos del lugar es del 100%.
De que tamaño se requiere una muestra de granjas; si se
desea un error tolerable de  5% con una confianza del
95%; para una zona con 2,000 granjas; b) una zona con 200,
000; c) una zona con 5’000,000 granjas.
Solución:
Z 2S 2 Z 2
Si CV = 100%, entonces S = X; luego: no  
(dx)2 d 2
= (1.96)2 / (0.05)2 = 1,536.64
Ahora como no/N es mayor que el 5%, entonces corregimos.
Esto es:

36
Métodos Estadísticos Varela/Llanos /Asnate

1,536.64
n  869 granjas
1536.64
1
2, 000
b.- Para una zona con 200,000:
no/N = 1536.64/200,000 = 0.768% que es menor del 5%
Por consiguiente “n” óptimo es igual a:
n = 1,537
c.- Para una zona con 5’000,000 de granjas
no/N = 0.03073% que es menor del 5%
Por consiguiente, el tamaño de muestra óptimo, será igual a:
n = 1,537
Nota: A mayor tamaño de población no corresponde mayor
tamaño de muestra; esto se puede apreciar en el ejercicio. El
tamaño de muestra está en relación con el coeficiente de
seguridad y la precisión.

9.- En un distrito conteniendo 4,000 casas va a ser estimado


el porcentaje de propietarios con un error estándar no mayor
de 2% y el porcentaje de familias con dos carros con un
error estándar de no mas del 1% (las cifras 2 y 1% son
valores absolutos, no coeficientes de variación). Se piensa
que el verdadero porcentaje de propietarios está entre el 45
y el 65% y el porcentaje de familias con dos carros entre el
5 y el 10%. Que tan grande se necesita tomar la muestra
para satisfacer los dos objetivos?

Solución
a) Para propietarios:
N  n PQ
V( p )   (0.02) 2
N 1 n
37
Métodos Estadísticos Varela/Llanos /Asnate

Luego, el tamaño de muestra será:

i) Para P = 45%
(4000  n) (0.45)(0.55)
 0.0004
3999 n
De donde
n = 535.945

ii) Para P = 65%


(4000  n) (0.65)(0.35)
 0.0004
3999 n
de donde
n = 498.057

b) Para famílias de dos carros:


N  n PQ
V( p )   (0.01) 2
N 1 n

i) Para P = 5% = 0.05
(4000  n) (0.05)(0.95)
 0.0001
3999 n
de donde
n = 424.67
ii) Para P = 10% = 0.10
(4000  n) (0.10)(0.90)
 0.0001
3999 n
de donde
n = 734.84

38
Métodos Estadísticos Varela/Llanos /Asnate

Por consiguiente, para satisfacer los 2 objetivos se necesita


tomar una muestra de 735 casas; este tamaño corresponde a
familias con dos carros y P = 10%.
10.- En una población de 676 hojas de solicitud. Que tan
grande debe ser la muestra si se va a estimar el número total
de firmas con un margen de error de 1000 y una
probabilidad de 1 en 20. se contó el número de firmas por
hoja en una muestra previa de 50 hojas seleccionadas al azar
(muestra del 7% aproximadamente); obteniendo los
siguientes resultados:
N° de
42 41 36 32 29 27 23 19 16 15 14 11 10 9
firmas yi
Frecuenc
23 4 1 1 1 2 1 1 2 1 1 1 1 1
ia fi

7 6 5 4 3
1 3 2 1 1

Solución
La varianza de la muestra es:
s2 
1 
  fi yi2 
  fi yi  2   (1/ 49) 54, 497  (1471)2 
 50 
n 1 
  fi   

= 229
Suponiendo que el valor de s2 es el valor de s2 en la
población, entonces el tamaño de muestra previa para el
total de firmas será:
N 2 Z 2 S 2 N 2 Z 2 S 2 (676)2 (2)2 (229)2
no     418.59
d2 d2 (1000)2

39
Métodos Estadísticos Varela/Llanos /Asnate

no 418.59
Ahora, como   0.5947  0.05
N 676
Entonces, el tamaño de muestra para el total será:
n 418.59
n o   258.51  259 hojas
no 1  0.5947
1
N
Por consiguiente, para estimar el número total de firmas se
necesita una muestra de 259 hojas.¨

11.- Se va a realizar una encuesta para determinar la


existencia de enfermedades comunes en una población
grande. Para cualquier enfermedad que afecte cuando
menos al 1% de los individuos en la población, se desea
estimar el número total de casos, con un coeficiente de
variación de no más del 20%.
a) Que tamaño de muestra simple aleatoria es
necesaria, suponiendo que la presencia de la
enfermedad puede ser reconocida sin equivocación?
b) Que tamaño de muestra se necesita si se desea
obtener el número total de casos separadamente para
hombres y mujeres, con la misma precisión.

a) El coeficiente de variación del total es igual al


coeficiente de variación de p; luego:
p PQ / n Q
CV( p )   
P P n P

de donde:
Q 0.99
n 2
  2, 475 Individuos
CV( p )  P (0.20) 2 (0.01)

40
Métodos Estadísticos Varela/Llanos /Asnate

b) Cuando se requieren estimadores no sólo para la


población como un todo; sino para subdivisiones, tales
como áreas geográficas, sexo o grupos etareos de la
población, el tamaño de muestra obtenido para estimar los
valores poblacionales con una precisión dada, debe
incrementarse dado a que se requieren estimadores para las
subdivisiones con la misma precisión como los obtenidos
para la población.
Como regla general, tenemos:
Si se requieren estimadores con varianza V en cada una de
las k subpoblaciones, el tamaño de muestra será:
n' = kn
Donde n es el tamaño de muestra para toda la población con
la misma varianza V.
En nuestro caso, K = 2 y asumiendo que el número de
hombres y mujeres son aproximadamente iguales en la
población, obtenemos:
N’ = 2(2475) = 4,950 individuos.
12.- Los siguientes coeficientes de variación fueron
obtenidos en una encuesta de predios agrícolas en la unidad
fue una área de una milla cuadrada
Coeficiente
Características de Variación
Estimado %
Acres en predios agrícolas 38
acres de maíz 39
Acres de Avena 44
N° de trabajadores de la familia 100
N° de trabajadores contratados 110
Número de desempleados 317
41
Métodos Estadísticos Varela/Llanos /Asnate

Se planea una encuesta para estimar características de área


con un coeficiente de variación de 2,5% y -número de
trabajadores (excluyendo a los desempleados) con un
coeficiente de variación del 5%. Con una muestra simple
aleatoria. Cuantas unidades se necesitan? Que también se
supone que esta muestra estime el número de
desempleados?
Solución
a) Conocemos que:
  / n  / y CV ( y )
CV ( y )  y    De donde:
y y n n
2
 CV ( y ) 
n=  
 CV ( y ) 
Luego:
i) Tamaño de muestra para trabajadores:
El máximo coeficiente de variación para trabajadores
corresponde al número de contratados (excluyendo a
desempleados), para los cuales CV (y) = 1.10 y como se
desea CV ( y ) = 0.05; entonces:

2
 1.10 
n=  = 484 trabajadores
 0.05 
ii) tamaño de muestra según área:
El máximo coeficiente de variación en áreas corresponde a
acres en avena con un CV (y) = 0.44 y como se desea CV
2
 0.44 
(y) = 0.025, entonces: n=  = 310
 0.025 

42
Métodos Estadísticos Varela/Llanos /Asnate

De i) y ii) podemos concluir que el tamaño de muestra


requerido, será de n = 484, tamaño determinado por el
número de trabajadores
b) El coeficiente de variación para el N° de trabajadores sin
empleo y para un tamaño de muestra de n = 484, es:
 CV ( y ) 3.17
CV ( y )  y    0.144  14.40%
y n 484
13.- Por muestreo experimental, el valor promedio de una
variable aleatoria va a ser estimado con una varianza V =
(0.0005)2. Los valores de la variable aleatoria para las
primeras 20 muestras se muestran a continuación. ¿Cuántas
muestras adicionales se necesitan?
N° de muestra Valor de la V.A.
1 0.0725
2 0.0755
3 0.0759
4 0.0739
5 0.0732
6 0.0843
7 0.0727
8 0.0769
9 0.0730
10 0.0727
11 0.0712
12 0.0748
13 0.0878
14 0.0710
15 0.0754
16 0.0712
17 0.0757
18 0.0737
19 0.0704
20 0.0723

43
Métodos Estadísticos Varela/Llanos /Asnate

Solución
Sea yi el valor de la variable aleatoria, entonces:
n1 = 20 y i 1.4941 y 2
i  0.11197099

1    yi  
2
 2

s2   yi 
2
  1 0.11197099  (1.4941) 
n1  1  n1  19  20 
 

= 1.8644736 x 10-5
Luego:
s2  2  1.8644736 x105  2 
n 1    7 1    82
v  n1  2.5 x10  20 
y por consiguiente, se necesitarán:
n – n1 = 82 – 20 = 62 observaciones más

14.- Los colegios con programas de estudios de cuatro años,


fueron divididos en clases de 4 tamaños diferentes de
acuerdo con el número de matriculados. Las desviaciones
estándar de cada clase se muestran a continuación:
Clases
1 2 3 4
N° de < 1000 1000 - 3000 - + de
estudiantes 3000 10000 10,000
S 236 625 2008 10,023
Si conoce los límites de clase pero no los valores de S, ¿Qué
también puede estimar los valores de S usando cifras
matemáticas simples? Ningún colegio tiene menos de 200
estudiantes y el más grande tiene cerca de 50,000
estudiantes.

44
Métodos Estadísticos Varela/Llanos /Asnate

Solución
La relación entre el rango (R) y la varianza de la
distribución matemática puede utilizarse para estimar la
varianza. Deming (1,960) dio las siguientes reglas para
estimar la varianza dado el rango y si la forma de la
distribución era conocida o supuesta.

Coeficiente
Tipo de Desviación
Media Varianza de
Distribuc. Estándar
variación
Binomial (p) p(1- R
(1  p) / p
Rectangular (R) p)/R2 p(1  p)
Triangular I (1/2)R R2/12 0.58
0.29R
Triângulo (1/3)R R2/18 0.71
0.24R
II (2/3)R R2/18 0.35
0.24R
Normal (1/2)R R2/36 1/3
R/6

Si asumimos una distribución rectangular en cada estrato, el


rango (R) y la desviación estándar = 0.29 R se dan a
continuación:

Tamaño de clase de colegios


1 2 3 4
N° de 200 - 1000 - 3000 – 10,000-
estudiantes 1000 3000 10000 50000
Rango (R) 800 2,000 7,000 40,000
A) Actual 236 625 2,000 10,023
B) Estimada 232 580 2,030 11,600
(0.29R)

45
Métodos Estadísticos Varela/Llanos /Asnate

Si asumimos una distribución normal en cada estrato la


desviación estandar será:

Tamaño de clase de colegios


1 2 3 4
N° de 200 - 1000 - 3000 – 10,000-
estudiantes 1000 3000 10000 50000
Rango (R) 800 2,000 7,000 40,000
A) Actual 236 625 2,000 10,023
B) Estimada 133 333 1,167 6,667
(R/6)
Si asumimos una distribución triángulo en cada estrato la
desviación estándar será:

Tamaño de clase de colegio


1 2 3 4
N° de 200 - 1000 - 3000 – 10,000-
estudiantes 1000 3000 10000 50000
Rango (R) 800 2,000 7,000 40,000
A) Actual 236 625 2,000 10,023
B) Estimada 192 480 1,680 9,600
(R/6)
Nota. La distribución triángulo es de tipo I y Tipo II

46
Métodos Estadísticos Varela/Llanos /Asnate

APLICACION DEL MUESTREO ALEATORIO


SIMPLE.

Se desea estimar la remuneración promedio de las


Trabajadores del Sector Educación-provincia de Huaraz-con
10 a 20 años de servicios institucionales a Diciembre de
2007.Determinar:
i) El tamaño de muestra adecuado.
ii) Seleccionar los elementos muestrales
iii) Obtener las Estimaciones correspondientes a la
población descrita.
Solución
I.- DETERMINACION DEL TAMAÑO DE MUESTRA
ADECUADO.
Asumiendo que la población es grande, debemos aplicar la
fórmula Sgte:
2 2
 ZS   ZS 
no =     Tamaño de muestra preliminar
 d   %X 
o correspondiente al muestreo con REMPLAZO

Donde X y S son el promedio .y la desviación estándar de


las remuneraciones a Diciembre de 1,987; datos que pueden
obtenerse en las tres formas Sgtes:

1.1. EN BASE A DATOS ANTERIORES:


En la Oficina de Planeamiento, según documento interno de
trabajo se tiene que la remuneración promedio de los
elementos de la población, a JULIO de 1,987 fue
aproximadamente de:

47
Métodos Estadísticos Varela/Llanos /Asnate

X J = 3,209 Intis con SJ = 242 Intis


Conocedores que a Diciembre del mismo año el gobierno ha
otorgado aumento de haberes en aproximadamente el 30%
de la remuneración total; el promedio y. la desviación
estándar necesarios para determinar el tamaño de muestra
seria:
X D =M (1.30 XJ ) = 1.30 M(XJ) = 1.30(3209) = 4172 Intis
SD = DE (1.30 XJ). = 1.30 DE (XJ) = 314.6 = 315 Intis.
donde XJ : Remuneración a Julio ; M(XJ) :Promedio de las
remuneraciones a Julio.
Luego, el TAMAÑO DE MUESTRA PRELIMINAR para
una seguridad' del 95% (Z=1.96) y una precisión del 5% de
la remuneración promedio (error relativo) sería:
2 2
 1.96 x315   617.4 
n0      9
 0.05 x 4172   208.6 
para una precisión del 3% de la remuneración promedio
sería:
2 2
 1.96 x315   617.4 
n0       24
 0.03 x 4172   125.16 
para una precisión del 2% de la remuneración promedio
sería:
2 2
 1.96 x315   617.4 
n0       55
 0.02 x 4172   83.44 
Ahora, suponiendo que dispongo aproximadamente de una
semana para presentar el informe y que por lo limitado de
los recursos económicos, solo dos personas pueden
dedicarse a recolectar los datos; no queda otra alternativa
que asumir la muestra de tamaño n = 24 esto es, con una
precisión o error tolerable del 3%.

48
Métodos Estadísticos Varela/Llanos /Asnate

NOTA.- Si asumiera el tamaño de muestra n = 55; esto es


con un error tolerable del 2%, el tiempo para presentar el
informe sería rebasado. Veamos:
1 persona como máximo realiza 4 encuestas diarias; luego
55 encuestas se realizará en 14 días aproximadamente. Sí se
emplean dos encuestadores, se realizarán en 7 días.
Como podemos apreciar sólo el recojo de, datos, abarca la
semana disponible, faltando el procesamiento de datos y la
confección del informe final.
La confrontación del tiempo disponible y el de ejecución de
encuesta me conduce a descartar la precisión del 2% de la
remuneración.

I.2.- CRITERIO DEL RANGO


Bajo el supuesto que la población es grande, las
observaciones poblacionales seguirán una distribución
normal con:
X = R/2 y S = R/6, donde R = LS - Li
NOTA: Para obtener los límites es conveniente recurrir a
algunos elementos de la población o a personal que trabaja
muy cerca de los individuos de los cuales se requiere
información.
En nuestro ejemplo; consultando a profesores comprendidos
en nuestra población, se obtuvo:
Remuneración Mínima: Li = 4,000 soles
Remuneración máxima: Ls = 6,000 soles
Datos, que aproximadamente fueron muy próximos a los
proporcionados por el personal de pagaduría.
Luego:

49
Métodos Estadísticos Varela/Llanos /Asnate

6, 000  4, 000
X   5, 000
2
6, 000  4, 000
S   333
6
Por consiguiente, para una seguridad del 95% (Z = 1.96) y
un error relativo del 3% obtenemos:
2 2
no =  ZS    1.96 x333   19
   
 d   0.03 x5000 
(Tamaño muy próximo al calculado anteriormente)

1.3.- SELECCION DE MUESTRA PILOTO:


La muestra piloto además de servirnos para probar la,
bondad o exactitud de la encuesta principal, sus resultados
nos pueden servir para estimar la varianza poblacional,
sobre todo cuando ésta muestra por sí misma es una muestra
aleatoria simple.
Para obtener un tamaño de muestra adecuado se recomienda
ajustar la muestra piloto, mediante la expresión:
S12  2
n 1  
V  n1 

Donde; S12 y n1 son la varianza y tamaño de muestra,


piloto.
V = (d/Z)2

II.- SELECCION DE OBSERVACIONES


MUESTRALES.
Para determinar las observaciones poblacionales que pasan
a constituir la muestra usamos la tabla de números
aleatorios. En nuestro ejemplo:
1. Seleccionamos como arranque aleatorio la Fila 15 y
Columna 25. Esto es A(15,25)
50
Métodos Estadísticos Varela/Llanos /Asnate

2. Como el tamaño de población (N = 600) está


constituido por tres dígitos, en la tabla trabajamos
con tres columnas; la 25, 26 y 27. Así; nuestra
primera observación muestral será la observación
poblacional, con el número 149; la segunda será la
número-186 y así.
3. Al encontrar en la tabla un número superior al
tamaño de población, empleamos cualquiera de los
procedimientos que permiten su empleo. Para
nuestro ejemplo construimos los intervalos:
(1) 1 600
(2) 601 1,200
Como el límite superior del segundo intervalo supera al
tamaño poblacional deja de ser útil, reduciéndose nuestro
trabajo a restar 600 a todo número de tres cifras mayor al
tamaño poblacional. Así, obtenemos:

Fila Columnas Observaciones


25-26-27
15 149 X149
16 186 X186
17 782 X782 – 600 = X182
18 767 X767 – 600 = X167
19 702 X702 – 600 = X102

4.- Así, las observaciones poblacionales que pasan a


constituir la muestra (n = 24); esto es, los elementos del
marco muestral de los cuales se requiere información serán:

51
Métodos Estadísticos Varela/Llanos /Asnate

Obser Muest X1 X2 X3 X4 X5 X6 X7 X8
vació ral N°
no Pobla X14 X18 X18 X16 X10 X4 X43 X32
eleme cional 9 6 2 7 2 6 9 9
nto N°

X9 X10 X11 X12 X13 X1 X15 X1 X17 X18 X1


4 6 9
X23 X35 X14 X27 X16 X7 X19 X3 X19 X46 X4
4 4 3 6 9 6 1 2 0 7 8

X20 X21 X22 X23 X24


X14 X15 X67 X231 X122
III.- ESTIMACIONES
3.1 PUNTUALES:
i) Remuneración media: Xˆ  x  4, 622.29
ii) Total de remuneraciones:
Xˆ  N x  600(4, 622.29)  2 '773, 374
iii) Varianza y desviación Estándar de las remuneraciones:
Sˆ 2  s2  103,111.87
x x

Sˆ  sx2  321.11
2
x

3.2.- INTERVALICAS
Para la construcción de los intervalos de confianza para la
media y el total es necesario el cálculo de las varianzas de
los estimadores y para ello se requiere determinar el tipo de
muestreo a trabajar.
1) El tipo de muestreo se determina mediante la fracción
muestral. Así en nuestro ejemplo:
52
Métodos Estadísticos Varela/Llanos /Asnate

f = n/N = 24/600 = 0.04 < 5%


Luego, para obtener las varianzas asumimos el muestreo
con reemplazo.
2) Estimador de la varianza del Estimador:
De la media:
ˆ ˆ s 2 103,111.87
V (X )    4296.33
n 24
luego; s  65.55
x

Del total:
Vˆ ( Xˆ )  N 2 ( s 2 / n)  (600) 2 (4296.33)  1546678.800
Luego;
sx  39,327.84
Nota: Al trabajar con los estimadores de los estimadores,
sólo requerimos del tamaño de población; el resto, es
información muestral lo cual constituye una gran ventaja.

Intervalos de confianza:
Para la Media:
Xˆ  t( / 2n1 ) s Xˆ

4,487  x  4758
Así, la remuneración promedio de los docentes con 10 a 20
años de servicio a diciembre de 1987 y con una
probabilidad del 95% fluctúa entre 2’692.004.7 y
2’854,743.3
Nota: Se emplea el coeficiente de confianza t( / 2;n 1) por ser
la muestra menor de 30.
IV.- APLICACIONES

53
Métodos Estadísticos Varela/Llanos /Asnate

Suponiendo que el 3% de la remuneración se destina al


pago de alimentos del mes vencido, entonces, la
disponibilidad promedio para el próximo mes,
aproximadamente fluctuará entre 3,141 y 3,331

1. En una muestra de 40 familias de 6 miembros, se


encontró que el consumo promedio mensual es de 5 kg. con
una desviación estándar de 2.2 kg. si se conoce que el total
de familias en el sector es de aproximadamente de 4,000.
Determinar con una seguridad del 95% el número de sacos
de arroz necesarios para abastecer el consumo de dichas
familias.
Solución:

A. Estimador del total de kilos de arroz


Xˆ  4, 000(5)  20, 000kg
B. Desviación estándar del estimador:
Como n/N = 40/4,000 = 1% < 5%, entonces aplicamos el
muestreo con reemplazo.
Así,
s2 2(2.2)2
Vˆ ( Xˆ )  N 2  (4, 000)  1'936, 000
n 40
Luego; s  1,391.4 kg
x

C. Estimación Interválica
Xˆ  Z / 2 sx
20,000  1.96 (1391.4)
17,272.86  X  22,727.14 kg

54
Métodos Estadísticos Varela/Llanos /Asnate

El total de kg de arroz consumidos en el mes por familias de


6 miembros, con una seguridad del 95% fluctúa entre
17,272.86 y 22,272.14 kg.
Ahora, como cada saco de arroz contiene 50 kg; el número
de sacos necesarios por mes fluctuará entre 346 y 455 sacos
aproximadamente.
Si cada saco de arroz costara 500, entonces, la cantidad total
de dinero que importaría el abastecimiento fluctuará entre
173,000 y 227,500 mensuales.

2.- En un determinado hospital se llevan estadísticas de los


recién nacidos. En una semana nacieron 2,000 niños con
una talla promedio de 46 cm. A los siete meses de edad se
elige aleatoriamente a 30 de ellos obteniéndose su talla
correspondiente (yi), registrándose también su talla inicial
(xi) a partir de sus fichas de nacimiento. Si los datos son los
que se indican a continuación:

y 5 6 7 5 6 5 5 5 6 7 7 7 5 5 7
i 2 2 3 7 8 4 3 1 3 0 0 1 5 9 1
x 3 4 5 4 4 4 4 3 4 4 5 5 4 4 4
i 8 3 0 5 5 2 0 8 6 8 3 0 0 7 7

5 7 7 6 5 5 5 5 6 5 7 4 5 5 7
8 2 4 3 3 2 6 7 0 8 4 8 2 7 0
4 4 4 4 4 3 4 4 4 4 5 3 3 4 4
4 8 9 6 0 9 2 1 6 4 0 7 9 4 8
Estimar:
a) La talla media de los niños a los 7 meses de edad.
b) El error estándar del estimador.
55
Métodos Estadísticos Varela/Llanos /Asnate

c) Calcule el intervalo de confianza del 95% para la


talla media de los niños, en base:
c.1 La media muestral
c.2 La razón muestral
Solución:

Cálculos previos
y i  y  11391; s  8.1467
 1,833; 2
i y

sy2  66.368965;  x  1,329;  x  59, 403;


i
2
i sy  4.2681
sx2  18.217241
a) Talla media de los niños a los 7 meses de edad:
Yˆ  y  1,833/ 30  61.1cm.
b) Error estándar del estimador de la media:
Como n/N < 0.05, se emplea las formulas para las
poblaciones finitas.
c) Intervalo de confianza para la talla media de los
niños:
LI: 61.1 – (1.96) (1.48) = 58.1992
LS: 61.1 + (1.96) (1.48) = 64.008
Luego: 58cm  y  64cm.
La talla media de los niños a los 7 meses de haber
nacido, fluctúa entre los 58 y 64cm; con una
probabilidad del 95%.
C.2.Intervalo de confianza para la razón de
crecimiento de los niños.
LI: 1.3792 – (1.96) (0.0130)
Luego: 1.352  R  1.4062
LS: 1.3792 + (1.96) (0.0130)

56
Métodos Estadísticos Varela/Llanos /Asnate

El incremento de la talla de los niños a los 7 meses, con una


seguridad del 95%, fluctúa entre el 35 y 41% con respecto a
sus tallas al nacer.
Ni pi qi ci
=n L

N
k 1
k pk qk ck

Donde:
N, denota el tamaño del i-ésimo estrato
pi , denota la proporción poblacional para el i-ésimo estrato
ci , denota el costo por obtener una reservación individual
de i-ésimo estrato.

03.- una muestra irrestricta aleatoria de n = 9 registros del


hospital es seleccionada para estimar la cantidad promedio
de la deuda sobre N = 484 cuentas abiertas.
Los valores de la muestra para estos nueve registros están
listados en la tabla.
Estime, la cantidad promedio de la deuda, y establezca un
limite para el error de estimación.
Cantidad de dinero
adeudado
y1 33.50
y2 32.00
y3 52.00
y4 43.00
y5 40.00
y6 41.00
y7 45.00

57
Métodos Estadísticos Varela/Llanos /Asnate

y8 42.50
y9 39.00
Solución:
Es conveniente presentar los datos y cálculos de la
muestra como se indica en la tabla.
Al sumar las cantidades en la columna “y”,
obtenemos:
9

y
i 1
i = 368.00

De la columna de y 2 , tenemos
9

y
i 1
i
2
= 15,332.50

Datos y cálculos para el ejemplo


y y2
33.50 1,122.25
32.00 1,024.00
52.00 2,704.00
43.000 1,849.00
40.00 1,600.00
41.00 1,681.00
45.00 2,025.00
42.50 1,806.25
39.00 1,521.00
 yi 368.00  yi  15,332.50
2

Necesitamos estas dos cantidades para calcular Y y S2.


Nuestra estimación de  es:
9

y 1
368.00
y i 1
  40.39
9 9
58
Métodos Estadísticos Varela/Llanos /Asnate

Para encontrar un límite para el error de estimación,


debemos calcular:
2
n 9
 9 
 ( yi  y )2  yi    yi  / 9
2

2
S = i 1  i 1  i 1 
n 1 8
= 1 15,332.50  (368)   1 15,332.50  15, 047.11
2

8  9  8
= 35.67
Utilizando la ecuación, obtenemos el límite para el error de
estimación.
s2  N  n  35.67  484  9 
2 Vˆ ( y)  2   2  
n  N  9  484 

= 2 3.890 = 3.944 = S/ 3.94

4.- Una empresa industrial está interesada en el tiempo por


semana que los científicos emplean para ciertas tareas
triviales. Las hojas de control del tiempo de una muestra
irrestricta aleatoria de n = 50 empleados muestran que la
cantidad promedio de tiempo empleado en esas tareas es de
10.31 horas, con una varianza muestral s2 = 2.1. La
compañía emplea N = 750 científicos. Estime el número
total de horas-hombre que se pierden por semana en las
tareas insignificantes y establezca un límite para error de
estimación.
Solución:
Sabernos que la población consiste de N = 750 empleados,
de los cuales una muestra aleatoria de n = 50 hojas de
control del tiempo fue obtenida. La cantidad promedio de
tiempo que se pierde por los 50 empleados fue y = 10.31
horas por semana. La estimación de  es:
59
Métodos Estadísticos Varela/Llanos /Asnate

 = Ny = 750(10.31) = 7732.5 horas


A fin de establecer un límite para el error de estimación,
aplicamos la Ecuación, para obtener:
2/  2.25   750  50 
Vˆ( )  2 (750) 2   
 50   750 
= 2 23, 625 = 307.4 horas.
Por lo tanto la estimación del tiempo total perdido es  =
7732.5 horas. Estamos razonablemente confiados de que el
error de estimación es menor que 307.4 horas.

5.- La cantidad promedio de dinero  para las cuentas por


cobrar de un hospital debe ser estimada. Aunque no se
cuenta con datos anteriores para estimar la varianza
poblacional 2, se sabe que la mayoría de las cuentas caen
dentro de una amplitud de variación de $ 100. Existen N
=1000 cuentas abiertas. Encuentre el tamaño de muestra
necesario para estimar µ con un límite para el error de
estimación de B = $ 3.
Solución
Necesitamos una estimación de 2, la varianza poblacional.
Ya que la amplitud de variación es aproximadamente igual
a 4 desviaciones (4), un cuarto de tal amplitud
proporcionará un valor aproximado de  y Por lo tanto,
rango 100
   25
4 4
y  2  (25)2  625
Al usar la Ecuación, obtenemos:

60
Métodos Estadísticos Varela/Llanos /Asnate

N 2
n
( N  1) D   2
B 2 32
Donde D    2.25
4 4
1000(625)
Así, n  217.56
999(2.25)  625

Esto es, necesitamos aproximadamente 218 observaciones


para estimar µ, la media de las cuentas por cobrar, con un
límite para el error de estimación de $ 3.00

6. Los dirigentes del consejo estudiantil en un colegio


desean realizar una encuesta para determinar la proporción
de estudiantes que está a favor de una propuesta de código
de honor. Ya que entrevistar a N = 2000 estudiantes en un
lapso razonable es casi imposible, determine el tamaño de
muestra (número de estudiantes a entrevistarse) necesario
para estimar p con un límite para el error de estimación de
magnitud 13 = 0.05. Suponga que no hay información
previa disponible para estimar p.
Solución:
Cuando no se cuenta con información previa, podemos
aproximar los tamaños de muestra requeridos, estableciendo
p = 0.5 en la Ecuación. Tenemos que:
B 2 (0.05) 2
D   0.000625
4 4
Npq
n
( N  1) D  pq
= (2000)(0.5)(0.5)

500
(1999)(0.000625)  (0.5)(0.5) 1.499

61
Métodos Estadísticos Varela/Llanos /Asnate

= 333.56
Esto es, 334 estudiantes deben ser entrevistados para
estimar la proporción de estudiantes que está a favor de una
propuesta de código de honor, con un límite para el error de
estimación de B = 0.5.

7.- Con referencia al Ejemplo, supóngase que además de


estimar la proporción de estudiantes que apoya la propuesta
de código de honor, los dirigentes del consejo estudiantil
también desean estimar el número de estudiantes que
considera que la organización del consejo estudiantil
funciona de acuerdo a sus necesidades. Determine el
tamaño de muestra combinado que se requiere en una en-
cuesta para estimar p, la proporción de quienes están a favor
de la propuesta de código de honor, y 11 2, la proporción de
los que opinan que el consejo estudiantil funciona de
acuerdo con sus necesidades, con límites para los errores de
estimación de magnitud B1 = 0.05 y B = 0.07. Aunque no se
dispone de información anterior para estimar p2
aproximadamente el 60% de los estudiantes opinó que el
consejo satisfizo adecuadamente sus necesidades en una
encuesta similar llevada a cabo el año anterior.
Solución:
En este ejemplo debemos determinar un tamaño de muestra
que nos permita estimar p, con un límite B1 = 0.05 y p2 con
un límite B2 = 0.07. Primero determinamos los tamaños de
muestra que satisfacen cada objetivo separadamente. Luego,
el mayor de los dos será el tamaño de muestra combinado
para una encuesta que satisface ambos objetivos. Del
ejemplo el tamaño de muestra requerido para estimar p1 con
62
Métodos Estadísticos Varela/Llanos /Asnate

un límite para el error de estimación de B1 = 0.05, fue n =


334 estudiantes. Podemos usar los datos de la encuesta del
año anterior para determinar el tamaño de muestra necesario
para estimar p2. Tenemos que:
B 2 (0.07)2
D   0.001225
4 4
Y por lo tanto, con p2 = 0.60
n= Npq
( N  1) D  pq
= (2000)(0.6)(0.4) 480

(1999)(0.001225)  (0.6)(0.4) 2.68877
= 178.52
Esto es, 179 estudiantes deben ser entrevistados para
estimar p2, la proporción de N = 2000 estudiantes que
considera que el consejo estudiantil satisface sus
necesidades, con un límite para el error de estimación igual
a 0.07. El tamaño de muestra requerido para lograr ambos
objetivos en una encuesta es 334, el mayor de los dos
tamaños de muestra.

8.- Una empresa publicitaria está interesada en determinar


qué tanto debe enfatizar la publicidad televisiva en un
determinado municipio, y decide realizar una encuesta por
muestreo para estimar el número promedio de horas por
semana que se ve la televisión en los hogares del municipio.
Este comprende dos pueblos, pueblo A y pueblo B, y un
área rural, El pueblo A circunda una fábrica, y la mayoría
de los hogares son de trabajadores fabriles con niños en
edad escolar. El pueblo B es un suburbio exclusivo de una
ciudad vecina y consta de habitantes más viejos con pocos
niños en casa. Existen 155 hogares en el pueblo A, 62 en el
63
Métodos Estadísticos Varela/Llanos /Asnate

pueblo B y 93 en el área rural. Analice los méritos de usar


muestreo aleatorio estratificado en esa situación.
Solución:
La población de hogares se ubica en tres grupos naturales,
dos pueblos y un área rural, de acuerdo con su localización
geográfica. Entonces la población dividida en tres estrato,
bastante natural, simplemente por conveniencia
administrativa para seleccionar las muestras y para ejecutar
el trabajo de campo. Además, los elementos de cada estrato
deben presentar tendencias similares de comportamiento
entre ellos mismos. Se espera relativamente poca varia-
bilidad en el número de horas que se ve televisión en los
hogares de cada grupo, y este es precisamente el caso en
que la estratificación produce una reducción en el límite
para el error de estimación.
La empresa publicitaria puede desear producir
estimaciones por separado, del número promedio de horas
que se ve televisión en cada pueblo. El muestreo aleatorio
estratificado permite estas estimaciones.
Para la muestra aleatoria estratificada, tenemos N1
=155, N2 = 62 y N3 = 93, con N = 310.

9.- Suponga que se lleva a cabo la encuesta planteada en el


ejemplo. La empresa publicitaria tiene tiempo y dinero
suficientes para entrevistar n = 40 hogares, y decide
seleccionar muestras aleatorias de tamaño n1 = 20 del
pueblo A, n2 = 8 del pueblo B y n5 = 12 del área rural.
(Después analizaremos la elección de los tamaños de
muestras). Se seleccionan las muestras irrestrictas aleatorias
y se realizan las entrevistas. Los resultados, con mediciones
64
Métodos Estadísticos Varela/Llanos /Asnate

del tiempo que se ve la televisión en horas por semana, se


muestran en las tablas. Estime el tiempo promedio que se ve
televisión, en horas por semana, para (a) todos los hogares
en el pueblo A y (b) todos los hogares en el pueblo B. En
ambos casos fije un límite para el error de estimación. Los
términos s12 , s22 , s32 en la tabla son las varianzas muéstrales
para estratos 1, 2 y 3, respectivamente: fueron obtenidos
mediante la fórmula:

ni ni

 ( yi
j 1
j  yi )2 y
j 1
2
ij  ni yi2
si2  
ni  1 ni  1

Para i = 1, 2, 3 donde yij es la observación j-ésima en el


estrato i. Estas varianzas estiman las correspondientes
varianzas verdaderas en los estratos  12 ,  22 ,  32
Solución:
a) De la tabla y ecuación:
1
yst   N1 y1  N 2 y2  N 3 y3 
N
1
 (155)(33.900)  (62)(25.125)  (93)(19.000)
310
= 27.7
es la mejor estimación del número promedio de horas por
semana en que en todos los hogares del municipio se ve
televisión. También,
2  Ni  ni   si 
3 2
1
V ( y st ) 
N2
 N1   
i 1  Ni   ni 

65
Métodos Estadísticos Varela/Llanos /Asnate

=
1  (155)2 (0.871)(35.358) (62) 2 (0.871)(232.411) (93)2 (0.871)(87.636) 
 
(310)2  20 8 12 

La estimación de la media poblacional, con un límite para el


error de estimación aproximadamente dos desviaciones
estándar, está dada por:
yst  2 Vˆ ( y st ), 27.675  2 1.97, 27.7  2.8
Entonces estimamos que el número promedio de horas por
semana que se ve televisión en los hogares del municipio es
de 27.7 horas. El error de estimación debe ser menor que
2.8 horas, con una probabilidad aproximadamente igual a
0.95
(b) Las ni = 8 observaciones del estrato 2 constituyen una
muestra irrestrictamente aleatoria; por ello podemos aplicar
las formulas del capitulo anterior.
Tiempo que se ve televisión en horas por semana

Estrato 1, pueblo Estrato 2, pueblo Estrato 3, área


A B rural
35 28 26 41 27 4 49 10 8 15 21 7
43 29 32 37 15 41 25 30 14 30 20 11
36 25 29 31 12 32 34 24
39 38 40 45
28 27 35 34

66
Métodos Estadísticos Varela/Llanos /Asnate

Cálculos para la tabla


Estrato 1 Estrato 2 Estrato 3
N1 = 20 n2 = 8 n3 = 12
Y1 = 33.900 Y2 = 25.125 Y3 = 19.000
s1  35.358
2
s22  232.411 s32  87.636
N1=155 N2=62 N3 = 93
Tiempo promedio de ver televisión para el pueblo B, con un
límite de aproximadamente dos desviaciones estándar para
el error de estimación, está dada por:
 N  n2   s22   62  8   232.411 
y2  2   osea 25.1  2   
 N2   n2   68   8 

o sea 25.1  10.1


Esta estimación tiene un límite grande para el error de
estimación porque s22 es grande y el tamaño de muestra n2
es pequeño. Entonces la estimación y st de la media
poblacional es bastante buena, pero la estimación y 2 de la
media del estrato 2 es deficiente. Si se desea una estimación
para un estrato particular, la muestra del estrato debe ser lo
suficientemente grande para proporcionar un límite
razonable para el error de estimación.

10.- Remítase al ejemplo anterior y estime el número total


de horas por semana que las familias del municipio dedican
a ver televisión. Fije un límite para el error de estimación.
Solución:
Con los datos de la tabla:
N y st = 310 (27.7) = 8587 horas

67
Métodos Estadísticos Varela/Llanos /Asnate

La varianza estimada de Nyst está dada por:


Vˆ ( N y )  N 2Vˆ ( y )  (310)2 (1.97)  189.278.560
st st

La estimación del total de la población, con un límite para


el error de estimación, está dada por:
N y st  2 Vˆ ( N y st ) o sea 8587  2 189, 278.560
o sea 8587  870
De esta manera estimamos que el tiempo semanal total que
en los hogares del municipio se ve televisión es de 8587
horas. El error de estimación debe ser menor que 870 horas.

11.- Una encuesta anterior sugiere que las varianzas de los


estratos para el ejemplo, aproximadamente
s22  25,  22  225 y  32  100 . Deseamos estimar la
media poblacional mediante yst. Seleccione el tamaño de
muestra para obtener un límite para el error de estimación
igual a 2 horas, si las fracciones asignadas son w1 = 1/3, w2
= 1/3 y w3 = 1/3. en otras palabras, se debe tomar un
número igual de observaciones de cada estrato.
Solución:
Un límite para el error de estimación de 2 horas significa
que:
2 V ( yst )  2 o sea V(yst) = 1
Por tanto D = 1
En el ejemplo anterior N1 = 55, N2 = 62 y N3 = 93. Por eso:
3
Ni2 i2 N 22 12 N 22 22 N32 32

i 1 wi

w1

w2 w3
(155)2 (25) (62)2 (225) (93)2 (100)
  
(1/ 3) (1/ 3) (1/ 3)
68
Métodos Estadísticos Varela/Llanos /Asnate

= (24,025) (75) + (3844)(675) + (8649) (300)


= 6,991.275
3

N
i 1
i i
2
 N1 12  N 2 22  N 3 32

= (155) (25) + (62) (225) + (93) (100) = 27,125


N2D = (310)2 (1) = 96,100
De la ecuación tenemos que:
3

N  i
2
i
2
/ wi
6, 991.275 6, 991.275
n i 1
   56.7
3
96.100  27.125
N 2 D   N i  i2
123.225
i 1

Entonces el experimentador debe tomar n = 57


observaciones con
n1 = n(w1) = 57(1/3) = 19
n2 = 19
n3 = 19

12.- Una investigación quiso estimar el peso promedio de


90 ratas (50 machos y 40 hembras) que han sido
alimentados con cierta dieta. Las ratas fueron separadas por
sexo; por lo que el uso de, muestreo aleatorio estratificado
con dos estratos pareció apropiado. Para aproximar la
variabilidad dentro de cada estrato, la investigadora
seleccionó la rata más pequeña y la más grande en cada
estrato y las pesó. Ella encontró que la amplitud de
variación fue de 10 gramos para los machos y 8 para las
hembras. ¿Qué tan grande debió tomarse la muestra para
estimar el promedio poblacional con un límite de 1 gramo
para el error de estimación? Suponga que el costo de
muestreo fue el mismo para ambos estratos.
69
Métodos Estadísticos Varela/Llanos /Asnate

Solución:

Denotemos los machos como el estrato 1 y las hembras


como el estrato 2. Para usar la Ecuación primero debemos
aproximar 1 y 2. La desviación estándar debe ser
alrededor de un cuarto de la amplitud de variación,
suponiendo que los pesos tienen una distribución normal.
Entonces
10 8
 1   2.5 y  2   2.0
4 4
De la ecuación:
 
ni = n  N i i 
 
2

  N i i 
 i 1 
2
Donde:  Ni i  (50)(2.5)  (40)(2.0)  125  80  205
i 1

Entonces:
 
ni = n  Ni i 
n
125
 0.61n
 
2

  N i i
205

 i 1 
 80 
y n2  n    0.39n
 205 
Entonces w1 = 0.61 y w2 = 0.39
Debemos calcular las siguientes cantidades para poder
encontrar n:
2

N
i 1
i i
2
 (50)(2.5) 2  (40)(2.0) 2  472.50

70
Métodos Estadísticos Varela/Llanos /Asnate

B 2 (1)2
D   0.25
4 4
Usando la ecuación tenemos:

2
 3 
  Ni  i 
n  i 1 
2
N 2 D   N i  i2
i 1

(205)2
n  16.83
(90) (0.25)  472.50
2

 n1 = n w1 = (17) (0.61) = 10
n2 = nw2 = (17) (0.39) = 7

V.- VARIANZAS MUESTRALES Y SUS


ESTIMADORES
PARA MUESTREO SIN REEMPLAZO PARA
MUESTREO CON REEMPLAZO

a) Varianza del Estimador de la media poblacional:


1 L Sh2
V ( y st )  2  Nh( N h  nh )
N h 1 nh
L
Sh2
V ( y st )  Wh2
h 1 nh
L
Sh2
= Wh2
h 1 nh
(1  f h )

b) Varianza del estimador del total poblacional: v(yst) = v(n


yst)

71
Métodos Estadísticos Varela/Llanos /Asnate

L 2
ˆ
V (Yst )  N Wh
2 2 Sh
(1  f h )
h 1 nh
L
S2
V (Yˆst )  N 2 Wh2 h
h 1 nh

L
Sh2 L
Sh2
=  Nh ( Nh  nh )
h 1 nh
=  Nh2
h 1 nh

c) Estimador de la varianza del estimador de la media


poblacional
L 2
2 Sh
V ( y st )  Wh
ˆ (1  f h )
h 1 nh
L
S2
Vˆ ( y st )  Wh2 h
h 1 nh

Donde sh2 es el estimador insesgado de S h2

d) Estimador de la varianza del estimador del total


poblacional
L
S2
Vˆ (Yˆst )  N 2 Wh2 h (1  f h )
h 1 nh
L
S2
Vˆ (Yˆst )  N 2 Wh2 h
h 1 nh

L
Sh2 L
Sh2
=  Nh ( Nh  nh )
h 1 nh
=  Nh2
h 1 nh

72
Métodos Estadísticos Varela/Llanos /Asnate

Nota: El muestreo sin reemplazo también se le conoce como


muestreo para poblaciones finitas, y al muestreo con
reemplazo como muestreo para poblaciones infinitas no
olvidar, que cuando f = n/N es menor del 10% se considera
a la población como INFINITA.

VI.- INTERVALOS DE CONFIANZA


ˆst  Z / 2 Vˆ (ˆst )
PARA POBLACIONES FINITAS PARA
POBLACIONES INFINITAS

a) Intervalo de confianza para la media poblacional (u , Y)


L
sh2
y st  Z / 2 Wh2 nh
(1  f h )

L
sh2
y  Z / 2 W n h
2

b) Intervalo de confianza para el total poblacional (Y)


sh2
L
y st  Z / 2 N W (1  f h )
h
2

nh
L
sh2
Y  Z / 2 N Wh2 nh

73
Métodos Estadísticos Varela/Llanos /Asnate

PROBLEMAS
1.- Sea la población hipotética de 6 familias (N = 6),
clasificadas en N1 = 3 familias del sector I y N2 = 3 familias
del sector II; para las cuales presentamos los siguientes
datos correspondientes al ingreso familiar.
FAMILIAS
DEL SECTOR I DEL SECTOR II
N1 = 3 N2 = 3
Y1i Y2i
Y11 = 2 Y21 = 8
Y12 = 4 Y22 = 12
Y13 = 6 Y23 = 16
Y1 = 12 Y2 = 36
Y1  4 Y 2  12
a. Número de estratos: L = 2
L2
b. N   N h  N1  N 2  3  3  6
h 1

c. Total de ingreso en el estrato: Yh = Yhi


3
En estrato I: Y1   Y1i  Y11  Y12  Y13  2  4  6  12
i 1
3
En estrato II: Y2   Y2i  Y21  Y22  Y23 8  12  16  36
i 1

d. Total Poblacional
L L Nh
Y   Yh  Yhi Y1  Y2  12  36  48
h 1 h 1 i 1

e. Media en el estrato o ingreso medio por sector


Y
Yh  h
Nh
74
Métodos Estadísticos Varela/Llanos /Asnate

Y1 12
En sector I Y1   4
N1 3
Y2 36
En sector II Y2    12
N2 3
f. Media poblacional o ingreso familiar promedio
Y (Y1  Y2 ) (12  36)
Y    8
N ( N1  N 2 ) 33

ESTIMADORES DEL TOTAL Y LA MEDIA


POBLACIONAL
Ejemplo
Obtener muestras sin reemplazo de tamaño 2 en cada estrato
de nuestra población hipotética y demostrar que:
E( Yˆ ) = Y
st y E( y )  Y
st

Demostración:
 3
a) N° de muestras en cada estrato: De estrato I  3
 2
 3
De estrato II  3
 2
b) N° de muestras posibles a seleccionar de la población:
 3  3 
    9
 2  2 
c) Muestras y estimadores
Estratos

75
Métodos Estadísticos Varela/Llanos /Asnate

I II y1 y2 y1 y2 N1 y1 N1 y 2 Y st y st
2,4 8,12 6 20 3 10 9 30 39 39/6
8,16 24 12 36 45 45/6
12,16 28 14 42 51 51/6
2,6 8,12 8 20 4 10 12 30 42 42/6
8,16 24 12 36 48 48/6
12,16 28 14 42 54 54/6
10 20 5 10 15 30 45 45/6
24 12 36 51 51/6
28 14 42 57 57/6

a)
M 9
E (Yˆst )  Y st P(Yˆst )  39 / 6(1/ 9)  45 / 6(1/ 9)  ...  57 / 6(1/ 9)

= (1/9)(432) = 48
Como Y = Y1 + Y2 = 12 + 36 = 48
Entonces: E(Yˆ )  Y  8 st y
Por consiguiente, Yˆst es INSESGADO de Y
b)
E ( y st )   y st P( yst )  39 / 6(1/ 9)  45 / 6(1/ 9)  ...  57 / 6(1/ 9)
= (1/9)(432/6) = 8
Como Y = Y/N = 48/6 = 8
Entonces: E( y st )  Y  8 y
Por consiguiente, y st es INSESGADO de Y
Ejemplo:

76
Métodos Estadísticos Varela/Llanos /Asnate

En el ejercicio anterior, encontrar M = 9 posibles


estimadores de V ( y st ) y demostrar que:
E Vˆ ( y st )   V ( y st )
Demostración
Estratos
I II s12 s22 V ( y st )
2,4 8,12 2 8 15/36
8,16 32 51/36
12,16 8 15/36
2,6 8,12 8 8 24/36
8,16 32 60/36
12,16 8 24/36
4,6 8,12 2 8 15/36
8,16 32 51/36
12,16 8 15/36
a) Varianzas muestrales en los estratos sh2
sh2  ( yh1  yh 2 ) 2 / 2

En estrato I En estrato II
s  (2  4) / 2  2
2
1
2
s22  (8  12) 2 / 2  8
= (2 – 6)2/2 = 8 = (8 – 16)2/2 = 32
= (4 – 6)2/2 = 2 = (12 – 16)2/2 = 8

b) Estimador de la varianza de y st
Se obtiene para cada muestra de tamaño n = 4
Para muestra: (2, 4, 8, 12) obtenemos:
2 2
S
Vˆ ( y st )  Wh2 (1  f h ) h
h 1 nh

77
Métodos Estadísticos Varela/Llanos /Asnate

 N  ( N1  n1 ) s1  N2  ( N2  n2 ) s2
2 2 22

=  1  
N N1 n1  N  N2 n2

=  3  (3  2) 2   3  (3  2) 8  15
2 2

3 3 2 6 3 2 36
y de esta manera obtenemos todos los valores de la columna
Vˆ ( y )
st

c) Valor esperado de Vˆ ( y st )
M
E Vˆ ( y st )   Vˆ ( y st )P Vˆ ( y st ) 

= (1/9) (15/36 + 51/36 + … +15/36)


= 30/36
d) Varianza de y st
N h  nh Sh2
2
V( y st ) =  w 2
h
h 1 N h nh

N1  n1 S12 N  n S2
= W12  W22 2 2 2
N1 n1 N 2 n2

= (3/6)2 (3-2/3) + (3/2)2 (3-2/3) (16/2) = 30/36


De c) y d) concluimos que Vˆ ( y st ) es INSESGADO de
V ( y st )

78
Métodos Estadísticos Varela/Llanos /Asnate

MUESTREO ESTRATIFICADO PARA


PROPORCIONES:
NOTACIONES
Ah : N° de unidades del estrato “h” que poseen el atributo.
ah : N° de unidades muestrales del estrato “h” que poseen el
atributo.
Ph : Proporción en la muestra en el estrato “h”: Ph = ah / nh

ESTIMADORES Y VARIANZAS MUESTRALES


1. Estimador de la proporción poblacional:
L
Pˆst  pst   N h ph / N
h 1

2. Varianza del estimador de la proporción poblacional:


Para poblaciones finitas Para
poblaciones infinitas
1 L N h2 ( N h  nh ) PhQh
V ( pst ) 
N2
 ( N  1)n
h h

1 L N h2 PhQh
V ( pst ) 
N2
 n
h

3. Estimador de la varianza del estimador de la proporción


poblacional
1 L N ( N  n )P Q
Vˆ ( pst )  s 2p 2  h h h h h
N h1 nh
L 2
W PQ
Vˆ ( pst )   h h h
h 1 nh
L
Wh2 PhQh (1  f h )

h 1 nh
Nota: No olvidar que:
79
Métodos Estadísticos Varela/Llanos /Asnate

VARIANZA DE LA PROPORCIÓN MUESTRAL EN


EL ESTRATO “h”
Para muestreo sin reemplazo Para muestreo
sin reemplazo
P Q (N  n ) PQ
V ( ph )  h h h h V ( ph )  h h
nh nh  1 nh
ESTIMAR DE LA VARIANZA DEL ESTIMADOR DE
LA PROPORCIÓN DEL ESTRATO “h”
P Q (N  n ) PQ
V ( ph )  h h h h V ( ph )  h h
nh nh  1 nh
Ejemplo:
1.- Supongamos que tenemos los siguientes datos
correspondientes a familias que usan cierto detergente.
a. Encontrar P, Ph
b. Extraer muestras de tamaño n1 = 2, n2 = 3 de los estratos I
y II y estimar Ph
Solución:
Datos:
Estratos
I II
Y11 = 1 Y21 = 1
Y12 = 0 Y22 = 0
Y13 = 1 Y23 = 1
Y14 = 0 Y24 = 1
Y15 = 0 Y25 = 1
2/5 4/5

a. Encontrar P, ph

80
Métodos Estadísticos Varela/Llanos /Asnate

Y 1i
2
P1    40%
N1 5
5

Y 2i
4
P2    80%
N2 5
La proporción poblacional es:
10

Y 1i
6
P   60%
N1 10
Que se puede obtener también como:
L

N P h h
N1 P1  N 2 P2 5(2 / 5)  5(4 / 5)
P    6 /10  60%
N N 10

3.- Sean las observaciones, para n1 = 2 y n2 = 3, las que se


dan en el cuadro siguiente:
N1 n2
y11 = 1 y21 = 1
y12 = 0 y22 = 0
y23 = 1
p11/2 p2 = 2/3
Proporciones muestrales en cada estrato
n1

y 1i
1
p1    50%
n1 2

81
Métodos Estadísticos Varela/Llanos /Asnate

n2

y 2i
2
p2    66.7%
n2 3
P1 = p1 = 50% = 1/2
P2 = p2 = 66.7% = 2/3

3. Estimador de P:

pst =
N h ph

(5)(1/ 2)  (5)(2 / 3)
 7 /12
N 10
Por consiguiente: P  pst  7 /12  58.3%

4.- Dada la siguiente población con dos estratos, seleccionar


muestras de n1 = 2 y n2 = 2 desde cada estrato y demostrar
que:
E(pst) = P
Demostración
1) Número de muestras posibles:
 3  3 
    3x3  9 Muestras
 2  2 
2) Las muestras son de tamaño n = n1 + n2 = 4
3) Estimadores de P.
I II
1 1
0 0
1 0

82
Métodos Estadísticos Varela/Llanos /Asnate

Estratos
I II p1 p2 pst
1, 0 0.5 0.50
1, 0 1, 0 0.5 0.5 0.50
0, 0 0.0 0.25
1, 0 0.5 0.75
1, 1 1, 0 1.0 0.5 0.75
0, 0 0.0 0.50
1, 0 0.5 0.50
0, 1 1, 0 0.5 0.5 0.50
0, 0 0.0 0.25
4.50

Luego, E(pst) = ( 1/9) (4.5) = 0.50


Pero, p = (2+1)/6 = 1/2 = 0.50 y por consiguiente pst
es INSESGADO de p.

5.- Según datos obtenidos en el último censo agropecuario


el número de cabezas de ganado vacuno de acuerdo a la
extensión de Hras de tierras de cultivo y números de
establos se distribuyen de acuerdo a lo indicado en el
cuadro siguiente. Así mismo en el figuran el número de
establos en el presente año. Si se desea estimar el número
total de cabezas de ganado en el presente año, así como su
varianza tomando una muestra de 500 establos.
a) Determine la afijación de la muestra según:
Afijación de Neyman, proporcional al número total de
cabezas de ganado en cada estrato.
b) calcular las varianzas para cada afijación
Cuadro N° 1

83
Métodos Estadísticos Varela/Llanos /Asnate

Número de cabezas de ganado obtenido desde un censo


previo y N° total de establos en cada estrato para el presente
año.

Estrato Censo N° promedio Desv. N° total


h N° total de de cabezas Estandar de
establos de ganado estimada establos
Nh sh en el
yh
presente
año
Nh
I: 0 – 15 625 3.91 4.5 635
II: 16 – 30 564 10.38 7.3 570
III: 31 – 50 476 14.72 9.6 475
IV: 51 – 75 304 21.99 12.2 303
V: 76 - 100 86 27.38 15.8 89
Total Nh = 2055
N = 2072

a) Afijación de Neyman Afijación


Proporcional

Nh sh Nh
nh  (500) nh  (500)
 Nh sh N

Afijación proporcional al total


Y'
nh  h ' (500)
 Yh
Las afijaciones así como los cálculos correspondientes para
su obtención se encuentran contenidos en el Cuadro N° 2
Calculo de las afijaciones de una muestra de 500 establos

84
Métodos Estadísticos Varela/Llanos /Asnate

A
'
fijacione
Estrato N h' ss' Y h  Nh' y h s (nh)
Proporciona
Neyman Proporcional
l al total Yh'
I 2812.5 2444 84 153 50
II 417.2 5854 125 138 120
III 4569.6 7007 138 115 144
IV 3708.8 6685 112 73 137
V 1358.8 2355 41 21 49
TOTAL 16566.9 24345 500 500 500

b) Para encontrar la varianza para cada afijación,


reemplazamos el tamaño de muestra que corresponde a cada
una de ellas en la formula general de varianza del estimador
del total para muestreo estratificado.
N 2s2  N  n 
V (Yˆst )   h h  h h 
nh  N h 
Así, varianza para la afijación de Neyman:
ˆ (635)2 (4.5)2  635  84  (570)2 (7.3)2  570  125 
V (Yst )     
84  635  125  570 

(475)2 (9.6)2  475  138  (303)2 (12.2)2  303  112 


    
138  475  112  303 

(89)2 (15.8)2  89  41 
    84374 + 108136 + 106902 +
41  89 
76960 + 26011 = 402356
85
Métodos Estadísticos Varela/Llanos /Asnate

Las varianzas de cada estrato de acuerdo a esta afijación, así


como la varianza para el estimador del total se encuentran
en el cuadro N° 3
Varianza para la afijación proporcional al total

ˆ (635)2 (4.5)2  635  50  (570)2 (7.3)2  570  120 


V (Yst )     
50  635  120  570 

(475)2 (9.6)2  475  144  (303)2 (12.2)2  303  137 


    
144  475  137  303 

(89)2 (15.8)2  89  49 
    150447 + 113908 + 100624 +
49  89 
54645 + 18137 = 437761
Cuadro N° 3
Varianzas del N° total de cabezas de ganado de acuerdo a
las diferentes afijaciones
Estrato Neyman Proporcional Proporcional a Yh
'

I 84347 40509 150447


II 108236 95088 113908
III 106902 137038 100624
IV 76960 142679 54645
V 2011 71944 18137
402356 487258 437761
V (Y )
6.- Se ha diseñado una encuesta para estimar la proporción
de familias que poseen radios a transistores, en dos ciudades
diferentes. Estimaciones del número total de familias, la

86
Métodos Estadísticos Varela/Llanos /Asnate

proporción que posee radios y el costo de muestrear un


familia sin dadas en cuadro N° 1 tratándose cada ciudad
como estrato y sumiendo un muestreo aleatorio con
reemplazo en cada estrato; obtener el tamaño optimo de
muestra y afijarla a los estratos si el costo total (excluyendo
gastos generales) se fija en: 20,000 dólares.

Cuadro N° 1
Estimaciones del N° total de familias, proporción con radios
a transistores y costo de muestrear una familia en cada
ciudad.
Ciudad h N° de Proporción con Costo de
familias Nh radio Ph muestreo Ch
I 140 000 0.10 2.25
II 30 000 0.25 1.00
170 000

Afijación para un costo fijo:


CN h PhQh / Ch
nh =
N h PhQh / Ch
Los cálculos correspondientes figuran en cuadro N° 2
Tamaño de muestra: n = n1 + n2 = 7,369 + 3419
Luego el tamaño óptimo de muestra es n = 10,788
Las cuales cubren el costo establecido o especificado.
Observamos: C = n1 c1 + n2 c2 = 7369 (2.25) + 3419(1) =
19,999.25 = 20,000
Cuadro N° 2
Cálculos para la fijación optima
H PhQhCh N h PhQhCh PhQh / Ch Nh PhQh / Ch nh

87
Métodos Estadísticos Varela/Llanos /Asnate

PhQh
I 0.450 63 000 0.20 28 000 7 369
II 0.4330 12 990 0.4330 12 990 3 419
10
75 990
788

7.- Diferencia los siguientes pares de términos:


a) Error de muestreo y error no de muestreo
b) Muestreo probabilístico y muestreo a juicio
c) Precisión y exactitud
d) Unidades de muestreo, elementales y primarias
Solución:
a) Error de Muestreo.- Las estimaciones de un
muestreo se ven afectadas inevitablemente por
el error de muestreo, el cual debe ser recorrido
y cuantificado; la magnitud de este error deberá
ser objeto de permanente análisis con el fin de
minimizarlo.

Error de no Muestreo.- Son los errores que


se cometen fuera del muestreo es decir en
cálculo, tabulaciones, etc.
b) Muestreo Probabilístico.- Es un proceso en
donde cada elemento de la población tiene una
misma probabilidad de ser seleccionada
(probabilidad perfectamente conocida e igual).

Muestreo a juicio.- Es el proceso por el cual


la selección de la muestra depende del “juicio
humano” y no de la rigurosa aplicación de la
88
Métodos Estadísticos Varela/Llanos /Asnate

teoría de las probabilidades, una muestra


obtenida por este método no es representativa.

c) Precisión.- La precisión es la obligación o


necesidad de hacer una cosa.

Exactitud.- La exactitud es la puntualidad y


fidelidad en la ejecución de una cosa.

d) Unidad de Muestreo.- Las unidades de


muestreo:
 Unidad elemental .- Es el elemento o
conjunto de elementos sobre la cual se
requiere información.
 Unidad de registro.- Es un elemento
común o grupo de elementos por los
cuales se registra información.
 Unidad de Análisis o de estudio.- Es la
unidad por la cual se realiza el análisis.

8.- Se extrae una muestra aleatoria de 36 elementos de una


población, ¿Cuántos elementos debe contener otra muestra
de la misma población, para que el error estándar de la
media de la segunda muestra sea 2/3 del error estándar
de la media de la primera muestra?
Solución:

n 1  36 x  x
2
1

n1
 2
n2  ?  x    x
 3
1 2

89
Métodos Estadísticos Varela/Llanos /Asnate

 2  2
 x    x  (n 2 ) 1 / 2    (n 1 ) 1 / 2
 3  3
2 1

n 2  (6 x3) / 2
2

n 2  81 Rpta.
9.- Se extrae dos muestras aleatorias de una misma
población y si el error estándar de una de ellas es k
veces el error estándar de la media de la otra ¿Cuál
es la relación entre los tamaños de ambas muestras?
Solución:
x
n1  n 2  ? x 1
n1
1 / 2
 x  k. x
1 2
 .n 1  k. .n -1/2
n1 1 n1 1
  Rpta.
n2 k2 n2 k2
10.- Una firma constructora de canales desea estimar la
residencia promedio de las barras de acero utilizadas
para dichas construcciones. ¿Qué tamaño de muestra
se requiere para garantizar que habrá un riesgo solo
del 0.001 de sobrepasar un error de 5Kg o más en la
estimación? La desviación estándar de la resistencia
de este tipo de barras se estima en 50 libras.
Solución:

90
Métodos Estadísticos Varela/Llanos /Asnate

  50 lb.

E  Z 1 x z . .......... .....(*)
n
0.4536
E  50 lb.( )  22.68 kg
1 lb,
  0.001 1 -   0.999

Por tablas: Z 1 2  3.085


En (*):
5
3.08522.68  n  195.8 196 Rpta.
n
11.- Se desea investigar sobre el número de unidades
defectuosas en 4000 cajas y la proporción de cajas
que contienen unidades defectuosas, se realiza una
encuesta preliminar de 80 cajas, obteniéndose el
siguiente resultado:

№ de unidades 0 1 2 3 4 5 10 12
defectuosas
№ de cajas 37 16 8 8 4 2 2 13
examinadas

Determine el tamaño de muestra que con las dos


condiciones: un error del 6% para el promedio; y un
error del 12% para la proporción con una confianza
del 95% para ambos casos.
Solución:
N = 4000
E1=0.06

91
Métodos Estadísticos Varela/Llanos /Asnate

E2= 0.12
n=80
80
P  0.02  5% sin reemplazo
4000
Y  1.725
S 2  7.95
95%  Z  1.96
Z 2 SN
n
d 2 N  S2 Z 2
Z 2 S 2y N
n1  2
d 1 N  Z 2S 2y
(1.96) 2 (7.95)(4000)
n1 
(0.06) 2 (4000)  (1.96) 2 (7.95)
n 1  2718 Rpta.
Z 2 S 2y N
n2 
d 22 N  Z 2S 2

Z 2S 2y N (1.96) 2 (7.95)(4000)
n2  
d NZ S
2
2
2 2
y (0.12) 2 (4000)  (1.96) 2 (7.95)
n 2  1386 Rpta.

12.- El departamento de tránsito y transporte requiere


estimar la proporción de conductores con experiencia
de 1 año o menos, que puede clasificarse como
conductores descuidados ¿Cuál será el tamaño de
muestra para que los resultados estén dentro de un 2%,
con una confianza del 95%?. Se espera observar que
aproximadamente ¼ del total de los conductores sea
92
Métodos Estadísticos Varela/Llanos /Asnate

de cuidado, si el número de conductores a investigar


fuera de 10000. ¿Cuál será el tamaño de muestra?
Solución:
1
P   0.25
4
Z 2 PQ (1.56) 2 (0.26)(0.75)
a) n    1800.75  1801
d2 (0.02) 2
n  1801 Conductore s, un experiment o de un año o menos.
b) Si N  10000 Población finita M.C.R.
PQ (0.25)(0.75)
n 
 d  2
PQ   0.02 
2
(0.25)(0.75) 
       
 2  N   1.96  10000 
n  1526 Conductore s con experienci a de un año o menos.

Z 2 NPQ (1.96) 2 (10000)(0.25)(0.75)


n   1526 Conductore s
   
Nd 2  Z 2 PQ (10000)(0.02) 2  (1.96) 2 (0.25)(0.75)
2
Z PQ
n0   1800.75
d2
n0 1800.75
n 
 n 0   1800.75 
1  N  1  10000 
   
n  1526

13.- Una muestra de fierro para construcción de canales


es tomada al azar para la estimar el grosor promedio,
el error debe de hallarse dentro de un rango de 0.30
mm., con un nivel de confianza del 95.¿ Cuál deberá
ser el tamaño de muestra? Suponga que el error
estándar es 1.2 mm.

93
Métodos Estadísticos Varela/Llanos /Asnate

Solución:
Z 2S (1.96) 2 (1.2) 2
n 2   61.4656
E (0.3) 2
n  62 Rpta.
14.- ¿Cuántos alumnos deben encuestarse para estimar el
número total de lapiceros anuales que consumen los
1500 alumnos de la especialidad con una precisión de
500 lapiceros y una seguridad del 95%?. En una
encuesta preliminar se obtuvo que la desviación
estándar fuera de 3 lapiceros.
Solución:
N  1500
Z 2  95%  1.96
i  3  i2  9
d  500
N 2 Z 2S 2
n
d2
(1500) 2 (1.96) 2 (9)
n
(500) 2
n  311.16  312

n 312
  5%
N 1500
312
 n  258.278
 312 
1  
 1500 
n  259 Rpta.

94
Métodos Estadísticos Varela/Llanos /Asnate

15.- Se tiene 120 hoteles en la ciudad de Huaraz


estratificados según su categoría se requiere estimar
el promedio el promedio y la varianza proporcional
de sus ingresos en miles de soles al día, los datos se
muestran en el siguiente cuadro:

Estrato h Nh nh Xh S2h Nhxhi


I. categoría 30 6 5 2 150
II. categoría 40 8 3 4 120
III. categoría 50 10 2 6 100
Solución:
N 
X1t   w h x h   X1t   h ( x h ) 
370
 N  120
X1t  3.083
1   Nh  2 520 520
V (X1t )prop   ( h i2 h)   (S h)  
n  Nn  (24)(120) 2880
V (X1t )prop  0.18

16.- La siguiente información correspondiente a las


edades de 5 niños 6,8,10,12,14:
a) Extraiga muestras tamaño 2 con y sin reemplazo.
b) Encuentre la medida de cada muestra y determine
E(x), V(x), E(S2), usando el resultado del punto a.
c) Encuentre la distribución de frecuencias para la
media caso(a) y para la varianza poblacional,
grafique cada caso.
d) Encuentre los estimadores posibles de la varianza
de la media muestral.
95
Métodos Estadísticos Varela/Llanos /Asnate

Solución:

6 8 10 12 14
6 6,6 6,8 6,10 6,12 6,14
8 8,6 8,8 8,10 8,12 8,14
10 10,6 10,8 10,10 10,12 10,14
12 12,6 12,8 12,10 12,12 12,14
14 14,6 14,8 14,10 14,12 14,14

Diagonal superior
Diagonal inferior
Para muestra de tamaño 2:
Con reemplazo
Nn=52=25  todos
Sin reemplazo:
Considerando el orden:
5!
P25   20 parte diagonal superior e inferior
(5  2)!
Sin considerar el orden:
5!
C 52   10 diagonal superior
(2!)(3!)

17.-Con el fin de evaluar la viabilidad de aserrar y


procesar una plantación total de 2000 árboles de
cedro, se extrae una muestra aleatoria simple de 200
árboles encontrándose que 120 de ellos estaban listos
para su proceso forestal 57 estaban deteriorados y 23
no tenían aún las condiciones para ser procesados.

96
Métodos Estadísticos Varela/Llanos /Asnate

a) Estimar el número de árboles disponibles para ser


procesados y los límites de confianza de la
estimación con un 95% de confianza.
b) Se puede considerar que la mayoría de árboles
de la plantación son susceptibles de ser
procesados de inmediato.
Solución:
a)  yi 120
n 200
f    0.1
N 2000
a  120 
  NP  N   2000   1200
n  200 
Límites de confianza usando Z  1.96
 pq N 
L.C( )  NP   NZ (1 - f )   
 n 2n 
  (0.9)(0.6) (0.4)  2000 
L.C( )  1200  2000(1.96)    400 
  2000  
L.C( )  1333.8243; 1066.1756
 L.C( )  1334 :1066 árboles de cedro disponible s


b) L.C(P)  P  Z 1 - f  pq  n   1 2n 

L.C(P)  0.6  1.96( (0.9)(0.6)(0.4)(12000)  1 400 
L.C(P)  (0.667; 0.533)

18.-En una zona forestal se cree que la proporción de


árboles de cedro es de 40%, cual sería el error de
muestreo que se esperaría alcanzar si deseáramos
estimar dicha proporción seleccionando una muestra
97
Métodos Estadísticos Varela/Llanos /Asnate

simple aleatoria de 500 árboles de la zona, sabiendo


que el total de árboles de la zona forestal es de
10.000. ¿Cuál sería la interpretación que debería
darse a dicho resultado?
Solución:
N=10000; n=500
P=0.4  Q=0.6
 ( N - n)   PQ 
V ( P)   N  n 
  
 (10000  500)   (0.4)(0.6) 
2

V ( P)     
 10000   500 
V ( P)  0.000456
Luego el error estandar sería :
S(e)  (0.000456)  0.021

La probabilidad con que una muestral de 500 árboles


obtengamos estimadores de P comprendidos entre los
límites PKS(p), K=1,2,...

Límite
PKS(p) Probabilidad
Superior Inferior
0.41(0.021) 0.421 0.379 68%
0.42(0.021) 0.442 0.358 95%
0.43(0.021) 0.463 0.337 99.7%

Por lo tanto que aproximadamente el 68% de muestras


estimaciones sufre la proporción de árboles de cedro
en la zona (P=∆/N) hechas por nuestras simples
98
Métodos Estadísticos Varela/Llanos /Asnate

aleatorias de 500 árboles, estarán comprendidas entre


42% y 37.9% asumiendo la posibilidad de realizar
muestras repetidas.

19.- En una ciudad de 16000 hogares se tomó una muestra


aleatoria simple de 1000 familias dichas familiares
fueron visitadas y se encontraron los resultados
siguientes:
Número
Tipo de Familia
Hogares Personas
IMIGRANTES: 766 2442
- Propietarios de 350 1177
vivienda 416 1265
- Inquilinos 234 881
NATIVOS DEL PAIS: 57 245
- Propietarios de su 177 636
vivienda
- Inquilinos
Total 1000 3323
Solución:
a) Proporción de familias nativas:
a 234
P   0.234  23.4%
n 1000
 pq   1000  0.766 
V ( P)  (1 - f)    1   
 N   16000  1000 
V ( P)  0.0001682
El error estándar será :
S(P)  0.0001682  0.013

99
Métodos Estadísticos Varela/Llanos /Asnate

b) Proporción de las familias nativas -inquilinos:

d1 177 177
P1     0.298
n1 416  177 593
n1 n
Como se conoce N 1 , reemplazam os f 1  por f 
N N
p1q1 p1q1  1   (0.298)(0.702) 
V(P)  (1 - f 1 )  V(P)  (1 - f)  1    
n1 n1  6  593 

V ( P )  0.0003312
El error estándar será :
S(P)  0.0003312  0.0182
c) El tamaño medio de una familia inmigrante:

Yi 2442
Y1     3.188
n1 766
Como no se conoce , reemplazam os f 1 por 1 16
(1 - f1 ) S12 (1  f)S12
V (Y1 )  
n1 n1
 (17.785  (2442) 2 )   1 
Donde : S12     (766  1)   13.072
 766  

100
Métodos Estadísticos Varela/Llanos /Asnate

 1  13.072 
V (Y )  1     0.016
 16  766 
Error estándar será :
S(Y)  0.016  0.1265
El coeficiente de variación es :
S(Y)  0.1265 3.188 
CV(Y)  (100)     3.97%
Y  100 
 N
d) Y1    Y1  16(245)  3920

Varianza estimada es:

N(1 - f)S12
V (Y1 )  donde :
n1


S   Y1 
 Y1    1  
2

  
(215) 2  1 
 
2 2
  (n  1)  
1053
 1000  999 
1
n
 
 1  0.994 
V (Y1 )  (16000) 2 1     238540.8
 6  1000 
Su error estándar será :
S(Y)  238540.8  488.41
S(y) 488.41
La C.V(y) es : C.V(y)  ( )(100)  12.46 Rpta.
y.100 3920

20.-Se desea realizar una encuesta familiar en una gran


ciudad para estimar la proporción de familias que
poseen ciertos atributos, para las principales
características, el valor de Pi=Ai/N se espera oscile
entre el 30% y el 70% ¿Cuál deberá ser el tamaño de
101
Métodos Estadísticos Varela/Llanos /Asnate

nuestra necesaria para estimar los parámetros


siguientes con un error estándar no mayor al 3%?
a) La proporción global de P
b) Las proporciones individuales de P1 para las
familias.
c)
Rango de ingresos
Clase
anuales
1 De menos de 5000
2 De 5000 a menos de 10
3 000
De 10 000 a más

d) La diferencia entre las proporciones (Pi-Pj) para


cada para de clase de familias según sus ingresos
anuales.
Las estadísticas de la ciudad sobre distribuciones
de ingresos indican que las proporciones de
familias según las tres clases de ingresos
definidos anteriormente son: 50%, 38% y 12%
respectivamente.
Solución:
a) La proporción global P.
Si 130% P≤70% asumiremos que P=0.50 pues en
éste valor se esperaría el máximo error
estándar(pesimista), además si S(p) ≤0.03 la
varianza deseada sería V0=(0.05)2 consideramos
que el valor 1/N, es muy pequeño y se omite.
Entonces:

102
Métodos Estadísticos Varela/Llanos /Asnate

(0.5)(0.5)
n  278 Deberían ser encuestada s
(0.03)2
b) Para estimar las proporciones individuales Pi:

Rango de
Clase Pi (1/Pi) N=(PQ/V0Pi)
ingresos
1 De <5000 0.50 2 556
2 De 5000 a 0.38 2.6316 732
3 <100000 0.12 8.333 2317
De 10000 a
más

Luego: n=Max[PQ//V0Pi]=2.317 serán necesarios


visitar.

c) Las diferencias entre las proporciones (Pi-Pj)

n=(PQ/V0) [(1/Pi) –
Pi - Pj [(1/Pi) – (1/Pj)]
(1/Pj)]
P1 – P2 4.6316 1288
P1 – P3 10.3330 2873
P2 – P3 10.9649 3048

Luego: el máx. n= máx(PQ/V0) [(1/Pi) – (1/Pj)]


n= 3048.

21.- A fin de estimar la proporción de apoyo que dan los


10 000 empleados de una fábrica a una circular emitida
por la gerencia , se enviará un cuestionario a una

103
Métodos Estadísticos Varela/Llanos /Asnate

muestra al azar de empleados; se cree que dicho


apoyo fluctuará entre 10% y 60%.
a) Encuentre el error estándar del estimador que se
esperaría lograr enviando el cuestionario a 400
empleados.
b) ¿Cuántos cuestionarios beberán ser remitidos para
que el error estándar del estimador, no supere el
2%?.
d) Determine el tamaño de muestra necesaria para
que el coeficiente de variación del estimador sea
menor al 10% en cuanto se estimará con dicho
coeficiente de variación de 250 se desea estimar a
la proporción verdadera.
Solución:
a) El error estándar del estimador que se espera
lograr enviando el cuestionario a 400 empleados:
  pq 
S ( p )  1 - f   si p  0.1
  n 
 400   (0.10)(0.90)  
 S(p)  1   
 10000   400 
 S(p)  0.0147

en tal caso el error estándar fluctuará entre 1.5%


Si p  0.5 (el error estándar máximo esperado)
 400   (0.5)(0.5)  
S(p)  1   
 10000   400  
S ( p )  0.0245

104
Métodos Estadísticos Varela/Llanos /Asnate

En tal caso el error estándar fluctuará entre 2.5%


b) Asumiendo un apoyo del 50% por ser el de mayor
varianza:

 
 n0  Z 2 PQ PQ PQ PQ
n   n0    

 
n0 

d2 d
2
V S ( P )
2

 
0
 1
 N    Z
(0.5)(0.5)
n0   625
(0.02) 2
625
n  588 cuestionarios
 625 
 1  
 10000 

105
Métodos Estadísticos Varela/Llanos /Asnate

MUESTREO SISTEMÁTICO

Partimos de una población de tamaño N, y agrupamos sus


elementos en n zonas (filas) de tamaño k(N=nk). Podríamos
representar la población como sigue:
i\j 1 2 3  j  k

1 u11 u12 u13  u1 j  u1k

2 u 21 u 22 u 23  u2 j  u 2k
     
i u i1 ui 2 ui 3  u ij  uik
     
n u n1 un2 u n3  u nj  u nk
A continuación se muestra los elementos de la tabla anterior
de izquierda a derecha empezando por la primera unidad de
la primera fila y pasando a la primera unidad de la fila
siguiente cuando se agota cualquier fila. Tendremos la
siguiente estructura:
i\j 1 2 3  j …k

1 u1 u2 u3  u j  u k
2 u k 1 u k 2 u k 3  u k  j  u k  k
3 u 2 k 1 u 2k 2 u 2 k 3  u 2 k  j  u 2 k  k
     
i u ( i 1) k 1 u (i 1) k  2 u (i 1) k 3  u (i 1) k  j  u (i 1) k  k
     

106
Métodos Estadísticos Varela/Llanos /Asnate

n u ( n 1) k 1 u ( n 1) k  2 u ( n 1) k  3  u ( n 1) k  j  u ( n 1) k  k

Para extraer una muestra de tamaño n se elige al azar una


unidad en la primera zona, y para seleccionar las n-1
unidades restantes para la muestra se toma en cada zona la
unidad que ocupa el mismo lugar dentro de su zona que el
que ocupaba la primera unidad seleccionada para la muestra
al azar en la primera zona es la tercera, se elegirán las n-1
unidades restantes para la muestra tomando la tercera
unidad de cada zona. Las muestras sistemáticas así
obtenidas (columnas de la tabla anterior) suelen
denominarse muestras 1 en k.

La probabilidad de seleccionar cualquier muestra será la


probabilidad de elegir la unidad que la originaria en la
primera fila por muestreo aleatorio simple, es decir, 1/k. Por
tanto, el muestreo sistemático proporciona muestras
equiprobables. Por otro lado, la probabilidad que tiene
cualquier unidad de la población (de N unidades) de
pertenecer a la muestra (de tamaño k) es k/N=k/nk=1/n.; por
lo tanto, el muestreo sistemático es un tipo de muestreo con
probabilidades iguales. Las muestras del espacio muestral
pueden representarse como sigue:

107
Métodos Estadísticos Varela/Llanos /Asnate

u~1   u1 , u1 k ,, u1n 1k 



u~ j   u j , u j  k ,, u j n1k 

u~k   u k , u k  k ,, u k n 1k 
El muestreo sistemático extiende la muestra a toda la
población, recoge el posible efecto de estratificar debido al
orden en que figuran las unidades de la población (cada fila
se puede considerar como un estrato), permite la
consideración de conglomerados en la población (cada
columna se puede considerar como un conglomerado), es
fácil de aplicar y comprobar.

No representa problemas de cálculo algebraico y no precisa


distinción entre aleatoria, la selección sistemática equivale a
un muestreo aleatorio simple. Por ultimo, el error de
muestreo suele ser menor que en muestreo aleatorio simple
o incluso que en estratificado.
Por otro lado, hay que tener presente la posibilidad de
aumento de la varianza si existe periodicidad en la
población y el problema teórico que se presenta en la
estimación de varianzas debido a que no hay independencia
en la selección de unidades en las distintas zonas, ya que la
unidades extraídas en cada zona dependes de la
seleccionada en la primera zona. En general solo hay
selección aleatoria para la primera unidad de la muestra

108
Métodos Estadísticos Varela/Llanos /Asnate

ESTIMADORES Y VARIANZAS

Se utilizarán el estimador lineal insesgado de Horwitz


Thompson por que el muestreo sistemático es sin
reposición. En general sabemos que:
n
Y
ˆHT   i Estima insesgadamente el parámetro
i i
n
poblacional:    Yi .
i

En muestreo sistemático la población  i de selección de un


elemento poblacional cualquiera para la muestra será igual a
la probabilidad de que resulte elegida la zona que lo
contiene, esto es,  i  1 k  n (nk )  n N , luego podemos
utilizar la forma general del estimador de Horwitz
Thompson para asegurar lo siguiente:
n 1
Y
ˆ   i estima insesgadamente el parámetro
i j 1
k
n 1
poblacional    Yij .
i j

Si aplicamos la expresión anterior a las estimaciones del


total, media, proporción y total de clase poblacionales, se
obtienen los siguientes estimadores:

n 1 X ij n 1 n
Total    X  Yij  X ij  Xˆ     k X ij  N  X ij  Nx j
i j 1 1 i 1 n n i 1
k N

109
Métodos Estadísticos Varela/Llanos /Asnate

X ij
X ij n
1 n 1
Media    X  Yij   Xˆ   nk   X ij  x j
N
 i j 1 1 n i 1
nk
k

Aij
Aij n 1
1 n
proporción    P  Yij   Pˆ   nk   Aij  Pˆ j
nk i j 1 1 n i 1
k
n 1 A n
1 n
Totaldeclase    X  Yij  Aij  Aˆ     k Aij  N  Aij  NPˆ j
ij

i j 1 1 i 1 n n i 1
k N

Hemos demostrado que un estimador lineal insesgado para


la media poblacional es la media de la muestra sistemática
obtenida, para la proporción poblacional es la proporción
de la muestra sistemática, para el total poblacional es N
veces el total de clase maestral. Es decir, podemos escribir
lo siguiente:
 Total  Xˆ  Nx j

 Media  Xˆ  x j
 proporción  Pˆ  Pˆ j
 Totaldeclase  Aˆ  NPˆ j
VARIANZAS DE LOS ESTIMADORES
Definimos la cuasivarianza entre las k muestras posibles o
cuasivarianza intermuestral como:

110
Métodos Estadísticos Varela/Llanos /Asnate

S 
2 1 n k
 x j  X 2
k 1 i j
bs

Y la cuasivarianza dentro de las muestras o cuasivarianza


intramuestral como:
2
S ws 
1 n k
 X ij  x j
2
 
N k i j
Con lo que la descomposición de la suma de cuadrados para
el análisis de la varianza poblacional permite escribir lo
siguiente
2 2 2

 X  X    X ij  x j    x j  X   N  1S 2  N  k S ws2  k  1S bs2


n k n k n k

ij
i 1 j 1 i 1 j 1 i 1 j 1
     
 N 1S 2 ( N k ) S ws
2
( k 1) Sbs2

A partir de la tabla del análisis de la varianza para la


población que se presenta a continuación. Puede calcularse
los errores de los estimadores.
Fuente Grados de Suma de Cuadrados
variación libertad cuadrados medios

Entre n k 2

 ( x  X ) 2
k-1 S bs
muestras
i j
n k

 ( X  x )
Dentro de 2 2
N-k S bs
muestras i j
n k

 ( X  X )
k-1+(N-k) 2 2
total S ws
= N-1 i j

111
Métodos Estadísticos Varela/Llanos /Asnate


V Xˆ  V x j   1  f  bs ,
2
S
n
 
V Xˆ  V Nx j   N 2V x j   N 2 1  f  bs
2
S
n

   1 k
k j
 
1 n k
nk i j
 1 n k
N i j
 2

1 k
V Pˆ  V Pˆ j   Pˆ j  P   Pˆ j  P   Pˆ j  P  PQ   Pˆ j Qˆ j
2 2

k j

     1 k
  

 
n k
1 k
V Aˆ  V NPˆ j  N 2V Pˆ j  N 2  Pˆ j  P N  Pˆ j  P  N 2  PQ   Pˆ j Qˆ j 
2 2

k j i j  k j 

Un concepto interesante en muestreo sistemático es el


coeficiente de correlación intramuestral  w , que mide la
interrelación entre las unidades dentro de las muestras.
Lógicamente, esta interrelación debe ser lo mas pequeña
posible, ya que en el muestreo sistemático interesa la
heterogeneidad intramuestral, con la finalidad de que una
única muestra sistemática represente lo mejor posible a toda
la población. Para que una muestra sistemática aspire a ser
fiel espejo de toda la población ha de ser heterogénea, y la
interrelación entre sus unidades ha de ser baja. Por lo tanto,
inicialmente parece lógico que interesen valores muy
pequeños del coeficiente de correlación intramuestral. La
expresión matemática de  w es la siguiente:

2 X ij  X X zj  X 
k n

i z
w 
j
,
N n  1 2
2

 X ij  X   var ianzapobla cional


1 k n
 2

nk j i
112
Métodos Estadísticos Varela/Llanos /Asnate

La varianza de los estimadores pueden expresarse en


funciones de  w . Para la medida tenemos:
2
V x j   1  n  1 w   N  1 S 1  n  1 w 
2

n N n

 
V Xˆ  V Nx j   N 2V x j   N 2 1  n  1 w   N N  1 1  n  1 w 
2 2
S
n n

 
V Pˆ j 
PQ
n

1  n  1 w  V Aˆ  N 2 PQ 1  n  1 w 
n
Según esta expresión, la precisión del muestreo sistemático
puede analizarse en función del coeficiente de correlación
intramuestral, de tal modo que la precisión máxima se
produce para  w  1 /( n  1) , y la mínima para  w  0 ,
igualándose la precisión del muestreo sistemático con la del
muestreo aleatorio simple para  w  0 . De esta forma, para
valores de  w entre  1 /( n  1) y 0, el muestreo sistemático
es mas precisó que el aleatorio simple, y para valores de  w
entre 0 y 1, el muestreo sistemático es menos preciso que el
aleatorio simple. Por lo tanto, en cuanto a precisión,
convienen valores negativos del coeficiente de correlación
intraconglomerados  w .

RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y


MUESTREO ALEATORIO SIMPLE

El muestreo sistemático se ideo con la finalidad de mejorar


el muestreo aleatorio simple pero habrá ocasiones en que
113
Métodos Estadísticos Varela/Llanos /Asnate

esta mejora es máxima. Se demuestra mas supera la


2
cuasivarianza intramuestral S ws a la cuasivarianza
poblacional S 2 el muestreo sistemático más gana e
precisión al muestreo simple.

El párrafo anterior puede interpretarse diciendo que le


muestreo sistemático es más preciso que el aleatorio simple
cuando la variabilidad dentro de muestras es superior a la
coincide con la del aleatorio simple cuando S ws2
= S 2 , es
decir, cuando la variabilidad dentro muestras es similar a la
variabilidad dentro de las unidades de la población, y esto
se da cuando la disposición de los elementos en la
población es aleatorio.
RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y
MUESTREO ESTRATIFICADO

En el muestreo sistemático puede considerarse cada zona de


k elementos consecutivos a partir del primer como un
estrato ; es decir se puede dividir la población en n estratos
constituidos cada uno de ellos por una finalidad de la tabla
(k unidades ) del cuadro en que hemos representado los
elementos de al población numerados consecutivamente.

1 j k

1 X1 Xj Xk
2 X 1 k X jk

X k k

114
Métodos Estadísticos Varela/Llanos /Asnate

   
i X 1 ( i 1) k X j  ( i 1) k X k  ( i 1) k
   
n X 1 ( n 1) k X j  ( n 1) k X k  ( n 1) k
Obtener una muestra sistemática seria entonces seria
entonces equivalente a obtener une muestra estratificada
con la finalidad con unidades por estrato. debe tenerse en
cuenta ,sin embargo ,que en el muestreo estratificado
aleatorio la selección se efectúa independientemente en
cada estrato ,mientras que en el muestreo sistemático todos
los elementos seleccionados ocupan el mismo lugar o
numeró de orden dentro de cada zona de k elementos , con
la que no hay aleatoriedad de selección .además ,seria
conveniente que a las zonas sistemáticas de k elementos
cada una (estratos) sean lo mas homogéneas posible dentro
de ellas y heterogéneas entre ellas .estas clasificaciones de
los elementos de la población en n filas de k unidades
cada una origina la siguiente tabla del análisis de la
varianza poblacional:

F de V G.L. + de Cuadr. Cuad. Med.


n k
Entre estratos n 1  ( X
i j
i  X )2 2
S bst

n k
Dentro de estratos N n  ( X
i j
ij  X i )2

2
S wst
n k
Total n  1  ( N  1)  N  1  ( X ij  X j ) S2
i j

115
Métodos Estadísticos Varela/Llanos /Asnate

Si definimos la cuasivarianza entre la n estratos posibles, o


el cuasivarianza intraestratal como:
1 n k
2
S bss  
n 1 i j
( X i  X )2

Y la cuasivarianza dentro de los estratos o cuasivarianza


intraestratal como:

1 n k
  ( X ij  X i ) 2
2 2
S wss
N n i j
Tenemos:

n k n k n k

 ( X ij  X ) 2   ( X ij  X i ) 2   ( X i  X ) 2  (N  1)S 2 (N  n)S wst2  (n  1)Sbst2


i 1 j 1 i 1 j 1 i 1 j 1

( N  1) S 2 ( N  n) S wst
2
(n  1) S bst
2

Tenemos entonces que la varianza de la media puede


expresarse como:

 h i
n
1
i n
S2 1  1 n
V Xˆ  V X st   Wh2V X h  Wi 2V X i    2 1  f i   i  2 1   S i2 
L n

ni n  k  i

N n 2
2

 X ij  X i   n 2 k  X ij  X i   S wst  1  f 
1  1 n 1 k 1 n k 2
S wst
1   
2

n2  k  i k 1 j i j Nn n

( N  n) S wst
2

Si definimos el coeficiente de correlación intraestratal  wst


como el coeficiente de correlación lineal entre las
116
Métodos Estadísticos Varela/Llanos /Asnate

desviaciones respecto de las medias de los estratos de todos


los pares de valores que están en la misma muestra
sistemática, su expresión puede calcularse de la siguiente
forma:

 X ij  X i X Zj  X z  k n
1 k n
 n  j i z
k   2 X ij  X i X zj  X z 
covX ij ; X zj   2 j i z
 wst  k n  
nn  1k  1S wst2
   
k n
1 1
 ij i  ij i
2 2
X  X X  X
N j i 1 N j i 1

( N  n) S wst
2

Se demuestra que la varianza del estimador de la media en


función de  wst y S wst tiene la forma siguiente:


V  Xˆ  V X  j  1  f  wst 1  n  1 wst 
2
S
n
Y lo mismo se calculará las varianzas del resto de los
estimadores en función del coeficiente de correlación
intraestratal  wst .
La precisión máxima, que evidentemente se da cuando el
  
error de muestreo es cero V X j  0 , se produce si
n  1 wst  1 , luego se puede asegurar que la precisión
máxima si:
V X j   0   wst  
1
n 1
La precisión mínima, que evidentemente se da cuando la
varianza es máxima, se produce si  wst  1 (valor máximo
de  wst que será el que efectivamente hace máxima V X j  
117
Métodos Estadísticos Varela/Llanos /Asnate

), luego se puede asegurar que PRECISÓN MÍNIMA


  wst  1 . Por otra parte:

 wst  0  V X j   1  f 
2
S wst
n
Como lo que el muestreo sistemático coincide en precisión
con el muestreo aleatoria independiente en cada estrato. De
esta forma,  wst es en cierta forma una medida de la falta
de aleatoriedad en la selección de unidades para la muestra
en las distintas zonas sistemáticas (filas o estratos).

ESTIMACIÓN DE LA VARIANZA
No podemos decir que en muestreo sistemático haya un
método directo para la estimación de varianzas a partir de
una muestra sistemática. Tenemos las siguientes
situaciones:
a.  próximo a cero o S 2 ws  S 2
Si el coeficiente de correlación intramuestral se aproxima a
cero puede suponer la población y si S 2 ws  S 2 la precisión
del aleatorio simple y el estratificado coinciden, con lo que
la estimación de ka varianza puede realizarse con la misma
expresión que en muestreo aleatorio simple, es decir:
Sˆ 2
Vˆ  x   (1  f )
n
Siendo Ŝ 2 la cuasivarianza de la muestra sistemática
b. st próximo a cero
Si st se aproxima a cero se puede utilizar el muestreo
sistemático como muestreo estratificado considerando cada
zona sistemática como un estrato y seleccionando una
118
Métodos Estadísticos Varela/Llanos /Asnate

muestra estratificada con una unidad por estrato. La razón


de esta utilización es que la precisión del muestreo
sistemático se iguala con la del muestreo aleatorio
estratificado para st =0. En la practica, lo que se hace es
mezclar antes de la selección, las 2k unidades de dos zonas
en una única zona, con lo que se transforman las n zonas de
k unidades cada una en n/2 zonas de 2k unidades cada una
(si n s impar, para la zona que queda suelta se repite
aleatoriamente un elemento de la muestra). Con este método
se transforman las n zonas de k unidades de 2k unidades.
Con ello se dispone de dos unidades muéstrales por zona.
Aplicando las formulas de muestreo estratificado tenemos:

n n n
Sˆ 2 2  2 
2
x  x 2 2 1  f
Vˆ xst   Wh2 1  f h  h    1  f  h1 h 2  x  xh 2 
2 2
 2
2
h1
h nh h  n  2 n h

c. Ni  ni st están próximos a cero:


En este caso utilizaremos alguno de los métodos especiales
generales para la estimación de varianzas. Concretamente
podemos utilizar el método de las muestras interpenetrantes,
que se utiliza cuando tenemos un conjunto de dos o más
muestras, elegidas con el mismo esquema de muestreo
(independientes o no) y tales que cada una proporcione una
estimación válida del parámetro que se pretenda estimar con
el mismo error de muestreo. Si las muestras son
independientes es fácil obtener un estimador in sesgado de
la varianza del estimador. Para aplicar el método de las
muestras interpenetrantes al muestreo sistemático
supongamos que en vez de elegir una muestra sistemática
de tamaño n para un solo valor j, ≤ j ≤ k, es decir, con un
119
Métodos Estadísticos Varela/Llanos /Asnate

solo arranque aleatorio, obtenemos t muestras de tamaño n/t


utilizando t arranques aleatorios. Estas muestras pueden
considerarse independientes, ya que la elección del arranque
es aleatoria en la primera zona sistemática.

Podemos formar un estimador combinado de la media


poblacional basado en las medias de la t muestras (cada
media muestral es un estimador insesgado de la misma
media poblacional) definido como:

1 t
 xt
t 1
xc 

Siendo el estimador in sesgado de su varianza mediante la


aplicación del método de las muestras interpenetrantes:
1  t 2 t 2
Vˆ xc  
1 t 2

t t  1 i
x  tx 2
  i  c 
t t  1  i
x  x 
1 t 2
 xi  xc2 
 t t  1 i
i c
i

La fórmula puede multiplicarse también por (1-f) En


particular para t = 2 tenemos:
x x x x   x  x  x  x 
2 2 2

xc  1 2  Vˆ xc   x12   1 2   x22   1 2   1 2


2  2   2  4

Se observa que al aumentar el número de arranques


aleatorios, manteniendo el mismo tamaño de muestra, la
precisión obtenida se aproxima a la del muestreo aleatorio
simple.

120
Métodos Estadísticos Varela/Llanos /Asnate

RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y


POR CONGLOMERADOS
En el muestreo sistemático puede considerarse cada
columna de n elementos como un conglomerado; es decir,
se puede dividir la población en k conglomerados
constituidos cada uno de ellos por una columna de la tabla
(n unidades). Obtener una muestra sistemática sería
entonces equivalente a obtener una muestra por
conglomerados de tamaño l.

1 j k

1 X1 Xj Xk
2 X 1 k X jk X k k
   
i X 1 ( i 1) k X j  ( i 1) k X k  ( i 1) k
   
n X 1 ( n 1) k X j  ( n 1) k X k  ( n 1) k

121
Métodos Estadísticos Varela/Llanos /Asnate

PROBLEMAS RESUELTOS

1.- En un proceso de fabricación de automóviles se trata de


analizar la producción de piezas en serie de trece robots.
Para ello se controlaron las piezas en de trece robots en la
primera hora de su funcionamiento y se obtuvo la siguiente
distribución
Nº de 1 2 3 4 5 6 7 8 9 1 1 1 1
robots 0 1 2 3
Nº de 5 5 4 2 5 4 5 4 3 4 4 3 2
piezas
producida
s

Con la finalidad de estimar el numero de piezas defectuosas


en el proceso de fabricación, se realiza un muestreo
sistemático 1 en 5, es decir, se selecciona una de cada cinco
piezas, para pasar a continuación la primera pieza del
segundo robot hasta que se agoten sus piezas, y así
sucesivamente hasta que se agoten todas las piezas de todos
los robots. Suponiendo que la primera pieza producida por
cada robot es defectuosa y que todas las demás son
correctas, se pide lo siguiente:

a) Calcular la varianza del estimador de la producción de


piezas defectuosas producidas por los robots y el valor
del coeficiente de correlación intramuestral. ¿Existirá
ganancia en presión respecto de un muestreo irrestricto
aleatorio con fracción de muestreo del 20%? ¿Por qué?
122
Métodos Estadísticos Varela/Llanos /Asnate

Cuantificarla. realizar la tabla del análisis de la varianza


para la producción total.
b) Estimar l varianza para cada muestra sistemática posible
según nuestro procedimiento de muestreo. ¿Con qué
muestra sistemática nos quedaremos que presente mejor
a toda la producción? ¿Existirá ganancia en precisión si
se estima las varianzas utilizando estatificación? Dar la
estimación de la proporción de piezas defectuosas
producidas por los robots.
Solución:

Si definimos una variable dicotomica A a la que


asignamos el valor 1 para las piezas defectuosas y el
valor de 0 para las piezas correctas, y clasificamos las
50 piezas en la 10 filas de 5 piezas cada una (muestreo
sistemático 1 en 5) siguiendo el orden del enunciado del
problema, tendremos la tabla
1 0 0 0 0 1/5
1 0 0 0 0 1/5
1 0 0 0 1 2/5
0 1 0 0 0 1/5
0 1 0 0 0 1/5
1 0 0 0 0 1/5
1 0 0 0 1 2/5
0 0 1 0 0 1/5
0 1 0 0 0 1/5
1 0 0 1 0 2/5
6/10 3/10 1/10 1/10 2/10 13/50

A continuación, se construye la tabla del análisis de la


varianza para la población (producción total) utilizando

123
Métodos Estadísticos Varela/Llanos /Asnate

Ecxel. Como estamos clasificando los datos en 5 grupos


(columnas), utilizaremos una variable G, que clasificara
los valores de A (ceros o unos) por grupos (por
columnas). Introducimos los valores de g en columnas
de la hoja de cálculo de Excel y elegimos Análisis de
varianza de un factor en la opción Análisis de datos del
menú Herramienta, rellenando su pantalla de entrada
como indica en la Figura presenta los resultados.

124
Métodos Estadísticos Varela/Llanos /Asnate

Con la notación que utilizamos habitualmente, la tabla


ANOVA será:

Grado
Fuen s de
Sumas de Cuadrados Cuadrados Medios
te Libert
ad
n k _ _

Entre
k-1=5-   ( x j  X ) 2  1.72 S bs2  1.72 / 4  1.43
1=4 i j

N- n k _

 (X  x j ) 2  7.9S ws  7.9 / 45  0.1755


2
Dent
k=50- ij
ro i j
5=45

N- n k _

Total 1=50-  (X


i j
ij
S 2  9.62 / 49  0.1963
 X j ) 2  9.62
1=49

Conocida esta tabla, pueden realizarse ya todos los


cálculos. La varianza del estimador de la proporción
puede calcularse como:

    n  S2 S2  1  0.43
V Pˆ  V PˆJ  1   BS  (1  f ) BS  1    0.0344
 N n n  5  10

La varianza para el estimador del total de clase será:

    
2
ˆ ˆ ˆ S BS
V A  V NPJ  N V PJ  N (1  f )
2 2
 50 2 * 0.0344  86
n

125
Métodos Estadísticos Varela/Llanos /Asnate

Del valor de la varianza puede deducirse el valor del


coeficiente de correlación intramuestral a través de la
2
fórmula V x J   (1  ( N  1)   ) .Tenemos:
n
49
0.1963
0.0344  50 (1  (10  1)       0.0875
10
Se observa un valor de  muy cercano a cero. Lo que
indica que el muestreo sistemático va a tener una precisión
muy cercana a la del aleatorio simple en la estimación de la
proporción de piezas defectuosas. Esto concuerda con el
hecho S 2 y S ws2
también tienen valores muy cercanos.
Concretamente S 2 = 0.1963 > S ws
2
=0.1755, lo que indica
que es mas preciso el muestreo aleatorio simple. La
varianza del estimador de la proporción en el muestreo
aleatorio simple es ((1- 1/5)0.1963)/10 = 0.0157, lo que
indica que la ganancia en precisión del aleatorio simple será
(0.0344-0.0157)/0.0344 = 54.3%.

Dado el valor del coeficiente de correlación intramuestral,


muy cercano a cero, podemos estimar varianzas mediante la
formula del muestreo aleatorio simple. Se tiene:

6  6 
ˆQ ˆ 1  
     
2
S P 10 10
V P1  1  f 
ˆ ˆ 1
1
 (1  f ) 1 1
 1   1
 0.0213
n n 1  5 10  1

126
Métodos Estadísticos Varela/Llanos /Asnate

3  3
ˆ ˆ ˆ 1  
   1  10  10 
2
S PQ
Vˆ Pˆ2  1  f  2  (1  f ) 2 2  1   1  0.0186
n n  1  5  10  1

1  1
 1  
Sˆ Pˆ3Qˆ 3  1  101  10 
 
2
V P3  1  f 
ˆ ˆ  (1  f )3
 1    0.008
n n  1  5  10  1

   
Vˆ Pˆ4  Vˆ Pˆ3  0.008
2  2
ˆ ˆ ˆ 1  
   1  10  10 
2
S PQ
Vˆ Pˆ5  1  f  5  (1  f ) 5 5  1   1  0.0142
n n  1  5  10  1

Según estos resultados las muestras más precisas son la


tercera y la cuarta
También podemos estimar la varianza a partir del muestreo
estratificado, agrupando las 10 filas (estratos) de la
población en grupos de 2, y considerando cada 2 filas como
un estrado del que seleccionamos 2 unidades para la
muestra. Tendremos:

 1 f n/2
n h
2 1  0.2

Vˆ Pˆ1  2  xh1  xh 2   2 (1  1) 2  (1  0) 2  (0  1) 2  (1  0) 2  (0  1) 2  0.032
10

 1 f 1  0.2
 
n/2
Vˆ Pˆ2  2  x  xh2   (0  0) 2  (0  1) 2  (1  0) 2  (0  0) 2  (1  0) 2  0.024
2
h1 2
n h 10

 
Vˆ Pˆ3  0.008(0  1) 2  0.008  Vˆ Pˆ4  
127
Métodos Estadísticos Varela/Llanos /Asnate

   
Vˆ Pˆ5  0.008 (1  0) 2  (1  0) 2  0.016
Las mejores según el método del muestreo estratificado
también resultan ser la tercera y la cuarta, y además
coinciden en varianza con el método anterior. Para las
restantes muestras se observa ganancia en presión del
método de estimación utilizando la formula del muestreo
aleatorio simple. La proporción estima de de piezas
defectuosa producidas será la derivada de la 3ª o 4ª muestra,
esto es Pˆ  Pˆ  Pˆ  1 / 10 ; es decir que estima 10% de
3 4

producción defectuoso

2.- Una manzana de casas de una ciudad contiene 36


hogares numerados del 1 al 36. Los hogares con ingresos
mensuales superiores a 1500 soles son las que tienen los
números 3, 5-7, 11-13, 15-16, 20-22, 25-26, 28 y 30-34.
a) Se trata de estimar la proporción de hogares con sueldo
mensual superior a 1500 soles utilizando muestre
sistemático. Comparar la precisión de una muestra
sistemática 1en 4 con una muestra aleatoria simple del
mismo tamaño para estimar la proporción de hogares con
sueldo mensual superior a 1500 soles. Justificar la
respuesta en función del valor del coeficiente de
correlación intramuestral y en función de la
cuasivarianza intramuestral.
b) Halle el tamaño de la muestra necesaria para estimar la
proporción de viviendas en las que los ingresos
mensuales son superiores a 1500 euros para un error de
muestreo de 16 centésimas. Hallar ese mismo tamaño
para muestreo aleatorio simple y comentar el resultado.

128
Métodos Estadísticos Varela/Llanos /Asnate

Solución:
Si definimos una variable dicotómica A, a la que
asignamos el valor 1 para los hogares en que los ingresos
mensuales superan los 1500 soles y el valor de 0 para el
resto de los hogares, y clasificamos los 36 hogares en 9 filas
de 4 viviendas cada una(muestreo sistemático uno en 4)
siguiendo el orden del enunciado del problema, tendremos
la siguiente tabla:

0 0 1 0 ¼
1 1 1 0 ¾
0 0 1 1 ½
1 0 1 1 ¾
0 0 0 1 ¾
1 1 0 0 ½
1 1 0 1 ¾
0 1 1 1 ¾
1 1 0 0 ½
5 5 5 5 5
9 9 9 9 9

Para calcular la varianza del estimador sistemático de la


proporción hacemos:
1  5 5   5 5   5 5   5 5  

2 2 2 2

V Pˆ                   0
4  9 9   9 9   9 9   9 9  
También podemos calcular la varianza del estimador de la
proporción como

 1 k
k j 1
20  20  1  5 4 5 4 5 4 5 4 
V Pˆ  PQ   Pˆ j Qˆ j  1        0
36  36  4  9 9 9 9 9 9 9 9 

129
Métodos Estadísticos Varela/Llanos /Asnate

A continuación se construye la tabla de análisis de la


varianza para la población (Producción total) utilizando
Excel. Como estamos clasificando los datos en 4 grupos
(columnas), utilizamos una variable G, en columnas de la
hoja de cálculo de Excel y elegiremos análisis de varianza
de un factor en la opción Análisis de datos del menú
Herramientas.

130
Métodos Estadísticos Varela/Llanos /Asnate

Por lo tanto, la tabla del análisis de la varianza para la


población es la siguiente:
Grados
de
Fuente Sumas de Cuadrados Cuadrados Medios
Liberta
d
n k _ _
Entre
k-1=4-
1=3 
i
 (x j  X )2  0
j
S bs2  0 / 3  0

N-
Dentr n k _ 2
S ws  8.88 / 32  0.277
o
k=36-
4=32
 i
 ( X ij  x j ) 2  8.88
j

N- n k _ S 2  8.88 / 35  0.254
Total 1=36-
1=35
 (Xi j
ij  X j )  8.88
2

131
Métodos Estadísticos Varela/Llanos /Asnate

Conocida esta tabla pueden realizarse ya todos los cálculos.


Por ejemplo, la varianza del estimador de la proporción
también podría calcularse como:

  
ˆ ˆ 
V P  V Pj  1  
n  S bs2
 1  f 
S bs2  1  0
 1    0
 N n n  49
Del valor de la varianza puede deducirse el valor del
coeficiente de correlación intramuestral a través de la
formula:
2
V (x j )  (1  (n  1)  )
n
Tendremos:
35
0.254
36 1 1
0 (1  (9  1)   )         0.125
9 8 n 1

Estamos ante el caso de máxima precisión del muestreo


sistemático, ya que la varianza es nula, o lo que es lo
1
mismo,     .
n 1
Este hecho concuerda con los valores que toman S 2 y S ws2 .
Concretamente S 2  0.254  S ws
2
 0.277 , lo que indica que
es más preciso el muestreo sistemático que el aleatorio
simple.
La varianza del estimador de la proporción en el muestreo
aleatorio simple es (1 - 1/4) * 0.254/9  0.021 .
Para resolver la segunda parte del problema consideramos
ahora cada una de las 9 zonas (filas) como un estrato de 4
unidades. Tenemos entonces dividida la población en 9
132
Métodos Estadísticos Varela/Llanos /Asnate

estratos de 4 unidades cada uno, de modo que la muestra


sistemática consta de una unidad por estrato que de forma
general no es elegida aleatoriamente dentro del mismo. Esta
clasificaron de los elementos de la población en 9 filas y 4
unidades cada una origina una tabla del análisis de la
varianza que se puede calcular con Excel.
Como estamos clasificando los datos en 9 filas (estratos),
utilizamos las variables G5 a G13 , que recogen los valores
de las 9 filas. A continuación elegimos análisis de varianza
de un factor en la opción análisis de datos del menú
herramientas.

133
Métodos Estadísticos Varela/Llanos /Asnate

El cuadro de análisis de la varianza por estrato es entonces


el siguiente:
Grados de Cuadrados
Fuente Sumas de Cuadrados
Libertad Medios
n k _ _

Entre n-1=9-1=8 
i
 ( x j  X ) 2  1.388 S bs2  1.388 / 8  0.1735
j

n k _

 (X  x j ) 2  7.5 S ws  7.5 / 27  0.2777


2
N-n=36-
Dentro ij
9=27 i j

n k _

  ( X ij  X j ) 2  8.888S  8.888 / 35  0.254


2
N-1=36-
Total
1=35 i j

134
Métodos Estadísticos Varela/Llanos /Asnate

Calculamos ahora el valor del coeficiente de correlación


 st como sigue:
k n
2 ( X ij  X i )( X zj  X z )
j i z
st 
n(n  1)(k  1)S wst2
2  1 3 1 1 3 1
  (0  )(1  )  (0  )(0  )  ...  (1  )(0  )   0.125
9 * 8 * 3 * 0.277  4 4 4 2 4 2

Para calcular el tamaño de la muestra necesario para


cometer un error de muestreo igual a 0.16 despejamos n en
la expresión que define la varianza de la proporción en
función de  st tenemos:

  S2  n  0.277
V Pˆst  1  f  wst (1  (n  1) st )  0.16 2  1   (1  (n  1)(0.125))
n  36  n
n5

Para calcular el tamaño de muestra anterior en muestreo


aleatorio simple despejamos n en la expresión que define la
varianza de la proporción de ese tipo de muestreo.
Tenemos:

 
V Pˆst  1  f 
S2  n  0.254
 0.16 2  1   n8
n  36  n
Obviamente el tamaño de muestra necesario para cometer el
mismo error de muestreo es mayor en muestreo aleatorio
simple que en muestreo sistemático, ya que en este

135
Métodos Estadísticos Varela/Llanos /Asnate

problema el muestreo sistemático es más preciso que el


muestreo aleatorio simple.

RECOMENDACIONES Y SUGERENCIAS

Las muestras sistemáticas son de extracción y ejecución


conveniente. En la mayoría de estudios sobre poblaciones
artificiales y poblaciones naturales pudieron compararse
favorablemente en lo que a la preedición respecta con las
muestras aleatorias estratificadas. Sus desventajas son que
pueden dar una precisión mediocre cuando se presenta una
periodicidad insospechada, y que no se conoce aún un
 
método confiable para estimación de V Ysy a partir de los
datos de la muestra.
A la luz de estos resultados podemos recomendar el
muestreo sistemático en las situaciones siguientes.

1. Cuando el ordenamiento de la población es


esencialmente aleatorio o contiene a lo mas un
estratificación débil. Aquí, el muestreo sistemático
se usa por conveniencia y se esperan pocas
ganancias de precisión. Se cuenta con estimaciones
muéstrales de error que son razonablemente
insesgadas.

2. cuando se emplea una estratificación con numerosos


estratos y se toma una muestra sistemática
independiente en cada estrato. Los efectos de la
periodicidades ocultas tienen tendencia a neutralizar
en esta situación y puede obtenerse una estimación
136
Métodos Estadísticos Varela/Llanos /Asnate

del error que se sabe es una sobreestimación. En


forma alternativa, podemos usar la mitad de los
estratos y tomar dos muestras sistemáticas, con
inicios aleatorios independientes en cada estrato.
Este método da una estimación insesgada del error.

3. para unidades conglomerados de sub muestreo. En


este caso puede obtenerse una estimación casi
insesgada o insesgada del error de muestreo en la
mayoría de las situaciones practicas.

4. para muestrear poblaciones que tienen una variación


de tipo continuo a condición de que no se requiera
regularmente una estimación de error del muestreo.
Si se hace una serie de encuestas de ese tipo, será
suficiente una verificación ocasional de los errores
de muestreo.

Observación

El método tal como se ha definido anteriormente es sesgado


si N no es entero, ya que los últimos elementos de la
n
lista nunca pueden ser escogidos. Un modo de evitar este
problema consiste en considerar la lista como si fuese
circular (el elemento N+1 coincide con el primero) y:

 Sea k el entero más cercano a N ;


n
 Se selecciona un número al azar m, entre 1 y N;

137
Métodos Estadísticos Varela/Llanos /Asnate

 Se toma como muestra los elementos de la lista que


consisten en ir saltando de k elementos en k, a partir
de m, teniendo en cuenta que la lista es circular

VENTAJAS RESPECTO AL MUESTREO


ALEATORIO SIMPLE

1. Es más fácil sacra una muestra y a menudo, hacerlo


sin cometer errores. Esta es una ventaja particular
cuando la extracción se hace en el área. Aunque la
extracción se haga en una oficina este método,
puede ahorra mucho tiempo.

2. Intuitivamente, el muestreo sistemático parece ser


más preciso que el aleatorio simple. En efecto,
estratifica la población en n estratos, que consisten
de las primeras k unidades, las segundas k unidades,
etc. Por lo tanto, podemos esperar que la muestra
sistemática sea tan preciso como la muestra aleatoria
estratificada correspondiente con una unidad por
estrato.

138
Métodos Estadísticos Varela/Llanos /Asnate

CAPITULO II

CONTROL DE CALIDAD ESTADÍSTICO

INTRODUCCIÓN

El propósito del capitulo es presentar las técnicas


estadísticas de control de calidad tanto en forma técnica
como practica, Por lo que diremos que es indispensable
incorporar la calidad en un producto mediante la inspección
o las pruebas.
Se tiene que fabricar el producto desde el principio
correctamente, esto implica que los procesos deben ser
estables y capaces de funcionar de manera que todos los
productos fabricados cumplan con las especificaciones.
Existe una variedad de definiciones en cuanto al control
de calidad, a continuación definiremos las más importantes:
CALIDAD
1.- El termino calidad, por lo general lo asociamos con
productos o servicios excelente, que satisfacen nuestras
expectativas y mas aun las rebasan
2.- De acuerdo a la norma A3 – 1987 ANSI / ASQC,
calidad es la totalidad de aspectos y características de un
producto o servicio que permitan satisfacer necesidades
implícita o explícitamente formuladas
3.- Juran, define la calidad como un conjunto de
características de un producto que satisfacen las necesidades
139
Métodos Estadísticos Varela/Llanos /Asnate

de los clientes y que en consecuencia hacen satisfactorio el


producto.
CONTROL DE CALIDAD.
1.- Según K. Ishikawa, el control de calidad consiste en el
desarrollo, diseño, producción y comercialización de
productos y servicios con una eficacia del costo y una
utilidad optimas, todo ello equilibrado con una compra
satisfactoria por parte de los clientes. Para alcanzar estos
fines todas las partes de una empresa (alta dirección, oficina
central, fábricas y departamentos individuales tales como
producción, diseño, etc) tienen que trabajar juntos. Todos
los departamentos de la empresa tienen que empeñarse en
crear sistemas que faciliten la cooperación y en preparar y
en poner en práctica fielmente las normas internas. Por esta
razón el control de calidad visto desde esta óptica se le
denomina control de calidad total o control de calidad para
toda la empresa.
2.- Según las normas industriales Japonesas (norma JIS ) el
control de calidad se define como un sistema de métodos
para la provisión eficaz de costos, de bienes o servicios cuya
calidad es adecuada a los requisitos del comprador.
3.- El control de calidad se define como una nueva manera de
pensar en la dirección y de dirigir, y considera que la puesta
en practica eficaz del control de calidad requiere la
participación y la cooperación de todos los empleados de una
empresa, desde la alta dirección pasando por los directivos
medios y los supervisores hasta los trabajadores de base, lo
cual se lograra haciendo uso de los métodos estadísticos,
motivo por el cual se le conoce como control estadístico de
calidad.
140
Métodos Estadísticos Varela/Llanos /Asnate

Por lo tanto el control de calidad implica la investigación


de las técnicas y actividades siguientes relacionadas entre
si:
 Especificación que se necesita
 Diseño del producto o del servicio de manera que
cumpla con las especificaciones
 La producción o instalación cumpla con las
especificaciones
 Inspección para cerciorarse del cumplimiento de las
especificaciones
 Revisión durante el uso, a fin de obtener
información que en caso de ser necesario sirva como
base para modificar las especificaciones
4.- Juran, define la calidad como un conjunto de
características de un producto que satisfacen las
necesidades de los clientes y que en consecuencia hacen
satisfactorio el producto, por lo tanto puede decirse que la
calidad consiste en no tener deficiencias
5.- La Sociedad Americana para el Control de Calidad
(A.S.Q.C.) define la calidad como el conjunto de
características de un producto, proceso o servicio que lo
confieren su aptitud para satisfacer las necesidades del
usuario o cliente. Sea cual sea la definición que se tenga en
cuenta, resulta que un producto o servicio es de calidad
cuando satisface las necesidades del cliente o usuario en
cuanto a seguridad
HISTORIA DEL CONTROL DE CALIDAD
Es difícil encontrar los orígenes del control de calidad,
así conocemos que en el Egipto faraónico y concretamente
en la tumba de Thebas, aparecen figuras grabadas que
141
Métodos Estadísticos Varela/Llanos /Asnate

indican la ejecución del esculpido de unos bloques de piedra


y su posterior verificación. El código de Hammurabi 1700
años antes de Cristo contemplaba que si una casa se
derrumbaba por estar mal construida y perecían sus
moradores el albañil que la construyo era condenado a
muerte, los inspectores fenicios cortaban la mano a los que
reiteradamente fabricaban productos defectuosos
En la edad media los mismos artesanos que fabricaban y
vendían sus productos captaban las quejas de sus
consumidores, lo cual les servia para asegurarse de no
volver a cometer fallas, En los siglos XVII y XVIII los
gremios seleccionaban la admisión de nuevos socios, y solo
eran admitidos y autorizados a distinguir sus productos con
la marca del gremio aquellos que, además de conocer bien
el oficio demostraban su ética.
A partir de la revolución industrial en los siglos XIX y
XX, la fabricación en serie y la subdivisión del trabajo en
funciones da lugar a que existan personas dedicadas a la
fabricación y otras a controlar la calidad de lo fabricado.
Con la revolución industrial el maquinismo, la
automatización, las ideas de los pensadores como Marx y la
aplicación de nuevos sistemas de gestión establecidos por
Taylor, nace un nuevo tipo de empresa. El mercado se hace
mas competitivo, lo que lleva a los empresarios a controlar
la calidad de sus productos.
El inicio del control estadístico de calidad moderno se
remonta a 1924 cuando en los laboratorios de Bell
Telephone se aplican por primera vez gráficos estadísticos
para el control de calidad de productos manufacturados
diseñados por Walter A. Shewhart.
142
Métodos Estadísticos Varela/Llanos /Asnate

En 1931 se publica en Nueva York un libro titulado


control económico de calidad de productos manufacturados
En Gran Bretaña, en 1935 Pearson publico artículos
sobre control de calidad que sirvieron como base a la
Norma Británica sobre calidad BS 600.
En la década de los cuarenta comenzó el desarrollo y
aplicación de tablas de muestreo para inspección, técnica
que ya había sido iniciada a finales de la década de 1920 por
Harod, Dodge y Roming, y que durante la década de los
treinta fue utilizada por el sector manufacturero del sistema
Bell, pero no por la industria en general, Se publicaron
tablas de muestreo para usos militares y se aprobó su
empleo por la fuerzas armadas derivado de la segunda
guerra mundial ( Tablas Military Stándar ) En 1946 se
formo la American Society for Quality Control ( ASQC ),
que promovió el uso de técnicas de control de calidad para
todos los tipos de productos y servicios, ofreciendo
conferencias y desarrollando publicaciones técnicas y
programas de adiestramiento para asegurar la calidad.
El Dr. Eduards Deming, especialista en estadística, visito
el Japón en 1950, cuando el pueblo Japonés se recuperaba
de los estragos de la guerra, las industrias trataban de salir a
flote, pero la calidad de los productos Japoneses era muy
inferior a los que presentaban los productos importados. El
Dr. Deming, en una conferencia ante dirigentes de las
grandes industrias, afirmo que si se implementaba en sus
fabricas un adecuado control estadístico de calidad, la
marca Made in Japan llegaría a convertirse en un símbolo
de alta calidad.

143
Métodos Estadísticos Varela/Llanos /Asnate

En 1954 el Dr. J M. Juran, experto en control de calidad,


difunde el entusiasmo por los métodos estadísticos y los
sistemas de control de calidad, no solo entre los
especialistas de cada empresa, sino también entre los
dirigentes y mandos intermedios, esta inquietud se extiende
por todo el Japón, donde se aplican en masa las técnicas
estadísticas y se promueven los sistemas de control y
mejora de la calidad. Loa Japoneses aceptan el reto a la
calidad, dedicando a sus empresas además de varias horas
de trabajo físico su capacidad intelectual, la cual alcanza
hasta los momentos de ocio que en ocasiones utilizan para
dar soluciones a problemas relativos a la fabrica.
El Dr. Kaoru Ishikawa sirve de columna vertebral en
estos programas de calidad y en 1960 instituye los primeros
círculos de calidad en el Japón, El nivel de calidad de los
productos Japoneses es hoy óptimo, siendo este país líder de
la calidad.
Como podemos observar el control de calidad en los
productos manufacturados no es algo nuevo, Lo que si es
mas reciente es el control de calidad en cada una de las
etapas del proceso de fabricación. Apoyado por métodos
estadísticos, el control de calidad nos permite evitar la
producción de piezas defectuosas que darían lugar a
desperdicios o a la necesidad de una nueva fabricación, con
la correspondiente perdida de tiempo y dinero.

MEDICION DE LA CALIDAD.
La calidad no se puede definir con precisión sin
cuantificarla. Esto quiere decir que tenemos que dedicar
tanto esfuerzo y meditación como podamos para idear
144
Métodos Estadísticos Varela/Llanos /Asnate

métodos para medirla, no es fácil cuantificar características


tales como loa daños, la suciedad, la calidad de los
servicios, el color, el sonido, el olor, el sabor y la textura,
cuyas medidas dependen de los sentidos humanos
Los métodos de muestreo y de medida usados para este fin
deben estar claros, muchas veces se define la calidad
especificando la cantidad unitaria certificada por la
inspección y describiendo los métodos de muestreo y de
medida utilizados. Otra forma de cuantificar la calidad es
estableciendo limites de tolerancia, los cuales serán valores
para la calidad considerándolos aceptables los que caen
dentro de estos limites. En la industria es frecuente
encontrarse con características de calidad que no se pueden
medir como variables numéricas, en unos casos porque
corresponden a aspectos cualitativos y en otros porque
supondría un costo elevado. Encontrándonos así en el
campo del control de calidad por atributos, para los que
existen varios tipos de medida de la calidad, tales como:
fracción de unidades defectuosas p (porcentajes).
 Numero de unidades defectuosas np
 Numero promedio de defectos por unidad de
inspección u
 Numero total de defectos por unidad c
En general será mas sencilla la medición cuando se
realiza el control de calidad sobre una característica de
calidad medible ( longitud, resistencia, etc ), en este caso se
dice que estamos ante un control de calidad por variables.

145
Métodos Estadísticos Varela/Llanos /Asnate

CAUSAS DE LA VARIACIÓN DE LA CALIDAD


Los resultados de cualquier trabajo que se realice
siempre contienen variación y su distribución sigue un
cierto patrón. Existen dos tipos causas de dispersión que
afectan a los procesos y ocasionan la variación del
producto, y también hay, por tanto, dos tipos de variación.
Causas no asignables.- Es aquella que hace aparecer la
variación en el producto ( resultado del proceso ) son las
causas que todavía no están bajo control técnico, pero que
están presentes teóricamente, y la variación producida por
estas se le llama variabilidad controlada.
Causas asignables.- Son aquellas que producen alguna
anomalía en el proceso y origina una variación
particularmente grande, estas anomalías se dan cuando
sucede algo que no esta previsto por las normas de trabajo o
no se siguen estas. Tales cusas se pueden eliminar por
medio de la tecnología si todos los implicados hacen un
esfuerzo cooperativo, la variación presentada se la conoce
como variabilidad incontrolada.
Estos dos tipos de causas de dispersión producen dos
tipos de variación en los resultados del proceso.
Proceso en estado controlado.- Es aquel en el cual se
siguen las normas internas, se realiza el muestreo aleatorio
correctamente y se toman medidas controladas, en este caso
se podrá observar que la variación de la calidad del
producto es debida a causas del azar y tiene una distribución
fija usualmente la distribución normal, es decir, el proceso
produce resultados en los cuales la única variación es la
variabilidad controlada.

146
Métodos Estadísticos Varela/Llanos /Asnate

Proceso en estado incontrolado.- Es aquel en el cual surge


una causa asignable de dispersión, la variación de los
resultados del proceso es anormalmente grande, es decir, el
proceso produce resultados con variabilidad incontrolada.
Para distinguir estos tipos de variación, utilizaremos las
herramientas estadísticas y para desterrar las causas
asignables de los procesos usaremos los gráficos de control
que estudiaremos mas adelante.
IDENTIFICACIÓN DE LOS FACTORES QUE
AFECTAN LA CALIDAD
Se entiende por característica o factor de calidad a
cualquier propiedad que contribuya a la adecuación del uso
de un producto, proceso o servicio. Como pueden existir
muchas características de calidad distintas y algunas mas
importantes que otras, necesitaremos identificar a aquellas
que afectan directamente a la calidad jerarquizándolas y
clasificándolos por orden de importancia, para lo cual
existen técnicas simples como:
Diagrama causa - efecto.- También llamado diagrama de
la espina de pescado por la forma característica que tiene,
fue creado por el Dr. Kaoru Ishikawa como herramienta de
trabajo para los círculos de calidad.
Se utiliza para representar gráficamente de una forma
clara y precisa que factores afectan a un problema de la
calidad, este diagrama proporciona bases para discusión de
los factores que afectan a un problema y su interrelación y
se utiliza principalmente en la solución de problemas de la
calidad.
Este diagrama consiste básicamente en definir un
objetivo o efecto teorizar sobre las posibles causas que
147
Métodos Estadísticos Varela/Llanos /Asnate

motivan el efecto y representarlos gráficamente las causas y


los factores que afectan al objetivo.
Esta grafico se elabora ubicando en el extremo derecho
de la flecha principal el efecto al que queremos buscarle
causas, las flechas secundarias relativas a cada causa que
intervienen en el proceso y que producen el efecto, se
orientan en forma inclinada hacia la flecha principal
incidiendo sobre ella con un ángulo aproximado de 30
grados. Las sub - causas que se vayan detectando relativas a
cada causa se anotaran en su correspondiente flecha
secundaria mediante nuevas flechas mas pequeñas que
inciden sobre la flecha secundaria también de modo
inclinado, siguiendo este proceso con distintos niveles de
sub- causas se obtendrá el grafico mencionado.
Diagrama de Pareto o análisis A – B - C .- Cosiste
esencialmente en la clasificación de los elementos o factores
que intervienen en un proceso por su orden de importancia
para poder tratarlos cada uno de ellos en una forma distinta
según su peso especifico.
El resultado de un proceso dependerá esencialmente de
un numero pequeño de los factores que intervienen en el
mismo, Si logramos determinar cuales son estas causas o
factores vitales podremos concentrar nuestros esfuerzos en
el estudio de las mismas, con lo que resolveremos la
mayoría del problema.
Gráficos de Control.- Los gráficos de control
habitualmente utilizados en el control estadístico de calidad
se crean para representar de forma ordenada y cronológica
las informaciones recogidas sobre el resultado de las
operaciones a lo largo de un periodo. Estos gráficos son
148
Métodos Estadísticos Varela/Llanos /Asnate

muy útiles para analizar los factores que intervienen en la


calidad.

HISTOGRAMAS.
Después de obtenidos los datos del problema es practico
representarlos de una forma grafica de tal manera que
refleje la dispersión de los valores respecto a la media, con
este grafico reflejaremos resultados de un proceso para
todas las causas por lo que es muy útil para estudiar los
factores que intervienen en la calidad.

GRAFICOS DE CONTROL
Los diagramas de control siguen utilizándose
actualmente en el control de calidad por las siguientes
razones.
 Son una herramienta contrastada para mejorar la
productividad ya que al reducir el rechazo y la
reelaboración los costos disminuyen y la capacidad
de la producción aumenta
 Son eficaces para evitar defectos preventivamente,
manteniendo el proceso bajo control durante la etapa
de fabricación, lo que evita el costo de separar los
artículos correctos de los defectuosos después de su
fabricación.
 Evitan ajustes innecesarios al proceso derivados de
posibles variaciones anormales ilusorias que
posiblemente no lo sean.
 Proporcionan información para el análisis, ya que a
menudo el patrón de los puntos en el diagrama de
control contiene información diagnostica para un
149
Métodos Estadísticos Varela/Llanos /Asnate

operario o ingeniero con experiencia información


que permite implementar un cambio en el proceso
que mejore su rendimiento
 Proporcionan información acerca de la capacidad del
proceso, ya que la grafica de control ofrece
información sobre el valor de parámetros
importantes del proceso y de su estabilidad en el
tiempo, lo que permite estimar la capacidad del
proceso.
 Los diagramas de control se encuentran entre los
medios de control administrativos mas importantes.
Tienen tanta importancia como los controles de
costos y de materiales.
La siguiente grafica resume el control de calidad.

Entradas Controlables
X1 X2 ….............XP

Entradas Característica de
Calidad ( y )
PROCESO

Z1 Z2 ....................ZQ

Entradas Incontrolables

150
Métodos Estadísticos Varela/Llanos /Asnate

PRINCIPIOS ESTADISTICOS BÁSICOS DE UN


DIAGRAMA DE CONTROL
Un diagrama de control es una representación grafica de
una característica de calidad, medida o calculada a partir de
muestras del producto, en función del número de muestras o
del tiempo. La grafica tiene una línea central que representa
el valor medio de la característica de calidad
correspondiente al estado bajo control, la grafica también
muestra otras dos líneas horizontales llamadas limite de
control superior ( LCS ) y limite de control inferior ( LCI ).
Se eligen estos límites de manera que si el proceso esta
bajo control, casi la totalidad de los puntos muestrales se
halle entre ellos. Mientras los puntos se encuentren entre
estos limites se considera que el proceso esta bajo control y
no es necesario tomar ninguna acción correctiva.
GRAFICO DE CONTRO L DE CALI DAD
Media

Sin embargo si un punto se encuentra fuera de los limites


de control se interpreta como una evidencia de que el
proceso esta fuera de control y son necesarias acciones de
investigación y corrección a fin de encontrar y eliminar la o
las causas asignables a este comportamiento
151
Métodos Estadísticos Varela/Llanos /Asnate

GRAFICO DE CONTROL DE CALIDAD


Media

Se acostumbra a unir los diferentes puntos muéstrales en


el diagrama de control mediante segmentos rectilíneos con
el objetivo de visualizar mejor la evolución de la secuencia
de los puntos en el tiempo.
Incluso si los puntos se encuentran comprendidos entre
los limites de control, pero se comportan de manera
sistemática o no aleatoria, esto indica que el proceso esta
fuera de control, por lo que algo anda mal, por lo regular
existe una causa por la que aparece cierto patrón no
aleatorio en un diagrama de control y si se puede encontrar
y eliminar, es posible mejorar el funcionamiento del
proceso.

152
Métodos Estadísticos Varela/Llanos /Asnate

Grafico de Control de calidad


Media

GRAFICOS DE CONTROL POR VARIABLES


La mayoría de los procesos industriales o de otro
tipo pueden beneficiarse con un programa de diagramas de
control, para lo cual será necesario tener en cuenta
directrices esenciales de cómo elegir el tipo adecuado de
diagrama de control, determinar que características del
proceso habrá que controlar y definir en que lugar del
proceso habrá que incorporar los diagramas. Entre los
diagramas de control por variables más importantes
tenemos los siguientes:
1. Gráficos de medias X
2. Grafico del Rango R
3. Grafico de desviaciones típicas S
La ventaja mas importantes de los diagramas de control
por variables es que a menudo proporcionan una indicación
de problemas inminentes y permiten al personal operativo
tomar acciones correctivas antes que ocurra la producción
real de artículos defectuosos, mientras que los diagramas de
control por atributos no reaccionan a menos que el proceso
153
Métodos Estadísticos Varela/Llanos /Asnate

haya cambiado tanto que se produzcan mas artículos


disconformes.
Para un nivel especifico de protección contra cambios en
el proceso, los diagramas de control para variables necesitan
un tamaño de muestra mas pequeño que el diagrama de
control por atributos, es decir, mientras que el control por
variables es normalmente mas costoso y lento por unidad
que el control por atributos, se tendrán que controlar menos
unidades
Elección del tipo de diagrama de control.
Para elegir el tipo de diagrama de control adecuado, para
variables se debe tener en cuenta:
 Se introduce un nuevo proceso o bien se fabrica
un nuevo producto mediante un proceso ya
existente.
 El proceso ha estado funcionando durante algún
tiempo, pero tiene problemas crónicos o no puede
cumplir con las tolerancias especificadas.
 El proceso tiene problemas y el diagrama de
control puede ser útil para fines de diagnostico
 Se necesitan pruebas destructivas
 Es conveniente reducir el mínimo el muestreo
para aceptación u otras pruebas cuando el
proceso se puede manejar bajo control
 Se han utilizado gráficos de control por atributos,
pero el proceso esta fuera de control o bajo
control pero con producción inaceptable.
 Procesos con especificaciones muy estrechas,
tolerancias de montaje traslapadas, u otros
problemas de manufactura difíciles.
154
Métodos Estadísticos Varela/Llanos /Asnate

 Situaciones en las que el operario debe decidir si


ajusta o no el proceso, o bien cuando se tiene que
evaluar una configuración.
 Se requiere un cambio en las especificaciones del
proceso.
 Se debe demostrar continuamente la estabilidad y
capacidad del proceso.

DIAGRAMAS DE CONTROL PARA LA MEDIA X Y


EL RANGO R
Siempre que se intente controlar una característica de
calidad que consiste en una variable cuantitativa, es una
practica estándar controlar el valor medio de la
característica de calidad y su variabilidad.
El control de la media del proceso se realiza mediante el
diagrama de control de medias
El control de la variabilidad o dispersión del proceso se
realiza mediante el diagrama de control de la desviación
estándar o con un diagrama del recorrido o rango este
último es el más usado.
Actualmente los diagramas de control de X y de R y
de la X y de S se encuentran entre las mas importantes y
útiles técnicas de control estadístico de procesos en línea.
DIAGRAMAS DE CONTROL PARA LA MEDIA x
Se presentan los siguientes casos:
CASO A :
CUANDO SE CONOCEN  y  .- Supongamos que una
característica de calidad X cuantitativa esta distribuida
normalmente, con media  y desviación estándar  ,

155
Métodos Estadísticos Varela/Llanos /Asnate

ambas conocidas. Si X1, X2, X3,........Xn., es una muestra de


tamaño n, entonces la media muestral X sigue una
distribución normal con media  y desviación típica σ
n
Supongamos que se dispone de k muestras cada una con ni
observaciones de la característica de calidad X dada. Por lo
general los ni serán pequeños, muchas veces igual a 4, 5 o 6.
Sean x1, x2 , x3 , x4 , x5 , .............., xk las k medias de las
muestras. Entonces, el mejor estimador de  , la media del
proceso, es la gran media o media de las medias de las k
muestras. Que se obtiene mediante:
k ni

 xi x
j 1
ij

x i 1
, siendo x , i  1,2,3,4,...., k
k ni

Como: E ( xI ) =   E(x ) = 

Sabemos que E ( xI ) =  y  ( xI ) =
ni
entonces por el teorema del
x  límite central se cumple
 N ( 0 ,1)
 / n
que:

Por lo tanto, mediante la distribución normal N( 0 , 1 ), para


un α dado podremos calcular kα tal que:
x-μ
P  -k α   k α  =1-α
σ/ ni
Como para i =1,2,......,k se cumple que :

156
Métodos Estadísticos Varela/Llanos /Asnate

x-μ
-k α   k α   μ-k α σ/ n i  x  μ+k α σ/ ni
σ / ni

LIMITES DE CONTROL CON TAMAÑO DE


MUESTRA DIFERENTE
CRITERIO PROBABILISTICO:
Los límites de control Probabilísticos al nivel α serán:
L.C.S. = μ+k α σ/ ni
Linea central = μ
L.C.I. =μ-k α σ/ ni
CRITERIO TRES SIGMA (3  ).- Estos límites se
obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los límites de control quedan de la
siguiente forma:
L.C.S. = μ+3σ/ ni
Linea central = μ
L.C.I. =μ-3σ/ ni
Una vez que tenemos los limites de control para cada
muestra podemos optar por graficarlos, pero las líneas de
control no serán líneas rectas.
Observación:
 Cuando los tamaños de las muestras (ni) no difieren
mucho, se puede tomar como valor común n la media
de todos los tamaños de muestras ni
 También se puede optar por tomar un n común igual al
valor mayor de los ni , con lo que obtendríamos limites
de control bastante sensibles.

157
Métodos Estadísticos Varela/Llanos /Asnate

LIMITES DE CONTROL CON IGUAL TAMAÑO


DE MUESTRA.
En este caso los límites de control quedaran de la
siguiente manera:
CRITERIO PROBABILÍSTICO
L.C.S. = μ+k α σ/ n
Linea central = μ
L.C.I. =μ-k α σ/ n
CRITERIO TRES SIGMA (3  )
L.C.S. = μ+3σ/ n =μ+Aσ
Linea central = μ
L.C.I. =μ-3σ/ n =μ-Aσ
Donde: A  3/ n , es un valor conocido

CASO B
CUANDO NO SE CONOCEN ni  ni  .-
Supongamos que una característica de calidad X
cuantitativa esta distribuida normalmente, con media 
y desviación estándar  , ambas desconocidas, lo cual es
habitual en la practica, hay que estimarlas a partir de k
muestras preliminares, tomadas cuando se considera que
el proceso esta bajo control. Estas estimaciones suelen
basarse en una cantidad de 20 a 25 muestras como
mínimo. Supongamos que se dispone de k muestras
cada una con ni observaciones de la característica de
calidad X dada. Por lo general los ni serán pequeños,
muchas veces igual a 4, 5 o 6 . Sean x1, x2 , x3 , x4 ,
x5 , .............., xK las k medias de las muestras.

158
Métodos Estadísticos Varela/Llanos /Asnate

Entonces, el mejor estimador de  , la media del


proceso, es la gran media o media de las medias de las k
muestras. Que se obtiene mediante:
k ni

 xi x
j 1
ij

x i 1
, siendo x , i  1,2,3,4,...., k
k ni
Para fijar los límites de control se necesita también un
estimador  de la desviación estándar  . Es posible
evaluar  a partir de los recorridos Ri de las k muestras.
Sabemos que
E(Ri) = d2 
Supongamos que una característica de calidad X
cuantitativa esta distribuida normalmente, con media  y
desviación estándar  , ambas desconocidas, lo cual es
habitual en la practica, hay que estimarlas a partir de k
muestras preliminares, tomadas cuando se considera que el
proceso esta bajo control. Estas estimaciones suelen basarse
en una cantidad de 20 a 25 muestras como mínimo.
Supongamos que se dispone de k muestras cada una con ni
observaciones de la característica de calidad X dada. Por lo
general los ni serán pequeños, muchas veces igual a 4, 5 o 6
. Sean x1, x2 , x3 , x4 , x5 , .............., xK las k medias de
las muestras. Entonces, el mejor estimador de  , la media
del proceso, es la gran media o media de las medias de las k
muestras. Que se obtiene mediante:
k ni

x i x
j 1
ij

x i 1
, siendo x , i  1,2,3,4,...., k
k ni

159
Métodos Estadísticos Varela/Llanos /Asnate

Para fijar los límites de control se necesita también un


estimador  de la desviación estándar  . Es posible
evaluar  a partir de los recorridos Ri de las k muestras.
Sabemos que
E(Ri) = d2 
El estimador  resulta ser así un estimador insesgado de 
, ya que
1 k
R  1 k
k
E ( )   E  i   
k i 1  d2  k i 1 k
Como ya tenemos estimaciones de  y  , podremos
utilizarlos para hallar los limites de control. Por el teorema
del limite central se cumple que :
x x
 N ( 0 ,1)
R/d 2
n
Por lo tanto, mediante la distribución normal N( 0 , 1 ), para
un α dado podremos calcular kα tal que:

x  x
P  k 
Ri / d 2
 k   1
n

Pero de esta expresión se deduce que FN(0,1)( kα ) – FN(0,1)(-


kα) = 1 - α
 FN(0,1)( kα) – (1 - FN(0,1)( kα) = 1 - α
 2FN(0,1)( kα) – 1 = 1 – α
 FN(0,1)( kα) = 1 - α /2, con lo cual kα valdrá
F (1 - α /2 )
1

Siendo F la función de la distribución normal N(0,1).


Como para i =1,2,......,k se cumple que :
160
Métodos Estadísticos Varela/Llanos /Asnate

xx
 k 
R / d2
 k   x  k
R
 xi  x  k
R
d2 n d2 n
n

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA
CRITERIO PROBABILISTICO:
Los límites de control Probabilísticos al nivel α serán:
R
L.C .S .  X  k
d2 n
Linea central  X
R
L.C .I .  X  k
d2 n

CRITERIO TRES SIGMA (3  ).- Estos límites se


obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los límites de control quedan de la
siguiente forma:
R
L.C.S .  X 3  X  A2 R
d2 n
Linea central  X
R
L.C.I .  X  3  X  A2 R
d2 n

Donde : A2  3 , es un valor conocido.


d2 n

DIAGRAMAS DE CONTROL PARA EL RANGO ( R )


Se presentan dos casos:
CASO A:
CUANDO SE CONOCEN  y  .- Supongamos que una
característica de calidad X cuantitativa esta distribuida

161
Métodos Estadísticos Varela/Llanos /Asnate

normalmente, con media  y desviación estándar  ,


ambas conocidas. Si X1, X2, X3,........XN. es una muestra de
tamaño N, entonces el rango R = Max (XI ) – Min (XI ), i =
1,2,.....,N sigue una distribución de media
E(R) = d2  y desviación típica  (R) =  ij  , para i =
1,....k, siendo
R = Max (XIj ) – Min (Xij ), i = 1,2,……k; j = 1,2,…..n ,
el recorrido de cada muestra.
Entonces, como suponemos normalidad en la población, se
cumple que :
Ri  d2 
 N( 0 , 1 )
 ni 
Por lo tanto, mediante la distribución normal N( 0 , 1 ), para
un α dado podremos calcular kα tal que:
Ri  d 2
P  k   k   1
n 
i

Como para i =1,2,......,k se cumple que :


 k  Ri  d 2  k   d 2  k  n   Ri  d 2  k  n 
n  i
i i

LIMITES DE CONTROL CON TAMAÑO DE


MUESTRA DIFERENTE
CRITERIO PROBABILISTICO
Los limites de control Probabilísticos al nivel α serán

L.C.S .  d 2  k  n    d 2  k
i
 n i

Linea central  d 2
L.C.I .  d 2  k  n    d 2  k
i
 n i

162
Métodos Estadísticos Varela/Llanos /Asnate

CRITERIO TRES SIGMA ( 3  ).- Estos limites se


obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los limites de control quedan de la
siguiente forma:
L.C.S .  
d 2  3  ni    d 2  3  ni  D 2

Linea central  d 2
L.C.I .  
d 2  3  ni    d 2  3  ni  D  1

D1 y D2 son valores conocidos y tabulados :



D2  d 2  3  ni  y 
D1  d 2  3  ni 
NOTA: Hay autores que el valor de  n lo denominan
i

d3 , en cuyo caso :
D2  d 2  3d 3  y D1  d 2  3d 3 
una vez que tenemos los limites de control para cada
muestra podemos optar por graficarlos, pero las líneas de
control no serán líneas rectas.
Observación:
 Cuando los tamaños de las muestras (ni) no difieren
mucho, se puede tomar como valor común n la media de
todos los tamaños de muestras ni.
 También se puede optar por tomar un n común igual al
valor mayor de los ni , con lo que obtendríamos limites
de control bastante sensibles.

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA.

163
Métodos Estadísticos Varela/Llanos /Asnate

En este caso los limites de control quedaran de la siguiente


manera :
CRITERIO PROBABILISTICO
Los limites de control Probabilísticos al nivel α serán

L.C.S .  d 2  k  n    d 2  k n 
Linea central  d 2
L.C.I .  d 2  k  n    d 2  k n 

CRITERIO TRES SIGMA ( 3  ).- Estos limites se


obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los limites de control quedan de la
siguiente forma:
L.C.S .  d 2  3 n    d 2  3  n   D2
Linea central  d 2
L.C.I .  d 2  3  n    d 2  3  n   D1

CASO B:
CUANDO SE NO CONOCEN ni  ni  .-
Supongamos que una característica de calidad X
cuantitativa esta distribuida normalmente, con media  y
desviación estándar  , ambas desconocidas. Si X1, X2,
X3,........XN. es una muestra de tamaño N, entonces el rango
R = Max (XI ) – Min (XI ), i = 1,2,.....,N sigue una
distribución de media
E( R ) = d2  y desviación típica  ( R ) =  ij  , para i =
1,....k, siendo

164
Métodos Estadísticos Varela/Llanos /Asnate

R = Max (XIj ) – Min (Xij ), i = 1,2,……k; j = 1,2,…..n ,


el recorrido de cada muestra.
Entonces, como suponemos normalidad en la población, se
cumple que:
R  d2 
i
 N( 0 , 1 )
 n 
Por lo tanto, mediante la distribución normal N( 0 , 1 ), para
un α dado podremos calcular kα tal que:
Ri  d 2
P  k   k   1  
n

Como para i =1,2,......,k se cumple que :


 k  Ri  d 2  k   d 2  k  n   Ri  d 2  k  n 
n

 d 2  k  n    Ri  d 2  k n  

Como R / d 2 es un estimador insesgado de  , podemos


escribir:
d 2  k n 
R
d2

 Ri  d 2  k n 
R
d2

k  n k  n
 R R  Ri  R  R
d2 d2

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA.
En este caso los límites de control quedaran de la siguiente
manera:
CRITERIO PROBABILISTICO
Los limites de control Probabilísticos al nivel α serán

165
Métodos Estadísticos Varela/Llanos /Asnate

k n  k n 
L.C.S .  R  R  1   R
d2  d 
 2 
Linea central  R
k n  k n 
L.C.I .  R  R  1   R
d2  d 
 2 
CRITERIO TRES SIGMA (3  ).- Estos límites se
obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los límites de control quedan de la
siguiente forma:
3 n  3 n 
L.C.S .  R R  1  R  D R
d2  d2  4
 
Linea central  R
3 n  3 n 
L.C.I .  R R  1  R  D R
d2  d2  3
 
D3 y D4 son valores totalmente conocidos
 3 n   3 n 
D4 = 1   y D3 = 1  
 d2   d2 
   
DIAGRAMAS DE CONTROL PARA x Y DE S
Sabemos que por lo general que para controlar una
característica de calidad en una variable cuantitativa
generalmente se calcula el valor medio, pero también se
pueden utilizar los diagramas de x y de S por separado
para cada característica de la calidad, sin embargo si dichas
características están estrechamente relacionadas se debe
utilizar
El diagrama de control de x y de S simultáneamente.
Cuando el tamaño maestral es moderadamente grande,
digamos mayor que 10 o 12, el método del rango para
estimar S pierde eficiencia estadística. En estos casos es
mejor reemplazar los gráficos de x y de R por los de x y
166
Métodos Estadísticos Varela/Llanos /Asnate

de S donde se estima directamente la desviación estándar


en vez de hacerlo en forma indirecta mediante el uso del R
DIAGRAMAS DE CONTROL PARA LA
DESVIACIÓN TIPICA
CASO A
CUANDO SE CONOCEN  y  .- Supongamos que la
característica de calidad X cuantitativa esta distribuida
normalmente, con media  y desviación estándar  ,
ambas conocidas. Si X1, X2, X3,........XN. es una muestra de
tamaño N, entonces la desviación estándar muestral S tiene
como esperanza el valor de c4  , donde:
1
 2 2   N / 2 
C4   
 N  1    N  1 / 2 
Además, la desviación estándar de S es  1  C42
Supongamos que los datos se disponen en k cada una con ni
observaciones de la característica de calidad X. Sean S1, S2,
S3,……..,Sk. Las k desviaciones estándar de las muestras,
Entonces, como suponemos normalidad en la población, se
cumple que:
S i  C4 
 N( 0 , 1 )
 1  C42
Por lo tanto, mediante la distribución normal N( 0 , 1 ), para
un α dado podremos calcular kα tal que:
S i  C 4
P  k   k   1
 1  C 42

Pero de esta expresión se deduce que FN(0,1)( kα ) – FN(0,1)(-


kα) = 1 - α
167
Métodos Estadísticos Varela/Llanos /Asnate

 FN(0,1)( kα) – (1 - FN(0,1)( kα) = 1 - α


 FN(0,1)( kα) – 1 = 1 – α
 FN(0,1)( kα) = 1 - α /2, con lo cual kα valdrá F1(1 - α /2 )
Siendo F la función de la distribución normal N(0,1).
Como para i =1,2,......,k se cumple que :

S i  C4
 k   k   C 4  k  1  C42  S i  C 4  k  1  C 42
 1 C 2
4

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA.
En este caso los límites de control quedaran de la siguiente
manera:
CRITERIO PROBABILISTICO
Los limites de control Probabilístico al nivel α serán
L.C.S .  C 4  k  
1  C 42   C 4  k 1  C 42 
Linea central  C 4
L.C.I .  C 4  k  1  C 42 
  C 4  k 1  C 42 
CRITERIO TRES SIGMA (3  ).- Estos límites se
obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los límites de control quedan de la
siguiente forma:
L.C.S .  
C 4  3 1  C 42   C 4  3 1  C 42  B6
Linea central  C 4
L.C.I .  
C 4  3 1  C 42   C 4  3 1  C 42  B5 

B6 = C4  3 1  C42   
y B5 = C4  3 1  C42 son valores
totalmente conocidos
CASO B

168
Métodos Estadísticos Varela/Llanos /Asnate

CUANDO SE NO CONOCEN ni  ni  .-
Supongamos que una característica de calidad X
cuantitativa esta distribuida normalmente, con media  y
desviación estándar  , ambas desconocidas, lo cual es
habitual en la practica, hay que estimarlas a partir de k
muestras preliminares, tomadas cuando se considera que el
proceso esta bajo control. Estas estimaciones suelen basarse
en una cantidad de 20 a 25 muestras como mínimo.
Supongamos que se dispone de k muestras cada una con ni
observaciones de la característica de calidad X dada. Por lo
general los ni serán pequeños, muchas veces igual a 4, 5 o 6
. Sean x1, x2 , x3 , x4 , x5 , .............., xK las k medias de
las muestras y S1, S2, S3,.........,Sk las k desviaciones
estándar de las muestras :
Para fijar los límites de control se necesita también un
estimador  de la desviación estándar  . Es posible
evaluar  a partir de las desviaciones estándar SI de las k
muestras. Sabemos que
E(Si) = C4 
Donde C4 depende de n y esta tabulado, y por lo tanto es
conocido. De esta forma resulta que SI / C4 es un estimador
insesgado de  para i = 1, 2, 3,.........., k
E ( Si / C4 )  Si  / C4  C4 / C4  
Para hallar  promediamos los estimadores Si / C4 para i =
1, 2, 3, .........., k de la forma siguiente
1 k
1 k
S  Si S
   i 
k i 1

k i 1 C4 C4 C4

169
Métodos Estadísticos Varela/Llanos /Asnate

El estimador  resulta ser así un estimador insesgado de  ,


ya que:
1 k  Si  1 k k
E     E      
k i 1  C4  k i 1 k
Como ya tenemos la estimación de  , podremos utilizarlos
para hallar los limites de control. Para la desviación
estándar así

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA
CRITERIO PROBABILISTICO:
Los limites de control Probabilísticos al nivel α serán :
S S
L.C.S .  C 4  k 1  C 42
C4 C4
S
Linea central  C 4  S
C4
S S
L.C.I .  C 4  k 1  C 42
C4 C4

CRITERIO TRES SIGMA ( 3  ).- Estos limites se


obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los limites de control quedan de la
siguiente forma:
Donde : ,
3 1  C42 3 1  C42
B4  1  y B3  1 
C4 C4
S S  3 1  C 42 
L.C.S .  C 4 3 1  C 42  S 1   B S
C4 C4  C4  4
 
S
Linea central  C 4 S
C4
S S  3 1  C 42 
L.C.I .  C 4 3 1  C 42  S 1   B S
C4 C4 170  C4  3

Métodos Estadísticos Varela/Llanos /Asnate

Son valores conocidos

DIAGRAMAS DE CONTROL PARA LA MEDIA


TENIENDO COMO MEDIDA DE SIGNIFICACIÓN A
S
Supongamos que una característica de calidad X
cuantitativa esta distribuida normalmente, con media  y
desviación estándar  , ambas desconocidas, lo cual es
habitual en la practica, hay que estimarlas a partir de k
muestras preliminares, tomadas cuando se considera que el
proceso esta bajo control. Estas estimaciones suelen basarse
en una cantidad de 20 a 25 muestras como mínimo.
Supongamos que se dispone de k muestras cada una con ni
observaciones de la característica de calidad X dada. Por lo
general los ni serán
Pequeños, muchas veces igual a 4, 5 o 6 . Sean x1, x2 , x3 ,
x4 , x5 , .............., xK las k medias de las muestras y S1, S2,
S3,.........,Sk las k desviaciones estándar de las muestras
Entonces, el mejor estimador de  , la media del proceso,
es la gran media o media de las medias de las k muestras.
Que se obtiene mediante:
k ni

x i x
j 1
ij

x i 1
, siendo x , i  1,2,3,4,...., k
k ni
Para fijar los límites de control se necesita también un
estimador  de la desviación estándar  . Es posible
evaluar  a partir de las desviaciones estándar SI de las k
muestras. Sabemos que

171
Métodos Estadísticos Varela/Llanos /Asnate

E(Si) = C4 
Donde C4 depende de n y esta tabulado, y por lo tanto es
conocido. De esta forma resulta que SI / C4 es un estimador
insesgado de  para i = 1, 2, 3,.........., k
E ( Si / C4 )  Si  / C4  C4 / C4  
Para hallar  promediamos los estimadores
x x Si / C4 para i = 1, 2, 3, .........., k
 N ( 0 ,1)
S / C4
n
de la forma siguiente
1 k
1 k
S  Si S
   i  i 1
k

k i 1 C4 C4 C4
El estimador  resulta ser así un estimador insesgado de  ,
ya que:
1 k  Si  1 k k
E          
k i 1  C4  k i 1 k
Como ya tenemos estimaciones de  y  , podremos
utilizarlos para hallar los limites de control. Por el teorema
del límite central se cumple que:
Por lo tanto, mediante la distribución normal N( 0 , 1 ), para
un α dado podremos calcular kα tal que:
Pero de esta expresión se deduce que FN(0,1)( kα ) – FN(0,1)(-
kα) = 1 - α
 FN(0,1)( kα) – (1 - FN(0,1)( kα) = 1 - α
 2FN(0,1)( kα) – 1 = 1 – α
 FN(0,1)( kα) = 1 - α /2, con lo cual kα valdrá
F (1 - α /2 )
1

Siendo F la función de la distribución normal N(0,1).


172
Métodos Estadísticos Varela/Llanos /Asnate

Como para i =1,2,......,k se cumple que :


xx
 k   k   x  k
S
 xi  x  k
S
S / C4 C4 n C4 n
n

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA
CRITERIO PROBABILISTICO:
Los límites de control Probabilísticos al nivel α serán:
S
L.C.S .  X  k
C4 n
Linea central  X
S
L.C.I .  X  k
C4 n

CRITERIO TRES SIGMA ( 3  ).- Estos limites se


obtienen reemplazando a kα por 3 que aproximadamente
equivale a α = 0.002, los limites de control quedan de la
siguiente forma:
S
L.C .S .  X 3  X  A3 S
C4 n
Linea central  X
S
L.C .I .  X  3  X  A3 S
C4 n

Donde : A3  3 , es un valor conocido


C4 n
x x
P   k   k   1
S / C4
n

173
Métodos Estadísticos Varela/Llanos /Asnate

EJERCICIOS RESUELTOS
CARTAS DE CONTROL POR VARIABLES:
1. A continuación se dan las medidas del maquinado de una
ranura en un bloque Terminal de auto.
serie mediciones
1 77 80 78 72 78
2 76 79 73 74 73
3 76 77 72 76 74
4 74 78 75 77 77
5 80 73 75 76 74
6 76 81 79 76 76
7 75 77 75 76 77
8 79 75 78 77 76
9 76 75 74 75 75
10 71 73 71 70 73
11 72 73 75 74 75
12 75 73 76 73 73
13 75 76 78 79 77
14 77 77 78 77 76
15 77 76 77 77 77
16 77 77 77 79 79

a) Calcular los limites de control para la media, el rango y


la desviación estándar(criterio 3 y criterio

probabilística)
CRITERIO 3 :
 Para la media

LC  x  3  x A
1
 LCS  77.97; LCI  73.58
c 2
n

174
Métodos Estadísticos Varela/Llanos /Asnate

 Para el rango
LCS  D 4
R  9.06; LCI  D 3
R0

 Para la desviación estándar


LCS  B 4
  3.31; LCI  B
3
0

175
Métodos Estadísticos Varela/Llanos /Asnate

176
Métodos Estadísticos Varela/Llanos /Asnate

177
Métodos Estadísticos Varela/Llanos /Asnate

LC  Gráfico de contr ol: medidas del maquinado de una ranura


80.284

78.029

75.775

73.520 LCS = 77.97

Promedio = 75.78
Media

71.266 LCI = 73.58


1.0 3.0 5.0 7.0 9.0 11.0 13.0 15.0
2.0 4.0 6.0 8.0 10.0 12.0 14.0 16.0

Nivel sigma: 3

Gráfico de control: medidas del maquinado de una ranura


10

LCS = 8.06
2
Amplitud

Promedio = 3.81

0 LCI = .00
1.0 3.0 5.0 7.0 9.0 11.0 13.0 15.0
2.0 4.0 6.0 8.0 10.0 12.0 14.0 16.0

Nivel sigma: 3

178
Métodos Estadísticos Varela/Llanos /Asnate

Gráfico de control: medidas del maquinado de uan ranura


3.5

3.0

2.5

2.0

1.5

1.0
LCS = 3.31

.5 Promedio = 1.59

0.0 LCI = .00


1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16

Nivel sigma: 3

b) Hacer un breve comentario después de graficar las


cartas de control correspondientes.
 En la grafica de la media se observa que tenemos un
punto fuera de los limites de control, por lo q esta
carta de control si serviría para futuros estudios.
 En el grafico del rango se observa que los datos están
dentro de los límites de control, de igual manera en la
grafica de la desviación estándar.

CRITERIO PROBABILISTICO: AL 95% entonces


Z=1.96

 Para la media

LC  x  u / 2  x A 1
 LCS  77.25; LCI  74.30
c 2
n

179
Métodos Estadísticos Varela/Llanos /Asnate

 Para el rango
LCS  D 1
  / 2
R
 6.59; LCI  D /2
R
 1.04
d 2 d 2

 Para la desviación estándar.



LCS  B   / 2  2.71; LCI   B   0.46
1 /2
c 2 c 2

Gráfico de control:Medidas del maquinado de una ranura


80.284

78.029

75.775

73.520 LCS = 77.25

Promedio = 75.78
Media

71.266 LCI = 74.30


1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16

Nivel sigma: 1.96

180
Métodos Estadísticos Varela/Llanos /Asnate

Gráfico de control : M edi das del m aqui nado de una ranura


3.5

3.0

2.5

2.0

1.5
Desviación típica

1.0
LCS = 2.71

.5 Promedio = 1.59

0.0 LCI = .46


1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16

Nivel sig ma: 1.96

Gráfico de control :M edi das del m aqui nado de una


10

LCS = 6.59
2
Amplitud

Promedio = 3.81

0 LCI = 1.04
1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16

Nivel sigma: 1.96

2. Se mantienen cartas de control para la media y la


desviación para la media y la desviación(sobre los pesos en
onzas del contenido de un recipiente), para n=10, se toman
 xi  595.8;  i  8.24
18 muestras, cuyos resultados son:

Calcular los límites de control bajo el criterio 3 :


x  595.8 / 18  33.1; A1  1.028;  8.24 / 18  0.458
181
Métodos Estadísticos Varela/Llanos /Asnate


LC  x  3  x A 1
 LCS  33.57; LCI  32.629
c 2
n

a) Estimar  , bajo el supuesto que el proceso está bajo


control.
3 *
LC    ; LCS  B 4
  1.716 * 0.458  0.786; LCI  B
3
 0.284 * 0.458  0.130
c 2
2n

3. Si la relación de s a  es igual 1.054 cada uno se


calculo a partir de las mismas muestras de una población.
Cuál es el tamaño de la muestra.
Solución:
s
 1.054

De la relación entre desviación estándar muestral y


poblacional
s senobtiene: n
 1.054   1.110916, despejando n  10
 n 1 n 1

4. En un proceso bajo control donde las características de


calidad es el diámetro de ejes en mm. Y su distribución es
normal con media igual a 5.60 mm y desviación estándar
0.10 mm. Como existe una variación en el promedio, se
desea :
1) Verificar que si una media muestral de tamaño 5 es igual
a 5.75 mm., supone una diferencia significativa en relación
con la media poblacional.

N (u, )
2 u=5.60; =0.10

182
Métodos Estadísticos Varela/Llanos /Asnate

n=5; x  5.75;   0.05


Ho: u=5.60
H1: u≠5.60;

la prueba es de dos colas el área de aceptación será:[-1.96-


1.96]
x u 5.75  5.6 0.15
z     3.354
 0.10 0.0447
n 5

   
P x  A1  x  x  A1  P 5.60  1.342 * 0.1  x  5.60  1.3242 * 0.1
 
 5.75  5.47 5.75  5.47 
 
 p 5.47  x  5.73  P  z   P 1.34  z  1.34  81.98%
 0.1 0.1 
 5 5 

Existe una diferencia significativa entre u y la media


muestral.

5. Se toman subgrupos de 4 artículos cada uno, de un


proceso de manufactura a intervalos regulares. Se mide
cierta característica de calidad y se calcula los valores de la
media y el rango para cada subgrupo o muestra, después de
25 muestras:
1) Calcular los limites de la grafica de control:
 xi  15.351;  Ri  411.4
x  15.351 / 25  614,04 ; R  411.4 / 25  16,456

Luego, con el criterio 3 de obtiene:


LCS  D * R  2.282 *16.456  37,552592
4

LCI  D * R  0 *16.456  0
3

183
Métodos Estadísticos Varela/Llanos /Asnate

2) Si todos los puntos de las graficas de la media y R caen


dentro de los límites de control y si los limites de
especificación son 610±15. Si la característica de calidad
esta distribuida normalmente y centrada en la media. ¿Que
% del producto, si es que alguno cae, esperaría ud.,
encontrar fuera de los limites de especificación? Muestre
sus cálculos.
La probabilidad dentro de los límites de especificación:
La desviación de la media cuando se conoce en rango es:
 
   595  614.04
p 595  x  625  P  z
625  614.04 
  p(-2,38  z  1,37)  0,906
 16.456 16.456 
 2.059 2.059 

Luego La probabilidad dentro de los límites de


especificación:
1-0.906=0,0937

6. Las especificaciones de las dimensiones de una pieza


son: 4.0050”+-0.0005, muestra de a cinco son tomados cada
15 minutos y dieron los siguientes resultados para las
primeras cinco horas de operación(en unidades de 0.0001”
por encima de 4.0000”).
muestras dimenciones
1 47 54 51 56 54
2 50 45 49 46 53
3 47 55 49 52 55
4 48 48 51 54 49
5 45 52 49 54 51
184
Métodos Estadísticos Varela/Llanos /Asnate

6 50 46 49 52 53
7 46 44 52 55 50
8 50 49 54 52 48
9 54 54 49 50 50
10 58 55 52 56 53
11 56 51 49 50 47
12 54 50 56 47 51
13 47 50 50 47 53
14 57 53 52 49 57
15 48 49 51 50 44
16 51 51 45 54 48
17 49 53 46 49 51
18 53 50 47 50 49
19 56 52 52 50 55
20 46 55 48 51 55

a) Construya graficas de la media y el rango para


controlar la producción futura y en el caso y en el caso de
encontrar puntos fuera de control suponga causas asignables
y elimínelos.
 Para la media

LC  x  3  x A   LCS  55.14; LCI  46.44
1
c 2
n

 Para el rango
LCS  D 4
R  15.96; LCI  D 3
R0

185
Métodos Estadísticos Varela/Llanos /Asnate

186
Métodos Estadísticos Varela/Llanos /Asnate

187
Métodos Estadísticos Varela/Llanos /Asnate

Grafico de control: Dimensiones de una pieza


55.493

53.142

50.790

48.438 LCS = 55.14

Promedio = 50.79
Media

46.087 LCI = 46.44


1 3 5 7 9 11 13 15 17 19
2 4 6 8 10 12 14 16 18 20

Nivel sigma: 3

Grafico de control: Dimensiones de una pieza


20

10

LCS = 15.96
Amplitud

Promedio = 7.55

0 LCI = .00
1 3 5 7 9 11 13 15 17 19
2 4 6 8 10 12 14 16 18 20

Nivel sigma: 3

188
Métodos Estadísticos Varela/Llanos /Asnate

 Utilizando el criterio 3 se observa que ambas


cartas de control se encuentran bajo control.
b) Diga Ud., si La maquinaria esta adaptada a su trabajo.
Como los datos se encuentran bajo control, la maquinaria
esta adaptada a su trabajo

7. A continuación se dan los resultados de 10 muestras de


una determinada pieza de bicicleta:

Muestra Mediciones
1 17,2 17,1 17,2 17,3 17,3
2 17,2 17,2 17,4 17,4 17,4
3 17,5 17,4 17,3 . .
4 17,2 17,2 17,2 17,2 17,4
5 17,4 17,4 17,2 . .
6 17,3 17,4 17,3 17,4 .
7 17,4 17,3 17,3 17,4 17,3
8 17,2 17,1 17,4 17,2 17,3
9 17,4 17,3 17,4 17,3 .
10 17,3 17,4 17,2 17,3 17,3

a) Calcular los limites de control para la media,


desviación, y rango; Usando cualquier criterio y justifique
el mismo.
Utilizando el criterio Probabilístico al 95%.

CRITERIO PROBABILISTICO: AL 95% entonces


Z=1.96

189
Métodos Estadísticos Varela/Llanos /Asnate

 Para la media

LC  x  u / 2 x A
1
entonces   0,08078661
c 2
n

para n  5 : A1  1.596 LCS  17,4315263, LCI  17,1730737


para n  4 : A1  1,88 LCS  17,4541788, LCI  17,1504212
para n  3 : A1  2,394 LCS  17,4957031, LCI  17,1088969

190
Métodos Estadísticos Varela/Llanos /Asnate

191
Métodos Estadísticos Varela/Llanos /Asnate

192
Métodos Estadísticos Varela/Llanos /Asnate

Grafico de control: P ieza de bicicleta


17.461163

17.381718

17.302273

17.222828 LCS

Promedio = 17.3023
Media

17.143383 LCI
1 2 3 4 5 6 7 8 9 10

Nivel sigma: 3

193
Métodos Estadísticos Varela/Llanos /Asnate

Grafico de control: Pieza de bicicleta


.5

.4

.3

.2
VAR00008

LCS
.1
Amplitud

Promedio

0.0 LCI
1 2 3 4 5 6 7 8 9 10

Nivel sigma: 3

Grafico de control: Pieza de bicicleta


.3

.2

.1

LCS

Promedio

0.0 LCI
1 2 3 4 5 6 7 8 9 10

Nivel sigma: 3

b) Comentar sus resultados. Se observa en los 3


gráficos los datos están bajo control.
194
Métodos Estadísticos Varela/Llanos /Asnate

GRAFICOS DE CONTROL POR ATRIBUTOS


Los diagramas de control por atributo constituyen la
herramienta esencial utilizada para controlar características
de calidad cualitativas, es decir, características no
cuantificables numéricamente.
Los diagramas de control por atributos son apropiados en
casos en los que es necesario reducir el rechazo del
proceso. Típicamente se aplican en situaciones en las que el
proceso es un operación de montaje complicada, ya la
calidad del producto se mide en términos de ocurrencia de
disconformidades, del funcionamiento exitosos o fallido del
producto. Los diagramas de control de atributos tienen la
ventaja de que hacen posible considerar varias
características de calidad al mismo tiempo y clasificar los
productos como disconformes si no satisfacen las
especificaciones de cualquiera de las características. Por
otra parte, si se manejan la diversas características de la
calidad como variables, entonces habrá que medir cada una
de ellas con los diagramas de control anteriores. Además,
con la inspección por atributos pueden evitarse mediciones
costosas en recursos y tiempo.
Estas fichas de control se aplicaran en los siguientes
casos:
 Imposibilidad de medir cuantitativamente la
magnitud observada
 Dificultad de efectuar mediciones debido a los
aparatos de medida altamente costosos
 Cuando son muchas las características de cada
unidad
195
Métodos Estadísticos Varela/Llanos /Asnate

 La comprobación de la calidad se hace por simple


inspección visual

En este capitulo presentaremos los diagramas de control


de atributos mas comúnmente utilizados, como la fracción o
porcentaje de unidades defectuosas (diagrama p), el
numero de unidades defectuosas o numero de unidades no
conformes o disconformes (diagrama np), el numero de
defectos por unidad o numero de disconformidades por
unidad (diagrama u), y el numero de defectos o numero de
disconformidades (diagrama c).

DIAGRAMA DE CONTROL PARA LA FRACCION


DE UNIDADES DEFECTUOSAS. DIAGRAMA P

La fraccion de unidades defectuosas se define como el


cociente del número de artículos defectuosos d en una
población entre el número total de artículos de la citada
población n , es decir, se expresa así :
d
p .
n
Los artículos pueden tener varias características de
calidad que se examinan simultáneamente si el artículo no
esta conforme con el estándar de una o más de tales
características, se clasificara como defectuoso. Los
diagramas de control para p se presentan mediante dos
casos:
CASO A:

196
Métodos Estadísticos Varela/Llanos /Asnate

CUANDO SE CONOCE P (LA VERDADERA


FRACCION DISCONFORME).-
Suponga que se conoce la verdadera fracción
disconforme p en el proceso de fabricación o que se le
asigna un valor estándar. Para construir este diagrama de
control se toman muestras subsecuentes de n unidades
(subgrupos), se calcula en cada una la fracción muestral
disconforme p , y se grafica el estadígrafo p en el
diagrama para cada muestra.
Para calcular los límites de control sabemos que
E p  P y V  p 
PQ por lo tanto los límites de
n
control serán:

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA
Para calcular los limites probabilisticos de control al nivel
de  utilizamos la distribución del estadístico p con lo
que sabemos que para cada muestra
pˆ  p
 N( 0 ,1 )
p (1  p )
n

ˆ  p
P  k 
p
 k   1
p (1  p )
n

Pero de esta expresión se deduce que FN(0,1)( kα ) – FN(0,1)(-


kα) = 1 - α
 FN(0,1)( kα) – (1 - FN(0,1)( kα) = 1 - α

197
Métodos Estadísticos Varela/Llanos /Asnate

 2FN(0,1)( kα) – 1 = 1 – α
 FN(0,1)( kα) = 1 - α /2, con lo cual kα valdrá
F (1 - α /2 )
1

Siendo F la función de la distribución normal N(0,1).


Como para i =1,2,......,k se cumple que :
ˆp p (1  p ) p (1  p )
 k 
p
 k   p  k  ˆ
p  p  k
p (1  p ) n n
n
CRITERIO PROBABILISTICO.-

p (1  p )
L.C.S  p  k
n
Linea Central  p
p(1  p)
L.C.S  p  k
n

CRITERIO TRES SIGMA ( 3  ).-


P (1  P )
L.C.S .  P  3
n
Linea central  p
P (1  P )
L.C.I .  P  3
n

CASO B
CUANDO NO SE CONOCE P

198
Métodos Estadísticos Varela/Llanos /Asnate

Supongamos que ahora no se conoce la verdadera fracción


disconforme p en el proceso de fabricación, lo que
encontramos en nuestra realidad, para construir un diagrama
de control de la fracción defectuosa hay que estimar p para
lo cual tomamos k muestras subsecuentes de n unidades
(subgrupos) y mediante la siguiente expresión estimamos el
valor de p
m

d i
p i 1
m
que es un estimador insesgado de p
n
i 1
i

LIMITES DE CONTROL CON IGUAL TAMAÑO DE


MUESTRA
CRITERIO PROBABILISTICO.-
p (1  p )
L.C.S  p  k
n
Linea Central  p
p (1  p )
L.C.S  p  k
n
CRITERIO TRES SIGMA ( 3  ).-

p (1  p )
L.C.S  p  3
n
Linea Central  p
p (1  p )
L.C.S  p  3
n

LIMITES DE CONTROL PARA TAMAÑO DE


MUESTRAS DIFERENTES
199
Métodos Estadísticos Varela/Llanos /Asnate

Si el tamaño de cada muestra es diferente ni para ( i = 1, 2,


3, 4, ......, k), entonces los limites de control de obtienen
mediante las siguientes expresiones.

CRITERIO PROBABILISTICO

p (1  p )
L.C.S  p  k
ni
Linea Central  p
p (1  p )
L.C.S  p  k
ni

CRITERIO TRES SIGMA ( 3  ).-

p(1  p )
L.C.S  p  3
ni
Linea Central  p
p(1  p )
L.C.S  p  3
ni

También es usual tomar p como la media de los p̂i de todas


las muestras, pero ponderada por los tamaños muestrales ni,
es decir:

200
Métodos Estadísticos Varela/Llanos /Asnate

n i pˆ i
p i 1
k

n i 1
i

DIAGRAMAS DE CONTROL DEL NUMERO DE


UNIDADES DEFECTUOSAS “np”
Es posible basar un diagrama de control en un numero de
unidades defectuosas ( o numero disconforme ) en vez de la
fracción de unidades defectuosas, este diagrama de control
suele denominarse diagrama np

CASO A
CUANDO SE CONOCE LA VERDADERA
FRACCION DISCONFORME p
Supongamos que se conoce la verdadera fracción
disconforme p en el proceso de fabricación, para construir el
diagrama de control np se toman muestras subsecuentes de
n unidades (subgrupos), se calcula en cada una la fracción
muestral disconforme p̂ , y se grafica el estadístico n p̂ en
el diagrama para cada muestra.
LIMITES DE CONTROL
Para calcular los limites probabilisticos de control al nivel
de  utilizamos la distribución del estadístico n p con
lo que sabemos que para cada muestra
ˆ  np
np
 N( 0 , 1 )
np(1  p)

201
Métodos Estadísticos Varela/Llanos /Asnate

ˆ  np
P  k   k   1  
np
np(1  p)

Pero de esta expresión se deduce que FN(0,1)( kα ) – FN(0,1)(-


kα) = 1 - α
 FN(0,1)( kα) – (1 - FN(0,1)( kα) = 1 - α
 2FN(0,1)( kα) – 1 = 1 – α
 FN(0,1)( kα) = 1 - α /2, con lo cual kα valdrá F1(1 - α /2 )
Siendo F la función de la distribución normal N(0,1).
Como para i =1,2,......,k se cumple que :
ˆ  p
 k 
np
 k 
np (1  p )

np  k np (1  p )  ˆ
p  np  k np (1  p )

CRITERIO PROBABILISTICO.-
L.C.S  np  k np (1  p )
Linea Central  np
L.C.S  p  k np (1  p )
CRITERIO TRES SIGMA
L.C.S  np  3 np (1  p )
Linea Central  np
L.C.S  p  3 np (1  p )

CASO B
202
Métodos Estadísticos Varela/Llanos /Asnate

CUANDO NO SE CONOCE LA VERDADERA


FRACCION DISCONFORME p.
Supongamos ahora que no se conoce la verdadera fracción
disconforme p, par construir el diagrama de control np,
debemos estimar p, a partir de de k muestras de tamaño n se
calcula en cada una la fracción disconforme p̂i y se
considera el estadístico p
mediante la siguiente expresión:
k
p  pˆ
i 1
i

EJERCICIOS RESUELTOS DE CONTROL DE


CALIDAD

CARTAS DE CONTROL POR ATRIBUTOS:


1.- Usando los siguientes datos, donde cada tamaño de
muestra es igual a 200 artículos:

203
Métodos Estadísticos Varela/Llanos /Asnate

204
Métodos Estadísticos Varela/Llanos /Asnate

muestra N°de defectos


1 6
2 6
3 6
4 5
5 0
6 0
7 6
8 14
9 4
10 0
11 1
12 8
13 2
14 4
15 7
16 1
17 3
18 1
19 4
20 0
21 4
22 15
23 4
24 1

a) Construya una carta P para controlar la


producción en el próximo mes. Asuma que las causas

205
Métodos Estadísticos Varela/Llanos /Asnate

asignables son detectadas para todos los puntos que están


fuera de los límites de control.

P
 di  102  102  0.02
 ni 24 * 200 4800
p1  p  0.020.98
LC  p  3  0.02125  3  0.02  0.0297
200 200
LCS  0.050
LCI  -0.0097  0

206
Métodos Estadísticos Varela/Llanos /Asnate

207
Métodos Estadísticos Varela/Llanos /Asnate

c arta P para c ontrolar la produc c ión en el pr ox imo mes


,08

,06

,04

NªDEFECT

,02 LCS = ,05

Centro = ,02

0,00 LCI = ,00


1 5 9 13 17 21
3 7 11 15 19 23

Nivel sig ma: 3

b) Construya una curva OC, Para esta curva de P

208
Métodos Estadísticos Varela/Llanos /Asnate

Normal gráfico P-P de MUESTRA


1.00

.75

.50
Prob acum esperada

.25

0.00
0.00 .25 .50 .75 1.00

Prob acum observada

3) De la Producción de cierta droga, en una maquina


automática se retiraron 50 piezas. Cada articulo se
examino con el criterio “pasa no pasa “ y el numero de
artículos(drogas) defectuosos hallados en 25 muestras
sucesivas fue(de izquierda a derecha):

muestra d
1 1
2 2
3 5
4 6
5 3

209
Métodos Estadísticos Varela/Llanos /Asnate

6 5
7 2
8 1
9 1
10 0
11 0
12 1
13 0
14 1
15 0
16 2
17 1
18 0
19 0
20 1
21 1
22 0
23 0
24 1
25 0

210
Métodos Estadísticos Varela/Llanos /Asnate

u 
 ui 
34
 0.03
m 50 * 25
u
LC  u  u / 2
n
0.03
LC  0.03  3
25
LC  0.03  0.06997142
LCS  0.09717142
LCI  0

211
Métodos Estadísticos Varela/Llanos /Asnate

212
Métodos Estadísticos Varela/Llanos /Asnate

213
Métodos Estadísticos Varela/Llanos /Asnate

Gráfico de con trol:produccion de cierta droga


.14

.12

.10

.08

.06

.04
LCS = .10

.02 Centro = .03

0.00 LCI = .00


1 3 5 7 9 11 13 15 17 19 21 23 25

Nivel sig ma: 3

a) Puede el proceso considerarse bajo control?

214
Métodos Estadísticos Varela/Llanos /Asnate

Como puede observarse en la grafica tenemos tres


puntos fuera de control.
5) Los siguientes datos se refieren al número de defectos
por unidad, hallados en la inspección de 25
motocicletas (en el orden escrito):

muestra ui
1 7
2 14
3 13
4 17
5 7
6 11
7 6
8 11
9 16
10 13
11 17
12 10
13 7
14 8
15 21
16 12
17 8
18 9
19 5
20 27
21 9

215
Métodos Estadísticos Varela/Llanos /Asnate

22 15
23 3
24 7
25 5
a) Construir el grafico adecuado para una
probabilidad del 99%(use la aproximación
normal)
¡Error! No hay tema especificado.
Gráfico de control: UI
30

20

UI
10

LCS = 18.89

Centro = 11.12

0 LCI = 3.35
1 3 5 7 9 11 13 15 17 19 21 23 25

Nivel sigma: 2.33

Cual sería el valor del parámetro para fichas


posteriores:
muestra ui

216
Métodos Estadísticos Varela/Llanos /Asnate

1 7
2 14
3 13
4 17
5 7
6 11
7 6
8 11
9 16
10 13
11 17
12 10

217
Métodos Estadísticos Varela/Llanos/Asnate

13 7
14 8
16 12
17 8
18 9
19 5
21 9
22 15
24 7
25 5
total 227

218
Métodos Estadísticos Varela/Llanos/Asnate

219
Métodos Estadísticos Varela/Llanos/Asnate

u 
 ui 
227
 10.3
m 23
u
LC  u  u / 2
n
10.3
LC  10.3  2.33
1
LC  10.3  7.48
LCS  17.80
LCI  2.83

Gráfico de control: UI
20

10

UI

LCS = 17.80

Centro = 10.32

0 LCI = 2.83
1 3 5 7 9 11 13 16 18 21 24

Nivel sigma: 2.33

b) Qué diferencia encuentra en este problema, entre la


ficha de u y de c.

220
Métodos Estadísticos Varela/Llanos/Asnate

Gráfico de control: c
20

10
Disconformidades

UI

LCS = 17.80

Centro = 10.32

0 LCI = 2.83
1 3 5 7 9 11 13 16 18 21 24

Nivel sigma: 2.33

Ambos son iguales, ya que el número de la muestra es la


unidad.

8) Se inspeccionan 25 piezas de un determinado artículo


(produc-textil) de 10 m. c/u. Y el numero de defectuosos
hallados por unidad fue de 3.2.
a) Determine los límites de control 3 
Limites de control 3 
u  3 .2
u
LC  u  3
n
3.2
LC  3.2  3
10
LC  3.2  1.697
LCS  4.897
LCI  1.503
c) Calcular los límites de modo que la probabilidad de
que un punto se localice por encima del límite de
control superior sea igual a 0.002.
221
Métodos Estadísticos Varela/Llanos/Asnate

11) Use la tabla de Poisson para encontrar los limites de


probabilidad de 0.995 y 0.005 para una grafica c, cuando
c=5.8, también cuando c=12.
Cuando:

c  5 .8 c  12
LC  c  c LC  c  c
LC  5.8  5 .8 LC  12  12
LC  5.8  LC  12 
LCS  LCS 
LCI  LCI 

CAPITULO III

DISEÑOS EXPERIMENTALES

¿Que es un Diseño Experimental?


Diseñar un experimento es simplemente planear un
experimento de modo que reúna la información que sea
pertinente al problema bajo investigación
El diseño experimental es, entonces la secuencia
completa de pasos formados de antemano para asegurar que
los datos apropiados se obtendrán de modo que permitan un
análisis, de tal manera que conduzca a deducciones validas
con respecto al problema establecido.

PROPOSITO DE UN DISEÑO EXPERIMENTAL

222
Métodos Estadísticos Varela/Llanos/Asnate

El propósito de cualquier diseño experimental es


proporcionar una cantidad máxima de información
pertinente al problema bajo investigación.
También es importante que el diseño sea tan simple como
sea posible, además debería hacerse todo esfuerzo para
ahorrar tiempo, dinero, personal, y material experimental.

PRINCIPIOS BASICOS DEL DISEÑO


EXPERIMENTAL
Los principios básicos del diseño experimental son:
reproducción, aleatorización y control local.

REPRODUCCIÓN O REPLICA.- es la repetición del


experimento básico.
Este concepto tiene dos propiedades importantes.
1° Permite al experimentador obtener una estimación del
error experimental, tal estimación se convierte en la unidad
básica para determinar si las diferencias observadas en los
datos son estadísticamente significativas.
2° El uso de replicas permite al experimentador calcular una
estimación más precisa del efecto de un factor en el
experimento si se usa la media de la muestra como una
estimación de dicho efecto.

ALEATORIZACION.- Es la piedra angular que


fundamenta el uso de los métodos estadísticos. En el diseño
de experimentos se entiende por aleatorización el hecho de
que tanto la asignación del material experimental como el
orden en que se realizan las pruebas individuales o ensayos
se determinan aleatoriamente. Además la aleatorización
ayuda a cancelar los efectos de factores extraños que
pudieran estar presentes.

223
Métodos Estadísticos Varela/Llanos/Asnate

CONTROL LOCAL.- Se refiere a la cantidad de balanceo,


bloque y agrupamiento de las unidades experimentales, este
principio se usa para incrementar la precisión del
experimento, se busca que el material experimental sea más
homogéneo que el total del material.

ERROR EXPERIMENTAL Y UNIDADES


EXPERIMENTALES
UNIDAD EXPERIMENTAL.- Es la unidad a la cual se le
aplica un sub tratamiento (que puede ser una combinación
de muchos factores) en una reproducción del experimento
básico.
ERROR EXPERIMENTAL.- Describe el fracaso de
llegar a resultados idénticos con dos unidades
experimentales tratadas idénticamente.
El error experimental puede reducirse normalmente
adoptando una o más de las técnicas siguientes:
1) Usando material experimental más homogéneo o por la
estratificación cuidadosa del material experimental.
2) Utilizando información proporcionada por variables
aleatorias relacionadas.
3) Teniendo más cuidado al dirigir el experimento.
4) Usando un diseño experimental más eficiente.

CONFUNDIDO.- Es sinónimo de entremezclados, es decir,


se dice que dos o más efectos se confunden en un
experimento si es imposible separar los efectos, cuando se
lleva a cabo el subsecuente análisis estadístico.

ANALISIS DE VARIANZA
Es una técnica en el que la varianza total de un conjunto de
datos se divide en varios componentes, cada uno de los
cuales tiene asociado una fuente específica de variación, de
manera que durante el análisis es posible encontrar la

224
Métodos Estadísticos Varela/Llanos/Asnate

magnitud con la que contribuye cada una de esas fuentes en


la variación total.
El análisis de varianza se utiliza con dos propósitos:
1) Estimar y probar la hipótesis respecto a varianzas
poblacionales.
2) Estimar y probar hipótesis respecto a las medias de las
poblaciones.
Para utilizar correctamente el análisis de varianza como una
herramienta de la inferencia estadística es necesario
satisfacer un conjunto de suposiciones fundamentales las
mismas que son:
1) Los efectos de los tratamientos, así como los
ambientales son aditivos.
2) Los errores experimentales se distribuyen normalmente
e independientemente con una varianza común.

DISEÑO COPLETAMENTE AL AZAR DCA


Es el más simple de los diseños; es un diseño en el cual los
tratamientos son asignados completamente al azar a las
unidades experimentales o viceversa, es un diseño que no
impone restricciones (tales como bloqueo) en la distribución
del los tratamientos a las unidades experimentales.
Debido a su simplicidad, el DCA es usado
ampliamente, sin embargo debe de usarse en casos en los
cuales se dispone de unidades experimentales homogéneas.
Si no se puede tener tales unidades, debe utilizarse algún
bloqueo para incrementar la eficiencia del diseño.

DCA CON UNA OBSERVACION POR UNIDAD


EXPERIMENTAL
Siendo un DCA, ni unidades experimentales se
sujetasen al i-ésimo tratamiento (i = 1,2,...t) y únicamente se
obtiene una observación por unidad experimental, los datos
aparecerían como en la tabla 1.

225
Métodos Estadísticos Varela/Llanos/Asnate

Tabla 1.- Representación simbólica de los datos de un


DCA (N° desigual de observaciones para cada
tratamiento)

Tratamientos Total
1 2 3 ... k
Y11 Y12 Y13 ... Y1k
Observaciones

Y21 Y22 Y23 Y2k


. . . .
. . . .
. . . .
yn 1 1
yn 2
2
yn 3 3
yn k k
k
Totales Y.j y.1 y.2 y.3 ... y.1
Y ..   Y .i
i 1
Número de n1 n2 n3 ... nk
observacio  ni  N
i 1
   
nes nj ...  Y.i2
Y.1 Y.2 Y.3 Yk Y .. 
Medias k

 ni
 i 1
Y. j

Usando las siguientes fórmulas obtenemos el cuadro de


ANVA

nj
Y 2 .. k
SCT = Suma de cuadrados total =  yij2 
i 1 j 1 N
SCt = Suma de cuadrados entre tratamientos =
k Y. 2j Y..2
n
i 1

N
j

226
Métodos Estadísticos Varela/Llanos/Asnate

SCE = Suma de cuadrados del error =


k nj
Y. 2j

i 1 j 1
yij  
2

nj
 SCT  SCt

TABLA Nº 02 : ANALISIS DE VARIANZA (ANVA)

Fuente de Suma de Grados de Cuadrados Fo


variación cuadrados libertad medios
Tratamiento SCt
K–1 CMt CM t
s SCE
N–k CME CM E
Error
Total SCT N–1

* Los cuadrados medios se encuentran dividiendo para cada


suma de cuadrados entre los correspondientes grados de
libertad.

Tabla 3.- Representación simbólica de los datos en un


diseño CA (con igual número de observaciones para
cada tratamiento).

Tratamientos Total
1 2 3 ... t
Y11 Y21 Y31 ... Y1t
Y12 Y22 Y32 Yt2
Y13 Y23 Y33. Yt3.
Observacione . . .
s . . . .
y1n1 y2n2 y3n3 ytn
Totales T1 T2 T3 ... Tt
T   Ti
Número de
observaciones n n n ... N tn
   
Medias ...  T
Y.1 Y.2 Y.3 Yt Y 
tn

227
Métodos Estadísticos Varela/Llanos/Asnate

Usando las siguientes fórmulas obtenemos el cuadro de


ANVA
t n
Y2
SCT =  yij  ..
2
Suma de cuadrados del total
i 1 i 1 N
a
Yi.2 Y..2
SCt = i 1 n

N
Suma de cuadrados de los

tratamientos

SCE = SCT  SCt   y


n t
2

Y 2
i.
Suma de
ij
i 1 i 1 n
cuadrados del error

TABLA DE ANALISIS DE VARIANZA (ANVA)

Fuente de Suma de Grados de Cuadrados Fo


variación cuadrados libertad medios
Tratamient SCt t-1 CMt CM t
os SCE t(n-1) CME CM E
Error
Total SCT t(n-1) CMT

El modelo será:
Yij  u  ti   ij

H 0 : τ1  τ 2  τ3  ...  τ t  0 vs
H1 : τ i  0

si al menos para una i


El modelo será a efectos fijos.
Si H 0 :  2  0 vs H 1 :  t2  0 modelo a efectos aleatorios

228
Métodos Estadísticos Varela/Llanos/Asnate

Antes de que puedan usarse los análisis precedentes de


varianza para fines de deducción estadística deberá hacerse
ciertas suposiciones respecto a las observaciones.
Las suposiciones en el ANVA son las mismas que las del
análisis de regresión:
- Aditividad
- Linealidad
- Normalidad
- Independencia
- Varianzas homogéneas

Modelo Estadístico Lineal


Yij  u  ti   ij i  1, t ; j  1, n i o j  1, n
obs. Desiguales obs. Iguales
Donde:
μ= efecto medio verdadero
τi = es el efecto verdadero del i-ésimo tratamiento
εij = es el efecto verdadero de la j-ésima unidad
experimental sujeta al i-ésimo tratamiento (u es una
constante y los εij :DNI (0, σ)
1)  i  0 , lo cual nos dice que estamos interesados en los
t tratamientos presentes en su experimento.
2) Los ti es tan DNI (0, t ) lo que indica que estamos
interesados en una población de tratamientos de los
cuales únicamente una muestra al azar (los τ
tratamientos) están presentes en el experimento.
1) Es el modelo I: Modelo de análisis de varianza (efectos
fijos)
2) Es el modelo II: Modelo de componentes de varianza
(efectos al azar)
Después de estas suposiciones podemos hacer uso de los
cuadros de ANVA, donde comúnmente interesan tres
conclusiones en los siguientes problemas:

229
Métodos Estadísticos Varela/Llanos/Asnate

1) Hipótesis a cerca del efecto relativo de tratamientos: sea


la hipótesis puede expresarse como:
H 0 :  i  0 (i  1, t ) , si H0 es verdadera, tanto el cuadrado
medio del error experimental como el cuadrado medio entre
tratamientos, son estimaciones de  2 . Así si H es
verdadera, entonces:
t
T
esta distribuida como F, con  1  t  1 y  2   (ni  1) g.l.
E i 1

debido a que los  ij  DNI (0, ); si Fc  F(1 ) ( v1,v 2 )  H 0 será


rechazada
Por lo tanto habrá diferencias significativas entre los
tratamientos.
b) Usando el modelo I, es decir si la hipótesis se hubiese
expresado como: no hay diferencia entre los efectos de
todos los tratamientos en la población en la cual los t
tratamientos en el experimento son una muestra, entonces la
hipótesis será: H 0 :  t2  0 , la cual será probada con una
T
F
E
¿Por qué, entonces, hemos estado tan interesados respecto a
la distensión entre los modelos? Por dos razones:
1.- Las deducciones en los dos casos son respecto a
poblaciones enteramente diferentes.
2.- En un análisis más complejo, podrían indicarse algunos
procedimientos de prueba completamente s

ESTIMACION DE COMPONENTES DE VARIANZA


S 2 = cuadrado medio del error experimental =E
CM   CME ; para números desiguales
S t2 
n0
CM   CME
S t2  ; para números iguales
n
Ejemplo.
230
Métodos Estadísticos Varela/Llanos/Asnate

1.- Una fabrica de textiles cuenta con un gran número de


telares se supone que cada uno tiene la misma producción
de tela por minuto, para investigar esta suposición se elige
cinco telares al azar y se mide la cantidad de tela producida
en cinco tiempos diferentes obteniéndose los siguientes
datos

Telares (Lib/min)
1 2 3 4 5
14.0 13.9 14.1 13.6 13.8
14.1 13.8 14.2 13.8 13.6
14.2 13.9 14.1 14.0 13.9
14.0 14.0 14.0 13.9 13.8
14.1 14.0 13.9 13.7 14.0

a) Explique en este experimento de efecto aleatorio ¿tienen


todos los telares el mismo rendimiento?
b) Calcular la variabilidad de los telares.
c) Estime la varianza del error experimental

Solución
Telares (Lib/min)
1 2 3 4 5
14.0 13.9 14.1 13.6 13.8
14.1 13.8 14.2 13.8 13.6
14.2 13.9 14.1 14.0 13.9
14.0 14.0 14.0 13.9 13.8
14.1 14.0 13.9 13.7 14.0
Yi 70.4 64.6 70.3 68.0 69.1
Ni. 5 5 5 5 5
yi . 14.08 13.92 14.06 13.8 13.82
231
Métodos Estadísticos Varela/Llanos/Asnate

y.. = 348.4
N = 25

Y.. = 13.936
SCT =

Y .. 348.4 2
 y  N 2
ij  (14  14.1  ...  14 ) 
2 2 2

25
 06376

SCt =

y 2
i

Y
.
2
 (70.4) 2  (69.6) 2  ...  (69.1) 2  4855.3  0.3416
ni N

SCE =  yij2 
y 2
i.
 SCT  SCt = 0.6376 – 0.3416 =
ni
0.296

Cuadro ANVA

Fuente de Suma de Grados de Cuadrado Fo


variación cuadrados libertad s medios
Telares 0.3416 4 0.854 5.77
(trat.) 0.296 20 0.0148
Error
Total 0.6376

f1-0.05 = f 0.95 (4.20) = 2.87


Se dice que todos los telares tienen la misma producción de
tela por minuto

232
Métodos Estadísticos Varela/Llanos/Asnate

2.- Se estudia la duración de líquidos distintos a una carga


acelerada de 35 kN. Se han obtenido datos de prueba para
cuatro tipos de liquido los resultados son.

Tipo de líquido
1 2 3 4
17.6 16.9 21.4 19.3
18.9 15.3 23.6 21.1
16.3 18.6 19.4 16.9
17.4 17.1 18.5 17.5
20.1 14.5 20.5 18.3
21.6 20.3 22.3 19.8

a) Existe indicaciones de que los líquidos difieran


b) Realiza la prueba de Tukey
Solución:
Realizando los cálculos
Tipo de líquido
1 2 3 4
17.6 16.9 21.4 19.3
18.9 15.3 23.6 21.1
16.3 18.6 19.4 16.9
17.4 17.1 18.5 17.5
20.1 14.5 20.5 18.3
21.6 20.3 22.3 19.8
yi. 111.9 107.7 125.7 112.9
ni. 6 6 6 6
yi . 18.65 17.95 20.95 18.82

y.. = 458.2
N = 24
y.. = 19.092

233
Métodos Estadísticos Varela/Llanos/Asnate

SCT =

2
y 458.2 2
 yij2  N
..
 (17.62  18.9 2  ...  19.82 ) 
24
 96.158

SCt =

y 2
i

y 2
..

(11.9 2  107.7 2  ...  112.9 2 )
 8747.80  30.165
ni N 6

SCE = SCT  SC = 96.158 – 30.165 = 65.993


Cuadro ANVA

Fuente de Suma de Grados de Cuadrado Fo


variación cuadrados libertad s medios
Tipo de
30.165 3 10.055
líquido 3.047
65.993 20 3.29965
Error
Total 96.158

f1-0.05 = f 0.95 (3.20) = 3.10


La duración efectiva de líquidos distintos de una carga
acelerada, no tiene la misma duración.

3.- Se sospecha que 5 máquinas alineamiento en cierta


maquina están llenando latas a diferentes niveles se tomaron
muestras al azar de la producción de cada maquina con los
resultados siguientes:

Maquina
A B C D E
11.95 12.18 12.16 12.25 12.10
12.00 12.11 12.15 12.30 12.04
234
Métodos Estadísticos Varela/Llanos/Asnate

12.25 12.08 2.10 12.02


12.10 12.02

a) Realice el análisis de varianza y realice sus comentarios.

Solución
Realizando los cálculos
Maquina
A B C D E
11.95 12.18 12.16 12.25 12.10
12.00 12.11 12.15 12.30 12.04
12.25 12.08 2.10 12.02
12.10 12.02
Yi 48.30 24.29 36.39 36.65 48.18
Ni. 4 2 3 3 4
yi . 12.075 12.145 12.3 12.217 12.045

y.. = 193.81
N = 16
y.. = 12.113
SCT =

2
y 193.812
 yij2  N
..
 (11.952  122  ...  12.022 ) 
16
 0.144

SCt =

y 2
i

y 2

.. 48.302 24.29 2 36.39 2 36.652 48.182 193.812
      0.05943
ni N 4 2 3 3 4 16

235
Métodos Estadísticos Varela/Llanos/Asnate

SCE = SCT  SC = 0.144 – 0.05943 = 0.08457


Cuadro ANVA

Fuente de Suma de Grados de Cuadrados Fo


variación cuadrados libertad medios
Máquinas 0.05943 3 0.01486
1.93
Error 0.08457 11 0.00769
Total 96.158

f0.05 = f 1 - 0.05 = f 0.95 (4.11) = 5.94


Los alineamientos de las máquinas no son confiables en los
enlatados

DISEÑO EN BLOQUE COMPLETO AL AZAR DBCA


- Es el más ampliamente usado de todos los diseños
experimentales
- Un DBCA es aquel en el que las u.e. se distribuyen en
grupos o bloques, de tal manera que las u.e. dentro de un
bloque sean relativamente homogéneas y el número de
u.e. por bloque sea igual al número de tratamientos por
investigar; los tratamientos se asignan al azar a las u.e.
dentro de cada bloque.

DISEÑO EN BLOQUE COMPLETO AL AZAR CON


UNA OBSERVACION POR U.E
Modelo estadístico lineal
Yij = μ + βi + τi + εij i  1, b ; j  1, t
Donde:
μ : verdadero efecto medio
βi : verdadero efecto del i-ésimo bloque
τi : verdadero efecto del i-ésimo tratamiento
εij : verdadero efecto de la u.e. en el i-ésimo bloque que esta
sujeta al j-ésimo tratamiento
236
Métodos Estadísticos Varela/Llanos/Asnate

Además:
b


i 1
i  0 ;  ij  DNI (0, )

Tabla: Representación simbólica de los datos en un


DBCA
Bloqu Tratamientos Total Media
e 1 2 3 k
1 Y11 Y12 Y1j ……. Y1 Y1.
2 Y21 Y22 Y2j ……. t Y2.

. . . . ……. Y2 . Y1.
. . . . …….. t . 
i Yi1 Yi2 Yij. ……. . Yi. Y 2.
n Yn1 Yn2 Yn3 ……. . Yn.. 
Yi .
Yit 
. Yk .
ynk

Total Y1 Y2 Y.j Y.t


Media     Y.. 
Y.1 Y.2 Y. j Yt Y..

Fórmulas para calcular la suma de cuadrados y obtener el


análisis de varianza son:
k n
Y2
SCT =  yij 2  .. Suma de cuadrados del total
i 1 j 1 kn
1 n 2 Y..2
SCτ =  Y. j  kn Suma de cuadrados entre tratamientos
n j 1
1 k 2 Y..2
SCB =  Yi.  Suma de cuadrados entre bloques
k i 1 kn
SCE = SCT - SCτ - SCB Suma de cuadrados del error

Análisis de Varianza de un DBCA

237
Métodos Estadísticos Varela/Llanos/Asnate

Fuente de Suma de Grados de Cuadrad Fo


variación cuadrados libertad os medios
Tratamient SCt k-1 SCτ/(k-1) CM t
os SCB n-1 = CMτ CM E
Bloques SCE (k-1) (n-1) SCB/(n-1)
Error = CMB
SCE/(k-
1)(n-1) =
CME
Total SCT kn-1

1.- Un ingeniero Industrial realiza un experimento para


estudiar el tiempo que tarda el ojo en enfocar. Esta
interesado con la relación que existe entre las distancias del
objeto al ojo y el tiempo que el ojo tarda en enfocar cuatro
diferentes distancias resultan de interés, hay cinco objetos
disponibles para el experimento como pueden haber
diferencias entre los sujetos el decide efectuar un análisis de
varianza. Los datos son:

Distancia Sujeto
(pies) 1 2 3 4 5
4 10 6 6 6 6
6 7 6 6 1 6
8 5 3 3 2 5
10 6 4 4 2 3

Solución:
Realizando los cálculos

Distanc Sujeto
ia (pies) 1 
2 3 4 5 yi. ni.
y i.

238
Métodos Estadísticos Varela/Llanos/Asnate

4 10 6 6 6 6 34 5 6.8
6 7 6 6 1 6 36 5 5.2
8 5 3 3 2 5 18 5 3.6
10 6 4 4 2 3 19 5 3.8
y.i 28 19 19 11 20 y..
n.j 4 4 4 4 4 N=20
 
7 4.75 4.75 2.75 5
y. j y .. =
4.85

SCT =
y 2
97 2
 y ij
2

N
..
 (10  7  ...  3 ) 
2 2 2

20
 84.55

SCτ =
y 2
i ..

y..2 (282  19 2  ...  20 2 )
  470.45 = 36.30
ti N 4
y 2
.j
y..2 (34 2  26 2  ...  19 2 )
SCB =    470.95
ni N 5
= 503.4 – 470.45 = 32.95
SCE = SCT - SCτ - SCB
= 84.55 – 36.30 – 32.95 = 15.30
CUADRO ANVA

Fuente de Suma de g.l. Cuadrados Fo


variación cuadrados medios
Sujeto 36.30 4 9.075 7.1176
Bloque 32.95 3 10.98 8.612
Error 15.30 12 1.275
Total 84.55 19

f0.95 (4.12) = 5.91


f 0.95 (3.12) =8.53

239
Métodos Estadísticos Varela/Llanos/Asnate

Los datos son confiables por lo tanto, el ojo que tarda en


enfocar es necesario.

ANALISIS DE VARIANZA CON DOS FACTORES EN


EL DCA

2.- Tres especies de Drosophila pseudoobscura fueron


producidos para resistir un insecticida. Tres niveles de
concentración de insecticida fueron analizados en los tres
especies engendradas proendogamia. Los datos, expresados
en porcentaje de mortalidad durante un período
determinado, están basadas en área duplicaciones por
combinación de tratamiento. Analizar con estos datos la
diferencia significativa en la tasa de mortalidad entre
especies y entre niveles de insecticida, y determinar si hay
interacción entre la especie y el insecticida. Los datos se
dan a continuación

Especie Nivel de insecticida


1 2 3
60 44 46
58 37 51
52 54 63
A
38 57 66
31 65 74
58 63 63
53 59 44
B 50 54 46
35 38 66
30 38 71

240
Métodos Estadísticos Varela/Llanos/Asnate

37 59 51
43 51 80
57 53 68
C 60 62 71
66 71 55

Solución:

Espec Nivel de insecticida ni. yi. yi.


ie 1 2 3
60 44 46
58 37 51
52 54 63
A
38 57 66
31 65 74
n1j 5 5 5 15 793 52.866
y1i 236 257 300 7
58 63 63
53 59 44
50 54 46
B 35 38 66
30 38 71
n2j 5 5 5 15 768 51.2
y2j 226 252 290

241
Métodos Estadísticos Varela/Llanos/Asnate

37 59 51
43 51 80
57 53 68
C 60 62 71
66 71 55
n3j 5 5 5 15 884 58.933
y3j 263 296 325
15 15 15 N = 45
725 805 905  =
n.j y
48.33 53.66 60.33 ..
y.j. 3 7 3 2445

y.j.
y .. =
54.111
1

y...2 y...2 7932 7682 884 2 24452


Filas SCa =       
ni. N 15 15 15 45
134058.33 – 132845 = 1213.33
Columnas: SC(esp) =
2 2 2 2 2
y y 725 805 905
 n. j.  N...  15  15  15  132845
.j

= 133341.93 – 132845 = 496.93


Interacción AB (insecticida, especie)
SCAB = Scsub total – SCA – SCB
= 1722 – 1213.33 – 496.93 = 11.7334
Scsub total =
2 2
yij y... 2362 257 2 3252
 n  N  5  5  ...  5  132845
ij

= 134567 – 132845 = 1722


SCE = SCT – SCsub total = 6462 – 1722 = 4740

242
Métodos Estadísticos Varela/Llanos/Asnate

SCT =
y...2
 yij212  N
 60 2  582  ...712  552  132845
= 139307 – 132845 = 6462

CUADRO ANVA

Fuente de Suma de g.l. Cuadrado Fo


variación cuadrados s medios
Insecticida 1213.33 2 606.6667 4.6076
Especie 496.93 2 248.4667 1.8871
Interacció 11.7334 4 2.9334 0.0223
n
Sub Total 1722 8
Error 4740 36 131.6667
Total 6462 44

F 0.95,2, 36 = 3.23 F0.95, 4, 36 = 2.61


Por lo tanto: Existe diferencia entre los insecticidas
No existe diferencia entre las especies
No existe efecto de interacción.

DISEÑO EN CUADRADO LATINO


Se usa frecuentemente en experimentos agrícolas e
industriales. Este diseño especial, en especial permite al
investigador delimitar con toda seguridad los efectos
relativos de varios tratamientos, cuando se impone a las
unidades experimentales una restricción del tipo doble de
243
Métodos Estadísticos Varela/Llanos/Asnate

bloqueo, es decir el diseño cuadrado latino es una


ampliación lógica de DBCA, tanto los renglones como las
columnas son ortogonales a los tratamientos.
Modelo estadístico:
Yijk = μ + αi + τi + βk + εijk i  1, m ; j  1, m ; k  1, m
μ : es la media general
αi : es el i-ésimo efecto del renglón
τi : es el j-ésimo efecto de tratamiento
βk : es el k-ésimo efecto de columna
εijk : es el error aleatorio  DNI (0, σ2)
El modelo es completamente aditivo, es decir, no
existe interacción entre los renglones, las columnas y los
tratamientos.
Donde:
αi = τi = βk = 0
A causa de las economías debidas a tamaños de
muestras reducidas; el DCL tiene mayor atracción para las
investigaciones en todos los campos.
* Cuando la información respecto a las interacciones es
deficiente o cuando la suposición de interacción o es de
validez dudosa, deberá emplearse un factorial completo.
FORMULAS:
m m m m m m

Y Y2

i 1 j 1
2
ij ( k )  Yij2( k )  Yij2( k )
i 1 k 1 j 1 k 1

T2
M YY  2
m

RYY 
R i
2
Suma de cuadrado por renglón
m  M YY

CYY 
C i
2
Suma de cuadrados por columna
m  M YY
EYY = Y2 – MYY – RYY – CYY - TYY Suma de cuadrados
del error experimental

244
Métodos Estadísticos Varela/Llanos/Asnate

CUADRO DE ANALISIS DE VARIANZA (ANVA)

Fuente Grados Suma Cuadra Cuadrado Relaci


de de de dos medio esperado ón F
variación libertad cuadra medios
dos
Media 1 MYY M  m m 2 T
Renglone m-1 RYY R
2   i
 m  1 i 1 E
s m-1 CYY C  m m 2
Columnas m-1 TYY T 2   k
 m  1 k 1
Tratamien (m-1) (m- EYY E  m m 2
tos 2) 2   j
 m  1 j 1
Error Y2
2
experime m
σ2
ntal
Total

Podría perderse u omitirse una observación en un


experimento, de acuerdo a un diseño cuadrado latino m x m
; su valor puede estimarse usando.
m( R  C  T )  25
M
( M  1)( M  2)
R = Suma de las observaciones en el renglón faltante
C = Suma de las observaciones en la columna faltante
T = Suma de los tratamientos en la observación faltante
S = Suma de todas las observaciones disponibles
Después de sustituir el valor M en la tabla, las diversas
sumas de cuadrados se calculan como se indico
anteriormente, pero debemos recordar que la suma de
cuadrados así calculada (TYY), precisa una corrección, la
misma que pueda hacerse calculando una nueva suma de
cuadrados de tratamientos (TYY) definida como:
TYY = TYY – Z
Donde:

245
Métodos Estadísticos Varela/Llanos/Asnate

Z
S  R  C  (m  1)T 
2

(m  1) 2 (m  2) 2
Recuerde que los grados de libertad asociados con el error
experimental y el total reducidos cada uno en una unidad es
decir (m-1) (m-2) – 1 y m2 – 1, respectivamente.

EFICIENCIA DEL DCL CON RESPECTO AL DCA Y


DBCA
R  C  (m  1) E
ER 
(m  1) E
C  (m  1) E
ER 
mE
(Usando los renglones como bloque) si usamos las
columnas como bloque, reemplazar C por R.

1.- Se hace una investigación sobre la variedad en el orden


que se toman las presiones a un sujeto por distintos
observadores. Se utilizo un cuadrado latino de 8 por 8 para
asignar los sujetos a los observadores. Los bloques y el
tratamiento fueron asignados de la siguiente forma:
(columnas) observadores, (filas) sujeto y (letras) orden de
asignación de sujetos a observadores. A continuación
aparecen las presiones sanguíneas leídas con la letra entre
paréntesis indicando el diseño utilizado.

246
Métodos Estadísticos Varela/Llanos/Asnate

Sujetos Observadores
1 2 3 4 5 6 7 8
1 A128 D108 C110 B106 E100 F102 G112 H110
2 B122 C100 D120 A128 F108 E130 H120 G110
3 D110 A 48 B110 C120 G102 H108 E108 F104
4 C 96 B 96 A 90 D106 H 96 G 90 F 98 G 98
5 E120 F128 G130 H128 A110 D132 C128 B134
6 F140 E128 H130 G130 B126 C108 D142 A140
7 G110 H108 E110 F106 D114 A110 B114 C118
8 H102 G118 F108 E110 C114 B110 A122 D110

Determine si hay diferencia significativa entre los ordenes


con α = 5%
Solución:

Sujetos Observadores α = 5% yi
1 2 3 4 5 6 7 8
1 A128 D108 C110 B106 E100 F102 G112 H11 876
2 B122 C100 D120 A128 F108 E130 H120 0 938
3 D110 A 48 B110 C120 G102 H10 E108 G11 810
4 C 96 B 96 A 90 D106 H 96 8 F 98 0 770
5 E120 F128 G130 H128 A110 G 90 C128 F104 1010
6 F140 E128 H130 G130 B126 D13 D142 G 98 1044
7 G110 H108 E110 F106 D114 2 B114 B134 890
8 H102 G118 F108 E110 C114 C108 A122 A14 894
A11 0
0 C118
B110 D11
0
y.j 928 834 908 934 870 890 944 924 y.. =
Observ A B C D E F G H 7232
. 876 918 894 942 904 894 902 902
yk

247
Métodos Estadísticos Varela/Llanos/Asnate

SCfil(sujeto) =
yi2. y..2 876 2  9382  ...  894 2 7232 2
 m m2  
8

64
= 824,699 – 817,216 = 7483
y2 y 2 9282  ...  924 2 7232 2
SCcol (obs) =  . j  ..2  
m m 8 64
= 818,834 – 817,216 = 1218
y.2k y..2 876 2  ...  902 2 7232 2
SCtrata (orden)   2  
m m 8 64
= 817,545 – 817216 = 329
SCerror = SCtotal - SCfil(sujeto) - SCcol (obs) - SCtrata (orden)
= 14000 –7483 – 1218 – 329 = 4970
y2
SCtotal =  yijk 2
 ...2 
m
7232
= 1282  122 2  ...  110 2 
64
= 831216 – 817216 = 14,000

CUADRO ANVA

Fuente de Suma de g.l Cuadrados Fo


variación cuadrados medios
Sujeto 7483 7 1069 0.3972
Observador 1218 7 174
Tratamiento 029 7 47
Error 4970 42 118.333
Total 14000 63

248
Métodos Estadísticos Varela/Llanos/Asnate

EJERCICIOS RESUELTOS DE ANÁLISIS DE


VARIANZA
1.- En un laboratorio hay muchos termómetros, los cuales se
usan indistintamente para medir temperaturas. Realizar un
experimento con todos los termómetros resulta muy
costoso, por lo que se tomo una muestra de 4 de ellos para
ver si hay diferencia significativa entre los termómetros.
Estos fueron colocados en una célula, la cual se tiene a
temperatura constante. Los datos son los siguientes en °C y
se obtuvieron 3 lecturas de cada unote ellos.

TERMÓMETROS
1 2 3 4
0.95 0.33 -2.15 1.05
1.06 -1.46 1.70 1.27
1.96 0.20 0.48 -2.05

Haga una tabla de análisis de varianza


a) ¿Son los termómetros homogéneos?

Solución
Realizando los cálculos se tiene:

TERMÓMETROS
1 2 3 4
0.95 0.33 -2.15 1.05
1.06 -1.46 1.70 1.27
1.96 0.20 0.48 -2.05
muestra nj 3 3 3 3 N = 12
Sumas x.j 3.97 -0.93 0.03 0.27 X.. = 3.34
_
1.323 -0.31 0.01 0.09 _
Promedio x . j x .. = 1.113

S C total =  x 2 ..
 X ij2 
N
249
Métodos Estadísticos Varela/Llanos/Asnate

= (0.95)2 + (1.06 ) + .... + (-2.5)2 - (3.34) 2


12
= 22.809 – 0.93 = 21.88

x 2 . j x 2 ..
S C tratam =  nj

N
= (3.97) 2 (0.93) 2 (0.03) 2 (0.27) 2
    0.93
3 3 3 3

= [5.254 + 0.288 + 0 + 0.024) – 0.93 = 4.64

x2 . j
S C error =   X  2
ij
nj
= 22.809 -
 (3.97) 2
(0.93) (0.03) (0.27) 2 
2 2

    
 3 3 3 3 
= 22-809 – 5.566 = 17.24

a) Cuadro ANVA.
b)
FUENTE SC G.L
Cuadrado F F
s Medios calc Teórico
Tratamiento 4.64 4 -1 = 3 1.55 0.71 F 0.95 (3)
Error 17.24 12 - 4 = 2.16 8 (8) = 4.07
8
Total 21.88 12 - 1 =
11

H 0 : Todos los termómetros son iguales


H 1 : No todos los termómetros son iguales
 Aceptamos Ho, es decir los termómetros son
iguales.
c) Los termómetros si son homogéneos.
250
Métodos Estadísticos Varela/Llanos/Asnate

2.- Se sospecha que cuatro maquinas llenadotas en una


planta están sacando productos con diferentes pesos. Se
realizo un experimento para comprobarlo para comprobarlo
y los datos en onzas son los siguientes:

MAQUINA PESOS NETOS


A 12.25 12.27 12.24 12.25 12.20
B 12.18 12.25 12.26
C 12.24 12.23 12.23 12.20
D 12.20 12.17 12.19 12.18 12.16

a) Haga una tabla de ANVA


b) ¿Hay diferencia significativa entre las máquinas
con
c) = 0.05?
Solución:
Realizando los cálculos se tiene
MAQUINA PESOS NETOS
A 12.25 12.2 12.2 12.2 12.20
B 12.18 7 4 5
C 12.24 12.2 12.2
D 12.20 5 6 12.2 12.16
12.2 12.2 0
3 3 12.1
12.1 12.1 8
7 9
MUESTRA 4 4 4 3 2 N = 17
Nj
SUMAS x.j 48.87 48.9 48.9 36.6 24.36 X .. =
2 2 3 6 207.7
PROMEDIO 12.21 12.2 12.2 12.2 12.18 _
_
3 3 1 x .. =
x .j 61.06
251
Métodos Estadísticos Varela/Llanos/Asnate

S C total = (12.25)2 + (12.18)2 + ........ + (12.16)2 -


(207.7) 2
17

= 2537.6244 – 6953 = 0.019

SCtratam=
 (48.87) 2 (48.92) 2 (48.92) 2 (36.63) 2 (24.36) 2  (207.7) 2
     
 4 4 4 3 2  17

= 2537.616 – 2537.6053 = 0.0107

S C error = 2537.6244 – 2537.616 = 0.0084

a) CUADRO ANVA

Fuente SC G.L. SCM F.calc


(Varianza)
Tratam. 0.0107 4 – 1 0.003567 5.519 F 0.95 (3)
=3 (13) =
Error 0.0084 17-4 = 0.000646 3.411
13
Total 0.0191 17-1 =
16

H 0 : Todas las máquinas son iguales


H 1 : No todas las máquinas son iguales
 Rechazamos Ho
b) Si existe diferencia significativa entre las máquinas
con  = 0.05

252
Métodos Estadísticos Varela/Llanos/Asnate

3.- Se realizo un experimento con germinado de semillas, el


cual tenía por objeto mejorara el contenido de proteínas de
diferentes especies. El experimento se realizo con un diseño
completamente al azar, obteniéndose los siguientes
resultados:

SEMILLAS
lenteja trebol girasol trigo maíz Alegría
2.25 5.13 4.97 1.45 1.29 5.78
2.46 4.17 4.86 1.60 1.69 3.99
3.02 5.67 5.08 2.03 1.49 4.15
2.04 4.21 4.08 1.52 1.62 3.41
2.53 3.89 4.27 1.56 1.34 2.90
1.86 4.01 3.77 1.68 3.29 3.32

a) Existe diferencia el contenido de proteínas en las diferentes


especies? Use un nivel de significación
b) Indique los pares de medias, si los hay, que son los
diferentes entre sí.
Solución:
Realizando los cálculos se

253
Métodos Estadísticos Varela/Llanos/Asnate

SEMILLAS
lentej trebo giraso trigo maíz Alegrí
a l l a
2.25 5.13 4.97 1.45 1.29 5.78
2.46 4.17 4.86 1.60 1.69 3.99
3.02 5.67 5.08 2.03 1.49 4.15
2.04 4.21 4.08 1.52 1.62 3.41
2.53 3.89 4.27 1.56 1.34 2.90
1.86 4.01 3.77 1.68 3.29 3.32

MUESTR 6 6 6 6 6 6 N = 36
A
SUMAS 14.16 27.08 27.03 9.84 10.72 23.55 X..=112.
38
PROMED 2.366 4.513 4.505 1.64 1.787 2.925 _

IO X ..=
17.73

(112.38) 2
SC total = (2.25)2 + (2.46)2 + ........ + (3.32)2 -
36
= 418.212 – 350.813 = 67.399

S C Tratam =
 (1416) 2 (27.08) 2 (27.03) 2 (9.84) 2 (10.72) 2 (23.55) 2  (112.38) 2
      
 6 6 6 6 6 6  36

= [33.418 + 122.221 + 121.77 + 16.138 +


19.153 + 92.434] – 350.813

= 405.134 – 359.813 = 54.32

S C Tratam = 418.212 – 405.134 = 13.078

254
Métodos Estadísticos Varela/Llanos/Asnate

a) CUADRO ANVA = 0.05

SCM
Fuente SC G.L. (Varianza Fcalc
)
Tratam. 54.32 6-1 = 5 10.864 24.917 F 0.95 (5) (30) =
Error 13.07 36-6= 0.436 2.53
8 30
Total 67.07 36-1 =
8 35

H 0 : El contenido de proteína en las diferentes especies


SON IGUALES
H 1 : El contenido de proteína en las diferentes especies
SON DIFERENTES
 Rechazamos Ho
Si existe diferencia en el contenido de proteínas en
las diferentes especies
b)
MEDIDAS 2.36 4.513 4.505 1.64 1.787 2.925
1 2 3 4 5 6
Las parejas diferentes son :1,2; 1,3; 1,6; 2,4 ; 2,5 ; 3,4 ; 3,5
; 4,6 ; 5,6.

4.- Se tratan por irradiación del tumor a 8 ratones con


adenocarcino – mamario, a razón de 667r, 3 veces por
semana. Se toma una biopsia de cada tumor a las 48 horas
de cesar la radiación y se hacen recuentos mitóticos de 3
minutos en serie, con los resultados siguientes:

NÚMERO DE RATÓN
255
Métodos Estadísticos Varela/Llanos/Asnate

1 2 3 4 5 6 7 8
19 73 50 11 1 26 12 47
26 70 59 10 11 15 12 47
12 12 11 9
11

¿Hay diferencia entre las recuentas mitóticas medias de los


distintos ratones?

Solución:
Realizando los cálculos se tiene:

NÚMERO DE RATÓN
1 2 3 4 5 6 7 8
1 73 50 11 1 26 12 47
9 70 59 10 11 15 12 47
2 12 12 11 9
6 11
MUESTR 2 2 2 3 3 4 3 2 N = 21
A
SUMAS 4 143 109 33 24 63 33 94 X .. = 544
5
PROMED 2 71.5 54. 11 8 15.75 11 47 _

IO 2. 5 X
5 ..=241.25

(544) 2
5 C total = (19)2 + (26)2 + ........ + (47)2 -
21
= 23808 – 14092.19
= 9715.81

256
Métodos Estadísticos Varela/Llanos/Asnate

5CTratam=
 (45) 2 (143) 2 (109) 2 (33) 2 (24) 2 (63) 2 (33) 2 (94) 2  (544) 2
        
 2 2 2 2 3 4 3 2  21

= 23505.75 – 14092.19
= 9413.56
5 C Tratam = 23808.23505.75
= 302.25

a) CUADRO ANVA = 0.05

Fuente SC G.L. SCM F.calc


Tratam. 9413.56 8-1= 7 1344.794 57.841 F0.95 (7) (13)
Error 302.25 21-8 = 13 23.25 = 2.832
Total 9715.81 21-1 = 20

H 0 : u1 = u2 = u3 = ...........= uk
H 1 : No todas las u; son iguales

 Rechazamos Ho
Si existe diferencia significativa entre los ratones)

5.- Un químico se interesa por determinar los efectos de la


temperatura de almacenamiento en la conservación de
manzanas. La respuesta a este estudio es el número de
manzanas que se pudren después de un mes de
almacenamiento. Decide utilizar 5 lotes de manzanas como
bloques de material experimental. Escoge 120 manzanas de
cada lote, las divide en 4 porciones de igual tamaño y asigna
los tratamientos al azar a las porciones. La variable
tratamientos (temperatura) es fijada deliberadamente en los
siguientes niveles 50°F, 55°F, 60°F, y 70°F. Los resultados
en número de manzanas podridas, son como sigue:

257
Métodos Estadísticos Varela/Llanos/Asnate

LOTE TRATAMIENTOS
50ºF 55ºF 60ºF 70ºF
1 8 5 7 10
2 14 10 3 5
3 12 8 6 5
4 9 8 5 7
5 12 9 4 8

Solución:
Realizando los cálculos se tiene

LOTE TRATAMIENTOS Sumas Medias


(TEMPERATURA) Xiº _

LOTE 50º 55º 60º 70º X i.


F F F F
1 8 5 7 10 30 7.5
2 14 10 3 5 32 8
3 12 8 6 5 31 7.75
4 9 8 5 7 29 7.25
5 12 9 4 8 33 8.25
Sumas x. j 55 40 25 35 x.. = --
155
_ 11 8 5 7 -- _
Medias X i. X i. .=
j 7.75

n=5
N = nk = (5) (4) = 20
N = 20
 x 2 . j X 2 ..
5 C tratam = 
n N
(55)  (40) 2  (25) 2  (35) 2 (155) 2
2
= 
5 20
= 1295 – 1201.25
258
Métodos Estadísticos Varela/Llanos/Asnate

= 93.75
 x 2 . i X 2 ..
5 C bloques = 
K N
=
(30) 2  (32) 2  (31) 2  (29) 2  (33) 2 
 1201.25
4

= 1203.75 - 1201.25 = 2.50


X 2 ..
5 C total =   X i2j 
N
= (8) 2  (14) 2  ........ (8) 2  1201.25

= 1361 –1201.25 = 159.75

5 C error = SC total – SC bloques – SC tratam

= 159.75 – 2.50 – 93.75 = 63.50

a) Son significativos los efectos de la temperatura con  =


5%
b) Cuadro Anva.  = 0.05
FUENTE SC G.L SCM F F Teórico
Varianza calc
Tratamiento 5.905 F0.95 (3) (12) = 3.49
93.75 4-1 = 3 31.25
(Temperatura)
Bloques 2.50 5-1 = 4 0.625 0.118
Error 63.50 (3)(4) = 12 5.292
Total 159.75 20-1 = 19

H 0 : Los efectos de la temperatura son iguales


H 1 : No todos los efectos de la temperatura son iguales

Rechazamos Ho

259
Métodos Estadísticos Varela/Llanos/Asnate

Los efectos de la temperatura son significativamente


diferentes
 Aceptamos Ho, es decir los termómetros son iguales.
b) 1 y 3 son diferentes

6.- Se utilizan cuatro medicamentos diferentes, Aj, para el


tratamiento de cierta enfermedad. Estos medicamentos son
ensayados en pacientes de tres diferentes hospitales. Los
resultados siguientes muestran el numero de casos que se
han recuperado de la enfermedad por cada 100 personas que
han tomado medicamentos. Eldiseño de bloques
aleatorizados ha sido empleado para eliminar los efectos de
los diferentes hospitales.

MEDICAMENTOS
HOSPITALE A1 A2 A3 A4
S
B1 10 11 12 10
B2 19 9 18 7
B3 11 8 23 5
¿Son
efectivos los medicamentos de los medicamentos con 
= 0.01
Solución:

Medias
MEDICAMENTOS Sumas _

HOSPITALES Xi x i.
A1 A2 A3 A4 X .. = 207.7
B1 10 11 12 10 43 10.75
B2 19 9 18 7 53 13.25
B3 11 8 23 5 47 11.75
Sumas X . j 40 28 53 22 X .. = 143 -
_ 13.333 9.333 17.667 7.33 -- _
Medias x i .j x .. = 1.917
260
Métodos Estadísticos Varela/Llanos/Asnate

n=3
(40) 2  (28) 2  (53) 2  (22) 2 (143) 2
SC tratam = 
3 12
= 1892.33 – 1704 – 083
= 188.25
(43) 2  (53) 2  (47) 2  (22) 2
SC bloques = 1704.083
4
= 1716.75 – 1704.083 = 12.667

2 2 2 (143) 2
SCtotal = (10) + (19) + ....... + (5) -
12
= 2019 – 1704.083 = 314.917

SC error = 314.917 – 12.667 – 188.25


= 114
CUADRO ANVA = 0.01
SCM
Fuente SC G.L. (Varianz Fcalc F teórico
a)
Tratamiento 188.25 4-1 = 3 62.75 3.303
(Medicament
os) F0.99 (3) (6) =
Bloques 12.667 3-1 = 2 6.334 0.333 9.78
Error 114 (3)(2)=1 19
6
Total 314.91 12-1
7 =11

H 0 : Los medicamentos son iguales


H 1 : Los medicamentos son diferentes
 Acepta Ho
No son significativamente diferentes, los medicamentos

261
Métodos Estadísticos Varela/Llanos/Asnate

7.- Se hizo un estudio para determinar la cantidad de


piretrina (una sustancia química extraída de una variedad de
crisantemos usada en insecticidas). Se usaron cuatro
métodos de extracción y las muestras fueron obtenidas de
flores conservadas en tres condiciones diferentes: flores
frescas, flores secas y conservadas por un año, y flores secas
y conservadas por un año pero tratadas con un conservador.
Los datos son los siguientes:

MÉTODOS DE
EXTRACCIÓN
Condiciones De
Conservación A B C D
1 1.35 1.13 1.06 0.98
2 1.40 1.13 1.26 1.22
3 1.49 1.46 1.40 1.35

¿Pueden considerarse los métodos de extracción diferentes


con un nivel de significación del 1%?
Solución:

Condiciones MÉTODOS DE Medias


De Sumas _
EXTRACCIÓN xi.
Conservació Xi
n A B C D X .. = 207.7
1 1.35 1.13
1.06 0.98 4.52 1.13
2 1.40 1.13
1.26 1.22 5.010 1.253
3 1.49 1.46
1.40 1.35 5.70 1.425
Sumas X . j 4.24 3.72
3.72 3.55 X .. = -
5.23
_ 1.413 1.24 1.24 1.183 -- _
Medias x i .j x .. = 1.267
n=3
N = NK = 12
262
Métodos Estadísticos Varela/Llanos/Asnate

SC Tratam =
(4.24)  (3.72)  (3.72) 2  (3.55) 2  (15.23) 2 
2 2

3 12

= 19.419 – 19.329 = 0.10

(4.52) 2  (5.010) 2  (5.70) 2


SC bloques =  19.329
4
= 19.505 – 19.329 = 0.176

SC total = (1.35)2 + (1.40)2 + ............. + (1.35)2 –


19.329
= 19.631 – 19.329
= 0.302
SC total = 0.302 – 0.176 – 0.10
= 0.026

CUADRO DE ANALISIS DE VARIANZA AL =


0.01

Fuente SC G.L. SCM F.calc


(Varianza)
Tratamiento
0.10 4-1 = 5 0.033 8.25
(Métodos)
F0.99 (3) (6) =
Bloques 0.176 3-1 = 30 0.088 22
9.78
Error (3) (2)=
0.026 0.004
35
Total 0.302 12-1= 11

H 0 : Los métodos de extracción son iguales


H 1 : Los métodos de extracción son diferentes

263
Métodos Estadísticos Varela/Llanos/Asnate

 Aceptamos Ho, es decir los métodos de extracción


no son diferentes

8.- La rapidez con que sale la gasolina en tres tipos de


llaves de mangueras de las gasolineras fue objeto de
estudio. Se seleccionaron cinco operadores de un grupo
de 25 para operar las llaves. Los datos obtenidos fueron
en cc/seg, los siguientes:

MÉTODOS DE EXTRACCIÓN

OPERADORES A B C

1 96.5 96.5 97.1


2 97.4 96.1 96.4
3 96.0 97.9 95.6
4 97.8 96.3 95.7
5 97.2 96.8 97.3

a) Existe diferencia significativa entre los tipos de


llave a un nivel de 1%?
b) Indique los pares demedias, si los hay, que son
significativamente diferentes entre sí.

Solución
N = (3) (5) = 15

MÉTODOS DE Medias
EXTRACCIÓN _
Sumas xi.
OPERAD Xi
X .. =
ORES A B C
207.7

264
Métodos Estadísticos Varela/Llanos/Asnate

1 96.5 96.5 97.1 290.1 96.7


2 97.4 96.1 96.4 289.9 96.633
3 96.0 97.9 95.6 289.5 96.5
4 97.8 96.3 95.7 289.8 96.6
5 97.2 96.8 97.3 291.3 97.1
Sumas X . 484.9 483.6 482.1 X --
j ..=1450.6
_ 96.98 96.72 96.42 -- _
Medias x i x .. = %
.j 707
(484.9) 2  (483.6)  (482.1)
2 2
(1450.6) 2
SCtratam = 
5 15
= 140 283.476 – 140 282.691
= 0.785
SCbloques=
(290.1)2  (289.9)2  (289.5)2  (289.8)2  (291.3)2
 140282.691
3

= 140.290 – 140282.691
= 0.642

SC total = (96.5)2 + (97.4)2 + ........ + (97.3)2 –


140282.691
= 140290 – 140282.691
= 5.882

265
Métodos Estadísticos Varela/Llanos/Asnate

a) CUADRO ANVA = 0.01

Fuente SC G.L. SCM F.cal


Varianza c
s
Tratamient F0.99 (2) (8) = 8.65
o 0.535
0.785 3-1= 2 0.393
(tipo de
llave)
Bloques 0.642 5-1 = 4 0.161 0.219
error 5.882 (2)(4)= 8 0.735
total 7.309 N-1 = 14

H 0 : Los tipos de llave son iguales


H 1 : Los tipos de llave son diferentes

 Aceptamos Ho
No existe diferencia significativa entre los tipos de llave
b) No hay medidas que son significativamente diferentes
entre sí.

9.- Se desea determinar de que manera la solubilidad del


metronidazol se ve afectada por los parabenos
(conservadores) y las macromoléculas no iónicas, para lo
cual se realiza el siguiente experimento; se preparan 4
soluciones de macromoléculas no iónicas diferentes y se
coloca cada una con tres conservadores; luego se
determinan las solubilidades de cada una de las
macromoléculas, obteniéndose los siguientes resultados:

266
Métodos Estadísticos Varela/Llanos/Asnate

MACROMOLÉCULA NO IÓNICA
CONSERVA
DORES Myrj Pluronic Tween Peg
52 F - 68 80 4000

Metilparabeno 146 107 158 107


Etilparabeno 199 114 310 104
Propilparaben 364 115 781 108
o

Haga una tabla ANVA y determinar si existe diferencia


significativa entre los conservadores con  = 0.05

Solución

Medias
MACROMOLÉCULA NO IÓNICA _
CONSERVA x i.
DORES Sumas
Myrj 52 Pluronic Tween Peg Xi
F - 68 80 4000

Metilparabeno 146 107 158 107 518 129.5


Etilparabeno 199 114 310 104 727 181.75
Propilparaben 364 115 781 108 1368 342
o
Sumas X . j 709 336 1249 319 X ..= 2613 --

_ 236.333 112 416.333 106.333 -- _


Medias x .j x .. =
217.75

N = (3) (4) = 12
267
Métodos Estadísticos Varela/Llanos/Asnate

SCtratam=
(709) 2  (336) 2  (1249) 2  (319) 2 (2613) 2

3 12
= 759113 – 568 980.75
= 190132.25
(518)2  (727)2  (1368)2
SC bloques =  568980.75
3
= 667069.25 – 568980.75
= 98088.5
SC total = (146)2 + (199)2 + ........ + (108)2 – 568980.75
= 996037 – 568980.75
= 427 056.25
SC error = 427056.25 – 98088.5 – 190132.25
= 138 835.3

CUADRO ANVA = 0.01

Fuente SC G.L.
SCM Fcal
(Varianzas c
)
Tratamientos 190132.2 4-1 63377.417 2.73
5 =3 9
Bloques 98088.5 3-1 = 49044.25 2.12 F0.95
(conservadores 2 0 (2) (6)
) =5.1
4
Error 138835.5 (3)(2 23139.25
)=6
Total 427056.2 N-1
5 = 11

H 0 : Los conservadores son iguales

268
Métodos Estadísticos Varela/Llanos/Asnate

H 1 : Los conservadores son diferentes


 Aceptamos Ho
No existe diferencia significativa entre los conservadores

10. Una analista de un laboratorio farmacéutico necesita


decidir si es necesario agregar o no conservador a una
solución de acacia al 25%. Ella sabe que si no cambia el pH
de la solución después de agregar el conservador, no es
necesario agregar mas de este; por lo que decide agregar el
siguiente experimento: prepara una solución de acacia al
25% y la divide en cuatro porciones. Cada porción estará en
almacenamiento durante un tiempo definido; después de
este tiempo se tomaran 6 muestras; a cada una de ellas se les
agregara un conservador excepto a una. Luego se mide el
pH de la muestra, obteniéndose los siguientes resultados.

TIEMPO DE
CONSERVADO ALMACENAMIENTO
RES 0 días 1 2 6 sem.
sem. sem.
Ninguno 4.80 4.78 4.60 4.30
Ácido benzoico 4.72 4.70 4.48 4.47
Propil parabeno 4.79 4.60 4.65 4.35
Metilparabeno 4.79 4.70 4.70 4.25
Clorobutanol 4.80 4.78 4.62 4.34
Cloruro de 4.79 4.75 4.70 4.32
benzalconio

La química de éste laboratorio farmacéutico no sabe como


analizar éstos resultados que plantea el problema ¿de qué
manera le ayudaría Usted?
Solución:
269
Métodos Estadísticos Varela/Llanos/Asnate

Haría un cuadro de análisis de varianza (ANVA) de un


factor con bloques y le diría que los tiempos son fuentes de
varabilidad.

TIEMPO DE Medias
“BLOQUES” ALMACENAMIENTO _
Sumas xi.
0 1 2 6
Xi
CONSERVA días sem. sem. sem.
DORES
Ninguno 4.80 4.78 4.60 4.30 18.48 4.62
Ácido 4.72 4.70 4.48 4.47 18.37 4.59
benzoico 4.79 4.60 4.65 4.35 18.39 4.598
Propil 4.79 4.70 4.70 4.25 18.44 4.61
parabeno 4.80 4.78 4.62 4.34 18.54 4.635
Metilparaben 4.79 4.75 4.70 4.32 18.56 4.64
o
Clorobutanol
Cloruro de
benzalconio
Sumas X . j 28.6 28.3 27.7 26.03 X ..= --
9 1 5 110.78
_ 4.78 4.71 4.62 4.338 -- _
Medias x .j 2 8 5 x .. =
4.616
n=6
N = (6) (4) = 24
(28.69) 2  (28.31) 2  (27.75) 2  (26.03) 2 (110.78) 2
SCtratam= 
6 24
= 512.033 – 511.342
= 0.691
(18.48)2  (18.37)2  (18.39)2  (18.44)2  (18.54)2  (18.56)2
SCbloques=  511.342
4
= 511.350 – 511.342 = 0.008

270
Métodos Estadísticos Varela/Llanos/Asnate

SC total = (4.80)2 + (4.72)2 + ........ + (4.32)2 – 511.342


= 512.121 – 511.342
= 0.779
SC error = 0.779 – 0.008 – 0.691
= 0.08

CUADRO ANVA

SCM
Fuente SC G.L. (Varianz F.calc
as)
Tratamientos 0.691 4-1 = 3 0.2303 43
Bloques 0.008 6-1 = 5 0.0016
Error 0.08 (3)(5) = 15 0.0053
Total 0.779 N-1 = 23

11. Considere el estudio siguiente para comparar 3


vitaminas. Se reunieron para el estudio 7 conjuntos de
trillizos de 1 año de edad. Cada niño de una familia dada
recibio al azar uno de 3 regimenes vitaminicos por un
periodo de 2 años. Se penso que un indicador del efecto
global de las vitaminas era el crecimiento. Supongase que
los siguientes datos son pesos ganados en libras.

VITAMINA
FAMILIA
A B C
1 11.2 9.3 10.4
2 9.7 12.0 11.5
3 8.2 9.4 8.9
4 9.1 10.1 7.9
5 11.0 10.3 10.8
6 7.3 9.1 8.4
7 8.2 8.5 10.1
271
Métodos Estadísticos Varela/Llanos/Asnate

Contrastar para ver si las vitaminas producen la misma de


ganancia de peso.

Solución:

“BLOQUE VITAMINA
Medias
S” Sumas
_
FAMILIA A B C Xi xi.
1 11.2 9.3
10.4 30.9 10.3
2 9.7 12.0
11.5 33.2 11.067
3 8.2 9.4
8.9 26.5 8.833
4 9.1 10.1
7.9 27.1 9.033
5 11.0 10.3
10.8 32.1 10.7
6 7.3 9.1
8.4 24.8 8.26
7 8.2 8.5
10.1 26.8 8.933
Sumas X . j 64.7 68.7
68 X ..= --
201.4
_ 9.243 9.814 9.714 -- _
Medias x .j x .. =
9.59
n=7
N = 21

(647) 2  (68.7) 2  (68) 2 (201.4) 2


SCtratam = 
7 21
= 1932.826 – 1931.522
= 1.304
SCbloques= (30.9) 2  (33.2) 2  (26.5) 2  (27.1) 2  (32.1) 2  (24.8) 2  (26.8) 2 (201.4) 2

3 21
= 1952.467 – 1931.522
= 20.945
SC total = (11.2)2 + (9.7)2 + ........ + (10.1)2 – 1931.522
= 1964.36 – 1931.522 = 32.838
272
Métodos Estadísticos Varela/Llanos/Asnate

SC error = 32.838 – 20.945 – 1.304 = 10.589

CUADRO ANVA

Fuente SC G.L. SCM Fcalc F teórico


(Varianzas)
Tratamiento F =
1.304 3-1 = 2 0.652 0.739 0.95 (2) (12)
(Vitaminas) 3.89
Bloques 20.945 7-1 = 6 3.491
Error 10.589 (2)(6)=12 0.882
Total 32.838 N-1 = 20
H 0 : Las vitaminas son iguales
H 1 : Las vitaminas son diferentes
 Aceptamos Ho
No existe diferencia significativa entre las 3 vitaminas

12. Tres métodos clínicos para determinar el contenido de


hemoglobina fueron ensayados para determinar si habia
diferencia significativa entre los resultados. Se emplearon
seis sujetos, constituyendo cada sujeto un bloque. Analizar
los datos de la tabla siguiente, en la cual las cifras representan
g/100 ml
BLOQUES (Individuales)
MÉTODOS
A B C D E F
1 14 12 16 15 10 11
2 18 16 17 19 12 13
3 15 14 12 14 12 9

Determinar si hay diferencia significativa entre los


métodos.

273
Métodos Estadísticos Varela/Llanos/Asnate

Solución

BLOQUES MÉTODOS Medias


(INDIVIDU Sumas _

OS) 1 2 3 Xi xi.

A 14 18 15 47 15.667
B 12 16 14 42 14
C 16 17 12 45 15
D 15 19 14 48 16
E 10 12 12 34 11.333
F 11 13 9 33 11
Sumas X . j 78 95 76 X ..= --
249
_ 13 15.83 12.66 -- _
Medias x .j 3 7 x .. =
13.833

(78) 2  (95) 2  (76) 2 (249) 2


SCtratam = 
6 18
= 3480.833 – 3444.5
= 36.333
SC bloques =
(47)  (42)  (45)  (48)  (34)  (33)
2 2 2 2 2 2
 3444.5
3

= 3515.667 – 3444.5 = 71.167


SC total = (14)2 + (12)2 + ........ + (9)2 – 3444.5
= 3571 – 3444.5 = 126.5
SC error = 126.5 – 71.167 – 36.333 = 19

274
Métodos Estadísticos Varela/Llanos/Asnate

CUADRO ANVA = 0.05


SCM
Fuente SC G.L. Fcalc F teórico
Varianzas
Tratamien 36.33 3-1 = 2 18.167 9.562 F0.95 (2) (10) =
to 3 4.10
(métodos)
Bloques 71.16 6-1 = 5 14.233
7
error 19 (2)(5)= 1.9
10
total 126.5 N-1 =
17

H 0 : Los métodos son iguales


H 1 : Los métodos son diferentes
Rechazamos Ho
Existe diferencia significativa entre los métodos

13.- Se probaron dietas de hamsters, en busca de diferencias


significativas en peso final medio después de un periodo de
tiempo especifico. Los sujetos fueron agrupados en bloques
de dos, basándose los bloques en una predicción del peso
final. Los pesos se expresan en gramos. Establezca si hay
diferencia significativa entre las dietas.
BLOQUES
DIET
1 2 3 4 5 6 7 8 9 10
A
10 10 10 10 10 10 10 10 10 10
A 5 1 3 8 6 9 5 6 4 3
B 11 10 10 11 11 11 11 10 10 10
0 8 6 2 0 2 0 6 8 8

275
Métodos Estadísticos Varela/Llanos/Asnate

Solución:
Realizando los cálculos
DIETA Medias
“BLOQUE Sumas _

S” A B Xi xi.

1 105 110 215 107.5


2 101 108 209 104.5
3 103 106 209 104.5
4 108 112 220 110
5 106 110 216 108
6 109 112 121 110.5
7 105 110 215 107.5
8 106 106 212 106
9 104 108 212 106
10 103 108 211 105.5
Sumas X . j 1050 1090 X ..= --
2140
_ 105 109 -- _
Medias x .j x .. =
107

n=10
N = (10) (2) = 20

(1050) 2  (1090) 2  (2140) 2


SCtratam = 
10 20
= 229060 – 228980 = 80
SC bloques =
(215)2  (209)2  (209)2  (220)2  (216)2  (221)2  .........  (211)2
 228980
2

= 229059 – 228980 = 79
SC total = (105)2 + (101)2 + ........ + (108)2 – 228980
= 229154 – 228980 = 174
276
Métodos Estadísticos Varela/Llanos/Asnate

SC error = 174 – 79 – 80 = 15

Fuente SC G.L.
SCM Fcalc F
Varianzas teórico
Tratamiento 80 2-1 = 1 80 47.99 F0.95 (1)
(9) =
5.12
Bloques 79 10-1 = 8.778 5.266
9
error 15 (1)(9) 1.667
=9
total 174 N-1 =
19

H 0 : Las dietas son iguales


H 1 : Las dietas son diferentes
Rechazamos Ho
 Si existe diferencia significativa entre las dietas

 ANALISIS DE VARIANZA CON DOS
FACTORES

14. Tres técnicos de laboratorio determinan colesterol en la


sangre en miligramos por centímetro. Para contrastar la
conformidad de resultados de los tres técnicos, se reparten
sueros procedentes de cinco sujetos normales en sextas
partes para que cada técnico haga dos determinaciones. Los
datos son:

277
Métodos Estadísticos Varela/Llanos/Asnate

OBSERVADOR
SUJETO 1 2 3
1 190 193 187 186 192 190
2 172 170 167 166 168 169
3 180 178 176 177 178 181
4 206 204 200 201 203 205
5 175 173 172 173 176 177
a) Decir y examinar si cada factor es fijo o
aleatorio.
b) Efectuar el análisis de varianza de dos factores
adecuado.
Solución

OBSERV SUJETO
ADOR ni xi
1 2 3 4 5
1 190 172 180 206 175
193 170 178 204 173
nij 2 2 2 2 2 10
xij. 383 342 358 410 348 1841
2 187 164 176 200 172
186 166 177 201 173
nij 2 2 2 2 2 10
xij. 1802
3 192 168 178 203 176
190 169 181 205 177
nij 2 2 2 2 2 10
xij. 1839
n.j 6 6 6 6 6 N=
x.j. 113 100 107 1219 1046 30 x... =
8 9 0 5482

I=3
FILAS (A)
278
Métodos Estadísticos Varela/Llanos/Asnate

 (1841) 2 (1802) 2 (1839) 2  (5482) 2


SCA =    
 10 10 10  30
= 1001840.6 – 1001744.133 = 96.467
COLUMNAS (B)
SCB =
(1138) 2 (1009) 2 (1070) 2 (1219) 2 (1046) 2
     1001744.133
6 6 6 6 6

= 1006350.333 – 1001744.133
= 4606.2

INTERACCIÓN (A, B)
SCAB = 4721.867 – 96.467 – 4606.2 = 19.2
SUB TOTAL
SCSUB TOTAL =
(383) 2 (342) 2 (358) 2 (410) 2 (353) 2 (5482) 2
    .....  
2 2 2 2 2 2

= 1006466 – 1001744.133 = 4721.867


ERROR
SCerror = 4747.867.867 – 4721.867 = 26
TOTAL
SCtotal = 1006492 – 1001744.133 = 4747.867
CUADRO ANVA = 0.05

Fuente SC G.L. SCM F.calc F teórico


Varianzas
Filas (A) 96.467 3-1 = 2 48.234 20.098 F0.95 (2) (15)
= 3.68
Columna 4606.2 5-1 = 2 1151.5 664.455 F0.95(2)( 15)
(B) = 3.06

279
Métodos Estadísticos Varela/Llanos/Asnate

Interacción 19.2 (2)(5) = 2.4 1.385 F0.95 (8) (15)


(AB) 4 = 2.64
Subtotal 4721.867 (3)(5)-1 = --
8
Error 26 30-(3)(5) 1.733
= 15
Total 4747.867 30-1 = 29 --

Rechaza Ho
H1 : Existe diferencia entre los observadores
(FACTOR FIJO)
Rechaza Ho
H1 : Existe diferencia entre los sujetos (FACTOR
ALEATORIO)
Acepta Ho
Ho : No hay efecto de interacción

15.- Considere el experimento siguiente como investigación


del efecto de fumar sobre la actividad física. Se clasificaron
27 individuos en tra grupos según sus hábitos de fumar y se
les asigno al azar a un de las tres pruebas siguientes:
ergómetro de bicicleta, banda de esfuerzo o caminata,
registrándose el tiempo en minutos hasta la máxima
absorción de oxigeno; los resultados son:

280
Métodos Estadísticos Varela/Llanos/Asnate

HÁBITOS PRUEBA
DE Banda
FUMAR Bicicleta Caminata
esfuerzo
No 12.8 16.2 22.6
fumadores 13.5 18.1 19.3
11.2 17.8 18.9
Fumadores 10.9 15.5 20.1
moderados 11.1 13.8 21
9.8 16.2 15.9
Grandes 8.7 14.7 16.2
fumadores 9.2 13.2 16.1
7.5 8.1 17.8

a) Decir de cada factor si es fijo o aleatorio.


b) Contrastar las diversas hipótesis valiéndose del
análisis apropiado de varianza de dos factores.

Solución:

HÁBITO PRUEBA
S DE xi
Biciclet Banda Camina ni
FUMAR
a esfuerz ta
o
No 12.8 16.2 22.6
fumadores 13.5 18.1 19.3
11.2 17.8 18.9
nij 3 3 3 9
xij. 37.5 52.1 60.8 150.4
Fumadore 10.9 15.5 20.1
s 11.1 13.8 21
moderado 9.8 16.2 15.9
s
281
Métodos Estadísticos Varela/Llanos/Asnate

nij 3 3 3 9
xij. 31.8 45.5 57 134.3
Grandes 8.7 14.7 16.2
fumadores 9.2 13.2 16.1
7.5 8.1 17.8
nij 3 3 3 9
xij. 25.4 3.6 50.1 111.5
n.j 9 9 9 N = 27
x.j. 94.7 133.6 167.9 x... = 396.2

I=3
FILAS (A)
(150.4) 2 (134.3) 2 (111.5) 2 (396.2) 2
SCA =   
9 9 9 27
= 5898.767 – 5813.868 = 84.899

COLUMNAS (B)
(94.7) 2 (133.6) 2 (167.9) 2
SCB =    5813.868
9 9 9
= 6111.94 – 5813.868 = 298.072
= 4606.2

INTERACCIÓN (A B)
SCAB = 385.785 – 84.899 – 298.072 = 2.814

SUB TOTAL
SCSUB TOTAL =
(37.5) 2 (52.1) 2 (60.8) 2 (31.8) 2 (50.1) 2
    .....   5813.868
3 3 3 3 3

= 6199.653 – 5813.868
= 385.785
ERROR
282
Métodos Estadísticos Varela/Llanos/Asnate

SCerror = 445.032 – 385.785 = 59.247

TOTAL
SCtotal = (12.8)2 + (113.5)2 + . . . . + (17.8)2 – 5813.868
= 6258.9 – 5813.868
= 445.032

CUADRO ANVA = 0.05

Fuente SC G.L.Varianza Modelo F teórico


Fijo
Filas (A) 84.899 3-1 = 2 42.45 12.895 F0.95 (2) (18) =
3.555
Columna 298.072 3-1 = 2 149.036 45.272 F0.95 (2) ( 18) =
(B) 3.555
Interacción 2.814 (2)(2) = 4 0.704 0.214 F0.95 (4) (15) =
(AB) 2.928
Subtotal 385.785 (3)(3)-1 = --
8
Error 59.247 2(9) = 18 3.292
Total 445.032 27-1 = 26 --

Rechaza Ho
H1 : Las pruebas son significativamente diferentes.
Rechaza Ho
H1 : Las pruebas son significativamente diferentes
Acepta Ho
Ho : Si existe efecto de interacción

16. Se realizo un experimento para fijar los efectos de la


temperatura y humedad en la resistencia efectiva de un tipo
normal de resistencia. Se obtuvieron los siguientes datos.
Analice e interprete los datos.
283
Métodos Estadísticos Varela/Llanos/Asnate

VALORES CODIFICADORES DE RESISTENCIA


TEMPERATUR -29ºC 21ºC 71ºC
A
HUMEDAD 10% 50% 10% 50% 10% 50%
23 24 26 24 25 27
24 24 25 25 26 26
25 25 26 26 26 28
24 26 26 26 28 28

Solución:

VALORES HUMEDAD
CODIFICADO
S ni
xi
TEMPERATU 10% 50%
RA
23 24
24 24
-29ºC
25 25
24 26
nij 4 4
8
xij. 96 99 195
26 24
25 25
21ºC
26 26
26 26
nij 4 4
8
xij. 103 101 204
25 27
26 26
71ºC
26 28
28 28
284
Métodos Estadísticos Varela/Llanos/Asnate

nij 4 4
8
xij. 105 109 211
I=3
n.j 12 12
N = 24 x... =
x.j. 304 309
613 FILA
S (A)
(195) 2 (204) 2 (214) 2 (613) 2
SCA =   
8 8 8 24
= 15679.625 – 15657.042
= 22.583
COLUMNAS (B)
(304) 2 (309) 2
SCB =   15657.042
12 12
= 15658.083 – 15657.042 = 1.041

INTERACCIÓN
SCAB = 26.808 – 22.583 – 1.041
= 2.584
SUB TOTAL
SCSUB TOTAL =
(96) 2 (99) 2 (103) 2 (101) 2 (105) 2 (109) 2
      15657.042
4 4 4 4 4 4

= 15683.25 – 15657.042
= 26.208
ERROR
SCerror = 41.958 – 26.208 = 15.75

TOTAL
SCtotal = (23)2 + (24)2 + ....... + (28)2 – 15657.042

285
Métodos Estadísticos Varela/Llanos/Asnate

= 15699 – 15657.042
= 41.958
CUADRO ANVA = 0.05

SCM
Fuente SC G.L. F.calc F teórico
Varianzas
Filas 22.583 3-1= 2 11.292 12.905 F0.95 (2) (18) =
3.555
Columna 1.041 2-1= 1 1.041 1.19 F0.95 (1) ( 18) =
4.414
Interacción 2.584 (2)(1) = 1.292 1.477 F0.95 (2) (18) =
2 3.555
Subtotal 26.208 3(2)-1 = --
5
Error 15.75 24-6 =18 0.875
Total 41.958 N-1 = 23 --

Rechaza Ho
H1 : Existe diferencia significativa entre las temperaturas
Rechaza Ho
Ho : No existe diferencia entre las humedades
Acepta Ho
Ho : No existe efecto de interacción
17. Se probaron cinco variedades de duraznos y cuatro
fertilizantes. De cada parcela experimental se seleccionaron
al azar 3 cuadros y se anotaron sus cosechas como sigue:
Solución:

286
Métodos Estadísticos Varela/Llanos/Asnate

PRUEBA
FERTILIZANTES
1 2 3 4 5
1 57 26 39 23 48
46 38 329 36 35
28 20 43 18 48
2 67 44 57 74 61
72 68 61 47 60
66 64 61 69 75
3 95 92 91 98 78
90 89 82 85 89
89 99 98 85 95
4 92 96 98 99 99
88 95 93 90 98
99 99 98 98 99

287
Métodos Estadísticos Varela/Llanos/Asnate

PRUEBA
xi ..
FERTIL ni .
1 2 3 4 5
IZANTE
S
57 26 39 23 48
1 46 38 329 36 35
28 20 43 18 48
3 3 3 3 3 15
nij
131 84 121 77 13 544
xij.
1
67 44 57 74 61
2 72 68 61 47 60
66 64 61 69 75
3 3 3 3 3 15
nij
205 176 179 190 19 946
xij.
6
95 92 91 98 78
3 90 89 82 85 89
89 99 98 85 95
3 3 3 3 3 15
nij
274 280 271 268 26 1355
xij.
2
92 96 98 99 99
4 88 95 93 90 98
99 99 98 98 99
3 3 3 3 3 15
nij
279 290 287 287 29 1441
xij.
6
12 12 12 12 12 N=
n.j
889 830 822 822 88 60 x... =
x.j.
5 4286
a) Construya una tabla de ANDEVA
288
Métodos Estadísticos Varela/Llanos/Asnate

b) Pruebe la hipótesis de iguales medias de variedad.


c) Pruebe la hipótesis de iguales medias de
fertilizantes.
d) ¿A qué conclusiones llega Ud. como resultado de
éste experimento?
Solución:

FILAS (A)
(544) 2 (946) 2 (1355) 2 (1441) 2 (4286) 2
SCA =    
15 15 15 15 60
= 340223.867 – 306163.267
= 34060.6

COLUMNAS (B)
SCB =
(889) 2 (830) 2 (860) 2 (822) 2 (885) 2
     306163.267
12 12 12 12 12
= 306477.5 – 306163.267
= 314.233

INTERACCIÓN (A B)
SCAB = 35282.733 – 34060.6 – 314.233 = 907.9
SUB TOTAL
SCSUB TOTAL =
(57) 2 (46) 2 (99) 2
  .....   306163.267
3 3 3
= 341446 – 306163.267
= 35282.733
TOTAL
SCtotal = (57)2 + (46)2 + . . . . + (99)2 – 306163.267
= 343854 – 306163.267
= 37690.733

289
Métodos Estadísticos Varela/Llanos/Asnate

CUADRO ANVA
= 0.05
Modelo
Fuente SC G.L. Varianzas F teórico
Fijo
Filas (A) 34060.6 4-1 = 11353.533 188.597 F0.95 (3) (40) =
3 2.84
Columnas 314.233 5-1 = 78.558 1.305 F0.95 (4) ( 40) =
(B) 4 2.61
Interacción 907.9 (3)(4) = 75.658 1.257 F0.95 (12) (40)
(AB) 12 =2
Subtotal 35282.733 20-1 = --
19
Error 2408 60-20 = 60.20
40
Total 37690.733 60-1 =
59

290
Métodos Estadísticos Varela/Llanos/Asnate

PROBLEMAS PROPUESTOS
PROBLEMA 01 : “ Cada cual con su juego”

Robnert Shade es vicepresidente de marketing en el First


City Bank de Atlanta. En la campaña de promoción para
atraer a nuevos depositantes se incluyen determinados
sorteos y premios en los emplazamientos de las cuatro
sucursales del banco. Shade está convencido de que
diferentes clases de premios promocionales atraerán a
grupos de renta distintos. Las personas de un determinado
nivel de renta preferirá regalos, mientras que a otro grupo
de renta le interesarán más los viajes gratuitos a lugares de
vacaciones. Shade decide valerse de las cantidades
depositadas en el banco como medida aproximada de la
renta. Quiere determinar si hay diferencia en el nivel
medio de depósitos entre las cuatro sucursales. Si se
halla alguna diferencia, Shade ofrecerá un abanico de
premios promociónales. Para esto Se eligen al azar siete
depósitos de cada sucursal, que son los que se recogen aquí,
redondeados a los 100 dólares más próximos. Hay C = 4
tratamientos (muestras) y  j = 7 observaciones en cada
tratamiento. El número total de observaciones es: n =  c =
28.

Depósito Sucursal 1 Sucursal 2 Sucursal 3


Sucursal 4
1 1.3 1.9 3.6
5.1
2 1.5 1.9 4.2
4.9
3 0.9 2.1 4.5
5.6
4 1.0 2.4 4.8
4.8

291
Métodos Estadísticos Varela/Llanos/Asnate

5 1.9 2.1 3.9


3.8
6 1.5 3.1 4.1
5.1
7 2.1 2.5 5.1
4.8
Respuesta: F = 78.14, Shade tiene que rechazar la hipótesis
nula

PROBLEMA 02:
Un fabricante de papel utilizado para fabricar bolsas para
caramelos, está interesado en mejorar la resistencia a la
tensión del producto. El grupo de ingeniería del producto
piensa que la resistencia a la tensión es una función de la
concentración de madera dura en la pulpa, y que el rango de
interés práctico de las concentraciones de madera dura está
entre 5 y 20%. El equipo de ingenieros responsable del
estudio decide investigar cuatro niveles de concentración de
madera dura: 5, 10, 15 y 20”. Para ello, decide fabricar seis
especímenes de prueba para cada nivel de concentración,
utilizando una planta piloto. Los 24 especímenes se someten
a prueba en un probador de tensión de laboratorio, en un
orden aleatorio. Los datos de este experimento aparecen en
la tabla siguiente:
Tabla Resistencia del papel a la tensión (psi).

Concentración Observaciones Tot Prom


de madera dura 1 2 3 4 5 6 ales edios
(%)
5 7 8 15 11 9 10 60 10.00
10 12 17 13 18 19 15 94 15.67
15 14 18 19 17 16 18 102 17.00
20 19 25 22 23 18 20 127 21.17
383 15.96

292
Métodos Estadísticos Varela/Llanos/Asnate

El análisis de varianza puede emplearse para probar la


hipótesis de que concentraciones de madera dura diferentes
afectan la resistencia promedio a la tensión del papel.
Respuesta: P  3.59 x 10-6 es mucho más pequeño que  =
0.01, entonces se tiene evidencia fuerte para concluir que H0
no es verdadera.

PROBLEMA 03 :
En Design and Analysis of Experiments, tercera edicación
(John Wiley, 1991),D.C. Montgomery describe un
experimento de un solo factor donde se utiliza un modelo de
efectos aleatorios, en el que una compañía textil produce
una tela en varios telares. La compañía tiene interés en la
variabilidad de la resistencia a la tensión de un telar a
otro. Para investigar esta variabilidad, un ingeniero de
producción selecciona al azar cuatro telares y determina la
resistencia da la tensión de las muestras de tela domadas
aleatoriamente de cada telar. Los datos obtenidos aparecen
en la tabla siguiente:
Tela Observaciones Tot Prom
r 1 2 3 4 al edio
1 98 97 99 96 390 97.5
2 91 90 93 92 366 91.5
3 96 95 97 95 383 95.8
4 95 96 99 98 388 97.0
152 95.45
7

Respuesta: En este proceso mejorado, la reducción en la


variabilidad de la resistencia disminuye en gran medida la
degradación del proceso, lo que trae como resultado un
costo menor, una calidad mayor, el cliente más satisfecho y
una posición competitiva mejor para la compañía.
293
Métodos Estadísticos Varela/Llanos/Asnate

PROBLEMA 04 :
Supóngase que en un experimento industrial un ingeniero
está interesado en cómo varía la absorción media de
humedad en el concreto de entre cinco diferentes mezclas
de concreto. Las mezclas varían en el porcentaje en peso de
un cierto ingrediente importante. se exponen a la humedad
durante 48 horas. Se decide probar 6 para cada mezcla, lo
que requiere la prueba de un total de 30 muestras. Los datos
se registran en la tabla siguiente.
Absorción de humedad en mezclas de concreto
Mezcla (% de peso)
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 5.11 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 320 16,85
3416 3663 2791 3664 4
Media 553.33 569.3 610.5 465.1 610.6 561.8
3 0 7 7 0

El modelo para esta situación puede considerarse como


sigue. Se tienen 6 observaciones que se toman cada una de
las 5 poblaciones con medias 1,  2 , ....., 5 ,
respectivamente. Se puede desear probar.
H 0 : 1,  2 , ....., 5 ,
H1 : Al menos dos de las medidas no son iguales.
Pruebe la hipótesis de que 1   2  .....  5 a nivel de
significancia de 0.05 para lo datos de la tabla acerca de la

294
Métodos Estadísticos Varela/Llanos/Asnate

absorción de humedad de varios tipos de mezcla de


concreto.
Respuesta: Se rechaza H0 y se concluye que las mezclas no
tienen la misma absorción media. El valor P para f = 4.30 es
menor que 0.01.

PROBLEMA 05 :
Parte del estudio “Serum Inorganic Phosphorus Levels in
Children with Seizure disorders Taking Anticonvulsant
Drugs”, que se llevó a cabo en la Virginia Polytechnic
Institute and State University en 1982, se diseñó para medir
los niveles de actividad de fosfatasa alcalina de suero
(unidades Bessey – Lowry) en niños que padecían ataques
convulsivos y quienes habían recibido terapia
anticonvulsionante bajo el cuidado de un especialista
privado. Se encontraron cuarenta y cinco sujetos para el
estudio y se clasificaron en cuatro grupos de acuerdo con la
medicina que se les proporcionó.

Tabla : Nivel de actividad del suero fosfatado alcalino.


Grupo de medicamento
G-1 G-2 G-3 G-4
49.20 97.50 97.07 62.10 110.60
44.54 105.00 73.40 94.95 57.10
45.80 58.05 68.50 142.50 117.60
95.84 86.60 91.85 53.00 77.71
30.10 58.35 106.60 175.00 150.00
36.50 72.80 0.57 79.50 82.90
82.30 116.70 0.79 29.50 111.50
87.85 45.15 0.77 78.40
105.00 70.35 0.81 127.50
95.22 77.40

295
Métodos Estadísticos Varela/Llanos/Asnate

G-1 :Control (sin recibir anticonvulsionantes y sin


tener una historia de desórdenes de este tipo).
G-2 :Fenobarbital.
G-3 :Carbamazepina.
G-4 :Otros anticonvulsionante.
A partir de muestras sanguíneas obtenidas de cada sujeto se
determinaron los niveles de actividad de fosfatasa alcalina
del suero y se registraron en la tabla prueba la hipótesis, a
nivel de significancia de 0.05, de que el nivel promedio de
actividad de fosfatasa alcalina en suero es el mismo para los
cuatro grupos anteriores.
Respuesta: Se rechaza H0 y se concluye que los niveles de
actividad promedio de fosfatasa alcalina del suero para los
cuatro grupos de medicamentos no son todos iguales. El
valor P es 0.02.

PROBLEMA 06 :
Parte del estudio “Serum Inorganic Phosphorus Levels in
Children with Seizure disorders Taking Anticonvulsant
Drugs”, que se llevó a cabo en la Virginia Polytechnic
Institute and State University en 1982, se diseñó para medir
los niveles de actividad de fosfatasa alcalina de suero
(unidades Bessey – Lowry) en niños que padecían ataques
convulsivos y quienes habían recibido terapia
anticonvulsionante bajo el cuidado de un especialista
privado. Se encontraron cuarenta y cinco sujetos para el
estudio y se clasificaron en cuatro grupos de acuerdo con la
medicina que se les proporcionó.

296
Métodos Estadísticos Varela/Llanos/Asnate

Nivel de actividad del suero fosfatado alcalino.


Grupo de medicamento
G-1 G-2 G-3 G-4
49.20 97.50 97.07 62.10 110.60
44.54 105.00 73.40 94.95 57.10
45.80 58.05 68.50 142.50 117.60
95.84 86.60 91.85 53.00 77.71
30.10 58.35 106.60 175.00 150.00
36.50 72.80 0.57 79.50 82.90
82.30 116.70 0.79 29.50 111.50
87.85 45.15 0.77 78.40
105.00 70.35 0.81 127.50
95.22 77.40

G-1 :Control (sin recibir anticonvulsionantes y sin


tener una historia de desórdenes de este tipo).
G-2 :Fenobarbital.
G-3 :Carbamazepina.
G-4 :Otros anticonvulsionante.

A partir de muestras sanguíneas obtenidas de cada sujeto se


determinaron los niveles de actividad de fosfatasa alcalina
del suero y se registraron en la tabla anterior. Utilice la
prueba de Bartlett para probar la hipótesis a nivel de
significancia de 0.01, de que las varianzas de la población
de los cuatro grupos son iguales.
Respuesta: Se acepta la hipótesis y se concluye que las
variancias poblacionales de los cuatro grupos son iguales.

PROBLEMA 07: DIFERENCIAS ENTRE k MEDIAS:


Se quiere comparar la acción de limpieza de tres detergentes
con base en las siguientes lecturas de blancura hechas de
quince prendas blancas, que primero se mancharon con tinta

297
Métodos Estadísticos Varela/Llanos/Asnate

y luego se lavaron en una máquina lavadora de agitación


con los detergentes respectivos:

Detergente A: 77 81 71 76 80
Detergente B: 72 58 74 66 70
Detergente C: 76 85 82 80 77

Las medias de estas tres muestras son 77, 68 y 80 y


querríamos saber si las diferencias entre éstas son
significativas o si se pueden atribuir al azar.
Elaborar una tabla de análisis de la varianza y probar con
una significancia de 0.01 si los tres detergentes son
igualmente efectivos o no.
Respuesta: Dado que F = 8.48 es mayor que 6.93, el valor
de F0.01 para 2 y 12 grados de libertad, se debe rechazar la
hipótesis nula de que los tres detergentes son igualmente
efectivos.

PROBLEMA 08 :
Un laboratorista quiere comparar la fuerza de ruptura de tres
clases de cuerda y originalmente había planificado repetir
cada determinación seis veces. No obstante al no contar con
el tiempo suficiente, debe basar su análisis en los resultados
siguientes (en onzas);
Cuerda 1: 18.0 16.4 15.7 19.6 16.5
18.2
Cuerda 2: 21.1 17.8 18.6 20.8 17.9
19.0
Cuerda 3: 16.5 17.8 16.1

Efectúe un análisis de varianza para probar, en el nivel de


significancia 0.05, si las diferencias entre las medias
muestrales son significatvas.

298
Métodos Estadísticos Varela/Llanos/Asnate

Respuesta: F=4.06 es mayor que 3.89, se debe rechazar la


hipótesis nula: en otras palabras, podemos concluir que hay
una diferencia en la resistencia de las tres clases de cuerda.

PROBLEMA 09 :
Se realiza un experimento para determinar el efecto de
cuatro sustancias químicas diferentes sobre la
resistencia de una tela. Las sustancias se emplean como
parte del proceso terminal de planchado permanente. Para
ello se escogen cinco muestras de tela y se aplica un diseño
aleatorizado por bloques completos mediante la prueba de
cada sustancia en un orden aleatorio sobre cada una de las
muestras de tela. Los datos aparecen en la tabla. Se probará
la diferencia en las medias utilizando para ello el análisis de
varianza con  = 0.01.

Muestra de tela Totales Promedio


por s por
Sustancia
tratamient tratamient
o o
1 2 3 4 5

1 1.3 1.6 0.5 1.2 1.1 5.7 1.14


2 2.2 2.4 0.4 2.0 1.8 8.8 1.76
3 1.8 1.7 0.6 1.5 1.3 6.9 1.38
4 3.9 4.4 2.0 4.1 3.4 17.8 3.56
Totales
10.
por 9.2 3.5 8.8 7.6 39.2(y..)
1
bloque
Promedio
s por 2.3 2.5 0.8 2.2 1.9
0 3 8 0 0
 
1.96 y..
bloque y

299
Métodos Estadísticos Varela/Llanos/Asnate

Respuesta: Puesto que f0 = 75.13 > f0.01,3,12 = 5.95 (el valor


P es 4.79 x 10-8), se concluye que existe una diferencia
significativa en las sustancias químicas en cuanto al efecto
que tienen sobre la resistencia promedio de la tela.

PROBLEMA 10:
En un número reciente de la revista Fortune se relata el
intento de un importante empresa de electrónica para
establecer un sistema que diera a los empleados la
oportunidad de calificar el rendimiento de sus supervisores
y otro personal directivo. Supongamos que se eligen al azar
a cinco empleados y se les pide que califiquen a cuatro de
sus directivos conforme a una escala de 10 a 50. los
resultados podrían ser los de la tabla siguiente:

Directivo (tratamiento)

Empleados 1 2 3 4 Xi
1 31 35 46 38 37.50
2 29 32 45 36 35.50
3 13 17 35 20 21.25
4 28 38 52 39 39.25
5 14 20 40 20 23.50

Xi 23 28.4 43.6 30.6

X  31.4

El director gerente de la empresa de electrónica quiere saber


si hay diferencia entre las calificaciones medias de los
cuatro directivos.
Respuesta: El valor 5.09 de la relación F es menor que el
valor crítico de 5.29 y, por tanto, el director no rechaza la
hipótesis nula y llega a la conclusión, con el 99% de

300
Métodos Estadísticos Varela/Llanos/Asnate

confianza, de que no hay diferencia significativa en las


calificaciones medias de los cuatro directivos.

PROBLEMA 11 :
En un experimento se quieren comparar las capacidades de
reproducción de frecuencias bajas de 4 recubrimientos de
cinta magnética, y se van a efectuar 5 observaciones de cada
uno. El experimento podría realizarse en un DCA,
simplemente obteniendo las 20 mediciones con la misma
máquina reproductora y aleatorizando el orden de las 20
observaciones. Nótese que aquí una unidad experimental
está definida por el orden de la observación. A pesar de lo
anterior el experimentador decir que es conveniente probar
los tratamientos bajo condiciones más diversas, y se
propone utilizar 5 diferentes grabadoras para el
experimento, utilizando cada grabadora como un bloque en
el que se probarán los 4 tratamientos (recubrimientos). El
propósito del experimento no es comparar las grabadoras,
las cuales han sido escogidas precisamente porque son de
diferentes calidades, sino comparar los 4 recubrimientos. En
este caso usar 4 grabadoras (bloques) distintas tiene el
único propósito de que las conclusiones del experimento
sean válidas bajo diversas condiciones. Se supone que el
uso de varias grabadoras no introducirá mayor error en el
diseño porque las frecuencias se compararán
exclusivamente dentro de cada bloque. Una vez realizadas
las 20 observaciones se obtiene los siguientes resultados.
Las respuestas son las frecuencias mínimas reproducidas
(en Hertz).

Bloque Tratamiento (recubrimiento) Y.j Y. j


(Grabadora) 1 2 3 4
1 20 10 30 22 82 20.50
2 30 20 39 26 115 28.75

301
Métodos Estadísticos Varela/Llanos/Asnate

3 32 19 37 27 115 28.75
4 18 9 26 23 76 19.00
5 26 18 29 20 93 23.25
Yi. 126 76 161 118 481
Y i. 25.2 15.2 32.2 23.6

Posteriormente completaremos el análisis de estos datos.


Por el momento se presentan con objeto de que el lector se
familiarice más con la estructura de los datos de un DBAC,
y para remarcar la idea de que el término  j es
indispensable en el modelo lineal para remover la
variabilidad debida al efecto de los bloques.
Respuesta: F0 > F12 3
,  para  = 0.10,  = 0.05 y  =
0.01, la conclusión es rechazar Ho con cualquier   0.01.
es decir, que al menos un recubrimiento tiene diferente
capacidad de reproducir frecuencias bajas que los demás
  0.01.
PROBLEMA 12 :
En un campo agrícola experimental se van a comparar 3
variedades de maíz, con 6 repeticiones para cada variedad, o
sea que se tienen 18 unidades experimentales (parcelas de
igual tamaño y forma en este caso). Una opción es realizar
el experimento con aleatorización irrestricta, pero el
investigador sabe que la fertilidad del suelo en el terreno
disponible es tan variable que los resultados de un
experimento con aleatorización irrestricta pueden
contaminarse por esa variabilidad. En cambio su
conocimiento del terreno le permite formar bloques de 3
unidades experimentales adyacentes dentro de los cuales la
fertilidad del suelo es más homogénea y, por lo tanto,
decide realizar un experimento en bloques aleatorizados
completos. En este caso t = 3 y b = 6.
302
Métodos Estadísticos Varela/Llanos/Asnate

Antes de continuar con el problema vale al pena mencionar


que experimentos como el descrito son los más frecuentes
en las ciencias agrícolas. De hecho la idea de bloqie se
originó en esta área experimental, con la lógica de que
unidades de terreno cercanas deben tener una fertilidad
similar, dando un criterio válido para el agrupamiento. Esta
idea no sólo es razonable, sino que es un excelente
problema de creatividad científica. Desafortunadamente,
planear experimentos con bloques se ha vuelto tan rutinario
en la investigación agrícola que el investigador raras veces
se detiene a pensar si el criterio de agrupación reduce la
variabilidad en grado suficiente para compensar la pérdida
de grados de libertad en el C. M. ERROR. Nótese que con
un DCA. En el ejemplo que estamos examinando, se
tendrían 15 grados de libertad para el error, mientras que en
el DBAC sólo se tienen 10. el mensaje que queremos enviar
es que realizar experimentos en bloques no es
necesariamente mejor que hacerlos con aleatorización
irrestricta.
Pero dejando de lado la digresión anterior, supongamos que
el experimento descrito se realizó en bloques aleatorizados
completos. En la siguiente tabla se presenta los resultados
de cálculos parciales necesarios para obtener las S.C. Los
números en la tabla son rendimientos en Kg x Ha.
Tratamiento Bloque (grupo de 3 unidades con Yi. Yi. 2
Y i.
(variedad) fertilidad similar)
1 2 3 4 5 6
1 2.3 2.9 3.1 3.4 3.0 2.0 16.7 2.78 278.89
2 2.1 2.7 3.5 3.6 2.9 2.5 17.3 2.88 299.29
3 1.9 3.1 3.6 3.5 3.1 2.4 17.6 2.93 309.76
Y.j 6.3 8.7 10.2 10.5 9.0 6.9 51.6 887.94
Y. j 2.1 2.9 3.4 3.5 3.0 2.3

303
Métodos Estadísticos Varela/Llanos/Asnate

Y.2j 39.69 75.69 104.04 110.25 81.00 47.61 458.28


t
2 13.31 25.31 34.82 36.77 27.02 16.01 t b
 Yij 2
  Yij =
i 1 i 1 j1
153.24

2
Respuesta: F0 con F10 ,0.10 = 2.9245. Puesto que F0 <
2.9245, la conclusión es que con un nivel de significancia
de 0.10 las 3 variedades de maíz tienen el mismo
rendimiento.

PROBLEMA 13:
Para el ensamble de un artículo en particular se están
considerando cuatro máquinas diferentes, M1, M2, M3 y M4.
Se decide que deben utilizarse seis operadores diferentes en
un experimento de bloques aleatorizado para comparar las
máquinas. Las máquinas se asignan a cada operador en un
orden aleatorio. La operación de las máquinas requiere
determinada destreza física y se anticipa que habrá una
diferencia entre los operarios en cuanto a la velocidad con la
cual operarán la maquinaria. Se registraron los siguientes
tiempos, en segundos, para el ensamble del producto
determinado.

Operador 1 M2 M4 M3 M1
39.8 41.3 40.2 42.5

Operador 2 M3 M1 M2 M4
40.5 39.3 40.1 42.2

Operador 3 M2 M1 M4 M3
40.5 39.6 43.5 41.3

304
Métodos Estadísticos Varela/Llanos/Asnate

Operador 4 M4 M2 M1 M3
44.2 42.3 39.9 43.4

Operador 5 M1 M3 M2 M4
42.9 44.9 42.5 45.9

Operador 6 M2 M4 M3 M1
43.1 42.3 45.1 43.6

Tiempo en segundos para el ensamble del producto.


Operador
Máqui 1 2 3 4 5 6 Total
na
42.5 39.3 39.6 39.9 42.9 43.6 247.8
39.8 40.1 40.5 42.3 42.5 43.1 248.3
40.2 40.5 41.3 43.4 44.9 45.1 255.4
41.3 42.2 43.5 44.2 45.9 42.3 259.4
Total 163. 162.1 164.9 169.8 174.1
8 176.2 010.9

Pruebe la hipótesis H’0, a nivel de significancia de 0.05, de


que las máquinas llevan a cabo la tarea a la misma
velocidad promedio.
Respuesta: Se rechaza H0 y se concluye que las máquinas
no se comportan a la misma velocidad promedio. El valor P
es ligeramente inferior a 0.05.

305
Métodos Estadísticos Varela/Llanos/Asnate

PROBLEMA 14:
En relación con los datos, específicamente,
GPA GPA GPA
Bajo típico Alto
71 92 89
Escuela A
Escuela B 44 51 85
Escuela C
50 64 72
Escuela D
67 81 86

Pruebe en el nivel de significancia 0.05 si las diferencias


entre las medias obtenidas para las cuatro escuelas
(tratamientos) son significativas y también si las diferencias
entre las medias obtenidas para los tres niveles de GPA
(bloques) son significativas.
Respuesta: F = 6.21 es mayor que 4.76, se debe rechazar l
hipótesis nula; en el caso de los bloques, puesto que F =
9.28 excede de 5.14, se debe rechazar la hipótesis nula. En
otras palabras, concluimos que la lectura de comprensión
promedio de los estudiantes de octavo grado no es la misma
para las cuatro escuelas y también que no es la misma para
los tres niveles de GPA.

306
Métodos Estadísticos Varela/Llanos/Asnate

CAPITULO IV
PRUEBAS NO PARAMETRICAS

INTRODUCCION
La estadística no paramétrica en contraste con la
estadística paramétrica no se ocupa de hacer estimaciones y
pruebas de hipótesis acerca de parámetros y no depende del
conocimiento de cómo se distribuye la población.

Así pues las Pruebas No Paramétricas son ciertos


métodos de análisis estadístico que no dependen del
conocimiento de la distribución de la población y que
prueban hipótesis que no son afirmaciones sobre parámetros
de la población. Las pruebas No Paramétricas se denominan
también test de distribución libre.

De esto se deduce que los métodos no paramétricos


son convenientes si no se conoce la distribución de la
población. Por ejemplo: Conocer si hay aleatoriedad en la
recopilación de la información para un trabajo de
investigación. En general es comúnmente usado en muestras
pequeñas.

En investigación exploratoria más aun. Otra ventaja


es que por lo general. Los cálculos necesarios son más
sencillos. Sin embargo no podemos esperar que en el caso
de una cierta distribución. la cantidad de información dada
307
Métodos Estadísticos Varela/Llanos/Asnate

por un método no parametrito sea la misma que daría un


método paramétrico que solo se aplica a esta distribución
específica. Es decir. Si se conoce que la distribución es
normal.
 Si una prueba paramétrica es más eficiente que una
no paramétrica.
 Los métodos no paramétricos pueden ser usados
para análisis de datos cualitativos (ordinales.
jerarquizados) o nominales. así como también para
datos cuantitativos. mientras que los paramétricos
solo se emplean para datos cuantitativos (discretas y
continuas).

1. DISTRIBUCIÓN JI-CUADRADO (  2 )
Es necesario comentar la distribución Ji-
cuadrada para el uso de la prueba Ji-Cuadrado. En
realidad la distribución ji-cuadrada es la distribución
muestral de s2. O sea que si se extraen todas las
muestras posibles de una población normal y a cada
muestra se le calcula su varianza. Se obtendrá la
distribución muestral de varianzas. Para estimar la
varianza poblacional o la desviación estándar. Se
necesita conocer el estadístico  2 . Si se elige una
muestra de tamaño n de una población normal con
varianza  2 .

2

 n  1 s 2
El estadístico: X tiene una
2
distribución muestral que es una distribución ji-

308
Métodos Estadísticos Varela/Llanos/Asnate

cuadrada con g .l.  n  1 grados de libertad y se


denota  2 .

El estadístico ji-cuadrada esta dado por:

X 2

 n  1 s 2
donde n es el tamaño de la muestra.
2
s2 la varianza muestral y  2 la varianza de la
población de donde se extrajo la muestra. El
estadístico ji-cuadrada también se puede dar con la

  x  x
2

siguiente expresión: X 2

2

Propiedades de las distribuciones ji-cuadrada

1. Los valores de  2 son mayores o iguales que


0.
2. La forma de una distribución  2 depende de
g .l.  n  1 . En consecuencia. hay un
número infinito de distribuciones  2 .
3. El área bajo una curva ji-cuadrada y sobre el
eje horizontal es 1.
4. Las distribuciones no son simétricas. Tienen
colas estrechas que se extienden a la derecha;
esto es. están sesgadas a la derecha.
5. Cuando n  2 . la media de una distribución
 2 es n-1 y la varianza es 2(n  1) .

309
Métodos Estadísticos Varela/Llanos/Asnate

6. El valor modal de una distribución  2 se da


en el valor ( n  3) .
7.

El siguiente grafico ilustra la distribución  2 .

Grafico Nº 1

La función de densidad de la distribución


esta dada por:

1 v 1  x
f ( x)  x 2
e 2

 2
v
2 2 v

Para x  0 v  0

310
Métodos Estadísticos Varela/Llanos/Asnate

1.1. USOS DE LA PRUEBA JI-CUADRADO


1.1.1. PRUEBA DE BONDAD DE AJUSTE
En las aplicaciones de una sola muestra en una varia-
ble. La prueba se conoce como la técnica de "bondad de
ajuste" y está enfocada a probar si una variable tiene una
distribución determinada. De ahí el nombre de "bondad de
ajuste" de las frecuencias observadas y las esperadas. La
 2 en este caso se usa con la finalidad de contrastar si una
distribución muestral se ajusta o no a una distribución
teórica o hipotética.

Ejemplo:

Númer
o de 0 1 2 3 4 5 Total
caras
Númer
o de 38 144 342 287 164 25 1000
series

Una moneda fue lanzada al aire 1000 series. de 5 veces


cada serie y se observó el número de caras de cada serie.
El número de series en los que se presentaron 0. 1. 2. 3. 4
y 5 caras se muestra en la siguiente tabla. ¿Se ajustara a
una distribución binomial los datos con un   0, 05 ?

Solución:

311
Métodos Estadísticos Varela/Llanos/Asnate

1. Planteamiento de las Hipótesis:

Hº : Los datos se ajustan a una distribución


binomial.

H1 : Los datos no se ajustan a una distribución


binomial.

2. Nivel de significancia:

  0, 05

3. Estadística de Prueba:

k
(oi - ei )2
Se usa la prueba Ji-cuadrada. x 2 = 
i=1 ei

4. Muestra:

Para obtener los valores esperados se tiene que utilizar


la formula de la distribución binomial: P( x  k )  Ckn p k q n k
donde n en este ejercicio vale 5. p y q son las
probabilidades respectivas de cara y sello en un solo
lanzamiento de la moneda. Para calcular el valor de p. se
sabe que   np en una distribución binomial. Por lo que
  5 p Para la distribución de frecuencias observada. la
media del número de caras es:

312
Métodos Estadísticos Varela/Llanos/Asnate

38*0  144*1  342* 2  287 *3  164* 4  25*5


  2, 47
1000

2, 47
Por lo tanto p  0, 494 . Así pues. La
5
distribución binomial ajustada viene dada por
P( x  k )  Ck5 (0, 494) k (0,506) n  k .

Al seguir esta fórmula se calcula la probabilidad de


obtener caras. Según el valor de la variable aleatoria.

La probabilidad multiplicada por 1000 nos dará el


valor esperado. Se resumen los resultados en la tabla
siguiente:

Número
de P(x= Frecuencia Frecuencia
caras caras) esperada observada
(x)
0 0.0332 33.2 38
1 0.1619 161.9 144
2 0.3162 316.2 342
3 0.3087 308.7 287
4 0.1507 150.7 164
5 0.0294 29.4 25

Para los grados de libertad el valor de m será uno. Ya


que se tuvo que estimar la media de la población para poder

313
Métodos Estadísticos Varela/Llanos/Asnate

obtener el valor de p y así poder calcular los valores


esperados.

5. Regla de decisión:

Entonces

k
(oi - ei )2 (38  33, 2)2 (25  29, 4) 2
x2 =    ...   7,54
i=1 ei 33, 2 29, 4

Grados de libertad: k  1  m  6  1  1  4

Si X R2  9.49 no se rechaza H º

Si X R2  9.49 se rechaza H º

6. Conclusión:

314
Métodos Estadísticos Varela/Llanos/Asnate

Como el 7.54 no es mayor a 9.49. no se rechaza H º y


se concluye con un   0, 05 que el ajuste de los datos a una
distribución binomial es bueno.

1.1.2. PRUEBA DE INDEPENDENCIA


En la Ciencias Sociales los investigadores se
enfrentan con datos que se clasifican según dos o más
variables cualitativas, podemos usar pruebas de
independencia para determinar si las variables son
estadísticamente independientes. Se dice que dos variables
de clasificación son independientes si la distribución de uno
de las variables es la misma, Sin importar cual sea la
distribución de la otra variables. Por ejemplo, si deseamos
investigar si el sexo y el habito de fumar son
independientes, o si deseamos verifica relación o asociación
entre el tabaco y la hipertensión arterial.
TABLAS DE CONTINGENCIA s x r
La clasificación de acuerdo con dos variables de un
conjunto de entes puede mostrarse mediante una tabla en la
cual las s filas representan las diversas categorias de una de
las variables de clasificación y las r columnas representan
los diversos niveles de la segunda variable. Una tabla de
este tipo generalmente recibe el nombre de Tabla de
Contingencia. En la siguiente tabla se muestra la
clasificación de una población finita de acuerdo con dos
variables.

Segunda Variable Categorias


315
Métodos Estadísticos Varela/Llanos/Asnate

Col. Col. Col. ... Col. Tot


1 2 3 . r al
...
Fila 1 f 11 f 12 f 13 . f 1r F1
...
Fila 2 f 21 f 22 f 23 . f 2r F2
...
Fila 3 f 31 f 32 f 33 . f 3r F3
Primera Variable
Categorias

... ...
.... .... .... .... ....
. .

... ...
.... .... .... .... ....
. .
...
Fila s f s1 f s1 f s1 . f sr Fs
...
Total C1 C2 C3 . Cr n

Se probará la hipótesis nula de que, en la población (o


muestra) las dos variables de clasificación son
independientes. Si se rechaza la hipótesis nula se
concluye que los dos criterios de clasificación no son
independientes. Los valores de 2 dados, son
distribuidos aproximadamente como 2 con g.l = (s –
1) (r – 1), donde s es el número de categorías de la
primera variable y c es el número de categorías de la
segunda variable en la tabla de contingencia.

316
Métodos Estadísticos Varela/Llanos/Asnate

Para encontrar la frecuencia esperada para cada


celdilla Eij , se multiplican los dos totales marginales
comunes de una celdilla particular y se divide este
producto por número total de casos.
Ejemplo:
En la siguiente tabla se dan los resultados
obtenidos por 435 estudiantes en Estadística y
Matemática. Contraste la hipótesis de que los
resultados obtenidos en Estadística son
independientes de los resultados obtenidos en
Matemática, al nivel de 5%.
Estadística
Matemática [14- Total
[0-10> [10-14>
20]
[0-10> 70 40 15 125
[10-14> 30 130 25 185
[14-20] 15 60 50 125
Total 115 230 90 435

Solución:

1. Planteamiento de las Hipótesis:

Hº : Los resultados obtenidos en Estadística y


Matemática son independientes.
H1 : Los resultados obtenidos en Estadística y
Matemática están relacionados.
317
Métodos Estadísticos Varela/Llanos/Asnate

2. Nivel de significancia:

  5%

3. Estadística de Prueba:

s r (oij - eij )2
Se usa la prueba Ji-cuadrada. x 2 = 
i=1 j=1 eij

4. Muestra:

Necesitamos calcular las frecuencias esperadas así


tenemos:

125* 230
- e11  125*115  33,05 , e12   60, 09 ,
435 435
125*90
e13   25,86
435

- e21  185*115  48,91 , e22 


185*230
 97,82 ,
435 435
185*90
e23   38,28
435

- e31  125*115  33, 05 , e32 


125* 230
 60, 09 ,
435 435
125*90
e33   25,86
435

Así se puede formar la siguiente tabla de contingencia


3 3 .

318
Métodos Estadísticos Varela/Llanos/Asnate

5. Regla de decisión:

De esa manera tendriamos la tabla de frecuencias


esperadas y observadas:

Estadística
Matemática Total
[0-10> [10-14> [14-20]
70 40 15
125
[0-10> (33,05) (60,09) (25,86)
30 130 25
185
[10-14> (48,91) (97,82) (38,28)
15 60 50
125
[14-20] (33,05) (60,09) (25,86)

115 230 90 435


Total

Entonces:

3 3 (oij - eij )2 ( 70 - 33, 05 )2 ( 50 - 25,86 )2


x 2 =    ...   111,63
i=1 j=1 eij 33, 05 25,86

Buscando en la tabla con


g.l.  ( s  1)( r  1)  (3  1)(3  1)  4 y Para  = 0.05 se
encuentra X R2  9.49 entonces

Si X R2  9.49 no se rechaza H º

319
Métodos Estadísticos Varela/Llanos/Asnate

Si X R2  9.49 se rechaza H º

5. Conclusión:

Como  2  111,63  9.49 se rechaza H º , y se concluye


con una confianza de 95% que los resultados obtenidos en
Estadística y Matemática son dependientes.
En Minitab:

320
Métodos Estadísticos Varela/Llanos/Asnate

321
Métodos Estadísticos Varela/Llanos/Asnate

322
Métodos Estadísticos Varela/Llanos/Asnate

1.1.3. PRUEBA DE HOMOGENIEDAD

La prueba de la  2 de Pearson se utiliza también para


contrastar la homogeneidad de varias muestras, es decir, si
varias muestras pueden ser consideradas como
seleccionadas de una misma población. Supongamos que se
toman muestras aleatoria de tamaño n1, ..., nk de k
diferentes poblaciones y que cada observación de cada
muestra es clasificado en diferentes grupos.

Ejemplo:

Se decide seleccionar a 200 estudiantes de Ciencias, a


150 de Derecho y a 150 de otras facultades de los
votantes del Municipio de Huaraz y se les clasifica
respecto a su opinión sobre una ley del aborto. Las
respuestas se muestran en la siguiente tabla.
¿Contrastar si existe homogeniedad en sus respuestas
con una seguridad de 95%?

Otras
Ley del Ciencia Derech Tota
facultade
Aborto s o l
s
A
82 70 62 214
favor
En
93 62 67 222
contra

323
Métodos Estadísticos Varela/Llanos/Asnate

Sin
decisió 25 18 21 64
n
Total 200 150 150 500

Solución:

1. Planteamiento de las Hipótesis:

H º : Para cada opinión, las proporciones de estudiantes


son las mismas.

H 1 : Para cuando menos una opinión, las proporciones


de estudiantes no son las mismas.

2. Nivel de significancia:

  5%

3. Estadística de Prueba:

Se usa la prueba Ji-cuadrada.

s r (oij - eij )2
x = 
2

i=1 j=1 eij

4. Muestra:

Necesitamos calcular las frecuencias esperadas así tenemos:

324
Métodos Estadísticos Varela/Llanos/Asnate

 214*200 214*150 214*150


e11   85,6 e12   64,2 , e13   64, 2
500 500 500

222*200 222*150 222*150


 e21   88,8 e22   66,6 , e23   66,6
500 500 500

64*150
 e31 
64*200
 25,6 e32 
64*150
 19,2 , e33   19,2
500 500 500

Así se puede formar la siguiente tabla de contingencia 3 *


3.

5. Regla de decisión:

De esa manera tendriamos la tabla de frecuencias esperadas


y observadas

Otras
Ley del Tota
Ciencias Derecho facultade
Aborto l
s
A favor 82 (85,6) 70 (64,2) 62 (64,2) 214
En contra 93 (88,8) 62 (66,6) 67 (66,6) 222
Sin
25 (25,6) 18 (19,2) 21 (19,2) 64
decisión
Total 200 150 150 500

Entonces:
3 3 (o - e )2
( 82 - 85,6 )2 ( 21 - 19,2 )2
x =    ...   1,53
2 ij ij

i=1 j=1 eij 85,6 19,2

325
Métodos Estadísticos Varela/Llanos/Asnate

Buscando en la tabla con GL = (s - 1) (r - 1) = (3 -1) (3 -1)


= 4 y Para  = 0.05 se encuentra X2R = 9,49, entonces

Si X R2  9.49 no se rechaza H º

Si X R2  9.49 se rechaza H º

6. Conclusión:

Como  2  1,33  9.49 ,49 No se rechaza Ho, y se concluye


con una confianza de 95% que para cada opinión, las
proporciones de estudiantes son las mismas.

326
Métodos Estadísticos Varela/Llanos/Asnate

327
Métodos Estadísticos Varela/Llanos/Asnate

1.1.4. PRUEBA BINOMIAL

Esta prueba se emplea cuando los resultados del


experimento se expresan en forma dicotómica. Los dos
tipos de resultados se pueden clasificar en “éxito” o
“fracaso” y aplicar la fórmula de la probabilidad binomial
para poder calcular la probabilidad de ocurrencia de la
hipótesis nula formulada. Comparando esta probabilidad
B x con el nivel de significación adoptado  por el
investigador para el experimento, se procede a tomar la
decisión de acuerdo con uno de los dos casos posibles
siguientes:

328
Métodos Estadísticos Varela/Llanos/Asnate

 Si B x <  se rechaza la Ho, porque significa que la


probabilidad de que ocurra esta hipótesis es muy baja,
comparada con el nivel de significación adoptado para la
validación.

 Si ocurre lo contrario y resulta B x >  , entonces no


hay evidencia significativa como para rechazarla. Esto es
especialmente útil para muestras pequeñas porque da la
probabilidad exacta de la ocurrencia de los sucesos.

Cuando las muestras sean grandes es muy práctico usar la


aproximación de la binomial con la normal. Una muestra se
considera grande si n > 25. Hay tres maneras de resolver un
problema de acuerdo con su tamaño muestral.

Ejemplo:

En una maternidad ocurrieron 18 nacimientos en una


semana, 11 de los cuales fueron varones. La hipótesis de
trabajo es que la proporción de sexos es la habitual. Se
pide efectuar la prueba de H 0 con un nivel de
significancia del 0,05.

Solución:

1. Planteamiento de las Hipótesis:

H 0 : PM  PF  0,5
H1 : PM  PF  0,5

329
Métodos Estadísticos Varela/Llanos/Asnate

2. Nivel de significacincia:

  5%

3. Estadística de Prueba:

Distribución Binomial

4. Muestra:

Como n es menor que 25 y las probabilidades son


aproximadamente iguales, entonces es más practico usar la
Tabla binomial. Para un tamaño muestral n = 18 y para la
frecuencia menor x = 7, resulta un valor de probabilidad
Bx  0.24 , es decir:

7
Bx   Ci7 (0, 5)i (0, 5)15i  0, 24
i 0

5. Regla de decisión:

Si B x   se rechaza la H º

Si B x   No se rechaza la H º

6. Conclusión:

330
Métodos Estadísticos Varela/Llanos/Asnate

Entonces podemos concluir que no hay razón suficiente


para rechazar H 0 ; Por lo tanto, No hay evidencia
significativa que pruebe que la proporción de sexos no es la
habitual.
En Minitab:

331
Métodos Estadísticos Varela/Llanos/Asnate

332
Métodos Estadísticos Varela/Llanos/Asnate

1.1.5. PRUEBA DEL SIGNO DE LA MEDIANA


PARA UNA MUESTRA:

Sabemos que la media µ es una medida de tendencia


central de una distribución, en particular si la distribución es
simétrica o casi simétrica. Si no especificamos la
distribución, la media perderá en muchos casos algunos de
sus atractivos y puede preferirse la mediana Md como
medida de tendencia central.

Como sabemos. la distribución T es usada para probar


la hipótesis nula de que una media de la población es igual a
un cierto valor ( H º :    º ) o la hipótesis nula de que la
diferencia de medias de 2 poblaciones es cero (
H º :    º  0 ) en el supuesto de que las poblaciones estén
distribuidas normalmente.

 Cuando los datos no son de tipo cuantitativo sino de


tipo nominal o jerarquizad. una prueba alternativa debe
emplearse. Aunque sabemos la prueba t - student no es
demasiado sensible a la no normalidad de la población hay
ocasiones en que una prueba alternativa es deseada.

 Una prueba no parametrica que no requiere de


normalidad ni que los datos sean de tipo cuantitativo es la
prueba del signo para la mediana y su única suposición es
que la distribución sea continua

333
Métodos Estadísticos Varela/Llanos/Asnate

El nombre de prueba del signo se debe a que toma en cuenta


los signos positivos y negativos en vez de valores de
números de los datos.

Ahora describiremos una prueba muy sencilla de hipótesis


de que la mediana Md tiene un cierto valor Mdo . Esto es:

H º : Md  Mdo
H 1 : Md  Mdo
Ejemplo:

1. Supóngase que en una escuela de educación


especial para débiles mentales. 10 niñas fueron
seleccionadas al azar y se les dio instrucciones acerca del
arreglo personal. Después de dos semanas de instrucción
se entrevistaron a las chicas y se les asigno un valor
entre 0 y 10 de acuerdo a su apariencia general. Los
datos se muestran en la tabla:

NIÑA 1 2 3 4 5 6 7 8 9 10
CALIFICACI 1
4 5 8 8 9 6 7 6 6
ON 0

Como primer paso para probar dicha hipótesis. Examinamos


la tabla y vemos que calificaciones están por arriba y por
debajo del valor hipotético 5 y le asignamos un signo (+) a
las que están por arriba de signo (-) a los que están por
debajo.

Tabla:
334
Métodos Estadísticos Varela/Llanos/Asnate

NIÑA 1 2 3 4 5 6 7 8 9 10
SIGNO - 0 + + + + + + + +

Si la hipótesis nula fuera cierta se esperaría que el numero


de signos + y – fuesen aprox. Iguales. Esto sugiere otra
forma de establecer la hipótesis. es decir, que la
probabilidad de un signo “mas” debe ser igual a la
probabilidad de un signo menos. Esto es:

H º : P()  P()  0.50

Si vemos la tabla. Vemos que hay un predominio de signos


(+). Exactamente 8 de ellos. Un signo (-) y un cero.
Usualmente en pruebas de este tipo los ceros se eliminan y
se disminuye el tamaño de muestra n. en este caso se reduce
a 9 observaciones.

Como los signos solo son 2 (+.-). la distribución de ellos


sigue una distribución binomial donde podemos considerar
“éxito” el signo menos y fracaso el signo mas o viceversa.
Puesto que en nuestro ejemplo hay menos signos – que
(+). Seleccionamos a x como el numero de signos (-) que
pueden suceder en las n=9 observaciones. Entonces x es una
variable aleatoria binomial con parámetro ‫= ח‬0.5. Si la
hipótesis nula es cierta. la hipótesis nula se rechazará si el
valor de x es demasiado pequeño o demasiado grande.

Por ejemplo:

Cuando n= 9
335
Métodos Estadísticos Varela/Llanos/Asnate

p ( x  1)  0.0195
y
p ( x  8)  0.0195

Y podemos tomar x ≤ 1 y x ≥ 8 como región de rechazo.

Puesto que p( x  1)  0.0195  0.025   2 y


p( x  8)  0.0195  0.025 rechazamos H º y concluimos
que la mediana no puede ser 5

En Minitab:

336
Métodos Estadísticos Varela/Llanos/Asnate

337
Métodos Estadísticos Varela/Llanos/Asnate

1.1.6. PRUEBA DEL SIGNO DE LA MEDIANA


PARA 2 MUESTRAS APAREADAS:

Cuando los datos a analizar son apareadas y las


suposiciones del primer caso. No se cumplen para usar la
prueba t de student o si los datos no son de tipo cuantitativo.
La prueba del signo puede ser usada para probar la hipótesis
de la diferencia de medianas es cero o que:

P( xi  yi )  P( xi  yi )  P( xi  yi )  0.5

Para un par de datos cualesquiera la diferencia xi  yi


pueden ser + o – dependiendo si xi es mayor o menor que
yi . Si la diferencia de medianas es cero.

338
Métodos Estadísticos Varela/Llanos/Asnate

Esperamos que las probabilidades de un + o – sean


aproximadamente iguales. Entonces P()  P()  0.5

Ejemplo:

12 parejas de .pacientes de una clínica dental fueron


cuidadosamente seleccionados de manera que los
elementos de cada pareja tuvieran la misma edad, sexo,
inteligencia e igual puntuación en higiene oral al inicio
del tratamiento. A un miembro de cada par se le da
instrucciones de cómo cepillarse y al otro no. Después
de 6 meses los 24 sujetos fueron examinados por un
higienista y se le dio una calificación en higiene oral. Sin
que el higienista supiera cuales elementos habían tenido
instrucción y cuales no.

Una puntuación baja indica un nivel alto de higiene. Los


datos se dan:

Pareja 1 2 3 4 5 6 7 8 9 10 11 12
Con xi 1.5 2.0 3.5 3.0 3.5 2.5 2.0 1.5 1.5 2.0 3.0 2.0
Sin yi 2.0 2.0 4.0 2.5 4.0 3.0 3.5 3.0 2.5 2.5 2.5 2.5
Signo de
la
diferencia - 0 - + - - - - - - + -
xi  y i

339
Métodos Estadísticos Varela/Llanos/Asnate

El investigador desea saber si la instrucción produjo un


efecto benéfico o no. si la instrucción tuvo efecto la
diferencia de medianas debería ser negativa

H º : Md x  Md y  0
H a : Md x  Md y  0

Usamos ά = 0.05 y después de eliminar el cero. Hay 2


signos + y 9 signos – por que n  11

Puesto que los signos – causaran el rechazo de H º


queremos saber la probabilidad que haya 9 o mas signos
() en un total 11. Entonces, si elegimos x la variable que
cuenta el nº de signos (-) tenemos que:

P( x  9)  0.0327 de la tabla como 0.0327< 0.05 se


rechaza H º y concluimos que la diferencia de medianas es
negativa y por lo tanto la instrucción es benéfica.

En Minitab:

340
Métodos Estadísticos Varela/Llanos/Asnate

341
Métodos Estadísticos Varela/Llanos/Asnate

342
Métodos Estadísticos Varela/Llanos/Asnate

1.1.7. PRUEBA DE LA MEDIANA PARA


MUESTRAS INDEPEDIENTES:

Para probar hipótesis acerca de dos medias de la


población con muestras independientes. Empleamos las
distribuciones z o t (dependiendo si las variables
poblacionales son conocidas o desconocidas) cuando se
cumplen las condiciones para estas pruebas paramétricas.
Una prueba no paramétrica para el caso de muestras
independientes usando las medianas en vez de las medias
fue desarrollada por Mood.

Esta prueba se puede usar cuando se cumplen las siguientes


suposiciones:

a. Las muestras son seleccionadas en forma aleatoria


de sus respectivas poblaciones.

b. Las poblaciones tienen la misma forma y difieren


solamente en una traslación.

c. Los datos deben ser de tipo jerarquizado de cuanto


menos.

d. Las dos muestras pueden ser de diferente tamaño.

Ejemplo:

A sendas muestras aleatorias de 12 estudiantes varones


de una escuela preparatoria rural y a 16 varones de una
escuela de preparatoria urbana se les aplicó un test para
343
Métodos Estadísticos Varela/Llanos/Asnate

medir su “madurez mental” los resultados se resumen


en la tabla:

Valores del test de madurez mental aplicado a varones de


preparatoria rural y urbana.

URBANA RURAL
35 25 29 50
26 27 50 37
27 45 43 34
21 33 22 31
27 26 42
38 46 47
23 41 42
25 32

Deseamos saber si hay diferencia significativa entre las


medianas para las medias de la madurez de los varones de
zonas rurales y urbanas con un nivel de significación de
ά=0.05.

- El primer paso en este procedimiento es hallar la


mediana combinada de las muestras para lo cual debemos
colocar los datos en orden ascendente o descendente y como
el número combinado de datos: n1  n2 (12  16  28)
es par. La mediana es la media aritmética de los dos datos
centrales. Esto es:

M d  33  34 / 2  33.5

344
Métodos Estadísticos Varela/Llanos/Asnate

Datos del ejemplo en orden ascendente:

21 27 34 43
22 27 35 45
23 27 37 46
25 29 38 46
25 31 41 47
26 32 42 50
26 33 42 50

- Ahora calculamos para cada muestra el número de


observaciones que están por debajo y por encima de la
mediana combinada y estas frecuencias se arreglan en una
tabla de contingencia de 2x2, como se muestra en el cuadro:

Urbana Rural Total

Nº de datos por
encima de la 6 8 14
mediana
Nº de datos por
debajo de la 10 4 14
mediana

16 12 28

345
Métodos Estadísticos Varela/Llanos/Asnate

Aplicando la formula de yates para tablas de contingencias


de 2x2.

x 2Y  n ad  bc  n 2  /( a  b)(c  d )( a  c)(b  d )
2

Con un grado de libertad


x 2Y  28 6 * 4  8 * 4  28 2 /(14)(14)(16)(12)  1.3125
2

GENERALIZACION DE LA PRUEBA DE LA
MEDIANA
La prueba de la mediana puede generalizarse usando
cualquier numero fijo de percentiles de los datos
combinados en lugar de la mediana solamente los números
de cada muestra que caen entre percentiles combinados se
anotan en una tabla y luego se analizan como en una tabla
de contingencia. La hipótesis de que las K muestras se han
sacado aleatoriamente de poblaciones con distribuciones
iguales se rechaza si la x² observada es significativamente
mayor que la teórica. En este problema el numero de grados
de libertad es (k -1) (r-1). Siendo el número de categorías
usado.
Por ejemplo la siguiente tabla contiene para tres muestras (k
= 3) de tamaño 20 c/u. el numero de observaciones por
encima de p75 . Entre p50 y p75 y por debajo de p 25 .
El estadígrafo de prueba de x² tiene (3  1)( 4  1)  6 grados
de libertad. Las frecuencias esperadas para este ejemplo son
todas iguales a:

346
Métodos Estadísticos Varela/Llanos/Asnate

Frec. 1 2 3 Total
O 5 7 3
> p75 15
E 15*20/6=5 5 5
O 3 3 9
p50 y p75 15
E 5 5 5
O 4 7 4
p 25 y p50 15
E 5 5 5
O 8 3 4
< p 25 15
E 5 5 5
O 20 20 20 60
Total
E 20 20 20 60

El valor calculado de x 2 es 10,4. El valor teórico es x 2


con 95,6 glx 2  11,07 como el valor calculado es menor que
el valor teórico. No se rechaza la hipótesis al 5% de
significación y concluimos que las muestras fueron sacadas
aleatoriamente de poblaciones con distribuciones
significativamente iguales.

1.1.8 PRUEBA DEL RANGO CON SIGNO DE


WILCOXON PARA MUESTRAS APAREADAS

Esta prueba nos permite comparar nuestros datos con una


mediana teórica (por ejemplo un valor publicado en un
artículo)

347
Métodos Estadísticos Varela/Llanos/Asnate

Llamemos M o a la mediana frente a la que vamos a


contrastar nuestros datos. Y sea x1 , x2 ...xn los valores
observados. Se calcula las diferencias
x1  M o , x2  M o ...xn  M o .Si la hipótesis nula fuera cierta
estas diferencias se distribuirán de forma simétrica en forma
o entrono a cero.

Para efectuar esta prueba se calculan las diferencias en valor


absoluto xi  M o y se ordenan de menor a mayor.
Asignándoles su rango (nº de orden). Si hubiera dos o mas
diferencias con igual valor (empates) se les asigna el rango
medio (es decir que si tenemos un empate en las posiciones
2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos
R  la suma de todos los rangos de las diferencias
positivas, aquellas en las que xi es mayor que M o y R 
la suma de todos los rangos correspondientes a las
diferencias negativas.

Si la hipótesis nula es cierta, ambos estadísticos


deberán ser parecidas mientras que si nuestro datos siguen a
ser más altos que la mediana M o . Se reflejara en un valor
mayor R  .,y al contrario si son mas bajos.

Se trata de contrastar si la menor de las sumas de


rangos es excesivamente pequeña para ser atribuida al azar.
o lo que es equivalente. si la mayor de las dos sumas de
rangos es excesivamente grande.

348
Métodos Estadísticos Varela/Llanos/Asnate

El mismo razonamiento la podemos aplicar cuando tenemos


una muestra de parejas de valores. Por ejemplo:

Antes y después del tratamiento, que podemos denominar


( x1  y1 ).( x2  y 2 )...( xn  y n ) . De la misma forma ahora
calcularemos las diferencias: ( x1  y1 ).( x2  y 2 )...( xn  y n ) ,
y las ordenaremos en valor absoluto, asignándoles el rango
correspondiente. Calculamos R  la suma de rangos
positivos (cuando xi es mayor que yi ), y la suma de rangos
negativos R  . Ahora la hipótesis nula es que esas
diferencias proceden de una distribución simétrica en torno
a cero y si fue cierta los valores de R  y R  serán
parecidos

1.1.9 PRUEBA DE U MANN – WHITNEY

La prueba de U de Mann Whitney esta diseñada para


determinar si dos muestras se han obtenido de la misma
población esta prueba se usa con alternativa para encontrar
si dos muestras independientes proceden de poblaciones
simétricas que tienen la misma media o mediana. La prueba
se usa cuando no se puede verificar la suposición de 2
poblaciones normales con varianzas iguales. Los datos
deben estar medidos al menos en una escala ordinal,
haciendo que esta prueba sea útil para datos ordinales o
categóricos.

El procedimiento de rangos a los datos como si los


valores en ambas muestras pertenecieran todos a un solo
349
Métodos Estadísticos Varela/Llanos/Asnate

grupo. El valor más pequeño se asigna al rango 1, el


siguiente rango más pequeño al rango 2...... sin importar a
que muestra pertenece el elemento. si las medias de 2
poblaciones son iguales, los rangos altos y bajos deben
tener una distribución bastante pareja en las dos muestras.
Si las medias no son iguales, una muestra tenderá a tener
rangos más altos o más bajos que la otra.

El análisis se concentra en la suma de los rangos de una


de las muestras y la compara con la suma que se esperaría
si las medias de la población fueran iguales.

Para muestra combinada de 20 o menos. se usan tablas


especiales para probar la hipótesis nula de los 2 grupos;
estas tablas se hallan en libros especializados en métodos no
paramétricos.

Si la muestra combinada es mayor que 20, se ha


demostrado que la curva normal es una buena aproximación
de la distribución muestral. Esta curva normal tiene
parámetros.

350
Métodos Estadísticos Varela/Llanos/Asnate

EJERCICIOS RESUELTOS

PRUEBA DEL SIGNO DE UNA MUESTRA

1. Un artículo informa cerca de un estudio en el que


se modela el motor de un cohete reuniendo el
combustible y la mezcla de encendido dentro de un
contenedor metálico. Una característica importante es la
resistencia al esfuerzo cortante de la unión entre los dos
tipos de sustancias. En la siguiente tabla se muestran los
resultados obtenidos al probar 20 motores seleccionados
al azar. Se desea probar la hipótesis de que la mediana
de la resistencia al esfuerzo cortante es 2000 psi.
utilizando = 0.05.

Solución:

Se mostrará la tabla del ejercicio y es función del


investigador poner los signos con respecto a la mediana.

1. H 0 : ˆ  2000 psi

H1 : ˆ  2000 psi

351
Métodos Estadísticos Varela/Llanos/Asnate

Resistenci Signo Resistenci


Observaciones

Observaciones
Signo
a de a
de
al la al
la
esfuerzo diferenci esfuerzo
diferencia
cortante a cortante
xi xi -2000 xi xi -2000
1 2158,70 + 11 2165,20 +
2 1678,15 - 12 2399,55 +
3 2316,00 + 13 1779,80 -
4 2061,30 + 14 2336,75 +
5 2207,50 + 15 1765,30 -
6 1708,30 - 16 2053,50 +
7 1784,70 - 17 2414,40 +
8 2575,10 + 18 2200,50 +
9 2357,90 + 19 2654,20 +
10 2256,70 + 20 1753,70 -

De la tabla se puede observar que el estadístico de prueba


r   14 .

2. Regla de decisión:

Si el valor de P correspondiente a r   14 es menor o igual


que =0.05 se rechaza H0.

352
Métodos Estadísticos Varela/Llanos/Asnate

3. Cálculos:

Puesto que r   14 es mayor que n / 2  20 / 2  10 .

P  2 P( R   14, cuando p  1/ 2

La P se calcula con la fórmula de la distribución binomial:

20
P  2  Cr20 (0, 5) r (0, 5) 20  r  0,1153
r 14

4. Conclusión:

Como P  0.1153 no es menor que =0.05. No es posible


rechazar la hipótesis nula de que la mediana de la
resistencia al esfuerzo constante es 2000 psi.

3.- Se llega a cabo una prueba de sabor para


determinar si la gente prefiere refrescos dietéticos de
coca cola con sabor a cereza o a uva. Se pide a un panel
de 40 contadores que califiquen cada bebida en una

353
Métodos Estadísticos Varela/Llanos/Asnate

escala del 1 al 5. La siguiente tabla muestra los


resultados. Utiliza un nivel de significancia de 0.10 para
determinar si los contadores indican una diferencia
significativa entre los dos tipos de refresco.

Calificación Calificación

Signo de la diferencia

Signo de la diferencia
Catador

Catador
Cereza

Cereza
Uva

Uva

1 4 2 + 21 3 5 -
2 1 3 - 22 4 4 0
3 2 2 0 23 1 5 -
4 5 3 + 24 1 3 -
5 3 1 + 25 4 3 +
6 3 2 + 26 5 2 +
7 4 4 0 27 3 5 -
8 1 5 - 28 3 1 +
9 5 4 + 29 2 2 0
10 4 2 + 30 2 5 -
11 3 2 + 31 5 4 +
12 4 1 + 32 5 4 +
13 2 3 - 33 4 3 +
14 1 4 - 34 3 3 0
15 5 4 + 35 1 5 -
16 4 3 + 36 2 5 -

354
Métodos Estadísticos Varela/Llanos/Asnate

17 5 3 + 37 3 2 +
18 2 4 - 38 4 4 0
19 4 2 + 39 4 2 +
20 5 5 0 40 5 3 +

Solución:

Se determina el número de signos más y menos. Se le da un


signo más a cada catador que califica más alto al refresco de
sabor cereza que el de uva. Se asigna un signo menos al
catador que calificó más alto el de uva que el de cereza.

Luego contamos los signos más y menos. Hay 21 signos


mas y 12 menos (se observa que se ignoraron 7 valores de
los catadores que dieron la misma calificación a los dos
refrescos).

1. La hipótesis nula y alternativa son:

H º : p  50%
H 1 : p  50%

2. Nivel de significación:

  0.10

3. Estadística: Variable X binomial con, n  32 y


p  1/ 2 .

4. Cálculos:
355
Métodos Estadísticos Varela/Llanos/Asnate

El valor calculado de P para esta prueba unilateral es:

p  p  0.5
p (1  p)  0.5(1  0.5)  0
p (1  p)  0.5(0.5)

12
p  p( x  12cuandoP  1 / 2   C k33 (0.5) 32
k 0

 0.0076

5. Decisión:

Dado que P  0.0076  0.1 , se rechaza H º y se acepta H 1

NOTA: Al utilizar la aproximación de la curva


normal, para n  33 .

Las reglas de decisión para esta muestra de hipótesis son:

Si el valor z calculado es menor que -1.645 o mayor que


1.645, se rechaza la hipótesis nula.

La proporción observada de signos mas es:

P
p 
N

21
p 
33

p  0.6363

356
Métodos Estadísticos Varela/Llanos/Asnate

El valor z es:

n
X 
Z  2
1
n
2

33
21 
Z  2
1
33
2

Z  1.5666

P  0.94062

Como la z calculada (1.56) es menor que la z crítica (1.647).


La hipótesis nula no se rechaza. No existe una diferencia
significativa en el número de catadores que prefirieron una
bebida en lugar de otra.

4.- Un fabricante de alubias esta considerando una


nueva receta para la salsa utilizada en su producto.
Eligio una muestra aleatoria de ocho individuos y a cada
uno de ellos le pedio que valorara en una escala de 1 a 10
el sabor del producto original y el nuevo producto. Los
resultados se muestran en la tabla, donde también
aparecen las diferencias en las valoraciones para cada
sabor y los signos de estas diferencias. Es decir,
tendremos un signo (+) cuando el producto preferido sea
el original, un signo (-) cuando el preferido sea el nuevo
producto y un 0 si los dos productos son valorados por
igual. En particular en este experimento: dos individuos

357
Métodos Estadísticos Varela/Llanos/Asnate

han preferido el producto original y cinco el nuevo, uno


los valoro con la misma puntuación.

DIFERENCI

DIFERENCI
INDIVIDUO

VALORACI

A DE
SIGNO
ON

LA

A
PRODUCTO PRODUCTO
ORIGINAL NUEVO
A 6 8 -2 -
B 4 9 -5 -
C 5 4 1 +
D 8 7 1 +
E 3 9 -6 -
F 6 9 -3 -
G 7 7 0 0
H 5 9 -4 -

Solución:

La hipótesis nula es que ninguno de los dos productos es


preferido sobre el otro, comparamos las valoraciones que
indican la preferencia por cada producto, Descartando
aquellos casos en los que los dos productos fueron
valorados con la misma puntuación.

358
Métodos Estadísticos Varela/Llanos/Asnate

Así el tamaño muestral efectivo se reduce a siete, y la única


información muestral en que se basara nuestro contraste
será la de los dos individuos de los siete que prefirieron el
producto original.

La hipótesis nula puede ser vista como aquella en la que la


media poblacional de las diferencias sea 0. Si esta hipótesis
fuese cierta, nuestra sucesión de diferencias + y - podría ser
considerada como una muestra aleatoria de una población
en la que las probabilidades de + y - fueran cada una 0.5.,
en este caso, las observaciones constituirían una muestra
aleatoria de una población con una distribución binomial,
con probabilidad de + 0.5. Es decir, si p representa la
verdadera proporción en la población de +.la hipótesis nula
será:

H º : p  0.5

Podemos querer contrastar esta hipótesis bien frente


alternativas unilaterales. Bien frente a alternativas
bilaterales. Supongamos que en el ejemplo de preferencias
por los sabores la hipótesis alternativa es que en la
población, la mayoría de las preferencias son por el nuevo
producto. Esta alternativa se expresa como:

H1 : p  0.5

Al contrastar la hipótesis nula frente a esta alternativa. Nos


preguntamos,¿Cuál es la probabilidad de observar en la
muestra un resultado similar a aquel que se observaría si la

359
Métodos Estadísticos Varela/Llanos/Asnate

hipótesis nula fuese cierta? Si representamos por P(x) la


probabilidad de observar x “Éxitos” (+) en una binomial de
tamaño 7 con probabilidad de éxito 0.5. La probabilidad de
observar dos o menos + es:

P(0)  P(1)  P(2)  0.0078  0.0547  0.1641  0.2266

Por tanto, si adoptamos la regla de decisión “rechazar H º si


en la muestra tenemos dos o menos +”.

La probabilidad de rechazar la hipótesis nula cuando en


realidad de cierta será de 0.2266. Dicho contraste tiene un
nivel de significación del 22.66 % y en nuestro ejemplo, la
hipótesis nula podrá ser rechazada a dicho nivel.

Es importante también preguntarse a que nivel dejaremos de


rechazar la hipótesis nula H º . Si hubiésemos tenido la regla
de decisión “ningún + o un +” para rechazar, no hubiera
sido rechazada. El nivel de significación de este nuevo test
es:

P (0)  P (1)  0.0625

La hipótesis nula no será rechazada a un nivel de


significación del contraste del 6.25 %. La hipótesis nula de
que en la población las preferencias por un producto u otro
son iguales es rechazada contra la hipótesis alternativa de
que la mayoría de la población prefiere el nuevo producto
utilizando un test con nivel de significación del 22.66%. Si

360
Métodos Estadísticos Varela/Llanos/Asnate

embargo la hipótesis nula no puede ser rechazada utilizando


el test con nivel de significación del 6.25%.

Por tanto, estos datos muestran una modesta evidencia


contra la hipótesis nula de que la población tenga
preferencias iguales por un producto u otro, aunque dicha
evidencia no es muy grande. En nuestro caso, esto puede
ser una consecuencia del pequeño tamaño muestral.
Tenemos que considerar el caso en el que la hipótesis
alternativa sea bilateral. Es decir:

H1 : p  0.5

En el ejemplo. Esta hipótesis significa que la población


puede preferir uno u otro producto, si las alternativas a cada
valor postulado por la hipótesis nula son tratadas de forma
simétrica. Una regla de decisión que nos conduciría a
rechazar la H º para estos datos seria “Se rechaza si la
muestra contiene dos o menos, o cinco o mas +”. El nivel de
significación para este contraste es:

P (0)  P (1)  P ( 2)  P (5)  P (6)  P (7)


 2P (0)  P (1  P ( 2)   0.4532

Ya que la función de probabilidad de la distribución


binomial es simétrica para p  0.5 . La hipótesis nula no
será rechazada si no tomamos como regla de decisión
“rechazar H º si la muestra contiene dos o menos o seis o
mas +”.Este contraste tiene nivel de significación:

361
Métodos Estadísticos Varela/Llanos/Asnate

P(0)  P(1)  P(6)  P(7)  2P(0)  P(1)  0.1250

Por tanto, a un nivel de significación del contraste del 12.5


%. La hipótesis nula de que la mitad de los miembros de la
población con alguna preferencia prefieren el nuevo
producto no será rechazado frente a la hipótesis alternativa
bilateral.

El contraste de signos puede ser utilizado para contrastarla


hipótesis nula de que la mediana de una población es 0.
Supongamos que tomamos una muestra aleatoria de una
población y eliminamos aquellas observaciones iguales a 0,
quedando en total n observaciones. La hipótesis nula a
contrastar será que la proporción p de observaciones
positivas en la población es 0.5 es decir:

H º : p  0.5

En este caso. El contraste estará basado en el hecho de


que el número de observaciones positivas en la muestra
tiene una distribución binomial ( p  (0.5) bajo la hipótesis
nula).

Si el tamaño muestral es grande. se podrá utilizar la


aproximación de la distribución binomial a la normal para
realizar el contraste de signos. Esta es una consecuencia del
teorema central del límite.

362
Métodos Estadísticos Varela/Llanos/Asnate

Si el número de observaciones no iguales a 0 es grande. el


contraste de signos esta basado en la aproximación de la
binomial a la normal. El contraste es:

5.- Como parte de un estudio sobre transferencia del


aprendizaje entre tareas simples y complejas, se diseña
un experimento en el que cada sujeto se le presentan 5
tareas simples y a continuación 1 tarea compleja.

Al finalizar ésta se le pregunta a cada sujeto si le ha


parecido más fácil o más difícil que las 5 anteriores. Si
algún sujeto contestaba “igualmente difícil”, se le seguía
preguntando hasta decidirse por “mas fácil “o “más
difícil “. Las respuestas dadas por los 10 sujetos fueron:

SUJETO 1 2 3 4 5 6 7 8
9 1
0
RESPUEST D F F D F F F D F F
A

Solución:

1. Hipótesis

H º  P()  1/ 2 (No ha habido transferencia)

H1  P()  1/ 2 (Ha habido transferencia)

2. Nivel de Significancia:

363
Métodos Estadísticos Varela/Llanos/Asnate

¿Podemos concluir que ha habido


transferencia. a un nivel de significación de
0.01 ?

Siendo D (Mas difícil = (-) ) y F = +

H º  P()  1/ 2 (No ha habido transferencia)

H1  P()  1/ 2 ( Ha habido transferencia)

- Suponemos que las observaciones son


independientes y que bajo H º  p() es constante por cada
sujeto.

- Estadístico de contraste t1  7, t 2  3, t  3

Z = -0.949

Z (0.01) = -2.33:

- P (T " 3) = 0.172 > 0.01. Mantenemos H º

- -0.949 > -2.33. Mantenemos H º .

No hay evidencia suficiente para concluir que ha habido


transferencia. Sólo si T hubiera tomado valor 0, podríamos
haber llegado a tal conclusión ya que P (T = 0) = 0.001 <
0.01.

364
Métodos Estadísticos Varela/Llanos/Asnate

PRUEBA DE WILCOXON

1. La salud mental de la población activa de sujetos de


60 años tiene una mediana de 80 en una prueba de
desajuste emocional (X). Un psicólogo cree que tras el
retiro (jubilación) esta población sufre desajustes
emocionales. Con el fin de verificarlo, selecciona al azar
una muestra de sujetos retirados, les pasa la prueba de
desajuste y se obtienen los siguientes resultados:

x : 69,70,75,79,83,86,88,89,90,93,96,97,98,99

¿Se puede concluir, con un nivel de significación de 0.05,


que tras el retiro aumenta el promedio de desajuste
emocional?

Solución:

Averigüemos Di  X  80 y ordenemos las Di :

Di  11.  10.  5.  1.  3.  6.  8.  9.  10.  13.  16.  17.  18.  19


Oi  9.7,5.3.1.2.5.6.7,5.10.11.12.13.14
W  Oi  9  7.5  3  1  20.5

1. Hipótesis:

H º : M  80 (La población no incrementa su


promedio de desajuste)

365
Métodos Estadísticos Varela/Llanos/Asnate

H1 : M  80 (La población aumenta su nivel de


desajuste tras el retiro)

2. Nivel de significación:

  0.05

3. Estadística y región crítica de la prueba: T Wilcoxon.


Para n  14 y una prueba unilateral   0.05 , en la tabla de
valores de Wilcoxon, se halla el valor 14.

4. La suma de rangos positivos es 20.5.

n( n  1)

4

14(14  1)

4
14(15)

4
  52.5

n(n  1)( 2n  1)
 
24

(11)(12)( 23)
 
24
  15.93

366
Métodos Estadísticos Varela/Llanos/Asnate

X 
Z

(20.5  0.5)  52.5


Z
15.93
Z  1.98

5. Decisión:

Z 0.05  1.64

 1.64  1.98 Por lo que se rechaza H º

W14, 0.05  26  20.5 Por lo que rechazamos H º

Hay evidencia suficiente para concluir que tras el retiro


aumenta al nivel de desajuste, medido por X.

2. Un estudio comparó empresas que utilizaban o no


procedimientos sofisticados de post- auditoria. Se
examinó una muestra de 31 pares de firmas, para cada
empresa se utilizó una función determinada como
medida de su rendimiento. En cada uno de los pares,
una empresa utilizó procedimientos sofisticados post-
auditoria y la otra no. Se calcularon las diferencias en
los 31 casos y los rangos de las diferencias en valor
absoluto, la más pequeña de la suma de rangos 189. fue
la correspondiente a aquellas empresas que no utilizaron
procedimientos sofisticados post-auditoria,
contrastamos la hipótesis nula de que la distribución de
las diferencias está centrada en 0 frente a la alternativa
367
Métodos Estadísticos Varela/Llanos/Asnate

de que el rendimiento de las empresas es menor cuando


no utilizan procedimientos sofisticados post-auditoria.

Solución:

Dada una muestra de n  31. La media del estadístico del


Wilcoxon bajo la hipótesis nula es:

- La media:

n( n  1)

4

(31)(32)

4
  248

La distribución de Z  1.16 cuando la hipótesis nula de que


la distribución de las diferencias está centrada en 0 es cierta
y la alternativa es unilateral. A nivel de significación 0.123.

368
Métodos Estadísticos Varela/Llanos/Asnate

- La varianza:

n(n  1)( 2n  1)
 
24

(31)(32)(63)
 
24
  2.064

De manera que la desviación típica es

T = 51.03

Si T es el valor observado del estadístico, la hipótesis nula


frente a la alternativa unilateral será rechazada si:

T  T

T - µT= 189 – 248

189  248
Z
51.03

Z  1.16

El valor correspondiente a Z = 1.16 es (1 - 0. 8760) = 0.123.


Por tanto, la hipótesis nula será rechazada a niveles de
significación superiores al 12.3%. Los datos sugieren una
369
Métodos Estadísticos Varela/Llanos/Asnate

modesta evidencia de que las empresas sin un


procedimiento sofisticado de post-auditoria tienen mejor
rendimiento.

PRUEBA U DE MANN - WHITNEY

1. Dos dependientes A y B trabajan en el


departamento de niños de una tienda. El gerente de la
tienda piensa ampliar su negocio a otros locales desde
que leyó un artículo en una revista sobre la creciente
popularidad de las tiendas sobre niños. La comparación
entre las ventas de los 2 dependientes parece ser una
buena manera de determinar si uno de ellos puede
dirigir la nueva tienda.

Solución:

1. Hipótesis:

H º : 1   2  0

H 1 : 1   2  0

2. Nivel de significación:

  0.05

3. Estadística:

Se usara la prueba U de Mann-Whitney para probar esta


hipótesis de que los 2 dependientes son iguales en este
370
Métodos Estadísticos Varela/Llanos/Asnate

sentido, ya que el tamaño de la muestra es pequeño y hay


evidencia de que la población de las ventas no es normal.

4. Región crítica:

Para n1  16 , n2  25   0.05 y R1  241. Si Z  1.96 o


Z  1.96 se rechaza la hipótesis nula H º .

5. Cálculos:

El gerente registra las ventas semanales de los 2


dependientes para una muestra de varias semanas y quiere
saber si ellos pueden considerarse iguales como vendedores.
En la siguiente tabla se numeran las ventas de cada
dependiente junto con sus rangos.

DEPENDIENTE DEPENDIENTE
A B
VENT RANG VENT RANG
AS O AS O
197 1 190 3
194 2 180 7
188 4 175 8
185 5 172 10
182 6 167 13
173 9 166 14
169 11 160 17
169 12 157 18

371
Métodos Estadísticos Varela/Llanos/Asnate

TABLA: Ventas por Rangos para la prueba U de Mann -


Whitney

DEPENDIENTE A DEPENDIENTE B
VENTAS RANGO VENTAS RANGO
164 15 155 19
166 16 150 21
154 20 146 23
149 22 145 24
142 26 143 25
139 28 140 27
137 29 135 30
130 35 135 31
134 32
133 33
131 34
122 36
120 37
118 38
109 39
98 40
95 41

372
Métodos Estadísticos Varela/Llanos/Asnate

n1 ( n1  1)
U  n1 n 2   T1
2

(16)(17)
U  (16)( 25)   241
2
U  400  136  241
U  295

Los parámetros de la distribución muestral normal deben


determinarse para ver si el valor U de 295 se puede
considerar poco usual. La media y la desviación estándar de
la distribución muestral normal se calculan a continuación.

n1 n2
Media :  
2

(16)( 25)
 
2
400
 
2
  200

n1n2 (n1  n2  1)
Varianza :  U2 
12

(16)( 25)(16  25  1)
 U2 
12
(400)( 42)
 U2 
12
16800
 U2 
12
U  1400
 U  37.4
373
Métodos Estadísticos Varela/Llanos/Asnate

El estadístico muestral (295) esta a los 2.54 desviaciones


estándar a la derecha de la media (200) de la curva si la
hipótesis nula de poblaciones iguales es cierta. Este es un
valor poco probable para esta curva, ya que este valor Z
cubre 0.4945 del área bajo la curva, dejando solo 0.0055 en
la cola superior. Se justifica que el gerente de la tienda
rechace la hipótesis nula de que los dos dependientes son
iguales en su habilidad para general ventas. El riego de un
error tipo I al rechazar es solo 0.011(2  0.0055) .

3. El doctor Antonio del hospital Virgen de las


Nieves quiere probar la efectividad de una nueva
medicina para tratar la locura. Registra el tiempo que
pasan en el hospital los pacientes locos con la medicina
anterior y los pacientes similares tratados con la
medicina nueva, asigna un rango de 1 a la estancia mas
corta. EL Dr. Antonio obtiene los siguientes rangos para
las estancias de 25 pacientes.

MEDICINA MEDICINA
ANTERIOR NUEVA
5 1
9 2
12 3
14 4
15 6
16 7
17 8
20 10
374
Métodos Estadísticos Varela/Llanos/Asnate

21 11
22 13
23 18
24 19
25

¿Es más efectiva la nueva medicina? Realice una prueba


con un nivel de significación de 0.01.

Solución:

1. Hipótesis:

H º : 1   2  0

H 1 : 1   2  0

2. Nivel de Significación:

  0.01

3. Estadística:

Se usara la prueba U de Mann-Whitney

4. Región Crítica:

Para n1  12 (número de pacientes que usa medicina


nueva). n2  13 (Número de pacientes que usa medicina

375
Métodos Estadísticos Varela/Llanos/Asnate

anterior) y R1  102 R1 = 102. Este último valor se calcula


sumando todos los rangos para la medicina nueva.

5. Cálculos:

n1 (n1  1)
U  n1 n2   T1
2

(12)(13)
U  (12)(13)   102
2
U  156  78  102
U  132

Al usar las ecuaciones anteriormente definidas, la media y


desviación estándar de la distribución muestral normal son:

n1 n2
Media :  
2

(12)(13)
 
2
156
 
2
  78

n1n2 (n1  n2  1)
Varianza :  U2 
12

376
Métodos Estadísticos Varela/Llanos/Asnate

(12)(13)(12  13  1)
 U2 
12
(156)( 26)
 U2 
12
4056
 U2 
12
U  338
 U  18.38

6. Decisión: Para esta prueba de hipótesis la decisión es:

Si Z  2.33 se rechaza la hipótesis nula H º .

El valor z para el estadístico muestral es:

  U
Z 
U

132  78
Z 
18.38
Z  2.93

Se concluye que 2.93  2.33 Por tanto, la hipótesis nula H º


se rechaza. El Dr. Antonio concluye que los pacientes que
usan la medicina nueva tuvieron una estancia mas corta en
el hospital que los que usaron la medicina anterior.

377
Métodos Estadísticos Varela/Llanos/Asnate

EJERCICIOS PROPUESTOS

1.- Los siguientes datos constituyen una muestra


aleatoria de 15 medidas de la calificación de octanaje de
cierto tipo de gasolina:

99.0 102.3 99.8 100.5 99.7 96.2 99.1 102.5

103.3 97.4 100.4 98.5 98.3 98 101.6

Contraste la hipótesis de que la mediana de los datos es


98 contra la hipótesis de que es superior a 98. Use
=0.01

2.- Los datos que siguen, expresados en toneladas, son


las cantidades de óxido de sulfuro emitidas por una gran
planta industrial en 40 días

17 15 29 19 18 20 22 25 27 9
24 20 6 24 14 17 15 23 24 26
19 23 19 16 22 28 24 17 20 13
19 10 18 31 13 23 20 17 24 14

Contraste la hipótesis de que la mediana es 21.5 contra


la de que es menor que 21.5, a un nivel de significación
= 0.01

378
Métodos Estadísticos Varela/Llanos/Asnate

3.- Se registró diariamente, el número de fusibles


eléctricos defectuosos que salen de cada una de dos
líneas de producción, A y B, durante un período de 10
días con los resultados que se muestran en la tabla.
Supóngase que ambas líneas tienen la misma producción
diaria.

Se compara el número de defectuosos producidos


diariamente por A y B, y se define M = Nº de días en los
que A produce más defectuosos que B.

Día 1 2 3 4 5 6 7 8 9 10
A 172 165 206 184 174 142 190 169 161 200
B 201 179 159 192 177 170 182 179 169 210

¿Presentan los datos suficiente evidencia, para indicar


que una línea de producción produce más artículos
defectuosos que la otra? Use   0.05

4.- Las siguientes son las pérdidas semanales promedio


de horas-hombre debidas a accidentes en 10 plantas
industriales, antes y después de la entrada en operación
de cierto programa de seguridad.

45 73 46 124 33 57 83 34 26 17
36 60 44 119 35 51 77 29 24 11

379
Métodos Estadísticos Varela/Llanos/Asnate

A un nivel =0.05. ¿El programa de seguridad es


efectivo?

5.- Supóngase que un ingeniero desea comparar los


tiempos que tardaron los técnicos en la maniobra A con
los tiempos para una maniobra semejante B. Por
experiencias previas, las poblaciones de mediciones de
tiempo utilizado, tienen distribuciones de probabilidad
desviadas hacia la derecha. El ingeniero asigna al azar

Maniobra A 1.96 2.24 1.71 2.41 1.62 1.93


Maniobra B 2.11 2.43 2.07 2.71 2.50 2.84 2.88
13 técnicos, en dos grupos uno de 7 que efectúa la
maniobra A y otro la maniobra B. Se mide el tiempo que
tarda cada técnico.

Contraste la hipótesis de que la distribución de A está


desplazada a la derecha o bien a la izquierda de la de B.
=0.05

6.- Un psicólogo industrial afirma que el orden en que se


presentan las preguntas en un examen afecta las
probabilidades que tiene un solicitante de contestar en
forma correcta. Para investigar esta afirmación el
psicólogo divide al azar a 13 solicitantes en dos grupos,
de 7 y 6. Las preguntas del examen se ordenan según
380
Métodos Estadísticos Varela/Llanos/Asnate

dificultad creciente en la prueba A, pero en la prueba B


se invierte ese orden. A un grupo de solicitantes se le da
la prueba A y al otro la B
Prueba
90 71 83 82 75 91 65
A
Prueba
¿Dan 66 78 50 68 80 60 estos
B
datos
suficiente evidencia que indique una diferencia entre los
dos grupos? Use =0.05

7.- Un experimento diseñado para comparar tres


métodos preventivos contra la corrosión, ofreció las
siguientes profundidades máximas de horadación (en
milésimas de pulgadas) en piezas de alambre, sujetas a
los respectivos tratamientos.

Método A 77 54 67 74 71 66
Método B 60 41 59 65 62 64 52
Método C 49 52 69 47 56

Si =5%, contraste la hipótesis de que las tres muestras


provienen de poblaciones idénticas

8.- Los siguientes son los números de impresiones


defectuosas contadas en páginas seleccionadas al azar de
tres ediciones dominicales de un periódico:

381
Métodos Estadísticos Varela/Llanos/Asnate

11 de
4 10 2 6 4 12
abril
18 de
8 5 13 8 8 10
abril
23 de
7 9 11 2 4 7
abril

Use la prueba H, en el nivel de significación del 5% para


contrastar la hipótesis de que las tres muestras proceden
de poblaciones idénticas.

9.- Para comparar cuatro bolas de bowling, un jugador


profesional realiza cinco juegos con cada bola y obtiene
los siguientes resultados:

Bola D 208 220 247 192 229


Bola E 216 196 189 205 210
Bola F 226 218 252 225 202
Bola G 212 198 207 232 221

Use la prueba H, en el nivel de significación del 5% para


contrastar si el jugador puede esperar o no lograr la
misma puntuación con las cuatro bolas.

10.- En un departamento de control de calidad desean


comparar el tiempo que se requiere para diagnosticar
fallas de equipo utilizando tres sistemas alternativos. Se
asignan al azar 42 fallas, para diagnosticarlas mediante
382
Métodos Estadísticos Varela/Llanos/Asnate

los tres sistemas. El primer sistema se utiliza para


diagnosticar 14 fallas, al segundo 16 fallas y al tercero 12
fallas. La tabla se reporta el tiempo total, en minutos,
que requiere diagnosticar cada una de las fallas.

S1 25 29 42 16 31 14 33 45 26 34 30 43 28 19
S2 18 37 40 56 49 28 20 34 39 47 31 65 38 32 24 49
S3 21 36 34 19 46 25 38 31 20 26 30 18

A un nivel de significación del 10%, pruebe la hipótesis


nula de que las tres muestras se obtuvieron en
poblaciones con la misma mediana
11.- Las siguientes son las velocidades en millas por
hora, que registró cada quinto automóvil al pasar por
cierto punto de revisión:
46 51
58 46
60 61
56 40
70 43
66 42
48 77
54 67
62 63
41 59
39 63
52 63
45 72

383
Métodos Estadísticos Varela/Llanos/Asnate

62 57
53 59
69 42
65 56
65 47
67 62
76 67
52 70
52 63
59 66
59 69
67 73

Contraste la hipótesis de aleatoriedad a un nivel de


significación del 5%

12.- La siguiente es la disposición de piezas defectuosas


(d) y no defectuosas (n), producidas en un orden dado
por cierta máquina
N
N
N
N
N
D
D
D

384
Métodos Estadísticos Varela/Llanos/Asnate

D
N
N
N
N
N
N
N
N
N
N
D
D
N
N
D
D
D

Pruebe la aleatoriedad, a un nivel =0.01

13.-Revisando una serie de árboles de un mismo tipo que


se plantaron hace muchos años a lo largo de una

S S S S E E E S S S S S S S E E E S S E E E E
carretera, un inspector obtuvo la siguiente disposición
de árboles sanos y enfermos
385
Métodos Estadísticos Varela/Llanos/Asnate

Al nivel =0.05, ¿puede considerarse aleatoria la


disposición de árboles sanos y enfermos?

14.- A un ingeniero le preocupa que se estén haciendo


demasiados cambios en las calibraciones de un torno
automático. Dados los siguientes diámetros medios en
pulgadas, de 40 ejes sucesivos rotados en el torno:

0.261 0.258 0.249 0.251 0.247


0.252 0.250 0.253 0.247 0.251
0.248 0.252 0.254 0.250 0.247
0.247 0.250 0.253 0.247 0.249
0.256 0.250 0.247 0.255 0.243
0.243 0.258 0.251 0.245 0.250
0.253 0.251 0.246 0.249 0.252
0.253 0.246 0.251 0.249 0.253

Utilice la prueba de rachas o corridas, para contrastar


la hipótesis de aleatoriedad en los valores contra la
hipótesis de que hay un patrón de alternancia frecuente.
Use =0.01

386
Métodos Estadísticos Varela/Llanos/Asnate

CAPITULO V
INTRODUCION A LAS SERIES DE TIEMPO
5.1. INTRODUCCIÓN A LA ELABORACIÓN DE
PRONÓSTICOS

Puesto que las condiciones económicas y de negocios


varían al paso del tiempo, los dirigentes de negocios tienen
que encontrar formas de mantenerse al corriente de los
efectos que esos cambios tendrán sobres sus operaciones
.Una técnica que pueden usar los dirigentes de negocios
como ayuda para controlar las operaciones presentes y
planear las necesidades futuras es la elaboración de
pronósticos. Aunque se han creado numerosos métodos de
elaboración de pronósticos todos tienen una meta común
predecir acontecimientos futuros de modo que esas
predicciones se puedan incorporar después al proceso de
toma de decisiones. Por ejemplo, el gobierno debe estar en
posibilidades de pronosticar aspectos como el desempleo, la
inflación, la producción industrial y los ingresos esperados
de los impuestos personales sobre la renta y de las empresas
a fin de formular sus políticas, es decir tanto que el
departamento de mercadotecnia de una empresa de ventas
al menudeo, de poder pronosticar la demanda del producto,
los ingreso por ventas, las preferencias de los consumidores,
las existencias, etc. Para tomar decisiones oportunas con
relación a estrategias de publicidad.

387
Métodos Estadísticos Varela/Llanos/Asnate

5.2. MÉTODOS DE ELABORACIÓN DE


PRONÓSTICOS
Básicamente son dos los enfoques de la elaboración de
pronósticos: cualitativo y cuantitativo. Los métodos
cualitativos de elaboración de pronósticos son
especialmente importantes cuando no se cuenta con
información histórica, como cuando por ejemplo, el de
parlamento de mercadotecnia quisiera predecir las ventas de
un nuevo producto. Se considera que los métodos
cualitativos de elaboración de pronósticos son altamente
subjetivos y de criterio. Estos incluyen método de relación
de factores, opiniones expertas y la técnica Delphi. Por otra
parte los métodos cuantitativos de elaboración de
presupuestos utilizan información histórica. La meta de
estudiar los acontecimientos pasados para comprender
mejor la estructura fundamental de la información y de esta
forma proporcionar los medios necesarios para predecir las
ocurrencias futuras.
Los métodos cuantitativos de elaboración de pronósticos
se pueden subdividir en dos tipos: series de tiempo y
causales. Los métodos causales de elaboración de
pronósticos incluyen la determinación de factores que se
relacionan con la variable a predecir. Incluyen el análisis de
regresión múltiple con variables retrasadas, elaboración de
modelos econométricos, análisis de identificador
adelantado, índice de difusión y otros barómetros
económicos. Por otra parte, los métodos de series de tiempo
para elaboración de valores futuras de una variable, basada
completamente en observaciones pasadas y presentes de
esta. Estos son los métodos que se estudiarían aquí.
388
Métodos Estadísticos Varela/Llanos/Asnate

5.3. INTRODUCCIÓN AL ANÁLISIS DE SERIES


DE TIEMPO
Una serie de tiempo es un grupo de datos cuantitativo
que se obtiene en periodos regulares. Por ejemplo, los
precios de cierre de una acción en particular en la casa de
cambio constituyen una serie de tiempo. Otros ejemplos de
serie de tiempo económicas o de negocios son los cambios
semanales en el porcentaje de las ventas de las tiendas
departamentales, la publicación mensual del índice de
precios al consumidor, los informes trimestrales del
producto nacional bruto (PNB), así como los ingresos por
ventas totales registrados anualmente por una empresa
determinada. Sin embargo, las series de tiempo no están
limitadas a datos económicos o de negocios. Por ejemplo,
quizás le decano de la universidad desea investigar si hay
señales de una persistente “inflación de las calificaciones”
durante la década pasada. Para ellos se podría examinar,
sobre una base anual, el porcentaje descubierto de primero y
segundo año que aparecen en el cuadro de honor, o el
porcentaje de estudiantes del último año que se gradúan con
honores.

5.4. OBJETIVOS DE ANÁLISIS DE SERIE DE


TIEMPO
La suposición básica sobre la que se fundamenta el
análisis de las series de tiempo es que los factores que han
influido en el pasado y en el presente sobre los patrones de
actividades económicas, continuaran haciéndolo de forma
más o menos similar en el futuro. Por lo tanto, las
389
Métodos Estadísticos Varela/Llanos/Asnate

principales metas de análisis de las serie de tiempo es


identificar y aislar estos actores influyentes para fines de
predicción (elaboración de pronósticos) así como
planeación y control gerencial.

5.5. FACTORES COMPONENTES DEL MODELO


CLÁSICO MULTIPLICATIVO DE SERIES DE
TIEMPO
Para lograr estas metas se han creado muchos modelos
matemáticos para explorar las fluctuaciones entre los
factores componentes de una serie de tiempo. Quizá el más
importante sea el modelo clásico multiplicativo para los
datos registrados anuales, trimestral o mensualmente. En
este libro se considera este modelo.

Para mostrar el modelo clásico multiplicativo de serie de


tiempo, la figura 1 presenta las ventas anuales al menudeo
(en millones de dólares) para una cadena de tiendas de
departamentos de 1963 a 1987 si se puede garantizar estos
datos de series de tiempo resulta claro que los ingresos por
ventas la menudeo han mostrado una tendencia aumentada
(en forma curvilínea, como se muestra en la figura 3)
durante este periodo de 25 años. Esta inflación general a
largo plazo o impresión (de movimientos ascendentes y
descendentes) se conoce como tendencia.

390
Métodos Estadísticos Varela/Llanos/Asnate

Fig.1 Ventas anuales a menudeo (en millones de dólares)


de 1963 a 1987

Sin embargo, la tendencia no es el único factor


componente que influye sobre estos datos en particular
sobre otras series anuales de tiempo. En la información
también están representadas otros dos factores –el
componente cíclico y el componente irregular. Auque estos
dos factores se observaran con mayor facilidad cuando se
“descomponga” el modelo de serie de tipo clásico, por el
momento es suficiente tener una impresión general de los
que son estos factores componentes, con base en los datos
disponibles. Tal como se presenta en la figura 2, el
componente cíclico muestra los desplazamientos o
movimientos ascendentes y descendentes en la serie. Los
391
Métodos Estadísticos Varela/Llanos/Asnate

movimientos cíclicos varían en longitud – por lo general


con una duración de 2 a 10 años - y difieres también en
intensidad o amplitud. Si se visualiza una curva suave que
represente la tendencia que pasa a través de la serie de
tiempo (véase figura 3), se encuentra que varios puntos de
datos caen por muy debajo de la punta de la tendencia y que
otros sobre salen de ella. Como ejemplo, en la figura 3 los
valores observados para los años 1968, 1974, 1977 y 1982
caen por debajo de la curva de la tendencia y representan el
“fondo” o la “sima” de sus ciclos respectivos. Al otro
extremo los datos observados para los años 1966, 1973,
1975 y 1980 sobresalen por encima de la curva de
tendencias con ajuste suave modificada. Por lo tanto
representan los puntos máximos de sus respectivos ciclos de
negocios. Cualesquiera datos observados que no sigan las
curvas de tendencia de ajustes suave modificada por los
antes mencionados movimientos cíclicos, son indicaciones
de los factores irregulares o aleatorios de influencia. Estas
fluctuaciones aleatorias se observan con mayor facilidad en
la figura 4.

392
Métodos Estadísticos Varela/Llanos/Asnate

Fig.2 Las cuatro fases del ciclo de negocios

Cuando los datos se registran en forma mensual en lugar


de anual, un favor componente adicional influye sobre la
serie de tiempo. Este cuarto factor se denomina componente
estacional. Parar demostrar los efectos estaciónales sobre
una serie de tiempo, la figura 4 presenta las ventas al
menudo nacionales por mes (en millones de dólares) para
todas las tiendas al menudeo en estas cadenas de tiendas de
departamentos desde enero de 1973 hasta diciembre de
1987. (A la derecha de la línea discontinua vertical en la
figura 1 y 3 se pueden observar los resultados anuales para
este periodo de 15 años). En cada uno de los 15 años se
observan con claridad las influencias estaciónales sobre los
ingresos por ventas al menudeo. Se observan que el
volumen máximo de las ventas al menudeo en cada año
ocurre en diciembre (cuando el país se prepara para el
tiempo de fiestas), en tanto que las disminuciones en el

393
Métodos Estadísticos Varela/Llanos/Asnate

volumen de las ventas se observan cada año en enero y


febrero.

Fig. 3 Promedio móvil de siete años ajustados a las ventas


al menudeo (1963 - 1987)

Por otra parte, fluctuaciones irregulares o aleatorias que


influyen sobre las series de tiempo se pueden observar más
o menos comparando los ingresos por ventas registradas
para los meses de julio y agosto. En la figura 4 se observa
que los ingresos por ventas al menudeo de agosto exceden a
los de junio en 8 de los 15 años. No obstante, si se
comparan los ingresos por ventas de junio y agosto en los a
los 1963 hasta 1972 se observaría durante el periodo de 10
años los ingresos de junio fueron mas altos en siete
ocasiones y que los ingresos de agosto lo fueron en tres.

394
Métodos Estadísticos Varela/Llanos/Asnate

Tabla 1 Factores que influyen sobre los datos de la serie


de tiempo
Clasificación
Componente

componente

Razón de la
Definición

Influencia

Duración
del

Patrón de
Debido a
Sistemático

movimientos
Tendencia

cambios en
ascendentes, general o
tecnología. Varios años
persistente, a largo
Población,
plazo
riqueza, valores.
Fluctuaciones Debido a
Dentro de
periódicas bastante condiciones de
Sistemático

12 meses (o
Estacional

regulares que ocurren tiempo,


información
dentro de cada periodo costumbres
mensual o
de 12 meses año tras sociales,
trimestral)
año costumbres
religiosas.

395
Métodos Estadísticos Varela/Llanos/Asnate

Desplazamientos o
movimientos
Por lo
respectivos
Debido a general de 2
ascendentes y
interacciones de a 10 años
descendentes mediante
numerosas con
Sistemático

cuatro fases: Desde el


combinaciones diferentes
Cíclica

punto mas alto


de factores q intensidad
(prosperidad) a la
influyen sobre la para un
contracción (recesión);
economía. ciclo
de la cima (depresión)
completo
a la expansión
(recuperamiento o
crecimiento)

Debido a
variaciones
Las fluctuaciones
aleatorias en los
erráticas o (residuales)
No Sistemático

datos o debido a
en una serie de tiempo
Irregular

acontecimientos Duración
q existen después de
imprevistos breve y no
tomar en cuanta los
como huelgas, respectiva.
defectos sistemáticos –
huracanes,
tendencias estacional y
inundaciones,
cíclico
asesinatos,
políticos, etc.
Por lo tanto el total a lo largo de los 25 años no existe un
patrón sistemático y observable de los cambios en los
ingresos por ventas al menudeo en los meses de junio y
agosto. Por consiguiente, los resultados obtienen reciben la
influencia de factores irregulares o aleatorias.

Además de acuerdo a los datos de la serie de tiempo


mensual en la figura 4 se observa de nuevo con facilidad la
396
Métodos Estadísticos Varela/Llanos/Asnate

tendencia general (la tendencia curvilínea de aumento).


Lamentablemente, en caso de este grupo de datos en
particular n es posible visualizar los factores cíclicos que
influyen sobre la serie de tiempo.

Fig4. Ventas nacionales al menudeo (en millones de


dólares) para todas las tiendas de la cadena de tiendas
de departamentos (enero de 1973 a diciembre de 1987)

De los datos anuales en la figura 1 y los datos mensuales de


la figura 4 hasta ahora se ha determinado que existen tres o
cuatro factores componentes, respectivamente, que influyen
397
Métodos Estadísticos Varela/Llanos/Asnate

sobre una serie de tiempo económico de negocios, los


cuales se resumen en la tabla 1. Por consiguiente, el
modelo de serie de tiempo clásico multiplicativo afirma que
cualquier valor observado en una serie de tiempo es el
producto de estos factores influyentes; es decir , cuando
los datos se obtienen anualmente, una observación Yi
registrada en el año i se puede expresar como:

Yi  Ti .Ci .li (1)


Donde en el año i,

Yi = valor del componente de tendencia


Ci = valor del componente cíclico
li = valor del componente irregular

Por otra parte, cuando los datos se obtienen trimestral o


mensualmente, una observación Yi registrada en el periodo i
se puede expresar como:

Yi  Ti * Si * Ci * li (2)

Donde en el periodo i, Ti , Ci eLi son los valores de los


componentes de tendencia, cíclico e irregular,
respectivamente, y Si es el valor del componente estacional.

398
Métodos Estadísticos Varela/Llanos/Asnate

5.6. ANÁLISIS DE SERIES DE TIEMPO DE


DATOS ANUALES: AJUSTE DE TENDENCIAS Y
AISLAMIENTO DE COMPONENTES

La tendencia es el factor componente mas estudiado de


una serie de tiempo. En primer lugar, la tendencia se estudia
para fines de predicción, es decir, o se desea estudiar la
tendencia directamente como una ayuda para realizar
proyecciones de pronósticos a medio y largo plazos, o se
desea tan solo aislar y después eliminar la influencia de sus
efectos sobre el modelo de la serie de tiempo, como una
guía para la elaboraciones de pronósticos a corto plazo (un
año menos) de las condiciones generales de un ciclo de
negocios. Como se muestra en la figura 1 y 4, para obtener
alguna impresión o sensación visual de los movimientos
generales a largo plazo en una serie de tiempo, se elabora
una grafica en lo que los datos observados (variable
dependiente) se trazan sobre el eje vertical y los periodos
(variable independiente) sobre el eje horizontal. Si parece
que una tendencia de línea recta pudiera ajustarse
adecuadamente a los datos, los dos métodos de fijación de
tendencias de más amplio uso son los métodos mínimos
cuadros y el de la “doble” suavización exponencial. Sin
embargo, si los datos de la serie de tiempo señalan algún
movimiento curvilíneo a largo plazo, descendente o
ascendente (véase en la fiura1), los dos métodos de mas
amplia utilización para el ajuste de la tendencia son el de los
mínimos cuadros y el de la “triple” suavización
exponencial. En esta sensación será hincapié en los métodos

399
Métodos Estadísticos Varela/Llanos/Asnate

mínimos cuadrados para ajustar tendencias lineales


curvilíneas como guías para la elaboración de pronósticos.

 Ajustes y pronósticos de tendencia lineales:


Recuérdese que el método de los mínimos cuadrados
permite ajustar una línea recta de la forma

Y  b0  b1 X 1 (3)

De modo que los valores calculados para los de


coeficientes – la ordenada al origen b0 y la pendiente b1 -
den como resultado que se minimicen las sumas de los
diferentes al cuadrado entre cada valor observado Yi en los
datos y cada valor predicho Yi , a lo largo de la línea de
tendencia ; es decir:

  Y 
n 
 Y i   mínimo (4)

i
i 1

Para obtener una línea semejante, recuérdese que el análisis


de la regresión lineal se calcula la pendiente desde

 n  n 
  X i    Yi 
n
    (5)
 X iYi  i 1

n
i 1

bi  i 1
2
 n 
  Xi 
 
n

X i 1
2
i  i 1

Y la interpolación de:

400
Métodos Estadísticos Varela/Llanos/Asnate

b0  Y  b1 X (6)


Una vez realizados obtenida la línea Y  b0  b1 X 1 ,
se pueden sustituir los valores de X en la forma (3) para
pronosticar diversos valores de Y. Sin embargo, se puede
observar que cuando se usa el método de los mínimos
cuadrados para ajustar la tendencia lineales en serie de
tiempo, los valores observados de la serie (valores Y) por
lo general se registran en forma anula durante varios años
consecutivos (valores X). Por lo tanto, cuando se operan
con datos de una serie de tiempo anual los esfuerzos de
calculo se pueden simplificar si se “si se codifican” en
forma apropiada los valores X. Sin embargo, el programa de
codificación que se elija depende de si los datos de serie de
tiempo se han obtenido de un número par o impar de años.

 Ajuste de una tendencia lineal de mínimo


cuadrado para un numero impar de años :

Para los datos de serie de tiempo observadas durante un


numero impar de años, el método de codificación mas
eficiente para facilitar los cálculos es la selección del año
en el medio de la sucesión como el origen establecido,
asignándolo un códigos X = 0.

Después, a todos posteriores se les asignan códigos de


números enteros sucesivos y crecientes, a todos los años
anteriores se les asignan códigos de números enteros
consecutivo decrecientes. Por ejemplo, si una serie de
tiempo tiene n = 7 años de datos, el año medio (el cuarto)
401
Métodos Estadísticos Varela/Llanos/Asnate

recibirá un código de X = 0, y la sucesión codificada a


partir del primer año hasta el último seria

-3 -2 -1 0 1 2 3

Es interesante observar que el codificar el año medio en


n
la serie como X = 0 siempre ocurrirá que X
i 1
i 0 y,

por consiguiente, las formas para la pendiente y la ordenada


al origen resultaran alteradas en la forma siguiente:

X i Yi
(7)
b1  i 1
n

X
i 1
2
i

Y i
b0  Y  i 1 (8)
n

Y se traduce el trabajo de cálculos.

402
Métodos Estadísticos Varela/Llanos/Asnate

Tabla 2 impuestos anuales sobre la renta pagados la


gobierno federal (1973 - 1987)

Impuestos
Año (Millones de
dólares)

1973 55.4

1974 61.5

1975 68.7

1976 87.2

1977 90.4

1978 86.2

1979 94.7

1980 103.2

1981 119.0

1982 122.4

1983 131.6

403
Métodos Estadísticos Varela/Llanos/Asnate

1984 157.6

1985 181.0

1986 217.8

1987 244.1

Para ajustar una línea de tendencias mínimas cuadrados a


la información anual con un numero impar de años, la serie
de tiempo presentado en la tabla 2 y trazada en la figura
representada los impuestos anuales sobre la renta, pagados
al gobierno federal por los residentes de una ciudad en el
medio oeste durante un periodo de 15 años, 1973 a 1987.

Fig. 5 Impuestos Anuales sobre la renta pagadas al


gobierno federal (1973 - 1987)

404
Métodos Estadísticos Varela/Llanos/Asnate

Tabla 3: Cálculo de la tendencia de mínimos


cuadros para 15 años de datos
Impuestos X i2
Año Xi X iYi
($ Millones)

1973 -7 55.4 - 387.8 49

1974 -6 61.5 - 369.0 36

1975 -5 68.7 - 343.5 25

1976 -4 87.2 -348.8 16

1977 -3 90.4 - 271.2 9

1978 86.2 -172.4 4


-2

1979 -1 94.7 -94.7 1

103.2 0 0
1980 0

1981 119.0 119.0 1


1

1982 122.4 244.8 4


2

1983 131.6 394.8 9


3

157.6 630.4 16
1984 4

181.0 905.0 25
1985 5

217.8 1.306.8 36
1986 6

405
Métodos Estadísticos Varela/Llanos/Asnate

1987 244.1 1.708.7 49


7
n = 15 0 1.820.8 3.322.1 280

En la tabla 3, se muestran los cálculos necesarios para


ajustar una tendencia lineal a esta serie de 15 años mediante
el método de los números cuadrados.

Utilizando las fórmulas ajustadas para la pendiente y la


ordenada al origen se calcula
n

XY i i
3, 322.1
b1  i 1
n
  11.9
X 2 280
i
i 1

Y
n

Y i
1,822.8
b0  Y  i 1
  121.4
n 15

Puesto que el origen señalado fue el años medio (1980) de


la serie, se tiene:

Yi  121.4  11.9 X ;

Donde el origen es 1980 y X unidades = 1 año.

Esta ecuación se puede interpretar en la forma siguiente:


Para el año de origen asignado, 1980, la línea de tendencia
ajustada señala que se esperaba en los residentes de esta
ciudad pagara al gobierno federal $121.4 millones de

406
Métodos Estadísticos Varela/Llanos/Asnate

dólares por impuestos sobre la renta. Además, la pendiente


de b1 = 11.9 señala que esos pagos al gobierno federal están
aumentando allí a la tasa de 11.9 millones por año.
Para ajustar la línea de tendencia a los años observados
de la serie, basta sustituir los valores codificados apropiados
de X en la ecuación. Como por ejemplo para el año 1982,
donde X = 2, el valor de tendencia predicho (ajustado) se
obtiene mediante

Y10  121.4  11.9  (2)  145.2 millones de dólares

Para usar la línea de tendencia para fines de elaboración


de pronósticos, se puede proyectar la línea ajustada hacia el
futuro mediante la exploración matemática. Por ejemplo,
para predecir la tendencia en los pagos del año 1988 se
sustituye X = 8, el código para el año 1988 en la ecuación y
se pronostica que la tendencia es


1988 Y16  121.4  11.9  (8)  216.6 millones

Más aún, para los años 1989 hasta 1991 se pronostica que la
tendencia en pagos es:

407
Métodos Estadísticos Varela/Llanos/Asnate


1989 Y17  121.4  11.9  (9)  228.5 millones

1990 Y18  121.4  11.9  (10)  240.4 millones

1991 Y19  121.4  11.9  (11)  252.3 millones

En la figura 6 se traza a línea de tendencia ajustada


proyectada para 1981, junto con la serie del tiempo original.
Mientras la tendencia muestra el movimiento general a
largo plazo de la serie, se observa que hay varias
discrepancias entre los datos reales y el modelo lineal
ajustado. Por lo tanto es posible que un modelo curvilíneo
fuera más indicado de los patrones históricos en los datos y
quizá proporcione mejores proyecciones de los
movimientos futuros de la tendencia.

408
Métodos Estadísticos Varela/Llanos/Asnate

Fig 6 Ajuste de la línea de tendencia de


mínimos cuadros

Ajuste de una tendencia lineal de mínimos cuadros para un


numero par de años Para los datos de serie de tiempos
observados durante un numero par de año, se selecciona
como origen el primer año de serie y se asigna a ese año un
código X = 0.

Después a cada uno de los años siguientes se le asigna


código de números enteros consecutivos y crecientes: 1, 2,
3, 4, . . . . . , de modo que el último año en la serie, el año n,
tenga el código n – 1 por ejemplo, si una serie de tiempo
tiene n = 6 años de datos los códigos serian 0, 1, 2, 3, 4, 5.

409
Métodos Estadísticos Varela/Llanos/Asnate

Para ajustar una línea de tendencia de mínimos


cuadrados a los anuales, teniendo un numero par de años, la
serie de tiempos presentada en la tabla 4 y trazada en la
figura 7 representa los años anuales (en millones de dólares)
hechos a una compañía de seguros de vida, tanto por
concepto de intereses sobre préstamos con garantía de la
póliza, como por primas fraccionadas durante un periodo de
14 años de 1974 a 1987. En la tabla 18.11 se muestra los
cálculos necesarios.

Utilizando las ecuaciones (5) y (6) se determina que:

 n  n 
  X i    Yi 
X iYi   i 1   i 1 
n

 n
2, 520.4 
(91)(313.9)
14
bi  i 1
  2.1
 91
2 2
 n 
  Xi  819 
  i 1 
n
14
X
i 1
2
i
n

Y puesto que:

n n

 Yi
313.9 X i
91
Y  i 1
 22.42 y X i 1
  6.5
n 14 n 14

Entonces:

b0  Y  b1 X  22.42  (2.1)(6.5)  8.8

410
Métodos Estadísticos Varela/Llanos/Asnate

Fig 7 Pagos anuales de préstamos sobre pólizas y


documentos de primas a una compañía de seguros de vida
(1974 – 1987)

Tabla 4: Pagos anuales sobre préstamos de pólizas y


documento de primas a una compañía de seguros de (1974
– 1987)

Pagos
Año (Millones de
dólares)

1974 10.1

1975 11.3

1976 13.8

411
Métodos Estadísticos Varela/Llanos/Asnate

1977 16.1

1978 17.1

1979 18.0

1980 20.2

1981 22.9

1982 24.5

1983 25.9

1984 27.6

1985 30.1

1986 34.8

1987 41.5

Tabla 5: Cálculo de la línea de tendencias de mínimos


cuadros para 14 años de datos.

(Millones
Año Xi de X iYi X i2
dolaress)

1974 0 10.1 0 0

412
Métodos Estadísticos Varela/Llanos/Asnate

1975 1 11.3 11.3 1

1976 2 13.8 27.6 4

1977 3 16.1 48.3 9

1978 4 17.1 68.4 16


1979 5 18.0 90.0 25

1980 6 20.2 121.2 36

1981 7 22.9 160.3 49

1982 8 24.5 196.0 64

1983 9 25.9 233.1 81

1984 10 27.6 276.0 100

1985 11 30.1 331.1 121

1986 12 34.8 417.6 144

1987 13 41.5 539.5 169


n=14 91 313.9 5,520.4 819

413
Métodos Estadísticos Varela/Llanos/Asnate

Puesto que el primer valor observado en la serie de tiempo


se obtuvo para el año 1974, el origen se considera en el
medio de ese año.. Por lo tanto se tiene:

Yi  8.8  2.1X i

Donde el origen es 1974 y X unidades = 1 año

La ordenada al origen b = 8.8 es el valor ajustado de la


tendencia que refleja el pago (en millones de dólares) a la
compañía de seguros de vida por intereses sobre los
préstamos y primas fraccionadas durante 1974, año de
origen o base. La pendiente b1 = 2.1 señala que esos pagos
están aumentando a una tasa de 2.1. Millones de dólares por
año.

Para proyectar la tendencia en los pagos a la compañía de


seguros de vida por intereses sobre préstamos y primas
fraccionados hasta el año 1991, se sustituye X 0 17, el
código para el año 1991, en la ecuación y el pronóstico es:


1991 Y18  8.8   2.1 (17)  4.5 millones de dólares

En la figura 8 se traza la línea de tendencia ajustada


proyectada a 1991 junto con la serie de tiempo original. Un
análisis cuidadoso de la figura 8 muestra que en los años
más recientes de la serie se ha producido un marcado
414
Métodos Estadísticos Varela/Llanos/Asnate

aumento. ¿Se ajustará entonces mejor a la serie un modelo


de tendencia curvilínea?, se presentan dos de esos modelos
– un modelo de tendencia cuadrática y un modelo de
tendencia exponencial.

Fig. 8 Ajuste de la línea de tendencia de mínimos


cuadros.

 Ajuste de una tendencia cuadrática por el método


de los mínimos cuadrados.
El modelo cuadrático o “polinomial de segundo grado”
es el más sencillo de los modelos curvilíneos. Usando el
método de los mínimos cuadrados, se puede ajustar una
fórmula de tendencia cuadrática de la forma.


Y1  b0  b1 X 1  b11 X 12 (9)
415
Métodos Estadísticos Varela/Llanos/Asnate

Donde:

bo= ordenada de origen estimada


b1= efecto lineal estimado sobre Y
b11 =efecto curvilíneo estimado sobre Y

Los coeficientes de la muestra b0, b1 y b11 tendrían las


ecuaciones normales siguientes:

n n n
I.  Yi  nb0  b1  X i  b11  X i 2
i 1 i 1 i 1
(10a)
n n n n
II.  X iYi  b0  X i  b1  X i 2  b11  X i3
i 1 i 1 i 1 i 1
(10b)
n n n n
III.  X i 2  b0  X i 2  b1  X i3  b11  X i 4
i 1 i 1 i 1 i 1
(10c)

Los cálculos necesarios para los datos sobre los pagos a la


compañía de seguros de vida por concepto de intereses
sobre préstamos y de primas fraccionadas son:

416
Métodos Estadísticos Varela/Llanos/Asnate

n n n

 X i  91,
i 1
 Yi  313.9,
i 1
 X Y  2,520.4
i 1
i i ; n  14

n n n n

X
i 1
i
2
 819, X i 1
i
3
 8, 281 ,  X i 4  89.271,
i 1
X
i 1
i Yi  24,877.0
2

Las tres ecuaciones normales serían:

I. 313.9 = 14bº + 91b1 + 819b11


II. 520.4 = 91bº + 819b1 + 8,281b11
III. 4,877.0 = 819bº + 8,281b1 + 89,271b11

Los valores de los coeficientes b0, b1 y b11 se pueden


obtener solucionado las ecuaciones simultáneas o con un
paquete de computación. Los valores cálculos para datos
son:

b0  11.1, b1  .89, b11  .094

Puesto que el primer valor observado en la serie de


tiempo se obtuvo para el año 1974, la ecuación de tendencia
cuadrática ajustada se puede expresar como:


Yi  11.1  .89 X i  .094 X i 2

Donde el origen es 1974 y X unidades = 1 año.

417
Métodos Estadísticos Varela/Llanos/Asnate

Para usar la fórmula de tendencia cuadrática para fines


de elaboración de presupuestos se sustituyen en los valores
codificados apropiados de X en la ecuación. Por ejemplo,
para predecir la tendencia en los pagos para el año 1991 se
tiene:


1991 Y18  11.1  .89(17)  .094(172)  53.4 millones de dólares

Fig. 9 Ajuste de la ecuación de tendencia


cuadrática.

418
Métodos Estadísticos Varela/Llanos/Asnate

En la figura 9 se traza la ecuación de tendencia cuadrática


ajustada proyectada a 1991, junto con la serie de tiempo
original.

 Ajuste de una tendencia exponencial mediante el


método de los mínimos cuadrados:

Cuando una serie parece aumentar a una tasa creciente,


de modo que la diferencia porcentual de una observación a
otra sea constante, se puede ajustar una ecuación de
tendencia exponencial de la forma:


Yi  b0b1 X i (11)

Donde:

bº = ordenada al origen estimada


(b1 - 1)x100% = tasa de crecimiento compuesta
anual estimada (en porcentajes).
Si se conoce el logaritmo (base 10) de ambos lados de la
ecuación se tiene:


log Yi  log b0  X i log b1 (12)

Puesto que la ecuación (12) es lineal en su forma, se


puede usar el método de los mínimos cuadrados para

419
Métodos Estadísticos Varela/Llanos/Asnate

obtener la pendiente de esta línea (log b1) y su intercepción


(log bo ). Por lo tanto:

 n  n 
  X i    log Yi 
   
  X i log Yi   i 1

n
i 1

log b1  2
 n 
  Xi 
 
n

X
i 1
2
i  i 1

n
(13)

 log Y i
log b0  i 1
 X log b1 (14)
n

En la tabla 6 se presentan los cálculos necesarios para los


datos sobre los pagos a la compañía de seguros de vida, por
concepto de intereses sobre préstamos y primas
fraccionadas.
Usando las ecuaciones (13) y (14) se determina que:

 n  n 
  X i   log Yi 
  
  X i log Yi   i 1

n
i 1
129.55270 
(91)(18.43915)
14
log b1    .0426296
 91
2 2
 n 
  Xi  819 
X 2i   i 1 
n
14

i 1 n

Tabla 6 Cálculos para el modelo de la tendencia


exponencial
Impuesto
Xi s X i log Yi
Año log Yi i Xi2
($ de
dólares)
420
Métodos Estadísticos Varela/Llanos/Asnate

1974 0 10.1 1.00432 0 0

1975 1 11.3 1.05308 1.05308 1

1976 2 13.8 1.13988 2.27976 4

1977 3 16.1 1.20683 3.62049 9

1978 4 17.1 1.23300 4.93200 16

1979 5 18.0 1.25527 6.27635 25

1980 6 20.2 1.30535 7.83610 36

1981 7 22.9 1.35984 9.51888 49

1982 8 24.5 1.38917 11.11336 64

1983 9 25.9 1.41330 12.71970 81

10
1984 10 27.6 1.44091 14.40910
0
12
1985 11 30.1 1.47857 16.26427
1
14
1986 12 34.8 1.54158 18.49896
4
16
1987 13 41.5 1.61805 21.03465
9
n=1 18.4391 81
91 313.9 129.52270
4 5 9

421
Métodos Estadísticos Varela/Llanos/Asnate

Y puesto que:
n

X i
91
X i 1
  6.5
n 14

Entonces:

 log Y i
18.43915
log b0  i 1
 X log b1   (6.5)(.426296)  1.03999
n 14

Ya que el primer valor observado en la serie de tiempo se


obtuvo para el año 1974, la “línea de tendencia” ajustada se
puede expresar como:


log Yi  1.03999  .0426296 X i

Donde el origen es 1974 y X unidades = 1 años. Sin


embargo, los valores para b0 y b1 se pueden obtener con
facilidad tomando los antilogaritmos de los coeficientes en
esta ecuación.

bº = antilog1.03999  11.0
b1 = antilog.0426296  1.031

Por consiguiente la ecuación de la tendencia exponencial


se puede expresar como:

422
Métodos Estadísticos Varela/Llanos/Asnate


Yi  11.0(1.1031) X i

Donde el origen es 1974 y X unidades = 1 año.

La ordenada al origen bo = 11.0 es el valor de tendencia


ajustado que representa los pagos (en millones de dólares)
durante el año base de 1974. El valor (b0 - 1) x 100% =
10.31% es la tasa de crecimiento compuesta anual en los
pagos a la compañía de seguros vida.

Para los fines de elaboración de pronósticos se pueden


sustituir los valores apropiados codificados de X en
cualquiera de las dos ecuaciones dependiendo del tipo de
calculadora de que se disponga. Por ejemplo, para predecir
la tendencia en los pagos para el año 1991, se tiene:


1991 Y18  1.03999  .0426296(17)  1.7646932


Y18  anti log1.7464932  58.2 millones de dólares

O

1991 Y18  11.0(1.1031)17  58.3 millones de dólares

La diferencia en los pronósticos se debe al redondeo:

423
Métodos Estadísticos Varela/Llanos/Asnate

En la figura 10 se traza la ecuación de tendencia


exponencial

En la figura 10 se traza la ecuación de tendencia


exponencial ajustada a 1991, junto con la serie original de
tiempo.

Ahora se han observado los datos de series de tiempo


sobre los pagos a la compañía de seguros de vida, ajustado
mediante 3 modelos diferentes: lineal, cuadrático y
exponencial.

 Aislamiento y eliminación de la tendencia en los


datos anuales: Las relativas cíclicas –irregulares

424
Métodos Estadísticos Varela/Llanos/Asnate

En las secciones anteriores se estudio la tendencia como


ayuda para la elaboración de presupuestos intermedios y a
largo plazo. Sin embargo, como ya se ha observado, los
economistas y/o los diseñadores de pronósticos para
negocios quizá deseen también estudiar la tendencia, con el
fin de poder eliminar sus efectos de influencia del
modelo clásico multiplicativo de series de tiempo y, por
consiguiente, proporcionar la estructura para la elaboración
de presupuestos a corto plazo de la actividad general del
negocio. Rl procedimiento de aislar y eliminar de los datos
un factor componente se denomina descomposición de
series de tiempo. Puesto que el método de los mínimos
cuadrados proporciona valores de tendencia “ajustados” y;
para cada año en la serie, se puede eliminar con facilidad el
componente de tendencia Ti del modelo clásico
multiplicativo de series de tiempo (porque en cualquier año
determinado el componente de tendencia Ti se estima

mediante Yi ) Por lo tanto, en la ecuación (13) se puede
eliminar el componente de tendencia mediante la división
siguiente:

Yi  Ti .Ci .li Yi

Por lo que:
Yi Ti .Ci .I i

 
Yi Yi

425
Métodos Estadísticos Varela/Llanos/Asnate


Pero puesto que Yi  Ti se tiene:

Yi Ti .Ci .I i

 
 Ci .I i
Yi Yi

Las razones de los valores observados con los valores de la



tendencia ajustada Yi / Yi calculadas para cada año en la
serie, se denomina relativas cíclicas-irregulares.

Estos valores, que fluctúan alrededor de una base de 1.0,


muestran la actividad tanto cíclica como regular en la serie.

Tabla 7 Obtención de las relativas cíclicas – irregulares


4) Tendencia 
1) 3) Yi
2) Xi ajustada 5) Yi / Y
Año (millones) i
Yi = 8.8+2.1Xi

1974 0 10.1 8.8 1.148

1975 1 11.3 10.9 1.037

1976 2 13.8 13.0 1.062

1977 3 16.1 15.1 1.066

426
Métodos Estadísticos Varela/Llanos/Asnate

1978 4 17.1 17.2 .994

1979 5 18.0 19.3 .933

1980 6 20.2 21.4 .944

1981 7 22.9 23.5 .974

1982 8 24.5 25.6 .957

1983 9 25.9 27.7 .935

1984 10 27.6 29.8 .926

1985 11 30.1 31.9 .944

1986 12 34.8 34.0 1.024

1987 13 41.5 36.1 1.150

Volviendo al ejemplo anterior de la tabla 7, se muestran


las relativas cíclicas-irregulares para los datos de las series
de un tiempo de 14 años, que reflejan los pagos anuales a la
compañía de seguros de vida tanto por concepto de intereses
sobre préstamos con garantía de pólizas como por
pago de documentos de primas. Para mostrar los cálculos
427
Métodos Estadísticos Varela/Llanos/Asnate

de estas relativas cíclicas-irregulares se utiliza la fórmula de


tendencia lineal obtenida mediante el método de mínimos
cuadrados. En tabla 7 se determinan los valores de
tendencia ajustados [columna (4)] con sólo sustituir los
valores X adecuadamente codificados [columna (2)] en el
modelo de tendencia lineal. Para cada año en la serie se ve
que el valor observado [columna (3)] se divide después
entre el valor de la tendencia ajustado [columna (4)] para
producir la relativa cíclica-irregular [columna (5)]. En la
figura 11 se traza esta serie de relativas cíclicas-irregulares.
Con datos anuales a cabo la “descomposición” adicional de
series de tiempo.

Figura 11 trazado de relativas cíclicas-irregulares.

428
Métodos Estadísticos Varela/Llanos/Asnate

5.7. SELECCIÓN DE MODELO DE PRONÓSTICO


APROPIADO

Los tres modelos de series de tiempo para elaborar


pronósticos de amplio uso: el modelo de tendencia lineal, el
de tendencia cuadrática y el de tendencia exponencial. En
la sección de otros métodos de análisis de series de tiempo
anuales, se examinarán otros dos modelos muy utilizados de
series de tiempo para elaborar pronósticos, uno basado en
los promedios móviles y el otro en la suavización
exponencial. ¿Entre otros modelos como éstos (y otros)
cuál debe seleccionar el investigador para los fines de
elaboración de pronósticos? Para la selección del modelo se
ofrecen tres enfoques como pautas:

1. Realizar un análisis residual.


2. Medir la magnitud del error de pronóstico.
3. Usar el principio de parquedad.

Los métodos de mayor utilización para establecer lo


adecuado de un modelo particular de elaboración de
pronósticos se basan en el criterio de lo bien que se ha
ajustado a un determinado grupo de datos de series de
tiempo. Por supuesto que estos métodos suponen que los
futuros movimientos en las series pueden proyectar
mediante un estudio de los patrones del comportamiento en
el pasado. Este tipo de método sirve para realizar un
análisis residual; un segundo método es medir la magnitud
del error de pronóstico.
429
Métodos Estadísticos Varela/Llanos/Asnate

Error del pronóstico (et ) en el periodo I se puede definir


como la diferencia entre el valor real de la serie (Yt ) y el
valor predicho de la serie Yt). Es decir

Error de pronóstico en el periodo = et = Yt - Yt


(14)

Recuérdese que en el estudio del análisis de regresión,


estas diferencias entre los datos observados Yt y los
ajustado Yt, se conocen como residuales.

 Análisis residual
Una vez que un modelo en particular se ha ajustado a una
determinación de serie de tiempo, se pueden trazar los
residuales a lo largo de n periodo como se muestra en la
figura 12a), si este modelo se ajusta adecuadamente, los
residuales presentan el componente irregular de la serie de
tiempo y, por consiguiente deben estar distribuidos en
forma aleatoria en la serie. Por otra parte, como se muestra
en las otras tres secciones de la figura 12, si el modelo no se
ajusta adecuadamente los residuales pueden presentar algún
patrón sistemático como fallas para explicar la tendencia
(b), la variación cíclica (c) o, con datos mensuales, explicar
la variación estacional (d).

430
Métodos Estadísticos Varela/Llanos/Asnate

Fig 12 Un análisis residual para estudiar los patrones


de los errores

 Medición del error de pronóstico

Si después de realizar un análisis residual el investigador


aún cree que dos o más modelos parecen ajustarse en forma
adecuada a los datos, entonces un segundo método utilizado
para la selección del modelo se basa en medir la magnitud
de error de pronóstico. Se han propuesto numerosas
medidas y, desafortunadamente, no hay un consenso entre
los investigadores sobre cuál medida en particular es la
mejor para determinar el modelo más adecuado de
elaboración de pronósticos.

431
Métodos Estadísticos Varela/Llanos/Asnate

Con base en el principio de los mínimos cuadrados, una


medida que ya se ha utilizado en el análisis de regresión es
la variación no explicada:

n 
Variación no exp licada   ( Yi  Y1 ) (16)
i 1

Para un modelo en particular esta medida se basa en la


suma de las diferencias al cuadrado entre los valores reales
y ajustados en una determinada serie de tiempo. Si el
modelo tuviera que ajustar perfectamente los datos del
pasado de la serie de tiempo, entonces la variación no
explicada sería cero. Por otra parte, si el modelo tuviera
que ajustar deficientemente los datos pasados de la serie de
tiempo, la variación no explicada sería grande. Por lo tanto,
al comparar lo adecuado de dos o más modelos de
elaboración de presupuestos, se puede seleccionar como el
más apropiado aquél con la variación no explicada mínima
sobre la base de ajustes anteriores de una determinada serie
de tiempo.

No obstante, una importante desventaja de utilizar la


medida de variación no explicada al comparar los modelos
de elaboración de pronósticos, es que castiga demasiado a
un modelo por los grandes errores de elaboración de
pronósticos. Es decir, siempre que haya una gran
discrepancia entre Y; y Yi el cálculo para la variación no
explicada se exagera debido al proceso de elevación al
cuadrado. Por esta razón la medida que la mayoría de los
investigadores parecen preferir para evaluar lo adecuado
432
Métodos Estadísticos Varela/Llanos/Asnate

de diversos modelos de elaboración de pronósticos es la


desviación media absoluta (MAD)
n 
 Y Y i 1
MAD  i 1
(17)
n

Para un modelo en particular MAD es una medida del


promedio de las discrepancias absolutas entre los valores
actuales y ajustados en una determinada serie de tiempo. Si
el modelo tuviera que ajustar perfectamente los datos
pasados de la serie de tiempo, MAD sería cero; si el
modelo tuviera que ajustar deficientemente los datos
pasados de la serie tiempo, la MAD sería grande. Por lo
tanto, al comparar los méritos de dos ó más modelos de
elaboración de presupuestos se puede seleccionar aquél con
la MAD mínima con la más apropiada sobre la base de
ajustes anteriores de la serie de tiempo determinada.

 Principio de la parquedad

Si después de realizar un análisis residual y comparar las


medidas MAD obtenidas, el investigador aún cree que dos o
más modelos parecen ajustar los datos apropiadamente,
entonces un tercer método para la elección del modelo se
basa en el principio de parquedad. Es decir, el investigador
debe elegir el modelo más sencillo que realice el trabajo en
forma adecuada.

433
Métodos Estadísticos Varela/Llanos/Asnate

 Comparación de cinco métodos de elaboración de


pronósticos

Como ejemplo del proceso de selección del modelo se


consideran de nuevo los datos de la serie de tiempo de los
pagos a la compañía de seguros de vida. Se compararán
cinco métodos de elaboración de pronósticos: dos métodos
muy sencillos y los tres modelos de tendencia cada vez más
complejos (lineal, cuadrático y exponencial). En la tabla 8
se presentan los valores reales (Yi), los valores ajustados (

Y1 ) y los residuales (e) para cada uno de los cinco métodos
de elaboración de pronósticos. Ahora se pide al lector que
realice un análisis residual para cada uno de los métodos de
elaboración de pronósticos con el fin de comprender mejor
el siguiente estudio.

El método más sencillo de elaboración de pronósticos es


el pronóstico de la media. Es decir, en el periodo t se
pronostica que el valor de la serie es igual a la media de la
serie:

Y1  Y (18)

El análisis de los residuales relacionado en la tabla 8


muestra que este método de elaboración de pronósticos no
es el adecuado para estos datos. Los efectos de tendencia y
los efectos cíclicos en la serie se han perdido por completo.

Otro método sencillo de elaboración de pronósticos es el


pronóstico autoregresivo ingenuo (o aleatorio). Es decir, al
434
Métodos Estadísticos Varela/Llanos/Asnate

aprovechar el hecho de que quizá exista una alta correlación


entre pares consecutivos de valores en una serie de tiempo,
se puede pronosticar que el valor en la serie el periodo t es
igual al valor real observado en el periodo anterior (es decir,
el periodo t – 1):


Y1  Yt 1 (19)

Aquí también el análisis de los residuales relacionados


en la tabla 8 muestra que este método de elaboración de
pronósticos es inadecuado. El nivel general de la serie de
tiempo se ha perdido por completo (todos los valores e, son
positivos) así como los efectos cíclicos.

Aparte del hecho de que en cada uno de los casos no se


tomaron en cuenta los efectos cíclicos, un análisis residual
para los tres modelos de series de tiempo más complejos
presentados en la tabla 8 (lineal, cuadrático y exponencial)
no parece mostrar otros patrones sistemáticos. Sin
embargo, como sólo se observan 14 puntos de datos se debe
tener precaución con estas conclusiones en particular para el
modelo lineal en donde el último residual (5.4) es mucho
mayor que cualquiera de los otros, por lo que bien puede
indicar la falta de un efecto de tendencia tipo exponencial.

Para mayor ayuda aún más en el proceso de elección, en


la tabla 8 también se presentan los cálculos de la desviación
media absoluta (MAD) para los cinco métodos de
elaboración de pronósticos. Es interesante observar que la

435
Métodos Estadísticos Varela/Llanos/Asnate

comparación de los diversos resultados MAD para estos


datos señala que cuanto más complejo sea el modelo, mejor
será el ajuste. Por lo tanto, con base en estos hallazgos se
puede seleccionar el modelo exponencial para fines de
elaboración de pronósticos con esta serie de tiempo.
No obstante, se debe observar que puesto que los valores
MAD son bastante similares, muchos
investigadores podrían elegir el principio de parquedad y
seleccionar el modelo cuadrático en su lugar.
Tabla 8 Comparación de cinco métodos de elaboración de
pronósticos usado la desviación media absoluta (MAD)

436
Métodos Estadísticos Varela/Llanos/Asnate

 Selección de modelos: Una advertencia

Una vez que selecciona un determinado modelo de


elaboración de pronósticos es indispensable que el
investigador supervise apropiadamente el modelo escogido.

Después de todo, el objetivo al seleccionar el modelo es


poder proyectar o pronosticar movimientos futuros en un
grupo de datos de serie de tiempo. Lamentablemente esos
modelos de elaboración de pronósticos por lo general son
deficientes para detectar cambios en la estructura
fundamental de la serie de tiempo. Es importante pues
examinar esas proyecciones junto con las obtenidas por
otros métodos de elaboración de pronósticos, como el uso
de indicadores adelantados. Tan pronto como se observa un
nuevo valor de datos ( Yt ) en el periodo t se tiene que

comparar con su proyección ( Yt ). Si la diferencia es
demasiado grande, se debe revisar el modelo de
elaboración de pronósticos.

5.8. OTROS METODOS DE ANALISIS DE SERIES


DE TIEMPO ANUALES: PROMEDIOS MOVILES Y
SUAVIZACIÓN EXPONENCIAL

La figura 13 muestra el número de automóviles vendidos


anualmente por las plantas fabricantes de éstos en Estados
Unidos durante un periodo de 27 años, desde 1960 hasta
1986. Al examinar información anual como ésta, la
impresión visual de las tendencias generales a largo plazo, o
437
Métodos Estadísticos Varela/Llanos/Asnate

movimientos en las series, se oscurece por las amplias


fluctuaciones en sus componentes cíclicos e irregulares. En
ese caso resulta difícil juzgar si una tendencia lineal o
curvilínea ajustaría mejor a determinado grupo de datos, o,
al igual que en la figura 13, si en realidad hay un efecto de
tendencia descendente o ascendente en los datos, a largo
plazo.

Bajo condiciones como estas se pueden utilizar el


método de los promedios movibles o el método de la
suavización exponencial para “suavizar” una serie y de esta
forma dar la impresión en cuanto al patrón general de
movimientos a largo plazo en la información libre de
efectos perturbadores cíclicos e irregulares indeseables.

438
Métodos Estadísticos Varela/Llanos/Asnate

Figura: 13 Ventas de las fábricas de automóviles


estadounidenses (1960 - 1986)

 Promedios móviles

A diferencia del método de los mínimos cuadrados, el


método de promedios móviles para estudiar la tendencia es
demasiado subjetivo y depende de la duración del periodo
seleccionado para elaborar promedios. Para eliminar las
fluctuaciones cíclicas el periodo seleccionado debe tener un
valor entero que corresponde a la duración estimada de un
ciclo en la serie (o que sea su múltiplo). Por lo tanto para la
información de las ventas al menudeo (figura 1) se estimó
en forma subjetiva que la duración cíclica promedio-medida
del punto más alto o de la sima a la sima fue de 3.5 años;
puesto que 7es múltiplo de 3.5, se ajustaron a los datos
promedios móviles de 7 años con el fin de señalar la
tendencia.

Pero ¿Qué son los promedios móviles y como se


calculan?

Los promedios móviles para un periodo de duración


seleccionado L consiste en una serie de medidas aritméticas
calculadas a largo del tiempo, de modo que cada medida se
calcula para una sucesión de valores observados que tengan
esa duración en particular L.

Por ejemplo, los promedios móviles de 5 años constan de


una serie de medias obtenidas al paso del tiempo al
439
Métodos Estadísticos Varela/Llanos/Asnate

promediar sucesiones consecutivas que contienen cinco


valores observados. En general, para cualquier serie
compuesta de n años, se puede calcular un promedio móvil
de duración L (representado por el símbolo Y) en el año i en
la forma siguiente:

( L 1 ) / 2
1
Yi 
L

L
 Y( i  t )
t ( 1 L ) / 2
(20)

Donde: L = un número impar de años

 L 1  L 1  L 1


i   1,    2,  , n   
 2   2   2 

Como un ejemplo del uso de la ecuación (20), supóngase


que se desean calcular promedios móviles de 5 años para
una serie que contienen n = 11 años. Puesto que L = 5
entonces i = 3, 4, 5,…9
Por
5 consigu
Y 3  1 / 5(Y1  Y2  Y3  Y4  Y5 )
iente se
5
Y 4  1 / 5(Y2  Y3  Y4  Y4  Y6 ) tiene:
5
Y 5  1 / 5(Y3  Y4  Y5  Y6  Y7 )
5
Y 6  1 / 5(Y4  Y5  Y6  Y7  Y8 )
5
Y 7  1 / 5(Y5  Y6  Y7  Y8  Y8 )
5
Y 8  1 / 5(Y6  Y7  Y8  Y9  Y10 )
5
Y 9  1 / 5(Y7  Y8  Y9  Y10  Y11 )
440
Métodos Estadísticos Varela/Llanos/Asnate

Nótese que cuando el periodo seleccionado de duración L


es un número impar, el promedio móvil Y en el año i está
“centrado” en i, el año medio en la secuencia de calores
anuales L utilizados para calcularlo. Además, se observa
que no se pueden obtener promedios móviles de ningún tipo
para los primeros años (L – 1)/2 o los últimos años (L -1)/2
en la serie.

Observemos de nuevo la serie de ventas de automóviles


mostrada en la figura 13. La tabla 9 proporciona la
información anual sobre la venta de automóviles junto con
los cálculos para los promedios móviles de 3 y de 7 años.
Ambas series se trazan en la figura 14 con los datos
originales.

441
Métodos Estadísticos Varela/Llanos/Asnate

Fig. 14 Gráfica de los promedios móviles de 3 y 7


años.

En la práctica, para calcular promedios móviles de 3


años, primero se obtiene una serie de totales móviles de 3
años como se muestra en la columna 3) de la tabla 9 y
después de se divide cada uno de estos totales entre 3. Los
resultados aparecen en la columna 4). Por ejemplo, puesto
que la serie de tiempo observada se registró por primera vez
en 1960, el total móvil de los primeros 3 años consiste en la
suma de los tres primeros valores anuales registrados -6.7,
5.5. y 6.9.
Tabla 9 Promedios móviles de tres y siete años de las
ventas de fábricas de automóviles en E.U. (1960 – 1986).

1) Año 2) 3) 4) 5) 6)
Millones Total Promedio Total Promedio
de móvil móvil móvil móvil
automóvil de tres de de 7 años de 7 años
es años tres años
vendidos
1960 6.7 - - - -
1961 5.5 19.1 6.4 - -
1962 6.9 20.0 6.7 - -
1963 7.6 22.3 7.4 52.4 7.5
1964 7.8 24.7 8.2 53.1 7.6
1965 9.3 25.7 8.6 56.4 8.1
1966 8.6 25.3 8.4 57.7 8.2
1967 7.4 24.8 8.3 56.6 8.1
1968 8.8 24.4 8.1 57.4 8.2
1969 8.2 23.5 7.8 56.9 8.1

442
Métodos Estadísticos Varela/Llanos/Asnate

1970 6.5 23.3 7.8 58.0 8.3


1971 8.6 23.9 8.0 57.9 8.3
1972 8.8 27.1 9.0 55.8 8.0
1973 9.7 25.8 8.6 56.1 8.0
1974 7.3 23.7 7.9 58.8 8.4
1975 6.7 22.5 7.5 59.4 8.5
1976 8.5 24.4 8.1 59.0 8.4
1977 9.2 26.9 9.0 55.7 8.0
1978 9.2 26.8 8.9 54.6 7.8
1979 8.4 24.0 8.0 52.9 7.6
1980 6.4 21.0 7.0 51.1 7.3
1981 6.2 17.6 5.9 49.5 7.1
1982 5.0 17.9 6.0 48.3 6.9
1983 6.7 19.3 6.4 47.4 6.8
1984 7.6 22.3 7.4 - -
1985 8.0 23.1 7.7 - -
1986 7.5 - - - -

Este total móvil, 19.1 se “centra” después de modo que se


haga un registro contra el año 1961. Para obtener el total
móvil del año 1962 que consta de los datos de ventas
anuales observados para los años 1961, 1962 y 1963 basta
sumar el siguiente valor observado en la serie de tiempo
(año 1963) al total móvil anterior y después se resta del
primer valor (el más antiguo) en la serie. Este proceso
continúa de modo que el total móvil de 3 años para
cualquier año i en particular en la serie, represente la suma
del valor observado para el año i junto con los valores
observados para el año anterior y para el año siguiente. Por
443
Métodos Estadísticos Varela/Llanos/Asnate

otra parte, con totales móviles de 7 años el resultado


calculado y registrado para el año i consiste en el valor
observado en la serie de tiempo para el año i más los tres
valores observados anteriores y los tres posteriores. Para
“mover el total del año 7” de un año a otro,
simplemente se suma al total anterior el siguiente valor
observado en la serie de tiempo y se elimina el valor más
antiguo que aparecía en el total anterior. Este proceso
continúa a lo largo de la serie. Entonces los promedios
móviles de 7 años se obtienen dividiendo la serie de totales
móviles entre 7.

En las columnas 3) y 4) de la tabla 9 se observa que, al


obtener los promedios móviles de 3 años, no se puede
calcular resultado alguno para el primero o el último valor
observado en la serie de tiempo. Es más, como se observa
en las columnas 5) y 6), al calcular promedios móviles de
7 años no hay resultados para los primeros valores
observados o los últimos tres. Esto ocurre porque el
primero total móvil de 7 años para la información
disponible consiste en el número de automóviles vendidos
en los años 1960 a 1966, que está centrado en 1963,
mientras que el último total móvil consiste en el número de
ventas de automóviles registrados desde 1980 hasta 1986,
centrado en 1983.
En la figura 14 se puede observar con toda claridad que los
promedios móviles de 7 años suavizan la serie mucho más
que los promedios a 3 años, puesto que el periodo es de
mayor duración. Sin embargo, lamentablemente, como ya
se había observado antes, cuanto más largo sea el periodo,
444
Métodos Estadísticos Varela/Llanos/Asnate

menor es el número de valores promedio móviles


que se puede calcular y trazar. Por lo tanto, por lo general
no es deseable seleccionar promedios móviles con periodos
de duración mayores a 7 años, puesto que faltarían
demasiados puntos de datos calculados al inicio o al final de
la serie, haciendo más difícil obtener una impresión general
de la tendencia a través de toda serie.

 Suavización exponencial

La suavización exponencial es otra técnica que se puede


utilizar para suavizar una serie de tiempo y de esta forma
dar la impresión de los movimientos generales a largo plazo
en la información. Además, el método de suavización
exponencial se puede usar para obtener pronósticos a corto
plazo (un periodo a futuro) para series de tiempo como las
que se muestran en la figura 13, en las cuales resulta dudoso
el tipo de efecto de tendencia a largo plazo que hay en la
información, si es que lo hay. De hecho, el método de
suavización exponencial recibe dicho nombre porque
proporciona un problema móvil exponencialmente
ponderado a través de la serie de tiempo; es decir, en toda la
serie cada cálculo o pronóstico suavizador depende de todos
los valores previamente observados. Esta es otra ventaja
sobre el método de los promedios móviles, que no toman en
cuenta todos los valores observados disminuyen al paso del
tiempo, por lo que cuando se hacen cálculos el valor
observado más reciente recibe el peso más alto, el valor
observado con anterioridad recibe el segundo valor más alto

445
Métodos Estadísticos Varela/Llanos/Asnate

y así sucesivamente, recibiendo el peso más bajo el valor


observado inicialmente.

Aunque la magnitud del trabajo que implica esta


descripción parezca enorme, en realidad los cálculos son
muy sencillos. Si se centra la atención en los aspectos
suavizadores de la técnica (en lugar de en los aspectos de
elaboración de pronósticos), las formulas desarrolladas para
suavizar exponencialmente una serie en cualquier periodo i
se basan en sólo tres términos – el valor observado en la
actualidad en la serie de tiempo Yi , el valor previamente
calculado suavizado exponencialmente  i 1 y alguna
ponderación o coeficiente de suavización subjetivamente
asignada W, por lo tanto, para suavizar una serie en
cualquier periodo i se cuenta con la expresión siguiente:

i  WYi  ( 1  W ) i 1 (21)

Donde:

- Valor de la serie exponencialmente suavizada ya


calculada en el periodo i.
- i 1  Valor de la serie exponencialmente suavizada
ya calculada en el periodo i – 1
- Yi = valor observado de la serie de tiempo en el
periodo i
- W = ponderación o coeficiente de suavización
asignados en forma subjetiva (donde 0<W<1)
446
Métodos Estadísticos Varela/Llanos/Asnate

La elección de un coeficiente o ponderación de


suavización que se debe asignar a la serie de tiempo es muy
importante, puesto que reflejará los resultados,
desafortunadamente, esta selección es bastante subjetiva.
Sin embargo, con relación a la capacidad de suavización se
puede observar en la s figuras 14 y 15 que una serie de
promedios móviles de términos L está relacionada con una
serie exponencialmente suavizada con una ponderación W
en la forma siguiente:

2
W (22)
L1

O bien:

2
L 1 (23)
W

En la ecuaciones (22) y (23) se observa que con relación


a la capacidad de suavización se encuentran similitudes
entre la serie de promedios móviles de 3 años (figura 14) y
la serie exponencialmente suavizada con ponderación W =
0.50 (véase figura 15). Además, nótese que la serie de
promedios móviles de 7 años (figura 14) corresponde a la
serie exponencialmente suavizada con ponderación W =
0.25 (véase figura 15). Al examinar cómo las dos series de
suavización (una con W = 0.25 y la otra con W = 0.50) se
ajustan a los datos observados en la figura 15, se puede
comprender que la elección de un coeficiente
447
Métodos Estadísticos Varela/Llanos/Asnate

determinado de suavización U’ depende del propósito del


usuario. Si sólo se desea suavizar una serie mediante la
eliminación de variaciones cíclicas e irregulares
indeseables, se debe seleccionar un valor pequeño para W
(más cerca de cero). Por otra parte, si la meta es la
elaboración de pronósticos, se debe elegir un valor mayor
de W (cercano a 1).

En el primer caso las tendencias generales a largo plazo


de la serie serán aparentes; en el último caso quizá se
pronostiquen en forma más adecuada las direcciones a corto
plazo.

448
Métodos Estadísticos Varela/Llanos/Asnate

fig. 15 gráfica de la serie suavizada exponencialmente (W


= 0.50 y W = 0.25)

Para utilizar el promedio móvil exponencialmente


ponderado para fines de elaboración de pronósticos en lugar
de suavización, tan sólo se toma el valor suavizado en el
periodo actual (por ejemplo el periodo i) como el estimado
proyectado de valor observado en la serie de tiempo en el
siguiente periodo, i + 1, es decir:


Y i 1 i (24)

Por ejemplo, para pronosticar el número de automóviles


de las plantas armadoras en estados Unidos que se venderán
en el año 1987, se usaría como su estimado el valor
suavizado para el año 1986. En la tabla 18.16, para un
coeficiente de suavización de W = 0.50, esa proyección es
7.5 millones de automóviles. Una vez que se cuenta con los
datos observados para el año 1987 se puede usar las
ecuación (21) para preparar un pronóstico para el año 1988
(obteniendo el valor suavizado para 1987) en la forma
siguiente:

1987  WY1987  ( 1  W ) 1986

Tabla 10 Series exponencialmente suavizadas de ventas en


las fábricas de automóviles en EUA (1960 - 1986)

449
Métodos Estadísticos Varela/Llanos/Asnate

Millones de W W
Año automóviles = =
vendidos .50 .25
1960 6.7 6.7 6.7
1961 5.5 6.1 6.4
1962 6.9 6.5 6.5
1963 7.6 7.0 6.8
1964 7.8 7.4 7.0
1965 9.3 8.4 7.6
1966 8.6 8.5 7.8
1967 7.4 8.0 7.7
1968 8.8 8.4 8.0
1969 8.2 8.3 8.4
1970 6.5 7.4 8.1
1971 8.6 8.0 7.8
1972 8.8 8.4 8.0
1973 9.7 9.0 8.3
1974 7.3 8.2 8.5
1975 6.7 7.4 8.5
1976 8.5 8.0 8.0
1977 9.2 8.6 8.3
1978 9.2 8.9 8.5
1979 8.4 8.6 8.5
1980 6.4 7.5 8.0
1981 6.2 6.8 7.6
1982 5.0 5.9 7.0
1983 6.7 6.3 6.9
1984 7.6 7.0 7.1
1985 8.0 7.5 7.3
1986 7.5 7.5 7.4

450
Métodos Estadísticos Varela/Llanos/Asnate

Valor suavizado actual = (W) (valor observado actual) O,


en términos de elaboración de pronósticos,

 
Y 1988  WY1987  ( 1  W ) Y 1987

Nuevo pronóstico = (W) (valor observado actual) +


(1  W ) (pronóstico actual)

En la tabla 11 se relacionan los cálculos para las dos


series suavizadas (utilizando las ponderaciones respectivas
de W = 0.25 y W = 0.50 y, como se señalo antes, se trazan
en la figura junto con la serie de tiempo original. Para
demostrar los cálculos, considérese por un momento la serie
exponencialmente suavizada con una ponderación W = 0.25
por ejemplo, como punto de partida simplemente se usa el

valor observado inicial Y 1960  6.7 como el primer valor
suavizado ( 1960  6.7 ) y como el primer valor de pronóstico

( Y 1961  6.7 ). Ahora, utilizando el valor observado de la
serie de tiempo para el año 1961 (Y1961 = 5.5) se puede
suavizar la serie para el año 1961 mediante el cálculo.

1961 WY1961  ( 1  W ) 1960


 (.25 )( 5.5 )  (.75 )  6.4 millones

Por supuesto, este valor suavizado también sirve como



valor de pronóstico para el año siguiente ( Y 1962  6.4 ). El
proceso continua en la misma forma hasta que se hayan
451
Métodos Estadísticos Varela/Llanos/Asnate

suavizado todos los valores en la serie y los resultados


trazados en la figura 15.

Los métodos de promedios móviles exponencialmente


ponderados para suavizar y pronosticar han obtenido amplio
reconocimiento durante las dos últimas décadas como
pautas para la planeación y el control gerencial. Los
paquetes de computación con que se cuenta son de
incalculable valor para manejar los cálculos laboriosos a
estos métodos.

EL MÉTODO DE PRONÓSTICO DE HOLT –


WINTERS

El método de elaboración de pronósticos de Holt -


Winters es una ampliación perfeccionada del enfoque de la
suavización exponencial descrita en la sección anterior.
Mientras que el procedimiento de suavización exponencial
proporciona una impresión general, movimientos a largo
plazo en la información y permite la elaboración de
pronósticos a corto plazo, la técnica más compleja de Holt -
Winters permite también el estudio de tendencia a futuro
mediante la elaboración de pronósticos a plazos intermedios
o largos. En la figura 16 se resaltan las diferencias entre los
dos procedimientos.

452
Métodos Estadísticos Varela/Llanos/Asnate

Fig. 16 Suavización exponencial y el método de Holt –


Winters

En la sección a) se observa que la suavización


exponencial se puede utilizar de un modo más efectivo para
la elaboración de pronósticos a corto plazo (un periodo a
futuro). Por supuesto, este pronóstico se puede ampliar a
numerosos periodos a futuro.

Esto tendría significado si no existiera una tendencia


general ascendente o descendente en la serie; sin embargo,
si ocurre cualquier movimiento ascendente o descendente,
esta proyección horizontal, como la del método del
pronóstico de la media, lo pasará por alto. Por otra parte, el
método de elaboración de pronósticos de Holt-Winters de la
sección b) está diseñado para detectar estos fenómenos. Por
lo tanto dicha técnica proporciona al mismo tiempo el
453
Métodos Estadísticos Varela/Llanos/Asnate

estudio del nivel general de movimientos y de la tendencia


futura en una serie.

Para usar este método en cualquier periodo i se tiene que


estimar en forma continua el nivel de la serie (es decir, el
valor suavizado e i) y el valor de la tendencia (Tj). Esto se
logra mediante la solución de las ecuaciones siguientes:

Nivel i  U ( i 1 Ti 1 )( 1  U )Y1 (25a)


Tendencia Ti  VTi 1  )( 1  V )( i  i 1 ) (26b)
Donde:

 i = nivel de la serie suavizada, calculada en el periodo i


i  1 = nivel de la serie suavizada ya calculada en el
periodo i  1
Ti = valor del componente de tendencia calculada en el
periodo i
Ti 1 = valor del componente de tendencia ya calculado en el
periodo i  1
Y¡ = valor observado de la serie de tiempo en el periodo
i
U = constante de suavización subjetivamente asignada
(donde O < U < 1)
V = constante de suavización subjetivamente asignada
(donde O < V < 1)

454
Métodos Estadísticos Varela/Llanos/Asnate

Para comenzar los cálculos se establece £2 = Ya y T2 =


Y2 - Y i y se eligen constantes de suavización para U y V.
Después se puede calcular g¡ y T¡ para todos los i años, i =
3, 4,..., n.

Como un ejemplo del método de elaboración de pronósticos


de Holt-Winters regresemos a la serie de tiempo presentada
en la tabla 2, y trazada en la figura 5, que representan los
impuestos sobre la renta anuales pagados al gobierno
federal por los residentes de una ciudad del medio oeste en
un periodo de 15 años, de 1973 a 1987. En la tabla 11 se
muestran los cálculos con constantes seleccionadas U = 0.3
y V = 0.3. Para comenzar se establece:

2  Y2  61.5

Y
T2  Y2  Y1  61.5  55.4  6.1

Al seleccionar las constantes de suavización U = 0.3 y V =


0.3, las ecuaciones (18.29a) y (18.29b) se convierten en:

i  .3( i 1 Ti 1 )  .7Y1 

Y
Ti  .3( Ti 1 )  .7( i  i 1 )

Como ejemplo, para 1975, el tercer año, i = 3 y se


tiene
455
Métodos Estadísticos Varela/Llanos/Asnate

 ¡= .3 (61.5 + 6.1) + .7 (68.7) = 68.4


Y
T3 = .3 (6.1) + .7 (68.4 - 61.5) = 6.7

A continuación estos valores se utilizarían en las ecuaciones


(25a) y (25b) para obtener  4 y T4 y así sucesivamente,
obteniendo los resultados que se muestran en la tabla 18.17.

Para usar el método de Holt-Winters se supone que todos


los movimientos futuros de tendencias continuarán desde el
nivel suavizado más reciente en Por lo tanto para
pronosticar] años en el futuro se tiene


Y n  j n  j( Tn ) (26)

Donde:


Y n  j  Valor pronosticado j años en el futuro
n  Nivel de las series suavizadas calculado en el periodo
n más reciente
Tn = valor del componente de tendencia calculado en el
periodo n más reciente
j = número de años en el futuro

Usando  15 y T15 los últimos estimados del nivel y la


tendencia actuales, respectivamente, los pronósticos de los

456
Métodos Estadísticos Varela/Llanos/Asnate

pagos del impuesto sobre la renta federal para los años 1988
a 1991 se obtienen de la ecuación en la forma siguiente:


Y n  j n  j( Tn )

Tabla 11: Uso del método de Holt Winters de los


impuestos anuales sobre la renta pagadas al gobierno
federal (1973 - 1987)

457
Métodos Estadísticos Varela/Llanos/Asnate

1988: 1 año por anticipado



Y 16 15 1(T15 )  244.0  31.4  274.4millones de dólares
1989; 2 años por anticipado

Y 17 15 2( T15 )  244.0  2( 31.4 ) = 306.8 millones de
dólares.

1990: 3 años por anticipado



Y 18 15 3( T15 )  244.0  3( 31.4 ) = 338.2 millones de
dólares 1991; 4 años por anticipado

Y 19 15 4( T15 )  244.0  4( 31.4 ) = 369.6 millones de
dólares

En la figura 17 se trazan los datos y los pronósticos

458
Métodos Estadísticos Varela/Llanos/Asnate

Figura 17 uso del método de Holt – Winters e los


impuestos anuales sonre la renta pagados al gobierno
federal
5.9 MODELOS AUTORREGRESIVOS PARA
REALIZAR PRONÓSTICOS ANUALES DE
SERIES DE TIEMPO

Otro enfoque útil para la elaboración de presupuestos con


datos de series de tiempo anuales se basa en la elaboración
de modelos autorregresivos. Con frecuencia los valores de
una serie de datos financieros en puntos particulares en el
tiempo están íntimamente correlacionados con los valores
que les preceden y siguen. Una autocorrelación de primer
orden se refiere a la magnitud de la asociación entre valores
consecutivos en una serie de tiempo. Una autocorrelación
459
Métodos Estadísticos Varela/Llanos/Asnate

de segundo orden se refiere a la magnitud de la relación


entre valores de dos periodos separados. Es más, una
autocorrelación del orden p se refiere al tamaño de la
correlación entre valores en una serie de tiempo que se
encuentra periodos separados. Para obtener un mejor ajuste
histórico de la información y, al mismo tiempo, estar en
posibilidad de realizar pronósticos útiles de su
comportamiento futuro, se pueden aprovechar las
características potenciales de autocorrelación inherentes a
esos datos al tomar en cuenta métodos de elaboración de
modelos autorregresivos.
En las ecuaciones (27), (28) y (29) se expresa un
grupo de modelos autorregresivos.

 Modelo autorregresivo de primer orden

Y i   1Yi 1  i (27)

 Modelo autorregresivo de segundo orden

Y i   1Yi 1   2Yi  2  i (28)

 Modelo autorregresivo de orden p

Y i   1Yi 1   2Yi  2     pYi  p  i (29)

Donde:

460
Métodos Estadísticos Varela/Llanos/Asnate

Y¡ = el valor observado de la serie en el


tiempo i
Y¡. i = el valor observado de la serie en el
tiempo i - 1
Y¡. 2 = el valor observado de la serie en el
tiempo i - 2
Yi - p = el valor observado de la serie en el
tiempo i - p
 = parámetro fijo a estimar del análisis
de la regresión de mínimos cuadrados
 1 ,  2 , ,  p  parámetros de
autorregresión a estimar del análisis
de la regresión de mínimos cuadrados
¡ = Un componente aleatorio (error) no
autocorrelacionado (con media de O y
varianza constante)

Un modelo autorregresivo de primer orden corresponde sólo


a la correlación entre valores consecutivos en una serie. Un
modelo de autorregresión de segundo orden considera los
efectos de la relación entre valores consecutivos en una
serie, así como también la correlación entre valores de dos
periodos por separado. Un modelo autorregresivo de orden
trata con los efectos de las relaciones entre valores
consecutivos, valores de dos periodos por separado, y así
sucesivamente hasta valores de p periodos por separado. Por
lo tanto la selección de un modelo de autorregresión
apropiado no es una tarea sencilla. Se deben ponderar las
ventajas debidas a la parquedad con la preocupación de no
tomar en cuenta un comportamiento de autocorrelación
461
Métodos Estadísticos Varela/Llanos/Asnate

importante inherente a los datos. Por otra parte, es


igualmente necesario preocuparse por la selección de un
modelo de orden alto que requiera la estimación de
numerosos e innecesarios parámetros en particular si ti, el
número de observaciones en la serie, no es demasiado
grande.

La razón de esto es que p entre ti valores de datos se perderá


al obtener una estimación de  p cuando se compara cada
valor de datos Yi con su "vecino más próximo" Y¡ - p que
está p periodos por separado (es decir, las comparaciones
son Yi + p en contraste con Y1 , Y2 + p en contraste con Y2,
... y Yn contra Yn - p). Como un ejemplo de esto,
supóngase que se tiene la serie siguiente de n = 7 valores
consecutivos:

31, 34, 37, 35, 36, 43, 40

Una vez que se ha seleccionado un modelo y se usan los


métodos de regresión de mínimos cuadrados para obtener
estimaciones de los parámetros, el siguiente paso sería
determinar lo adecuado de este modelo. O el investigador ha
elegido un determinado modelo autorregresivo de orden p,
sobre la base de experiencias anteriores con datos
similares, o de lo contrario seleccionaría como un punto de
partida un modelo con varios parámetros y después
eliminaría los que no contribuyen en forma
significativa.

462
Métodos Estadísticos Varela/Llanos/Asnate

En la tabla siguiente se establece el programa de


comparación para modelos autorregresivos de orden 1 y
orden 2:

i Modelo Modelo autorregresivo de segundo


autorregresivo orden
de primer orden (Yi en contraste con Yi-1 y Yi en
(Yi en contraste con contraste con Yi - 2)
Yi-1)
1 31   31   31  
2 34  31 34  31 34

3 37  34 37  34 37  31
4 35  37 35  37 35  34
5 36  35 36  35 36  37
6 43  36 43  36 43  35
7 40  43 40  43 40  36

En este último enfoque, Newbold sugiere la siguiente


prueba de la significación del parámetro autorregresivo del
orden más alto en el modelo ajustado:

H º :  p = O (El parámetro de orden más alto es 0)


contra la alternativa de dos colas
H1:  p = O (El parámetro  p es altamente
significativo)
La prueba estadística, que se obtiene con facilidad de los
resultados de diversos programas de regresión múltiple (que

463
Métodos Estadísticos Varela/Llanos/Asnate

proporcionan estimaciones de los coeficientes de regresión


y de los errores estándar), se aproxima mediante:

p
Z (30)
p

Donde:

 p = el estimado del parámetro del orden más alto k en


el modelo autorregresivo
S  p = La desviación estándar de  p

Usando un nivel de significación a, la regla de decisión es


rechazar H0 si Z > Z  /2, (el valor crítico de la cola
superior de una distribución normal estandarizada) o si Z <
- Z  /2 (el valor crítico de la cola superior de una
distribución normal estandarizada) y no rechazar H0 si - Z
 /2 < Z < Z  /2, Si no se rechaza la hipótesis nula de que
 p = 0, se puede llegar a la conclusión de que el modelo
seleccionado contiene demasiados parámetros estimados.
Entonces se eliminaría el término de orden más alto y se
obtendría un modelo autorregresivo del orden p - 1
mediante la regresión de mínimos cuadrados. Después se
repetiría una prueba de la hipótesis de que el "nuevo"
término del orden más alto es 0.

464
Métodos Estadísticos Varela/Llanos/Asnate

Este procedimiento de pruebas y elaboración de modelos


continúa hasta que se rechaza H0. Cuando esto ocurre se
conoce que el parámetro de orden más alto es significativo y
se esta listo para usar un modelo determinado para la
elaboración de presupuestos.

El modelo autorregresivo de orden p ajustado tiene la


siguiente forma:

    
Y i   1 Yi 1   2 Yi  2     p Yi  p (31)

Donde

Y i = El valor ajustado de la serie al tiempo i
Yi  2 = El valor observado de la serie al tiempo i  1
Yi  2 = El valor observado de la serie al tiempo i  2
Yi  p = El valor observado de la serie al tiempo i  p
   
 , 1, 2 ,, p
 , 1 , 2 ,, p
= Estimaciones de
regresión de los parámetros

Para pronosticar j años en el futuro desde el periodo


actual n se tiene

    
Donde:
Y n j    1 Yn j 1  2 Yn j 2    p Yn j  p

465
Métodos Estadísticos Varela/Llanos/Asnate

Son las estimaciones de regresión de los parámetros donde


j es el número de años en el futuro y donde, para k > O,

Y n  k es el pronóstico de Yn - k del periodo actual,
mientras, que para k < O, Yn+k es el valor observado Yn
+ k.

Por lo tanto, para pronosticar j años en el futuro desde, por


ejemplo, un p = modelo autorregresivo de tercer orden, sólo
se necesitan los más recientes p = 3 valores de datos
observados Yn, Yn - 1 y Yn - 2 y las estimaciones de los
   
parámetros  , 1 ,  2 , ,  p desde un programa de
regresión múltiple. Para pronosticar un año por adelantado
la ecuación se convierte en:
    
Y n 1    1 Yn   2 Yn 1   3 Yn  2

Para pronosticar dos años por adelantado, la ecuación se


convierte en

    
Y n  2    1 Yn 1   2 Yn   3 Yn 1

Para pronosticar dos años por adelantado, la ecuación se


convierte en
    
Y n  3    1 Yn  2   2 Yn 1   3 Yn
Para pronosticar cuatro años por adelantado, la ecuación
(32) se convierte en:
    
Y n  4    1 Yn  3   2 Yn  2   3 Yn 1
466
Métodos Estadísticos Varela/Llanos/Asnate

Y así sucesivamente.

Para demostrar la técnica de elaboración de modelos


autorregresivos de nuevo se observara la serie de tiempo
presentada en la tabla 12 y trazada en la figura 5 que
representa los pagos anuales por impuestos sobre la recita,
realizados por residentes de una ciudad en el medio oeste
al gobierno federal, durante un periodo de 15 años, de
1973 a 1987. La tabla 12 muestra la estructura para un
modelo autorregresivo de tercer orden. Obsérvese que p = 3
observaciones de n = 1 5 se pierden, en las comparaciones
necesarias para desarrollar el modelo autorregresivo
(regresión múltiple).

Utilizando los comandos LAG y REGRESS en Minitab, el


siguiente modelo autorregresivo de tercer orden .se ajusta a'
los datos del impuesto sobre la renta:


Y i  -11.04+1.154Y1-i, -.199Yi-2 + . 290Yi – 3

A continuación se puede probar la significación del


parámetro más alto. Por otra parte, si la experiencia del
investigador con datos similares le permite elaborar la
hipótesis de que un modelo autorregresivo de tercer ordenes
apropiado para esta serie de tiempo, él modelo ajustado se
puede usar directamente para propósitos de pronósticos sin
la necesidad de probar la significación del parámetro. Por lo
tanto, para demostrar-el procedimiento de elaboración de
presupuestos para el modelo autorregresivo de tercer orden,
se usan las estimaciones
467
Métodos Estadísticos Varela/Llanos/Asnate

   
  11.04, 1  1.154, 2  .199 , 3  .290

así como los tres valores de datos más actuales

Y13 = 181.0, Y14 = 217.8, Y15= 244.1

Los pronósticos de los pagos del impuesto federal para los


años 1988 a 1991 en esta ciudad del Medio Oeste se
obtienen de la ecuación en la forma siguiente:

    
Y n  j   11.04 1.154 Y n  j 1  .199 Y n  j  2  .290 Y n  j  3

1988: 1año por Y 16  -11.04 + 1.154 (244.1) - .199
(217.8) + .290 (181.0)
anticipado = 279.8 millones de dólares

1989: 2añospor Y 17  - 11.04 + 1.154 (279.8) - .199
(244.1) + .290 (217.8)
anticipado = 326.4 millones de dólares

1990: 3 años por Y 18  -11.04+ 1.154 (326.4) - .199
(279.8) + .290 (244.1)
anticipado = 380.7 millones de dólares

1991: 4 años por = Y 19  -11.04+1.154 (380.7) - .199
(326.4) +.290 (279.8)
anticipado = 444.5 millones de dólares

468
Métodos Estadísticos Varela/Llanos/Asnate

Tabla 12 Desarrollo del modelo autorregresivo del tercer


orden para los impuestos anuales sobre la renta pagados
al gobierno federal (1973 - 1987)

Año i Variable Variables de


“dependiente” Yi predicción
Yi-1 Yi-2 Yi-3
1973 1 55.4 * * *
1974 2 61.5 55.4 * *
1975 3 68.7 61.5 55.4 *
1976 4 87.2 68.7 61.5 55.4
1977 5 90.4 87.2 68.7 61.5
1978 6 86.2 90.4 87.2 68.7
1979 7 94.7 86.2 90.4 87.2
1980 8 103.2 94.7 86.2 90.4
1981 9 119.0 103.2 94.7 86.2
1982 10 122.4 119.0 103.2 94.7
1983 11 131.6 122.4 119.0 103.2
1984 12 157.6 131.6 122.4 119.0
1985 13 181.0 157.6 131.6 122.4
1986 14 217.8 181.0 157.6 131.6
1987 15 244.1 217.8 181.0 157.6

Sin embargo, antes de elaborar el pronóstico la mayoría de


los investigadores hubieran preferido probar la
significación de los parámetros de un modelo ajustado.
Utilizando los resultados del comando REGRESS en

Minitab, la estimación de parámetro de orden más alto  3

469
Métodos Estadísticos Varela/Llanos/Asnate

para el modelo autorregresivo de tercer orden ajustado es



0.290 con una desviación estándar S  3 de 0.449


Hº =  3 = 0

H1 =  3  0

De la ecuación se tiene:

3 .290
Z   .65
S 3 .499

Utilizando un nivel de significación de 0.05 la prueba de


dos colas tiene valores Z críticos de ± 1.96. Puesto que Z =
+ 0.65 < + 1.96, el valor crítico de la cola superior bajo la
distribución normal estandarizada (tabla E. 2), quizá no se
rechace H0 y se llegaría a la conclusión de que el parámetro
de tercer orden del modelo autorregresivo no es
significativamente importante y se puede eliminar.

Usando otra vez el comando REGRESS se corre un modelo


autorregresivo de segundo orden. Del resultado Minitab la
estimación de parámetros del orden más alto segundo orden
 
 2 es 0.022 con una desviación estándar S  2 = 0.400.

Para probarlo:
H º = 2 = 0

470
Métodos Estadísticos Varela/Llanos/Asnate

Contra:
H1 =  2  0

De la ecuación se tiene:

2 .022
Z   .06
S 2 .400

Probando de nuevo el nivel de significación 0.05, puesto


que Z  0.06  1% se puede no rechazar H0 y se llegaría a
la conclusión de que el parámetro de Segundo orden del
modelo autor regresivo no es significativamente importante
y se puede eliminar.

Usando una vez más el comando REGRESS se obtiene un


modelo autor regresivo de primer orden. De los resultados
Minitab ahora se redacta el modelo ajustado como

Yi  5.992  1.173Yi 1


Es más, S 1 , la desviación estándar del parámetro autor
regresivo de primer orden estimado, es 0.0494. Para
probarlo.
Para probarlo
H º = 1 = 0
Contra
H1 = 2  0

De la ecuación se tiene

471
Métodos Estadísticos Varela/Llanos/Asnate


1 1.173
Z   23.74
S1 .0494

Probando de nuevo, al nivel de significación  = 0.05,


puesto que Z = + 23.74 > + 1.96, en esta ocasión se rechaza
H0 y se llegaría a la conclusión de que el parámetro de
primer orden del modelo autorregresivo es
significativamente importante.

El enfoque de "elaboración de modelos" ha llevado a la


selección del modelo autorregresivo parco de primer orden
como el más apropiado para los datos con que se cuenta.
Utilizando las estimaciones así como el valor del dato más
reciente Y15 = 244.1, los pronósticos de los pagos del
impuesto federal sobre la renta para los años de 1988 a 1991
se obtienen de la ecuación en la forma siguiente:

 
Yn  j  5.992  1.173 Y n  j i

472
Métodos Estadísticos Varela/Llanos/Asnate


1988 1 año por Y16  5.992  1.173(244.1)
anticipado  280.3 millones de dólares

1989 2 año por Y17  5.992  1.173(280.3)
anticipado  322.8 millones de dólares

1990 3 año por Y18  5.992  1.173(322.8)
anticipado  372.7 millones de dólares

1991 4 año por Y19  5.992  1.173(372.1)
anticipado  431.2 millones de dólares

473
Métodos Estadísticos Varela/Llanos/Asnate

Fig. 18 Uso de un modelo autorregresivo de primer orden


en el impuesto sobre la renta anual pagado al gobierno
federal
5.10. ANÁLISIS DE SERIES DE TIEMPO PARA
DATOS MENSUALES:

La figura 19 presenta el valor monetario (en millones de


dólares) de los contratos de construcción residencial
extendidos sobre una base mensual desde enero de 1982
hasta diciembre de 1987 por una compañía constructora.
Para series de tiempo mensuales como éstas, el modelo
multiplicativo clásico de series de tiempo incluye el
componente estacional además de los componentes de
tendencia, cíclicos e irregulares. El modelo se expresa
mediante la ecuación.

Yi = Ti . Si . Ci . Ii

474
Métodos Estadísticos Varela/Llanos/Asnate

Fig. 19 Valor de los contratos de construcción residencial


suscritos por una compañía constructora (en millones de
dólares, de enero de 1982 a diciembre de 1987)

Fundamentalmente son dos las metas principales del


análisis de series de tiempo con datos mensuales: O se está
interesado en pronosticar algunos movimientos mensuales
futuros, o se está interesado en descomponer la serie de
tiempo y eliminar los componentes de tendencia,
estaciónales e irregulares, con el fin de poder concentrarse
en cómo determinada serie se correlaciona con la actividad
general de los negocios; es decir, se puede determinar si una
serie en particular se puede considerar como un indicador
adelantado, coincidente o retrasado, de la actividad
económica general sobre la base de si el componente cíclico
475
Métodos Estadísticos Varela/Llanos/Asnate

de la serie muestra tendencias a preceder, igualar o seguir,


respectivamente, el comportamiento cíclico de la economía
global.

 Ajuste y pronóstico de tendencias lineales:


Conversión de las series anuales a series mensuales

Al trabajar con series de tiempo mensuales que se


pueden ajustar con una tendencia lineal, se puede ahorrar
mucho trabajo sin demasiada pérdida de exactitud si se
forman los agregados anuales de los totales mensuales y se
ajusta una línea de tendencia de mínimos cuadrados a los
datos anuales. La expresión resultante, en términos anuales,
se puede convertir con facilidad a términos mensuales
dividiendo la intercepción entre 12 y la pendiente entre 144
y después "desplazando la serie". Para demostrar esto la
tabla 13 presenta los cálculos necesarios para ajustar una
línea de tendencia de mínimos cuadrados al valor anual de
los contratos extendidos durante un periodo de 6 años,
desde 1982 hasta 1987.

Puesto que esta serie contiene un número par de años, se


emplea un programa adecuado de y utilizando las
ecuaciones (5) y (6) se tiene:

476
Métodos Estadísticos Varela/Llanos/Asnate

 n  n 
  X i    Yi 
X iYi   i 1   i 1 
n

 n 132.7
bi  i 1
2
  7.5829
 n  17.5
  Xi 
  i 1 
n

X
i 1
2
i
n

Tabla 13 Cálculo de la línea de tendencia de mínimos


cuadrados para 6 años de datos

Impuestos X i2
Año Xi XiYi
( $ Millones)
1982 0 31.3 0 0
1983 1 43.7 43.7 1
1984 2 62.0 124.0 4
1985 3 74.9 124.7 9
1986 4 74.7 298.8 16
1987 5 63.2 316.0 25
n=6 15 349.8 1.007.2 55

Y puesto que:

n n

Y i
349.8 X i
15
Y  i 1
  58.3 y X  i 1
  2.5
n 6 n 6

Entonces:

b0  Y  b1 X  58.3  (7.5829)(2.5)  39.4

477
Métodos Estadísticos Varela/Llanos/Asnate

Por lo tanto la línea de tendencia ajustada anualmente se


obtiene mediante:


Yi  39.34  7.5829 X i
Donde el origen = 1982 y X unidades = 1 año
Para convertir este modelo de tendencia anual a una base
mensual primero se divide la intercepción entre 12 y la
pendiente entre 144. Lo que determina que

 39.34 7.5829
Yi   X i  3.2786  .05266 X i
12 14
Donde el origen = 30 de junio – 1ª de julio 1982 y X
unidades = 1mes

Recuérdese que al tratar con información sobre una base


anual, los datos que representan todo el año se registran a
mediados de año. Por lo tanto, cuando se convierte de una
fórmula de tendencia anual a una fórmula de tendencia
mensual, el origen resultante también cae en el medio del
año -entre el 30 de junio y el 1° de julio. En lugar de afirmar
que la fórmula de tendencia mensual tiene un origen entre
los dos meses, junio y julio, simplemente se desplaza el
origen de la serie a mediados de julio al sumar la mitad del
valor de la pendiente. Es decir, para desplazar al 15 de julio,
1982, se tiene


Yi  3.2786  .05266( X i  .5)
 3.2786  .05266( X i  .0633)
478
Métodos Estadísticos Varela/Llanos/Asnate

Por lo que

Yi  3.3049  .05266 X i
Donde el origen = 15 julio 1982 y X unidades = 1mes

Para esta serie la nueva pendiente señala que (en una base
mensual) los valores monetarios de los contratos de
construcción residencial extendidos por esta compañía han
ido aumentando a una tasa de 0.05266 millones de dólares
(es decir, 52.66 miles de dólares) por mes. Esto se muestra
en la figura 20, donde la pendiente de la tendencia lineal
mensual ajustada presenta una ligera tendencia a aumentar
con el transcurso del tiempo. Por supuesto que esta ecuación
se puede usar para proyectar valores futuros dé tendencias
mensuales en los contratos de construcción residencial. Sin
embargo, puesto que los factores estaciónales influyen sobre
estas series de tiempo mensuales, no se harán pronóstico
futuros amenos de haber desarrollado un índice estacional,
que explique las fluctuaciones de un mes a otro: esto se
lograra en la sección siguiente:

479
Métodos Estadísticos Varela/Llanos/Asnate

Fig 20 Ajuste de la línea de tendencia de mínimo


cuadrados

 Cálculo del índice estacional

Es importante aislar y estudiar los movimientos


estaciónales en una serie de tiempo mensual por dos
motivos. Primero, al conocer el valor del componente
estacional para cualquier mes, el economista puede ajustar y
mejorar con facilidad las proyecciones de tendencia para
fines de elaboración de pronósticos. Segundo, al conocer el
valor del componente estacional el economista puede
descomponer la serie de tiempo mediante la eliminación de
sus influencias -junto con las relacionadas con la tendencia
y las fluctuaciones irregulares- y de esta forma concentrarse
en los movimientos cíclicos de la serie. Si como con

480
Métodos Estadísticos Varela/Llanos/Asnate

frecuencia se supone los movimientos estaciónales son


bastante constantes a lo largo del tiempo, con las tablas 14 y
15, se puede dar un ejemplo de la construcción de un índice
estacional.
Tabla 14 Desarrollo del Indice estacional

de totales móviles

efecto estacional
2) Contratos de

móviles e meses

centrados de 12

promedio móvil
6) Razones al
dePromedios
1) Año y mes

construcción

móviles a 12

eliminado el
($ millones)

12 meses
residencial

estacional
3) Totales

4) Totales

7) Indice

8) Daros
móviles
meses

meses
5)
1982 Ene 1.6 - - - - .698 2.3
Feb 1.6 - - - - .765 2.1
Mar 2.3 - - - - 1.080 2.1
Ab 3.0 - - - - 1.114 2.7
May 3.1 - - - - 1.158 2.7
Jun 3.1 31.4 - - - 1. 172 2.6
Jul 3.1 32.0 63.4 2.64 1.174 1.116 2.8
Ago 2.8 32.9 64.9 2.70 1.037 1.121 2.5
Set 3.0 34.2 67.1 2.80 1.071 1.033 2.9
Oct 3.2 35.2 69.4 2.89 1.107 1.103 2.9
Nov 2.4 36.1 71.3 2.87 .808 .895 2.7
Dic 2.2 37.2 73.3 3.05 .721 .746 2.9
1983 Ene 2.2 38.2 75.4 3.14 .701 .698 3.2
Feb 2.5 39.5 77.7 3.24 .772 .765 3.3
Mar 3.6 40.3 79.8 3.32 1.084 1.080 3.3
Ab 4.0 410.2 81.5 3.40 1.176 1.114 3.6
May 4.0 42.5 83.7 3.49 1.146 1.158 3.5
Jun 4.2 43.5 86.0 3.58 1.173 1. 172 3.6
Jul 4.1 44.3 87.8 3.66 1.120 1.116 3.7
Ago 4.1 45.3 89.6 3.73 1.099 1.121 3.7
Set 3.8 47.0 92.3 3.85 .987 1.033 3.7
Oct 4.1 4/8.5 95.5 3.98 1.030 1.103 3.7
Nov 3.7 50.3 98.8 4.12 .898 .895 4.1
Dic 3.2 52.1 102.4 4.27 .749 .746 4.3
1984 Ene 3.0 53.7 105.8 4.41 .680 .698 4.3
Feb 3.5 55.8 109.5 4.56 .768 .765 4.6
Mar 5.3 57.6 113.4 4.72 1.123 1.080 4.9
481
Métodos Estadísticos Varela/Llanos/Asnate

Ab 5.5 59.0 116.6 4.86 1.132 1.114 5.0


May 5.8 60.7 119.7 4.99 1.162 1.158 5.1
Jun 6.0 61.8 122.5 5.10 1.176 1. 172 5.1
Jul 5.7 62.7 124.5 5.19 1.098 1.116 5.5
Ago 6.2 63.1 125.8 5.24 1.183 1.121 5.4
Set 5.6 64.1 127.2 5.30 1.057 1.033 5.0
Oct 5.5 65.4 129.5 5.40 1.019 .895 6.0
Nov 5.4 67.4 132.8 5.53 .976 .746 5.8
Dic 4.3 69.3 136.7 5.70 .754 .698 5.6
1985 Ene 3.9 70.4 139.7 5.82 .670 .698 5.1
Feb 3.9 71.3 141.7 5.90 .661 .765 5.8
Mar 6.3 72.2 143.5 5.98 1.054 1.080 6.1
Ab 6.8 73.8 146.0 6.08 1.118 1.114 6.7
May 7.8 74.4 148.2 6.18 1.262 1.158 6.7
Jun 7.9 74.8 149.2 6.22 1.270 1. 172 6.7
Jul 6.8 75.4 150.2 6.26 1.086 1.116 6.1
Ago 7.1 76.1 151.5 6.31 1.125 1.121 6.3
Set 6.5 76.7 152.8 6.37 1.020 1.033 6.3
Oct 7.1 75.9 152.6 6.36 1.116 1.103 6.4
Nov 6.0 76.2 152.1 6.34 .946 .895 6.7
Dic 4.7 75.6 151.8 6.32 .744 .746 6.3
1986 Ene 4.5 75.8 151.4 6.31 .713 .698 6.4
Feb 4.6 75.8 151.6 6.32 .728 .765 6.0
Mar 6.9 75.5 151.3 6.30 1.096 1.080 6.4
Ab 6.0 75.3 150.8 6.28 .955 1.114 5.4
May 8.1 74.0 149.3 6.22 1.302 1.158 7.0
Jun 7.3 36.6 147.6 6.15 1.187 1. 172 6.2
Jul 7.0 73.2 146.1 6.12 1.114 1.116 6.3
Ago 7.1 72.9 143.5 6.09 1.116 1.121 6.3
Set 6.2 70.6 139.6 5.98 1.037 1.033 6.0
Oct 6.9 69.0 134.4 5.82 1.186 1.103 6.3
Nov 4.7 65.4 128.6 5.60 .839 .895 5.3
Dic 4.3 63.2 125.5 5.36 .802 .746 5.8
1987 Ene 4.1 52.3 123.4 5.23 .784 .698 5.9
Feb 4.3 61.1 122.1 5.14 .837 .765 5.6
Mar 4.6 61.0 121.9 5.09 .904 1.080 4.3
Ab 4.4 60.9 122.9 5.08 .866 1.114 3.9
May 4.5 62.0 125.3 5.12 .879 1.158 3.9
Jun 5.1 63.3 - 5.22 .977 1.172 4.4
Jul 6.1 - - - - 1.116 5.5
Ago 5.9 - - - - 1.121 5.3
482
Métodos Estadísticos Varela/Llanos/Asnate

Set 6.1 - - - - 1.033 5.9


Oct 6.8 - - - - 1.103 6.2
Nov 5.8 - - - - .85 6.5
dic 5.6 - - - - .746 7.5

Para comenzar, se obtiene una serie de totales móviles de 12


meses. Sin embargo, como se muestra en la columna 3) de
la tabla 14, al registrar estos totales móviles los resultados
se centran entre los dos meses centrales que forman cada
total móvil respectivo. Por ejemplo, el primer total móvil,
que consta de los meses de enero de 1982 hasta diciembre
de 1982, se registra entre junio y julio de 1982; el segundo
total móvil, que consiste en los meses desde febrero de 1982
hasta enero de 1983, se registra entre julio y agosto de 1982
y así sucesivamente. Para centrar estos resultados dentro de
un mes en particular, se obtienen "totales móviles de dos
meses de los totales móviles de 12 meses", como se señala
en la columna 4) de la tabla 14. El primer resultado, que
consiste en el total señalado entre junio y julio más el de
entre julio y agosto, se centra en julio de 1982. Al dividir
estos totales en la columna 4) entre 24, se obtienen
promedios móviles centrados, como los que se muestran en
la columna 5). Se dice que estos promedios móviles
centrados constan de los componentes de tendencia y
cíclicos de la serie. Los datos originales [columna 2)] se
dividen después entre los respectivos promedios dando
como resultado la razón a los promedios móviles que se
muestran en la columna 6). Fundamentalmente, estas
razones a los promedios móviles representan las
fluctuaciones estaciónales e irregulares en la serie, puesto
que la división de los datos observados [columna 2)] entre
483
Métodos Estadísticos Varela/Llanos/Asnate

los promedios móviles centrados [columna 5)] elimina de


modo efectivo las influencias de tendencia y cíclica como se
demuestra en la ecuación:

Yi Ti .Si .Ci .I i
  Si .I i
promedio móvil centrado Ti .Ci
(33)

Para elaborar el índice estacional, los datos de las


razones a los promedios móviles de la tabla 14 se
reordenan de acuerdo a los valores mensuales, como se
muestra en la tabla 15.

En la tabla 15 se observa que para cada mes se pueden


eliminar las variaciones irregulares si se usa la mediana de
las diversas razones a los promedios móviles, obtenidas
como un indicador de la actividad estacional al paso del
tiempo. Como se muestra en la tabla 15 estos valores de la
mediana se ajustan después en forma tal que el valor total
de los índices estaciónales durante el año es 12.0 y el valor
promedio de cada índice estacional (mensual) es 1.0. Por lo
tanto, nótese que un índice estacional de 0.698 para el mes
de enero señala que el valor de los contratos de construcción
residencial extendidos en junio es sólo el 69.8% del
promedio mensual, mientras que un índice estacional de
1.172 para el mes de junio señala que el valor de los
mismos es 17.2% mejor en junio que el promedio.

484
Métodos Estadísticos Varela/Llanos/Asnate

Tabla 15 Cálculo del índice estacional de la mediana de


las razones mensuales a los promedios móviles

Mes
1982 1983 1984 1985 1986 1987 Mediana e
Enero - .701 .680 .670 .713 .784 .701
Febrero - .772 .768 .661 .728 .837 .768
Marzo - 1.084 1.123 1.054 1.095 .904 1.084
Abril - 1.176 1.32 1.118 .955 .966 1.118
Mayo - 1.146 1.162 1.262 1.302 .879 1.152
Junio - 1.173 1.176 1.270 1.187 .977 1.173
Julio 1.174 1.120 1.098 1.086 1.144 - 1.120
Agosto 1.037 1.099 1.183 1.125 1.166 - 1.125
Setiembre 1.071 .987 1.057 1.020 1.037 - 1.037
Octubre 1.107 1.030 1.019 1.116 1.186 - 1.107
Noviembre .808 .898 .976 .946 .839 - .898
Diciembre .721 .749 .574 .774 .802 - .749
Totales 12.045

( 12,000 )( mediana )
Indice estacionl 
12.045

 Presentación gráfica del índice estacional:


Diagrama de subseries estaciónales

Un dispositivo gráfico moderno para estudiar los índices


estaciónales y sus razones a los promedios móviles
componentes es el diagrama de subseries estaciónales.

La figura 21 muestra el diagrama de subseries


estaciónales para los datos sobre los contratos de

485
Métodos Estadísticos Varela/Llanos/Asnate

construcción residencial, que se elaboraron a partir de los


datos contenidos en la tabla 15. Para obtener una gráfica así
primero se trazan los doce índices estaciónales mensuales
con una serie de líneas horizontales igualmente espaciadas.
Después para cada mes se traza la sucesión consecutiva de
razones anuales a los promedios móviles y se unen estos
puntos a su línea de índice estacional con una serie de líneas
verticales.

Fig 21 Diagrama de sub series estaciónales del valor de


los contratos suscritos de construcción residencial

Las distancias verticales de las razones a los promedios


móviles y sus índices estaciónales correspondientes señalan.

1. La magnitud de las fluctuaciones dentro de un mes


en particular.

486
Métodos Estadísticos Varela/Llanos/Asnate

2. Las tendencias potenciales dentro de un mes con el


transcurso del tiempo.

3. Posibles patrones de cambio (que pueden


contrarrestar el valor de los índices)

Tabla 16 Ajuste de las proyecciones de tendencias de


mínimos cuadrados mediante índices estacionales
parafines de elaboración de pronósticos
1) proyección de

mensual para el

3) Pronóstico
estacional
tendencia

año 1990
2) Indice
Mes

Enero 7.7283 .698 5.3944


Febrero 7.7810 .765 53.9525
Marzo 7.8337 1.080 8.4604
Abril 7.8863 1.114 8.7853
Mayo 7.9390 1.158 9.1934
Junio 7.9916 1.172 9.3662
Julio 8.0443 1.116 8.9774
Agosto 8.0970 1.125 9.0767
Setiembre 8.1496 1.033 8.4185
Octubre 8.2023 1.103 9.0471
Noviembre 8.2543 .895 7.3881
Diciembre 8.3076 .746 6.1975

En la figura 21, la impresión visual más sorprendente son


las grandes discrepancias negativas entre los índices
estaciónales de marzo a junio y las correspondientes razones
a los promedios móviles de 1987. Puesto que estos valores

487
Métodos Estadísticos Varela/Llanos/Asnate

fueron los cuatro últimos registrados, puede ser indicador de


un cambio en patrones estaciónales y que se requiera volver
a calcular un nuevo índice al contar con los siguientes doce
meses de datos.

 Uso del índice estacional para pronósticos:

Para utilizar el índice estacional como ajuste para una


proyección de tendencia con el fin de elaborar pronósticos,
basta con multiplicar el valor de la tendencia proyectado
para un mes determinado por el índice estacional
correspondiente de ese mes. Por ejemplo, utilizando el
modelo anterior, los valores de tendencias mensuales
proyectados en los contratos de construcción residencial,
que serán concertados por esta compañía durante el año
1990, aparecen relacionados en la columna 1) de la tabla 16.
Los índices estaciónales mensuales respectivos se muestran
en la columna 2). Al hacer ajustes por las fluctuaciones
estaciónales, los productos de los diversos valores de
tendencias mensuales proyectados con sus respectivos
índices estacionales, dan como resultado el grupo de
pronósticos mensuales que se muestran en la columna 3).

 Eliminación del efecto estacional en los datos

El índice estacional se puede utilizar también para aislar


y eliminar los efectos de las influencias estacionales sobre
los datos. Cuando se logra esto junto con la eliminación de
los efectos de tendencia e irregulares, se puede examinar el
componente cíclico. Por lo tanto, con base en la tabla 14,
488
Métodos Estadísticos Varela/Llanos/Asnate

para "desestacionalizar" los datos y de esta forma eliminar


los efectos estacionales, simplemente se divide cada valor
observado en la serie de tiempo mensual [columna 2)] entre
el índice estacional de ese mes [columna 7)]. En la columna
8) se muestran los resultados y la serie en la que se han
eliminado los efectos estaciónales se traza en la figura 22
junto con la serie original.

489
Métodos Estadísticos Varela/Llanos/Asnate

Fig 22 valor de los contratos de construcción


residencial suscritos – datos originales y datos eliminando
los efectos estaciónales

490
Métodos Estadísticos Varela/Llanos/Asnate

En términos del modelo multiplicativo clásico de series de


tiempo.

Yi  Ti .Si .Ci .Ii

La serie en la que se han eliminado los efectos estaciónales


se obtiene mediante

Yi Ti .Si .Ci .I i
  TiCi .I i (34)
Si Si

Por consiguiente, si también se elimina el componente de


la tendencia quedaría una serie de relativas cíclicas-
irregulares. Por lo tanto, en la tabla 17 los valores de
tendencia ajustados [columna 3)] que se obtuvieron del
modelo de tendencia lineal, se dividen en la serie a la que se
le han eliminado los efectos estaciónales [columna 2)]
dando como resultado las relativas cíclicas - irregulares de
la columna 4), es decir:

Ti .C i .I i Ti .C i .I i

  C i .I i (35)
Ti
Yi

491
Métodos Estadísticos Varela/Llanos/Asnate

Tabla 17 Aislamiento del componente cíclico mediante la


descomposición de las series de tiempo.

492
Métodos Estadísticos Varela/Llanos/Asnate

 Estudio del componente cíclico


A diferencia de los datos anuales, las fluctuaciones
irregulares de una serie de tiempo mensual se suelen
eliminar utilizando promedios móviles ponderados de tres
meses en los que el valor medio recibe un peso de 2 en tanto
que los dos valores de los extremos reciben cada uno un
peso de 1. Por lo tanto, según la tabla 17, para la serie de
relativas cíclicas-irregulares [columna 4)], se obtiene el
grupo de totales móviles ponderados de tres meses
[columna 5)]. Estos totales móviles ponderados se dividen
después entre 4 para obtener una serie de relativas cíclicas
aisladas [columna 6)] y se completa la descomposición de la
serie de tiempo, es decir:

Ci .I i
 Ci (36)
Ii

En la figura 23 se trazan estas relativa cíclicas. Los


pronosticadores de los negocios han considerado que las
series relacionadas con el valor monetario de los contratos
en toda la industria de la construcción son un indicador
adelantado de la actividad económica general. No obstante,
la compañía constructora pudiera ser o no, típica de la
industria.

493
Métodos Estadísticos Varela/Llanos/Asnate

Fig. 23 Gráfica de las relativas cíclicas

494
Métodos Estadísticos Varela/Llanos/Asnate

1. Los datos en la tabla a continuación representan


las ventas anuales (en billones de dólares obtenidas
por la General Motors Corporation de 1967 a 1986.

Ventas Anuales: general Motor Corporation


Año

196
196
196
197
197
197

197
197
197

197
7
8
9
0
1
2

3
4
5

6
Netas
Vent

20.0
22.8
24.3
18.8
28.3
30.4

35.8
31.6
35.7

47.2
as
Año

197
197
197
198
198
198

198
198
198

198
7
8
9
0
1
2

3
4
5

6
102.8
netas
Vent

55.0
63.2
66.3
57.7
62.8
60.8

74.6
83.9
96.4
as

a) Trace los datos sobre una gráfica.


b) Ajuste una línea de tendencia de mínimos
cuadrados a los datos y trace en la gráfica.
c) ¿Cuál es el crecimiento anual en ventas netas
durante los 20 años?
d) Determine las relativas cíclicas - irregulares
para los datos y trace los resultados en una
gráfica aparte.

495
Métodos Estadísticos Varela/Llanos/Asnate

e) Antes de conocer los datos ¿Cuáles habrían


sido los pronósticos de tendencia para los años
1987a 1989?
2. Los datos de la tabla siguiente representan el importe
anual del impuesto sobre la renta a empresas
pagados (en millones de dólares) al gobierno federal
por una compañía constructora de 1974 a 1988.
Impuesto a la renta sobre la renta pagado
Año
197
197
197
197
197
197
198
198
198
198
198
198
198
198
198
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
Impuest

Pagado
30.1
34.0
28.7
36.7
32.8
26.8
32.2
36.2
38.6
42.6
55.7
54.9
60.0
65.7
64.6
o

a) Trace los datos sobre una gráfica.


b) Ajuste una ecuación de tendencia lineal de
mínimos cuadrados a los datos y trace la línea en
la gráfica.
c) ¿Cuál fue el crecimiento anual en los pagos del
impuesto sobre la renta a empresas durante los
15 años?
d) Determine las relativas cíclicas - irregulares para
los datos y trace los resultados en una gráfica
aparte.
e) ¿Cuáles son los pronósticos de tendencias para
los años 1989, 1990 y 1991?

496
Métodos Estadísticos Varela/Llanos/Asnate

3. Los datos de la tabla siguiente representan los


ingresos brutos anuales por venta de pasajes (en
billones de dólares) obtenidos por Pan American
Airways, Inc., durante un periodo de 18 años, de
1969 a 1986.
Ingresos anuales por pasajes: Pan American
Airways, Inc.
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
Año
1.05
1.13
1.18
1.31
1.43
1.53
1.61
1.66
1.91
2.20
2.48
4.02
3.80
3.72
3.79
3.68
3.48
3.04
Pag.
Ing.

a) Trace los datos sobre una gráfica


b) Ajuste una ecuación de tendencia cuadrática a los
datos y trace la curva en la gráfica.
c) Ajuste una ecuación de tendencia exponencial a
los datos y trace la curva en la gráfica.
d) Para el modelo de tendencia exponencial ¿Cuál ha
sido el crecimiento anual de ingresos por renta de
pasajes durante los 18 años.
e) Antes de contar con los datos ¿Cuáles hubieran
sido los pronósticos de tendencias para los años
1987 a 1989.
1) Usando el modelo de tendencia cuadrática?
2) Usando el modelo de tendencia exponencial?
4. Los datos de la tabla siguiente representan el
importe de los créditos por ventas (a corto y medios
plazos) a consumidores (en miles de dólares) en
497
Métodos Estadísticos Varela/Llanos/Asnate

cartera en un banco comercial desde 1974 hasta


1988.
Crédito a plazo de consumidores
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
Año
Cred.

112.4
136.2
154.2
145.8
Cart.
31.3
33.2
37.9
42.4
45.4
51.2
59.8
69.5
72.5
78.7
85.4 a) Trace los datos en una gráfica
b) Ajuste una formula de tendencia cuadrática
a los datos y trace la curva en la gráfica.
c) Ajuste una formula de tendencia
exponencial a los datos y trace la curva en
la gráfica.
d) Para el modelo de tendencia exponencial
¿Cuál ha sido el crecimiento anual en el
importe de los créditos por ventas a plazos a
consumidores en cartera en este banco
durante los 15 años.
e) Para cada modelo ¿Cuáles son los
pronósticos de tendencias para los años
1989, 1990 y 1991?
5. Consulte el problema 1 - ventas netas anuales de
General Motors Corporation-
a) Realice un análisis residual.

498
Métodos Estadísticos Varela/Llanos/Asnate

b) Calcule la MAD para su modelo ajustado, f)


¿Da un buen ajuste a estos datos el modelo de
tendencia lineal?
c) En la biblioteca y utilizando las fuentes
adecuadas, registre las ventas netas anuales
reales para los años desde 1987 hasta el actual.
1) Compare las ventas netas reales ( Yi) con las

ventas netas predichas ( Y i ) según el inciso e) del
problema 1. Calcule la MAD para los años 1987
hasta el actual.
2) Compare la MAD para el modelo ajustado en la
sección b) con la MAD para los valores predichos
en la sección d)l). Comente.
6. Consulte el problema 2 -pagos de impuestos
corporativos sobre la renta.
a) Realice un análisis residual.
b) Calcule la MAD para su modelo ajustado.
c) ¿Da un buen ajuste a estos datos el modelo de
tendencia lineal?
7. Consulte el problema 3 -ingresos anuales por
pasajes de Pan American World Airways.
a) Realice un análisis residual para cada uno de
sus modelos ajustados.
b) Calcule la MAD para cada tino de sus
modelos ajustados.
c) Sobre la base de las secciones a) y b) ¿cuál de
los dos modelos se diría que es el más
apropiado?
d) En la biblioteca, utilizando las fuentes
apropiadas, registre los ingresos anuales por
499
Métodos Estadísticos Varela/Llanos/Asnate

pasajes reales de los años 1987 hasta el


presente.
1) Compare los ingresos reales por
pasajes (Y¡) con los ingresos por pasajes

Predichos ( Y i ) en la sección e) del
problema 3. Calcule la MAD para los
años desde 1987 hasta el presente.
2) Compare la MAD para el modelo
ajustado en la sección b) con la
Correspondiente MAD basada en los
valores predichos en la sección d)l). ¿Se
mantienen las conclusiones obtenidas en
la sección e)? Comente.
8. Consulte el problema 4 -créditos aplazo de los
consumidores
a) Realice un análisis residual para cada
modelo ajustado.
b) Calcule la MAD para cada modelo ajustado.
c) Sobre la base de las secciones a) y b) ¿cuál de
los dos modelos se diría que es el más
apropiado?
9. Los datos que se proporcionan en la siguiente tabla
representan las utilidades pro acción común (en
dólares) correspondientes a la Compañía de
Minas y Manufactura Minnesota durante un
periodo de 20 años, desde 1967 hasta 1986.
Utilidades por acción
Utilidades por acción

500
Métodos Estadísticos Varela/Llanos/Asnate

Año
196
196
196
197
197
197
197
197
197
197
7
8
9
0
1
2
3
4
5
6
Utilid

acció
1.38
1.50
1.61
1.68
1.87
2.17
2.62
2.66
2.29
2.94
por

n
.
Año
197
197
197
198
198
198
198
198
198
198
7
8
9
0
1
2
3
4
5
6
acción
Utilid.

3.57
4.83
5.59
5.69
5.74
5.40
2.83
3.13
2.88
3.40
Por

a) Con el método de los mínimos cuadrados,


ajuste
1) la fórmula de tendencia lineal
2) la fórmula de tendencia cuadrática
3) la fórmula de tendencia exponencial
b) Determine el modelo más apropiado
mediante el análisis residual. Comente.
c) Determine el modelo más apropiado al
comparar las MAD. ¿Los resultados
obtenidos aquí están de acuerdo con los
resultados de b)? Comente.
d) Utilizando el modelo seleccionado ¿qué
pronósticos de tendencias se Pudieron
haber hecho para los años 1987 hasta
1989?
e) En la biblioteca y usando el ejemplar más
reciente de "Standard N.Y.S.E. Reports",

501
Métodos Estadísticos Varela/Llanos/Asnate

registre las utilidades por acción anuales


reales desde los años 1987 hasta el presente.
1) Compare las utilidades reales por acción
(Y¡) con las utilidades por acción predicha (

Y i ) de acuerdo a la sección d). Calcule la
MAD para los años 1987 hasta el presente.
2) Compare la MAD para el modelo
seleccionado en la sección c) con la MAD
para los valores predichos en la sección e)l).
Comente.

10. La información que se proporciona en la


siguiente tabla representa el número anual de
empleados (en miles) de una compañía
abastecedora de petróleo para los años 1969 a
1988.

Numero de empleados

Año Número Año Número Año Número


1969 1.45 1977 2.06
1970 1.55 1978 1.80
1985
1971 1.161 1979 1.73 1.88
1986
1972 1.60 1980 1.77 2.00
1987
1973 1.74 1981 1.90 2.08
1988
1974 1.92 1982 1.82 1.88
1975 1.95 1983 1.65
1976 2.04 1984 1.73

a) Trace los datos en una gráfica.

502
Métodos Estadísticos Varela/Llanos/Asnate

b) Ajuste un promedio móvil de 3 años a los


datos y trace los resultados en la gráfica
c) Utilizando un coeficiente de suavización de
0.50, suavice en forma exponencial la serie
y trace los resultados en la gráfica
d) ¿Cuál es el pronóstico exponencialmente
suavizado para la tendencia en 1989?
e) Calcule la MAD para cada modelo ajustado.
Compare resultados.

11. La información que se proporciona en la


siguiente tabla representa el importe de las ventas
anuales (en millones) para una compañía
procesadora de alimentos de los años 1963 a 1988.
Importe de las ventas anuales (en millones)

Año Número Año Número Año Número


1963 41.6 1972 53.2 1981
36.4
1964 48.0 1973 53.3 1982
38.4
1965 51.7 1974 51.6 1983
42.6
1966 55.9 1975 49.0 1984
34.8
1967 51.8 1976 38.6 1985
28.4
1968 57.0 1977 37.3 1986
23.9
1969 64.4 1978 43.8 1987
27.8
1970 60.8 1979 41.7 1988
42.1
1971 56.3 1980 38.3

a) Trace los datos en una gráfica.


b) Ajuste un promedio móvil de 7 años a los
datos y trace los resultados en la gráfica
c) Usando un coeficiente de suavización de
0.25, suavice en forma exponencial la
serie y trace los resultados en la gráfica
503
Métodos Estadísticos Varela/Llanos/Asnate

d) ¿Cuál es el pronóstico exponencialmente


suavizado para la tendencia en 1989?
e) Calcule la MAD para cada modelo ajustado.
Compare los resultados.
12. Consulte la información en el problema 2 - pagos
de impuestos corporativos sobre la renta.
a) Ajuste un promedio móvil de 3 años a los
datos.
b) Utilizando un coeficiente de suavización de
0.50, suavice en forma exponencial la serie
c) ¿Cuál es el pronóstico exponencialmente
suavizado para la tendencia en 1989?
d) Calcule la MAD para cada modelo ajustado.
Compare los resultados.

504
Métodos Estadísticos Varela/Llanos/Asnate

GLOSARIO
Cuasivarianza: Característica de una muestra o población que
cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene
multiplicando la varianza por
n / (n-1). La cuasivarianza muestral es un estimador centrado (no
sesgado) de la varianza poblacional.
Estimador Insesgado: Es un estimador cuyo promedio es el valor
del parámetro desconocido. Su valor esperado es el valor del
parámetro poblacional. Un estimador insesgado es uno que tiene la
propiedad de exactitud.
Insesgadez: Se denomina sesgo de un estimador a la diferencia
entre la esperanza (o valor esperado) del estimador y el verdadero
valor del parámetro a estimar. Es deseable que un estimador sea
insesgado o centrado, es decir, que su sesgo sea nulo por ser su
esperanza igual al parámetro que se desea estimar.
Intramuestra: Es la variación que se da dentro de cada muestra.
Estratal: Son las diferentes operaciones que se da entre estratos.

505
Métodos Estadísticos Varela/Llanos/Asnate

BIBLIOGRAFIA:

1.- Azorín, F; Sánchez-Crespo, J. L. (1986) Métodos y aplicaciones


del muestreo Alianza Universidad textos, Alianza editorial.
2.- Cochran, W. G. (1971) Técnicas de muestreo
Compañía editorial continental
Lislv, L. (1972) Muestreo de encuestas, Editorial Trillar.
3.- Miras, J. (1985) Elementos de muestreo para poblaciones finitas
INE.
4.- Silva Ayçaguer, L. C. (1993) Muestreo para la investigación en
ciencias de la salud, Editorial Díaz Santos.
5.- Scheaffer, R. L.; Mendenhall, W; Ott, L. (1987) Elementos de
muestreo, Grupo editorial Iberoamérica
6.- Cristobal Exebio C. - Univercidad Nacional de Trujillo - muestreo
y aplicaciones.
7- César Pérez López – Universidad Complutense de Madrid – -
Muestreo estadístico.
8.- Sharon l. Lohr – Arizona State University – muestreo, diseño y
análisis.
9.- www.elestadistico.com

506

También podría gustarte