Apunte Estadistica para Administradores
Apunte Estadistica para Administradores
Apunte Estadistica para Administradores
Chi-cuadrado.............................................................................................................................. 54
Kolmogorov ...............................................................................................................................56
m1 | actividad 5...................................................................................................................................58
Pruebas para atributos.....................................................................................................................58
Pruebas sobre la proporción de una población..............................................................................61
m2 | actividad 1...................................................................................................................................63
m2 | actividad 2...................................................................................................................................65
m2 | actividad 3...................................................................................................................................70
m2 | actividad 4...................................................................................................................................72
m2 | actividad 5...................................................................................................................................72
m3 | actividad 1...................................................................................................................................76
m3 | actividad 2...................................................................................................................................78
m3 | actividad 3...................................................................................................................................84
m3 | actividad 4...................................................................................................................................86
m3 | actividad 5...................................................................................................................................87
m3 | actividad 6...................................................................................................................................88
m4 | actividad 1...................................................................................................................................90
m4 | actividad 2...................................................................................................................................92
m4 | actividad 3...................................................................................................................................92
m4 | actividad 4...................................................................................................................................93
m4 | actividad 5...................................................................................................................................94
EJERCICIOS SIMULACIÓN............................................................................................................95
2/96
PES-SanPi
3/96
PES-SanPi
INTERVALO DE CONFIANZA
Para valorar el posible error de estimar las propiedades poblacionales a partir de cantidad obtenidas
en la muestra.
α σ α σ
Intervalo de confianza para la media ICµ ;...% = x − ( z − ) ; x + (z − ) donde (z-α/2) se
2 n 2 n
toma de tabla de valor de z.
4/96
PES-SanPi
( n − 1) s 2 (n − 1) s 2
Intervalo de confianza para la varianza ICσ ,...% = 2
2
;
x( n − 1)α / 2 x (2n − 1)1− α / 2
(n − 1) s 2 (n − 1) s 2
Intervalo de confianza para el desvío ICσ ,...% = ; 2
x (2n − 1)α / 2 x ( n − 1)1− α / 2
Tipo de variable
Cualitativas
Cuantitativa Discretas Distribuciones discreta de la probabilidad
• Binomial: dos posibilidades (éxito – fracaso). Es la que
maneja la distribución de la probabilidad de obtener cierta
cantidad de éxitos al realizar una cantidad de experimentos
con probabilidad de éxito constante y con ensayos
independientes.
• de Poisson: probabilidad de ocurrencia en un intervalo
especificado de tiempo o espacio.
• Hipergeométrica: como la binomial pero los intentos no son
independientes y con un tamaño de muestra grande en
relación al tamaño de la población.
Continuas Distribuciones continuas de la probabilidad
•
Uniforme: Es la distribución donde todos los
eventos elementales tienen la misma probabilidad.
• Normal: su función de densidad tiene
forma de campana y se determina con la
media y la desviación estándar.
media, mediana y moda cercanas
desvío mucho < a media
coeficiente de asimetría cercano a cero
histograma con forma acampanada
▪ ojiva curva con forma de S
• Exponencial: probabilidad de ocurrencias de un evento en el
tiempo o espacio.
Media > mediana
Mediana > moda
Desvío = media
Coeficiente de asimetría 2
Contrastes de hipótesis
Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o
no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y
tanto si se aceptan como si se rechazan se puede cometer un error.
La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se representa por H0.
Rechazar H0 implica aceptar una hipótesis alternativa (Ha).
La situación se puede esquematizar:
6/96
PES-SanPi
de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado
del parámetro.
1.2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo del interés
del investigador
H0: θ ≠ θ0 θ > θ0 θ < θ0
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral
(derecho en el 2º caso, o izquierdo en el 3º) o una cola.
Paso 2: Seleccionar el nivel de significación: nivel crítico para 〈
Elección de un estadístico de prueba que permita verificar la hipótesis, adopción de una
probabilidad para la zona de rechazo (especificar el nivel de significancia α para la prueba – error
tipo I 〈 pequeña, pero tienden a error tipo II- 〈=generalmente entre .05 y .01) y especificación de
cuáles son los valores de dicho estadístico que conducen a rechazar la hipótesis (establecer regla de
rechazo); SIEMPRE CON PARÁMETROS POBLACIONALES, no muestrales.
nivel de significación: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota
mediante la letra griega α, también es denominada como nivel de riesgo, este término es mas
adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
Este nivel esta bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la
probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-〈),
indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.
7/96
PES-SanPi
H1 : µ ≠ 200
8/96
PES-SanPi
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.
Paso 5: Tomar una decisión.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el
valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una
prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula.
Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería
haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte
cuando debería haberse rechazado (error de tipo II).
9/96
PES-SanPi
Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal
sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se incrementa
el número de observaciones en la muestra, pues así se acortan los limites de confianza respecto a la
hipótesis planteada .La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras
palabras, es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder
de la prueba (1- β) La aceptación de la hipótesis planteada debe interpretarse como que la
información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis
Tipo I (α es la probabilidad de cometer error tipo I): en la práctica, la persona que efectúa la
prueba de hipótesis, especifica la máxima probabilidad permisible (llamada nivel de significancia)
para la prueba, de cometer un error de tipo I. Se acostumbran valores .05 y .01 para el nivel de
significancia. Si el costo de cometer un error de tipo I es alto, se debería escoger un valor pequeño
de nivel de significancia. Si el costo no es alto, lo adecuado sería usar un valor mayor (el valor
pequeño de nivel de significancia tiende a error de tipo II).
Tipo II (β es la probabilidad de cometer error tipo II): la probabilidad de un error de tipo II
depende del valor de μ (media de la población). Para valores de μ cercanos a μ 0 (valor supuesto de
la media de población), la probabilidad de cometer error tipo II puede ser alta.
Debido a la incertidumbre de cometer un error tipo II, en estadística se recomienda usar la
redacción “no rechazar Ho” en lugar de “aceptar Ho” lo que implica la recomendación de detener
cualquier juicio y acción. (ver pag 364)
Pasos:
• Formular Ho y Ha.
• Usar el nivel de significancia α para establecer la regla de rechazo, basado en el estadístico de
prueba z.
• Despejar el valor de la media de la muestra x .
• Usar medias más bajas y estimar la probabilidad de que el punto medio muestral real sea mayor.
• La probabilidad de rechazar correctamente Ho cuando es falsa, se llama potencia de la prueba
(1-β).
Valor p (nivel observado de significancia para la prueba): si el valor p es menor que el nivel de
significancia α (p< α), se puede rechazar la hipótesis nula (Ho). Rechazar Ho si p< α.
1. Se toma el valor de Z o de T, se busca en la tabla de distribución normal estándar,
2. Se resta p= 0.5000 – valor de tabla (si es prueba bilateral p=(0.5000 – valor de tabla)*2,
3. Se rechaza o no Ho si p< α
Controlando el tamaño de la muestra, es posible manejar la probabilidad de cometer error tipo I y
II.
( zα + z β ) 2 σ 2
n=
(µ 0 − µ a ) 2
10/96
PES-SanPi
Ejemplo
El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la
UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este
supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera
el nivel de significancia de 0.05
Datos:
Día Usuarios Día Usuarios Día Usuario
1 356 11 305 21 429
2 427 12 413 22 376
3 387 13 391 23 328
4 510 14 380 24 411
5 288 15 382 25 397
6 290 16 389 26 365
7 320 17 405 27 405
8 350 18 293 28 369
9 403 19 276 29 429
10 329 20 417 30 364
11/96
PES-SanPi
Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar
poblacional desconocida.
Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa
Ho: μ═350
Ha: μ≠ 350
Paso 02: Nivel de confianza o significancia 95%
α═0.05
Paso 03: Calculamos o determinamos el valor estadístico de prueba
De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras es
igual a 30, conocemos la media de la población, pero la desviación estándar de la población es
desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en la
formula reemplazando a la desviación estándar de la población.
Ejemplo 2
Genero n Media Desvio SE mean
Femenino 181 72847 37773 2808
Masculino 229 75734 32320 2136
Diferencias de medias 2887
12/96
PES-SanPi
Distribución chi-cuadrado
• Como test de independencia: para determinar si 2 variables son independientes.
• Como test de bondad de ajuste: para determinar si se rechaza una distribución hipotética de
probabilidades para una población.
• Para estimar la varianza de una población normalmente distribuida.
Distribución t de Student
• Para estimar la media de una población normalmente distribuida cuando el tamaño de la muestra
es pequeño.
• Cuando se desconoce la desviación de una población y debe ser estimada con lo datos de la
muestra.
µ
zona de rechazo
• A la izquierda: Rechazar Ho si χ
2
< χ 12− α (varianza) o z < − zα o t < − tα (media)
µ
zona de rechazo
Prueba bilateral
Rechazar Ho si
• Varianza: χ > χ α / 2 o χ < χ 1− α / 2
2 2 2 2
µ
zonas de rechazo
VARIANZA (chi-cuadrado): para saber si se obtuvieron los valores muestrales por casualidad
1. Hipótesis Ho y Ha
(n − 1) s 2
2. Estadístico de prueba χ 2 =
σ 2
3. Regla de rechazo: Rechazar Ho si χ ...χ α
2 2
MEDIA (t de Student): para saber si se obtuvieron los valores muestrales por casualidad
13/96
PES-SanPi
1. Hipótesis Ho y Ha
2. Estadístico de prueba:
x− µ x− µ
a. n ≥ 30 z= o z=
σ / n s/ n
x− µ x− µ
b. n < 30 z= o t=
σ / n s/ n
1. Hipótesis Ho y Ha
( f i − ei ) 2 (ni − fei ) 2
Estadístico de prueba χ = ∑ o χ = ∑
2 2
2.
ei fei
3. Tabla de distribución
Datos individuales
Frecuencia Probabilidad Frecuencia esperada (fe) (ni − fe) 2
x
(ni) (según tabla) Po ni*po fe
No pueden ser valores menores
14/96
PES-SanPi
Datos agrupados
x− x
( ) (x es
s
Frecuencia el valor del Probabilidad
Frecuencia (ni − fe) 2
Intervalo límite mayor esperada (fe)
(ni) (según tabla) Po fe
en el intervalo) n*po
Límite Límite
menor mayor
* del límite mayor
Sumatoria = x2
rango
* Cantidad de intervalos: n amplitud de cada intervalo:
n
4. Regla de rechazo: Rechazar Ho si χ 2 > χ (2k − ...;α ) donde k es la cantidad de categorías o
intervalos
a. Grados de libertad: k-1: para distribución multinomial
b. Grados de libertad: k-2: para distribución de Poisson
c. Grados de libertad: k-3: para distribución normal
5. Cálculo
6. Contraste y decisión (rechazar o no rechazar Ho)
• Kolmogorov TABLA
Para muestras menores a 50 datos. Sólo datos continuos.
Prueba de Smirnov - Kolmogorov - Valores individuales. Para realizar la prueba de S-K no se
requiere que las observaciones estén distribuidas en intervalos de clase, sino que puede realizarse
sin agrupar los valores en intervalos de clase, principalmente cuando el tamaño de la muestra es
pequeño. En este caso es necesario ordenar los valores en forma ascendente, de menor a mayor, y
calcular, para cada valor observado las distribuciones teóricas F(Xi) y empíricas Sn(Xi).
1. Hipótesis Ho y Ha
2. Estadístico de prueba valor =máx | sn - fo|
3. Regla de rechazo: Rechazar Ho si valor > valorn;α (tabla)
4. Cálculo de una tabla
Frecuencia Sn x− x Fo
Intervalo
(ni) (ni/total)
Sn acumulado z= (tabla)
Sn-fo
s
15/96
PES-SanPi
ei
Sumar la columna = x2
Datos individuales
Módulo 2: Simulación
16/96
PES-SanPi
17/96
PES-SanPi
18/96
PES-SanPi
zα proporción (1 − proporción) 2
n> ( /2
) z se toma de TABLA de valores zα /2
error
x
Se puede representar formalmente la relación y = α + β x + ε
Donde:
• α es la ordenada al origen
• β es la pendiente de la recta
• ε es la variación aleatoria (se supone con distribución normal, media cero, y cierta varianza). Se
verifica con gráfica de probabilidad normal (ver verificaciones gráficas de los residuos).
La media se representa por la recta y = α + β x (Cuando se habla de promedio es yˆ = b0 + b1 x )
Para estimar la media y la varianza (en la relación entre 2 o más variables) se usa el método de los
mínimos cuadrados (para encontrar la recta que reduce al mínimo la suma de cuadrados de los
errores).
El modelo de regresión y = β 0 + β 1 x + ε
Ecuación de regresión ε ( y ) = β 0 + β 1 x
Parámetros desconocidos βo y β1
Con los datos de la muestra
x y
Ecuación estimada de regresión yˆ = b0 + b1 x
Estadísticos de la muestra bo y b1 → proporcionan los estimados de Bo y B1
∑ xy − (∑ x ∑ y ) / n
b1 = b0 = y − b1 x
∑ x 2 − (∑ x) 2 / n
La relación SSR/SST puede asumir valores entre cero y uno (el coeficiente de determinación da una
medida entre 0 y 1), y se usa para evaluación de la bondad de ajuste para la ecuación de regresión.
Se evalúa la capacidad predictiva del modelo. Por ej. r 2 = 0.88 -> 88% de acierto
20/96
PES-SanPi
El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto
de las desviaciones estándar de ambas variables:
En el caso de una relación lineal entre dos variables, el coeficiente de determinación y el coeficiente
de correlación permiten tener medidas de la intensidad de una relación. El coeficiente de
determinación da una medida entre 0 y 1, mientras que el coeficiente de correlación da una medida
entre -1 y +1.
• Un valor de +1 indica que las dos variables (x e y) tienen una relación lineal positiva perfecta
(todos los puntos de datos están en una línea recta con pendiente positiva).
• Un valor de -1 indica que las dos variables (x e y) tienen una relación lineal negativa perfecta
(todos los puntos de datos están en una línea recta con pendiente negativa).
• Un valor de cercano a 0 indica que las dos variables (x e y) no tienen una relación lineal (ver
pruebas de hipótesis de significancia)
El coeficiente de correlación se restringe a una relación lineal entre dos variables.
Relaciones lineales
• Positiva: la pendiente B1 es positiva (B1>0) E(y)
Orientada al
origen Bo la pendiente
B1 es positiva
x
• Negativa: la pendiente B1 es negativa (B1<0)
E(y)
Orientada al la pendiente B1
origen Bo es negativa
la pendiente B1
Orientada al es cero
origen Bo
21/96
PES-SanPi
SSE
Error estándar del estimado: s = MSE =
n− 2
Regla de rechazo: Rechazar Ho si t<-tα/2 o t>tα/2
Donde tα/2 se basa en una distribución t con n-2 grados de libertad.
Observación: cuando se realiza la prueba t para calcular la ordenada al origen (b0) tα/2 el valor del
nivel de significancia α se calcula para el lado izquierdo, por ejemplo: nivel de significancia 0.05
que se debe dividir por 2=0.025, a eso debo hacer 1-0.025= 0.975
libertad en el denominador.
Verificación de errores
Residual en la observación i y i − yˆ i
El i-ésimo residual es el error debido al uso de la ecuación de regresión para predecir el valor de y.
x y Valor estimado yˆ = b0 + b1 x Residuales y − yˆ
Se usa para determinar si son adecuados los supuestos que se hicieron sobre el modelo de regresión
(si es adecuado el modelo supuesto de regresión).
Los residuales dan información acerca de ε. Para describir si las hipótesis acerca de ε son adecuadas
se realizan análisis de residuales:
• Gráfica de residuales en función de x (los valores de x se
Residual
representan en el eje horizontal y los residuales en el eje Patrón adecuado
vertical. Se grafica un punto para cada residual.)
o Si la hipótesis de que la varianza de ε es igual para
todos los valores de x, la gráfica debe mostrar un patrón 0
similar a una banda horizontal de puntos.
x
x
o O puede que se llegue a la conclusión de que el forma inadecuada
Residual del modelo
modelo no es una representación adecuada de la
relación entre las variables.
0
x
23/96
PES-SanPi
ŷ
• Gráfica de residuales estandarizados
residual
Desviación estándar del i-ésimo residual s y − yˆ = s 1 − h siendo s y − yˆ estandarizado
la desviación estándar del residual i, s el error estándar del estimado
0
1 (x − x)2
y h= +
n ∑ (x − x)2
y − yˆ x
Residual normalizado para la observación i
s y − yˆ
Al trabajar con una gráfica de residuales estandarizados cabe esperar que, aproximadamente el 95%
de los residuales estandarizados están entre -2 y +2.
Residual
estandarizado
(x − x)2 1 (x − x)2 o normalizado
i x x− x (x − x)2 h= + s y − yˆ = s 1 − h y − yˆ
∑ (x − x)2 n ∑ (x − x)2 y − yˆ
s y − yˆ
Si se trazara una gráfica, los puntos deberían agruparse estrechamente cerca de una línea a 45º que
pase por el origen:
o En general mientras más cerca estén los puntos de la línea a 45º, es mayor la evidencia
que respalda el supuesto de normalidad.
Residuales línea a 45º
estandarizados
Escalas normales
24/96
PES-SanPi
t Zt
1
2
3
Tendencia (T)
Es la componente que indica la evolución de la variable a través del tiempo, evolución que se va a
medir como un crecimiento o descenso constante en un período de tiempo prolongado. El período
de observación de la variable ha de ser suficientemente largo como para incluir dos o más ciclos
económicos y así poder tener una idea sobre la evolución real de la variable. Lo que mide la
25/96
PES-SanPi
tendencia es la variación promedio de la variable por unidad de tiempo. Esta tendencia se suele
describir mediante una recta o algún tipo de curva lisa.
En la figura siguiente se puede observar que a pesar de tener altibajos durante todo el período de
observación, la tendencia (T) de las tasas de desempleo es a disminuir.
26/96
PES-SanPi
En la figura puede observarse que generalmente el PIB en los meses de noviembre y diciembre está
en su punto máximo y en los meses de enero, marzo y junio en su punto mínimo, presentándose
más o menos el mismo comportamiento todos los años. La situación descrita se considera una
variación estacional.
Existen diversas razones para calcular las variaciones estacionales; si se sabe que los precios de
algunos artículos tienen una fluctuación caracteristica, es posible comprar en época de precio bajo y
reservar los artículos para su posterior empleo o venta. Antes de tomar una decisión a este respecto
debe tenerse en cuenta el costo de almacenamiento y otros costos que impliquen la operación.
Una razón para medir los movimientos estacionales es la de ajustar los datos estadísticamente
respecto a tales movimientos, quedando así las series compuestas únicamente por la tendencia, los
movimientos cíclicos y las variaciones aleatorias. Los datos en esa forma son más fáciles de
interpretar para muchos fines, por disminuir la probabilidad de error en la apreciación de la causa de
cualquier movimiento observado. Por ejemplo, si no se han ajustado los datos, puede tomarse un
alza estacional por una mejora en la condición del negocio o viceversa.
Los índices estacionales son las medidas de las variaciones estacionales en la marcha de cualquier
variable. Al hacer los análisis de las variaciones estacionales se deben utilizar como máximo
datos trimestrales o semestrales.
27/96
PES-SanPi
Series de tiempo
Una serie de tiempo es un conjunto de observaciones de una variable, realizadas a intervalos
regulares y ordenadas conforme a su aparición cronológica. Bajo esta definición se pueden
encuadrar, por ejemplo, las ventas mensuales de una empresa o el consumo anual de energía
eléctrica en una ciudad.
Las series se registran habitualmente como un conjunto de pares ordenados de valores, con el
tiempo expresado en forma de indicadores: 1, 2, 3, ... Para ejemplificar, podemos plantear el caso de
una empresa cuyas ventas en los últimos años han sido las siguientes:
t Zt
1 25
2 28
3 29
4 30
5 33
6 32
7 34
8 34
9 36
10 35
Este concepto admite una representación gráfica en un par de ejes coordenados, donde en las
abscisas se representa el tiempo, y en las ordenadas los valores observados de la variable. La gráfica
de la serie anterior es la siguiente:
28/96
PES-SanPi
30/96
PES-SanPi
Ahora bien, las rectas de regresión no son el único modelo de pronóstico. De hecho, en el presente
módulo se trabajan otras herramientas.
Por ejemplo, para series que se mantienen estacionarias y presentan un componente aleatorio fuerte,
pueden aplicarse el modelo autorregresivo o los métodos de suavizado exponencial. El primero
pronostica mediante una regresión simple del nuevo valor de la serie en función del inmediato
anterior.
En cambio, los de suavizado utilizan un promedio de los últimos valores observados.
Si la serie tiene una tendencia dominante, como se anticipó, se utiliza una proyección de dicho
efecto. Por otra parte, si presenta el efecto conjunto de tendencia y fluctuación estacional, se utiliza
el denominado modelo multiplicativo.
Este método apela a representar ambos efectos por separado y pronostica por medio de un producto
de los dos componentes.
En suma, en series de tiempo es preciso realizar dos tareas diferentes. Por una parte se analizan los
comportamientos presentes en la serie y por la otra se elige el modelo de pronóstico más
conveniente. Por supuesto, los resultados del análisis permiten una elección adecuada del modelo.
Herramientas:
• La herramienta clave es la Función de Autocorrelación FAC: representa de manera
cuantitativa el nivel de relación existente entre los valores actuales de la serie y sus precedentes.
Cada comportamiento típico tiene su correspondiente FAC.
Parejas de Producto
Zt
valores Zt-1 (Zt-promedio)*(Zt-1-
i promedio)
1 Valor 2 Valor 1
2 Valor 3 Valor 2
3 Valor 4 Valor 3
4
TOTAL
Leyenda: “El coeficiente de autocorrelación de primer orden es … Esto quiere decir que
existe una relación lineal entre valores consecutivos de la serie”
Ejemplo
valores Yt
t
1 1604
2 1531
3 1606
...
n 1482
valores Zt Producto
Zt-1
t (Zt)*(Zt-1)
1 1531 1604 2455724
2 1606 1531 2458786
3 1523 1606 2445938
4 1590 1523
... .. ... ...
Parejas de Producto
Zt
valores Zt-1 (Zt-promedio)*(Zt-1-
i promedio)
1 Valor 3 Valor 1
2 Valor 4 Valor 2
32/96
PES-SanPi
3 Valor 5 Valor 3
4
TOTAL
Leyenda: “El coeficiente de autocorrelación de segundo orden es … Esto quiere decir que
existe una relación lineal entre valores consecutivos de la serie”
Parejas de Producto
Zt
valores Zt-1 (Zt-promedio)*(Zt-1-
i promedio)
1 Valor 4 Valor 1
2 Valor 5 Valor 2
3 Valor 6 Valor 3
4
TOTAL
Retardo Autocorrelación
1
2
3
4
33/96
PES-SanPi
0,4
2
0,2 4
Autocorrelación 0
-0,2
3
-0,4
1 Retardo
• Gráficos de series.
∑ (nvaloresmasrecientesdedatos)
• Gráficos de los promedios móviles. Promedio móvil =
n
Error de pronóstico
Valor de la Pronóstico con
(valor de la serie- Error de pronóstico al
Tiempo serie de promedios
pronóstico con cuadrado
tiempo móviles
promedios móviles)
TOTALES
TOTAL
∑ (( X t − 1 ) X t ) − ∑ ( X t − 1 ) ∑ ( X t ) / n
Φ =
∑ (( X t − 1 ) 2 ) − (∑ X t − 1 ) 2 / n
C = X t − φ X t− 1
Modelo autorregresivo
n Xt Xt-1 (Xt-1)Xt (Xt-1)2 X t = C + φ X t − 1 Error Error2
34/96
PES-SanPi
X t − (C + φ X t − 1 )
TOTAL
MSE (error cuadrático medio)
1. F1=primer valor de Y
2. F2 = α Yt + (1 − α ) F1
3. F3 = α Y2 + (1 − α ) F2
4. F4 = α Y3 + (1 − α ) F3
5. …
Cálculo del error cuadrático medio en los pronósticos para predecir la demanda del servicio con
α=.1
Pronóstico con Error del Error del pronóstico al
Tiem Valor de la serie
suavizamiento pronóstico cuadrado
po de tiempo (Yt)
exponencial (Ft) (Yt - Ft) (Yt - Ft)2
TOTAL
MSE (error cuadrático medio)
Cálculo del error cuadrático medio en los pronósticos para predecir la demanda del servicio con
α=.2
Pronóstico con Error del Error del pronóstico al
Tiem Valor de la serie
suavizamiento pronóstico cuadrado
po de tiempo (Yt)
exponencial (Ft) (Yt - Ft) (Yt - Ft)2
TOTAL
MSE (error cuadrático medio)
Cálculo del error cuadrático medio en los pronósticos para predecir la demanda del servicio con
α=.3
Tiem Valor de la serie Pronóstico con Error del Error del pronóstico al
po de tiempo (Yt) suavizamiento pronóstico cuadrado
exponencial (Ft) (Yt - Ft) (Yt - Ft)2
TOTAL
MSE (error cuadrático medio)
35/96
PES-SanPi
Interpretación: “Como vemos que para el conjunto de valores de datos con el que contamos, la
constante de suavizamiento α=… produce mayor precisión (valor de MSE)”.
t Yt tYt t2
En el caso de tener varios modelos, se adopta en que obtenga la menor suma (con la suma de
cuadrados de los errores, o el promedio de la suma de cuadrados).
Modelo Ajuste
MSE
MSE
MSE
Leyenda: “Considerando los modelos trabajados, el … presenta un menor error de ajuste (valor
de MSE)”
Error cuadrático medio: método con el que se mide la precisión de un modelo de pronóstico
∑ error 2
(calidad de ajuste): MSE =
n
36/96
PES-SanPi
FÓRMULAS CLAVES
frecuenciadelaclase
Frecuencia relativa
n
valormáxi mod edatos − valormíni mod edatos
Ancho aproximado de clase
cantidaddeclases
Media (con calculadora: ∑ xi ∑ xi
SHIFT-SAC-ingreso nº-x- Muestra x = ' Población µ = '
n N
ingreso nº-x-…x-SHIFT x )
Muestra ∑ ( xi − µ ) 2
∑ ( xi − x ) 2 Población σ 2
=
Varianza N
s2 =
n− 1
Muestra s = s 2 Población σ = σ 2
(con calculadora: (con calculadora: SHIFT-SAC-
Desviación estándar SHIFT-SAC-ingreso ingreso nº-x-ingreso nº-x-…x-
nº-x-ingreso nº-x-…x- SHIFT σ n )
SHIFT σ n − 1 )
n x− x 3
CA = ∑( )
(n − 1)(n − 2) s
negativo (izquierda= con concentración de datos a la
Coeficiente de asimetría derecha)
Cero
Positivo (derecha = con concentración de datos a la
izquierda)
x − x
Valor z zi = i
s
x + x2
Mediana (Me o ~
x) Impar = valor del medio Par = 1
2
Valor que más se repite
Moda (Mo)
2 valores= bimodal más de 2=multimodal
Función de probabilidad f ( x) = 1 / n
uniforme discreta n= cantidad de valores que puede asumir la variable
n
Función de probabilidad
f ( x) = ( ) p x (1 − p) ( n − x )
binomial x
de probabilidad 2π σ
Función de densidad 1 − x/µ
f ( x) = e para x>=0, μ >0
exponencial de probabilidad µ
Distribución exponencial de P ( x ≤ x 0 ) = 1 − e − x0 / µ
probabilidades
37/96
PES-SanPi
38/96
PES-SanPi
MSR
Estadístico de prueba: F =
MSE
significancia en la regresión MSR: SSR/1 MSE: SSE/n-2
lineal simple) Regla de rechazo: Rechazar Ho si F> Fα
Donde Fα se basa en una distribución F con 1 grado de
libertad en el numerador y n-2 grados de libertad en el
denominador.
Hipótesis: Ho: β 1 = 0 Ha: β 1 ≠ 0
b1
Estadístico de prueba: t =
sb1
Desviación estándar estimada de b1:
s
Prueba t de STUDENT (de sb1 =
la significancia en la ∑ x 2 − (∑ x) 2 / n
regresión) Error estándar del estimado:
SSE
s = MSE =
n− 2
Regla de rechazo: Rechazar Ho si t<-tα/2 o t>tα/2
Donde tα/2 se basa en una distribución t con n-2 grados
de libertad.
mín ∑ ( y i − yˆ i ) 2 Siendo
Criterio de los cuadrados
mínimos y= valor observado de la variable dependiente
ŷ = valor estimado de la variable dependiente
rxy = ( signob1 ) r 2 siendo
Coeficiente de correlación
de la muestra r 2 coeficiente de determinación
b1 la pendiente de la ecuación de regresión yˆ = b0 + b1 x
mín ∑ e 2 = ( y i − bx) 2
Cálculo de ecuación de
d ∑ ( y − bx) 2
regresión sin utilizar una = − 2 ∑ ( y − bx) x
ordenada al origen usando el db
criterio de los cuadrados ∑ yx
− 2 ∑ ( yx − bx) 2 = 0 despejando b se tiene b =
mínimos ∑ x2
A partir de esta fórmula se puede calcular b
∑ producto
Autocovarianza
i
auto cov arianza / σ
Autocorrelación
σ
∑ (nvaloresmasrecientesdedatos)
Promedios móviles Promedio móvil=
n
Modelo de suavizamiento Ft + 1 = α Yt + (1 − α ) Ft
exponencial
Error cuadrático medio ∑ error 2
MSE =
(calidad de ajuste) n
Ecuación de tendencia lineal Tt = b0 + b1t
(proyección de tendencias)
39/96
PES-SanPi
Modelo Autorregresivo X t = C + ∑ Φ i X t− i + ε t
α σ α σ
Para la media ICµ ;...% = x − ( z − ) ; x + (z − )
2 n 2 n
donde (z-α/2) se toma de tabla de valor de z.
(n − 1) s 2 (n − 1) s 2
Para la varianza ICσ ,...% = 2
2
Intervalo de confianza ;
x ( n − 1)α / 2 x(2n − 1)1− α / 2
(n − 1) s 2 (n − 1) s 2
Para el desvío ICσ ,...% = ; 2
x (2n − 1)α / 2 x ( n − 1)1− α / 2
Tamaño de la muestra para ( zα + z β ) 2 σ 2
manejar la probabilidad de n=
(µ 0 − µ a ) 2
cometer error tipo I y II
Fórmula para generar
variable aleatoria
UNIFORME b > a a y b intervalo
Por MonteCarlo
Fórmula para generar
variable aleatoria
EXPONENCIAL
No MonteCarlo
Si Teorema del Límite
Fórmula para generar Central
variable aleatoria
NORMAL
40/96
PES-SanPi
Actividades
m1 | actividad 1
Con la intención de definir cómo varían las visitas y su relación con las características de los
clientes, hemos decidido extraer una muestra de la base de datos y estudiar en particular, las
siguientes variables:
Cantidad de visitas por día: es frecuente que nuestros socios ingresen más de una vez en una
misma jornada; por ese motivo debemos contar en esta variable la cantidad de veces que un mismo
cliente ingresa durante un día.
Cantidad de visitas por cliente y por día
0 3 1 0 0 0
1 1 1 3 0 3
2 0 1 1 0 0
4 2 2 4 0 0
5 2 3 2 1 2
0 1 1 4 2 1
1 1 2 5 0 1
3 2 1 5 3 1
0 2 2 2 2 1
3 2 2 2 0 2
0 1 2 0 2 4
0 2 1 0 2 2
2 1 0 2 2 1
1 0 0 2 1 3
1 1 2 1 0 1
Medidas de posición:
Calculamos la mediana Med = 1 (50% de valores por arriba y 50% de valores por abajo) 35,75
Moda 35,75
Calculamos la media
N=100
43/96
PES-SanPi
∑ xi = 3567,54
Xm=3567,54/100 35,68
Como es de esperarse ocurre que Xm≈ Me ≈ Mo
Calculamos la varianza
S²X = ∑(Xi - Xm)² * ni
N-1
S²X = (8078,24) 81,60
100 -1
Calculamos el desvío estandar σ = (S2x) ½ 9,03
Calculamos frecuencias, frecuencias acumuladas, frecuencias relativas (p), frecuencias relativas
acumulas.
Medidas de forma:
Coeficiente de asimetría = Ca=3(Xm - Mo ) ≈ 0
s
Coeficiente de asimetría -0,029405778
En la práctica – 0,5 ≤ Ca≤ 0,5 se considera próximo a 0.
Coeficiente de Curtosis =
Medidas de dispersión:
En general aquí se verifica que el desvío estándar “s” es mucho menor que la media Xm, por lo
tanto debe ser
Luego del referido estudio, reflexionemos sobre cuál puede ser el modelo de probabilidad adecuado
para representar a esta variable: ¿exponencial o normal?
Justifiquemos la respuesta relacionando las propiedades de la muestra con las del modelo elegido.
Recordemos las propiedades de cada modelo. La distribución normal, por ejemplo, tiene media,
mediana y moda idénticas; el desvío es mucho menor a la media; el coeficiente de asimetría es cero.
El histograma semeja una campana, la ojiva una curva S
En cambio, la exponencial tiene media mayor que la mediana y a su vez esta es mayor que la moda;
el desvío es igual a la media y el coeficiente de asimetría es dos. En la muestra, no es razonable
pensar que los resultados van a coincidir perfectamente con estos valores, por lo tanto debemos
buscar a qué se aproximan más los estadísticos muestrales.
Por lo tanto el modelo de probabilidad adecuado a la muestra en la normal.
Columna1
Media 35,6754
Error típico 0,891778729
Mediana 35,785
Moda 35,75
44/96
PES-SanPi
= μ =100 y σ = σ = 8 / 4 => 2
√N
45/96
PES-SanPi
Grafiquemos en una escala adecuada las dos distribuciones de probabilidad, la de los valores individuales y la de los
promedios.
¿Dónde se advierte mayor variación: en los valores individuales o en los promedios?
N(µ,σ) => N(100,8)
5) Revisemos en nuestro texto de Estadística las distribuciones chi-cuadrado y t de Student.
¿Para qué sirven? ¿Cómo se utilizan? Construyamos en forma aproximada las gráficas de una chi-
cuadrado con diez grados de libertad y de una t de Student con ocho grados de libertad.
Distribución chi-cuadrado: Distribución diseñada para realizar estimaciones y pruebas, cuando los
estimadores se obtienen como sumas de cuadrados. Por ejemplo, se utiliza en la prueba sobre la
varianza.
Gráfica con 10 grados de libertad
46/96
PES-SanPi
m1 | actividad 2
La variable Duración de la Visita tiene distribución normal con media cuarenta minutos y desvío
siete minutos. Sin embargo los resultados de nuestra muestra hacen pensar en mayor variabilidad y
una media inferior. ¿Estaremos en realidad en presencia de una performance diferente o habremos
obtenido esos valores por casualidad? Para analizar esta cuestión, desarrollemos pruebas de
hipótesis sobre la varianza y la media, que permitan verificar si estas suposiciones son correctas
Lo primero que debe hacerse al hacer una prueba de hipótesis, es precisamente definir la hipótesis
de nula, y la hipótesis alternativa, para determinar si estamos ante un estudio "de una cola", o "de
dos colas". Esto es fundamental porque el grado de significación es distinto en ambos casos, y su
determinación depende del problema.
Datos
µ=45 σ=7
muestra de 100 elementos
n=100
Xm=35,68
s2=79,53
Prueba de hipótesis sobre la varianza de una cola
La varianza aumentó? Usamos la prueba de chi-cuadrado para analizar el supuesto
χ2
1. Planteo de Hipótesis
47/96
PES-SanPi
2. Gráfica:
4. Regla de decisión:
Rechazar Ho si : χ2≥Vc o sea → χ2 ≥ 124,3
Aceptar Ho si: Vcs ≥ χ2
6.Toma de decisión
No acepto Ho
Prueba de hipótesis sobre la media de una cola
Cuando se van a realizar pruebas de hipótesis relativas a la media poblacional µ se debe saber si la
varianza poblacional σ es conocida o desconocida, ya que la distribución al estadístico de prueba
será la normal estándar si la varianza es conocida, y la distribución t para pequeñas muestras.
Prueba de hipótesis acerca de una media de población para una prueba unilateral de cola superior
Con σ es conocida
x− µ
Zx = ≈ N ( 0;1)
σ
n
Para x con σ 2
desconocida
x−µ
Zx = ≈ N ( 0;1)
s
n
Utilizo el desvío muestral s= 8,92 y tomo σ como desconocido
48/96
PES-SanPi
1. Planteo de hipótesis
La media es menor?
Ηo: µ < 45
Ηa: µ > 45
Suponemos un estadístico S es una distribución normal con media µs y desviación σs desconocido.
Tomamos contraste de una cola o unilateral con un nivel de significancia del 95%
Regla de rechazo a un nivel de significancia α
Rechazar Ho si z > zα
Zona de aceptación → P [Z < 1.645] = 0.95
muestra de 100 elementos
n=100
Xm=35,68
s=8,92
Podemos tener el 95% de confianza de que si la hipótesis Ho es verdadera, entonces el valor Z para
un estadístico muestral S, de una cola será menor a 1,645
Por lo tanto la zona de rechazo es Z > 1,645
m1 | actividad 3
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho
o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de
hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Investigador
Hipótesis nula Se acepta Ho Se rechaza Ho
49/96
PES-SanPi
m1 | actividad 4
Características de cada distribución
Tipo de variable
Cualitativas
Cuantitativa Discretas Distribuciones discreta de la probabilidad
• Binomial: dos posibilidades (éxito – fracaso). Es la que
maneja la distribución de la probabilidad de obtener cierta
cantidad de éxitos al realizar una cantidad de experimentos
con probabilidad de éxito constante y con ensayos
independientes.
• de Poisson: probabilidad de ocurrencia en un intervalo
especificado de tiempo o espacio.
◦ media es similar a la varianza.
◦ Que el coeficiente de asimetría sea positivo, indica
asimetría a la derecha,
◦ ‘n grande’ (n>30)
• podemos pensar que puede seguir un modelo de Poisson
• Hipergeométrica: como la binomial pero los intentos no son
independientes y con un tamaño de muestra grande en
relación al tamaño de la población.
Continuas Distribuciones continuas de la probabilidad
• Uniforme: Es la distribución donde todos los
eventos elementales tienen la misma probabilidad.
• Normal: su función de densidad tiene
forma de campana y se determina con la
media y la desviación estándar.
media, mediana y moda cercanas
desvío mucho < a media
50/96
PES-SanPi
51/96
PES-SanPi
52/96
PES-SanPi
El estadístico de prueba tiene distribución ji cuadrado con k-1 grados de libertad, siempre que las
frecuencias esperadas sean 5 o más para todas las categorías. (pag452); entonces combinamos las
dos últimas (4 y 5) para cumplir con el requisito y nos queda:
Cantidad de Diferencia al cuadrado
visitas por Frecuencia Frecuencia Diferencia al dividida entre la
cliente por día observada esperada Diferencia cuadrado frecuencia esperada
x fo fe fo-fe (fo-fe)2 (fo-fe)2/fe
0 22 20,0790 1,9210 3,6902 0,1838
1 26 30,1230 -4,1230 16,9991 0,5643
2 27 22,5900 4,4100 19,4481 0,8609
3 8 11,2950 -3,2950 10,8570 0,9612
4o+ 7 5,5080 1,4920 2,2261 0,4042
Total 90 90 2,9744
2
El valor del estadístico χ es 2,9744
La distribución chi-cuadrado tiene k–1–p grados de libertad, siendo k la cantidad de categorías
(intervalos), para nosotros 6 y; p la cantidad de parámetros poblacionales estimados (para nosotros
1). ==> entonces los grados de libertad son 4.
De la tabla obtenemos que χ0,052 con cuatro grados de libertad es 9,49.
Como en las pruebas rechazamos la hipótesis nula sólo si el valor calculado de χ2 es mayor que el
valor de χ0,052; llegamos a la conclusión que no se puede rechazar la hipótesis de una distribución de
Poisson, ya que χ0,052 > χ2 .
Chi-cuadrado
Por los cálculos previos tenemos los siguientes datos:
Media 35,6754
Desviación estándar 8,91778729
Varianza de la muestra 79,52693014
Nivel de confianza (95,0%) 1,769482425
Con estos valores planteamos las siguientes hipótesis:
Ho: La distribución de la duración de las visitas tiene una distribución normal con media 35,68 y
desviación estándar 8,92
Ha: no sigue esa distribución.
53/96
PES-SanPi
Definidos los intervalos y con la frecuencia esperada conocida de 10 por categoría; determinamos
las frecuencias observada regresando a los datos de la muestra de 100 elementos. Con lo que
obtenemos la siguiente tabla:
Intervalo Duración de la visita Frecuencia observada en la muestra Frecuencia esperada
<24,26 8 10
24,26 a 28,19 14 10
28,19 a 31,04 11 10
54/96
PES-SanPi
31,04 a 33,45 6 10
33,45 a 35,68 8 10
35,68 a 37,91 14 10
37,91 a 40,32 6 10
40,32 a 43,17 8 10
43,17 a 47,10 12 10
47,10 y más 13 10
total 100 100
Con estos resultados, realizamos los cálculos de la bondad de ajuste chi-cuadrado, comparando los
resultados observados con los esperados.
Intervalo fo fe fo-fe (fo-fe)2 (fo-fe)2/fe
<24,26 8 10 -2 4 0,4
24,26 a 28,19 14 10 4 16 1,6
28,19 a 31,04 11 10 1 1 0,1
31,04 a 33,45 6 10 -4 16 1,6
33,45 a 35,68 8 10 -2 4 0,4
35,68 a 37,91 14 10 4 16 1,6
37,91 a 40,32 6 10 -4 16 1,6
40,32 a 43,17 8 10 -2 4 0,4
43,17 a 47,10 12 10 2 4 0,4
47,10> 13 10 3 9 0,9
total 100 100 9
Kolmogorov
Cuando el n >50 siempre utiliza chi-cuadrado
cuando son pocos valores utiliza < K-S en serie simples como en el ejemplo.
La prueba de Kolmogorov-Smirnov para una muestra se considera un procedimiento de "bondad de
ajuste", es decir, permite medir el grado de concordancia existente entre la distribución de un
55/96
PES-SanPi
conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen
de una población que tiene la distribución teórica especificada.
Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas o esperadas
(fe) con la distribución acumulada de las frecuencias observadas (fo), se encuentra el punto de
divergencia máxima y se determina qué probabilidad existe de que una diferencia de esa magnitud
se deba al azar.
Pasos:
1. Calcular las frecuencias esperadas de la distribución teórica específica por considerar para
determinado número de clases.
2. Se ordenan los datos xi de menor a mayor y se asigna a cada uno un número de orden i. En
general se trabaja con series simples y si el dato tiene frecuencia absoluta mayor que 1, el
mismo se repite tantas veces como lo indique su frecuencia absoluta, luego se asignan
distintos ordenes seguidos. Como se trata de una variable continua, aunque aparezcan datos
iguales estos se consideran como distintos, ya que en el conjunto de números reales es
imposible que la variable tome un valor más de una vez.
3. Se calculan las frecuencias relativas observadas acumuladas.
FrecObser_i = i → Froi
n+1
donde n es el tamaño de la muestra. Este cociente representa una frecuencia experimental, da una
idea de la ubicación de xi dentro de la muestra.
4. Se calcula para cada xi las frecuencias acumuladas teóricas o esperadas según el modelo
formulado Frei = P(X < xi ) (a falta de otra información se puede utilizar la muestra para
estimar los parámetros de este modelo)
5. Se calcula para cada xi la diferencia Di en valor absoluto, es decir Di = |Froi - Frei| y se
identifica la diferencia máxima Dmax, que se utiliza como estadístico de prueba.
6. Se obtiene de una tabla el punto crítico Dc, que depende de n (tamaño de la muestra) y de α,
nivel de significancia estipulado para la prueba.
Es una prueba unilateral derecha. Se compara Dmax con Dc, por tanto el criterio de rechazo es:
Dmax > Dc.
Nota: Los puntos críticos para prueba de Kolmogorov-Smirnov, que se utilizan frecuentemente son
los siguientes:
α = 0,10 → Dc =1,22
√n
α = 0,05 → Dc = 1,36
√n
α = 0,01 → Dc =1,63
√n
Zα = X - µ →
σ
56/96
PES-SanPi
....
49,10 96 101 0,95 1,50 0,9332 0,0173
50,37 97 101 0,96 1,65 0,9505 0,0099
50,57 98 101 0,97 1,67 0,9525 0,0178
53,02 99 101 0,98 1,94 0,9738 0,0064
58,82 100 101 0,99 2,59 0,9952 0,0051
m1 | actividad 5
57/96
PES-SanPi
su sexo.
Para este ítem se debe utilizar la prueba de tabla de contingencia. Se trata de una prueba chi-
cuadrado que permite analizar si dos atributos pueden considerarse independientes entre sí.
Prestemos atención especial al modo en que se determinan las frecuencias esperadas en la misma.
En este caso, además de la prueba de tabla de contingencia, apliquemos también la denominada
prueba de proporciones. Consideremos que la última prueba puede ser más apropiada, dado que no
se trata de analizar toda la distribución, sino sólo una proporción.
Resolución
Como vimos, otra aplicación importante de la distribución chi-cuadrado es el empleo de datos
muestrales para probar la independencia de dos variables.
Para determinar si las opiniones sobre el servicio es independiente del género del usuario (femenino
o masculino) usamos una prueba de independencia.
Las hipótesis para esta prueba de independencia son:
Ho: La opinión sobre el servicio es independiente del género del visitante
Ha: La opinión sobre el servicio no es independiente del género del visitante
Después de identificar a la población, visitantes mujeres y hombres, se toma una muestra y
preguntamos cual es su opinión respecto del servicio y la anotamos en la tabla de contingencia.
Tenemos una muestra de 400 personas que quedan tabuladas en la tabla siguiente con todas las
combinaciones posibles.
Sexo Positiva Normal Negativa total
Femenino 50 100 50 200
Masculino 80 80 40 200
total 130 180 90 400
Los datos de la tabla constituyen las frecuencias observadas para las seis clases o categorías. Si
podemos determinar las frecuencias esperadas bajo la hipótesis de independencia entre la opinión
del servicio y el sexo del visitante, podemos usar la distribución chi-cuadrado para determinar si
existe una diferencia significativa entre las frecuencias observada y esperada.
Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en que:
1. Suponemos que es verdadera la Ho, de independencia entre la opinión sobre el servicio es
independiente del género del visitante.
2. Observamos que en toda la muestra de 400 visitantes, hay 130 cuya opinión es positiva, 180
normal y 90 negativa. Expresada en fracción, la conclusión es que 130/400 (13/40) tienen
una opinión positiva, 180/400 (9/20) normal y 90/400 (9/40) negativa.
Sexo Positiva Normal Negativa total
total 130/400 180/400 90/400 400
3. Si es válida la hipótesis de independencia, decimos que estas fracciones se deben aplicar por
igual a los visitantes femeninos y masculinos. Así, bajo la hipótesis de independencia, las
frecuencias esperadas en la tabla de contingencia es
eij = (total fila i)(total columna j)
tamaño de la muestra
Sexo Positiva Normal Negativa total
Femenino (200)(130)/400 (200)(180)/400 (200)(90)/400 200
Masculino (200)(130)/400 (200)(180)/400 (200)(90)/400 200
Las frecuencias esperadas si las opiniones sobre el servicio es independiente del género del
visitante.
Sexo Positiva Normal Negativa total
58/96
PES-SanPi
Femenino 65 90 45 200
Masculino 65 90 45 200
total 130 180 90 400
Ahora comparamos las frecuencias observadas con las frecuencias esperadas.
( foij − feij )
2
χ
2
= ∑ ∑
i j fe ij
En donde
Frecuencia
2 observada para la categoría en el fila i y la columna j de la tabla de
− ijfe− ijfe
2
χ ( fo(ijfo
2
) ij )contingencias.
∑ ∑∑ ∑
= =
feFrecuencia observada para la categoría en el fila i y la columna j de la tabla de
i j fe contingencias,
i j
ij
basada en la hipótesis de independencia.
ij
Con n filas y m columnas en la tabla de contingencia, el estadístico de prueba tiene una
distribución chi-cuadrado con (n-1)(m-1) grados de libertad, siempre y cuando las frecuencias
esperadas sean 5 o más para todas las categorías.
Frecuencia observada
Sexo Positiva Normal Negativa total
Femenino 50 100 50 200
Masculino 80 80 40 200
total 130 180 90 400
Frecuencia esperada
Sexo Positiva Normal Negativa total
Femenino 65 90 45 200
Masculino 65 90 45 200
total 130 180 90 40
Cálculo del estadístico de prueba chi-cuadrado para determinar si el sexo es independiente de la
opinión sobre el servicio.
Sexo Opinión foij feij foij -feij (foij -feij)2 (foij -feij)2/feij
Frecuencia Frecuencia diferencia Diferencias al Diferencias al
observada esperada cuadrado cuadrado dividida
entre la frecuencia
esperada
Femenino Positiva 50 65 (50-65) -15 225 3,46
Femenino Normal 100 90 (100-90) 10 100 1,11
Femenino Negativa 50 45 (50-45) 5 25 0,56
Masculino Positiva 80 65 (80-65) 15 225 3,46
Masculino Normal 80 90 (80-90) -10 100 1,11
Masculino Negativa 40 45 (40-45) -5 25 0,56
total 400 400 χ2=10,226
El número de grados de libertad para la distribución chi-cuadrado adecuado se obtiene
multiplicando el número de filas menos 1 por el número de columnas menos 1. Como tenemos dos
59/96
PES-SanPi
filas y tres columnas, los grados de libertad son (2-1)(3-1) = 2. En la prueba de independencia se
rechaza Ho si las diferencias entre frecuencias observadas y esperadas dan un valor grande del
estadístico de prueba. De manera que la prueba de independencia es también una prueba de cola
superior. De la tabla obtenemos que el estadístico de prueba χ2 con dos grados de libertad se
encuentra entre 9,21 y 10,60.
Área en la cola superior 0,10 0,05 0,025 0,01 0,005
Valor de χ2 para 2 grados de libertad 4,61 5,99 7,38 9,21 10,60
Por lo tanto, el área correspondiente en la cola superior o valor -p está entre 0,01 y 0,005.
Concluimos que se rechaza la Ho porque el valor de -p < α. ya que -p está entre 0,01 y 0,005 y el α
= 0,05
Analicemos, además, si la proporción de clientes del sector productivo puede haber variado en los
últimos meses.
Nos interesa analizar cuáles son los valores más probables o cuáles son las posibles relaciones entre
estas variables.
Actividad total
Antigüedad Servicios Producción
Menos de 6 meses 20 30 50
60/96
PES-SanPi
Z1-α/2 y Zα/2 pertenecen a una distribución normal estándar. Si el valor de la estadística de trabajo
(Zp) está entre Z1-α/2 y Zα/2 no se rechaza la hipótesis nula, en caso contrario se rechaza Ho lo cual
implica aceptar Ha . Es decir, si Z1-α/2 < Zp < Zα/2 no se rechaza Ho .
Actividad total
Antigüedad Servicios Producción
Menos de 6 meses 20 30 50
Seis meses a un año 40 30 70
Más de un año 20 20 40
total 80 80 160
61/96
PES-SanPi
m2 | actividad 1
El problema de las revistas
Cada semana Juan necesita decidir cuántos ejemplares del semanario “Nosotros y el mundo” es
conveniente comprar.
Por cada revista vendida obtiene un beneficio de $ 4. Si en una semana no vende todas las unidades
que ha dejado, puede devolver los ejemplares sobrantes a un costo de $ 3 por unidad. Por cuestiones
prácticas, él desea determinar una cantidad fija, a fin de repetir semana tras semana el mismo
pedido. Por lo tanto, necesita determinar cuántas unidades conviene pedir, de modo de lograr el
mayor beneficio posible.
Uno de los problemas a salvar es que la demanda es aleatoria, varía de semana en semana y de este
modo genera cambios en los resultados económicos. De hecho, presenta una distribución de Poisson
con media igual a 4,5. Por lo tanto, no es posible predecir exactamente el beneficio a obtener en una
cierta semana; antes bien, se debe buscar un pedido que permita obtener un promedio elevado para
estos beneficios
Para estudiar este problema con simulación el primer paso es proponer diferentes alternativas de
compra y simular el comportamiento de las ventas para cada alternativa.
De este modo cada corrida con el modelo permite determinar el beneficio promedio a obtener con la
alternativa probada. Luego comparando los distintos resultados Juan puede decidir cuál es la opción
más conveniente.
El objetivo de Juan es decidir cuántas unidades conviene pedir, de modo de lograr el mayor
beneficio posible.
En las siguientes Tablas se representan breves simulaciones de este problema. En las mismas se
suponen generadas las demandas. Recuerde que más adelante se discute la forma de generarlas.
Alternativa 1: dejar 5 unidades
Semana Demanda Unidades Unidades Beneficio por Pérdida por Beneficio
Vendidas sobrantes ventas devoluciones Neto
1 3 3 2 12 6 6
2 7 5 0 20 0 20
3 5 5 0 20 0 20
4 2 2 3 8 9 -1
5 8 5 0 20 0 20
6 4 4 1 16 3 13
7 4 4 1 16 3 13
8 6 5 0 20 0 20
9 7 5 0 20 0 20
10 3 3 2 12 6 6
En la primer semana se venden tres ejemplares, por lo tanto el beneficio resulta igual a doce pesos.
Pero, dado que se dejaron cinco unidades, es necesario devolver dos; por lo tanto se produce un
costo de seis pesos por devolución. Finalmente el beneficio neto es la diferencia, o sea seis pesos.
Después de realizar los nueve pasos de cálculo, es necesario resumir los resultados. Para ello se
debe calcular el beneficio promedio obtenido en la corrida. En este caso la suma de los beneficios es
$137, con lo que se tiene un promedio de $ 13.70 por semana.
62/96
PES-SanPi
Por ejemplo, si el número aleatorio generado es Rn = 0.62, entonces la demanda resulta de dos
unidades, o sea X = 2. El criterio en este caso es que se adopta como valor de X el primero cuya
Probabilidad Acumulada es mayor al Rn.
Con la planilla generamos 20 numeros aleatorios
Rn x Rn x Cantidad demanda
1 0,19 0 11 0,57 1 0 9
2 0,11 0 12 0,98 4 1 5
3 0,85 3 13 0,57 1 2 2
4 0,15 0 14 0,08 0 3 2
5 0,10 0 15 0,88 3 4 2
6 0,93 3 16 0,14 0 5 0
7 0,76 2 17 0,61 2
8 0,64 1 18 0,60 1
9 0,36 0 19 0,12 0
10 0,38 0 20 0,53 1
Media = 3,33
Moda = 9
Desvio =3,2
m2 | actividad 2
Analicemos un ejemplo de confiabilidad
Una de las aplicaciones de la simulación son los estudios de confiabilidad de sistemas. Como se
sabe, en dichos estudios se intenta determinar si un producto es capaz de alcanzar cierto tiempo de
vida útil.
Como problema de simulación, este ejemplo es interesante porque nos lleva a representar muchas
unidades de un producto. Esto es, cada paso de cálculo representa una unidad (recordemos que en el
ejemplo de las revistas cada paso de cálculo es una semana). Otra novedad del presente problema es
que requiere la generación de variables aleatorias continuas.
Supongamos entonces que estamos a cargo de un estudio de confiabilidad en una fábrica. El
64/96
PES-SanPi
Si la energía puede pasar desde A hasta B, entonces el sistema funciona. Los componentes de tipo 1
están en serie, si falla alguno el circuito se corta y concluye la vida útil del producto. En cambio, los
componentes de tipo 2 están en paralelo, por lo cual si uno se rompe la energía puede seguir
pasando por el otro y el producto sigue funcionando. En este caso deben fallar los dos para que no
funcione.
Mediante ensayos hemos determinado que la vida útil de los componentes tipo 1 tiene distribución
normal con media 2500 hs. y desvío 400 hs. Por su parte, los de tipo 2 tienen distribución normal
con media 2000 hs. y con desvío 350 hs. Nuestro cliente desea que el 90 % de la unidades que le
entreguemos mantenga sus prestaciones por más de 1800 horas.
Mediante simulación determinemos si el circuito, tal como está diseñado, cumple con esas
condiciones. Si esto no se verifica, diseñemos un nuevo sistema que resulte satisfactorio.
Consideremos que el costo de los componentes de tipo 1 es de $ 50, en tanto que los de tipo 2
tienen un valor de $ 80.
Es recomendable que lo hagamos del siguiente modo:
a) Desarrollemos con una herramienta informática conveniente el programa de simulación.
b) Determinemos la cantidad de circuitos que se deben simular, para que el error en la
proporción del resultado sea menor a 0,01.
c) Simulemos con el programa la evolución de la cantidad obtenida de circuitos.
Representemos los resultados identificando la vida útil que tiene una probabilidad del 90%
de ser superada.
d) Comparemos dicha vida útil con el requerimiento del cliente. En caso de que no se cumpla,
agreguemos componentes al circuito y simulemos las nuevas condiciones.
e) Continuemos hasta obtener una configuración que satisfaga el requisito del cliente.
Como la vida útil de los componentes tiene distribución normal no se puede calcular por
65/96
PES-SanPi
Conjunto Vida útil Vida útil Vida útil Vida útil Vida útil
Componente 1 componente 1 componente 2 componente 2 conjunto
1 2065 2670 2125 1987 2065
2 2840 2350 1780 2050 2050
3 2284 2611 2082 1654 2082
4 2459 2782 2269 2515 2459
5 1999 2435 1426 2202 1999
6 2531 3088 2402 2156 2402
7 2337 2817 2228 2363 2337
8 2396 2247 2539 2345 2247
9 2470 2178 2655 2117 2178
... ...
20 2833 2838 2101 1847 2101
En el primer conjunto, se rompe una componente de tipo 2 a las 1987 hs, pero el producto sigue
funcionando porque la otra todavía sirve. Luego a las 2065 hs se rompe una componente de tipo 1
determinando la muerte del conjunto. Por lo tanto la vida útil del primer caso es de 2065 hs.
Para estimar la Distribución de Frecuencias estadísticas se puede ordenar de menor a mayor los
resultados y a cada uno adjudicarle la Frecuencia Relativa:
Fr = i / ( n + 1 )
En base a estos resultados puede decirse por ejemplo que el 50 % de los productos resiste más
de 2100 horas, o que solo el 10 % de los productos sobrevive más allá de las 2400 horas.
Nro de orden Vida útil Frecuencia relativa
1 1502 0,0480
2 1569 0,0950
3 1704 0,1430
4 1853 0,1900
5 1938 0,2380
6 1999 0,2860
7 2050 0,3330
8 2065 0,3810
9 2094 0,4290
10 2094 0,4760
11 2101 0,5240
12 2118 0,5710
13 2122 0,6190
66/96
PES-SanPi
14 2130 0,0667
15 2178 0,7140
16 2247 0,7620
17 2337 0,8100
18 2347 0,8570
19 2402 0,9050
20 2459 0,9420
El valor con frecuencia acumulada mas cercana a 0,10 es 1569. Este valor es inferior a 1800 horas.
No se cumple el requisito del cliente.
Graficamos las frecuencias acumuladas
1,0000
Frecuencias acunuladas
0,8000
0,6000
0,4000
0,2000
0,0000
1502 1569 1704 1853 1938 1999 2050 2065 2094 2094 2101 2118 2122 2130 2178 2247 2337 2347 2402 2459
Valores observados
En el diagrama se advierte que la frecuencia acumulada del 10% se alcanza con una duración de
1569 horas. Muy por debajo de lo solicitado por el cliente.
Pero estas frecuencias son sólo una aproximación de las verdaderas probabilidades. El error en la
aproximación es
67/96
PES-SanPi
Sea Z = 1,96
π = 2/20 → 0,1 → i/n i nro de orden n cantidad total del conjunto.
Cantidades de conjunto que se deben simular para obtener cada uno de los posibles errores en la
aproximación de proporcion de 0,10 y 0,50.
Error 0,10 0,50
0,05 138 384
0,03 384 1067
0,01 3457 9604
No confiar en las cuentas!!
m2 | actividad 3
Análisis del problema de la cola de espera
Este es otro de los casos típicos con que nos encontramos en la práctica: las colas de espera. La idea
es diseñar servicios donde pueden llegar a presentarse esperas. Las preguntas a responder pasan por
la cantidad de servidores necesarios o por las políticas de atención. Si bien los matemáticos han
trabajado este tipo de problemas, y de hecho han propuesto fórmulas aplicables en algunas
situaciones particulares, en general las situaciones deben ser analizadas con simulación.
Supongamos entonces que una organización bancaria planea instalar un sistema de cajeros
automáticos en una sucursal del centro de la ciudad, para lo cual desea determinar si un solo cajero
es suficiente para atender la demanda esperada. Dicho en términos operativos, si el tiempo medio de
espera es inferior a cinco minutos, se instalará un solo aparato.
Se ha determinado que el tiempo entre llegadas de clientes al cajero es una variable aleatoria que
tiene distribución exponencial con media de ocho minutos.
Asimismo, se conoce que el tiempo necesario para la operación del cajero es una variable con
distribución exponencial y media cinco minutos.
Colaboremos entonces con dicha organización y determinemos si un solo cajero es suficiente.
Para este problema, lo que debemos hacer es:
a) Desarrollar con una herramienta informática conveniente un programa de simulación que
represente la llegada y atención de los clientes y determine los tiempos de espera necesarios.
b) Determinar la cantidad de clientes que se deben simular, para que el error en la media del
tiempo de espera sea menor a 0,3 minutos.
c) Simular con el programa la evolución del proceso de atención. Representar los resultados de
68/96
PES-SanPi
modo adecuado.
d) Comparar el tiempo medio de espera con el requerimiento planteado y elaborar una opinión
sobre si se requiere más de un aparato.
La fórmula para generar números aleatorios en una exponencial es:
Media =1,7
Desv = 2,63
La media de la simulación de 10 clientes es 1,7 Que es menor a cinco minutos. Por lo tanto se puede
concluir que no es necesario mas de un aparato.
e < 0,03
π = 1/10 → π = 0,1
z= 1,96 → z2 = 3,84
(1-π) = 0,9
e2 = 0,0009
ε=error n debe ser mayor
n=384
69/96
PES-SanPi
m2 | actividad 4
Generación de números aleatorios
La generación de impulsos aleatorios adecuados es una cuestión central en simulación. Si estos
impulsos no tienen la distribución correcta, los resultados del estudio pueden estar muy alejados de
la realidad. Por ello es importante que ejercitemos las técnicas de generación de variables aleatorias
y que apliquemos nuestros conocimientos de estadística para verificar que los números generados
tienen el comportamiento deseado.
En primer lugar recordemos que si los randoms son adecuados, deben tener distribución uniforme
en el intervalo (0,1). Como prueba, generemos cien números de ese tipo y analicemos las
propiedades estadísticas de los datos obtenidos.
Las propiedades de la distribución uniforme pueden analizarse en el texto de Probabilidad y
Estadística que utilizamos. Prestemos atención a la forma de su función de densidad, a la media y a
la varianza. Luego, apliquemos sobre los cien randoms todas las herramientas estadísticas que
consideremos convenientes para verificar si la distribución es realmente la esperada. Por ejemplo,
utilicemos medidas descriptivas, pruebas de hipótesis sobre la media y la varianza, pruebas de
bondad de ajuste, etc.
Además consideremos que a partir de los números randoms es posible generar variables con
cualquier tipo de distribución. A fin de ejemplificar su uso, generemos valores de una variable tipo
atributo. Generemos, además, valores de una variable discreta. Finalmente, repitamos la experiencia
con variables continuas.
Supongamos que la variable tipo atributo se denomina “Nivel de estudios”, y que responde a la
siguiente distribución de probabilidad:
Para esta variable generemos 60 datos y verifiquemos con una prueba chi-cuadrado si la
representación es buena. Finalmente determinemos cuántos valores deberíamos generar para que la
proporción de universitarios quedara representada en la muestra con un error menor a 0,02.
Supongamos que es preciso trabajar con la variable X: “Cantidad de autos que llegan a una playa de
estacionamiento, por minuto”, que tiene distribución Poisson con media dos. Generemos 100
valores de dicha variable y verifiquemos el resultado.
Nuevamente utilicemos Montecarlo para generar 100 datos de la variable Y: “Tiempo entre arribos
de vehículos”, la cual tiene distribución exponencial con media 30 seg. Por supuesto, verifiquemos
la calidad de los números obtenidos.
m2 | actividad 5
Resolución de problemas con simulación
En las actividades anteriores hemos trabajado con tres casos típicos de simulación. Al respecto,
puede argumentarse que la mayoría de las situaciones reales admite la aplicación de alguno de los
tres enfoques analizados. Con este razonamiento, proponemos a continuación diversos problemas
70/96
PES-SanPi
donde es preciso realizar una transferencia de las soluciones ya analizadas. Su tratamiento nos
permitirá consolidar habilidades para el empleo de esta poderosa herramienta.
Encontraremos dichos problemas a continuación.
Ejemplos adicionales de simulación
1. Una estación de servicio desea estudiar el movimiento de su inventario de nafta super. La
demanda diaria es variable, conforme a una distribución normal con media 2000 litros y
desvío 500 litros. En la operación de este servicio deben considerarse dos fuentes de costos.
Por una parte, se encuentra el costo financiero de tener almacenado un litro de nafta, el cual
ha sido valorado en $0,40 por año. En otro extremo, si la estación se queda sin combustible
las ventas se pierden. Esto implica un costo por pérdida de oportunidad que se considera de
$0,30 por litro de nafta.
La estación considera conveniente pedir camiones de 16000 litros. Una dificultad adicional
es que el reaprovisionamiento no es instantáneo, sino que desde que se realiza el pedido, el
arribo tiene una demora que varía conforme a una distribución exponencial con media 3
días.
Ahora bien, a fin de hacer operativa la administración de este inventario se desea determinar
un nivel crítico: “q”, que indique cuándo debe realizarse el pedido de combustible. El
problema es encontrar un valor de q que permita reducir el costo total de operación.
Para ello debemos construir un modelo de simulación que permita estimar el costo diario
promedio de operación con un error adecuado, probar con varias alternativas de nivel de
reaprovisionamiento y resumir los resultados, de modo que los responsables de la estación
puedan tomar su decisión con la información necesaria.
2. En un hipermercado se desea simular el funcionamiento del Servicio de Atención al Cliente.
A los fines del estudio, se reconocen dos tipos de consultas:
D: devoluciones, y R: reclamos por disconformidad.
Los clientes arriban a la sección de acuerdo a una distribución exponencial con media 10
minutos. En cambio, el tiempo de atención tiene distribución uniforme, con intervalos
diferentes según el tipo de consulta. En la siguiente tabla se presentan las probabilidades de
cada tipo de cliente y los intervalos de variación del tiempo de atención a ellos:
71/96
PES-SanPi
La cantidad de personas que arriban a las paradas de los barrios, por minuto, tiene distribución
Poisson con media 3. En cambio, para las avenidas esta cantidad también es Poisson, pero con
media 2.
Las unidades tienen una capacidad máxima de 40 personas. Además, es posible asumir que el 10%
de los pasajeros que arriba a cada una de las paradas desciende en la misma.
El objetivo de este trabajo es determinar la frecuencia que se puede adoptar, de modo que no más
del 10% de las unidades llegue completa al centro.
4. En una fábrica automotriz, al final de la línea de producción se hace un control rápido del
vehículo terminado. La cantidad de autos que llegan a inspección cada hora tiene una
distribución normal con media treinta y desvío igual a cinco. Por otra parte, la jornada de
trabajo tiene una duración de dieciséis horas.
Para realizar el control pueden colocarse en ese puesto uno o más operarios.
Cada hombre tiene una capacidad variable de trabajo para una hora, que puede ser representada por
la siguiente distribución:
Autos controlados 7 8 9 10 11
Probabilidad 0.10 0.25 0.30 0.25 0.10
Construyamos un programa que simule el comportamiento de la línea de producción. Para ello
representemos secuencias probando el resultado de destinar esa inspección final a las siguientes
cantidades de personas: uno, dos, tres, cuatro.
Elaboremos resúmenes adecuados de los resultados obtenidos, que aporten información válida para
tomar la decisión. Finalmente, efectuemos una recomendación sobre la cantidad más apropiada.
5. Supongamos que nos contrata una empresa industrial que se dedica a la producción de maní
para confitería. El ciclo productivo inicia con la recepción del maní, el cual llega desde los
campos productores en camiones.
La primera operación imprescindible es una compleja revisión de la carga, la que permite
determinar si el producto puede ser aceptado para la producción. Esta tarea se realiza en una
estación especial que sólo puede analizar hasta cinco camiones por día, por lo que si aparecen
cargamentos por sobre esa cantidad, no se los recibe.
Por otra parte, la carga útil de los camiones es variable. A fin de cuantificarla se tomó una muestra
de 60 camiones y se obtuvieron los resultados siguientes:
Valores observados de la variable aleatoria “Peso de la carga de maní, transportada por un camión”
(expresada en kilos)
En este problema, como en la mayoría de las situaciones prácticas, no se conoce la verdadera
72/96
PES-SanPi
distribución de probabilidad de las variables relevantes. Por ello, es necesario estimar previamente
dichas distribuciones, tal como lo hicimos en la unidad 1.
Además, es preciso considerar que la fábrica tiene capacidad para procesar veinte toneladas por día
y se desea mantener ese volumen lo más constante que sea posible. Esto parece difícil ante la
variabilidad de la carga de los camiones.
En efecto, si se confía sólo en los cinco camiones diarios, algunos días se cubre la demanda y en
otros no se puede trabajar correctamente. Por ese motivo, se ha decidido formar un pequeño
inventario, a fin de cubrir los déficits que pueden llegar a presentarse.
Concretamente, nuestra tarea es determinar qué volumen debe acumularse en dicho inventario, de
modo que en no más del 5% de los días falte el insumo necesario para atender la capacidad de
procesamiento.
6. En un cierto camino se desea instalar un puesto de peaje. La empresa desea determinar si
una sola cabina de pago permite satisfacer la demanda creada por los vehículos que arriban a
ese sector
Algunos datos de la variable Tiempo entre arribos, expresada en segundos, son los siguientes:
56,50 272,70 32,60 41,80
32,10 4,90 334,60 39,50
124,80 109,90 147,90 217,00
39,00 152,60 426,40 56,50
134,50 323,40 26,60 50,00
Por otra parte, se tomó una muestra de la variable Tiempo necesario para cobrar, en segundos; los
datos obtenidos son los siguientes:
117,00 95,00 60,30 177,70 149,70
159,50 143,70 130,50 119,80 82,50
146,40 130,50 138,50 60,20 130,60
175,70 121,30 158,70 140,00 154,00
110,40 143,20 133,30 120,90 138,40
En este problema, como en la mayoría de las situaciones prácticas, no se conoce la verdadera
distribución de probabilidad de las variables relevantes. Por ello es necesario estimar previamente
dichas distribuciones, tal como lo hicimos en el módulo 1.
73/96
PES-SanPi
m3 | actividad 1
Cálculos básicos con la regresión
Como todos sabemos, algunas empresas tienen estrategias orientadas directamente a la venta, donde
más que el producto en sí interesa la carga publicitaria que se orienta hacia este. Claros ejemplos de
estos comportamientos son las empresas productoras de gaseosas o las de zapatillas.
Supongamos que una de estas empresas registra sus valores de Inversión en Publicidad y de Ventas
Brutas, y que obtiene los siguientes valores:
Publicidad (en millones) 2 6 8 5 1 7 4
Ventas (en millones) 6 11 13 7 4 10 7
Con esta información realicemos las siguientes tareas:
a) Representemos los datos en un par de ejes coordenados, colocando en abscisas la inversión
publicitaria y en ordenadas las ventas. (diagrama de dispersión.)
14
12
10
8
Ventas
0
0 1 2 3 4 5 6 7 8 9
inversión publicitaria
b) Busquemos en el texto fórmulas apropiadas para encontrar una recta que permita representar
la relación entre estas variables. Apliquemos dichas fórmulas para estimar una recta de
regresión de las Ventas en función de la Publicidad.
Cuando analizamos dos variables X e Y, que suponemos relacionadas como en el caso de la
publicidad y de las ventas, podemos aproximar dicha relación con una recta que tiene la siguiente
forma: y = b0 + b1x Para obtener los valores de los coeficientes utilizamos las expresiones de
mínimos cuadrados:
n x y x*y x2
1 1 4 4 1
2 2 6 12 4
3 4 7 28 16
4 5 7 35 25
74/96
PES-SanPi
5 6 11 66 36
6 7 10 70 49
7 8 13 104 64
∑ 33 58 319 195
prom 4,71 8,29
n= 7
∑( x*y) → 319
(∑ x)*(∑ y) → (33)*(58) → 1914
∑ x2 → 195
319 – 1914/7 → 319 – 273,48 = 45,57
∑ x2 /n → 195/7 = 27,86
ŷ = 4,71 + 0,2726x
A fin de verificar la validez de estas expresiones, podemos realizar un experimento. En efecto, si
partimos de la recta: y = 10 - 2x, y le asignamos algunos valores a la variable independiente,
podremos obtener un juego de pares de datos, como el siguiente:
x 1 2 3
y 8 6 4
Ahora apliquemos sobre estos datos las expresiones para a y b, y observemos el resultado.
Observemos que, si el método es adecuado, debemos encontrar nuevamente la expresión de la cual
partimos, esto es: y = 10 - 2 x .
c) Determinemos los errores cometidos por la recta, para todos los puntos observados.
Recordemos que cada uno de los errores debe determinarse haciendo: ei = yi – ŷi. Por ejemplo, para
la primera pareja de valores: (2,6), si la recta fuera ŷ = x + 3, el valor estimado de ŷ es cinco y el
error es y = 6 – 5.
75/96
PES-SanPi
4 7 5,8 1,2
5 7 6,07 0,93
6 11 6,35 4,65
7 10 6,62 3,38
8 13 6,89 6,11
d) Con dicha recta realicemos una determinación de cuál puede ser la Venta si se invierten tres
millones en Publicidad. Reflexionemos sobre las siguientes cuestiones: ¿esta determinación
será perfecta o tendrá un cierto error? ¿Por qué?
ŷ = 4,71 + 0,2726x
ŷ = 4,71 + 0,2726(3)
ŷ = 5,5278
m3 | actividad 2
Análisis de las cualidades de la regresión
En la primera actividad hemos representado la relación entre las variables Inversión en Publicidad y
Ventas Brutas mediante una recta cuyos coeficientes se estiman al aplicar el denominado método de
mínimos cuadrados.
A continuación, debemos verificar si la función de regresión obtenida es adecuada.
Debemos tener presente que el método de mínimos cuadrados siempre encuentra una recta de
regresión, haya o no relación. Podemos, por ejemplo, pedirle que relacione la temperatura en
Argentina con el precio de la cerveza en Alemania, y el método va a encontrar una bonita recta.
Pero es muy posible que dicha representación no sea de utilidad.
En esa etapa del estudio es preciso analizar:
1. Los resultados de la descomposición de la suma de cuadrados.
2. La capacidad predictiva del modelo. ¿Tiene buena capacidad predictiva? ¿Es adecuado su
porcentaje de aciertos de las variaciones de Y?
3. La definición general del modelo o, dicho de otro modo, si el modelo en su conjunto resulta
apropiado.
4. La validez de los coeficientes de la recta de regresión. ¿Es significativa la pendiente o puede
ser considerada igual a cero? ¿Conservamos una ordenada al origen?
5. La normalidad e independencia de los residuos de la regresión.
6. El coeficiente de correlación y su diferencia con la condición de independencia.
1. Los resultados de la descomposición de la suma de cuadrados.
Recordemos que en este tipo de regresión (lineal simple) una propiedad muy importante es la
posibilidad de descomponer la suma de cuadrados de la variable dependiente en dos porciones, una
equivalente a la suma de cuadrados de los aciertos y otra correspondiente a los errores. Tanto el
coeficiente de determinación como la prueba F surgen de esta descomposición.
En la actividad anterior encontramos la ecuación de regresión ŷ = 4,71 + 0,2726x para aproximar
76/96
PES-SanPi
la relación lineal entre las ventas y la publicidad. Ahora la pregunta es: ¿Qué tan bien se ajusta a los
datos la ecuación de regresión? El coeficiente de determinación es una medida de la bondad de
ajuste para una ecuación de regresión.
La diferencia entre el valor observado (yi) y el valor estimado (ŷi), se llama residual. Representa el
error que se comete al usar ŷi para estimar ŷi. La suma de cuadrados de esos residuales o errores es
la cantidad que se minimiza con el método de los cuadrados mínimos. Esta cantidad, a la que
también se le llama suma de cuadrados debida al error se representa por SSE. El valor de SSE es
una medida del error que se comete al usar la ecuación de regresión para calcular los valores de la
variable dependiente en la muestra.
SSE = ∑ ( yi - ŷi)2
Al no conocer alguna de las variables relacionadas usamos la media de las muestras como estimado.
La diferencia yi - yi, suministra una medida del error incurrido al usar y para estimar las ventas. La
suma correspondiente de cuadrados, se llama suma de cuadrados del total.
SST = ∑ ( yi - yi)2
yi= 58/7 → yi = 8,28
x y ŷ = 4,71 +0,2726x yi – ŷi. ( yi - ŷi)2 ( yi - yi ) ( yi - yi )2
1 4 4,98 -0,98 0,97 -4,28 18,32
2 6 5,26 0,74 0,55 -2,28 5,20
4 7 5,8 1,2 1,44 -1,28 1,64
5 7 6,07 0,93 0,86 -1,28 1,64
6 11 6,35 4,65 21,66 2,72 7,40
7 10 6,62 3,38 11,44 1,72 2,96
8 13 6,89 6,11 37,32 4,72 22,28
2. La capacidad predictiva del modelo. ¿Tiene buena capacidad predictiva? ¿Es adecuado su
porcentaje de aciertos de las variaciones de Y?
La capacidad del modelo para predecir las variaciones de Y se cuantifica con el coeficiente de
determinación. Dicho de otro modo, este coeficiente mide el porcentaje de variación de Y que es
representado por el modelo. Si por ejemplo la variable Y tiene una suma de cuadrados de cien, en
tanto que los aciertos suman 80, entonces la determinación es de 0,8 u ochenta por ciento de acierto.
Coeficiente de determinación:
77/96
PES-SanPi
∑ 45 SSR 39,47
r2 = 39,47/59,43=0,66
donde
b1 = pendiente de la ecuación de regresión
El valor del coeficiente de determinación que corresponde a la ecuación de regresión
ŷ =bo +b1x
ŷ = 4,71 + 0,2726x es r2 = 0,66. Por lo tanto el coeficiente de correlación de la muestra es: rxy =
+ √r2 → rxy = +0,81. Concluimos que, con un coeficiente de correlación de la muestra
rxy = +0,81, hay una fuerte asociación lineal positiva entre la publicidad y las ventas.
3. La definición general del modelo o, dicho de otro modo, si el modelo en su conjunto resulta
apropiado.
Entre las pruebas de hipótesis asociadas a la regresión, la prueba F es la que permite decidir si el
modelo en su conjunto puede ser considerado razonable. El estadístico se construye comparando la
suma de cuadrados explicada por el modelo con la suma de cuadrados de los errores.
Prueba F
También se puede usar una prueba F, basada en la distribución F de probabilidades, para determinar
si la relación de regresión tiene significancia estadística. Esta prueba se basa en la determinación de
dos estimaciones independientes de σ2. El MSE es uno de ellos. Si es cierta la hipótesis nula
Ho: β1=0
Ha: β1 ≠ 0
MSR = SSR → SSR= ∑ ( ŷi -ỹ)2
Grados de libertad de la regresión
Para este modelo los grados de libertad son iguales a la cantidad de variables independientes
78/96
PES-SanPi
Cálculo de SSE:
Suma de cuadrados debida al error SSE = ∑ ( yi - ŷi)2
∑ 33 58 SSE 36,92
La MSE da un estimador insesgado de σ2, por eso también se usa la notación s2
Error cuadrado medio
s2 = MSE = SSE → 36,92/7-2 → 36,92/5 → MSE = 7,4
n-2
79/96
PES-SanPi
Regla de rechazo
Con el estadístico de prueba: Rechazar Ho si t < -tα/2 o si t > tα/2
Con el valor p Rechazar Ho si p < α
donde tα/2 se basa en una distribución t con n-2 grados de libertad
s=2,72
b1 = 0,2726
Sb1 = (2,72) / sqrt(Sum(x2) - (Sum x)2 /n) → Sb1 = (2,72) / sqrt(195- (1089 /7) )
Sb1 = (2,72) / sqrt(195- 155,57) → Sb1 = (2,72) / sqrt(39,43)
Sb1 = (2,72) / sqrt(39,43) → Sb1 = (2,72) / (6,28)
Sb1 = 0,43
De acuerdo con la tabla de Distribución t, vemos que el valor de t que corresponde α = 0.05 y n – 2
→ 7 – 2 = 5 grados de libertad es t.025; r5= 0,727
Como 0,63 < 0,727 no rechazamos Ho.
5. La normalidad e independencia de los residuos de la regresión.
El análisis de los residuos nos ayuda a verificar si el razonamiento anterior es correcto. En efecto,
si nuestra concepción del modelo es válida, los residuos deberían ser normales e independientes
entre sí. En general, estas dos propiedades se verifican en forma con el Gráfico de probabilidades
normales y con el Diagrama de errores contra valores de X.
Publicidad Ventas Ventas estimadas Residuales
n
x y ŷ = 4,71 +0,2726x yi – ŷi.
1 1 4 4,98 -0,98
2 2 6 5,26 0,74
3 4 7 5,8 1,2
4 5 7 6,07 0,93
5 6 11 6,35 4,65
6 7 10 6,62 3,38
7 8 13 6,89 6,11
80/96
PES-SanPi
Un análisis de los residuales ayudan a determinar si son adecuados los supuestos que se hicieron
sobre el modelo de regresión.
Se supuso un modelo de regresión lineal simple.
y = βo + β1x + ε
Este modelo indica que las ventas supuestas (y) son una función lineal de la publicidad (x) más un
término de error ε. Tenemos las siguientes hipótesis acerca de ese término.
1. E(ε) = 0
2. La varianza de ε, representada por σ2, es igual para todos los valores de x.
3. Los valores de ε son independientes.
4. El término de error ε, tiene una distribución normal de probabilidad.
Gráfica de residuales en función de los valores de la variable independiente x.
0
1 2 3 4 5 6 7 8 9
-1
-2
ρxy = r = Sxy / Sx Sy
r = 7,6/(6,57)(9,9) → r = 0,12
Como r ≈ 0 (0,12) no existe asociación lineal x e y son independientes
m3 | actividad 3
El método de los mínimos cuadrados no sólo nos permite estimar la regresión, sino que tiene otras
variadas aplicaciones que hacen que merezca ser comprendido en toda su potencia. Para ello es
conveniente que analicemos el modo en que se deducen las fórmulas de cálculo para los
coeficientes b y a.
Revisemos y discutamos la deducción de las fórmulas para la pendiente y la ordenada al origen de
nuestra recta. Si se intenta minimizar los errores en un sentido que no sea el de las Y, ¿serían
diferentes las fórmulas? Si intercambiamos los roles entre las variables y determinamos una
regresión de X contra Y, ¿obtendremos los mismos coeficientes?
Además, nos detengamos en el modo en que pueden aplicarse los mínimos cuadrados para deducir
la fórmula a utilizar cuando se desea una recta del tipo y = β x, es decir, sin ordenada al origen, y
estudiemos por otra parte las diversas aplicaciones adicionales del método.
Supongamos que hemos recolectado información sobre una variable, es decir que contamos con
datos x1 , x2,...., , xn . Supongamos que deseamos encontrar una cantidad C que resulte
representativa de los datos disponibles. Entonces, podemos plantear:
Sea C un valor que haga mínima la siguiente sumatoria: Σ (xi – C) Luego, si se deriva y se iguala a
cero la expresión, se encuentra que la cantidad representativa de los datos disponibles, que
minimiza la suma de cuadrados de las desviaciones, es precisamente el promedio. Hagamos la
82/96
PES-SanPi
deducción completa.
Si deseamos ajustar a los datos anteriores un modelo de la forma:
y = β x + ε (sin utilizar una ordenada al origen)
apliquemos el método de mínimos cuadrados para estimar los parámetros del modelo.
Criterio de los cuadrados mínimos
siendo
yi = valor observados de la variable dependiente para la i-ésima observación.
ŷi = valor estimado de la variable dependiente para la i-ésima observación.
Y = βX + ε (sin utilizar una ordenada al origen)
Procedimiento sin considerar una ordenada al origen:
Tomemos las derivadas parciales de G respecto de b que es la incógnita y la igualamos a cero; de
esta forma se obtiene una ecuación llamada ecuación normal del modelo que puede ser resuelta por
cualquier método; ya sea igualación o matrices, para obtener el valor de b.
G =∑ ( y − bx)2
Derivamos parcialmente la ecuación respecto de b
dG = 2∑( y − bx)(−x) = 0
db
= −2∑( y − bx)(x) = 0
= ∑( y − bx)(x) = 0
=∑ (xy − bx2 ) = 0
= ∑ xy + b∑ x2 = 0
∑ xy = b ∑ x2 Ecuación normal
El valor de b se obtiene resolviendo el sistema de ecuación resultante.
b= ∑ xy / ∑ x2
n x y x*y x2
1 1 4 4 1
2 2 6 12 4
3 4 7 28 16
4 5 7 35 25
5 6 11 66 36
6 7 10 70 49
7 8 13 104 64
∑ 33 58 319 195
prom 4,71 8,29
b=319/195 → 1,64
ŷ = 1,64xi
Por lo tanto, por cada inversión en publicidad las ventas se incrementan en 1,64.
83/96
PES-SanPi
m3 | actividad 4
Aplicación de modelos de regresión con la computadora
En la actividad 1 hemos analizado el caso de una empresa con orientación a las ventas y estudiamos
la relación entre las variables: Inversión en Publicidad y Ventas Brutas. Dicho estudio fue realizado
en forma manual. Iniciemos entonces nuestra aproximación al software a través de la comparación
de los resultados manuales con los obtenidos con la PC.
Resolvamos entonces, con el EXCEL, el problema de Publicidad y Ventas.
Las técnicas de regresión se encuentran en el EXCEL, en el menú Herramientas/ Análisis de
Datos/Regresión. Recordemos que hemos utilizado el módulo de Análisis de Datos en la unidad
temática de Simulación (módulo 2 de la presente asignatura). Un ejemplo de cómo utilizarla se
anexa en el archivo Opción regresión en EXCEL, disponible en la actividad.
Reconozcamos en la salida de EXCEL el sitio donde se ubica la información necesaria para
interpretar la regresión.
En especial determinemos: ¿dónde están los coeficientes de correlación y de determinación?;
¿dónde se ubican los estimadores de los parámetros de este modelo (estimadores de α, β y σ ε)?;
¿dónde se encuentran los resultados de la prueba ANOVA?; ¿dónde los de las pruebas sobre los
coeficientes?; y finalmente: ¿dónde los residuos?
Repitamos el análisis anterior, utilizando un soft especialmente desarrollado para estadística, y
comparemos los formatos de ambas salidas.
Son muchos los paquetes de programas orientados específicamente a la Estadística. Se pueden citar,
por ejemplo: SPSS; SAS; STATGRAPH; MINITAB. En general, tienen versiones demo disponibles
en Internet.
No tengo Excel ¡Como hago con el GNUmeric!
En la salida del EXCEL hay algunos rótulos incorrectos. Contrastemos con la siguiente versión, ya
corregida:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,9696834 La correlación se obtiene como raíz de la
determinación. El soft no le coloca signo.
Coeficiente de determinación R^2 0,9402860
R^2 ajustado 0,9283432
Error típico 0,0210696
Observaciones 7
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de F Probab. de F
libertad cuadrados los cuadrados
Regresión 1 0,03495178 0,03495178 78,73250910 0,00030239
Residuos 5 0,00221965 0,00044393
Total 6 0,03717143
84/96
PES-SanPi
Recta estimada
ŷi = -4,47 + 0,50xi
y = βo + β1x + ε
Ho: β1 = 0 (No hay relación)
Situación Hipotética
t = b/Sb
t es el estadístico que prueba esta hipótesis. Mientras b sea mas grande, tendremos mas evidencia en
85/96
PES-SanPi
m3 | actividad 5
Para facilitar la comprensión del modelo general utilizado en regresiones, es conveniente realizar un
experimento con alguna planilla de cálculo. El ejercicio propuesto es el siguiente:
• Seleccionemos la expresión de una recta cualquiera con la forma Y = α + β X
• Asignemos a X unos veinte valores diferentes en una columna y calculemos los
correspondientes valores de Y.
• Generemos aleatoriamente la misma cantidad de valores de una distribución normal con
media cero y varianza igual a nueve.
• Sumemos a los valores anteriores de Y los números aleatorios generados, para obtener así
los Y definitivos.
• Estimemos una regresión lineal simple de los Y definitivos con los X iniciales.
Verifiquemos en la salida que los valores estimados de α, β y σ ε sean similares a los propuestos.
Prestemos atención especial a los valores del coeficiente de determinación y de la F de Fischer.
• Repitamos los pasos anteriores, pero generemos ahora una normal con varianza mayor que
la anterior, por ejemplo 36.
¿Qué cambios se han producido en los resultados? ¿Por qué decaen el coeficiente de determinación
y la F de Fischer?
• Repitamos los pasos anteriores, pero con la ordenada al origen igual a cero (el modelo debe
ser Y = β X).
¿Qué cambios se producen en los resultados? En la práctica, ¿cómo podemos darnos cuenta de que
la recta verdadera debe pasar por el origen?
• Repitamos los pasos anteriores, pero con la pendiente igual a cero ( β= 0, esto es: Y no
depende de X).
¿Qué cambios se producen en los resultados? En la práctica, ¿cómo podemos darnos cuenta de que
Y no varía con X?
• Cambiemos ahora el modelo original; por ejemplo, utilicemos una parábola en vez de
nuestra recta (usemos Y = α + β X2). ¿En qué sector de la salida se reconoce que hemos
cambiado el modelo?
• Para terminar el experimento, cambiemos la varianza. Por ejemplo, calculemos los primeros
diez valores de Y con varianza nueve y los últimos diez con varianza treinta y seis. ¿Cuáles
son las variaciones que se producen en la salida?
m3 | actividad 6
Aplicación a un caso de estudio
Luego de las tareas anteriores, es bueno que procuremos transferir a un problema los conocimientos
adquiridos. Para ello, supongamos que un hipermercado ha llevado durante las últimas semanas
registros de diversas variables que pueden estar relacionadas con su nivel de ventas. Las variables
son las siguientes:
• Descuento promedio por artículo: todas las semanas se colocan quince artículos en una
bandeja de ofertas; luego, esta variable representa el descuento promedio (en pesos), por
artículo, para cada semana.
• Cantidad promedio de folletos distribuidos por día: la folletería se distribuye incluso
sábados y domingos; entonces, esta variable es el resultado de dividir por siete la cantidad
86/96
PES-SanPi
87/96
PES-SanPi
m4 | actividad 1
Análisis de series temporales
Una planta industrial se dedica a la producción de cajas de velocidad de automóviles. La producción
es tanto de productos terminados como de repuestos, dado que la planta debe proveer cajas a las
fábricas que arman los vehículos y piezas sueltas al mercado de la reparación.
Nos hemos responsabilizado por el desarrollo de un sistema informático para administrar el
inventario de repuestos. Este sistema debe ser capaz de emitir los pedidos semanales de
reaprovisionamiento de cuatro piezas diferentes al sector encargado de producir los repuestos.
Claro está que, para poder efectuar los pedidos semana a semana, debemos ser capaces de
pronosticar las demandas que vamos a recibir. Por ese motivo hemos recogido información sobre
los requerimientos recibidos en las últimas semanas, para las cuatro piezas mencionadas. Dicha
información se presenta en datos de pedidos de piezas.
Serie: Pedidos semanales
t en semanas Vtas en cantidad de unidades por semana
Datos de pedidos por piezas
Tiempo Ventas pieza 1 Ventas pieza 2 Ventas pieza 3 Ventas pieza 4 Vtas
1 225 163,44 396,55 151 1369
2 220 138,80 421,55 146 1554
3 235 165,42 430,52 161 2271
4 243 135,77 456,58 172 2726
5 235 160,45 470,61 175 2422
6 226 144,56 471,80 182 2297
7 214 147,91 461,70 154 1175
8 227 141,35 492,40 172 1751
9 222 158,38 511,24 186 2461
10 213 139,37 508,70 171 2509
11 221 177,57 527,40 177 2255
12 208 140,59 546,50 172 1924
13 199 135,03 618,75 174 1269
14 222 173,44 656,18 184 1716
15 253 141,70 672,95 189 2297
16 249 127,90 681,31 181 2465
17 232 164,81 695,62 196 2351
18 228 147,34 694,91 201 2163
19 242 148,13 696,44 208 1577
20 246 152,59 670,19 207 1856
21 223 158,67 652,81 210 2435
22 195 156,32 651,60 213 2782
23 173 152,12 681,67 230 2678
88/96
PES-SanPi
800,00
700,00
600,00
500,00
400,00
300,00
200,00
100,00
0,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
m4 | actividad 2
Pronóstico con métodos de suavizado
En la actividad 1 planteamos la necesidad de pronosticar las demandas de cuatro piezas y las ventas
totales de repuestos en una empresa. Nuestra primera tarea fue la de analizar las series observadas,
para comprender si son estacionarias o no y para identificar sus comportamientos característicos.
Ahora bien, una de nuestras posibilidades a los fines de pronóstico es utilizar modelos de suavizado
exponencial. Reflexionemos sobre cuál de las series puede ser representada con estos modelos.
Recordemos que los modelos de suavizado son aplicables con series estacionarias. Por otro lado,
recordemos que una buena señal es que la FAC presente sólo uno o dos coeficientes de correlación
significativamente diferentes de cero.
Para las series seleccionadas, implementemos las siguientes alternativas:
• Promedios móviles
• Promedios móviles ponderados
• Suavizado exponencial En este modelo debemos probar con distintos valores del coeficiente
alfa y adoptar el que hace mínima la suma de cuadrados de los errores.
Comparemos los resultados obtenidos en el ajuste de estos tres modelos y adoptemos el más
conveniente a los fines de pronóstico. La capacidad del modelo para predecir los valores futuros de
las series se cuantifican con la suma de cuadrados de los errores o el promedio de esta suma de
cuadrados. La intención es adoptar el que obtenga la menor suma.
Apliquemos el modelo seleccionado para pronosticar las demandas en los tiempos 32, 33 y 34.
m4 | actividad 3
Modelo autorregresivo
En la actividad 1 planteamos la necesidad de pronosticar las demandas de cuatro piezas y las ventas
totales de repuestos en una empresa. En la segunda exploramos la posibilidad de pronosticar con
modelos de suavizado y valoramos el error cuadrático que obtienen los mismos.
Sucede que otra opción interesante para representar series estacionarias es la de los modelos
autorregresivos. Por ese motivo, es importante que analicemos cuál de las series puede ser tratada
90/96
PES-SanPi
Ejemplo 1:
Retardo 1 2 3 4 5
FAC teórica 0,7 0,49 0,34 0,24 0,17
FAC obtenida 0,7 0,53 0,32 0,21 0,1
Ejemplo 2:
Retardo 1 2 3 4 5
FAC teórica -0,8 0,64 -0,51200 0,40960 -0,32768
FAC obtenida -0,8 0,6 -0,45 0,38 -0,25
Estimemos los parámetros del modelo autorregresivo para la serie seleccionada. A 2
El modelo autorregresivo tiene la forma:
Zt = C + φ Zt-1 + a t
donde Zt es el valor actual de la serie, Zt-1 es el valor inmediato anterior, C es una constante, φ es el
coeficiente que relaciona el valor actual con el anterior y at es el coeficiente que representa el error,
el cual conceptualmente debe ser entendido como una variable aleatoria normal con media cero y
una cierta varianza.
Debemos notar que esa formulación es idéntica a la trabajada en regresión lineal simple. Es decir,
nuevamente representamos la relación con una recta donde C es la ordenada al origen, en tanto que
φ es la pendiente. Por otra parte, el criterio de estimación sigue siendo el de minimizar la suma de
cuadrados de los errores.
Por ese motivo, lo razonable es que utilicemos nuestras herramientas de regresiones para estimar
estos parámetros.
Valoremos el error cuadrático obtenido y comparemos con la perfomance que en ese aspecto
obtuvieron los modelos de suavizado.
Como se hizo con los métodos de suavizado, la capacidad del modelo para predecir los valores
futuros de las series se cuantifica con la suma de cuadrados de los errores o el promedio de esta
suma de cuadrados.
Finalmente, utilicemos el modelo autorregresivo implementado para pronosticar las demandas para
los tiempos 32, 33 y 34.
m4 | actividad 4
Proyección de tendencia
En una de las actividades anteriores del presente módulo hemos trabajado sobre la necesidad de
construir modelos de pronóstico para las demandas de repuestos atendidos por una empresa
dedicada a la producción de cajas de velocidad.
Ahora bien, la pieza cuatro forma parte de un nuevo tipo de caja de cambio con poca historia en el
mercado, motivo por el cual contamos con menos datos.
Además, seguramente hemos notado en las actividades anteriores que la serie presenta una
tendencia ascendente, que no parece haber llegado aún a su punto de meseta.
91/96
PES-SanPi
Por los motivos apuntados, estimemos un modelo de proyección de tendencia para las demandas de
la pieza 4. La estimación se describe en detalle en el texto. La idea nuevamente es muy simple:
consiste en realizar una regresión con Z como la variable dependiente, y el tiempo t como
independiente.
Cuantifiquemos la calidad de la representación con el mismo criterio utilizado en los anteriores
modelos, esto es, la suma de cuadrados de los errores. La intención de esta parte de la actividad es
que podamos relacionar el concepto de suma de cuadrados de errores, que trabajamos en
regresiones, con el de la presente unidad temática.
Finalmente, realicemos el pronóstico de las demandas correspondientes a las siguientes tres
semanas.
m4 | actividad 5
Series con tendencia y fluctuación estacional
En actividades anteriores del presente módulo hemos trabajado sobre la necesidad de construir
modelos de pronóstico para las demandas de repuestos atendidos por una empresa dedicada a la
producción de cajas de velocidad.
Una de las series bajo estudio corresponde a siete años de observaciones de ventas totales realizadas
por bimestre. Consideremos que, entre las cinco series de nuestro problema, esta es la única en que
se puede analizar la posible acción de una fluctuación estacional. Esto es así porque hay varios años
observados y porque los datos se agregan en intervalos menores al año.
Para dicha serie implementemos un modelo de pronóstico adecuado, mediante la realización de las
siguientes tareas:
• Estimemos una función que permita proyectar la tendencia.
• Determinemos los índices estacionales representativos de las fluctuaciones bimestrales.
• A partir de dichas estimaciones, pronostiquemos las ventas totales del octavo año.
Notemos que el pronóstico se realiza en base a las estimaciones de tendencia y estacionalidad. Es
decir que, en la proyección, no es posible considerar las variaciones cíclicas e irregulares.
92/96
PES-SanPi
EJERCICIOS SIMULACIÓN
1. Un grupo de trabajo se encarga de la calibración de aparatos de medición. El grupo trabaja
durante ocho horas diarias. Si en un cierto día no logra calibrar todos los aparatos, deben hacer
horas extras dado que no se puede dejar el trabajo para el día siguiente.
Las cantidades de equipos a calibrar en cada jornada responden a la siguiente distribución:
Cantidad 2 3 4
Probabilidad 0,2 0,6 0,2
Por otra parte, el tiempo necesario para efectuar la calibración de un aparato de medición es una
variable aleatoria con distribución Uniforme entre 100 y 220 minutos.
Se desea aproximar el porcentaje de días en se deberán abonar horas extras.
Realice la simulación de cinco días de trabajo. Explique cómo se resumen los resultados.
Determine la cantidad de días que es preciso simular para que el error en el resultado sea menor
a 0,01.
ocho horas diarias son 480 minutos
marcamos con cero el tiempo menor a 480 y con 1 el mayor a 480
Dia Cant Tiempos de calibración Tiempo > 480
Equipos
1 4 308 0
2 3 520 1
3 3 350 0
4 2 352 0
5 3 476 0
e = 0,01
con z = 1,96
n = (1,96)2 (0,2)(1-0,2) → n = 6144
(0,01)2
93/96
PES-SanPi
con z=1,96
n = 3,84[(0,66)(1-0,66)]/ e2→ n = 3,84(0,66)(0,33)/e2 → n= 0,85/e2
Error
0,05 340
0,03 945
0,01 8500
94/96
PES-SanPi
95/96
PES-SanPi
Modelo cantidad 10
9
Chico 9
8
Mediano 7
7
Familiar 4
6
0
1 2 3
96/96