Apunte Estadistica para Administradores

PES-SanPi
Módulo 1: Pruebas de Hipótesis...........................................................................................................5

REVISIÓN DE ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA..................................... 5
INTERVALO DE CONFIANZA .....................................................................................................5
Contrastes de hipótesis..................................................................................................................... 7
PROBABILIDADES DE LOS DIFERENTES TIPOS DE ERRORES........................................ 10
Tipos de errores.............................................................................................................................. 10
Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis................................12
Ejemplo...................................................................................................................................12
Ejemplo 2................................................................................................................................13
Distribución chi-cuadrado.............................................................................................................. 14
Distribución t de Student................................................................................................................14
Pruebas sobre la varianza y la media de una normal .................................................................14
Pruebas sobre una proporción ............................................................................................... 15
Pruebas para verificar modelos de probabilidad.................................................................... 15
Pruebas de tablas de contingencia ......................................................................................... 16
Pruebas para comparar poblaciones ...................................................................................... 17
Módulo 2: Simulación........................................................................................................................17
Elementos de un modelo de simulación......................................................................................... 17
Generación de números aleatorios .................................................................................................17
Método de Montecarlo y otras formas de generar variables ......................................................... 18
Simulación de fenómenos de espera.......................................................................................19
Longitud de las corridas ................................................................................................................ 20
Módulo 3: Regresión y Correlación................................................................................................... 20
Modelo lineal general ....................................................................................................................21
Estimación de una recta de regresión.............................................................................................21
Coeficientes de determinación y correlación ................................................................................ 21
Relaciones lineales..................................................................................................................... 22
Prueba t (de Student): ................................................................................................................23
Prueba F (de Fisher)................................................................................................................... 23
Verificaciones gráficas de los residuos: .....................................................................................24
Verificación de errores............................................................................................................24
Módulo 4: Series de Tiempo...............................................................................................................26
Series temporales: definición; comportamientos estacionarios y no estacionarios........................26
Tendencia (T)..............................................................................................................................26
Variaciones estacionales (S)....................................................................................................... 27
Variaciones cíclicas (C) ............................................................................................................. 28
Variaciones irregulares o aleatorias (I).......................................................................................29
Series de tiempo............................................................................................................................. 29
Herramientas para analizar series de tiempo: función de autocorrelación..................................... 32
Identificación y estimación de modelos ........................................................................................ 35
Construcción de modelos de pronóstico.........................................................................................35
Actividades.........................................................................................................................................42
m1 | actividad 1...................................................................................................................................42
m1 | actividad 2...................................................................................................................................48
m1 | actividad 3...................................................................................................................................50
Tipos de errores.............................................................................................................................. 50
m1 | actividad 4...................................................................................................................................51
Pruebas de hipótesis que permiten verificar la elección del modelo..........................................52
Cantidad de Visitas por Día y por Cliente .....................................................................................52
Duración de las Visitas ..................................................................................................................54
1/96
PES-SanPi
Chi-cuadrado.............................................................................................................................. 54
Kolmogorov ...............................................................................................................................56
m1 | actividad 5...................................................................................................................................58
Pruebas para atributos.....................................................................................................................58
Pruebas sobre la proporción de una población..............................................................................61
m2 | actividad 1...................................................................................................................................63
m2 | actividad 2...................................................................................................................................65
m2 | actividad 3...................................................................................................................................70
m2 | actividad 4...................................................................................................................................72
m2 | actividad 5...................................................................................................................................72
m3 | actividad 1...................................................................................................................................76
m3 | actividad 2...................................................................................................................................78
m3 | actividad 3...................................................................................................................................84
m3 | actividad 4...................................................................................................................................86
m3 | actividad 5...................................................................................................................................87
m3 | actividad 6...................................................................................................................................88
m4 | actividad 1...................................................................................................................................90
m4 | actividad 2...................................................................................................................................92
m4 | actividad 3...................................................................................................................................92
m4 | actividad 4...................................................................................................................................93
m4 | actividad 5...................................................................................................................................94
EJERCICIOS SIMULACIÓN............................................................................................................95
2/96
PES-SanPi
Procedimientos Estocáticos y Simulación

Módulo 1: Pruebas de Hipótesis
Revisión de elementos de Probabilidad y Estadística. Pruebas de hipótesis:pasos en su realización;
errores tipo I y II; probabilidades de los diferentes tipos de errores. Distribuciones t de Student y
chi-cuadrado. Pruebas sobre la varianza y la media de una normal. Pruebas sobre una proporción.
Pruebas para verificar modelos de probabilidad. Pruebas de tablas de contingencia. Pruebas para
comparar poblaciones. Aplicación: casos de estudio.
Módulo 2: Simulación
Elementos de un modelo de simulación. Generación de números aleatorios. Método de Montecarlo
y otras formas de generar variables. Longitud de las corridas. Resolución de problemas simples.
Transferencia de los conceptos a la resolución de problemas complejos: estudio de casos.
Módulo 3: Regresión y Correlación Modelo lineal general.
Estimación de una recta de regresión. Coeficientes de determinación y correlación. Pruebas de
hipótesis asociadas. Verificaciones gráficas de los residuos. Aplicación a un caso de estudio.
Módulo 4: Series de Tiempo
Series temporales: definición; comportamientos estacionarios y no estacionarios. Herramientas para
analizar series de tiempo: función de autocorrelación. Identificación y estimación de modelos.
Construcción de modelos de pronóstico. Aplicación a un caso de estudio.
3/96
PES-SanPi
Módulo 1: Pruebas de Hipótesis
REVISIÓN DE ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA

Cuando se solicita analizar qué modelo de probabilidad puede ser usado para representar a una
variable determinada:
1. Ver qué tipo de variable es: cualitativa (atributos) o cuantitativa. Si es cuantitativa puede ser
discreta (cantidad finita de valores por ej. conteo, cantidad) o continua (puede tomar
cualquier valor en un intervalo –por ej. tiempo, temperatura, porcentajes-).
2. Sobre la variable se realiza un análisis descriptivo:
a. Método tabular: tablas de frecuencias (cantidad observada, observada acumulada,
relativas –cant/total-, relativas acumuladas, porcentual –relativa*100-, porcentual
acumulada)
Frecuencia Frecuencia Frecuencia Frec. Relat. Frecuencia Frec. Porc.

n
observada acumulada relativa Acumulada porcentual Acumulada
b. Método gráfico gráficos,

i. Datos cualitativos:
1. barras (separadas), y
2. torta (%)
ii. Datos cuantitativos:
1. histogramas,
2. ojivas (acumulada),
3. dispersión,
4. de puntos
c. Cálculo de medidas
i. de ubicación (media, mediana, moda –ésta no se calcula para datos continuos
de series simples-),
ii. de dispersión (rango, varianza, desviación estándar)
iii. de forma (coeficiente de asimetría): distribución sesgada
sesgado a la izquierda sesgado a la derecha

CA<0 CA>0
3. Determinar la distribución de frecuencia

a. Datos discretos: binomial, de Poisson, hipergeométrica
b. Datos continuos: uniforme, normal, exponencial
INTERVALO DE CONFIANZA
Para valorar el posible error de estimar las propiedades poblacionales a partir de cantidad obtenidas
en la muestra.
α σ α σ
Intervalo de confianza para la media ICµ ;...% = x − ( z − ) ; x + (z − ) donde (z-α/2) se
2 n 2 n
toma de tabla de valor de z.
4/96
PES-SanPi
Nivel de 99,73 99 98 96 95,45 95 90 80 68,27 50

confianza
Zα/2 3,00 2,58 2,33 2,05 2,00 1,96 1,645 1,28 1,00 0,6745
α .01 .05 .10
α/2 .005 .025 .05
( n − 1) s 2 (n − 1) s 2
Intervalo de confianza para la varianza ICσ ,...% = 2
2
;
x( n − 1)α / 2 x (2n − 1)1− α / 2
(n − 1) s 2 (n − 1) s 2
Intervalo de confianza para el desvío ICσ ,...% = ; 2
x (2n − 1)α / 2 x ( n − 1)1− α / 2
Características de cada distribución
Tipo de variable
Cualitativas
Cuantitativa Discretas Distribuciones discreta de la probabilidad
• Binomial: dos posibilidades (éxito – fracaso). Es la que
maneja la distribución de la probabilidad de obtener cierta
cantidad de éxitos al realizar una cantidad de experimentos
con probabilidad de éxito constante y con ensayos
independientes.
• de Poisson: probabilidad de ocurrencia en un intervalo
especificado de tiempo o espacio.
• Hipergeométrica: como la binomial pero los intentos no son
independientes y con un tamaño de muestra grande en
relación al tamaño de la población.
Continuas Distribuciones continuas de la probabilidad
•
Uniforme: Es la distribución donde todos los
eventos elementales tienen la misma probabilidad.
• Normal: su función de densidad tiene
forma de campana y se determina con la
media y la desviación estándar.
media, mediana y moda cercanas
 desvío mucho < a media
 coeficiente de asimetría cercano a cero
 histograma con forma acampanada
▪ ojiva curva con forma de S
• Exponencial: probabilidad de ocurrencias de un evento en el
tiempo o espacio.
 Media > mediana
 Mediana > moda
 Desvío = media
 Coeficiente de asimetría 2
Insesgado . Un estimador es insesgado si el valor promedio o esperanza matemática del estimador

5/96
PES-SanPi
es igual al valor del parámetro.

Cuando un estimador es sesgado se puede introducir una corrección que elimine el sesgo.
Consistente . Un estimador es consistente, si a medida que aumenta el tamaño de la muestra, el
valor del estimador se acerca al valor del parámetro.
Eficiente o de varianza mínima . Si se toman dos muestras aleatorias del mismo tamaño
provenientes de la misma población y si con cada una de estas muestras se obtiene un estimador
insesgado, es eficiente el que tenga menor varianza.
Suficiente . Un estimador es suficiente si para calcularlo se utiliza toda la información suministrada
por la muestra.
Parámetros de población Estadísticos de muestra
Media µ x
Varianza σ 2
s2
Desvío estándar σ s
Contrastes de hipótesis
Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o
no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y
tanto si se aceptan como si se rechazan se puede cometer un error.
La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se representa por H0.
Rechazar H0 implica aceptar una hipótesis alternativa (Ha).
La situación se puede esquematizar:
Los pasos necesarios para realizar un contraste relativo a un parámetro θ son:
Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa Ha.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las
poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del PARÁMETRO DE
POBLACIÓN, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no
hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio"
Podemos rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos muestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre
contiene un signo de igualdad con respecto al valor especificado del parámetro.
1.1. Establecer la hipótesis nula en términos de igualdad
H0: θ = θ0
La hipótesis alternativa (Ha) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos muestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento
6/96
PES-SanPi
de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado
del parámetro.
1.2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo del interés
del investigador
H0: θ ≠ θ0 θ > θ0 θ < θ0
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral
(derecho en el 2º caso, o izquierdo en el 3º) o una cola.
Paso 2: Seleccionar el nivel de significación: nivel crítico para 〈
Elección de un estadístico de prueba que permita verificar la hipótesis, adopción de una
probabilidad para la zona de rechazo (especificar el nivel de significancia α para la prueba – error
tipo I 〈 pequeña, pero tienden a error tipo II- 〈=generalmente entre .05 y .01) y especificación de
cuáles son los valores de dicho estadístico que conducen a rechazar la hipótesis (establecer regla de
rechazo); SIEMPRE CON PARÁMETROS POBLACIONALES, no muestrales.
nivel de significación: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota
mediante la letra griega α, también es denominada como nivel de riesgo, este término es mas
adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
Este nivel esta bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la
probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-〈),
indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de

rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de
prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba
que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos
valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la
región de no rechazo de la de rechazo.
Paso 3: Cálculo del valor estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la
hipótesis nula., existen muchos estadísticos de prueba, para nuestro caso utilizaremos los
estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si
las muestras de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se
utiliza el estadístico t.
Tipos de prueba
a) Prueba bilateral o de dos extremos: la
hipótesis planteada se formula con la igualdad
Ejemplo
H0 : µ = 200
7/96
PES-SanPi
H1 : µ ≠ 200
b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

Ho : µ ≥ 200 Ho : µ ≤ 200
Ha : µ < 200 Ha : µ > 200
Muestra grande - ⌠ Conocida

En las pruebas de hipótesis para la media (μ), cuando se conoce
la desviación estándar (σ) poblacional, o cuando el valor de la
muestra es grande (30 o más), el valor estadístico de prueba es z
y se determina a partir de:
Muestra grande - ⌠ Desconocida

El valor estadístico z, para muestra grande y desviación estándar
poblacional desconocida se determina por la ecuación:
Muestra pequeña - σ Desconocida

En la prueba para una media poblacional con muestra pequeña y
desviación estándar poblacional desconocida se utiliza el valor
estadístico t.
Paso 4: Formular la regla de decisión

Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en
que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores
que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de
que la hipótesis nula es verdadera, es muy remota
8/96
PES-SanPi
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.
Paso 5: Tomar una decisión.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el
valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una
prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula.
Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería
haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte
cuando debería haberse rechazado (error de tipo II).
PROBABILIDADES DE LOS DIFERENTES TIPOS DE ERRORES

Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho
o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de
hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Investigador
Hipotesis nula Se acepta Ho Se rechaza Ho
Ho es verdadera Decisión correcta Error tipo I (α)
Ho es falsa Error tipo II (β) Decisión correcta
(*) Decisión correcta que se busca
α = p(rechazar H0|H0 cierta)
β= p(aceptar H0|H0 falsa)
Potencia =1- β = p(rechazar H0|H0 falsa)
Detalles a tener en cuenta
1. α y β están inversamente relacionadas.
2. Sólo pueden disminuirse las dos, aumentando n.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores
de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a
conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos
tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la
diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil
encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente
parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente sea
pequeña.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado
exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos dispuestos
a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las
contrastaciones se apoyan en que los datos de partida siguen una distribución normal.
9/96
PES-SanPi
Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal
sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se incrementa
el número de observaciones en la muestra, pues así se acortan los limites de confianza respecto a la
hipótesis planteada .La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras
palabras, es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder
de la prueba (1- β) La aceptación de la hipótesis planteada debe interpretarse como que la
información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis
Tipo I (α es la probabilidad de cometer error tipo I): en la práctica, la persona que efectúa la
prueba de hipótesis, especifica la máxima probabilidad permisible (llamada nivel de significancia)
para la prueba, de cometer un error de tipo I. Se acostumbran valores .05 y .01 para el nivel de
significancia. Si el costo de cometer un error de tipo I es alto, se debería escoger un valor pequeño
de nivel de significancia. Si el costo no es alto, lo adecuado sería usar un valor mayor (el valor
pequeño de nivel de significancia tiende a error de tipo II).
Tipo II (β es la probabilidad de cometer error tipo II): la probabilidad de un error de tipo II
depende del valor de μ (media de la población). Para valores de μ cercanos a μ 0 (valor supuesto de
la media de población), la probabilidad de cometer error tipo II puede ser alta.
Debido a la incertidumbre de cometer un error tipo II, en estadística se recomienda usar la
redacción “no rechazar Ho” en lugar de “aceptar Ho” lo que implica la recomendación de detener
cualquier juicio y acción. (ver pag 364)
Pasos:
• Formular Ho y Ha.
• Usar el nivel de significancia α para establecer la regla de rechazo, basado en el estadístico de
prueba z.
• Despejar el valor de la media de la muestra x .
• Usar medias más bajas y estimar la probabilidad de que el punto medio muestral real sea mayor.
• La probabilidad de rechazar correctamente Ho cuando es falsa, se llama potencia de la prueba
(1-β).
Valor p (nivel observado de significancia para la prueba): si el valor p es menor que el nivel de
significancia α (p< α), se puede rechazar la hipótesis nula (Ho). Rechazar Ho si p< α.
1. Se toma el valor de Z o de T, se busca en la tabla de distribución normal estándar,
2. Se resta p= 0.5000 – valor de tabla (si es prueba bilateral p=(0.5000 – valor de tabla)*2,
3. Se rechaza o no Ho si p< α
Controlando el tamaño de la muestra, es posible manejar la probabilidad de cometer error tipo I y
II.
( zα + z β ) 2 σ 2
n=
(µ 0 − µ a ) 2
10/96
PES-SanPi
Ejemplo en la cual se indica el procedimiento para la prueba de

hipótesis
Ejemplo
El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la
UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este
supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera
el nivel de significancia de 0.05
Datos:
Día Usuarios Día Usuarios Día Usuario
1 356 11 305 21 429
2 427 12 413 22 376
3 387 13 391 23 328
4 510 14 380 24 411
5 288 15 382 25 397
6 290 16 389 26 365
7 320 17 405 27 405
8 350 18 293 28 369
9 403 19 276 29 429
10 329 20 417 30 364
11/96
PES-SanPi
Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar
poblacional desconocida.
Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa
Ho: μ═350
Ha: μ≠ 350
Paso 02: Nivel de confianza o significancia 95%
α═0.05
Paso 03: Calculamos o determinamos el valor estadístico de prueba
De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras es
igual a 30, conocemos la media de la población, pero la desviación estándar de la población es
desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en la
formula reemplazando a la desviación estándar de la población.
Calculamos la desviación estándar muestral y la media:

Media 372.8
Desviación estándar 52.4143965
Paso 04: Formulación de la regla de decisión.
La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad
de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las dos colas,
es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.
Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis alternativa,
si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En caso contrario no
se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.
Paso 05: Toma de decisión.
En este ultimo paso comparamos el estadístico de prueba calculado mediante el Software Minitab
que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadístico de
prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el
supuesto del Jefe de la Biblioteca.
Conclusiones:
Se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (Ha) a un nivel de significancia de α
= 0.05. La prueba resultó ser significativa.
La evidencia estadística no permite aceptar la aceptar la hipótesis nula.
Ejemplo 2
Genero n Media Desvio SE mean
Femenino 181 72847 37773 2808
Masculino 229 75734 32320 2136
Diferencias de medias 2887
12/96
PES-SanPi
Distribución chi-cuadrado
• Como test de independencia: para determinar si 2 variables son independientes.
• Como test de bondad de ajuste: para determinar si se rechaza una distribución hipotética de
probabilidades para una población.
• Para estimar la varianza de una población normalmente distribuida.
Distribución t de Student
• Para estimar la media de una población normalmente distribuida cuando el tamaño de la muestra
es pequeño.
• Cuando se desconoce la desviación de una población y debe ser estimada con lo datos de la
muestra.
Pruebas sobre la varianza y la media de una normal

Prueba unilateral
A la derecha: Rechazar Ho si χ > χ α2 (varianza) z > zα t > tα (media)
2
• o o
µ
zona de rechazo
• A la izquierda: Rechazar Ho si χ
2
< χ 12− α (varianza) o z < − zα o t < − tα (media)
µ
zona de rechazo
Prueba bilateral
Rechazar Ho si
• Varianza: χ > χ α / 2 o χ < χ 1− α / 2
2 2 2 2
• Media: z > zα / 2 o z < − zα / 2 o t > tα /2 o t < − tα /2
µ
zonas de rechazo
VARIANZA (chi-cuadrado): para saber si se obtuvieron los valores muestrales por casualidad
1. Hipótesis Ho y Ha
(n − 1) s 2
2. Estadístico de prueba χ 2 =
σ 2
3. Regla de rechazo: Rechazar Ho si χ ...χ α
2 2
4. Cálculo (estimación del estadístico con los datos de la muestra)

5. Contraste y decisión (rechazar o no rechazar Ho)
MEDIA (t de Student): para saber si se obtuvieron los valores muestrales por casualidad
13/96
PES-SanPi
2. Estadístico de prueba:
x− µ x− µ
a. n ≥ 30 z= o z=
σ / n s/ n
x− µ x− µ
b. n < 30 z= o t=
σ / n s/ n
3. Regla de rechazo: Rechazar Ho si z...zα (este último es según valor en TABLA)

4. Cálculo (estimación del estadístico con los datos de la muestra)
Pruebas sobre una proporción

p − p0
El estadístico para pruebas respecto a una proporción poblacional es z =
σ p
proporción p (1 − p )
donde p es la proporción poblacional dada, p = y σ p =
total n
Pruebas para verificar modelos de probabilidad

Pruebas de hipótesis que permiten verificar la elección del modelo
A fin de realizar estas verificaciones, los investigadores han desarrollado dos pruebas de hipótesis,
la de Kolmogorov y la chi-cuadrado de Pearson.
• Prueba de hipótesis Chi-cuadrado de Pearson TABLA
La prueba de bondad de ajuste chi-cuadrado: al decidir la cantidad de intervalos a utilizar, es
conveniente trabajar con la mayor cantidad posible, porque de esa cantidad dependen directamente
los grados de libertad del estadístico.
Sin embargo, como contrapartida, todas las frecuencias esperadas deben ser mayores que cinco (5),
porque de otro modo se tiende a rechazar injustamente la hipótesis.
El problema es que al aumentar la cantidad de intervalos se disminuyen las frecuencias esperadas.
Una solución de compromiso se obtiene mediante una clasificación inicial en muchos intervalos y
un posterior agrupamiento de aquellos intervalos cuyas frecuencias esperadas sean demasiado
pequeñas.
Por su parte, la prueba de bondad de ajuste chi-cuadrado de Pearson permite, al igual que la de
Kolmogorov, analizar si un modelo representa correctamente el comportamiento de una variable,
con la ventaja de que es aplicable tanto a variables discretas como continuas. A fin de experimentar
con esta herramienta proponemos su aplicación en el siguiente problema. Para muestras de más de
50 datos.
( f i − ei ) 2 (ni − fei ) 2
Estadístico de prueba χ = ∑ o χ = ∑
2 2
2.
ei fei
3. Tabla de distribución
Datos individuales
Frecuencia Probabilidad Frecuencia esperada (fe) (ni − fe) 2
x
(ni) (según tabla) Po ni*po fe
No pueden ser valores menores
14/96
PES-SanPi
a 5. Se deben agrupar. Sumatoria = x2
Datos agrupados
x− x
( ) (x es
s
Frecuencia el valor del Probabilidad
Frecuencia (ni − fe) 2
Intervalo límite mayor esperada (fe)
(ni) (según tabla) Po fe
en el intervalo) n*po
Límite Límite
menor mayor
* del límite mayor
Sumatoria = x2
rango
* Cantidad de intervalos: n amplitud de cada intervalo:
n
4. Regla de rechazo: Rechazar Ho si χ 2 > χ (2k − ...;α ) donde k es la cantidad de categorías o
intervalos
a. Grados de libertad: k-1: para distribución multinomial
b. Grados de libertad: k-2: para distribución de Poisson
c. Grados de libertad: k-3: para distribución normal
5. Cálculo
• Kolmogorov TABLA
Para muestras menores a 50 datos. Sólo datos continuos.
Prueba de Smirnov - Kolmogorov - Valores individuales. Para realizar la prueba de S-K no se
requiere que las observaciones estén distribuidas en intervalos de clase, sino que puede realizarse
sin agrupar los valores en intervalos de clase, principalmente cuando el tamaño de la muestra es
pequeño. En este caso es necesario ordenar los valores en forma ascendente, de menor a mayor, y
calcular, para cada valor observado las distribuciones teóricas F(Xi) y empíricas Sn(Xi).
2. Estadístico de prueba valor =máx | sn - fo|
3. Regla de rechazo: Rechazar Ho si valor > valorn;α (tabla)
4. Cálculo de una tabla
Frecuencia Sn x− x Fo
Intervalo
(ni) (ni/total)
Sn acumulado z= (tabla)
Sn-fo
s
Pruebas de tablas de contingencia

En el análisis de variables cualitativas (atributos) no se utilizan medidas como la media o la
varianza. En estos casos, nuestra atención debe enfocarse hacia el modo en que se distribuyen los
valores de la variable.
Para este ítem se debe utilizar la prueba de tabla de contingencia. Se trata de una prueba chi-
cuadrado que permite analizar si dos atributos pueden considerarse independientes entre sí.
15/96
PES-SanPi
Prueba de independencia (chi-cuadrado)

( f i − ei ) 2
2. Estadístico de prueba y Tabla χ = ∑
2
ei
Frecuencia esperada eij ( fij − eij ) 2

fij
(Suma renglón*suma columna)/total eij
Sumar la columna = x2
Datos individuales
1. Regla de rechazo: Rechazar Ho si χ 2 > χ α2 (los grados de libertad se calculan = cantidad

de renglones – 1 * cantidad de columnas – 1 )
2. Cálculo
Pruebas para comparar poblaciones
Módulo 2: Simulación
Elementos de un modelo de simulación

Se plantea
• Objetivo
• Variable exógena: es externa al sistema, no puede ser controlada por este. Sus variaciones
afectan a los resultados.
• Variable de resultado: es representativa de la salida del sistema, está condicionada por sus
actividades.
• Parámetro
• Programa
• Resumen
• Criterio de decisión
Generación de números aleatorios

Con la calculadora para generar un número aleatorio entre 0.000 y 0.999 se presiona SHIFT-RAN#
Dependen de la distribución
Método de Montecarlo Método Algoritmo del Teorema del Límite Central
• Variables cualitativas (atributos) • Variable continua: NORMAL
• Variable discreta: POISSON
• Variable continua: EXPONENCIAL
Variables cualitativas (método de Montecarlo)
Atributo Probabilidad Probabilidad Acumulada
16/96
PES-SanPi
1. se genera número random con calculadora.

2. se busca la primer probabilidad acumulada que supera el número random
3. se toma el atributo correspondiente
Variables cuantitativa-discreta-POISSON (método de Montecarlo)

Con valor de media µ
x Probabilidad según tabla de Probabilidad
Poisson Acumulada
1. se genera número random con calculadora.

2. se busca la primer probabilidad acumulada que supera el número random
3. se toma el valor de x correspondiente
Variables cuantitativa-continua-EXPONENCIAL (método de Montecarlo)
Con valor de media µ
Distribución acumulada exponencial: x = − µ * ln[1 − random]
Donde ln es logaritmo natural (en la calculadora es ln)
Variables cuantitativa-continua-NORMAL (método de Algoritmo del Teorema del Límite Central)

Con valor de media µ y desvío estándar σ
1. se generan con calculadora 12 números random.
2. se suman
3. z = ∑ random − 6
4. x = µ + z * σ
Método de Montecarlo y otras formas de generar variables

Para representar la evolución de un sistema a lo largo del tiempo.
• Montecarlo
Sólo con variables con probabilidades acumuladas (Poisson, exponencial) y variables cualitativas
1. se construye una tabla de probabilidades acumuladas con la variable (en general se hace con
100-200)
Variable aleatoria Probabilidad Probabilidad
(exógena) (tabla) acumulada
Unos 12 números
2. se genera con la calculadora un número random y se busca la primera probabilidad

acumulada que es mayor al número random.
3. Se calcula el desvío estándar de la variable de resultado (unos 20 renglones)
4. Longitud de las corridas (una corrida es la aplicación del modelo de simulación para obtener
una muestra de la variable resultado): se calcula n con el desvío obtenido, eligiendo un error
(en general es .10 o menos) y un nivel de confianza (por ejemplo 95% corresponde z=1.96,
o se puede usar 2 para redondear)
σ σ 2
Cálculo de n: Si el error de aproximación es ε = ± Z σ al despejar n que da n = ( zα / 2 ) siendo
n ε
σ el desvío, Z con el nivel de confianza elegido por el usuario se toma de la tabla y el valor de ε lo
elije el usuario.
Valores de Zα/2 para los niveles de confianza de uso más común
Nivel de confianza α α/2 Zα/2
90% .10 .05 1.645
17/96
PES-SanPi
95% .05 .025 1.96

99% .01 .005 2.576
5. Se presenta un resumen de los resultados
6. Se presentan con tablas.
7. Se toma una decisión
Resumen: se generan m series (corridas) de n valores (se debe calcular la longitud de las corridas),
luego se calcula x de las m series, la que se aproxima a la x real con un error dado.
• Algoritmo del Teorema del Límite Central
Para variable continua con distribución NORMAL
1. Se generan 12 números random y se los suma.

2. se averigua el valor z=(suma de los random)-6
3. Obtener normal deseada: X=media+z*desvío
4. Se hace tabla
Variable aleatoria
Nro de orden Frecuencia relativa
(ordenada de menor a mayor)
5. Se busca el valor con frecuencia acumulada más cercano a la proporción buscada.

6. se calcula n con la proporción buscada, eligiendo un error y un nivel de confianza. (longitud
de las corridas).
Z p (1 − p)
Cálculo de n: Si el error de aproximación es ε = ± al despejar n queda
n
z p (1 − p ) 2
n = ( α /2 ) siendo p la proporción poblacional, Z con el nivel de confianza elegido por el
E
usuario se toma de la tabla y el valor de ε lo elije el usuario.
90% .10 .05 1.645
95% .05 .025 1.96
99% .01 .005 2.576
7. Se presenta un resumen de los resultados
8. Se presentan con tablas.
9. Se toma una decisión
Simulación de fenómenos de espera

Se debe tener en cuenta:
• La secuencia en que se producen las llegadas. La estrategia habitual es trabajar con series largas
(1000 ó 2000 valores) y utilizar varias secuencias (por lo menos 5). Luego los promedios
resumen los resultados.
• Las condiciones iniciales adoptadas. Generalmente se hacen unos 100 pasos de cálculo iniciales
para estabilizar el sistema e independizarlo de las condiciones iniciales. El tramo inicial no se
considera en las estadísticas.
σ σ 2
Cálculo de n: Si el error de aproximación es ε = ± Z α / 2 al despejar n que da n = ( zα / 2 )
n ε
siendo σ el desvío, Z con el nivel de confianza elegido por el usuario se toma de la tabla y el valor
de ε lo elije el usuario.
18/96
PES-SanPi

90% .10 .05 1.645
95% .05 .025 1.96
99% .01 .005 2.576
Longitud de las corridas

Promedio
σ
n > ( zα /2 ) 2 z se toma de TABLA de valores zα /2
error
Frecuencia relativa acumulada
zα proporción (1 − proporción) 2
n> ( /2
) z se toma de TABLA de valores zα /2
error
Módulo 3: Regresión y Correlación

La relación entre 2 o más variables de tipo cuantitativo se analiza con herramientas de regresión y
correlación. Por ej. La relación entre peso y altura (son dos variables relacionadas).
1. Se adquiere la muestra
2. Se puede representar en un gráfico de dispersión (para suponer si existe una relación lineal
entre las variables).
y
ordenada
al origen
x
Se puede representar formalmente la relación y = α + β x + ε
Donde:
• α es la ordenada al origen
• β es la pendiente de la recta
• ε es la variación aleatoria (se supone con distribución normal, media cero, y cierta varianza). Se
verifica con gráfica de probabilidad normal (ver verificaciones gráficas de los residuos).
La media se representa por la recta y = α + β x (Cuando se habla de promedio es yˆ = b0 + b1 x )
Para estimar la media y la varianza (en la relación entre 2 o más variables) se usa el método de los
mínimos cuadrados (para encontrar la recta que reduce al mínimo la suma de cuadrados de los
errores).
mín ∑ ( y i − yˆ i ) 2 (donde y es el valor observado, e ŷ es el valor estimado)

Este método devuelve algún modelo PERO no se asegura que sea confiable. Por ello se realizan
verificaciones sobre el modelo:
• Verificación de errores (o residuos): para ver si es conceptualmente correcto (con tablas de
cálculos y gráficos)
• Validación de los términos del modelo: distribución t de Student y F de Fisher
• Valoración de la capacidad predictiva del modelo: coeficiente de determinación
19/96
PES-SanPi
Modelo lineal general

Modelo de regresión lineal simple: aplicando el análisis de regresión se puede plantear una ecuación
que muestre cómo se relaciona la variable dependiente y con la variable independiente x.
El modelo de regresión y = β 0 + β 1 x + ε
Ecuación de regresión ε ( y ) = β 0 + β 1 x
Parámetros desconocidos βo y β1
Con los datos de la muestra
x y
Ecuación estimada de regresión yˆ = b0 + b1 x
Estadísticos de la muestra bo y b1 → proporcionan los estimados de Bo y B1
∑ xy − (∑ x ∑ y ) / n
b1 = b0 = y − b1 x
∑ x 2 − (∑ x) 2 / n
Observación: al estimado b1 con la calculadora se deben manejar tantos dígitos significativos

como sea posible en los pasos intermedios. Se recomienda usar, cuando menos, 4 dígitos
significativos.
Estimación de una recta de regresión

Cálculo de ecuación de regresión sin utilizar una ordenada al origen, usando el criterio de los
cuadrados mínimos:
mín ∑ e 2 = ( y i − bx) 2
d ∑ ( y − bx) 2
= − 2 ∑ ( y − bx) x
db
∑ yx
− 2 ∑ ( yx − bx) 2 = 0 despejando b se tiene b =
∑ x2
A partir de esta fórmula se puede calcular b.
Coeficientes de determinación y correlación

Coeficiente de determinación: Valoración de la capacidad predictiva del modelo
SSR
r2 =
SST
Suma de cuadrados debida a regresión SSR = ∑ ( yˆ − y )

2
• → variacion explicada
∑ yi
donde yˆ = b0 + b1 x y=
n
Suma total de cuadrados SST = ∑ ( y − y ) o SST=SSR+SSE
2
•
Suma de cuadrados debida al error SSE = ∑ ( y − yˆ )
2
• → variacion inexplicada.
La relación SSR/SST puede asumir valores entre cero y uno (el coeficiente de determinación da una
medida entre 0 y 1), y se usa para evaluación de la bondad de ajuste para la ecuación de regresión.
Se evalúa la capacidad predictiva del modelo. Por ej. r 2 = 0.88 -> 88% de acierto
20/96
PES-SanPi
Coeficiente de correlación rxy = ( signob1 ) r 2

El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre
dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto
de las desviaciones estándar de ambas variables:
En el caso de una relación lineal entre dos variables, el coeficiente de determinación y el coeficiente
de correlación permiten tener medidas de la intensidad de una relación. El coeficiente de
determinación da una medida entre 0 y 1, mientras que el coeficiente de correlación da una medida
entre -1 y +1.
• Un valor de +1 indica que las dos variables (x e y) tienen una relación lineal positiva perfecta
(todos los puntos de datos están en una línea recta con pendiente positiva).
• Un valor de -1 indica que las dos variables (x e y) tienen una relación lineal negativa perfecta
(todos los puntos de datos están en una línea recta con pendiente negativa).
• Un valor de cercano a 0 indica que las dos variables (x e y) no tienen una relación lineal (ver
pruebas de hipótesis de significancia)
El coeficiente de correlación se restringe a una relación lineal entre dos variables.
Relaciones lineales
• Positiva: la pendiente B1 es positiva (B1>0) E(y)
Orientada al
origen Bo la pendiente
B1 es positiva
x
• Negativa: la pendiente B1 es negativa (B1<0)
E(y)
Orientada al la pendiente B1
origen Bo es negativa
• No hay relación: la pendiente B1 es cero (B1=0)

E(y) x
la pendiente B1
Orientada al es cero
origen Bo
Pruebas de hipótesis asociadas: Validación de los términos del modelo

Pruebas de hipótesis: para determinar si el valor de β1 es cero.
Pruebas de significancia: la ecuación de regresión lineal simple ( y = β 0 + β 1 x + ε ) indica que el
21/96
PES-SanPi
valor medio (ŷ) o esperado de y es una función lineal de x.

• Si el valor de β1 es cero,
ε ( y) = β 0 + β 1 x
ε ( y ) = β 0 + (0) x = β 0
El valor medio de y ( ŷ ) no depende del valor de x y en consecuencia se concluye que x e y no
tienen relación lineal.
• Si el valor de β1 no es igual a cero, se concluye de que las dos variables se relacionan.
Prueba t (de Student):

sólo se puede usar cuando hay 1 variable independiente
El modelo de regresión lineal simple es y = β 0 + β 1 x + ε . Si x e y tienen relación lineal, debe
suceder que β 1 ≠ 0 . Con la Prueba t se ve si se puede concluir que β 1 ≠ 0 . Ésta debe indicar la
misma conclusión que la prueba F.
Hipótesis: Ho: β 1 = 0 Ha: β 1 ≠ 0

• Si se rechaza Ho, la conclusión será que β 1 ≠ 0 y que hay una relación estadísticamente
significativa entre las dos variables.
• Si no se puede rechazar Ho, no hay la evidencia suficiente para decir que existe una relación
significativa.
b1
Estadístico de prueba: t =
sb1
s
Desviación estándar estimada de b1: sb1 =
∑ x − (∑ x) 2 / n
2
SSE
Error estándar del estimado: s = MSE =
n− 2
Regla de rechazo: Rechazar Ho si t<-tα/2 o t>tα/2
Donde tα/2 se basa en una distribución t con n-2 grados de libertad.
Observación: cuando se realiza la prueba t para calcular la ordenada al origen (b0) tα/2 el valor del
nivel de significancia α se calcula para el lado izquierdo, por ejemplo: nivel de significancia 0.05
que se debe dividir por 2=0.025, a eso debo hacer 1-0.025= 0.975
Prueba F (de Fisher)

También se puede usar la prueba F para probar si la regresión es significativa (si existe una relación
significativa). Ésta debe indicar la misma conclusión que la prueba t.
Pero cuando hay más de una variable independiente sólo se puede usar la prueba F para ver si
hay una relación significativa general.

MSR
Estadístico de prueba: F =
MSE
MSR: SSR/1 MSE: SSE/n-2
Regla de rechazo: Rechazar Ho si F> Fα
Donde Fα se basa en una distribución F con 1 grado de libertad en el numerador y n-2 grados de
22/96
PES-SanPi
libertad en el denominador.
Fuente de Grados de Estadístico de

Suma de cuadrados Cuadrado medio
variación libertad prueba F
SSR (suma de SSR
Regresión cuadrados debida a 1 MSR =
regresión) 1
SSE (suma de MSR
SSE F=
Error cuadrados debida al n-2 MSE = MSE
error) n− 2
SST (suma total de
Total n-1
cuadrados)
Verificaciones gráficas de los residuos:
Verificación de errores
Residual en la observación i y i − yˆ i
El i-ésimo residual es el error debido al uso de la ecuación de regresión para predecir el valor de y.
x y Valor estimado yˆ = b0 + b1 x Residuales y − yˆ
Se usa para determinar si son adecuados los supuestos que se hicieron sobre el modelo de regresión
(si es adecuado el modelo supuesto de regresión).
Los residuales dan información acerca de ε. Para describir si las hipótesis acerca de ε son adecuadas
se realizan análisis de residuales:
• Gráfica de residuales en función de x (los valores de x se
Residual
representan en el eje horizontal y los residuales en el eje Patrón adecuado
vertical. Se grafica un punto para cada residual.)
o Si la hipótesis de que la varianza de ε es igual para
todos los valores de x, la gráfica debe mostrar un patrón 0
similar a una banda horizontal de puntos.
x
o Si la varianza de ε no es igual para todos los valores de x.

Residual varianza no constante
x
o O puede que se llegue a la conclusión de que el forma inadecuada
Residual del modelo
modelo no es una representación adecuada de la
relación entre las variables.
0
x
23/96
PES-SanPi
• Gráfica de residuales en función de ŷ (los valores de ŷ se representan en el eje horizontal y los

residuales en el eje vertical. Se grafica un punto para cada residual.)
Su aspecto es igual que el de la gráfica de residuales en función residual
de x.
ŷ
• Gráfica de residuales estandarizados
residual
Desviación estándar del i-ésimo residual s y − yˆ = s 1 − h siendo s y − yˆ estandarizado
la desviación estándar del residual i, s el error estándar del estimado
0
1 (x − x)2
y h= +
n ∑ (x − x)2
y − yˆ x
Residual normalizado para la observación i
s y − yˆ
Al trabajar con una gráfica de residuales estandarizados cabe esperar que, aproximadamente el 95%
de los residuales estandarizados están entre -2 y +2.
Residual
estandarizado
(x − x)2 1 (x − x)2 o normalizado
i x x− x (x − x)2 h= + s y − yˆ = s 1 − h y − yˆ
∑ (x − x)2 n ∑ (x − x)2 y − yˆ
s y − yˆ
• Gráfica de probabilidad normal

Para determinar la validez de la hipótesis que el término de error tiene distribución normal.
Si se satisface la hipótesis de normalidad, el residual estandarizado mínimo debe estar cerca del
mínimo punto normal, el residual siguiente al mínimo debe estar cerca del punto normal siguiente al
máximo, y así sucesivamente.
Residual Residual estandarizado residual − media
i x y
estandarizado ordenado desvío
Si se trazara una gráfica, los puntos deberían agruparse estrechamente cerca de una línea a 45º que
pase por el origen:
o En general mientras más cerca estén los puntos de la línea a 45º, es mayor la evidencia
que respalda el supuesto de normalidad.
Residuales línea a 45º
estandarizados
Escalas normales
24/96
PES-SanPi
o Cualquier curvatura apreciable en la gráfica de probabilidad normal se considera como

prueba de que los residuales no provienen de una distribución normal.
Módulo 4: Series de Tiempo
Series temporales: definición; comportamientos estacionarios y no

estacionarios
Se denomina PROCESO a cualquier fenómeno que cambia o evoluciona con el tiempo.
Un proceso estocástico es un fenómenoestadístico que varía con el tiempo. Entonces para cada
instante de tiempo t se tiene una variable aleatoria Zt. El conjunto de variables ; {Z1, Z2, ….Zn} se
denomina proceso estocástico. Si en cada instante t se realiza una extracción al azar de la variable
Zt, se obtiene un conjunto de observaciones del proceso estocástico.
Este conjunto de observaciones se denomina SERIE DE TIEMPO.
Series de tiempo: es un conjunto de observaciones de una variable realizadas a intervalos regulares
y ordenadas conforme a su aparición cronológica.
Las series de tiempo se suelen presentar por medio de una ecuación matemática que describa los
valores de la variable observada como una función del tiempo, es decir (Y =f(t)).
Las series se registran habitualmente como un conjunto de pares ordenados de valores, con el
tiempo expresado en forma de indicadores: 1; 2; 3; …
t Zt
1
2
3
Gráficamente se representa en un par de ejes coordenados (en abscisas se representa el tiempo y en

las ordenas los valores observados de la variable).
Existen diferentes métodos para analizar una serie de tiempo, siendo uno de ellos el modelo de
descomposición , el cual considera que la serie está compuesta de cuatro patrones básicos: la
tendencia (T), las variaciones estacionales (S), las variaciones cíclicas (C) y las variaciones
irregulares o aleatorias (I). Por lo tanto, interesa:
• Comportamiento histórico de la variable: si existen patrones de comportamiento o si la serie
tiene una elevada aleatoriedad.
o Series estacionarias: conservan sus propiedades a lo largo del tiempo (media, varianza y
covarianza interna)
o Series no estacionarias: pueden presentar diferentes tipos de cambios que en general resultan
predecibles, sistemáticos.
 Tendencia: orientación general de la serie (ascendente o descendente)
 Fluctuación estacional: comportamiento aproximadamente periódico (en períodos
menores al año)
• Pronóstico: se asume que los comportamientos de los datos en el pasado seguirán
manifestándose en el futuro.
Tendencia (T)
Es la componente que indica la evolución de la variable a través del tiempo, evolución que se va a
medir como un crecimiento o descenso constante en un período de tiempo prolongado. El período
de observación de la variable ha de ser suficientemente largo como para incluir dos o más ciclos
económicos y así poder tener una idea sobre la evolución real de la variable. Lo que mide la
25/96
PES-SanPi
tendencia es la variación promedio de la variable por unidad de tiempo. Esta tendencia se suele
describir mediante una recta o algún tipo de curva lisa.
En la figura siguiente se puede observar que a pesar de tener altibajos durante todo el período de
observación, la tendencia (T) de las tasas de desempleo es a disminuir.
Variaciones estacionales (S)

Corresponde a los movimientos en una serie de tiempo, que ocurren año tras año en los mismos
meses o períodos del año poco más o menos con la misma intensidad. También se aplica la
variación estacional a otros movimientos periódicos por naturaleza, como los que ocurren en un día,
una semana o un mes, cuyo período es como máximo un año.
Entre los factores más importantes que originan variaciones estacionales, se encuentran las
condiciones climáticas, las costumbres sociales y las fiestas religiosas. Las climáticas son la causa
más importante de las variaciones estacionales en la producción agrícola, la construcción y el
turismo.
26/96
PES-SanPi
En la figura puede observarse que generalmente el PIB en los meses de noviembre y diciembre está
en su punto máximo y en los meses de enero, marzo y junio en su punto mínimo, presentándose
más o menos el mismo comportamiento todos los años. La situación descrita se considera una
variación estacional.
Existen diversas razones para calcular las variaciones estacionales; si se sabe que los precios de
algunos artículos tienen una fluctuación caracteristica, es posible comprar en época de precio bajo y
reservar los artículos para su posterior empleo o venta. Antes de tomar una decisión a este respecto
debe tenerse en cuenta el costo de almacenamiento y otros costos que impliquen la operación.
Una razón para medir los movimientos estacionales es la de ajustar los datos estadísticamente
respecto a tales movimientos, quedando así las series compuestas únicamente por la tendencia, los
movimientos cíclicos y las variaciones aleatorias. Los datos en esa forma son más fáciles de
interpretar para muchos fines, por disminuir la probabilidad de error en la apreciación de la causa de
cualquier movimiento observado. Por ejemplo, si no se han ajustado los datos, puede tomarse un
alza estacional por una mejora en la condición del negocio o viceversa.
Los índices estacionales son las medidas de las variaciones estacionales en la marcha de cualquier
variable. Al hacer los análisis de las variaciones estacionales se deben utilizar como máximo
datos trimestrales o semestrales.
Variaciones cíclicas (C)

Son los movimientos ascendentes y descendentes de la variable, los cuales difieren de las
variaciones estacionales en que se extienden por períodos de tiempo más o menos largos (2 o más
años) y, supuestamente, resultan de un conjunto de causas totalmente diferentes que en general son
de naturaleza económica y reflejan el estado de las actividades comerciales de tiempo en tiempo.
Los períodos recurrentes de expansión, cúspide, contracción y sima constituyen las 4 fases de un
ciclo y se consideran causados por factores diferentes del clima y las costumbres sociales que
contribuyen a las variaciones estacionales. La principal diferencia entre las variaciones cíclicas y las
estacionales es que en las estacionales la periodicidad es de un año como máximo, mientras que en
las cíclicas esta periodicidad es mayor; por esta razón para detectar las variaciones cíclicas se debe
tener una serie suficientemente larga.
27/96
PES-SanPi
Variaciones irregulares o aleatorias (I)

Se deben a razones aleatorias o esporádicas y por lo tanto impredecibles. No obstante, estos sucesos
se pueden reconocer e identificar fácilmente. Las variaciones aleatorias son de dos clases:
a) variaciones provocadas por acontecimientos especiales, como elecciones, guerras,
inundaciones, terremotos, huelgas, etc.
b) variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en forma exacta.
Las variaciones aleatorias a menudo son poco importantes y se suelen considerar como parte de las
estacionales o cíclicas o simplemente se las ignora.
Series de tiempo
Una serie de tiempo es un conjunto de observaciones de una variable, realizadas a intervalos
regulares y ordenadas conforme a su aparición cronológica. Bajo esta definición se pueden
encuadrar, por ejemplo, las ventas mensuales de una empresa o el consumo anual de energía
eléctrica en una ciudad.
Las series se registran habitualmente como un conjunto de pares ordenados de valores, con el
tiempo expresado en forma de indicadores: 1, 2, 3, ... Para ejemplificar, podemos plantear el caso de
una empresa cuyas ventas en los últimos años han sido las siguientes:
t Zt
1 25
2 28
3 29
4 30
5 33
6 32
7 34
8 34
9 36
10 35
Este concepto admite una representación gráfica en un par de ejes coordenados, donde en las
abscisas se representa el tiempo, y en las ordenadas los valores observados de la variable. La gráfica
de la serie anterior es la siguiente:
28/96
PES-SanPi
La Estadística ha orientado una parte muy importante de su trabajo al desarrollo de métodos y

modelos que permiten estudiar las series temporales. Ese interés se justifica en el hecho de que las
organizaciones sociales de todo tipo requieren información basada en esa clase de datos.
Los tipos de información que interesa adquirir a partir de esos estudios son los siguientes:
• Comportamientos históricos de la variable: es importante investigar si existen patrones o si
la serie tiene una elevada aleatoriedad. En general, estas propiedades se relacionan con el
fenómeno analizado. Por ejemplo, si un shopping registra la cantidad de visitas diarias
recibidas puede determinar cómo varía el flujo de personas a lo largo de la semana o
verificar si las actividades de promoción dan buenos resultados.
• Pronósticos: en las tareas de planificación es preciso estimar los valores futuros de las
principales variables involucradas. Por ejemplo, al realizar su presupuesto anual una
empresa industrial debe cuantificar los valores que durante el siguiente año tendrán variables
como ventas, pérdidas por roturas de piezas o materia prima u horas hombre de trabajo
perdidas por inasistencias.
En lo que refiere a los comportamientos, se distingue entre series estacionarias y no estacionarias.
Las primeras son aquellas que conservan sus propiedades a lo largo del tiempo. Dichas propiedades
son la media, la varianza y la covarianza interna (variación conjunta entre periodos consecutivos).
Por su parte, las no estacionarias pueden presentar diferentes tipos de cambios que en general
resultan predecibles, sistemáticos. Entre los comportamientos predecibles más conocidos se
encuentran la tendencia y la fluctuación estacional. Se denomina tendencia a una orientación
general de la serie, que puede ser ascendente o descendente. La cantidad de habitantes de un país,
por ejemplo, registrada entre los años 1900 y 2000, presenta tendencia creciente. En cambio, el
porcentaje de mortalidad infantil, desde 1900 hasta el presente, tiene tendencia decreciente.
Por su parte, la fluctuación estacional define un comportamiento aproximadamente periódico, en
periodos menores al año. Por ejemplo, la serie de ventas mensuales de una heladería registra
siempre picos en verano y valles en invierno; si bien los valores no se repiten exactamente, sus
29/96
PES-SanPi
variaciones son similares año tras año. En cuanto a la identificación de comportamientos, se

denomina en lenguaje técnico: “análisis de series”, y para realizarla se utilizan diversas
herramientas.
Un buen diagrama, por ejemplo, permite construir una idea preliminar sobre las variaciones
observadas. Por otra parte, calcular promedios móviles y representarlos gráficamente mejora la
apreciación anterior.
La herramienta clave en el proceso de análisis se denomina “función de autocorrelación” (en
adelante se la referencia como FAC). Esta función representa de manera cuantitativa el nivel de
relación existente entre los valores actuales de la serie y sus precedentes.
Sucede que cada uno de los comportamientos típicos de una serie temporal tiene su correspondiente
FAC. Es decir que si la serie tiene tendencia, las autocorrelaciones se presentan de un modo que es
característico de la tendencia; si tiene estacionalidad, la FAC adopta una estructura periódica, y así
para todos los comportamientos.
El otro objetivo del estudio de series es la realización de pronósticos. Para ello se asume que los
comportamientos de los datos en el pasado seguirán manifestándose en el futuro. El recurso
operativo utilizado es representar la serie con una función (modelo) y utilizar dicho modelo para
pronosticar.
Para el caso de las ventas que utilizamos como ejemplo, es posible suponer que las mismas tienen
una tendencia creciente. Este tipo de comportamiento puede ser representado mediante un modelo
de regresión, es decir, con las herramientas trabajadas en el módulo 3 de la presente asignatura. En
efecto, si a los datos del ejemplo les aplicamos una regresión lineal, se obtiene como ordenada al
origen el valor 25,533 y como pendiente el de 1,03.
Luego, el efecto de la tendencia puede representarse con la siguiente recta:
Tt = 25,533 + 1,03t donde t es el indicador del intervalo temporal
La recta estimada permite pronosticar que en el tiempo 11 las ventas deben alcanzar 37,7 y que en
el tiempo 12 su valor puede trepar a 38,8.
En la siguiente figura se observan la traza observada y la recta estimada.
La proyección de esa función, más allá del tiempo 10, permite realizar los pronósticos.
30/96
PES-SanPi
Ahora bien, las rectas de regresión no son el único modelo de pronóstico. De hecho, en el presente
módulo se trabajan otras herramientas.
Por ejemplo, para series que se mantienen estacionarias y presentan un componente aleatorio fuerte,
pueden aplicarse el modelo autorregresivo o los métodos de suavizado exponencial. El primero
pronostica mediante una regresión simple del nuevo valor de la serie en función del inmediato
anterior.
En cambio, los de suavizado utilizan un promedio de los últimos valores observados.
Si la serie tiene una tendencia dominante, como se anticipó, se utiliza una proyección de dicho
efecto. Por otra parte, si presenta el efecto conjunto de tendencia y fluctuación estacional, se utiliza
el denominado modelo multiplicativo.
Este método apela a representar ambos efectos por separado y pronostica por medio de un producto
de los dos componentes.
En suma, en series de tiempo es preciso realizar dos tareas diferentes. Por una parte se analizan los
comportamientos presentes en la serie y por la otra se elige el modelo de pronóstico más
conveniente. Por supuesto, los resultados del análisis permiten una elección adecuada del modelo.
Herramientas para analizar series de tiempo: función de

autocorrelación
La identificación de comportamiento: son los análisis de series. Por ejemplo con diagramas,
cálculo de promedios móviles y su representación gráfica.
En el análisis de un proceso estocástico juega un rol fundamental la función de autocorrelación
(FAC). Indica la MEMORIA del proceso, es decir la “medida” en que las observaciones pasadas
inciden en las presentes.
Se conforma con los coeficientes de autocorrelación p(k), funciones de los sucesivos
desplazamientos o retardos k. La representación gráfica se denomina CORRELOGRAMA (FAC).
Para k= 0 es p(0) }= 1, es decir la correlación de todo proceso consigo mismo es la unidad.
31/96
PES-SanPi
Herramientas:
• La herramienta clave es la Función de Autocorrelación FAC: representa de manera
cuantitativa el nivel de relación existente entre los valores actuales de la serie y sus precedentes.
Cada comportamiento típico tiene su correspondiente FAC.
1. Determinar promedio y desvío

2. Calcular el producto del primer orden
Parejas de Producto
Zt
valores Zt-1 (Zt-promedio)*(Zt-1-
i promedio)
1 Valor 2 Valor 1
2 Valor 3 Valor 2
3 Valor 4 Valor 3
4
TOTAL
Se determina autocovarianza (total del producto / i) y autocorrelación

(autocovarianza/desvío/desvío)
Leyenda: “El coeficiente de autocorrelación de primer orden es … Esto quiere decir que
existe una relación lineal entre valores consecutivos de la serie”
Ejemplo
valores Yt
t
1 1604
2 1531
3 1606
...
n 1482
valores Zt Producto
Zt-1
t (Zt)*(Zt-1)
1 1531 1604 2455724
2 1606 1531 2458786
3 1523 1606 2445938
4 1590 1523
... .. ... ...
n-1 1482 n-2

TOTAL
3. Calcular el producto de segundo orden
Parejas de Producto
Zt
i promedio)
1 Valor 3 Valor 1
2 Valor 4 Valor 2
32/96
PES-SanPi
3 Valor 5 Valor 3
4
TOTAL

Leyenda: “El coeficiente de autocorrelación de segundo orden es … Esto quiere decir que
existe una relación lineal entre valores consecutivos de la serie”
4. Calcular el producto de tercer orden
Parejas de Producto
Zt
i promedio)
1 Valor 4 Valor 1
2 Valor 5 Valor 2
3 Valor 6 Valor 3
4
TOTAL

Leyenda: “El coeficiente de autocorrelación de tercer orden vale…”
5. Calcular el producto de cuarto orden
Parejas de valores Zt Producto

Zt-1
i (Zt-promedio)*(Zt-1-promedio)
1 Valor 5 Valor 1
2 Valor 6 Valor 2
3 Valor 7 Valor 3
4
TOTAL

Leyenda: “El coeficiente de autocorrelación de cuarto orden vale…”
6. Componer los resultado de autocorrelación en una relación de tipo funcional
Retardo Autocorrelación
1
2
3
4
33/96
PES-SanPi
7. Se grafica los resultados obtenidos de autocorrelación
0,4
2
0,2 4
Autocorrelación 0
-0,2
3
-0,4
1 Retardo
8. Interpretación: “La serie tiene un comportamiento… En el correlograma se observa…”
• Gráficos de series.
∑ (nvaloresmasrecientesdedatos)
• Gráficos de los promedios móviles. Promedio móvil =
n
Error de pronóstico
Valor de la Pronóstico con
(valor de la serie- Error de pronóstico al
Tiempo serie de promedios
pronóstico con cuadrado
tiempo móviles
promedios móviles)
TOTALES
Identificación y estimación de modelos

Para la interpretación de resultados de cada serie, se analiza si es estacionaria o no estacionaria. Y
se reflexiona sobre cuál puede ser el modelo adecuado para pronosticar en cada caso.
Construcción de modelos de pronóstico

• Este tipo de comportamiento puede ser representado mediante un modelo de regresión (con las
herramientas trabajadas en regresión y correlación).
• Modelo autorregresivo: para series que se mantienen estacionarias y presentan un componente
aleatorio fuerte. Se pronostica mediante una regresión simple del nuevo valor de la serie en
función del inmediato anterior.
X t = C + ∑ Φ i X t− i + ε t
n Xt Xt-1 (Xt-1)Xt (Xt-1)2
TOTAL
∑ (( X t − 1 ) X t ) − ∑ ( X t − 1 ) ∑ ( X t ) / n
Φ =
∑ (( X t − 1 ) 2 ) − (∑ X t − 1 ) 2 / n
C = X t − φ X t− 1
Modelo autorregresivo
n Xt Xt-1 (Xt-1)Xt (Xt-1)2 X t = C + φ X t − 1 Error Error2
34/96
PES-SanPi
X t − (C + φ X t − 1 )
TOTAL
MSE (error cuadrático medio)
• Promedios móviles: se promedia cada grupo sucesivo de puntos de datos.

• Promedios móviles ponderados: se calcula un promedio ponderado de los valores de datos en
el pasado. La suma de los factores de ponderación debe ser igual a 1.
• Modelo de suavizamiento exponencial: para series que se mantienen estacionarias y
presentan un componente aleatorio fuerte. Utilizan un promedio de los últimos valores
observados. Una buena señal es que la FAC presenta sólo uno o dos coeficientes de
correlación significativamente diferentes de cero. Hay que probar con distintos valores del
coeficiente alfa y adoptar el que hace mínima la suma de cuadrados de los errores.
Ft + 1 = α Yt + (1 − α ) Ft
Donde α es la constante de suavizamiento
1. F1=primer valor de Y
2. F2 = α Yt + (1 − α ) F1
3. F3 = α Y2 + (1 − α ) F2
4. F4 = α Y3 + (1 − α ) F3
5. …
Cálculo del error cuadrático medio en los pronósticos para predecir la demanda del servicio con
α=.1
Pronóstico con Error del Error del pronóstico al
Tiem Valor de la serie
suavizamiento pronóstico cuadrado
po de tiempo (Yt)
exponencial (Ft) (Yt - Ft) (Yt - Ft)2
TOTAL
α=.2
Pronóstico con Error del Error del pronóstico al
Tiem Valor de la serie
suavizamiento pronóstico cuadrado
po de tiempo (Yt)
TOTAL
α=.3
Tiem Valor de la serie Pronóstico con Error del Error del pronóstico al
po de tiempo (Yt) suavizamiento pronóstico cuadrado
TOTAL
35/96
PES-SanPi
Constante de suavizamiento MSE (error cuadrático medio)

Con α=.1
Con α=.2
Con α=.3
Se elije el que de menor valor de MSE
Interpretación: “Como vemos que para el conjunto de valores de datos con el que contamos, la
constante de suavizamiento α=… produce mayor precisión (valor de MSE)”.
• Proyección de tendencias: si la serie tiene una tendencia dominante. Presenta un aumento o

disminución consistentes a través del tiempo.
Ecuación de tendencia lineal Tt = b0 + b1t t= tiempo
Cálculo de la pendiente (b1) y la ordenada al origen (b0)
∑ tY (∑ t ∑ Y ) / n
b1 =
∑ t 2 − (∑ t ) 2 / n
b0 = Y − b1t
t Yt tYt t2
Pendiente: Ver valor de b1 (positivo, negativo o cero)
• Modelo multiplicativo: si presenta el efecto conjunto de tendencia y fluctuación estacional.

Representa ambos efectos por separado y pronostica por medio de un producto de los dos
componentes. Se multiplican los componentes de la serie de tiempo, entre sí, para identificar el
valor real de la serie de tiempo. Cuando se suponen presentes los cuatro componentes de
tendencia, cíclico, estacional e irregular, se obtiene Yt = Tt * C t * S t * I t . Cuando no se modela el
componente cíclico se obtiene Yt = Tt * S t * I t
En el caso de tener varios modelos, se adopta en que obtenga la menor suma (con la suma de
cuadrados de los errores, o el promedio de la suma de cuadrados).
Modelo Ajuste
MSE
MSE
MSE
Leyenda: “Considerando los modelos trabajados, el … presenta un menor error de ajuste (valor
de MSE)”
Error cuadrático medio: método con el que se mide la precisión de un modelo de pronóstico
∑ error 2
(calidad de ajuste): MSE =
n
36/96
PES-SanPi
FÓRMULAS CLAVES
frecuenciadelaclase
Frecuencia relativa
n
valormáxi mod edatos − valormíni mod edatos
Ancho aproximado de clase
cantidaddeclases
Media (con calculadora: ∑ xi ∑ xi
SHIFT-SAC-ingreso nº-x- Muestra x = ' Población µ = '
n N
ingreso nº-x-…x-SHIFT x )
Muestra ∑ ( xi − µ ) 2
∑ ( xi − x ) 2 Población σ 2
=
Varianza N
s2 =
n− 1
Muestra s = s 2 Población σ = σ 2
(con calculadora: (con calculadora: SHIFT-SAC-
Desviación estándar SHIFT-SAC-ingreso ingreso nº-x-ingreso nº-x-…x-
nº-x-ingreso nº-x-…x- SHIFT σ n )
SHIFT σ n − 1 )
n x− x 3
CA = ∑( )
(n − 1)(n − 2) s
negativo (izquierda= con concentración de datos a la
Coeficiente de asimetría derecha)
Cero
Positivo (derecha = con concentración de datos a la
izquierda)
x − x
Valor z zi = i
s
x + x2
Mediana (Me o ~
x) Impar = valor del medio Par = 1
2
Valor que más se repite
Moda (Mo)
2 valores= bimodal más de 2=multimodal
Función de probabilidad f ( x) = 1 / n
uniforme discreta n= cantidad de valores que puede asumir la variable
n
Función de probabilidad
f ( x) = ( ) p x (1 − p) ( n − x )
binomial x
Función de probabilidad de µ xe− µ

f ( x) = ! factorial (1x2x3x…x)
Poisson x!
Función hipergeométrica de
probabilidad
Conversión a la distribución x− µ
z=
normal estándar σ
Función de densidad normal 1 2 2
f ( x) = e − ( x− µ ) / 2σ
de probabilidad 2π σ
Función de densidad 1 − x/µ
f ( x) = e para x>=0, μ >0
exponencial de probabilidad µ
Distribución exponencial de P ( x ≤ x 0 ) = 1 − e − x0 / µ
probabilidades
37/96
PES-SanPi
Tamaño de muestra para un σ 2

estimado de intervalo de una n = ( z ε / 2 ε ) E=error
media de población (para n debe ser mayor
simulación)
Tamaño de muestra para un zα / 2 p (1 − p ) 2
estimado de intervalo de una n = ( )
E
proporción poblacional
E=error p =proporción n debe ser mayor
(para simulación)
Estadístico de prueba para (n − 1) s 2
χ2=
una varianza de población σ 2
σ conocida σ desconocida
Estadístico de prueba x− µ x− µ
z= con n>=30 z =
respecto a una media de σ / n s/ n
población x− µ
con n<30 t =
s/ n
Estadístico de prueba para ( f − ei ) 2
χ2= ∑ i chi-cuadrado
bondad de ajuste ei
Estadístico para pruebas p − p0 p 0 (1 − p 0 )
respecto a una proporción z = donde σ p =
σ p n
poblacional
Frecuencias esperadas para (totalrenglóni )(totalrenglónj )
ei =
tablas de contingencias bajo tamañodelamuestra
la hipótesis de
independencia
Estadístico para prueba de ( f ij − eij ) 2
χ = ∑ ∑
2
independencia i j eij
Modelo de regresión lineal y = β 0 + β 1x + ε
simple
Ecuación de regresión lineal ε ( y) = β 0 + β 1 x
simple con parámetros
Ecuación de regresión lineal yˆ = b0 + b1 x
simple con estadísticos
∑ xy − (∑ x ∑ y ) / n
b1 b1 =
∑ x 2 − (∑ x) 2 / n
b0 b0 = y − b1 x
Coeficiente de SSR
r2 =
determinación SST
Suma de cuadrados debida a SSR = ∑ ( yˆ − y ) 2
la regresión
Suma total de cuadrados SST = ∑ ( y − y ) 2
Suma de cuadrados debida SSE = ∑ ( y − yˆ ) 2
al error
Relación entre SST, SSR y
SST=SSR+SSE
SSE
Prueba F de FISHER (de la Hipótesis: Ho: β 1 = 0 Ha: β 1 ≠ 0
38/96
PES-SanPi
MSR
Estadístico de prueba: F =
MSE
significancia en la regresión MSR: SSR/1 MSE: SSE/n-2
lineal simple) Regla de rechazo: Rechazar Ho si F> Fα
Donde Fα se basa en una distribución F con 1 grado de
libertad en el numerador y n-2 grados de libertad en el
denominador.
b1
Estadístico de prueba: t =
sb1
Desviación estándar estimada de b1:
s
Prueba t de STUDENT (de sb1 =
la significancia en la ∑ x 2 − (∑ x) 2 / n
regresión) Error estándar del estimado:
SSE
s = MSE =
n− 2
Regla de rechazo: Rechazar Ho si t<-tα/2 o t>tα/2
Donde tα/2 se basa en una distribución t con n-2 grados
de libertad.
mín ∑ ( y i − yˆ i ) 2 Siendo
Criterio de los cuadrados
mínimos y= valor observado de la variable dependiente
ŷ = valor estimado de la variable dependiente
rxy = ( signob1 ) r 2 siendo
Coeficiente de correlación
de la muestra r 2 coeficiente de determinación
b1 la pendiente de la ecuación de regresión yˆ = b0 + b1 x
mín ∑ e 2 = ( y i − bx) 2
Cálculo de ecuación de
d ∑ ( y − bx) 2
regresión sin utilizar una = − 2 ∑ ( y − bx) x
ordenada al origen usando el db
criterio de los cuadrados ∑ yx
− 2 ∑ ( yx − bx) 2 = 0 despejando b se tiene b =
mínimos ∑ x2
A partir de esta fórmula se puede calcular b
∑ producto
Autocovarianza
i
auto cov arianza / σ
Autocorrelación
σ
∑ (nvaloresmasrecientesdedatos)
Promedios móviles Promedio móvil=
n
Modelo de suavizamiento Ft + 1 = α Yt + (1 − α ) Ft
exponencial
Error cuadrático medio ∑ error 2
MSE =
(calidad de ajuste) n
Ecuación de tendencia lineal Tt = b0 + b1t
(proyección de tendencias)
39/96
PES-SanPi
Modelo Autorregresivo X t = C + ∑ Φ i X t− i + ε t
α σ α σ
Para la media ICµ ;...% = x − ( z − ) ; x + (z − )
2 n 2 n
donde (z-α/2) se toma de tabla de valor de z.
(n − 1) s 2 (n − 1) s 2
Para la varianza ICσ ,...% = 2
2
Intervalo de confianza ;
x ( n − 1)α / 2 x(2n − 1)1− α / 2
(n − 1) s 2 (n − 1) s 2
Para el desvío ICσ ,...% = ; 2
x (2n − 1)α / 2 x ( n − 1)1− α / 2
Tamaño de la muestra para ( zα + z β ) 2 σ 2
manejar la probabilidad de n=
(µ 0 − µ a ) 2
cometer error tipo I y II
Fórmula para generar
variable aleatoria
UNIFORME b > a a y b intervalo
Por MonteCarlo
Fórmula para generar
variable aleatoria
EXPONENCIAL
No MonteCarlo
Si Teorema del Límite
Fórmula para generar Central
variable aleatoria
NORMAL
40/96
PES-SanPi
Actividades
m1 | actividad 1
Con la intención de definir cómo varían las visitas y su relación con las características de los
clientes, hemos decidido extraer una muestra de la base de datos y estudiar en particular, las
siguientes variables:
Cantidad de visitas por día: es frecuente que nuestros socios ingresen más de una vez en una
misma jornada; por ese motivo debemos contar en esta variable la cantidad de veces que un mismo
cliente ingresa durante un día.
Cantidad de visitas por cliente y por día
0 3 1 0 0 0
1 1 1 3 0 3
2 0 1 1 0 0
4 2 2 4 0 0
5 2 3 2 1 2
0 1 1 4 2 1
1 1 2 5 0 1
3 2 1 5 3 1
0 2 2 2 2 1
3 2 2 2 0 2
0 1 2 0 2 4
0 2 1 0 2 2
2 1 0 2 2 1
1 0 0 2 1 3
1 1 2 1 0 1
Duración de la visita: este tiempo se mide en minutos y es determinante para la facturación.

Duraciones de las Visitas Expresada en minutos
43,63 48,95 34,52 25,63 30,99 39,83 24,46
26,53 38,16 37,47 26,68 35,75 44,95 43,62
31,45 34,52 47,1 50,37 35,75 38,72 27,07
20,9 47,97 41,49 32,32 28,76 34,36 46,47
28,44 44,22 47,18 28,74 42,68 44,42 26,39
29,3 29,5 44,76 33,91 22,01 36,43 32,82
36,39 13,63 42,08 30,83 44,22 34,76 30,82
44,5 35,82 32,11 25,22 53,02 26,92 47,49
44,22 48,06 14,14 26,46 24,51 28,22 50,57
33,84 40,82 48,17 43,5 49,1 36,62 28,65
43,23 24,93 21,53 34,61 38,39 22,26
48,51 37,12 31,61 34,73 41,63 36,51
25,79 32,84 40,83 35,75 58,82 38,46
37,1 37,01 29,75 42,11 23,58 35,85
25,19 20,65 40,53 38,52 27,93 37,86
La tarea que debemos realizar en la presente actividad es precisamente el tratamiento y análisis de

esos datos, siguiendo las consignas que se presentan a continuación:
1) Realicemos el estudio descriptivo de la variable discreta: Cantidad de Visitas por Cliente y por
Día. Luego del referido estudio, reflexionemos sobre las siguientes cuestiones:
41/96
PES-SanPi
• Para representar el comportamiento de la población de esta variable, ¿qué modelo de

probabilidad puede ser adecuado: binomial o Poisson? Justifiquemos la respuesta.
• ¿Cómo podríamos estimar el o los parámetros del modelo elegido?
• ¿Cuánto puede ser la probabilidad de que un cierto cliente realice dos o más visitas en un solo
día?
Resolución
Cantidad de visita por cliente. (valores discretos)
4. agrupamos los valores y frecuencias.
5. Calculamos la mediana Med = 1 (50% de valores por arriba y 50% de valores por abajo)
6. Calculamos la media
∑ (xi*f) /n => ((0*22)+(1*26)+(2*27)+(3*8)+(4*4)+(5*3))/90 => 135/90 => 1,5
7. Calculamos frecuencias, frecuencias acumuladas, frecuencias relativas (p), frecuencias
relativas acumulas.
8. Calculamos la varianza
S²X = ∑(Xi - Xm)² * fi
n-1
S²X = ((0-1,5)2*22) + ((1-1,5) 2*26)+ ((2-1,5) 2*27) + ((3-1,5) 2*8)+ ((4-1,5) 2*4) + ((5-1,5) 2*3)
90-1
9. Calculamos el desvío estandar σ = (S2x) ½
Valor Media Frecuencia f/n
Xi Xm f FrecAcum FrecRel (p) FrecRelAcum Xi-Xm (Xi-Xm)2 (Xi-Xm)2 *f
0 1,5 22 22 0,24 0,24 -1,5 2,25 49,50
1 1,5 26 48 0,29 0,53 -0,5 0,25 6,50
2 1,5 27 75 0,30 0,83 0,5 0,25 6,75
3 1,5 8 83 0,09 0,92 1,5 2,25 18,00
4 1,5 4 87 0,04 0,97 2,5 6,25 25,00
5 1,5 3 90 0,03 1,00 3,5 12,25 36,75
∑ 142,50
S ²X 1,60
s 1,26
Elección de un modelo adecuado para representar la población

A) Hipótesis sobre el modelo:
4. Por la definición de la variable:
4. La probabilidad de una ocurrencia es igual en dos intervalos cualesquiera de igual longitud
5. La ocurrencia o no ocurrencia en cualquier intervalo es independiente de la ocurrencia o no
42/96
PES-SanPi
ocurrencia en cualquier otro intervalo

6. No existe límite superior
5. Por la representación gráfica:
• Forma “acampanada” con cierta asimetría a la derecha.
6. Por las medidas descriptivas:
Media 1,5
Varianza de la muestra 1,601123596
Desviación estándar 1,265355126
Coeficiente de asimetría 0,816761083
B) Se observa que la media es similar a la varianza. Que el coeficiente de asimetría sea positivo,
indica asimetría a la derecha, ‘n grande’ (n>30) característica propia del modelo de Poisson.
podemos pensar que puede seguir un modelo de Poisson
µx e-µ = P(x)
x!
C) Probabilidad que un cliente realice 2 o mas visitas en el día
P(0) + P(1) por tabla 0,2231 + 0,3347 = 0,5578
1-0,5578 = 0,4422
Existe una probabilidad del 44% que se realicen 2 o mas visita por día.
2) Realicemos la descripción de la variable continua: Duración de la Visita.
Duraciones de las Visitas Expresada en minutos
43,63 48,95 34,52 25,63 30,99 39,83 24,46
26,53 38,16 37,47 26,68 35,75 44,95 43,62
31,45 34,52 47,1 50,37 35,75 38,72 27,07
20,9 47,97 41,49 32,32 28,76 34,36 46,47
28,44 44,22 47,18 28,74 42,68 44,42 26,39
29,3 29,5 44,76 33,91 22,01 36,43 32,82
36,39 13,63 42,08 30,83 44,22 34,76 30,82
44,5 35,82 32,11 25,22 53,02 26,92 47,49
44,22 48,06 14,14 26,46 24,51 28,22 50,57
33,84 40,82 48,17 43,5 49,1 36,62 28,65
43,23 24,93 21,53 34,61 38,39 22,26
48,51 37,12 31,61 34,73 41,63 36,51
25,79 32,84 40,83 35,75 58,82 38,46
37,1 37,01 29,75 42,11 23,58 35,85
25,19 20,65 40,53 38,52 27,93 37,86
Agrupamos y calculamos frecuencias, frecuencias acumuladas, frecuencias relativas (p), frecuencias
relativas acumulas.
Frec FrecAc FrecRel FrecRelAc Xi Xm Xi-Xm (Xi-Xm)2 (Xi-Xm)2*n
10-20 2 2 0,02 0,02 15 35,68 -20,68 427,66 855,32
20-30 28 30 0,28 0,30 25 35,68 -10,68 114,06 3193,75
30-40 37 67 0,37 0,67 35 35,68 -0,68 0,46 17,11
40-50 29 96 0,29 0,96 45 35,68 9,32 86,86 2519,01
50-60 4 100 0,04 1,00 55 35,68 19,32 373,26 1493,05
∑ 8078,24
Medidas de posición:
Calculamos la mediana Med = 1 (50% de valores por arriba y 50% de valores por abajo)  35,75
Moda 35,75
Calculamos la media
N=100
43/96
PES-SanPi
∑ xi = 3567,54
Xm=3567,54/100  35,68
Como es de esperarse ocurre que Xm≈ Me ≈ Mo
Calculamos la varianza
S²X = ∑(Xi - Xm)² * ni
N-1
S²X = (8078,24)  81,60
100 -1
Calculamos el desvío estandar σ = (S2x) ½  9,03
Calculamos frecuencias, frecuencias acumuladas, frecuencias relativas (p), frecuencias relativas
acumulas.
Medidas de forma:
Coeficiente de asimetría = Ca=3(Xm - Mo ) ≈ 0
s
Coeficiente de asimetría -0,029405778
En la práctica – 0,5 ≤ Ca≤ 0,5 se considera próximo a 0.
Coeficiente de Curtosis =
Medidas de dispersión:
En general aquí se verifica que el desvío estándar “s” es mucho menor que la media Xm, por lo
tanto debe ser
En la práctica 0 ≤ Cv ≤ 0,3 se considera suficientemente próximo a 0.
Luego del referido estudio, reflexionemos sobre cuál puede ser el modelo de probabilidad adecuado
para representar a esta variable: ¿exponencial o normal?
Justifiquemos la respuesta relacionando las propiedades de la muestra con las del modelo elegido.
Recordemos las propiedades de cada modelo. La distribución normal, por ejemplo, tiene media,
mediana y moda idénticas; el desvío es mucho menor a la media; el coeficiente de asimetría es cero.
El histograma semeja una campana, la ojiva una curva S
En cambio, la exponencial tiene media mayor que la mediana y a su vez esta es mayor que la moda;
el desvío es igual a la media y el coeficiente de asimetría es dos. En la muestra, no es razonable
pensar que los resultados van a coincidir perfectamente con estos valores, por lo tanto debemos
buscar a qué se aproximan más los estadísticos muestrales.
Por lo tanto el modelo de probabilidad adecuado a la muestra en la normal.
Columna1
Media 35,6754
Error típico 0,891778729
Mediana 35,785
Moda 35,75
44/96
PES-SanPi

Curtosis -0,37752373
Coeficiente de asimetría -0,029405778
Rango 45,19
Mínimo 13,63
Máximo 58,82
Suma 3567,54
Cuenta 100
Mayor (1) 58,82
Menor(1) 13,63
Nivel de confianza (95,0%) 1,769482425
3) Retomando el estudio de la variable: Duración de la Visita, ¿cómo podríamos aproximar el o los

parámetros del modelo elegido? Además, reflexionemos sobre el estimador utilizado para aproximar
la media μ de esta población. Recordemos cómo se distribuye ese estimador y analicemos si es
insesgado, consistente, eficiente o suficiente.
Los estimadores son variables aleatorias y por tanto poseen distribuciones probabilísticas,
denominadas distribuciones de muestreo. Es útil determinar las propiedades de esas distribuciones
ya que a partir de las mismas es posible evaluar errores de estimación.
La distribución normal queda definida por dos parámetros, su media y su desviación típica y la
representamos así N(µ,σ)
4) Supongamos que una población se comporta conforme a una población normal con media μ =
100 y desvío σ = 8. Si realizamos una sola medición de dicha población, determinemos dos posibles
valores de la misma, simétricos respecto a la media, que encierren entre sí una probabilidad de 0,95.
Nivel de 99,73 99 98 96 95,45 95 90 80 68,27 50
confianza
3,00 2,58 2,33 2,05 2,00 1,96 1,645 1,28 1,00 0,6745
Si el estadistico S es la media de la muestra, entonces los límites de confianza de 95% para

estimar la media μ de la poblacion viene dado por ± 1,96 σ
O sea que el área va a estar entre
100 ± 1,96 (8)  100 ± 15,68
100 + 15,68 = 115,68
100 -15,68 = 84,32
O sea, que el intervalo de confianza será → z > 84,32 y z < 115,68

Ahora bien, supongamos que se observan dieciséis valores de esa población y que calculamos el
promedio de los mismos. Determinemos ahora dos valores simétricos de promedios, que encierren
entre sí un 0,95 de probabilidad.
N= 16
=?
= μ =100 y σ = σ = 8 / 4 => 2
√N
100 + 1,96*2  103,92

100 – 3,92  96,08
Para los dieciséis valores el intervalo queda entre 96,08 y 103,92
45/96
PES-SanPi
Grafiquemos en una escala adecuada las dos distribuciones de probabilidad, la de los valores individuales y la de los
promedios.
¿Dónde se advierte mayor variación: en los valores individuales o en los promedios?
N(µ,σ) => N(100,8)
5) Revisemos en nuestro texto de Estadística las distribuciones chi-cuadrado y t de Student.
¿Para qué sirven? ¿Cómo se utilizan? Construyamos en forma aproximada las gráficas de una chi-
cuadrado con diez grados de libertad y de una t de Student con ocho grados de libertad.
Distribución chi-cuadrado: Distribución diseñada para realizar estimaciones y pruebas, cuando los
estimadores se obtienen como sumas de cuadrados. Por ejemplo, se utiliza en la prueba sobre la
varianza.
Gráfica con 10 grados de libertad
Esta distribución de probabilidad, no es simétrica respecto el valor 0, sino que es asimétrica

positiva, es decir, solo toma valores positivos; depende de los grados de libertad. Se denota como
χ2 con n grados de libertad. Esta distribución se hace más simétrica al aumentar los grados de
libertad.
Distribución t de Student: Distribución diseñada para realizar estimaciones y pruebas sobre
parámetros de posición, cuando no se conoce el verdadero desvío poblacional del estimador
utilizado. Por ejemplo, se utiliza en la prueba sobre la media con sigma desconocido.
Características de la distribución t de Student
• Es continua, tiene forma de campana y es simétrica respecto al cero como la distribución z.
• Existe una familia de distribuciones t que comparten una media de cero pero con desviaciones
estándar diferentes.
• La distribución t está más dispersa y es más plana en el centro que la distribución z, pero se
acerca a ella cuando el tamaño de la muestra crece.
Gráfica con 10 grados de libertad
46/96
PES-SanPi
6) Retomando el análisis de las visitas a nuestro producto: “Aplicando Herramientas de Estadística

en Sistemas de Información”, sucede que para el conjunto de sitios que ofrecemos la variable
Duración de la Visita tiene distribución normal con media cuarenta minutos y desvío siete minutos.
Sin embargo, los resultados de nuestra muestra hacen pensar en mayor variabilidad y una media
inferior.
= 45 s= 7 N= 16
¿Serán correctas estas presunciones? Investiguemos esta posibilidad desarrollando intervalos con
90% de confianza para la varianza y para la media. ¿Qué conclusiones extraemos de este análisis?
Distribución de la media con t de student
La muestra de 16 elementos tiene una media de 45 y la desviación es 7. Entonces los coeficientes de
confianza 90% (con dos colas) pedidos son ± t.95(s/√n-1) →
n-1 = 16 – 1 = 15, encontramos t.95 = 1,75 po tabla
45±1,75(7/√16 – 1) → 45±1,75(7/3,87) → 45 ± 1,80
media 43,20 a 46,80
Distribución de la varianza con chi cuadrado
La distribución no es simétrica, sin embargo tomamos ambas colas iguales; en este caso cada área
será de 0,05
χ2n-1 = (N-1)s2 15(49) = 11,48
2
σ 64
Si el área a la derecha es 0,05; el área a la izquierda de χ22 es 1- 0,05= 0,95 con 15 grados de
libertad es 25.
Si el área sombreada de la izquierda es 0,05; el área a la izquierda de χ12 es 0,05 que con 15 grados
de libertad es (por tabla) 7,26.
Por lo tanto los valores críticos son 7,26 a la izquierda y 25 a la derecha.
m1 | actividad 2
La variable Duración de la Visita tiene distribución normal con media cuarenta minutos y desvío
siete minutos. Sin embargo los resultados de nuestra muestra hacen pensar en mayor variabilidad y
una media inferior. ¿Estaremos en realidad en presencia de una performance diferente o habremos
obtenido esos valores por casualidad? Para analizar esta cuestión, desarrollemos pruebas de
hipótesis sobre la varianza y la media, que permitan verificar si estas suposiciones son correctas
Lo primero que debe hacerse al hacer una prueba de hipótesis, es precisamente definir la hipótesis
de nula, y la hipótesis alternativa, para determinar si estamos ante un estudio "de una cola", o "de
dos colas". Esto es fundamental porque el grado de significación es distinto en ambos casos, y su
determinación depende del problema.
Datos
µ=45 σ=7
muestra de 100 elementos
n=100
Xm=35,68
s2=79,53
Prueba de hipótesis sobre la varianza de una cola
La varianza aumentó? Usamos la prueba de chi-cuadrado para analizar el supuesto
χ2
1. Planteo de Hipótesis
47/96
PES-SanPi
Ho: s2 < 49.

Ha: s2 > 49.
2. Gráfica:
3. Valores críticos (por tabla)

Los grados de libertad son 100-1 = 99 (tomamos 100 por aproximación)
aproximadamente el valor crítico para un α = 0,05 es Vc = 124,3
4. Regla de decisión:
Rechazar Ho si : χ2≥Vc o sea → χ2 ≥ 124,3
Aceptar Ho si: Vcs ≥ χ2
5. Prueba de hipótesis nula:
χ2 (100-1)(79,53) = (99)(79,53)/49 → 160,66

49
6.Toma de decisión
No acepto Ho
Prueba de hipótesis sobre la media de una cola
Cuando se van a realizar pruebas de hipótesis relativas a la media poblacional µ se debe saber si la
varianza poblacional σ es conocida o desconocida, ya que la distribución al estadístico de prueba
será la normal estándar si la varianza es conocida, y la distribución t para pequeñas muestras.
Prueba de hipótesis acerca de una media de población para una prueba unilateral de cola superior
Con σ es conocida
x− µ
Zx = ≈ N ( 0;1)
σ
n
Para x con σ 2
desconocida
x−µ
Zx = ≈ N ( 0;1)
s
n
Utilizo el desvío muestral s= 8,92 y tomo σ como desconocido
48/96
PES-SanPi
1. Planteo de hipótesis
La media es menor?
Ηo: µ < 45
Ηa: µ > 45
Suponemos un estadístico S es una distribución normal con media µs y desviación σs desconocido.
Tomamos contraste de una cola o unilateral con un nivel de significancia del 95%
Regla de rechazo a un nivel de significancia α
Rechazar Ho si z > zα
Zona de aceptación → P [Z < 1.645] = 0.95
muestra de 100 elementos
n=100
Xm=35,68
s=8,92
Podemos tener el 95% de confianza de que si la hipótesis Ho es verdadera, entonces el valor Z para
un estadístico muestral S, de una cola será menor a 1,645
Por lo tanto la zona de rechazo es Z > 1,645
Por lo tanto aceptamos la hipótesis nula y no aceptamos la hipótesis alternativa, si el valor Z

calculado queda en la región menor a 1,645.
Zxm=(Xm-µ)/(s/√100) → (35,68 – 45)/(8,92/10) → -9,32/0,892 → Zx = -10,44
Como el valor hallado cae en la región de aceptación no rechazamos la Ho o sea que la media
disminuyó.
m1 | actividad 3
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho
o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de
hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Investigador
Hipótesis nula Se acepta Ho Se rechaza Ho
49/96
PES-SanPi
Ho es verdadera Decisión correcta (*) Error tipo I (〈)

Ho es falsa Error tipo II (β) Decisión correcta
(*) Decisión correcta que se busca
〈 = p(rechazar H0|H0 verdadera)
= p(aceptar H0|H0 falsa)
Error tipo I
rechazar Ho : µ = 45 cuando es cierta
Error tipo II
aceptar Ηa: µ ¹ 45 cuando es falsa
m1 | actividad 4
Características de cada distribución
Tipo de variable
Cualitativas
Cuantitativa Discretas Distribuciones discreta de la probabilidad
• Binomial: dos posibilidades (éxito – fracaso). Es la que
maneja la distribución de la probabilidad de obtener cierta
cantidad de éxitos al realizar una cantidad de experimentos
con probabilidad de éxito constante y con ensayos
independientes.
• de Poisson: probabilidad de ocurrencia en un intervalo
especificado de tiempo o espacio.
◦ media es similar a la varianza.
◦ Que el coeficiente de asimetría sea positivo, indica
asimetría a la derecha,
◦ ‘n grande’ (n>30)
• podemos pensar que puede seguir un modelo de Poisson
• Hipergeométrica: como la binomial pero los intentos no son
independientes y con un tamaño de muestra grande en
relación al tamaño de la población.
Continuas Distribuciones continuas de la probabilidad
• Uniforme: Es la distribución donde todos los
eventos elementales tienen la misma probabilidad.
• Normal: su función de densidad tiene
forma de campana y se determina con la
media y la desviación estándar.
media, mediana y moda cercanas
 desvío mucho < a media
 coeficiente de asimetría cercano a cero

 histograma con forma acampanada
 ojiva curva con forma de S
50/96
PES-SanPi
• Exponencial: probabilidad de ocurrencias de un evento en el

tiempo o espacio.
 Media > mediana
 Mediana > moda
 Desvío = media
 Coeficiente de asimetría 2
Pruebas de hipótesis que permiten verificar la elección del modelo.

Sabemos que el problema general de la estadística es aproximar las propiedades de una población
desconocida, cuando se cuenta exclusivamente con los pocos datos de una muestra. Una de las
propiedades a investigar es la distribución de probabilidad, para cuya representación usamos los
modelos de probabilidades.
Por ejemplo, si deseamos estudiar cómo se distribuyen las duraciones de las visitas a nuestro sitio
web, deberemos elegir algún modelo como la normal o la exponencial.
El problema después de la elección es verificar si ésta ha sido correcta. En efecto, si para las
duraciones adoptamos una normal, deberemos verificar que la muestra presente características
compatibles con las esperables en datos extraídos de esta distribución.
A fin de realizar estas verificaciones, los investigadores han desarrollado dos pruebas de hipótesis,
la de Kolmogorov y la chi-cuadrado de Pearson.
Retomemos el estudio de la variable: Cantidad de Visitas por Día y por Cliente al sitio: “Aplicando
Herramientas de Estadística en Sistemas de Información”. Para esta variable debemos seleccionar
un modelo apropiado y verificar el ajuste con la prueba chi-cuadrado de Pearson.
Además, para la variable: Duración de las Visitas seleccionemos un modelo apropiado y
verifiquemos el ajuste con ambas pruebas, la chi-cuadrado y la de Kolmogorov.
Cantidad de Visitas por Día y por Cliente

Verificar el ajuste con la prueba chi-cuadrado de Pearson.(pág 465). El test de chi-cuadrado puede
utilizarse para determinar la calidad del ajuste de una distribución. Si χ2 = 0, las frecuencias
observadas y las esperadas coinciden completamente, mientras que si χ2 > 0, no coinciden
exactamente. A valores mas grandes de χ2, mayor discrepancia entre las frecuencias observadas y
esperadas.
Los grados de libertad ν, viene dado por
1. ν =k – 1 si las frecuencias esperadas se pueden calcular sin tener que estimar los parámetros
de la población a partir de estadísticos muestrales.
2. ν = k – 1 – p si las frecuencias esperadas se pueden calcular sólo estimando p parámetros de
la población a partir de estadísticos de la muestra.
Las frecuencia esperadas se calculan sobre la base de Ho. Si bajo tal hipótesis el valor calculado
para χ2 es mayor que algún valor crítico (como χ0,952 o χ0,992, que son valores críticos de los niveles
de significación 0,05 y 0,01 respectivamente), debemos concluir que las frecuencias observadas
difieren significativamente de las frecuencias esperadas y rechazamos Ho al correspondiente nivel
de significación; en caso contrario no la rechazamos.
Cuando el valor de χ2 está próximo a cero las frecuencias observadas y esperadas casi coinciden; si
el valor de χ2 es menor que χ0,052 o χ0,012 podemos decir que no rechazamos la Ho al nivel de
significación 0,05 y 0,01, respectivamente.
7. Por las medidas descriptivas:
Media 1,5
51/96
PES-SanPi

Coef. de asimetría 0,816761083
Cantidad de elementos 90
Hipótesis: la cantidad de visita por cliente por día

tiene una distribución de Poisson de probabilidades
µx e-µ = P(x)
x!
2 2
χ = (n-1)s
s2
Cantidad de visitas por Frecuencia
cliente por día observada Xi*f
0 22 0(22)=0
1 26 1(26)=26
2 27 2(27)=54
3 8 3(8)=24
4 4 4(4)=16
5 3 5(3)=15
Total 90 ∑Xi*f=135
La media de la muestra suministra el estimado µ
[0(22)+1(26)+2(27)+3(8)+4(4)+5(3)]/90=135/90 → µ = 1,5
µx e-µ = f(x) → por tabla con µ = 1,5
x!
f(0) =0,2231
f(1) =0,3347
f(2) =0,2510
f(3) =0,1255
f(4) =0,0471
f(5) =0,0141
Con estos valores encontramos la frecuencia esperada multiplicando las probabilidades por el
tamaño de la muestra
Cantidad de visitas por Frecuencia Probabilidad de Cantidad
cliente por día observada Poisson f(xi)*n esperada
0 22 f(0) =0,2231 0,2231(90) 20,0790
1 26 f(1) =0,3347 0,3347(90) 30,1230
2 27 f(2) =0,2510 0,2510(90) 22,5900
3 8 f(3) =0,1255 0,1255(90) 11,2950
4 4 f(4) =0,0471 0,0471(90) 4,2390
5 3 f(5) =0,0141 0,0141(90) 1,2690
Total 90
52/96
PES-SanPi
El estadístico de prueba tiene distribución ji cuadrado con k-1 grados de libertad, siempre que las
frecuencias esperadas sean 5 o más para todas las categorías. (pag452); entonces combinamos las
dos últimas (4 y 5) para cumplir con el requisito y nos queda:
Cantidad de Diferencia al cuadrado
visitas por Frecuencia Frecuencia Diferencia al dividida entre la
cliente por día observada esperada Diferencia cuadrado frecuencia esperada
x fo fe fo-fe (fo-fe)2 (fo-fe)2/fe
0 22 20,0790 1,9210 3,6902 0,1838
1 26 30,1230 -4,1230 16,9991 0,5643
2 27 22,5900 4,4100 19,4481 0,8609
3 8 11,2950 -3,2950 10,8570 0,9612
4o+ 7 5,5080 1,4920 2,2261 0,4042
Total 90 90 2,9744
2
El valor del estadístico χ es 2,9744
La distribución chi-cuadrado tiene k–1–p grados de libertad, siendo k la cantidad de categorías
(intervalos), para nosotros 6 y; p la cantidad de parámetros poblacionales estimados (para nosotros
1). ==> entonces los grados de libertad son 4.
De la tabla obtenemos que χ0,052 con cuatro grados de libertad es 9,49.
Como en las pruebas rechazamos la hipótesis nula sólo si el valor calculado de χ2 es mayor que el
valor de χ0,052; llegamos a la conclusión que no se puede rechazar la hipótesis de una distribución de
Poisson, ya que χ0,052 > χ2 .
Duración de las Visitas

seleccionamos un modelo normal para representarla.
La verificamos con ambas pruebas, la chi-cuadrado y la de Kolmogorov.
Chi-cuadrado
Por los cálculos previos tenemos los siguientes datos:
Media 35,6754
Nivel de confianza (95,0%) 1,769482425
Con estos valores planteamos las siguientes hipótesis:
Ho: La distribución de la duración de las visitas tiene una distribución normal con media 35,68 y
desviación estándar 8,92
Ha: no sigue esa distribución.
53/96
PES-SanPi
La figura muestra la distribución normal supuesta.

Necesitamos definir las categorías en términos de intervalos de Duración de la visita; recordando la
regla de una frecuencia esperada mínima de 5 en cada intervalo o categoría. Tenemos que definir las
categorías de tal forma que las frecuencias esperadas sean, cuando menos 5 para cada categoría.
Con el tamaño muestral de 100 dividiremos la distribución normal supuesta en intervalos del 10%
de probabilidad, entonces esperamos 10 observaciones en cada uno.
Como se supone la distribución normal de probabilidades, empleamos las tablas de distribución
normal estándar para determinar esos límites. (ver pag 227 de Anderson); buscamos el z cuyo
valor corresponda al 0,10 (10%). Como sabemos que 0,5 del área está abajo de la media, 0,50-
0,10=0,40 debe ser el área bajo la curva entre el valor deseado de z y la media. Por la tabla y como
es la cola inferior, ese valor es -1,28. El de la superior es 1,28
z = x-µ → x= Xm − z(s)
s
Para que cada intervalo tenga una probabilidad del 0,10 queda:
10% inferior: 35,68-1,28(8,92)=24,26
20% inferior: 35,68-0,84(8,92)=28,19
30% inferior: 35,68-0,52(8,92)=31,04
40% inferior: 35,68-0,25(8,92)=33,45
Duración media: 35,68+0(8,92)=35,68
40% superior: 35,68+0,25(8,92)=37,91
30% superior:35,68+ 0,52(8,92)=40,32
20% superior:35,68+ 0,84(8,92)=43,17
10% superior:35,68+ 1,28(8,92)=47,10
Definidos los intervalos y con la frecuencia esperada conocida de 10 por categoría; determinamos
las frecuencias observada regresando a los datos de la muestra de 100 elementos. Con lo que
obtenemos la siguiente tabla:
Intervalo Duración de la visita Frecuencia observada en la muestra Frecuencia esperada
<24,26 8 10
24,26 a 28,19 14 10
28,19 a 31,04 11 10
54/96
PES-SanPi
31,04 a 33,45 6 10
33,45 a 35,68 8 10
35,68 a 37,91 14 10
37,91 a 40,32 6 10
40,32 a 43,17 8 10
43,17 a 47,10 12 10
47,10 y más 13 10
total 100 100
Con estos resultados, realizamos los cálculos de la bondad de ajuste chi-cuadrado, comparando los
resultados observados con los esperados.
Intervalo fo fe fo-fe (fo-fe)2 (fo-fe)2/fe
<24,26 8 10 -2 4 0,4
24,26 a 28,19 14 10 4 16 1,6
28,19 a 31,04 11 10 1 1 0,1
31,04 a 33,45 6 10 -4 16 1,6
33,45 a 35,68 8 10 -2 4 0,4
35,68 a 37,91 14 10 4 16 1,6
37,91 a 40,32 6 10 -4 16 1,6
40,32 a 43,17 8 10 -2 4 0,4
43,17 a 47,10 12 10 2 4 0,4
47,10> 13 10 3 9 0,9
total 100 100 9
El valor del estadístico de prueba χ2 es 9.

Para determinar si el valor χ2 calculado de 9 es suficientemente grande como para rechazar Ho,
necesitamos consultar las tablas de chi-cuadrado de probabilidades. Con la regla para calcular la
cantidad de grados de libertad para la prueba de bondad de ajuste, en este caso k-p-1=10-2-1=7
grados de libertad, con k= 10 categorías y p=2 parámetros (promedio y desviación estándar)
estimados a partir de los datos de la muestra.
De la tabla obtenemos que, con un nivel de significancia de α =0,05, con siete grados de libertad,
χ0,052 es 14,07.
Como en las pruebas rechazamos la hipótesis nula sólo si el valor calculado de χ2 es mayor que el
valor de χ0,052; llegamos a la conclusión que no se puede rechazar la hipótesis de una distribución de
normal, ya que χ0,052 > χ2 .
Kolmogorov
Cuando el n >50 siempre utiliza chi-cuadrado
cuando son pocos valores utiliza < K-S en serie simples como en el ejemplo.
La prueba de Kolmogorov-Smirnov para una muestra se considera un procedimiento de "bondad de
ajuste", es decir, permite medir el grado de concordancia existente entre la distribución de un
55/96
PES-SanPi
conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen
de una población que tiene la distribución teórica especificada.
Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas o esperadas
(fe) con la distribución acumulada de las frecuencias observadas (fo), se encuentra el punto de
divergencia máxima y se determina qué probabilidad existe de que una diferencia de esa magnitud
se deba al azar.
Pasos:
1. Calcular las frecuencias esperadas de la distribución teórica específica por considerar para
determinado número de clases.
2. Se ordenan los datos xi de menor a mayor y se asigna a cada uno un número de orden i. En
general se trabaja con series simples y si el dato tiene frecuencia absoluta mayor que 1, el
mismo se repite tantas veces como lo indique su frecuencia absoluta, luego se asignan
distintos ordenes seguidos. Como se trata de una variable continua, aunque aparezcan datos
iguales estos se consideran como distintos, ya que en el conjunto de números reales es
imposible que la variable tome un valor más de una vez.
3. Se calculan las frecuencias relativas observadas acumuladas.
FrecObser_i = i → Froi
n+1
donde n es el tamaño de la muestra. Este cociente representa una frecuencia experimental, da una
idea de la ubicación de xi dentro de la muestra.
4. Se calcula para cada xi las frecuencias acumuladas teóricas o esperadas según el modelo
formulado Frei = P(X < xi ) (a falta de otra información se puede utilizar la muestra para
estimar los parámetros de este modelo)
5. Se calcula para cada xi la diferencia Di en valor absoluto, es decir Di = |Froi - Frei| y se
identifica la diferencia máxima Dmax, que se utiliza como estadístico de prueba.
6. Se obtiene de una tabla el punto crítico Dc, que depende de n (tamaño de la muestra) y de α,
nivel de significancia estipulado para la prueba.
Es una prueba unilateral derecha. Se compara Dmax con Dc, por tanto el criterio de rechazo es:
Dmax > Dc.
Nota: Los puntos críticos para prueba de Kolmogorov-Smirnov, que se utilizan frecuentemente son
los siguientes:
α = 0,10 → Dc =1,22
√n
α = 0,05 → Dc = 1,36
√n
α = 0,01 → Dc =1,63
√n
Zα = X - µ →
σ
Xi Froi Zα = X - µ Frei=P(X<xi) Di=|froi – frei|

ordenados i N+1 σ
i
(n+1) buscar en la valor de la
tabla tabla
13,63 1 101 0,01 -2,47 0,01 0,0031
14,14 2 101 0,02 -2,41 0,01 0,0118
20,65 3 101 0,03 -1,68 0,05 0,0167
56/96
PES-SanPi
....
49,10 96 101 0,95 1,50 0,9332 0,0173
50,37 97 101 0,96 1,65 0,9505 0,0099
50,57 98 101 0,97 1,67 0,9525 0,0178
53,02 99 101 0,98 1,94 0,9738 0,0064
58,82 100 101 0,99 2,59 0,9952 0,0051
Dc =1,63 → Dc = 1,63/ √100 → 0,163

√n
Se compara Dmax con Dc, por tanto el criterio de rechazo es: Dmax > Dc.
Como el valor crítico Dc es mayor que la diferencia máxima no se rechaza la hipótesis.
Comentario de la profesora: Usar K-S solo para n<12 (como en el ejemplo) y en series simples
(no hacer intervalos)
m1 | actividad 5
Pruebas para atributos

En el análisis de variables cualitativas (atributos) no se utilizan medidas como la media o la
varianza. En estos casos, nuestra atención debe enfocarse hacia el modo en que se distribuyen los
valores de la variable.
Por ejemplo, en el estudio de la cartera de visitantes a nuestro sitio web se deben considerar algunas
variables cualitativas, como el sexo del usuario o su opinión sobre el servicio.
Además, es importante identificar posibles relaciones entre esas variables

Con esa finalidad, hemos construido dos tablas de contingencia. La primera agrupa las opiniones
sobre el servicio conforme al sexo del usuario y es la siguiente:
Sexo Positiva Normal Negativa
Femenino 50 100 50
Masculino 80 80 40
La segunda clasifica a los clientes según su actividad económica y según su antigüedad, del
siguiente modo:
Actividad
Antigüedad Servicios Producción
Menos de 6 meses 20 30
Seis meses a un año 40 30
Más de un año 20 20
Con base en las tablas de frecuencias anteriores, analicemos si la opinión sobre el servicio puede
depender del sexo de la persona entrevistada.
Analicemos, además, si la proporción de clientes del sector productivo puede haber variado en los
últimos meses.
Nos interesa analizar cuáles son los valores más probables o cuáles son las posibles relaciones entre
estas variables.
Para investigar la cuestión clasificamos las opiniones de los clientes en tres categorías: Positiva,
Normal y Negativa. Simultáneamente, hemos clasificado a la persona que emitió la opinión según
57/96
PES-SanPi
su sexo.
Para este ítem se debe utilizar la prueba de tabla de contingencia. Se trata de una prueba chi-
cuadrado que permite analizar si dos atributos pueden considerarse independientes entre sí.
Prestemos atención especial al modo en que se determinan las frecuencias esperadas en la misma.
En este caso, además de la prueba de tabla de contingencia, apliquemos también la denominada
prueba de proporciones. Consideremos que la última prueba puede ser más apropiada, dado que no
se trata de analizar toda la distribución, sino sólo una proporción.
Resolución
Como vimos, otra aplicación importante de la distribución chi-cuadrado es el empleo de datos
muestrales para probar la independencia de dos variables.
Para determinar si las opiniones sobre el servicio es independiente del género del usuario (femenino
o masculino) usamos una prueba de independencia.
Las hipótesis para esta prueba de independencia son:
Ho: La opinión sobre el servicio es independiente del género del visitante
Ha: La opinión sobre el servicio no es independiente del género del visitante
Después de identificar a la población, visitantes mujeres y hombres, se toma una muestra y
preguntamos cual es su opinión respecto del servicio y la anotamos en la tabla de contingencia.
Tenemos una muestra de 400 personas que quedan tabuladas en la tabla siguiente con todas las
combinaciones posibles.
Sexo Positiva Normal Negativa total
Femenino 50 100 50 200
Masculino 80 80 40 200
total 130 180 90 400
Los datos de la tabla constituyen las frecuencias observadas para las seis clases o categorías. Si
podemos determinar las frecuencias esperadas bajo la hipótesis de independencia entre la opinión
del servicio y el sexo del visitante, podemos usar la distribución chi-cuadrado para determinar si
existe una diferencia significativa entre las frecuencias observada y esperada.
Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en que:
1. Suponemos que es verdadera la Ho, de independencia entre la opinión sobre el servicio es
independiente del género del visitante.
2. Observamos que en toda la muestra de 400 visitantes, hay 130 cuya opinión es positiva, 180
normal y 90 negativa. Expresada en fracción, la conclusión es que 130/400 (13/40) tienen
una opinión positiva, 180/400 (9/20) normal y 90/400 (9/40) negativa.
total 130/400 180/400 90/400 400
3. Si es válida la hipótesis de independencia, decimos que estas fracciones se deben aplicar por
igual a los visitantes femeninos y masculinos. Así, bajo la hipótesis de independencia, las
frecuencias esperadas en la tabla de contingencia es
eij = (total fila i)(total columna j)
tamaño de la muestra
Femenino (200)(130)/400 (200)(180)/400 (200)(90)/400 200
Masculino (200)(130)/400 (200)(180)/400 (200)(90)/400 200
Las frecuencias esperadas si las opiniones sobre el servicio es independiente del género del
visitante.
58/96
PES-SanPi
Femenino 65 90 45 200
total 130 180 90 400
Ahora comparamos las frecuencias observadas con las frecuencias esperadas.
( foij − feij )
2
χ
2
= ∑ ∑
i j fe ij
En donde
Frecuencia
2 observada para la categoría en el fila i y la columna j de la tabla de
− ijfe− ijfe
2
χ ( fo(ijfo
2
) ij )contingencias.
∑ ∑∑ ∑
= =
feFrecuencia observada para la categoría en el fila i y la columna j de la tabla de
i j fe contingencias,
i j
ij
basada en la hipótesis de independencia.
ij
Con n filas y m columnas en la tabla de contingencia, el estadístico de prueba tiene una
distribución chi-cuadrado con (n-1)(m-1) grados de libertad, siempre y cuando las frecuencias
esperadas sean 5 o más para todas las categorías.
Frecuencia observada
Femenino 50 100 50 200
total 130 180 90 400
Frecuencia esperada
Femenino 65 90 45 200
total 130 180 90 40
Cálculo del estadístico de prueba chi-cuadrado para determinar si el sexo es independiente de la
opinión sobre el servicio.
Sexo Opinión foij feij foij -feij (foij -feij)2 (foij -feij)2/feij
Frecuencia Frecuencia diferencia Diferencias al Diferencias al
observada esperada cuadrado cuadrado dividida
entre la frecuencia
esperada
Femenino Positiva 50 65 (50-65) -15 225 3,46
Femenino Normal 100 90 (100-90) 10 100 1,11
Femenino Negativa 50 45 (50-45) 5 25 0,56
Masculino Positiva 80 65 (80-65) 15 225 3,46
Masculino Normal 80 90 (80-90) -10 100 1,11
Masculino Negativa 40 45 (40-45) -5 25 0,56
total 400 400 χ2=10,226
El número de grados de libertad para la distribución chi-cuadrado adecuado se obtiene
multiplicando el número de filas menos 1 por el número de columnas menos 1. Como tenemos dos
59/96
PES-SanPi
filas y tres columnas, los grados de libertad son (2-1)(3-1) = 2. En la prueba de independencia se
rechaza Ho si las diferencias entre frecuencias observadas y esperadas dan un valor grande del
estadístico de prueba. De manera que la prueba de independencia es también una prueba de cola
superior. De la tabla obtenemos que el estadístico de prueba χ2 con dos grados de libertad se
encuentra entre 9,21 y 10,60.
Área en la cola superior 0,10 0,05 0,025 0,01 0,005
Valor de χ2 para 2 grados de libertad 4,61 5,99 7,38 9,21 10,60
Por lo tanto, el área correspondiente en la cola superior o valor -p está entre 0,01 y 0,005.
Concluimos que se rechaza la Ho porque el valor de -p < α. ya que -p está entre 0,01 y 0,005 y el α
= 0,05
Pruebas sobre la proporción de una población

Frecuentemente se desea estimar la proporción de elementos que tienen una característica
determinada, en tal caso, las observaciones son de naturaleza cualitativa. Cuando se analiza
información cualitativa y se está interesado en verificar un supuesto acerca de la proporción
poblacional de elementos que tienen determinada característica, es útil trabajar con la prueba de
hipótesis para la proporción.
Proporción es la fracción, porción relativa o porcentaje que expresa la parte de la población o
muestra que tiene un atributo particular de interés.
p − p0
z=
σ p
Una proporción muestral se define como p = x/n, donde x es el número de elementos en la muestra
que poseen cierta característica y n es el total de elementos de la muestra. (pag 275)
Empleamos los símbolos p para indicar la proporción poblacional y po para representar determinado
valor supuesto de dicha proporción, las tres formas de una prueba de hipótesis acerca de una
proporción poblacional son las siguientes:
Pruebas unilaterales
Ho : p≥ po Ha: p< po
Ho : p≤ po Ha: p> po
Prueba bilateral
Ho : p= po Ha: p≠ po
Cuando se va a estimar una proporción el tamaño de la muestra (n) siempre debe ser mayor a 30.
Las pruebas de hipótesis respecto a una proporción de población se basa en la diferencia entre la
proporción de la muestra y la proporción po supuesta de la población.
Analicemos, además, si la proporción de clientes del sector productivo puede haber variado en los
últimos meses.
Nos interesa analizar cuáles son los valores más probables o cuáles son las posibles relaciones entre
estas variables.
Actividad total
Menos de 6 meses 20 30 50
60/96
PES-SanPi
Seis meses a un año 40 30 70

Más de un año 20 20 40
total 80 80 160
Tenemos una muestra de 160, de los cuales 80 pertenecen al sector productivo. Esta proporción ha
cambiado o es igual?
p = x/n → p=80/160 → p=0,5
1. determinar Ho y Ha
Ho: p = 0,5 Ha p ≠ 0,5
Se ha planteado la hipótesis alternativa como:
Ha p ≠ 0,5
Se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia α se divide en
dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la
figura
Z1-α/2 y Zα/2 pertenecen a una distribución normal estándar. Si el valor de la estadística de trabajo
(Zp) está entre Z1-α/2 y Zα/2 no se rechaza la hipótesis nula, en caso contrario se rechaza Ho lo cual
implica aceptar Ha . Es decir, si Z1-α/2 < Zp < Zα/2 no se rechaza Ho .
2. Nivel de significancia 0,05

Es una prueba unilateral inferior
Rechazar Ho si Zα/2 < -1,96 y Zα/2 >1,96
Actividad total
Menos de 6 meses 20 30 50
Seis meses a un año 40 30 70
Más de un año 20 20 40
total 80 80 160
61/96
PES-SanPi
m2 | actividad 1
El problema de las revistas
Cada semana Juan necesita decidir cuántos ejemplares del semanario “Nosotros y el mundo” es
conveniente comprar.
Por cada revista vendida obtiene un beneficio de $ 4. Si en una semana no vende todas las unidades
que ha dejado, puede devolver los ejemplares sobrantes a un costo de $ 3 por unidad. Por cuestiones
prácticas, él desea determinar una cantidad fija, a fin de repetir semana tras semana el mismo
pedido. Por lo tanto, necesita determinar cuántas unidades conviene pedir, de modo de lograr el
mayor beneficio posible.
Uno de los problemas a salvar es que la demanda es aleatoria, varía de semana en semana y de este
modo genera cambios en los resultados económicos. De hecho, presenta una distribución de Poisson
con media igual a 4,5. Por lo tanto, no es posible predecir exactamente el beneficio a obtener en una
cierta semana; antes bien, se debe buscar un pedido que permita obtener un promedio elevado para
estos beneficios
Para estudiar este problema con simulación el primer paso es proponer diferentes alternativas de
compra y simular el comportamiento de las ventas para cada alternativa.
De este modo cada corrida con el modelo permite determinar el beneficio promedio a obtener con la
alternativa probada. Luego comparando los distintos resultados Juan puede decidir cuál es la opción
más conveniente.
El objetivo de Juan es decidir cuántas unidades conviene pedir, de modo de lograr el mayor
beneficio posible.
En las siguientes Tablas se representan breves simulaciones de este problema. En las mismas se
suponen generadas las demandas. Recuerde que más adelante se discute la forma de generarlas.
Alternativa 1: dejar 5 unidades
Semana Demanda Unidades Unidades Beneficio por Pérdida por Beneficio
Vendidas sobrantes ventas devoluciones Neto
1 3 3 2 12 6 6
2 7 5 0 20 0 20
3 5 5 0 20 0 20
4 2 2 3 8 9 -1
5 8 5 0 20 0 20
6 4 4 1 16 3 13
7 4 4 1 16 3 13
8 6 5 0 20 0 20
9 7 5 0 20 0 20
10 3 3 2 12 6 6
En la primer semana se venden tres ejemplares, por lo tanto el beneficio resulta igual a doce pesos.
Pero, dado que se dejaron cinco unidades, es necesario devolver dos; por lo tanto se produce un
costo de seis pesos por devolución. Finalmente el beneficio neto es la diferencia, o sea seis pesos.
Después de realizar los nueve pasos de cálculo, es necesario resumir los resultados. Para ello se
debe calcular el beneficio promedio obtenido en la corrida. En este caso la suma de los beneficios es
$137, con lo que se tiene un promedio de $ 13.70 por semana.
62/96
PES-SanPi
Alternativa 2: dejar 7 unidades
Semana Demanda Unidades Unidades Beneficio por Pérdida por Beneficio

Vendidas sobrantes ventas devoluciones Neto
1 3 3 4 12 12 0
2 7 7 0 28 0 28
3 5 5 2 20 6 14
4 2 2 5 8 15 -7
5 8 7 0 28 0 28
6 4 4 3 16 9 25
7 4 4 3 16 9 25
8 6 6 1 24 3 21
9 7 7 0 28 0 28
10 3 3 4 12 12 0
En este caso la suma de los beneficios es $162, con lo que se tiene un promedio de $ 16.20 por
semana.
A partir del análisis de estas dos alternativas, a Juan le conviene comprar 7 ejemplares cada semana.
Indudablemente para que el estudio pueda considerarse completo es necesario recorrer un rango
más amplio de alternativas y por un periodo más largo.
i Probabilidad Media Probabilidad
(Poisson) Acumulada
0 0,01110900 4,50 0,01000000
1 0,04999048 4,50 0,05999048
2 0,11247859 4,50 0,17246907
3 0,16871788 4,50 0,34118696
4 0,18980762 4,50 0,53099458
5 0,17082686 4,50 0,70182144
6 0,12812014 4,50 0,82994158
7 0,08236295 4,50 0,91230453
8 0,04632916 4,50 0,95863369
9 0,02316458 4,50 0,98179827
10 0,01042406 4,50 0,99222233
Para que la información sea de utilidad, al momento de resumir los resultados, el número i de
unidades simuladas deberia ser muy superior.
Montecarlo con variables discretas
Supongamos que las demandas semanal de la revista tienen aproximadamente la distribución de
probabilidad que se muestra a continuación:
Para obtener un valor de Demanda se generamos un Random (con calculadora), se ingresa con ese
número en la columna de Probabilidad Acumulada hasta encontrar la primera probabilidad que es
mayor que el Rn. Una vez encontrada, recorriendo esa fila se busca la cantidad correspondiente.
63/96
PES-SanPi
Por ejemplo, si el número aleatorio generado es Rn = 0.62, entonces la demanda resulta de dos
unidades, o sea X = 2. El criterio en este caso es que se adopta como valor de X el primero cuya
Probabilidad Acumulada es mayor al Rn.
Con la planilla generamos 20 numeros aleatorios
Rn x Rn x Cantidad demanda
1 0,19 0 11 0,57 1 0 9
2 0,11 0 12 0,98 4 1 5
3 0,85 3 13 0,57 1 2 2
4 0,15 0 14 0,08 0 3 2
5 0,10 0 15 0,88 3 4 2
6 0,93 3 16 0,14 0 5 0
7 0,76 2 17 0,61 2
8 0,64 1 18 0,60 1
9 0,36 0 19 0,12 0
10 0,38 0 20 0,53 1
Determinamos la media, la moda y el desvío de los valores generados.
Media = 3,33
Moda = 9
Desvio =3,2
m2 | actividad 2
Analicemos un ejemplo de confiabilidad
Una de las aplicaciones de la simulación son los estudios de confiabilidad de sistemas. Como se
sabe, en dichos estudios se intenta determinar si un producto es capaz de alcanzar cierto tiempo de
vida útil.
Como problema de simulación, este ejemplo es interesante porque nos lleva a representar muchas
unidades de un producto. Esto es, cada paso de cálculo representa una unidad (recordemos que en el
ejemplo de las revistas cada paso de cálculo es una semana). Otra novedad del presente problema es
que requiere la generación de variables aleatorias continuas.
Supongamos entonces que estamos a cargo de un estudio de confiabilidad en una fábrica. El
64/96
PES-SanPi
objetivo de este tipo de estudios es estimar la distribución de probabilidades de la vida útil de un

producto, lo cual permite cuantificar el porcentaje de artículos que son capaces de brindar sus
prestaciones durante un cierto período de tiempo.
Ahora bien, los productos son generalmente complejos, dado que están compuestos por varios
componentes elementales. La distribución de probabilidad de la vida útil de los componentes
elementales se determina mediante ensayos.
La vida útil de todo el conjunto se analiza mediante simulación. En este caso, vamos a realizar el
estudio de un circuito eléctrico. Para ello, determinemos si la actual configuración satisface el
requisito impuesto por nuestro cliente.
El producto que debemos analizar es un circuito eléctrico con la siguiente estructura :
Si la energía puede pasar desde A hasta B, entonces el sistema funciona. Los componentes de tipo 1
están en serie, si falla alguno el circuito se corta y concluye la vida útil del producto. En cambio, los
componentes de tipo 2 están en paralelo, por lo cual si uno se rompe la energía puede seguir
pasando por el otro y el producto sigue funcionando. En este caso deben fallar los dos para que no
funcione.
Mediante ensayos hemos determinado que la vida útil de los componentes tipo 1 tiene distribución
normal con media 2500 hs. y desvío 400 hs. Por su parte, los de tipo 2 tienen distribución normal
con media 2000 hs. y con desvío 350 hs. Nuestro cliente desea que el 90 % de la unidades que le
entreguemos mantenga sus prestaciones por más de 1800 horas.
Mediante simulación determinemos si el circuito, tal como está diseñado, cumple con esas
condiciones. Si esto no se verifica, diseñemos un nuevo sistema que resulte satisfactorio.
Consideremos que el costo de los componentes de tipo 1 es de $ 50, en tanto que los de tipo 2
tienen un valor de $ 80.
Es recomendable que lo hagamos del siguiente modo:
a) Desarrollemos con una herramienta informática conveniente el programa de simulación.
b) Determinemos la cantidad de circuitos que se deben simular, para que el error en la
proporción del resultado sea menor a 0,01.
c) Simulemos con el programa la evolución de la cantidad obtenida de circuitos.
Representemos los resultados identificando la vida útil que tiene una probabilidad del 90%
de ser superada.
d) Comparemos dicha vida útil con el requerimiento del cliente. En caso de que no se cumpla,
agreguemos componentes al circuito y simulemos las nuevas condiciones.
e) Continuemos hasta obtener una configuración que satisfaga el requisito del cliente.
Como la vida útil de los componentes tiene distribución normal no se puede calcular por
65/96
PES-SanPi
Montecarlo sino por la aplicación del teorema del límite central.

Entonces se adopta:
x = µ + σ (S12 -6) donde S12 = Σ Rn
Conjunto Vida útil Vida útil Vida útil Vida útil Vida útil
Componente 1 componente 1 componente 2 componente 2 conjunto
1 2065 2670 2125 1987 2065
2 2840 2350 1780 2050 2050
3 2284 2611 2082 1654 2082
4 2459 2782 2269 2515 2459
5 1999 2435 1426 2202 1999
6 2531 3088 2402 2156 2402
7 2337 2817 2228 2363 2337
8 2396 2247 2539 2345 2247
9 2470 2178 2655 2117 2178
... ...
20 2833 2838 2101 1847 2101
En el primer conjunto, se rompe una componente de tipo 2 a las 1987 hs, pero el producto sigue
funcionando porque la otra todavía sirve. Luego a las 2065 hs se rompe una componente de tipo 1
determinando la muerte del conjunto. Por lo tanto la vida útil del primer caso es de 2065 hs.
Para estimar la Distribución de Frecuencias estadísticas se puede ordenar de menor a mayor los
resultados y a cada uno adjudicarle la Frecuencia Relativa:
Fr = i / ( n + 1 )
En base a estos resultados puede decirse por ejemplo que el 50 % de los productos resiste más
de 2100 horas, o que solo el 10 % de los productos sobrevive más allá de las 2400 horas.
Nro de orden Vida útil Frecuencia relativa
1 1502 0,0480
2 1569 0,0950
3 1704 0,1430
4 1853 0,1900
5 1938 0,2380
6 1999 0,2860
7 2050 0,3330
8 2065 0,3810
9 2094 0,4290
10 2094 0,4760
11 2101 0,5240
12 2118 0,5710
13 2122 0,6190
66/96
PES-SanPi
14 2130 0,0667
15 2178 0,7140
16 2247 0,7620
17 2337 0,8100
18 2347 0,8570
19 2402 0,9050
20 2459 0,9420
El valor con frecuencia acumulada mas cercana a 0,10 es 1569. Este valor es inferior a 1800 horas.
No se cumple el requisito del cliente.
Graficamos las frecuencias acumuladas
1,0000
Frecuencias acunuladas
0,8000
0,6000
0,4000
0,2000
0,0000
1502 1569 1704 1853 1938 1999 2050 2065 2094 2094 2101 2118 2122 2130 2178 2247 2337 2347 2402 2459
Valores observados
En el diagrama se advierte que la frecuencia acumulada del 10% se alcanza con una duración de
1569 horas. Muy por debajo de lo solicitado por el cliente.
Pero estas frecuencias son sólo una aproximación de las verdaderas probabilidades. El error en la
aproximación es
donde π es la proporción que se desea aproximar.

Si deseamos medir el tiempo del proceso con un error máximo de 1 minuto, n debería ser
67/96
PES-SanPi
Observe que el error es una magnitud con unidades y no un porcentaje
Cuanto debe ser n? Calculamos n para proporciones

Pi se aproxima por un valor estimado previo (para nosotros 0,10).
Si no existe un estimado se asume el caso extremo de variación, es decir Pi=0.5
El error es una fracción o un porcentaje
Sea Z = 1,96
π = 2/20 → 0,1 → i/n i nro de orden n cantidad total del conjunto.
Cantidades de conjunto que se deben simular para obtener cada uno de los posibles errores en la
aproximación de proporcion de 0,10 y 0,50.
Error 0,10 0,50
0,05 138 384
0,03 384 1067
0,01 3457 9604
No confiar en las cuentas!!
m2 | actividad 3
Análisis del problema de la cola de espera
Este es otro de los casos típicos con que nos encontramos en la práctica: las colas de espera. La idea
es diseñar servicios donde pueden llegar a presentarse esperas. Las preguntas a responder pasan por
la cantidad de servidores necesarios o por las políticas de atención. Si bien los matemáticos han
trabajado este tipo de problemas, y de hecho han propuesto fórmulas aplicables en algunas
situaciones particulares, en general las situaciones deben ser analizadas con simulación.
Supongamos entonces que una organización bancaria planea instalar un sistema de cajeros
automáticos en una sucursal del centro de la ciudad, para lo cual desea determinar si un solo cajero
es suficiente para atender la demanda esperada. Dicho en términos operativos, si el tiempo medio de
espera es inferior a cinco minutos, se instalará un solo aparato.
Se ha determinado que el tiempo entre llegadas de clientes al cajero es una variable aleatoria que
tiene distribución exponencial con media de ocho minutos.
Asimismo, se conoce que el tiempo necesario para la operación del cajero es una variable con
distribución exponencial y media cinco minutos.
Colaboremos entonces con dicha organización y determinemos si un solo cajero es suficiente.
Para este problema, lo que debemos hacer es:
a) Desarrollar con una herramienta informática conveniente un programa de simulación que
represente la llegada y atención de los clientes y determine los tiempos de espera necesarios.
b) Determinar la cantidad de clientes que se deben simular, para que el error en la media del
tiempo de espera sea menor a 0,3 minutos.
c) Simular con el programa la evolución del proceso de atención. Representar los resultados de
68/96
PES-SanPi
modo adecuado.
d) Comparar el tiempo medio de espera con el requerimiento planteado y elaborar una opinión
sobre si se requiere más de un aparato.
La fórmula para generar números aleatorios en una exponencial es:
i Tiempo de Tiempo de Tiempo acumulado Tiempo de >5

llegada µ=8 operación µ=5 del cliente i espera
1 0 4 4 0 0
2 3 2 5 1 0
3 2 6 8 0 0
4 1 3 4 5 0
5 8 8 18 0 0
6 1 4 5 7 1
7 10 2 12 0 0
8 5 5 10 0 0
9 6 7 13 0 0
10 3 4 7 4 0
Media =1,7
Desv = 2,63
La media de la simulación de 10 clientes es 1,7 Que es menor a cinco minutos. Por lo tanto se puede
concluir que no es necesario mas de un aparato.
e < 0,03
π = 1/10 → π = 0,1
z= 1,96 → z2 = 3,84
(1-π) = 0,9
e2 = 0,0009
ε=error n debe ser mayor
n=384
69/96
PES-SanPi
m2 | actividad 4
Generación de números aleatorios
La generación de impulsos aleatorios adecuados es una cuestión central en simulación. Si estos
impulsos no tienen la distribución correcta, los resultados del estudio pueden estar muy alejados de
la realidad. Por ello es importante que ejercitemos las técnicas de generación de variables aleatorias
y que apliquemos nuestros conocimientos de estadística para verificar que los números generados
tienen el comportamiento deseado.
En primer lugar recordemos que si los randoms son adecuados, deben tener distribución uniforme
en el intervalo (0,1). Como prueba, generemos cien números de ese tipo y analicemos las
propiedades estadísticas de los datos obtenidos.
Las propiedades de la distribución uniforme pueden analizarse en el texto de Probabilidad y
Estadística que utilizamos. Prestemos atención a la forma de su función de densidad, a la media y a
la varianza. Luego, apliquemos sobre los cien randoms todas las herramientas estadísticas que
consideremos convenientes para verificar si la distribución es realmente la esperada. Por ejemplo,
utilicemos medidas descriptivas, pruebas de hipótesis sobre la media y la varianza, pruebas de
bondad de ajuste, etc.
Además consideremos que a partir de los números randoms es posible generar variables con
cualquier tipo de distribución. A fin de ejemplificar su uso, generemos valores de una variable tipo
atributo. Generemos, además, valores de una variable discreta. Finalmente, repitamos la experiencia
con variables continuas.
Supongamos que la variable tipo atributo se denomina “Nivel de estudios”, y que responde a la
siguiente distribución de probabilidad:
Nivel de Estudios Probabilidad

Primario 0,3
Secundario 0,3
Terciario 0,2
Universitario 0,15
Post Graduación 0,05
Para esta variable generemos 60 datos y verifiquemos con una prueba chi-cuadrado si la
representación es buena. Finalmente determinemos cuántos valores deberíamos generar para que la
proporción de universitarios quedara representada en la muestra con un error menor a 0,02.
Supongamos que es preciso trabajar con la variable X: “Cantidad de autos que llegan a una playa de
estacionamiento, por minuto”, que tiene distribución Poisson con media dos. Generemos 100
valores de dicha variable y verifiquemos el resultado.
Nuevamente utilicemos Montecarlo para generar 100 datos de la variable Y: “Tiempo entre arribos
de vehículos”, la cual tiene distribución exponencial con media 30 seg. Por supuesto, verifiquemos
la calidad de los números obtenidos.
m2 | actividad 5
Resolución de problemas con simulación
En las actividades anteriores hemos trabajado con tres casos típicos de simulación. Al respecto,
puede argumentarse que la mayoría de las situaciones reales admite la aplicación de alguno de los
tres enfoques analizados. Con este razonamiento, proponemos a continuación diversos problemas
70/96
PES-SanPi
donde es preciso realizar una transferencia de las soluciones ya analizadas. Su tratamiento nos
permitirá consolidar habilidades para el empleo de esta poderosa herramienta.
Encontraremos dichos problemas a continuación.
Ejemplos adicionales de simulación
1. Una estación de servicio desea estudiar el movimiento de su inventario de nafta super. La
demanda diaria es variable, conforme a una distribución normal con media 2000 litros y
desvío 500 litros. En la operación de este servicio deben considerarse dos fuentes de costos.
Por una parte, se encuentra el costo financiero de tener almacenado un litro de nafta, el cual
ha sido valorado en $0,40 por año. En otro extremo, si la estación se queda sin combustible
las ventas se pierden. Esto implica un costo por pérdida de oportunidad que se considera de
$0,30 por litro de nafta.
La estación considera conveniente pedir camiones de 16000 litros. Una dificultad adicional
es que el reaprovisionamiento no es instantáneo, sino que desde que se realiza el pedido, el
arribo tiene una demora que varía conforme a una distribución exponencial con media 3
días.
Ahora bien, a fin de hacer operativa la administración de este inventario se desea determinar
un nivel crítico: “q”, que indique cuándo debe realizarse el pedido de combustible. El
problema es encontrar un valor de q que permita reducir el costo total de operación.
Para ello debemos construir un modelo de simulación que permita estimar el costo diario
promedio de operación con un error adecuado, probar con varias alternativas de nivel de
reaprovisionamiento y resumir los resultados, de modo que los responsables de la estación
puedan tomar su decisión con la información necesaria.
2. En un hipermercado se desea simular el funcionamiento del Servicio de Atención al Cliente.
A los fines del estudio, se reconocen dos tipos de consultas:
D: devoluciones, y R: reclamos por disconformidad.
Los clientes arriban a la sección de acuerdo a una distribución exponencial con media 10
minutos. En cambio, el tiempo de atención tiene distribución uniforme, con intervalos
diferentes según el tipo de consulta. En la siguiente tabla se presentan las probabilidades de
cada tipo de cliente y los intervalos de variación del tiempo de atención a ellos:
Tipo de atención Probabilidad Valor inferior Valor superior

Devolución 0,7 5 minutos 11 minutos
Reclamo 0,3 2 minutos 8 minutos
Simulemos la llegada y atención de clientes y determinemos el tiempo medio de espera por consulta
con un error menor a medio minuto. Elaboremos además un adecuado resumen de resultados.
Debe notarse que este problema es similar al de la cola de espera. Lo novedoso de esta situación es
que al existir distintos tipos de consultas, es preciso generar inicialmente una variable cualitativa (el
atributo tipo de consulta), en una segunda generación aleatoria, determinar el tiempo entre llegadas
y finalmente generar, como dependiente con el tipo de consulta, el tiempo de atención.
3. Una empresa realiza el transporte urbano de pasajeros. El recorrido del ómnibus inicia en el
interior de barrios y concluye en el centro de la ciudad. Dicho recorrido puede dividirse en
dos tramos bien diferenciados: barrios; avenida. Hay tres paradas en los barrios y dos en las
avenidas.
71/96
PES-SanPi
La cantidad de personas que arriban a las paradas de los barrios, por minuto, tiene distribución
Poisson con media 3. En cambio, para las avenidas esta cantidad también es Poisson, pero con
media 2.
Las unidades tienen una capacidad máxima de 40 personas. Además, es posible asumir que el 10%
de los pasajeros que arriba a cada una de las paradas desciende en la misma.
El objetivo de este trabajo es determinar la frecuencia que se puede adoptar, de modo que no más
del 10% de las unidades llegue completa al centro.
4. En una fábrica automotriz, al final de la línea de producción se hace un control rápido del
vehículo terminado. La cantidad de autos que llegan a inspección cada hora tiene una
distribución normal con media treinta y desvío igual a cinco. Por otra parte, la jornada de
trabajo tiene una duración de dieciséis horas.
Para realizar el control pueden colocarse en ese puesto uno o más operarios.
Cada hombre tiene una capacidad variable de trabajo para una hora, que puede ser representada por
la siguiente distribución:
Autos controlados 7 8 9 10 11
Probabilidad 0.10 0.25 0.30 0.25 0.10
Construyamos un programa que simule el comportamiento de la línea de producción. Para ello
representemos secuencias probando el resultado de destinar esa inspección final a las siguientes
cantidades de personas: uno, dos, tres, cuatro.
Elaboremos resúmenes adecuados de los resultados obtenidos, que aporten información válida para
tomar la decisión. Finalmente, efectuemos una recomendación sobre la cantidad más apropiada.
5. Supongamos que nos contrata una empresa industrial que se dedica a la producción de maní
para confitería. El ciclo productivo inicia con la recepción del maní, el cual llega desde los
campos productores en camiones.
La primera operación imprescindible es una compleja revisión de la carga, la que permite
determinar si el producto puede ser aceptado para la producción. Esta tarea se realiza en una
estación especial que sólo puede analizar hasta cinco camiones por día, por lo que si aparecen
cargamentos por sobre esa cantidad, no se los recibe.
Por otra parte, la carga útil de los camiones es variable. A fin de cuantificarla se tomó una muestra
de 60 camiones y se obtuvieron los resultados siguientes:
Valores observados de la variable aleatoria “Peso de la carga de maní, transportada por un camión”
(expresada en kilos)
En este problema, como en la mayoría de las situaciones prácticas, no se conoce la verdadera
72/96
PES-SanPi
distribución de probabilidad de las variables relevantes. Por ello, es necesario estimar previamente
dichas distribuciones, tal como lo hicimos en la unidad 1.
Además, es preciso considerar que la fábrica tiene capacidad para procesar veinte toneladas por día
y se desea mantener ese volumen lo más constante que sea posible. Esto parece difícil ante la
variabilidad de la carga de los camiones.
En efecto, si se confía sólo en los cinco camiones diarios, algunos días se cubre la demanda y en
otros no se puede trabajar correctamente. Por ese motivo, se ha decidido formar un pequeño
inventario, a fin de cubrir los déficits que pueden llegar a presentarse.
Concretamente, nuestra tarea es determinar qué volumen debe acumularse en dicho inventario, de
modo que en no más del 5% de los días falte el insumo necesario para atender la capacidad de
procesamiento.
6. En un cierto camino se desea instalar un puesto de peaje. La empresa desea determinar si
una sola cabina de pago permite satisfacer la demanda creada por los vehículos que arriban a
ese sector
Algunos datos de la variable Tiempo entre arribos, expresada en segundos, son los siguientes:
56,50 272,70 32,60 41,80
32,10 4,90 334,60 39,50
124,80 109,90 147,90 217,00
39,00 152,60 426,40 56,50
134,50 323,40 26,60 50,00
Por otra parte, se tomó una muestra de la variable Tiempo necesario para cobrar, en segundos; los
datos obtenidos son los siguientes:
117,00 95,00 60,30 177,70 149,70
159,50 143,70 130,50 119,80 82,50
146,40 130,50 138,50 60,20 130,60
175,70 121,30 158,70 140,00 154,00
110,40 143,20 133,30 120,90 138,40
En este problema, como en la mayoría de las situaciones prácticas, no se conoce la verdadera
distribución de probabilidad de las variables relevantes. Por ello es necesario estimar previamente
dichas distribuciones, tal como lo hicimos en el módulo 1.
73/96
PES-SanPi
m3 | actividad 1
Cálculos básicos con la regresión
Como todos sabemos, algunas empresas tienen estrategias orientadas directamente a la venta, donde
más que el producto en sí interesa la carga publicitaria que se orienta hacia este. Claros ejemplos de
estos comportamientos son las empresas productoras de gaseosas o las de zapatillas.
Supongamos que una de estas empresas registra sus valores de Inversión en Publicidad y de Ventas
Brutas, y que obtiene los siguientes valores:
Publicidad (en millones) 2 6 8 5 1 7 4
Ventas (en millones) 6 11 13 7 4 10 7
Con esta información realicemos las siguientes tareas:
a) Representemos los datos en un par de ejes coordenados, colocando en abscisas la inversión
publicitaria y en ordenadas las ventas. (diagrama de dispersión.)
14
12
10
8
Ventas
0
0 1 2 3 4 5 6 7 8 9
inversión publicitaria
b) Busquemos en el texto fórmulas apropiadas para encontrar una recta que permita representar
la relación entre estas variables. Apliquemos dichas fórmulas para estimar una recta de
regresión de las Ventas en función de la Publicidad.
Cuando analizamos dos variables X e Y, que suponemos relacionadas como en el caso de la
publicidad y de las ventas, podemos aproximar dicha relación con una recta que tiene la siguiente
forma: y = b0 + b1x Para obtener los valores de los coeficientes utilizamos las expresiones de
mínimos cuadrados:
n x y x*y x2
1 1 4 4 1
2 2 6 12 4
3 4 7 28 16
4 5 7 35 25
74/96
PES-SanPi
5 6 11 66 36
6 7 10 70 49
7 8 13 104 64
∑ 33 58 319 195
prom 4,71 8,29
n= 7
∑( x*y) → 319
(∑ x)*(∑ y) → (33)*(58) → 1914
∑ x2 → 195
319 – 1914/7 → 319 – 273,48 = 45,57
∑ x2 /n → 195/7 = 27,86
∑( x*y) - (∑ x)*(∑ y)/n → 319-273,48 → 45,57 → 0,2726 = b1

∑ x2 - ∑ x2 /n 195- 27,86 167,14
También se puede usar la siguiente fórmula para calcular b1
b0 → prom y - b1 prom x → ∑ x/n → 33/7 → 4,71

prom y → ∑ y/n → 58/7 → 8,28
prom x → ∑ x/n → 33/7 → 4,71
8,28 – (4,71)(0,2726) → b0 = 8,28 – 1,28
b0 → 7
O sea que la recta de mínimo cuadrado, cuando y(venta) depende de x(publicidad), es:
ŷ = b0 + b1x
ŷ = 4,71 + 0,2726x
A fin de verificar la validez de estas expresiones, podemos realizar un experimento. En efecto, si
partimos de la recta: y = 10 - 2x, y le asignamos algunos valores a la variable independiente,
podremos obtener un juego de pares de datos, como el siguiente:
x 1 2 3
y 8 6 4
Ahora apliquemos sobre estos datos las expresiones para a y b, y observemos el resultado.
Observemos que, si el método es adecuado, debemos encontrar nuevamente la expresión de la cual
partimos, esto es: y = 10 - 2 x .
c) Determinemos los errores cometidos por la recta, para todos los puntos observados.
Recordemos que cada uno de los errores debe determinarse haciendo: ei = yi – ŷi. Por ejemplo, para
la primera pareja de valores: (2,6), si la recta fuera ŷ = x + 3, el valor estimado de ŷ es cinco y el
error es y = 6 – 5.
x y ŷ = 4,71 +0,2726x yi – ŷi.

1 4 4,98 -0,98
2 6 5,26 0,74
75/96
PES-SanPi
4 7 5,8 1,2
5 7 6,07 0,93
6 11 6,35 4,65
7 10 6,62 3,38
8 13 6,89 6,11
d) Con dicha recta realicemos una determinación de cuál puede ser la Venta si se invierten tres
millones en Publicidad. Reflexionemos sobre las siguientes cuestiones: ¿esta determinación
será perfecta o tendrá un cierto error? ¿Por qué?
ŷ = 4,71 + 0,2726x
ŷ = 4,71 + 0,2726(3)
ŷ = 5,5278
Recordemos que se aplica el siguiente modelo lineal:

y = α + βyX + ε
donde α y β son constantes, en tanto que y varía influenciado por x y donde, además, ε
introduce el efecto aleatorio, es decir que genera variaciones no controladas en y. Este componente
aleatorio se supone con distribución normal, con media cero y un desvío propio al que se identifica
como σε. Es decir que, desde el arranque, asumimos que existen errores inevitables.
m3 | actividad 2
Análisis de las cualidades de la regresión
En la primera actividad hemos representado la relación entre las variables Inversión en Publicidad y
Ventas Brutas mediante una recta cuyos coeficientes se estiman al aplicar el denominado método de
mínimos cuadrados.
A continuación, debemos verificar si la función de regresión obtenida es adecuada.
Debemos tener presente que el método de mínimos cuadrados siempre encuentra una recta de
regresión, haya o no relación. Podemos, por ejemplo, pedirle que relacione la temperatura en
Argentina con el precio de la cerveza en Alemania, y el método va a encontrar una bonita recta.
Pero es muy posible que dicha representación no sea de utilidad.
En esa etapa del estudio es preciso analizar:
1. Los resultados de la descomposición de la suma de cuadrados.
2. La capacidad predictiva del modelo. ¿Tiene buena capacidad predictiva? ¿Es adecuado su
porcentaje de aciertos de las variaciones de Y?
3. La definición general del modelo o, dicho de otro modo, si el modelo en su conjunto resulta
apropiado.
4. La validez de los coeficientes de la recta de regresión. ¿Es significativa la pendiente o puede
ser considerada igual a cero? ¿Conservamos una ordenada al origen?
5. La normalidad e independencia de los residuos de la regresión.
6. El coeficiente de correlación y su diferencia con la condición de independencia.
1. Los resultados de la descomposición de la suma de cuadrados.
Recordemos que en este tipo de regresión (lineal simple) una propiedad muy importante es la
posibilidad de descomponer la suma de cuadrados de la variable dependiente en dos porciones, una
equivalente a la suma de cuadrados de los aciertos y otra correspondiente a los errores. Tanto el
coeficiente de determinación como la prueba F surgen de esta descomposición.
En la actividad anterior encontramos la ecuación de regresión ŷ = 4,71 + 0,2726x para aproximar
76/96
PES-SanPi
la relación lineal entre las ventas y la publicidad. Ahora la pregunta es: ¿Qué tan bien se ajusta a los
datos la ecuación de regresión? El coeficiente de determinación es una medida de la bondad de
ajuste para una ecuación de regresión.
La diferencia entre el valor observado (yi) y el valor estimado (ŷi), se llama residual. Representa el
error que se comete al usar ŷi para estimar ŷi. La suma de cuadrados de esos residuales o errores es
la cantidad que se minimiza con el método de los cuadrados mínimos. Esta cantidad, a la que
también se le llama suma de cuadrados debida al error se representa por SSE. El valor de SSE es
una medida del error que se comete al usar la ecuación de regresión para calcular los valores de la
variable dependiente en la muestra.
SSE = ∑ ( yi - ŷi)2
Al no conocer alguna de las variables relacionadas usamos la media de las muestras como estimado.
La diferencia yi - yi, suministra una medida del error incurrido al usar y para estimar las ventas. La
suma correspondiente de cuadrados, se llama suma de cuadrados del total.
SST = ∑ ( yi - yi)2
yi= 58/7 → yi = 8,28
x y ŷ = 4,71 +0,2726x yi – ŷi. ( yi - ŷi)2 ( yi - yi ) ( yi - yi )2
1 4 4,98 -0,98 0,97 -4,28 18,32
2 6 5,26 0,74 0,55 -2,28 5,20
4 7 5,8 1,2 1,44 -1,28 1,64
5 7 6,07 0,93 0,86 -1,28 1,64
6 11 6,35 4,65 21,66 2,72 7,40
7 10 6,62 3,38 11,44 1,72 2,96
8 13 6,89 6,11 37,32 4,72 22,28
∑ 58 SSE 36,92 SST 59,43
2. La capacidad predictiva del modelo. ¿Tiene buena capacidad predictiva? ¿Es adecuado su
porcentaje de aciertos de las variaciones de Y?
La capacidad del modelo para predecir las variaciones de Y se cuantifica con el coeficiente de
determinación. Dicho de otro modo, este coeficiente mide el porcentaje de variación de Y que es
representado por el modelo. Si por ejemplo la variable Y tiene una suma de cuadrados de cien, en
tanto que los aciertos suman 80, entonces la determinación es de 0,8 u ochenta por ciento de acierto.
Coeficiente de determinación:
Suma de cuadrados debida a regresión:
yi= 58/7 → yi = 8,28

x y ŷ = 4,71 +0,2726x (ŷi - yi) ( ŷi- yi)2
1 4 4,98 -3,30 10,87
77/96
PES-SanPi
2 6 5,26 -3,02 9,15

4 7 5,8 -2,48 6,15
5 7 6,07 -2,21 4,87
6 11 6,35 -1,93 3,74
7 10 6,62 -1,66 2,76
8 13 6,89 -1,39 1,93
∑ 45 SSR 39,47
r2 = 39,47/59,43=0,66
Si lo expresamos como porcentaje, se puede interpretar a r2 como el porcentaje de la suma total de

cuadrados que se puede explicar aplicando la ecuación de regresión. En nuestro caso podemos
concluir que se puede explicar 66% de la suma de cuadrados del total con la ecuación de regresión
ŷ = 4,71 +0,2726x para predecir las ventas. De otra forma, 66% de la variación en las ventas se
puede explicar con la relación lineal entre la publicidad y las ventas.
Coeficiente de correlación:
Para calcular el coeficiente de correlación de la muestra, conociendo el coeficiente de
determinación r2
donde
b1 = pendiente de la ecuación de regresión
El valor del coeficiente de determinación que corresponde a la ecuación de regresión
ŷ =bo +b1x
ŷ = 4,71 + 0,2726x es r2 = 0,66. Por lo tanto el coeficiente de correlación de la muestra es: rxy =
+ √r2 → rxy = +0,81. Concluimos que, con un coeficiente de correlación de la muestra
rxy = +0,81, hay una fuerte asociación lineal positiva entre la publicidad y las ventas.
3. La definición general del modelo o, dicho de otro modo, si el modelo en su conjunto resulta
apropiado.
Entre las pruebas de hipótesis asociadas a la regresión, la prueba F es la que permite decidir si el
modelo en su conjunto puede ser considerado razonable. El estadístico se construye comparando la
suma de cuadrados explicada por el modelo con la suma de cuadrados de los errores.
Prueba F
También se puede usar una prueba F, basada en la distribución F de probabilidades, para determinar
si la relación de regresión tiene significancia estadística. Esta prueba se basa en la determinación de
dos estimaciones independientes de σ2. El MSE es uno de ellos. Si es cierta la hipótesis nula
Ho: β1=0
Ha: β1 ≠ 0
MSR = SSR → SSR= ∑ ( ŷi -ỹ)2
Grados de libertad de la regresión
Para este modelo los grados de libertad son iguales a la cantidad de variables independientes
MSR = SSR/1 = 39,47
78/96
PES-SanPi
Cálculo de SSE:
Suma de cuadrados debida al error SSE = ∑ ( yi - ŷi)2
n x y ŷ = 4,71 +0,2726x yi – ŷi. ( yi - ŷi )2

1 1 4 4,98 -0,98 0,97
2 2 6 5,26 0,74 0,55
3 4 7 5,8 1,2 1,44
4 5 7 6,07 0,93 0,86
5 6 11 6,35 4,65 21,66
6 7 10 6,62 3,38 11,44
7 8 13 6,89 6,11 37,32
∑ 33 58 SSE 36,92
La MSE da un estimador insesgado de σ2, por eso también se usa la notación s2
Error cuadrado medio
s2 = MSE = SSE → 36,92/7-2 → 36,92/5 → MSE = 7,4
n-2
F = MSR = 39,47/7,4 → F=5,35

MSE
H0: β1 = 0
Ha: β1 ≠ 0
Rechazar H0 si F > Fa
En donde Fa se basa en una distribución F con 1 grado de libertad en el numerador y n-2 = 5 grados
de libertad en el denominador
Por tabla obtenemos F.01 = 16,26 como 5,35 < 16,26 no rechazamos H0
La prueba F suministra la evidencia estadística necesaria para decir que tenemos una relación
tangible entre la publicidad y las ventas.
4. La validez de los coeficientes de la recta de regresión. ¿Es significativa la pendiente o puede
ser considerada igual a cero? ¿Conservamos una ordenada al origen?
Con estadísticos t de Student es posible verificar los coeficientes del modelo adoptado. Las pruebas
permiten analizar si Y depende realmente de X, o si es posible plantear que la recta pasa por el
origen de coordenadas.
Prueba t de significancia en la regresión lineal simple

Ho: β1 = 0
Ha: β1 ≠ 0
Estadístico de prueba
79/96
PES-SanPi
Regla de rechazo
Con el estadístico de prueba: Rechazar Ho si t < -tα/2 o si t > tα/2
Con el valor p Rechazar Ho si p < α
donde tα/2 se basa en una distribución t con n-2 grados de libertad
Desviación estándar estimada de b1:
Error cuadrado medio

s2 = MSE = SSE → 36,92/7-2 → 36,92/5 → MSE = 7,38
n-2
Error estándar del estimado:
s = sqrt(MSE) → s=sqrt(7,4) → s=2,72
s=2,72
b1 = 0,2726
Sb1 = (2,72) / sqrt(Sum(x2) - (Sum x)2 /n) → Sb1 = (2,72) / sqrt(195- (1089 /7) )
Sb1 = (2,72) / sqrt(195- 155,57) → Sb1 = (2,72) / sqrt(39,43)
Sb1 = (2,72) / sqrt(39,43) → Sb1 = (2,72) / (6,28)
Sb1 = 0,43
Estadístico de prueba t = b1 /Sb1 → t=0,2726/0,43 → t=0,63
De acuerdo con la tabla de Distribución t, vemos que el valor de t que corresponde α = 0.05 y n – 2
→ 7 – 2 = 5 grados de libertad es t.025; r5= 0,727
Como 0,63 < 0,727 no rechazamos Ho.
5. La normalidad e independencia de los residuos de la regresión.
El análisis de los residuos nos ayuda a verificar si el razonamiento anterior es correcto. En efecto,
si nuestra concepción del modelo es válida, los residuos deberían ser normales e independientes
entre sí. En general, estas dos propiedades se verifican en forma con el Gráfico de probabilidades
normales y con el Diagrama de errores contra valores de X.
Publicidad Ventas Ventas estimadas Residuales
n
x y ŷ = 4,71 +0,2726x yi – ŷi.
1 1 4 4,98 -0,98
2 2 6 5,26 0,74
3 4 7 5,8 1,2
4 5 7 6,07 0,93
5 6 11 6,35 4,65
6 7 10 6,62 3,38
7 8 13 6,89 6,11
80/96
PES-SanPi
Un análisis de los residuales ayudan a determinar si son adecuados los supuestos que se hicieron
sobre el modelo de regresión.
Se supuso un modelo de regresión lineal simple.
y = βo + β1x + ε
Este modelo indica que las ventas supuestas (y) son una función lineal de la publicidad (x) más un
término de error ε. Tenemos las siguientes hipótesis acerca de ese término.
1. E(ε) = 0
2. La varianza de ε, representada por σ2, es igual para todos los valores de x.
3. Los valores de ε son independientes.
4. El término de error ε, tiene una distribución normal de probabilidad.
Gráfica de residuales en función de los valores de la variable independiente x.
0
1 2 3 4 5 6 7 8 9
-1
-2
6. El coeficiente de correlación y su diferencia con la condición de independencia.

El coeficiente de correlación es una medida que permite valorar el grado de asociación lineal entre
las variables. Es importante que incluyamos en este análisis la aplicación de la prueba que postula
como hipótesis: que el verdadero coeficiente de correlación poblacional es igual a cero.
El coeficiente de correlación es una medida descriptiva de la intensidad de la asociación lineal entre
dos variables, x e y. Los valores del coeficiente de correlación están entre -1 y +1. Un valor de +1
indican que las dos variables tienen una relación lineal positiva perfecta. Esto es, todos los puntos
de datos están en una linea recta con pendiente positiva. Un valor de -1 indican que x e y tienen una
relación lineal negativa perfecta, y que todos los puntos de datos están en una recta con pendiente
negativa. Los valores del coeficiente de correlación cercanos a cero indican que x e y no tienen
relación lineal.
El signo del coeficiente de correlación es positivo si la ecuación de regresión tiene pendiente
positiva (b1 > 0) y negativo si la ecuación de regresión tiene pendiente negativa (b1 < 0).
El estimador de esta medida de asociación relativa es:
ρxy = r = Sxy
Sx Sy
Sxy = {∑[x-Prom(x)]*[y-Prom(y)]} / (n - 1)
Prom(x) → 33/7 → Prom(x) = 4,714
Prom(y) → 58/7 → Prom(y) = 8,28
Denominado coeficiente de correlación muestral.
Si r ≈ 1 existe asociación lineal directa
Si r ≈ - 1 existe asociación lineal inversa perfecta
81/96
PES-SanPi
Si r ≈ 0 no existe asociación lineal x e y son independientes

x – Prom(x) y – Prom(y)
n x y [x – Prom(x)]2 [y – Prom(y)]2 (x-4,71)(y-8,28)
x-4,71 y-8,28
1 1 4 -3,7100 13,7641 -4,2800 18,3184 15,8788
2 2 6 -2,7100 7,3441 -2,2800 5,1984 6,1788
3 4 7 -0,7100 0,5041 -1,2800 1,6384 0,9088
4 5 7 0,2900 0,0841 -1,2800 1,6384 -0,3712
5 6 11 1,2900 1,6641 2,7200 7,3984 3,5088
6 7 10 2,2900 5,2441 1,7200 2,9584 3,9388
7 8 13 3,2900 10,8241 4,7200 22,2784 15,5288
∑ 33 58 0,0300 39,43 0,0400 59,43 45,57
Sxy = {∑[x-Prom(x))*(y-Prom(y)]} / (n – 1) → Sxy = 45,57/6 → Sxy = 7,6

Sx = ∑[x-Prom(x)]2 / (n -1) → Sx = 39,43/6 → Sx = 6,57
2
Sy = ∑[y-Prom(y)] / (n -1) → Sx = 59,43/6 → Sx = 9,9
ρxy = r = Sxy / Sx Sy
r = 7,6/(6,57)(9,9) → r = 0,12
Como r ≈ 0 (0,12) no existe asociación lineal x e y son independientes
falta prueba de hipotesis de ro

tratamiento para continuas
tratamiento series simples
proporcion aproximar el nro. por media
m3 | actividad 3
El método de los mínimos cuadrados no sólo nos permite estimar la regresión, sino que tiene otras
variadas aplicaciones que hacen que merezca ser comprendido en toda su potencia. Para ello es
conveniente que analicemos el modo en que se deducen las fórmulas de cálculo para los
coeficientes b y a.
Revisemos y discutamos la deducción de las fórmulas para la pendiente y la ordenada al origen de
nuestra recta. Si se intenta minimizar los errores en un sentido que no sea el de las Y, ¿serían
diferentes las fórmulas? Si intercambiamos los roles entre las variables y determinamos una
regresión de X contra Y, ¿obtendremos los mismos coeficientes?
Además, nos detengamos en el modo en que pueden aplicarse los mínimos cuadrados para deducir
la fórmula a utilizar cuando se desea una recta del tipo y = β x, es decir, sin ordenada al origen, y
estudiemos por otra parte las diversas aplicaciones adicionales del método.
Supongamos que hemos recolectado información sobre una variable, es decir que contamos con
datos x1 , x2,...., , xn . Supongamos que deseamos encontrar una cantidad C que resulte
representativa de los datos disponibles. Entonces, podemos plantear:
Sea C un valor que haga mínima la siguiente sumatoria: Σ (xi – C) Luego, si se deriva y se iguala a
cero la expresión, se encuentra que la cantidad representativa de los datos disponibles, que
minimiza la suma de cuadrados de las desviaciones, es precisamente el promedio. Hagamos la
82/96
PES-SanPi
deducción completa.
Si deseamos ajustar a los datos anteriores un modelo de la forma:
y = β x + ε (sin utilizar una ordenada al origen)
apliquemos el método de mínimos cuadrados para estimar los parámetros del modelo.
Criterio de los cuadrados mínimos
siendo
yi = valor observados de la variable dependiente para la i-ésima observación.
ŷi = valor estimado de la variable dependiente para la i-ésima observación.
Y = βX + ε (sin utilizar una ordenada al origen)
Procedimiento sin considerar una ordenada al origen:
Tomemos las derivadas parciales de G respecto de b que es la incógnita y la igualamos a cero; de
esta forma se obtiene una ecuación llamada ecuación normal del modelo que puede ser resuelta por
cualquier método; ya sea igualación o matrices, para obtener el valor de b.
G =∑ ( y − bx)2
Derivamos parcialmente la ecuación respecto de b
dG = 2∑( y − bx)(−x) = 0
db
= −2∑( y − bx)(x) = 0
= ∑( y − bx)(x) = 0
=∑ (xy − bx2 ) = 0
= ∑ xy + b∑ x2 = 0
∑ xy = b ∑ x2 Ecuación normal
El valor de b se obtiene resolviendo el sistema de ecuación resultante.
b= ∑ xy / ∑ x2
n x y x*y x2
1 1 4 4 1
2 2 6 12 4
3 4 7 28 16
4 5 7 35 25
5 6 11 66 36
6 7 10 70 49
7 8 13 104 64
∑ 33 58 319 195
prom 4,71 8,29
b=319/195 → 1,64
ŷ = 1,64xi
Por lo tanto, por cada inversión en publicidad las ventas se incrementan en 1,64.
83/96
PES-SanPi
m3 | actividad 4
Aplicación de modelos de regresión con la computadora
En la actividad 1 hemos analizado el caso de una empresa con orientación a las ventas y estudiamos
la relación entre las variables: Inversión en Publicidad y Ventas Brutas. Dicho estudio fue realizado
en forma manual. Iniciemos entonces nuestra aproximación al software a través de la comparación
de los resultados manuales con los obtenidos con la PC.
Resolvamos entonces, con el EXCEL, el problema de Publicidad y Ventas.
Las técnicas de regresión se encuentran en el EXCEL, en el menú Herramientas/ Análisis de
Datos/Regresión. Recordemos que hemos utilizado el módulo de Análisis de Datos en la unidad
temática de Simulación (módulo 2 de la presente asignatura). Un ejemplo de cómo utilizarla se
anexa en el archivo Opción regresión en EXCEL, disponible en la actividad.
Reconozcamos en la salida de EXCEL el sitio donde se ubica la información necesaria para
interpretar la regresión.
En especial determinemos: ¿dónde están los coeficientes de correlación y de determinación?;
¿dónde se ubican los estimadores de los parámetros de este modelo (estimadores de α, β y σ ε)?;
¿dónde se encuentran los resultados de la prueba ANOVA?; ¿dónde los de las pruebas sobre los
coeficientes?; y finalmente: ¿dónde los residuos?
Repitamos el análisis anterior, utilizando un soft especialmente desarrollado para estadística, y
comparemos los formatos de ambas salidas.
Son muchos los paquetes de programas orientados específicamente a la Estadística. Se pueden citar,
por ejemplo: SPSS; SAS; STATGRAPH; MINITAB. En general, tienen versiones demo disponibles
en Internet.
No tengo Excel ¡Como hago con el GNUmeric!
En la salida del EXCEL hay algunos rótulos incorrectos. Contrastemos con la siguiente versión, ya
corregida:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,9696834 La correlación se obtiene como raíz de la
determinación. El soft no le coloca signo.
Coeficiente de determinación R^2 0,9402860
R^2 ajustado 0,9283432
Error típico 0,0210696
Observaciones 7
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de F Probab. de F
libertad cuadrados los cuadrados
Regresión 1 0,03495178 0,03495178 78,73250910 0,00030239
Residuos 5 0,00221965 0,00044393
Total 6 0,03717143
Coeficientes Error típico Estadístico t Probab. de t

Intercepción 1,14376200 0,06383053 17,91874010 9,94E-006
Peso 0,00807700 0,00091031 8,87313412 0,00030239
84/96
PES-SanPi
De aquí se puede extraer lo siguiente:

Intercepción =bo =1,14376200
De aquí se puede decir:
- De acuerdo al valor del coeficiente de correlación múltiple, podemos afirmar que la variable X1 y
X2 se encuentran asociadas en forma directa de una manera muy fuerte con la variable dependiente
Ventas, en un 96%.
- De acuerdo al Coeficiente de determinación R2, podemos decir que el 94% de las variables
dependientes pueden ser explicadas por las variables independientes. El modelo es 96% eficiente
residuos son los errores
dice coeficiente d edeterminacion y correlacion
despues error tipico
la ordenada con la prueba t y la probabilidad asociada
la pendiente lo mismo
La función más eficaz es aquella que describe la variable dependiente con el menor error posible o,
dicho en otras palabras, con la menor diferencia entre los valores observados y predichos. La
diferencia entre los valores observados y predichos (el error de la función) se denomina variación
residual o residuos. Para estimar los parámetros de la función se utiliza el ajuste por mínimos
cuadrados. Es decir, se trata de encontrar la función en la cual la suma de los cuadrados de las
diferencias entre los valores observados y esperados sea menor. Sin embargo, con este tipo de
estrategia es necesario que los residuos o errores estén distribuidos normalmente y que varíen de
modo similar a lo largo de todo el rango de valores de la variable dependiente. Estas suposiciones
pueden comprobarse examinando la distribución de los residuos y su relación con la variable
dependiente.
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los F Probab. de F
libertad cuadrados cuadrados
Regresión 1p 0,03495178 0,03495178 78,73250910 0,00030239
SSR MSR=SSR/p MSR/MSE
Residuos 5 0,00221965 0,00044393
n-p-1 SSE MSE=SSE/n-p-1
Total 6 0,03717143
Coeficientes Error típico Estadístico t Probab. de t

Intercepción -4,47 5,63 0,79 0,45
Variable X 0,50 b 0,04 Sb 13,02 b/ Sb 1,1472E-06
Recta estimada
ŷi = -4,47 + 0,50xi
y = βo + β1x + ε
Ho: β1 = 0 (No hay relación)
Situación Hipotética
t = b/Sb
t es el estadístico que prueba esta hipótesis. Mientras b sea mas grande, tendremos mas evidencia en
85/96
PES-SanPi
contra de la hipótesis nula.

El ejemplo tiene 10 observaciones, nuestro t va a tener 9 grados de libertad. Asumimos un alfa de
0,5 y lo buscamos en la tabla si el valor que figura es menor a 13,2 se rechaza.
Si se rechaza quiere decir que existe una relacion entre las variables.
m3 | actividad 5
Para facilitar la comprensión del modelo general utilizado en regresiones, es conveniente realizar un
experimento con alguna planilla de cálculo. El ejercicio propuesto es el siguiente:
• Seleccionemos la expresión de una recta cualquiera con la forma Y = α + β X
• Asignemos a X unos veinte valores diferentes en una columna y calculemos los
correspondientes valores de Y.
• Generemos aleatoriamente la misma cantidad de valores de una distribución normal con
media cero y varianza igual a nueve.
• Sumemos a los valores anteriores de Y los números aleatorios generados, para obtener así
los Y definitivos.
• Estimemos una regresión lineal simple de los Y definitivos con los X iniciales.
Verifiquemos en la salida que los valores estimados de α, β y σ ε sean similares a los propuestos.
Prestemos atención especial a los valores del coeficiente de determinación y de la F de Fischer.
• Repitamos los pasos anteriores, pero generemos ahora una normal con varianza mayor que
la anterior, por ejemplo 36.
¿Qué cambios se han producido en los resultados? ¿Por qué decaen el coeficiente de determinación
y la F de Fischer?
• Repitamos los pasos anteriores, pero con la ordenada al origen igual a cero (el modelo debe
ser Y = β X).
¿Qué cambios se producen en los resultados? En la práctica, ¿cómo podemos darnos cuenta de que
la recta verdadera debe pasar por el origen?
• Repitamos los pasos anteriores, pero con la pendiente igual a cero ( β= 0, esto es: Y no
depende de X).
¿Qué cambios se producen en los resultados? En la práctica, ¿cómo podemos darnos cuenta de que
Y no varía con X?
• Cambiemos ahora el modelo original; por ejemplo, utilicemos una parábola en vez de
nuestra recta (usemos Y = α + β X2). ¿En qué sector de la salida se reconoce que hemos
cambiado el modelo?
• Para terminar el experimento, cambiemos la varianza. Por ejemplo, calculemos los primeros
diez valores de Y con varianza nueve y los últimos diez con varianza treinta y seis. ¿Cuáles
son las variaciones que se producen en la salida?
m3 | actividad 6
Aplicación a un caso de estudio
Luego de las tareas anteriores, es bueno que procuremos transferir a un problema los conocimientos
adquiridos. Para ello, supongamos que un hipermercado ha llevado durante las últimas semanas
registros de diversas variables que pueden estar relacionadas con su nivel de ventas. Las variables
son las siguientes:
• Descuento promedio por artículo: todas las semanas se colocan quince artículos en una
bandeja de ofertas; luego, esta variable representa el descuento promedio (en pesos), por
artículo, para cada semana.
• Cantidad promedio de folletos distribuidos por día: la folletería se distribuye incluso
sábados y domingos; entonces, esta variable es el resultado de dividir por siete la cantidad
86/96
PES-SanPi
total de folletos distribuidos en cada semana.

• Cantidad promedio de visitas por día: es nuevamente un promedio que se obtiene dividiendo
por siete la cantidad total de personas que visitaron las instalaciones en cada semana.
• Minutos de publicidad televisiva en la semana: es el total de tiempo contratado.
• Ventas promedio diarias: es la facturación total de la semana dividida por siete.
Los datos obtenidos para veinticinco semanas se reproducen en Datos
A la gerencia del hipermercado le interesa contar con algún buen modelo que le permita identificar
los factores que influyen sobre las ventas. Existen, por supuesto, algunas cosas obvias, como que a
mayor cantidad de visitas hay mayor venta. Pero interesa explicar la concurrencia, es decir, cuáles
son las acciones que atraen visitantes.
Para orientar la investigación, analicemos las siguientes cuestiones:
• ¿Qué porcentaje de la variación de las ventas es explicado por la cantidad de visitas?
¿Cuánto dinero compra, en promedio, cada visitante?
• ¿Cuáles son las acciones publicitarias que mayor influencia tienen sobre las ventas?
• Establezcamos una política adecuada para potenciar las ventas en las próximas semanas.
• Antes de abandonar este caso, exploremos de nuevo todas las regresiones posibles, incluso
folletos distribuidos con minutos de TV, o descuentos con TV.
De todas esas regresiones, identifiquemos cuál es la que arroja la peor capacidad predictiva, la que
muestra menos relación y la que presenta el peor comportamiento de los residuos.
Datos Problema Hipermercado
Semana Desc prom/Art Folletos/día Cant Visitas/día Min TV/Semana Ventas/día

1 0,82 4400 2127 40,20 6343,94
2 0,51 3800 1777 34,18 5466,44
3 1,06 5600 2691 25,65 8233,30
4 1,39 6600 3186 52,99 9661,88
5 1,37 6200 3006 59,66 8954,56
6 1,45 7000 3365 31,72 10278,92
7 0,42 3600 1750 25,01 5524,43
8 0,85 4600 2249 39,67 6792,42
9 1,35 5800 2820 23,28 8233,05
10 0,55 5000 2358 56,20 7773,58
11 0,67 4200 1973 26,55 5985,68
12 0,45 3600 1709 27,02 5298,34
13 0,44 4200 2038 34,43 6671,43
14 0,58 4400 2056 55,73 6483,18
15 0,64 4200 1976 31,30 6046,77
16 0,42 4000 1900 56,01 6134,48
17 0,71 4800 2273 58,19 7136,62
18 0,78 5600 2729 51,09 8889,73
19 1,01 5200 2471 48,79 7413,18
20 0,79 5600 2693 22,32 8712,94
21 0,81 5200 2544 54,56 8076,18
22 0,79 4000 1888 41,17 5417,76
23 1,40 6600 3153 25,79 9505,91
24 0,91 3800 1816 35,28 4902,47
25 0,87 4200 1955 26,67 5553,30
87/96
PES-SanPi
m4 | actividad 1
Análisis de series temporales
Una planta industrial se dedica a la producción de cajas de velocidad de automóviles. La producción
es tanto de productos terminados como de repuestos, dado que la planta debe proveer cajas a las
fábricas que arman los vehículos y piezas sueltas al mercado de la reparación.
Nos hemos responsabilizado por el desarrollo de un sistema informático para administrar el
inventario de repuestos. Este sistema debe ser capaz de emitir los pedidos semanales de
reaprovisionamiento de cuatro piezas diferentes al sector encargado de producir los repuestos.
Claro está que, para poder efectuar los pedidos semana a semana, debemos ser capaces de
pronosticar las demandas que vamos a recibir. Por ese motivo hemos recogido información sobre
los requerimientos recibidos en las últimas semanas, para las cuatro piezas mencionadas. Dicha
información se presenta en datos de pedidos de piezas.
Serie: Pedidos semanales
t en semanas Vtas en cantidad de unidades por semana
Datos de pedidos por piezas
Tiempo Ventas pieza 1 Ventas pieza 2 Ventas pieza 3 Ventas pieza 4 Vtas
1 225 163,44 396,55 151 1369
2 220 138,80 421,55 146 1554
3 235 165,42 430,52 161 2271
4 243 135,77 456,58 172 2726
5 235 160,45 470,61 175 2422
6 226 144,56 471,80 182 2297
7 214 147,91 461,70 154 1175
8 227 141,35 492,40 172 1751
9 222 158,38 511,24 186 2461
10 213 139,37 508,70 171 2509
11 221 177,57 527,40 177 2255
12 208 140,59 546,50 172 1924
13 199 135,03 618,75 174 1269
14 222 173,44 656,18 184 1716
15 253 141,70 672,95 189 2297
16 249 127,90 681,31 181 2465
17 232 164,81 695,62 196 2351
18 228 147,34 694,91 201 2163
19 242 148,13 696,44 208 1577
20 246 152,59 670,19 207 1856
21 223 158,67 652,81 210 2435
22 195 156,32 651,60 213 2782
23 173 152,12 681,67 230 2678
88/96
PES-SanPi
24 166 138,63 650,41 221 2277

25 166 162,11 655,40 1586
26 173 139,25 651,78 1898
27 169 158,63 616,92 2813
28 161 158,35 606,19 3033
29 144 122,29 568,92 2892
30 130 165,44 566,08 2275
31 121 145,17 555,09 1876
1817
2706
3127
2911
2421
1643
2175
2665
3198
2553
2394
800,00
700,00
600,00
500,00
400,00
300,00
200,00
100,00
0,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Ventas pieza 1 Ventas pieza 2 Ventas pieza 3 Ventas pieza 4

89/96
PES-SanPi
Adicionalmente debemos pronosticar la serie de ventas totales de repuestos, organizadas por

bimestre, que también se registra en el archivo mencionado.
Con esa información, la propuesta es que realicemos el análisis de todas las series observadas. En la
tarea de análisis elaboremos una gráfica de la serie, determinemos promedios móviles y calculemos
la función de correlación. En el material auxiliar “FAC” se ejemplifica el modo de cálculo de la
función de autocorrelación.
Por supuesto, es importante que interpretemos de manera adecuada los resultados obtenidos. En la
interpretación de resultados de cada serie, analicemos si es estacionaria o no estacionaria.
Cualquiera sea la respuesta anterior, reflexionemos sobre cuál puede ser el modelo adecuado para
pronosticar en cada caso.
Reflexión preliminar:
En la gráfica de serie se observa una variabilidad, la serie de tiempo parece ser estable a través del
tiempo. En consecuencia, se pueden aplicar los métodos de suavizamiento.
Una importante consideración al seleccionar un método de pronóstico es la precisión del mismo.
En forma clara, deseamos pronosticar errores pequeños.
Parecería haber estacionalidad, pero los periodos de duración no son claros tampoco. Por esto es
que es muy difícil arriesgar a simple vista que modelo será el más conveniente.
En primer lugar resulta sumamente útil graficar la serie de datos, y encontrar la función de auto
correlación (FAC) que nos permitirá a priori determinar el modelo de ajuste más conveniente
m4 | actividad 2
Pronóstico con métodos de suavizado
En la actividad 1 planteamos la necesidad de pronosticar las demandas de cuatro piezas y las ventas
totales de repuestos en una empresa. Nuestra primera tarea fue la de analizar las series observadas,
para comprender si son estacionarias o no y para identificar sus comportamientos característicos.
Ahora bien, una de nuestras posibilidades a los fines de pronóstico es utilizar modelos de suavizado
exponencial. Reflexionemos sobre cuál de las series puede ser representada con estos modelos.
Recordemos que los modelos de suavizado son aplicables con series estacionarias. Por otro lado,
recordemos que una buena señal es que la FAC presente sólo uno o dos coeficientes de correlación
significativamente diferentes de cero.
Para las series seleccionadas, implementemos las siguientes alternativas:
• Promedios móviles
• Promedios móviles ponderados
• Suavizado exponencial En este modelo debemos probar con distintos valores del coeficiente
alfa y adoptar el que hace mínima la suma de cuadrados de los errores.
Comparemos los resultados obtenidos en el ajuste de estos tres modelos y adoptemos el más
conveniente a los fines de pronóstico. La capacidad del modelo para predecir los valores futuros de
las series se cuantifican con la suma de cuadrados de los errores o el promedio de esta suma de
cuadrados. La intención es adoptar el que obtenga la menor suma.
Apliquemos el modelo seleccionado para pronosticar las demandas en los tiempos 32, 33 y 34.
m4 | actividad 3
Modelo autorregresivo
En la actividad 1 planteamos la necesidad de pronosticar las demandas de cuatro piezas y las ventas
totales de repuestos en una empresa. En la segunda exploramos la posibilidad de pronosticar con
modelos de suavizado y valoramos el error cuadrático que obtienen los mismos.
Sucede que otra opción interesante para representar series estacionarias es la de los modelos
autorregresivos. Por ese motivo, es importante que analicemos cuál de las series puede ser tratada
90/96
PES-SanPi
con este tipo de modelo. A 1

Los modelos de suavizado son aplicables con series estacionarias. Además, tienen la propiedad de
que su función de autocorrelación presenta decaimiento exponencial. Esto es, el segundo coeficiente
de la FAC es el cuadrado del primero, el tercer coeficiente es el cubo del primero y así
sucesivamente.
Por supuesto, no podemos esperar que en la muestra esta relación se verifique de manera perfecta,
por lo que es suficiente que sea similar.
Resultados como los siguientes indican que el autorregresivo puede ser un modelo adecuado:
Ejemplo 1:
Retardo 1 2 3 4 5
FAC teórica 0,7 0,49 0,34 0,24 0,17
FAC obtenida 0,7 0,53 0,32 0,21 0,1
Ejemplo 2:
Retardo 1 2 3 4 5
FAC teórica -0,8 0,64 -0,51200 0,40960 -0,32768
FAC obtenida -0,8 0,6 -0,45 0,38 -0,25
Estimemos los parámetros del modelo autorregresivo para la serie seleccionada. A 2
El modelo autorregresivo tiene la forma:
Zt = C + φ Zt-1 + a t
donde Zt es el valor actual de la serie, Zt-1 es el valor inmediato anterior, C es una constante, φ es el
coeficiente que relaciona el valor actual con el anterior y at es el coeficiente que representa el error,
el cual conceptualmente debe ser entendido como una variable aleatoria normal con media cero y
una cierta varianza.
Debemos notar que esa formulación es idéntica a la trabajada en regresión lineal simple. Es decir,
nuevamente representamos la relación con una recta donde C es la ordenada al origen, en tanto que
φ es la pendiente. Por otra parte, el criterio de estimación sigue siendo el de minimizar la suma de
cuadrados de los errores.
Por ese motivo, lo razonable es que utilicemos nuestras herramientas de regresiones para estimar
estos parámetros.
Valoremos el error cuadrático obtenido y comparemos con la perfomance que en ese aspecto
obtuvieron los modelos de suavizado.
Como se hizo con los métodos de suavizado, la capacidad del modelo para predecir los valores
futuros de las series se cuantifica con la suma de cuadrados de los errores o el promedio de esta
suma de cuadrados.
Finalmente, utilicemos el modelo autorregresivo implementado para pronosticar las demandas para
los tiempos 32, 33 y 34.
m4 | actividad 4
Proyección de tendencia
En una de las actividades anteriores del presente módulo hemos trabajado sobre la necesidad de
construir modelos de pronóstico para las demandas de repuestos atendidos por una empresa
dedicada a la producción de cajas de velocidad.
Ahora bien, la pieza cuatro forma parte de un nuevo tipo de caja de cambio con poca historia en el
mercado, motivo por el cual contamos con menos datos.
Además, seguramente hemos notado en las actividades anteriores que la serie presenta una
tendencia ascendente, que no parece haber llegado aún a su punto de meseta.
91/96
PES-SanPi
Por los motivos apuntados, estimemos un modelo de proyección de tendencia para las demandas de
la pieza 4. La estimación se describe en detalle en el texto. La idea nuevamente es muy simple:
consiste en realizar una regresión con Z como la variable dependiente, y el tiempo t como
independiente.
Cuantifiquemos la calidad de la representación con el mismo criterio utilizado en los anteriores
modelos, esto es, la suma de cuadrados de los errores. La intención de esta parte de la actividad es
que podamos relacionar el concepto de suma de cuadrados de errores, que trabajamos en
regresiones, con el de la presente unidad temática.
Finalmente, realicemos el pronóstico de las demandas correspondientes a las siguientes tres
semanas.
m4 | actividad 5
Series con tendencia y fluctuación estacional
En actividades anteriores del presente módulo hemos trabajado sobre la necesidad de construir
modelos de pronóstico para las demandas de repuestos atendidos por una empresa dedicada a la
producción de cajas de velocidad.
Una de las series bajo estudio corresponde a siete años de observaciones de ventas totales realizadas
por bimestre. Consideremos que, entre las cinco series de nuestro problema, esta es la única en que
se puede analizar la posible acción de una fluctuación estacional. Esto es así porque hay varios años
observados y porque los datos se agregan en intervalos menores al año.
Para dicha serie implementemos un modelo de pronóstico adecuado, mediante la realización de las
siguientes tareas:
• Estimemos una función que permita proyectar la tendencia.
• Determinemos los índices estacionales representativos de las fluctuaciones bimestrales.
• A partir de dichas estimaciones, pronostiquemos las ventas totales del octavo año.
Notemos que el pronóstico se realiza en base a las estimaciones de tendencia y estacionalidad. Es
decir que, en la proyección, no es posible considerar las variaciones cíclicas e irregulares.
92/96
PES-SanPi
EJERCICIOS SIMULACIÓN
1. Un grupo de trabajo se encarga de la calibración de aparatos de medición. El grupo trabaja
durante ocho horas diarias. Si en un cierto día no logra calibrar todos los aparatos, deben hacer
horas extras dado que no se puede dejar el trabajo para el día siguiente.
Las cantidades de equipos a calibrar en cada jornada responden a la siguiente distribución:
Cantidad 2 3 4
Probabilidad 0,2 0,6 0,2
Por otra parte, el tiempo necesario para efectuar la calibración de un aparato de medición es una
variable aleatoria con distribución Uniforme entre 100 y 220 minutos.
Se desea aproximar el porcentaje de días en se deberán abonar horas extras.
Realice la simulación de cinco días de trabajo. Explique cómo se resumen los resultados.
Determine la cantidad de días que es preciso simular para que el error en el resultado sea menor
a 0,01.
ocho horas diarias son 480 minutos
marcamos con cero el tiempo menor a 480 y con 1 el mayor a 480
Dia Cant Tiempos de calibración Tiempo > 480
Equipos
1 4 308 0
2 3 520 1
3 3 350 0
4 2 352 0
5 3 476 0
Formula para generar variable aleatoria UNIFORME

x = a + Rn (b-a)
Dia 1
x = 100 + Rn(220-100) → 100 + 0,19(220 – 100)
x = 122
equipo 1 → 122
equipo 2 → 86
equipo 3 → ...
equipo 4 → …
total dia 1 308 minutos
...
Y seguimos asi hasta llenar la columna 3.
Como solo 1 de 5 tiene tiempo mayor a 480

la proporción π = 1/5 → π = 0,2
o sea que un 20% debemos pagar horas extras
con la fórmula de las proporciones sacamos la cantidad de dias que se necesitan simular
e = 0,01
con z = 1,96
n = (1,96)2 (0,2)(1-0,2) → n = 6144
(0,01)2
93/96
PES-SanPi
2. Una distribuidora vende unos embutidos especiales que tienen un reaprovisionamiento

semanal, que debe hacerse por una cantidad constante de unidades. Cada embutido vendido deja
una ganancia de $ 10. Cada ejemplar almacenado representa un costo de $ 1 por unidad y por
semana. La distribución de la demanda semanal es:
Demanda 2 3 4 5 6 7
Probabilidad 0,1 0,25 0,2 0,15 0,1 0,1
a – Determine el resultado de pedir cinco unidades, realizando la simulación de tres semanas.
b - Si se desea determinar la cantidad óptima de unidades a pedir, con un determinado error en
los resultados: ¿cómo es posible determinar la cantidad de semanas que debemos simular?
Alternativa: pedir 5 unidades
Semana Demanda Unidades Unidades Beneficio por costo Beneficio
Vendidas sobrantes ventas Neto
1 3 3 2 30 2 28
2 7 5 0 50 0 50
3 5 5 0 50 0 50
b - Si se desea determinar la cantidad óptima de unidades a pedir, con un determinado error en
los resultados: ¿cómo es posible determinar la cantidad de semanas que debemos simular?
π= 2/3 → 0,66
con z=1,96
n = 3,84[(0,66)(1-0,66)]/ e2→ n = 3,84(0,66)(0,33)/e2 → n= 0,85/e2
Error
0,05 340
0,03 945
0,01 8500
94/96
PES-SanPi
3. Se desea simular el funcionamiento del Servicio de Atención al Cliente de una empresa de

servicios. A los fines del estudio, se reconocen dos Tipos de consultas:
D: desperfectos técnicos y R: reclamos por disconformidad. Los clientes arriban a la sección, de
acuerdo a una distribución exponencial con media 10 minutos (este tiempo puede generarse:
t = – μ Ln Rn). El tiempo de atención también tiene distribución exponencial pero con medias
diferentes según el tipo de consulta. En la siguiente Tabla se presentan las probabilidades de cada
tipo de cliente y las medias del tiempo de atención:
Tipo de Atención Probabilidad Media tiempo atención
Desperfectos 0.7 8 minutos
Reclamo 0.3 5 minutos
Simule la llegada y atención de tres clientes consecutivos, para determinar el tiempo promedio de
espera por cliente. ¿Cuántos clientes simularía para realizar un estudio real?.
Clie Tipo de Atención Tiempo de llegada Tiempo de Tiempo de Total de

nte atención espera tiempo
1 D 0 10 0 10
2 D 4 4 6 10
3 R 2 6 8 14
Asi generamos los tiempos para cada cliente

t = – 8 Ln Rn
t = – 8 Ln Rn
t = – 5 Ln Rn
tiempo de llegada
t = – 10 Ln Rn
Asumimos que el cliente 1 no espera a ser atendido y por la generacion aleatoria de tiempo el
cliente 1 tiene 10 minutos de atencion.
Cliente 1 Cliente 2 Atención Cliente 3 Atención

Espera Espera
Promedio de la simulación con tres clientes 11,33 minutos

Desvio 2,31
Como 2 de 3 con tiempo de espera 10 cumple hacemos π= 2/3 → 0,66
Un estudio real con e=0,01 y z= 1,96 se necesitaria
n = 3,84[(0,66)(1-0,66)]/ (0,01) 2→ n = 8500
95/96
PES-SanPi
4 Suponga que le encargan un modelo de simulación que permita estimar la distribución de

probabilidad de las ganancias mensuales de una pequeña agencia de automóviles. Se sabe que
la demanda mensual total de automóviles tiene una distribución uniforme de entre 30 y 50
automóviles. A su vez hay automóviles de tres tipos de modelos, los porcentajes de venta de cada
modelo son:
Chico: 45 % Mediano: 35 % Familiar: 20 %
Las ganancias por cada modelo son:
Chico: $ 1000 Mediano: $ 1500 Familiar: $ 2500
Indique la conformación general de la simulación que realizaría (no la realice).
Explique como generaría cada uno de los impulsos aleatorios necesarios.
Modelo Probabilidad acumulada ganancia
Chico 0,45 0,45 1000
Mediano 0,35 0,8 1500
Familiar 0,2 1 2500
En este caso el orden en que se colocan los modelos no es importante. Lo único necesario es que
la probabilidad total igual a 1, sea repartida correctamente entre las posibles elecciones
Para obtener un valor de Demanda se genera un Random, se ingresa con ese número en la
columna de Probabilidad Acumulada hasta encontrar la primera probabilidad que es mayor que
el Rn. Una vez encontrada, recorriendo esa fila se busca la cantidad correspondiente.
Por ejemplo, si el número aleatorio generado es Rn = 0.62, entonces el modelo es mediano. El
criterio en este caso es que se adopta como valor de X el primero cuya Probabilidad Acumulada
es mayor al Rn.
Con este razonamiento, si se genera un Rn = 0.93 entonces la elección simulada del cliente es
familiar.
Si los Rn son los siguientes : 0.76 ; 0.43 ; 0.187. Determinamos las correspondientes elecciones
del modelo como mediano, chico, chico. Lo hacemos 20 veces y asi armamos otra tabla con
modelos y cantidad
Modelo cantidad 10
9
Chico 9
8
Mediano 7
7
Familiar 4
6
0
1 2 3
Podemos representar graficamente los resultados
96/96

Apunte Estadistica para Administradores

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Apunte Estadistica para Administradores

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Estadistica para Administradores

Cargado por

Copyright:

Formatos disponibles

PES-SanPi

Módulo 1: Pruebas de Hipótesis...........................................................................................................5

Procedimientos Estocáticos y Simulación

Módulo 1: Pruebas de Hipótesis

REVISIÓN DE ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA

Frecuencia Frecuencia Frecuencia Frec. Relat. Frecuencia Frec. Porc.

b. Método gráfico gráficos,

sesgado a la izquierda sesgado a la derecha

3. Determinar la distribución de frecuencia

Nivel de 99,73 99 98 96 95,45 95 90 80 68,27 50

Características de cada distribución

Insesgado . Un estimador es insesgado si el valor promedio o esperanza matemática del estimador

es igual al valor del parámetro.

Los pasos necesarios para realizar un contraste relativo a un parámetro θ son:

Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa Ha.

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

Muestra grande - ⌠ Conocida

Muestra grande - ⌠ Desconocida

Muestra pequeña - σ Desconocida

Paso 4: Formular la regla de decisión

PROBABILIDADES DE LOS DIFERENTES TIPOS DE ERRORES

Ejemplo en la cual se indica el procedimiento para la prueba de

Calculamos la desviación estándar muestral y la media:

Pruebas sobre la varianza y la media de una normal

• Media: z > zα / 2 o z < − zα / 2 o t > tα /2 o t < − tα /2

4. Cálculo (estimación del estadístico con los datos de la muestra)

3. Regla de rechazo: Rechazar Ho si z...zα (este último es según valor en TABLA)

Pruebas sobre una proporción

Pruebas para verificar modelos de probabilidad

a 5. Se deben agrupar. Sumatoria = x2

5. Contraste y decisión (rechazar o no rechazar Ho)

Pruebas de tablas de contingencia

Prueba de independencia (chi-cuadrado)

Frecuencia esperada eij ( fij − eij ) 2

1. Regla de rechazo: Rechazar Ho si χ 2 > χ α2 (los grados de libertad se calculan = cantidad

Pruebas para comparar poblaciones

Elementos de un modelo de simulación

Generación de números aleatorios

1. se genera número random con calculadora.

Variables cuantitativa-discreta-POISSON (método de Montecarlo)

1. se genera número random con calculadora.

Variables cuantitativa-continua-NORMAL (método de Algoritmo del Teorema del Límite Central)

Método de Montecarlo y otras formas de generar variables

2. se genera con la calculadora un número random y se busca la primera probabilidad

95% .05 .025 1.96

1. Se generan 12 números random y se los suma.

5. Se busca el valor con frecuencia acumulada más cercano a la proporción buscada.

Simulación de fenómenos de espera

Valores de Zα/2 para los niveles de confianza de uso más común

Longitud de las corridas

Frecuencia relativa acumulada

Módulo 3: Regresión y Correlación

mín ∑ ( y i − yˆ i ) 2 (donde y es el valor observado, e ŷ es el valor estimado)

Modelo lineal general

Observación: al estimado b1 con la calculadora se deben manejar tantos dígitos significativos

Estimación de una recta de regresión

Coeficientes de determinación y correlación