Capitulo 4

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

CAPITULO IV

DESARROLLO DE LA INVESTIGACIÓN

En este capítulo se expondrán los métodos utilizados para el pronóstico de los siniestros

del seguro de Gastos Médicos Mayores, con base en los datos proporcionados por la

Comisión Nacional de Seguros y Fianzas y una aseguradora del mercado mexicano. En

primera instancia, el problema se tratará de resolver por los métodos de regresión lineal y

regresión exponencial, siendo éstos los modelos más sencillos. Sin embargo, por las

características del problema se tratará de resolver por medio de los métodos de series de

tiempo, como el método de descomposición y el método Box-Jenkins, siendo éste uno de

los modelos más completos que existen para pronosticar variables aleatorias en el tiempo.

A lo largo de este capítulo se explicará el desarrollo e implementación de cada uno de

estos métodos.

IV.1 Pronósticos

Pronosticar es el “arte” de predecir el valor futuro de una variable aleatoria con más de un

posible resultado; dicha predicción se hace tratando de ser lo más exacto posible. Los

pronósticos se elaboran con información disponible y a la vez ocupando herramientas de

disciplinas como la estadística, la economía y la informática. Es por eso que son de gran

ayuda al predecir posibles cambios en el tiempo. Las decisiones críticas pueden ser

tomadas a partir del análisis de expectativas racionales de condiciones futuras.

77
Si las decisiones se pudieran ajustar a nuevas condiciones instantáneamente y sin incurrir

en costos, no habría necesidad de pronosticar.

IV.2 Regresión Lineal

Dentro de los métodos más sencillo para hacer un pronóstico, se encuentra el método de

regresión lineal. Este procedimiento consiste en encontrar una relación lineal entre dos

variables, una variable dependiente y otra independiente. Dicha relación se expresará con

la ecuación de una recta que mejor ajuste los datos. Sin embargo dicho método tiene

limitaciones, pues no considera cambios externos ni ciclos en el tiempo.

Aunque se utilizó este método para hombres y mujeres para todos y cada uno de los

rangos quinquenales en los que se divide el Seguro de Gastos Médicos, a manera de

ejemplo, sólo se muestra el resultado para mujeres en el rango de 0 a 4 años.

La regresión simple, puede ser escrita como

Yˆt = a + bX t (4.1)

Donde:

Yˆt = Es la variable proyectada

X t = Es la variable explicativa

a = Intercepción en el eje Y

b = Valor de la pendiente

78
El programa estadístico Minitab obtiene dichos cálculos, donde a = 91.2801 y

b = 2.8229 , quedando de la siguiente manera:

Yt = 91.2801 + 2.82292t (4.2)

Los valores del pronóstico bajo este esquema lineal se observan en la tabla 4.1 y

graficados en la figura 4.1. Analizando la serie de tiempo de los siniestros se puede

observar que muestra un patrón estacional anual. Sin embargo los valores del pronóstico

con regresión lineal no siguen ningún patrón más que el de una línea de regresión.

Es necesario considerar que los valores arrojados por este modelo son números reales,

por lo que se han redondeado los pronósticos al entero próximo superior pues los

siniestros se dan en números enteros.

Tabla 4.1
Periodo Pronóstico
Ene-05 433
Feb-05 436
Mar-05 439
Abr-05 442
May-05 445
Jun-05 447
Jul-05 450
Ago-05 453
Sep-05 456
Oct-05 459
Nov-05 462
Dic-05 464
Fuente: Elaboración propia

79
Trend Analysis Plot for Mujeres (0-4)
Linear Trend Model
Yt = 91.2801 + 2.82292*t
Variable
500 A ctual
Fits
Forecasts

400 A ccuracy Measures


MA PE 31.79

Mujeres (0-4)
MA D 62.82
MSD 5880.27
300

200

100

1 13 26 39 52 65 78 91 104 117 130


Index

Figura 4.1 Pronóstico con el método de Regresión Lineal para edades 0-4 mujeres.
Fuente: Elaboración propia

IV.3 Regresión Exponencial

Pronosticar el número de siniestros con una regresión exponencial es un método

alternativo para prever el crecimiento de este ramo de los seguros. Esta regresión es

descrita en la sección III.1.2 y es posible escribirla como:

Yˆt = a * b X t (4.3)

Donde:

Yˆt = Es la variable proyectada

X t = Es la variable explicativa

a = Intercepción en el eje Y

b = Valor de la pendiente

El pronóstico para el rango 0 a 4 de mujeres queda expresado por la ecuación de

regresión exponencial:

80
Yt = 119.536 *1.01107t (4.4)

Los valores del pronóstico se muestran en la tabla 4.2 y la serie de tiempo en la figura

4.2.

Tabla 4.2
Periodo Pronóstico
Ene-05 453
Feb-05 458
Mar-05 463
Abr-05 469
May-05 474
Jun-05 479
Jul-05 484
Ago-05 490
Sep-05 495
Oct-05 500
Nov-05 506
Dic-05 512
Fuente: Elaboración propia

Trend Analysis Plot for Mujeres (0-4)


Growth Curve Model
Yt = 119.536 * (1.01107**t)
Variable
500 A ctual
Fits
Forecasts

400 A ccuracy Measures


MA PE 28.13
Mujeres (0-4)

MA D 60.60
MSD 5796.36
300

200

100

1 13 26 39 52 65 78 91 104 117 130


Index

Figura 4.2 Pronóstico con el Método de Regresión Exponencial para Edades 0-4
Mujeres.
Fuente: Elaboración propia

Como se observa, los dos métodos arriba mencionados (regresión lineal y regresión

exponencial) son capaces de proporcionar un pronóstico. Sin embargo, las gráficas

81
conducen a pensar en un comportamiento estacional de la serie de tiempo; por lo que se

intentará resolver el problema con modelos que contemplen estacionalidad.

IV.4 Series de Tiempo

Dadas las características del problema, como la estacionalidad de los datos, se decidió

emplear métodos de series de tiempo. Los dos métodos que se contemplan en este trabajo

son el de descomposición y los modelos Integrados Autorregresivos con Promedios

Móviles (ARIMA, por sus siglas en inglés).

IV.4.1 Método de descomposición para pronósticos de series de tiempo

Este método ha demostrado ser excelente para la predicción a corto y mediano plazos. No

es un método explicativo ya que no se puede inferir estadísticamente sobre sus resultados,

lo cual es uno de los puntos débiles del método. Sin embargo, dicho método identifica los

componentes de una serie de tiempo y los proyecta hacia el futuro, excepto el

componente aleatorio. El método puede incluir una regresión lineal o una regresión

exponencial y logra contemplar la estacionalidad de la serie y proyectarla al futuro. Los

valores del método con regresión lineal se muestran en la tabla 4.3 junto con su gráfica en

la figura 4.3. Para el método de descomposición con regresión exponencial sus valores y

gráficas se muestran en la tabla y figura 4.4.

82
Tabla 4.3
Periodo Pronóstico
Ene-05 245
Feb-05 227
Mar-05 290
Abr-05 337
May-05 576
Jun-05 643
Jul-05 658
Ago-05 673
Sep-05 644
Oct-05 615
Nov-05 495
Dic-05 346
Fuente: Elaboración propia

800

700

600
Número de Siniestros

500

400

300

200

100

0
0 20 40 60 80 100 120 140
Datos Dados Meses Pronósticos

Figura 4.3 Pronóstico con el Método de Descomposición Regresión Lineal Mujeres 0-4
Fuente: Elaboración propia

Tabla 4.4
Periodo Pronóstico
Ene-05 245
Feb-05 227
Mar-05 290
Abr-05 337
May-05 576
Jun-05 643
Jul-05 658
Ago-05 673
Sep-05 644
Oct-05 615
Nov-05 495
Dic-05 346
Fuente: Elaboración propia

83
600

500

Número de Siniestros
400

300

200

100

0
0 20 40 60 80 100 120 140

Meses
Datos Dados Pronósticos

Figura 4.4 Pronóstico con el método de Descomposición Regresión Exponencial Mujeres 0-4
Fuente: Elaboración propia

Este trabajo intentará resolver el problema de pronósticos por medio de una metodología

más completa en la que se puedan analizar estadísticamente los resultados, como es el

caso de la metodología Box-Jenkins.

IV.4.2 Implementación del método Box-Jenkins

Por la complejidad de este método, se ha decidido desarrollarlo en varias fases:

identificación, estimación del modelo y aplicación.

IV.4.2.1 Fase 1: Identificación

La primera fase involucra graficar la serie de tiempo, transformar los datos para

estabilizar la varianza y media (si es necesario), calcular las diferencias de los datos para

obtener series estacionarias, examinar las funciones de autocorrelación (ACF) y

autocorrelación parcial (PACF) para identificar posibles modelos.

84
IV.4.2.1.1 Graficar la serie de tiempo

Para la aplicación de la metodología ARIMA o Box-Jenkins, el primer paso es graficar la

serie de tiempo de los datos. En este caso se muestra en la figura 4.5 la serie de tiempo

para el número de siniestros de mujeres entre 0 y 4 años durante los últimos 10 años.

Analizando dicha serie se puede concluir una tendencia de crecimiento con una

estacionalidad anual, incrementándose durante los meses de mayo a julio en la mayoría

de los años.

Número de Siniestros Mujeres 0-4

600

500

400

300

200

100

0
Nov. 95

Nov-00
Jun-95

Jul-97

Jun-00

Jul-02
Ene-95

Abr-96
Sep-96
Feb-97

Dic-97
May-98
Oct-98
Mar-99
Ago-99
Ene-00

Abr-01
Sep-01
Feb-02

Dic-02
May-03
Oct-03
Mar-04
Ago-04

Figura 4.5 Serie de Tiempo para Número de Siniestros Mujeres 0-4


Fuente: Elaboración propia

La metodología Box-Jenkins se caracteriza por ser aplicable solamente a series de tiempo

estables en varianza, por lo que una vez graficada la serie de tiempo, se dividen los datos

en grupos y se obtienen las medias y varianzas en cada uno de los grupos, esto permite

identificar si la serie es estable en varianza, es decir, que se mantenga constante a través

del tiempo. En este trabajo, los datos disponibles para cada rango de edad, se

85
concentraron en 10 grupos de 12 datos cada uno; es decir: 10 años de datos mensuales.

De estos 10 grupos se calculó la media y varianza grupal:

Tabla 4.5
Grupo Media Varianza
1 167.5000 1058.2727
2 178.5833 1226.9924
3 169.5833 1825.5379
4 99.0833 359.5379
5 217.5000 1963.9091
6 237.0000 2017.6364
7 345.2500 5173.1136
8 424.2500 7612.2045
9 413.2500 9815.8409
10 368.6667 5313.5152
Fuente: Elaboración propia

Graficando los valores de las medias y de las varianzas de los grupos, se observa que la

media es relativamente constante a través del tiempo; sin embargo la varianza presenta

cambios significativos, tomando valores desde 360 hasta 9800 aproximadamente.

Media y Varianza

12000

10000

8000
Valores
Media
6000
Varianza

4000

2000

0
1 2 3 4 5 6 7 8 9 10
Grupos

Figura 4.6 Media y Varianza de los Grupos de Mujeres 0-4


Fuente: Elaboración propia

Si se grafica la media contra la varianza, se nota una relación que puede ser ajustada por

una línea:

86
Media vs. Varianza (Mujeres 0-4)

12000

10000

8000

Varianza
6000

4000

2000

0
- 100.00 200.00 300.00 400.00 500.00
-2000
Media

Figura 4.7 Serie de Tiempo para Número de Siniestros Mujeres 0-4


Fuente: Elaboración propia

IV.4.2.1.2 Transformación de los datos

La relación de tipo lineal entre la media y varianza infiere que la serie de tiempo de

siniestros de mujeres entre 0 y 4 años es una serie no estacionaria en varianza, por lo que

será necesario aplicarle alguna transformación que estabilice la varianza.

En este trabajo se utilizaron las transformaciones más comunes para estabilizar la

1 1
varianza: , , Z t y ln (Z t ) , donde Z t es el valor de la serie en el tiempo t . Para el
Zt Zt

rango entre 0 y 4 años de mujeres se consideró la transformación logarítmica como la

más adecuada, pues colabora también con la estabilización de la media, aunque este

supuesto no es indispensable para la metodología. Dada la semejanza entre la mayoría de

las series que se contemplaron en este trabajo, dicha transformación resulta ser eficiente

para estabilizar la mayoría de las series de tiempo de los siniestros. A partir de la

transformación logarítmica de los datos de este rango, se obtiene la tabla 4.6 y la figura

4.8:

87
Tabla 4.6
Grupo Media Varianza
1 5.1025 0.0419
2 5.1666 0.0412
3 5.1004 0.0764
4 4.5784 0.0394
5 5.3615 0.0471
6 5.4501 0.0409
7 5.8228 0.0488
8 6.0290 0.0488
9 5.9936 0.0716
10 5.8907 0.0431
Fuente: Elaboración propia.

Media y Varianza

4
Valores

Media
Varianza
3

0
1 2 3 4 5 6 7 8 9 10
Grupos

Figura 4.8 Varianza y Media de los Grupos de los Datos con Transformación
Logarítmica Mujeres 0-4
Fuente: Elaboración propia

Gracias a la transformación logarítmica, se puede apreciar que la varianza, al igual que la

media es estacionaria. Una vez hecha la transformación de la serie, se grafica la media

contra la varianza y se puede concluir que no existe relación alguna, pues los puntos se

encuentran dispersos, indicando la estacionariedad de la varianza.

88
Media vs. Varianza (Mujeres0-4) Transformada

0.09
0.08
0.07
0.06

Media
0.05
0.04
0.03
0.02
0.01
0
0 1 2 3 4 5 6 7
Varianza

Figura 4.9 Varianza contra Media de los Grupos de los Datos con Transformación
Logarítmica Mujeres 0-4
Fuente: Elaboración propia

La estacionariedad de la varianza es sólo un requisito de la metodología Box-Jenkins,

pero ello no implica que la serie en sí, sea estacionaria.

Como se dijo en el capítulo 3, el método Box-Jenkins sólo es aplicable para series de

tiempo estacionarias. En la práctica, la mayoría de las series de tiempo son no

estacionarias y las series de este trabajo no son la excepción, por lo que fue necesario

identificar, para cada uno de los rangos, si la serie de tiempo de siniestros es estacionaria

o no. Para confirmar la hipótesis de la no estacionariedad de las series, se grafica la

función de autocorrelación muestral, que en este caso decae muy lentamente a cero, lo

que comprueba que la serie es no estacionaria.

89
Autocorrelation Function for Mujeres 0-4
(with 5% significance limits for the autocorrelations)

1.0
0.8
0.6
0.4

Autocorrelation
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Lag

Figura 4.10 Función de Autocorrelación Simple Mujeres 0-4


Fuente: Elaboración propia

IV.4.2.1.3 Obtención de series estacionarias

Para obtener series estacionarias y así poder aplicar la metodología Box-Jenkins, fue

* *
necesario realizar una diferenciación. Se definió yt = yt − yt −1 . Es decir, el valor yt en

el tiempo t es el resultado de la diferencia de los valores de la serie en los tiempos t y

t − 1 . Este proceso asegura, en la mayoría de las veces, que la serie pierda tendencia y se

vuelva estacionaria. En caso de no lograr la estacionariedad, una segunda diferenciación

sería necesaria. En este trabajo sólo fue necesaria una diferenciación para lograr lo

deseado.

La serie de tiempo con una diferenciación se muestra en la figura 4.11, como se puede

apreciar carece de tendencia, por lo que se puede decir que se ha obtenido una serie

estacionaria.

90
Serie Diferenciada Mujeres 0-4

0.8

0.6

0.4

0.2

0
1 9 17 25 33 41 49 57 65 73 81 89 97 105 113
-0.2

-0.4

-0.6

-0.8

-1

Figura 4.11 Serie Diferenciada Mujeres 0-4


Fuente: Elaboración propia

Para comprobar la estacionariedad de la serie, se espera que las funciones de

autocorrelación simple y parcial caigan rápidamente a cero. Esto se observa en las figuras

4.12 y 4.13 respectivamente.

Autocorrelation Function for Mujeres 0-4 Diferenciado


(with 5% significance limits for the autocorrelations)

1.0
0.8
0.6
0.4
Autocorrelation

0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Lag

Figura 4.12 Función de Autocorrelación Simple de la Serie Diferenciada Mujeres 0-4


Fuente: Elaboración propia

91
Partial Autocorrelation Function for Mujeres 0-4 Diferenciado
(with 5% significance limits for the partial autocorrelations)

1.0
0.8
0.6

Partial Autocorrelation
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Lag

Figura 4.13 Función de Autocorrelación Parcial de la Serie Diferenciada Mujeres 0-4


Fuente: Elaboración propia

IV.4.2.1.4 Examinación de las funciones ACF y PACF

El siguiente paso es examinar y analizar las figuras 4.12 y 4.13. Dichas figuras

representan las funciones de autocorrelación simple y parcial respectivamente. El análisis

de hace para poder determinar el orden del modelo. Se intentará definir si se trata de un

modelo AR(1), AR(2) o de un modelo MA(1), MA(2).

Incluso el modelo podría ser una combinación de los procesos AR y MA dando como

resultado un posible modelo ARMA con parámetros (p,q), en el que la regla empírica

señala que los valores deben cumplir con la desigualdad p + q ≤ 2 . Pero al haber hecho

una diferenciación para estacionalizar la serie, el modelo, en caso de resultar un ARMA,

será un modelo ARIMA con parámetros (p,1,q).

Si la función de autocorrelación decae suavemente de forma geométrica y las

autocorrelaciones parciales son casi cero después de k retrasos, entonces un modelo

autoregresivo de orden [AR(k)], es apropiado.

92
Para el rango de edad con el que se ha estado trabajando, la función de autocorrelación

parcial muestra el primer retraso significativamente diferente de cero; por lo que se puede

deducir un modelo autorregresivo de orden uno [AR(1)] como modelo tentativo; y

aunque el número de correlaciones parciales significativamente diferentes de cero es

usado como un indicador preliminar del orden del modelo, no se podrá afirmar esto hasta

aplicar las pruebas estadísticas necesarias.

IV.4.2.2 Fase 2: Estimación del modelo

La siguiente fase dentro de la metodología incluye varios procesos: estimar los

parámetros en modelos potenciales, seleccionar el mejor modelo usando diversos

criterios, calcular las ACF y PACF de los residuos, realizar pruebas de normalidad de los

residuales de ACF y finalmente verificar que los residuales sean “ruido blanco”.

IV.4.2.2.1 Estimación de los parámetros del modelo

La estimación de parámetros en la familia de los modelos ARIMA es un problema no

lineal, por lo que no existen expresiones de forma cerrada para los estimadores. Los

valores óptimos de los parámetros tienen que ser estimados numéricamente por

aproximaciones sucesivas. Se sabe que el error aleatorio At es igual a zt − zˆt −1 , por lo que

se debe pronosticar z t −1 . Para un AR(1) se tiene: zt −1 = µ + φ1 ( zt −1 − µ ) Por lo que:

 zt − zˆt −1 = zt − µ − φ1 (zt −1 − µ )  (4.5)

93
θ0
Donde: µ=
1 − φ1

Las estimaciones preeliminares para comenzar la aproximación numérica se pueden

obtener de las ecuaciones que relacionan parámetros y autocorrelaciones. Por ejemplo,

para un modelo AR(2), como lo es el rango 10 a 14 de mujeres, se tienen las ecuaciones:

ρ 2 = φ1 ρ1 + φ 2 ρ o (4.6)

ρ1 = φ1 ρ o + φ 2 ρ1  (4.7)

Si en esas ecuaciones se sustituye las autocorrelaciones de la serie, se pueden obtener las

estimaciones para los parámetros. Las dos primeras autocorrelaciones del rango

mencionado son 0.9296 y 0.8397 respectivamente, por lo que se puede escribir:

0.929694 = φˆ 1(0.839726) + φˆ2 (4.8)

0.839726 = φˆ1 + φˆ2 (0.839726) (4.9)

Despejando los parámetros se puede obtener la primera estimación de los mismos:

φˆ1 = (0.929694 * 0.839726 - 0.839726)/ ( 0.839726 * 0.839726 - 1) = 0.200222

φˆ2 = 0.929694 - 0.200222 * 0.839726 = 0.761561

94
Para encontrar mejores valores de las estimaciones, el algoritmo de Minitab hace

pequeños cambios sucesivos en los valores estimados, evaluando la suma de cuadrados

de los residuales en cada paso y se detiene cuando la reducción en la suma de cuadrados

de los residuales llega a ser poco significativa.

N 2

∑ (z t − zˆt −1 (1))
t =1
(4.10)

Dicho valor depende del parámetro desconocido en el modelo, θ 0 ,φ1 ,K,φ p ,θ1 ,K,θ q y de

las observaciones z1 , z2 ,K, zn , por lo que la suma de cuadrados para un AR(1) es:

N 2

∑ (z
t =1
t − µ − φ1 (z t −1 − µ )) (4.11)

Este valor depende del parámetro desconocido θ 0 y φ1 en el modelo. De acuerdo con el

principio de los mínimos cuadrados, se estiman los parámetros desconocidos

θ 0 ,φ1 ,K,φ p ,θ1 ,K,θ q , para los cuales, la suma de los cuadrados es la más pequeña.

Después de haber identificado el modelo tentativo analizando las gráficas de

autocorrelación tanto simple como parcial y haber encontrado en todos los rangos un

patrón estacional de orden 12, es posible proponer un modelo.

95
En este momento se le llamará “Modelo Tentativo”, pues no se ha evaluado la

significancia de cada uno de los parámetros que Minitab plantea. Después de analizar los

autocorrelogramas del rango 0-4 de mujeres y siguiendo la metodología desarrollada en

las secciones III.2.5.7 y III.2.5.8, se llega al modelo ARIMA(2,1,0) * SARIMA(0,1,2) . El


12

análisis de cada modelo se lleva a cabo en el Apéndice A.

Los parámetros propuestos por el programa para el modelo tentativo de siniestros para

mujeres entre 0 y 4 son:

Tabla 4.7
¿Entra al
Type Coef SE Coef T P
modelo?
AR 1 -0.1030 0.0991 -1.04 0.301 NO
AR 2 -0.1791 0.1000 -1.79 0.076 NO
SMA 12 1.0164 0.0904 11.24 0.000 SI
SMA 24 -0.0678 0.0946 -0.72 0.475 NO
Fuente: Elaboración propia.

La columna “Coef” es el valor de los coeficientes, “SE Coef” es la desviación tipo de los

coeficientes y “T” es el estadístico de prueba ( T = Coef / SE _ Coef ).

IV.4.2.2.2 Selección de parámetros del modelo propuesto

Si el valor absoluto del estadístico T es menor a 2, hay evidencia para concluir que la

autocorrelación es muy cercana a cero, por lo que se obliga a no incluir dicho parámetro

en el modelo tentativo. Para este caso, los parámetros AR(1), AR(2) y SMA(24), quedan

fuera del modelo tentativo, por lo que el modelo modificado resulta de la siguiente

96
manera: ARIMA(0,1,0) * SARIMA(0,1,1) . Con base en este modelo modificado, los
12

parámetros estimados finales son:

Tabla 4.8
¿Entra al
Type Coef SE Coef T P
modelo?
SMA 12 0.6250 0.0930 6.72 0.000 SI
Fuente: Elaboración propia.

IV.4.2.2.3 Cálculo de las funciones ACF y PACF

Del modelo modificado se obtienen las funciones ACF y PACF de los residuos para

mostrar que sus residuos están incorrelacionados, es decir, que las autocorrelaciones son

lo suficientemente pequeñas para suponer que se comportan como ruido blanco. Sin

embargo se aplicarán pruebas estadísticas para comprobar dicha hipótesis.

ACF of Residuals for 0-4


(with 5% significance limits for the autocorrelations)

1.0
0.8
0.6
0.4
Autocorrelation

0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0

3 6 9 12 15 18 21 24 27
Lag

Figura 4.14 Función de Autocorrelación Simple de los Residuos del Modelo Modificado
Mujeres 0-4
Fuente: Elaboración propia

97
PACF of Residuals for 0-4
(with 5% significance limits for the partial autocorrelations)

1.0
0.8
0.6

Partial Autocorrelation
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0

3 6 9 12 15 18 21 24 27
Lag

Figura 4.15 Función de Autocorrelación Parcial de los Residuos del Modelo Modificado
Mujeres 0-4
Fuente: Elaboración propia

Las líneas punteadas en el autocorrelograma alrededor de los valores -0.2 y 0.2, son

1.96 1.96
intervalos de confianza calculados como − ≤k≤ , donde n = 120 y k representa
n n

los retrasos de los residuales. Mientras las autocorrelaciones de los residuales

permanezcan dentro de los intervalos de confianza, el modelo puede tomarse como

válido.

Para este rango, el correlograma demuestra que los residuos para el rango son

suficientemente pequeños para resultar correlacionados.

IV.4.2.2.4 Cálculo del estadístico Q de Box-Ljung

Como se definió en el apartado III.2.5.9.3, calculando los valores, el estadístico de prueba

es:

⎛ rk2 ⎞27
Q = 120(120 + 2 )∑ ⎜⎜ ⎟⎟ = 17.07045
k =1 ⎝ 120 − k ⎠

Los valores de rk2 se calculan en la tabla 4.9.

98
Tabla 4.9
k rk rk2
1 -0.06084 0.003701
2 -0.15429 0.023807
3 0.067511 0.004558
4 -0.02714 0.000737
5 -0.11629 0.013523
6 0.006688 4.47E-05
7 -0.03251 0.001057
8 0.002756 7.6E-06
9 -0.03364 0.001132
10 -0.01803 0.000325
11 -0.00218 4.76E-06
12 -0.1019 0.010384
13 0.177207 0.031402
14 -0.06164 0.0038
15 -0.03655 0.001336
16 0.003295 1.09E-05
17 -0.07984 0.006374
18 -0.02137 0.000457
19 0.000334 1.12E-07
20 0.08881 0.007887
21 0.045404 0.002062
22 -0.05883 0.003461
23 0.038208 0.00146
24 0.079316 0.006291
25 -0.04963 0.002463
26 0.000077 5.93E-09
27 -0.01 0.0001
Fuente: Elaboración propia

Este estadístico tiene una distribución Chi-cuadrada con k-r grados de libertad, de ahí se

pueden formular las siguientes hipótesis:

H0: Los errores no son ruido blanco

Ha: Los errores son ruido blanco

Se rechaza H0 si Q < χ k2− r

99
Para este rango, el valor de la Chi-Cuadrada con 27 grados de libertad con un α = 0.05 es

38.88512964. De este forma, con n = 120 , la regla de decisión queda:

Q = 17.0704 < 38.8851 = χ 27


2
; por lo que se rechaza la hipótesis H 0 y se llega a la

conclusión que el modelo propuesto es adecuado.

IV.4.2.2.5 Prueba de normalidad de los residuos

Se procede entonces a verificar que los residuales cumplan con el supuesto de distribuirse

de forma normal. Para eso, se postulan las siguientes hipótesis:

H 0 : Los valores de los residuales provienen de una distribución normal.

H a : Los valores de los residuales no provienen de una distribución normal.

Es posible hacer la prueba de normalidad para los residuos como lo muestra la figura

4.16.

Probability Plot of RESI1


Normal
99.9

99

95
90
80
70
Percent

60
50
40
30
20
10
5

0.1
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
RESI1

Figura 4.16 Prueba Gráfica de Normalidad de los Residuos del Modelo Modificado
Mujeres 0-4
Fuente: Elaboración propia

100
El estadístico de Anderson-Darling es uno de los métodos matemáticos que ayudan a

identificar que los residuales provienen de una distribución normal. Para este rango, con

α = 0.05 no se rechaza H 0 por lo que se puede decir que existe evidencia suficiente para

concluir que los residuales se distribuyen de forma normal.

IV.4.2.3 Fase 3: Aplicación

Para este rango de edad, los residuos pasaron la prueba de normalidad, por lo que se

puede concluir que los residuos cumplen con las características del ruido blanco. Una vez

que se obtuvo el modelo adecuado se pueden realizar pronósticos para uno o varios

periodos futuros y con el mismo modelo se pueden formular intervalos de confianza. Al

tener más datos disponibles, se puede utilizar el mismo modelo para revisar los

pronósticos, seleccionando otro periodo de origen. Si la serie parece cambiar a través del

tiempo, podría ser necesario recalcular los parámetros, o incluso desarrollar un modelo

nuevo por completo.

Habiendo identificado que los residuos se comportan como ruido blanco; el modelo

seleccionado que describe la serie de tiempo de los siniestros se puede desarrollar con la

ecuación:

ARIMA(0,1,0 )xSARIMA(0,1,1)
12

ϕ1 (B )ϕ112 (B )∇1∇1 yt = θ1 (B )θ112 (B )At

101
Aplicando procedimientos algebraicos definidos, se tiene:

( ) (
⇒ (1 − B ) 1 − B12 yt = 1 − θ12 B12 At )
(
⇒ 1− B − B + B
12 13
)y
t = At − θ12 At B12
⇒ yt − yt B12 − yt B + yt B13 = yt − yˆt −1 (1) − θ12 ( yt −12 − yˆt −13 (1))
⇒ yˆt −1 (1) = θ12 yˆt −13 (1) − θ12 yt −12 + yt B12 + yt B − yt B13
⇒ yˆt (1) = θ12 yˆ t −12 (1) − θ12 yt −11 + yt +1B12 + yt +1B − yt +1B13
⇒ yˆt (1) = θ12 yˆ t −12 (1) − θ12 yt −11 + yt −11 + yt − yt −12

Hay que recordar que para hacer estacionaria la serie, se tuvo que aplicar la

transformación logarítmica, por lo que para obtener la ecuación final de la serie de

tiempo se tiene que aplicar el antilogaritmo a la ecuación así como incluir los parámetros

estimados, queda de la siguiente manera:

e yˆ t (1) = 0.625 yˆ t −12 (1) + 0.375 yt −11 + yt − yt −12

102

También podría gustarte