Capitulo 4
Capitulo 4
Capitulo 4
DESARROLLO DE LA INVESTIGACIÓN
En este capítulo se expondrán los métodos utilizados para el pronóstico de los siniestros
del seguro de Gastos Médicos Mayores, con base en los datos proporcionados por la
primera instancia, el problema se tratará de resolver por los métodos de regresión lineal y
regresión exponencial, siendo éstos los modelos más sencillos. Sin embargo, por las
características del problema se tratará de resolver por medio de los métodos de series de
los modelos más completos que existen para pronosticar variables aleatorias en el tiempo.
estos métodos.
IV.1 Pronósticos
Pronosticar es el “arte” de predecir el valor futuro de una variable aleatoria con más de un
posible resultado; dicha predicción se hace tratando de ser lo más exacto posible. Los
disciplinas como la estadística, la economía y la informática. Es por eso que son de gran
ayuda al predecir posibles cambios en el tiempo. Las decisiones críticas pueden ser
77
Si las decisiones se pudieran ajustar a nuevas condiciones instantáneamente y sin incurrir
Dentro de los métodos más sencillo para hacer un pronóstico, se encuentra el método de
regresión lineal. Este procedimiento consiste en encontrar una relación lineal entre dos
variables, una variable dependiente y otra independiente. Dicha relación se expresará con
la ecuación de una recta que mejor ajuste los datos. Sin embargo dicho método tiene
Aunque se utilizó este método para hombres y mujeres para todos y cada uno de los
Yˆt = a + bX t (4.1)
Donde:
X t = Es la variable explicativa
a = Intercepción en el eje Y
b = Valor de la pendiente
78
El programa estadístico Minitab obtiene dichos cálculos, donde a = 91.2801 y
Los valores del pronóstico bajo este esquema lineal se observan en la tabla 4.1 y
observar que muestra un patrón estacional anual. Sin embargo los valores del pronóstico
con regresión lineal no siguen ningún patrón más que el de una línea de regresión.
Es necesario considerar que los valores arrojados por este modelo son números reales,
por lo que se han redondeado los pronósticos al entero próximo superior pues los
Tabla 4.1
Periodo Pronóstico
Ene-05 433
Feb-05 436
Mar-05 439
Abr-05 442
May-05 445
Jun-05 447
Jul-05 450
Ago-05 453
Sep-05 456
Oct-05 459
Nov-05 462
Dic-05 464
Fuente: Elaboración propia
79
Trend Analysis Plot for Mujeres (0-4)
Linear Trend Model
Yt = 91.2801 + 2.82292*t
Variable
500 A ctual
Fits
Forecasts
Mujeres (0-4)
MA D 62.82
MSD 5880.27
300
200
100
Figura 4.1 Pronóstico con el método de Regresión Lineal para edades 0-4 mujeres.
Fuente: Elaboración propia
alternativo para prever el crecimiento de este ramo de los seguros. Esta regresión es
Yˆt = a * b X t (4.3)
Donde:
X t = Es la variable explicativa
a = Intercepción en el eje Y
b = Valor de la pendiente
regresión exponencial:
80
Yt = 119.536 *1.01107t (4.4)
Los valores del pronóstico se muestran en la tabla 4.2 y la serie de tiempo en la figura
4.2.
Tabla 4.2
Periodo Pronóstico
Ene-05 453
Feb-05 458
Mar-05 463
Abr-05 469
May-05 474
Jun-05 479
Jul-05 484
Ago-05 490
Sep-05 495
Oct-05 500
Nov-05 506
Dic-05 512
Fuente: Elaboración propia
MA D 60.60
MSD 5796.36
300
200
100
Figura 4.2 Pronóstico con el Método de Regresión Exponencial para Edades 0-4
Mujeres.
Fuente: Elaboración propia
Como se observa, los dos métodos arriba mencionados (regresión lineal y regresión
81
conducen a pensar en un comportamiento estacional de la serie de tiempo; por lo que se
Dadas las características del problema, como la estacionalidad de los datos, se decidió
emplear métodos de series de tiempo. Los dos métodos que se contemplan en este trabajo
Este método ha demostrado ser excelente para la predicción a corto y mediano plazos. No
lo cual es uno de los puntos débiles del método. Sin embargo, dicho método identifica los
componente aleatorio. El método puede incluir una regresión lineal o una regresión
valores del método con regresión lineal se muestran en la tabla 4.3 junto con su gráfica en
la figura 4.3. Para el método de descomposición con regresión exponencial sus valores y
82
Tabla 4.3
Periodo Pronóstico
Ene-05 245
Feb-05 227
Mar-05 290
Abr-05 337
May-05 576
Jun-05 643
Jul-05 658
Ago-05 673
Sep-05 644
Oct-05 615
Nov-05 495
Dic-05 346
Fuente: Elaboración propia
800
700
600
Número de Siniestros
500
400
300
200
100
0
0 20 40 60 80 100 120 140
Datos Dados Meses Pronósticos
Figura 4.3 Pronóstico con el Método de Descomposición Regresión Lineal Mujeres 0-4
Fuente: Elaboración propia
Tabla 4.4
Periodo Pronóstico
Ene-05 245
Feb-05 227
Mar-05 290
Abr-05 337
May-05 576
Jun-05 643
Jul-05 658
Ago-05 673
Sep-05 644
Oct-05 615
Nov-05 495
Dic-05 346
Fuente: Elaboración propia
83
600
500
Número de Siniestros
400
300
200
100
0
0 20 40 60 80 100 120 140
Meses
Datos Dados Pronósticos
Figura 4.4 Pronóstico con el método de Descomposición Regresión Exponencial Mujeres 0-4
Fuente: Elaboración propia
Este trabajo intentará resolver el problema de pronósticos por medio de una metodología
La primera fase involucra graficar la serie de tiempo, transformar los datos para
estabilizar la varianza y media (si es necesario), calcular las diferencias de los datos para
84
IV.4.2.1.1 Graficar la serie de tiempo
serie de tiempo de los datos. En este caso se muestra en la figura 4.5 la serie de tiempo
para el número de siniestros de mujeres entre 0 y 4 años durante los últimos 10 años.
Analizando dicha serie se puede concluir una tendencia de crecimiento con una
de los años.
600
500
400
300
200
100
0
Nov. 95
Nov-00
Jun-95
Jul-97
Jun-00
Jul-02
Ene-95
Abr-96
Sep-96
Feb-97
Dic-97
May-98
Oct-98
Mar-99
Ago-99
Ene-00
Abr-01
Sep-01
Feb-02
Dic-02
May-03
Oct-03
Mar-04
Ago-04
estables en varianza, por lo que una vez graficada la serie de tiempo, se dividen los datos
en grupos y se obtienen las medias y varianzas en cada uno de los grupos, esto permite
del tiempo. En este trabajo, los datos disponibles para cada rango de edad, se
85
concentraron en 10 grupos de 12 datos cada uno; es decir: 10 años de datos mensuales.
Tabla 4.5
Grupo Media Varianza
1 167.5000 1058.2727
2 178.5833 1226.9924
3 169.5833 1825.5379
4 99.0833 359.5379
5 217.5000 1963.9091
6 237.0000 2017.6364
7 345.2500 5173.1136
8 424.2500 7612.2045
9 413.2500 9815.8409
10 368.6667 5313.5152
Fuente: Elaboración propia
Graficando los valores de las medias y de las varianzas de los grupos, se observa que la
media es relativamente constante a través del tiempo; sin embargo la varianza presenta
Media y Varianza
12000
10000
8000
Valores
Media
6000
Varianza
4000
2000
0
1 2 3 4 5 6 7 8 9 10
Grupos
Si se grafica la media contra la varianza, se nota una relación que puede ser ajustada por
una línea:
86
Media vs. Varianza (Mujeres 0-4)
12000
10000
8000
Varianza
6000
4000
2000
0
- 100.00 200.00 300.00 400.00 500.00
-2000
Media
La relación de tipo lineal entre la media y varianza infiere que la serie de tiempo de
siniestros de mujeres entre 0 y 4 años es una serie no estacionaria en varianza, por lo que
1 1
varianza: , , Z t y ln (Z t ) , donde Z t es el valor de la serie en el tiempo t . Para el
Zt Zt
más adecuada, pues colabora también con la estabilización de la media, aunque este
las series que se contemplaron en este trabajo, dicha transformación resulta ser eficiente
transformación logarítmica de los datos de este rango, se obtiene la tabla 4.6 y la figura
4.8:
87
Tabla 4.6
Grupo Media Varianza
1 5.1025 0.0419
2 5.1666 0.0412
3 5.1004 0.0764
4 4.5784 0.0394
5 5.3615 0.0471
6 5.4501 0.0409
7 5.8228 0.0488
8 6.0290 0.0488
9 5.9936 0.0716
10 5.8907 0.0431
Fuente: Elaboración propia.
Media y Varianza
4
Valores
Media
Varianza
3
0
1 2 3 4 5 6 7 8 9 10
Grupos
Figura 4.8 Varianza y Media de los Grupos de los Datos con Transformación
Logarítmica Mujeres 0-4
Fuente: Elaboración propia
contra la varianza y se puede concluir que no existe relación alguna, pues los puntos se
88
Media vs. Varianza (Mujeres0-4) Transformada
0.09
0.08
0.07
0.06
Media
0.05
0.04
0.03
0.02
0.01
0
0 1 2 3 4 5 6 7
Varianza
Figura 4.9 Varianza contra Media de los Grupos de los Datos con Transformación
Logarítmica Mujeres 0-4
Fuente: Elaboración propia
estacionarias y las series de este trabajo no son la excepción, por lo que fue necesario
identificar, para cada uno de los rangos, si la serie de tiempo de siniestros es estacionaria
función de autocorrelación muestral, que en este caso decae muy lentamente a cero, lo
89
Autocorrelation Function for Mujeres 0-4
(with 5% significance limits for the autocorrelations)
1.0
0.8
0.6
0.4
Autocorrelation
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Lag
Para obtener series estacionarias y así poder aplicar la metodología Box-Jenkins, fue
* *
necesario realizar una diferenciación. Se definió yt = yt − yt −1 . Es decir, el valor yt en
t − 1 . Este proceso asegura, en la mayoría de las veces, que la serie pierda tendencia y se
sería necesaria. En este trabajo sólo fue necesaria una diferenciación para lograr lo
deseado.
La serie de tiempo con una diferenciación se muestra en la figura 4.11, como se puede
apreciar carece de tendencia, por lo que se puede decir que se ha obtenido una serie
estacionaria.
90
Serie Diferenciada Mujeres 0-4
0.8
0.6
0.4
0.2
0
1 9 17 25 33 41 49 57 65 73 81 89 97 105 113
-0.2
-0.4
-0.6
-0.8
-1
autocorrelación simple y parcial caigan rápidamente a cero. Esto se observa en las figuras
1.0
0.8
0.6
0.4
Autocorrelation
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Lag
91
Partial Autocorrelation Function for Mujeres 0-4 Diferenciado
(with 5% significance limits for the partial autocorrelations)
1.0
0.8
0.6
Partial Autocorrelation
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Lag
El siguiente paso es examinar y analizar las figuras 4.12 y 4.13. Dichas figuras
de hace para poder determinar el orden del modelo. Se intentará definir si se trata de un
Incluso el modelo podría ser una combinación de los procesos AR y MA dando como
resultado un posible modelo ARMA con parámetros (p,q), en el que la regla empírica
señala que los valores deben cumplir con la desigualdad p + q ≤ 2 . Pero al haber hecho
92
Para el rango de edad con el que se ha estado trabajando, la función de autocorrelación
parcial muestra el primer retraso significativamente diferente de cero; por lo que se puede
usado como un indicador preliminar del orden del modelo, no se podrá afirmar esto hasta
criterios, calcular las ACF y PACF de los residuos, realizar pruebas de normalidad de los
residuales de ACF y finalmente verificar que los residuales sean “ruido blanco”.
lineal, por lo que no existen expresiones de forma cerrada para los estimadores. Los
valores óptimos de los parámetros tienen que ser estimados numéricamente por
aproximaciones sucesivas. Se sabe que el error aleatorio At es igual a zt − zˆt −1 , por lo que
93
θ0
Donde: µ=
1 − φ1
ρ 2 = φ1 ρ1 + φ 2 ρ o (4.6)
ρ1 = φ1 ρ o + φ 2 ρ1 (4.7)
estimaciones para los parámetros. Las dos primeras autocorrelaciones del rango
94
Para encontrar mejores valores de las estimaciones, el algoritmo de Minitab hace
N 2
∑ (z t − zˆt −1 (1))
t =1
(4.10)
Dicho valor depende del parámetro desconocido en el modelo, θ 0 ,φ1 ,K,φ p ,θ1 ,K,θ q y de
las observaciones z1 , z2 ,K, zn , por lo que la suma de cuadrados para un AR(1) es:
N 2
∑ (z
t =1
t − µ − φ1 (z t −1 − µ )) (4.11)
θ 0 ,φ1 ,K,φ p ,θ1 ,K,θ q , para los cuales, la suma de los cuadrados es la más pequeña.
autocorrelación tanto simple como parcial y haber encontrado en todos los rangos un
95
En este momento se le llamará “Modelo Tentativo”, pues no se ha evaluado la
significancia de cada uno de los parámetros que Minitab plantea. Después de analizar los
Los parámetros propuestos por el programa para el modelo tentativo de siniestros para
Tabla 4.7
¿Entra al
Type Coef SE Coef T P
modelo?
AR 1 -0.1030 0.0991 -1.04 0.301 NO
AR 2 -0.1791 0.1000 -1.79 0.076 NO
SMA 12 1.0164 0.0904 11.24 0.000 SI
SMA 24 -0.0678 0.0946 -0.72 0.475 NO
Fuente: Elaboración propia.
La columna “Coef” es el valor de los coeficientes, “SE Coef” es la desviación tipo de los
Si el valor absoluto del estadístico T es menor a 2, hay evidencia para concluir que la
autocorrelación es muy cercana a cero, por lo que se obliga a no incluir dicho parámetro
en el modelo tentativo. Para este caso, los parámetros AR(1), AR(2) y SMA(24), quedan
fuera del modelo tentativo, por lo que el modelo modificado resulta de la siguiente
96
manera: ARIMA(0,1,0) * SARIMA(0,1,1) . Con base en este modelo modificado, los
12
Tabla 4.8
¿Entra al
Type Coef SE Coef T P
modelo?
SMA 12 0.6250 0.0930 6.72 0.000 SI
Fuente: Elaboración propia.
Del modelo modificado se obtienen las funciones ACF y PACF de los residuos para
mostrar que sus residuos están incorrelacionados, es decir, que las autocorrelaciones son
lo suficientemente pequeñas para suponer que se comportan como ruido blanco. Sin
1.0
0.8
0.6
0.4
Autocorrelation
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
3 6 9 12 15 18 21 24 27
Lag
Figura 4.14 Función de Autocorrelación Simple de los Residuos del Modelo Modificado
Mujeres 0-4
Fuente: Elaboración propia
97
PACF of Residuals for 0-4
(with 5% significance limits for the partial autocorrelations)
1.0
0.8
0.6
Partial Autocorrelation
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
3 6 9 12 15 18 21 24 27
Lag
Figura 4.15 Función de Autocorrelación Parcial de los Residuos del Modelo Modificado
Mujeres 0-4
Fuente: Elaboración propia
Las líneas punteadas en el autocorrelograma alrededor de los valores -0.2 y 0.2, son
1.96 1.96
intervalos de confianza calculados como − ≤k≤ , donde n = 120 y k representa
n n
válido.
Para este rango, el correlograma demuestra que los residuos para el rango son
es:
⎛ rk2 ⎞27
Q = 120(120 + 2 )∑ ⎜⎜ ⎟⎟ = 17.07045
k =1 ⎝ 120 − k ⎠
98
Tabla 4.9
k rk rk2
1 -0.06084 0.003701
2 -0.15429 0.023807
3 0.067511 0.004558
4 -0.02714 0.000737
5 -0.11629 0.013523
6 0.006688 4.47E-05
7 -0.03251 0.001057
8 0.002756 7.6E-06
9 -0.03364 0.001132
10 -0.01803 0.000325
11 -0.00218 4.76E-06
12 -0.1019 0.010384
13 0.177207 0.031402
14 -0.06164 0.0038
15 -0.03655 0.001336
16 0.003295 1.09E-05
17 -0.07984 0.006374
18 -0.02137 0.000457
19 0.000334 1.12E-07
20 0.08881 0.007887
21 0.045404 0.002062
22 -0.05883 0.003461
23 0.038208 0.00146
24 0.079316 0.006291
25 -0.04963 0.002463
26 0.000077 5.93E-09
27 -0.01 0.0001
Fuente: Elaboración propia
Este estadístico tiene una distribución Chi-cuadrada con k-r grados de libertad, de ahí se
99
Para este rango, el valor de la Chi-Cuadrada con 27 grados de libertad con un α = 0.05 es
Se procede entonces a verificar que los residuales cumplan con el supuesto de distribuirse
Es posible hacer la prueba de normalidad para los residuos como lo muestra la figura
4.16.
99
95
90
80
70
Percent
60
50
40
30
20
10
5
0.1
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
RESI1
Figura 4.16 Prueba Gráfica de Normalidad de los Residuos del Modelo Modificado
Mujeres 0-4
Fuente: Elaboración propia
100
El estadístico de Anderson-Darling es uno de los métodos matemáticos que ayudan a
identificar que los residuales provienen de una distribución normal. Para este rango, con
α = 0.05 no se rechaza H 0 por lo que se puede decir que existe evidencia suficiente para
Para este rango de edad, los residuos pasaron la prueba de normalidad, por lo que se
puede concluir que los residuos cumplen con las características del ruido blanco. Una vez
que se obtuvo el modelo adecuado se pueden realizar pronósticos para uno o varios
tener más datos disponibles, se puede utilizar el mismo modelo para revisar los
pronósticos, seleccionando otro periodo de origen. Si la serie parece cambiar a través del
tiempo, podría ser necesario recalcular los parámetros, o incluso desarrollar un modelo
Habiendo identificado que los residuos se comportan como ruido blanco; el modelo
seleccionado que describe la serie de tiempo de los siniestros se puede desarrollar con la
ecuación:
ARIMA(0,1,0 )xSARIMA(0,1,1)
12
101
Aplicando procedimientos algebraicos definidos, se tiene:
( ) (
⇒ (1 − B ) 1 − B12 yt = 1 − θ12 B12 At )
(
⇒ 1− B − B + B
12 13
)y
t = At − θ12 At B12
⇒ yt − yt B12 − yt B + yt B13 = yt − yˆt −1 (1) − θ12 ( yt −12 − yˆt −13 (1))
⇒ yˆt −1 (1) = θ12 yˆt −13 (1) − θ12 yt −12 + yt B12 + yt B − yt B13
⇒ yˆt (1) = θ12 yˆ t −12 (1) − θ12 yt −11 + yt +1B12 + yt +1B − yt +1B13
⇒ yˆt (1) = θ12 yˆ t −12 (1) − θ12 yt −11 + yt −11 + yt − yt −12
Hay que recordar que para hacer estacionaria la serie, se tuvo que aplicar la
tiempo se tiene que aplicar el antilogaritmo a la ecuación así como incluir los parámetros
102