Manual Sweave
Manual Sweave
Manual Sweave
Fernando Baltazar-Larios
8 de septiembre de 2017
2
Índice general
1.1.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3. Proceso de Poisson 27
3.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3
4 ÍNDICE GENERAL
6. Cópulas 39
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
7.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.1. Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
A. FUNCIONES 115
A.0.28. Inferencia para Proceso de Ornstein-Uhlenbeck usando mle() bajo el método de Euler134
Capı́tulo 1
La importancia del estudio de los procesos estocásticos en el campo actuarial es que son una herramienta
poderosa en la solución de problemas financieros, de seguros y en toda aquella situación que se presente
un cieto grado de incertidumbre en función del tiempo.
En este capı́tulo se presenta una breve introducción al concepto de proceso estocástico, se da una descrip-
ción general de sus caracterı́sticas principales, se hace una clasificación básica de los procesos estocásticos
y se dan algunos ejemplos.
Consideremos un sistema cuya evolución en el tiempo entre diferentes estados (determinados previamente)
está modelada por una ley de movimiento. Si Xt representa el estado del sistema en el tiempo t y supo-
nemos que la evolución de éste no es determinista, sino regida por algún componente aleatorio, resulta
natural considerar a Xt como una variable aleatoria para cada valor t. Hasta aquı́, tenemos una colección
de variables aleatorias indexadas por el tiempo, a esta colección se le conoce como un proceso estocástico.
Resulta de gran relevancia estudiar las relaciones entre las variables aleatorias de dicha colección que
permiten clasificar a los procesos estocásticos.
Definición 1.1. Un proceso estocástico X = {Xt }t∈T es una colección de variables aleatorias (definidas
en el mismo espacio de probabilidad) que toman valores en un conjunto E con parámetro T , es decir, para
cada t ∈ T , Xt es una variable aleatoria.
Siguiendo la definición de proceso estocástico, se le puede ver como una función de dos variables
7
8 CAPÍTULO 1. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
X : T × Ω → E,
tal que a cada pareja (t, ω) ∈ (T, Ω) se le asocia X(t, ω) = Xt (ω) y de esta manera para cada t ∈ T la
función de
ω → Xt (ω)
es una variable aleatoria y para cada ω ∈ Ω, la función
t → Xt (ω)
es una trayectoria o realización del proceso.
Según las caracteristicas del espacio parametral se puede hacer la primera distinción entre procesos esto-
cásticos.
Definición 1.2. Proceso estocástico a tiempo discreto Si T es un conjunto a lo más numerable, se
dice que X es un proceso estocástico a tiempo discreto, para nosotros será T = M, donde M ⊂ N y en
general se denota por X = {Xn }n≥0 .
Definición 1.3. Proceso estocástico a tiempo continuo Cuando T sea un conjunto infinito no
numerable, se dice que X es un proceso estocástico a tiempo continuo, para este caso T = [0, τ ] ó [0, ∞).
y en será denotado por X = {Xt }t≥0 .
En cuanto al conjunto donde las variables aleatorias toman valores, se le conoce como espacio de estados
del proceso y de manera análoga este también puede ser discreto o continuo.
En esta sección hablaremos sobre caracterı́sticas que pueden tener los procesos estocásticos que además
sirven para hacer una clasificación de los mismos.
Definición 1.4. Procesos de variables independientes. Sea X = {Xn }n≥0 se dice que es un proceso
estocástico de variables aleatorias independientes si Xm y Xn son independientes para toda n, m ≥ 0 con
m 6= n.
Definición 1.5. Procesos con incrementos independientes.Un proceso estocástico X = {Xt }t∈T ,
se dice que tiene incrementos independientes si para cualesquiera t0 < t1 < . . . < tn , ti ∈ T , las variables
aleatorias
Xt1 − Xt0 , . . . , Xtn − Xtn−1
son independientes.
1.1. DEFINICIONES ELEMENTALES 9
Definición 1.6. Procesos con incrementos estacionarios. Un proceso estocástico X = {Xt }t∈T ,
se dice que es estacionario si para cualesquiera t0 < t1 < . . . < tn , , ti ∈ T , la distribución del vector
aleatorio (Xt0 , Xt1 . . . , Xtn ) es la misma que la del vector aleatorio (Xt0 +h , Xt1 +h . . . , Xtn +h ) para toda
h > 0 y entonces tiene incrementos estacionarios si para cada s < t y h > 0 se tiene que Xt+h − Xs+h y
Xt − Xs tienen la misma distribución.
Procesos Gaussianos.
Definición 1.7. Procesos Gaussianos. Se dice que un proceso estocástico X = {Xt }t∈T es un pro-
cesos de Gaussiano si para cualquier colección finita de tiempos t1 , . . . , tn el vector (Xt1 , . . . , Xtn ) tiene
distribución Gaussiana multivariada.
Procesos de Markov.
Definición 1.8. Procesos de Markov. Se dice que un proceso estocástico X = {Xt }t∈T es un procesos
de Markov si satisface la propiedad de Markov, es decir, si
P (Xtn = xn |Xtn−1 = xn−1 , . . . , Xt0 = x0 ) = P (Xtn = xn |Xtn−1 = xn−1 )
con t0 < t1 < . . . < tn , ti ∈ T y xi ∈ E para i = 0, 1, . . . n. Este tipo de procesos son aquellos cuyo
evolución futura depende solamente del estado proesente del proceso.
Para un proceso estocástico X = {Xt }t∈T se define la esperanza de Xt como el valor esperado de la
variable aleatoria observando el proceso en algún tiempo t, es decir
Z
E(Xt ) = xdFXt (x),
E
La función de autocorrelación del proceso X = {Xt }t∈T se define como el valor esperado del producto de
las variables aleatorias Xt1 yXt2 en los momentos t1 y t2 respectivamente, es decir,
Z Z
E(Xt1 Xt2 ) = x1 x2 dFXt1 ,Xt2 (x1 , x2 )
E E
donde FXt1 ,Xt2 es la función de densidad conjunta de las variables aleatorias Xt1 yXt2 .
10 CAPÍTULO 1. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
Sean X = {Xt }t∈T e Y = {Yt }t∈T dos procesos estocásticos se define la correlación cruzada entre estos
procesos por:
Sean X = {Xt }t∈T e Y = {Yt }t∈T dos procesos estocásticos se define la covarianza cruzada entre estos
procesos por:
E[(Xt1 − E(Xt1 ))(Yt2 − E(Yt2 ))]
1.1.4. Ejemplos
Para estudiar matemáticamente el capital en el tiempo, consideremos a la variable aleatoria que nos indica
el instante que se llega a la ruina (podrı́a ser infinita). El modelo matemático puede ser descrito como
sigue: sean U1 , U2 , . . .variables aleatorias uniformes en (0, 1) e independientes. Considerando la variable
aleatoria I{Ui ≤1/2} que puede ser interpretada como la indicadora de que el volado tenga como resultado
águila. Por último se considera a la variable aleatoria Yi = 2I{Ui ≤1/2} − 1 que toma los valores 1 si cae
águila y -1 si cae sol. De esta forma tenemos que
n
X
Xn = Yi .
i=0
1.1. DEFINICIONES ELEMENTALES 11
Ejemplo 1.1.2. Considere una partı́cula que se mueve en un conjunto de m + 1 nodos, etiquetados por
0, 1, . . . , m, distribuidos en un cı́rculo. Sea Xn la posición de la partı́cula después de n-pasos y supongamos
que se mueve a los nodos vecinos con igual probabilidad.
Ejemplo 1.1.3. Tiempos de espera Consideremos la fila en un banco y supongamos que los clientes
van llegando a tiempos aleatorios y cada uno requiere un servicio que es también una variable aleatoria.
Supongamos que un cliente llega a un tiempo t, nos interesa saber ¿cuánto tiempo tarda en salir del
banco?.
Ejemplo 1.1.4. (Movimiento Browniano Geométrico). Supongamos que tenemos un proceso esto-
cástico a tiempo continuo X = {Xt }t≥0 donde Xt representa el precio de una acción al tiempo t.
Estudiando los elementos de este proceso podemos conocer caracterı́sticas del comportamiento futuro del
precio del activo.
Este modelo tiene sus orı́genes en la tesis doctoral de Filip Lundberg defendida en el a?o de 1903. En este
trabajo Lundberg analiza el reaseguro de riesgos colectivos y presenta el proceso de Poisson compuesto.
En 1930 Harald Cramér retoma las ideas originales de Lundberg y las pone en el contexto de los procesos
estocástico. El modelo ha sido muy estudiado y se han propuesto varias formas de generalizarlo.
El modelo que estudiaremos es el proceso a tiempo continuo {Ct }t≥0 dado por
N (t)
X
Ct = u + ct − Yj
j=1
donde:
Ct representa el balance más sencillo de ingresos menos egresos de una compañı́a aseguradora. Al proceso
Ct se le llama proceso de riesgo o proceso de superávit.
La variable aleatoria Ct se puede interpretar como el capital de la compa?ı́a aseguradora al tiempo t y por
razones naturales y legales es importante que Ct permanezca por arriba de cierto nivel mı́nimo. Cuando
Ct < 0 se dice que hay ruina.
La ruina casi nunca sucede en la práctica, es solamente un término técnico que produce alguna toma de
decisión.Por ejemplo, si el capital de una compa?ı́a aseguradora asignado a una cartera decrece en forma
significativa, ésta automáticamente puede tomar ciertas medidas para subsanar esta situación y no se
trata de un evento insalvable.
12 CAPÍTULO 1. INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
Capı́tulo 2
2.1. Introducción
Una propiedad de especial importancia que poseen algunos procesos estocásticos a tiempo discreto, es que
sus valores en el n-ésimo momento tienen toda la información para determinar el valor del n + 1-ésimo
momento. Esta propiedad conocida como propiedad de Markov es de gran importancia en el estudio en
general de la teorı́a de procesos estocásticos, y por ello prestamos especial dedicación en este capı́tulo.
En este capı́tulo se supondrá que trabajamos con procesos a tiempo discreto y que toman valores en un
conjunto a lo más numerable.
Como motivación al estudio de las cadenas de Markov a tiempo discreto consideremos el siguiente ejemplo:
Si colocamos una rata en la esquina inferior izquierda del laberinto de la Figura 2.1 y comida en la esquina
superior derecha y supongamos que estando en cualquiera de los cuartos del laberinto, la rata puede ir a
cualquiera de los cuartos vecinos con la misma probabilidad, entonces para modelar la trayectoria que la
rata sigue hasta la comida, podemos seguir el siguiente modelo matemático. Enumerando los cuadros de
izquierda a derecha y de abajo a arriba, definimos pij como la probabilidad con la que la rata pasa del
cuarto i al j para i, j ∈ {1, 2, . . . , n}.
0 1/2 0 1/2 0 0 0 0 0
1/3 0 1/3 0 1/3 0 0 0 0
0 1/2 0 0 0 1/2 0 0 0
1/3 0 0 0 1/3 0 1/3 0 0
0 1/4 0 1/4 0 1/4 0 1/4 0
P =
0 0 1/3 0 1/3 0 0 0 1/3
0 0 0 1/2 0 0 0 1/2 0
0 0 0 0 1/3 0 1/3 0 1/3
0 0 0 0 0 1/2 0 1/2 0
13
14 CAPÍTULO 2. CADENAS DE MARKOV A TIEMPO DISCRETO
Tenemos, por ejemplo, que la probabilidad de que la rata siga la trayectoria 1,2,3,6,9 hasta la comida es:
p12 p23 p36 p69 . Hay dos caracterı́sticas importantes que debemos notar en la matriz:
A matrices con estas propiedades se le llama matrices estocásticas y en particular podemos ver que en
cada renglón de dichas matrices está definida una distribución de probabilidad discreta.
A partir de este ejemplo podemos proponer varias preguntas para las cuales la teorı́a subsecuente nos
ayudará a encontrar respuestas.
3. Si de nuevo seguimos solamente la trayectoria sin comida, ¿estamos seguros de regresar al punto
inicial?
4. Si agregamos la comida, ¿cuántas veces regresará la rata al cuarto inicial antes de encontrar la
comida?
enumerándolos, tenemos que E = {1, 2, . . . , N } para el caso finito y E = {1, 2, . . .} para el caso numerable,
E es llamado espacio de estados. Si este proceso satisface la propiedad de Markov
2.2.1. Ejemplos
Un individuo está parado e inica una caminata en el cual sólo se mueve hacia adelante con probabilidad p
o hacia atrás con probabilidad 1 − p. Definiendo a Xn como la posición del individuo después de n−pasos,
se tiene entonces que E = Z y las probabilidades de transición para cualquier n ≥ 0 e i, j ∈ E están dadas
por:
p
j =i+1
pij = 1 − p j = i − 1
0 e.o.c.
Suponga que un jugador A apuesta $1 sucesivamente contra otro jugador B. A inicia con k unidades y B
con N − k. En cada apuesta, A gana con probabilidad p y pierde con probabilidad 1 − p. Si definimos Xn
como la fortuna de A al tiempo n, entonces X = {Xn }n≥0 define una cadena de Markov.
Se tienen dos urnas , entre ambas hay un total de N bolas. En cada paso se elige una de las bolas al azar
y se cambia de urna. Si Xn = número de bolas en la urna A después de n ensayos, entonces X = {Xn }n≥0
define una cadena de Markov.
(n)
Este resultado nos dice que pij es la entrada ij de la n−ésima potencia de P. En general, no es posible
calcular explı́citamente las potecias de la matriz de transición. Sin embargo, nos podemos auxiliar de
paquetes computacionales para esta tarea.
Sean x e y dos estados de E, se dice que el estado y es accesible desde el estado x si existe n ∈ N, tal que
(n)
pxy > 0 (x → y). Si x → y e y → x entonces, x e y se comunican, (x ↔ y), en particular, se tiene el
siguiente resultado sobre la comunicación.
Proposición 2.3. La relación x ↔ y (comunicación) es una relación de equivalencia, por lo tanto, induce
a una partición en el espacio de estados.
A las clases de equivalencia inducidas por esta relación les llamaremos clases de comunicación. En parti-
cular diremos que una cadena de Markov es irreducible si tiene una sola clase de comunicación.
Cx = {y ∈ E : x ↔ y}.
Una extensión de la propiedad de Markov es la presentada a tiempos aleatorios conocida como propiedad
fuerte de Markov. Comenzaremos esta sección dando la definición de tiempos aleatorios.
T : Ω → N ∩ {∞}.
Definición 2.3. Un tiempo aleatorio T es un tiempo de paro si para n ∈ N existe An ⊂ E n+1 tal que
{T = n} = {(X0 , . . . , Xn ) ∈ An }.
A la variable aleatoria tiempo de paro la podemos interpretar como el tiempo que se obtiene de observar
una trayectoria hasta que se cumpla cierta condición. Veamos algunos ejemplos de tiempo de paro.
Ejemplo 2.2.5. Sea T1 el tiempo en el que una cadena de Markov regresa a su estado inicial, es decir
(
∞ Xn 6= X0 para toda n
T =
min{n ≥ 1|Xn = X0 } e.o.c
Ejemplo 2.2.6. Sea Tn el tiempo en el ocurre la enésima visita al estado inicial es un tiempo de paro.
Teorema 2.1. Propiedad Fuerte de Markov. Sea A ∈ E n+1 , T un tiempo de paro tales que P (A, Xn =
j, T = n) > 0. Entonces, condicionado a A ∩ {T = n, Xn = j}, el proceso {Xn+m }m≥0 es una cadena de
Markov que comienza en j y tiene matriz de P .
18 CAPÍTULO 2. CADENAS DE MARKOV A TIEMPO DISCRETO
En el estudio de las cadenas de Markov resulta de particular interés el estudio de los tiempos aleatorios
de la ocurrencia de eventos relacionados con la llegada a un estado o un conjunto de estados del espacio
de la cadena. En está sección estudiaremos este tipo de variables aleatorias.
Definición 2.4. Sea TA primera vez que la cadena accede a A un subconjunto del espacio de estados, es
decir (
∞ Xn ∈ E − A para toda n
TA =
min{n ≥ 1|Xn ∈ A} e.o.c
Nota 2.1. En general, no resulta tarea fácil encontrar la distribución de este tipo de variables aleatorias.
En el caso que el conjunto A consta de un solo estado (j) y la cadena empieza en el estado i denotaremos
por Tij la primera vez que la cadena visita el estado j iniciando en i si i 6= j. Si i = j lo denotamos por
Ti .
Ejemplo 2.2.7. Racha de éxitos. Sea E1 , E2 , . . . , una sucesión de ensayos Bernoulli con probabilidad
de éxito p y probabilidad de fracaso q = 1 − p. Si Xn es el número de éxitos consecutivos previos al tiempo
n (incluido el tiempo n). Se dice que una cadena de r éxitos ocurre al tiempo n si en el ensayo n − r
ocurre un fracaso y los resultados de los ensayos n − r + 1 al n son éxitos.
(n)
Definición 2.5. Para cada n ≥ 1, denotamos por fij a la probabilidad de que una cadena que inicia en
el estado i, llegue al estado j por primera vez en exactamente n pasos, es decir,
(n)
fij = P (Xn = j, Xn−1 6= j . . . , X1 6= j, X0 = i).
Además definimos
(
(0) 1 si i = j
fij =
0 e.o.c
(n)
1. f01 = q n−1 p.
(n)
2. f00 = pn−1 q.
De acuerdo a las propiedades que tiene cada estado en una cadena de Markov en cuanto a la probabilidad
de regresar a él, los estados pueden ser clasificados de la siguiente manera.
Tratar de clasificar los estado en recurrentes y transitorios partiendo de la definición no resulta, en general,
tarea fácil. Una manera distinta de enunciar estos conceptos es la siguiente forma.
(1)
El estado i es recurrente si fi = 1, en particular si fxx = 1 el estado se le llama absorbente.
E = T ∩ C1 ∩ C2 ∩ . . .
donde T es un conjunto de estados transitorios, y Ci son clases cerradas e irreducibles de estados recu-
rrente.
Nota 2.3. El teorema de descomposición nos muestra las posibilidades que pueden darse en una cadena
de Markov. Esto es, si X0 ∈ Ck , entonces la cadena nunca abandonará la clase Ck y entonces, podemos
considerar el espacio de estados E = Ck . Por otra parte, si X0 ∈ T entonces, o la cadena permanece por
siempre en T o se mueve a una clase Ck y permanece ahı́ por siempre. Ası́, o la cadena siempre toma
valores en el conjunto de estados transitorios o acaba en un conjunto cerrado persistente de estados donde
permanecerá por siempre. Veamos ahora que en el caso en el que E sea finito la primera situación no
puede darse.
∞
X
Vi = I{Xn =i} ,
n=0
Nota 2.4. La variable aleatoria anterior toma valor infinito con probabilidad cero o uno.
20 CAPÍTULO 2. CADENAS DE MARKOV A TIEMPO DISCRETO
Decimos que si Vi es infinita con probabilidad 1, partiendo de i, entonces i es estado recurrente, en caso
contrario es un estado transitorio.
P (n)
1. Un estado i es recurrente si y sólo si n pii = ∞.
P (n)
2. Un estado i es transitorio si y sólo si n pii < ∞.
Este resultado nos proporciona una equivalencia, en términos de las matrices de transición, para que un
estado sea recurrente.
Este resultado tiene como consecuencia que la transitoriedad o recurrencia son propiedades de clase.
Siguiendo la clasificación de estados, resulta importante conocer el número esperado de pasos para regresar
a i, es decir,
∞
(n)
X
µi = nfii ,
n=1
a la cual llamaremos tiempo medio de recurrencia.
Nota 2.6. Puede darse el caso de que siendo i un estado recurrente el tiempo medio de recurrencia, µi ,
sea infinito; siendo éste el caso en el que aunque el regreso a i es cierto se necesita un tiempo infinito. Ası́,
realizamos la siguiente distinción entre los estados recurrentes obteniendo una subclasificación de estos.
Definición 2.9. Decimos que
2.2. CONCEPTOS BÁSICOS 21
∞ ∞ ∞
X (n)
X
n−1
X 1
µ0 = nf00 = n(1 − p)p = (1 − p) npn−1 = < ∞.
1−p
n=1 n=1 n=1
Otro resultado de gran utilidad es el siguiente.
Proposición 2.10. No existen estados recurrentes nulos en cadenas de Markov finitas.
El siguiente resultado se sigue de la teorı́a que los promedios temporales son iguales a los promedios
espaciales en los sistemas dinámicos.
Teorema 2.3. Teorema ergódico para cadenas de Markov Sean i, j cualesquiera estados de una
cadena de Markov irreducible se cumple que
Vij 1
lı́mn→∞ =
n µj
casi seguramente.
Ejemplo 2.2.9. Considere una cadena de Markov con espacio de estados {0, . . . , 5} y matriz de transición
1 1
2 2 0 0 0 0
1 2
3 3 0 0 0 0
1 7
0 0 0 0
P = 8 8
1 1
0 0 1 1
4 4 4 4
0 3 1
0 4 0 4 0
1 1 1 2
0 5 0 5 5 5
Determine que estados son transitorios y cuales recurrentes. Calcular y estimar tiempos medios de recu-
rrencia y número esperado de visitas a cada estado.
Definición 2.10. Sea ν ∈ R|E| , decimos que ν es una distribución invariante o estacionaria de la
cadena de Markov con matriz de transición P , si satisface
νP = ν.
Nota 2.7. La interpretación de una distribución invariante es que una variable aleatoria con dicha dis-
tribución mantendrá su distribución en la evolución de la cadena de Markov en el tiempo.
Desde que encontrar una distribución estacionaria en una cadena de Markov consiste en resolver un sis-
tema de |E| + 1 ecuaciones y |E| incógnitas podemos no tener solución, una infinidad de soluciones o una
única solución.
Los siguientes resultados son de gran utilidad en el cálculo de la distribución estacionaria de una cadena
de Markov.
Proposición 2.11. Sea ν una distribución estacionaria para una cadena de Markov. Si i es un estado
transitorio o recurrente nulo, entonces νi = 0.
Una propiedad importante de una distribución invariante es que si X0 tiene distribución ν, entonces Xn
tendrá la misma distribución para toda n.
Proposición 2.12. Toda cadena de Markov que es irreducible y recurrente positiva tiene una única
distribución estacionaria dada por
1
νi = > 0.
µi
Teorema 2.4. Para una cadena irreducible las siguientes condiciones son equivalentes.
Ejemplo 2.2.10.
1/2 1/2
P =
1/4 3/4
ν = (1/3, 2/3).
Ejemplo 2.2.11. Cadena de Ehrenfest. Como esta cadena de Markov es irreducible y con espacio de
estados finito se tiene que es recurrente positiva y por los resultados anteriores tiene una única distribución
invariante ν.
En esta sección presentaremos resultados del comportamiento de una cadena de Markov recurrente cuando
la trayectoria es lo suficientemente grande. Otro concepto importante en el estudio de las cadenas de
Markov es el relacionado con la posible periodicidad con la que se visita a cada estado.
Definición 2.11. Sea P la matriz de transición, definimos al periodo de un estado i como el máximo
(n)
común divisor del conjunto {n ∈ N : pii }.
2.2. CONCEPTOS BÁSICOS 23
Ahora combinando esta definición con el concepto de recurrencia positiva tenemos que un estado es
ergódico si es recurrente positivo y tiene periodo uno (aperiódico).
Definición 2.12. Decimos que una cadena de Markov {Xn } con espacio de estados finito es regular si
existe una potencia de la matriz de transición con todas las entradas positivas.
Teorema 2.5. Sea P la matriz de transición de una cadena de Markov regular con espacio de estados
finito E, se cumple que:
1. Si n → ∞, las potencias P n se aproximan a una matriz W tal que todos sus renglones son iguales
a un mismo vector de probabilidad w con componentes estrictamente positivos.
2. Se tiene que w es el vector de probabilidad invariante y cualquier otro vector v tal que vP = v es
un escalar multiplicado por w (como vector de probabilidad es único).
3.
lı́mn→∞ P (Xn = x) = wx
para todo x ∈ E y
lı́mn→∞ P (Xn = x|X0 = y) = wx
para todo x, y ∈ E.
3. El lı́mite de las potencias de P es una matriz estocástica para la cual todos sus renglones son la
distribución lı́mite.
Teorema 2.7. Si la cadena de Markov es irreducible, aperiódica y recurrente positiva existen las proba-
bilidades lı́mite y son la única distribución invariante.
Por último estudiaremos una clase particular de cadenas de Markov, las cadenas de Markov absorbentes.
Definición 2.14. Una cadena absorbente es una cadena de Markov con espacio de estados finita, con al
menos un estado absorbente y que desde cualquier estado se puede llegar a algún estado absorbente.
Para una cadena de Markov absorbente es importante estudiar conceptos como el tiempo medio de ab-
sorción o ¿cual será el estado más probable de absorción?
24 CAPÍTULO 2. CADENAS DE MARKOV A TIEMPO DISCRETO
Aaa Aa A Baa Ba B C D
Aaa 0.95 0.02 0.015 0.009 0.006 0 0 0
Aa 0.06 0.91 0.01 0.007 0.005 0.004 0.004 0
A 0.01 0.04 0.88 0.03 0.019 0.011 0.01 0.0
Baa 0.002 0.003 0.005 0.88 0.05 0.03 0.02 0.01
Ba 0.001 0.005 0.005 0.009 0.85 0.05 0.05 0.04
B 0 0 0.003 0.007 0.02 0.88 0.05 0.04
C 0 0 0.002 0.003 0.005 0.09 0.79 0.11
D 0 0 0 0 0 0 0 1
En los contratos de crédito, las posibles pérdidas económicas involucran la estimación de las probabilida-
des de incumplimiento por parte de los acreditados.
El acreditado es clasificado según la capacidad de cumplir con sus obligaciones en un contrato de crédito.
En el campo de incumplimiento por parte de las empresas, en un contrato de crédito, las matrices de
transición representan las probabilidades de pasar de una calificación a otra en un intervalo de tiempo.
Las clasificaciones son emitidas por las compa?ı́as calificadoras. El papel de estas compa?ı́as en los mer-
cados globales de capital es tener una medición del riesgo de crédito de manera independiente, creı́ble y
objetiva; una cobertura comprensible y consistencia global; una transparencia crediticia y un aumento de
la eficiencia y la liquidez.
El mercado de calificadoras de crédito está dominado por dos compa?ı́as: Standard and Poors (S&P)
y Moody’s Investor Services (Moody’s). Una calificación de crédito representa una tasa global del
cumplimiento de o e las obligaciones por parte del acreditado.
La tabla muestra una matriz de transición anual con las calificaciones de crédito otorgadas por Moody’s.
Es esta sección presentamos un modelo para la estimación de las primas de seguro de automóviles.
En Hong Kong y en otros lugares del mundo, se usa un sistema para fijar las primas de seguro de automóvil
conocido como Bonus-Malus que consiste de 6 clases de tarificación, de 1 fort bonus a 6 fort malus, que
se rige por las siguientes reglas:
max{1, i − 1},
Si Xn denota la categorı́a en cual se encuentra un individuo al n-ésimo periodo entonces {Xn }n≥0 es una
cadena de Markov con espacio de estados {1, 2, . . . , 6}. Si p ∈ (0, 1) es la probabilidad de no presentar
siniestros en cada periodo entonces la correspondiente matriz de transición es:
p 0 0 0 0 1−p
p 0 0 0 0 1−p
0 p 0 0 0 1−p
P = 0 0 p 0 0 1−p
0 0 0 p 0 1−p
0 0 0 0 p 1−p
con probabilidad 1.
26 CAPÍTULO 2. CADENAS DE MARKOV A TIEMPO DISCRETO
Capı́tulo 3
Proceso de Poisson
En esta capı́tulo estudiaremos las principales caracterı́sticas del proceso de conteo más usado en el contexto
actuarial, el proceso de Poisson.
3.1. Definiciones
Podemos definir, en general, a un proceso de conteo N = {Nt }t≥0 como un procesos estocástico con
trayectorias constantes por pedazos con valores en los naturales y que va incrementando de uno en uno
en tiempos aleatorios. Entonces, interpretamos a Nt como el número de eventos ocurridos hasta el tiempo t.
Si denotamos por 0 = S0 < S1 < . . . a los tiempos en los que el proceso incrementa su valor, entonces
tenemos que
Nt = máx{n ∈ N : Sn ≤ t}.
Nota 3.1. Las siguientes equivalencias de eventos son importantes:
1. Nt ≥ 0.
2. Nt es un entero no negativo.
27
28 CAPÍTULO 3. PROCESO DE POISSON
3. Si s < t entonces Ns ≤ Nt .
4. Para s < t, Nt − Ns es el número de eventos que ocurren en el intervalo de tiempo (s, t).
Ahora daremos un par de definiciones del proceso de conteo que es nuestro foco de interés.
Definición 3.2. (Definición 1 P.P.) Un proceso de contéo N = {Nt }t≥0 es de Poisson con parámetro
λ > 0 (intensidad del proceso) si satisface las siguientes condiciones:
1. N0 = 0.
Definición 3.3. (Definición 2 P.P.) Un proceso de contéo N = {Nt }t≥0 es de Poisson con parámetro
λ > 0 (intensidad del proceso) si satisface las siguientes condiciones:
1. N0 = 0.
4. P (Nt+h − Nt ≥ 1) = λh + o(h).
Hay una definición alternativa de proceso de Poisson que facilita hacer cálculos.
Definición 3.4. Un proceso de conteo N = {Nt }t≥0 es de Poisson si y sólo si existe λ > 0 tal que los
tiempos de interarribo son variables aleatorias exponenciales independientes de parámetro λ.
Consecuencias inmediatas de esta definición son que se pueden calcular explicitamente las distribuciones
de tiempos de interarribo, los tiempos de ocurrencia y que se tiene conocida la distribución exacta del
proceso de conteo.
Veamos un ejemplo.
3.1. DEFINICIONES 29
Ejemplo 3.1.1. Suponga que las reclamaciones es una compa?ia de seguros ocurren de acuerdo a un
proceso de Poisson con intensidad diaria λ = 2
E[N30 ] = 60.
E[S8 ] = 4.
Sea {Nt }t≥0 un proceso de Poisson con parámetro λ, supongamos que cada tiempo de ocurrencia de un
evento está clasificado como un evento tipo I o tipo II. Además supongamos que es tipo I con probabilidad
p y tipo II con probabilidad 1 − p. Si Nt1 y Nt2 denotan el número de eventos tipo I y II respectivamente
que ocurren en [0, t]. El siguiente resultado modela el comportamiento en el tiempo de un escenario como
el que acabamos de describir.
Proposición 3.2. {Nt1 }t≥0 y {Nt2 }t≥ son procesos de Poisson independientes de parámetros pλ y (1−p)λ
respectivamente.
Nota 3.5. Es fácil generalizar
Pk este resultado cuando se tienen k tipos de evento, cada uno con probabilidad
pi ∈ (0, 1) de ocurrencia y i=1 pi = 1. Entonces se tiene que {Nt }t≥0 , {Nt2 }t≥ , . . . , , {Ntk }t≥ procesos de
1
Ahora, supongamos que sabemos que exactamente un evento ha ocurrido hasta el tiempo t y estamos
interesados en la distribución del tiempo al cual éste ha ocurrido. Es razonable pensar que el tiempo está
uniformemente distribuido en [0, t]. Supongamos que s ≤ t, entonces
P (Ns = 1, Nt−s = 0) s
P (T1 ≤ s|Nt = 1) = = .
P (Nt = 1) t
Generalizando esta idea tenemos el siguiente resultado.
30 CAPÍTULO 3. PROCESO DE POISSON
Teorema 3.1. Dado que Nt = n, los n tiempos de ocurrencia tienen la misma distribución que las
estadı́sticas de orden correspondientes a n variables aleatorias independientes e identicamente distribuidas
uniformes en [0, t], es decir,
n!
fS1 ,...,Sn |Nt (s1 , . . . , sn |n) = .
tn
Definición 3.5. Sea {Nt }t≥0 un proceso Poisson con tasa λ y sean {Yi , i = 1, 2, . . .} una familia de
variables aleatorias independientes entre si e idénticamente distribuidas. Suponga que el proceso Poisson
{Nt |t ≥ 0} y la sucesión {Yi , i = 1, 2, . . .} son independientes. Definimos al proceso aleatorio {Xt |t ≥ 0}
como un proceso Poisson compuesto si para t ≥ 0,
Nt
X
Xt = Yi .
i=1
Suponga que los clientes de cierto banco ingresan a una sucursal para realizar retiros de efectivo en
ventanilla de acuerdo a un proceso Poisson de tasa λ = 1/3 (tres clientes por minuto). Suponga que
cada cliente retira efectivo de dicho banco en sólo una ocasión al dı́a y que el monto retirado es una
variable aleatoria independiente e idénticamente distribuida log-normal con media µ = 7 y desviación
tı́pica σ = 1,5. El monto total de los retiros al tiempo t es un proceso Poisson compuesto
Nt
X
X(t) = Yi , con Y0 = 0.
i=0
Ahora, supongamos que en este caso se desea calcular el monto total de los retiros en el transcurso de
una hora, T = 60, es decir, E [X60 ] . Sabemos que la distribución log-normal tiene función de densidad
( )
1 (log(x) − µ)2
f (x) = √ exp − ,
2πσx 2σ 2
donde µ y σ son la media y la desviación tı́pica del logarı́tmo. Para cualquier variable aleatoria log-normal:
2 2
la varianza es: V ar(X) = eσ − 1 e2µ+σ
3.1. DEFINICIONES 31
Entonces
N (t)
X
E (X(t)) = E Yi
i=1
N (t)
X
= E E Yi |N (t)
i=1
Por otra parte, sabemos que: N (t) ∼ P oi(λt), entonces E [N (t)] = λt y V ar [N (t)] = λt y también que
2 2 2
E [Yi ] = eµ+σ /2 y V ar [Yi ] = eσ − 1 e2µ+σ entonces,
Este modelo tiene sus orı́genes en la tesis doctoral de Filip Lundberg defendida en el a?o de 1903. En este
trabajo Lundberg analiza el reaseguro de riesgos colectivos y presenta el proceso de Poisson compuesto.
En 1930 Harald Cramér retoma las ideas originales de Lundberg y las pone en el contexto de los pro-
cesos estocástico. El modelo ha sido estudiado en extenso y se han propuesto varias formas de generalizarlo.
El modelo que estudiaremos es el proceso a tiempo continuo {Ct }t≥0 dado por
Nt
X
Ct = u + ct − Yj
j=1
donde:
Ct representa el balance más sencillo de ingresos menos egresos de una compa?ı́a aseguradora. Al proceso
Ct se le llama proceso de riesgo o proceso de superávit.
32 CAPÍTULO 3. PROCESO DE POISSON
La variable aleatoria Ct se puede interpretar como el capital de la compa?ı́a aseguradora al tiempo t y por
razones naturales y legales es importante que Ct permanezca por arriba de cierto nivel mı́nimo. Cuando
Ct < 0 se dice que hay ruina. La ruina casi nunca sucede en la práctica, es solamente un término técnico
que produce alguna toma de decisión.
Por ejemplo, si el capital de una compa?ı́a aseguradora asignado a una cartera decrece en forma signifi-
cativa, ésta automáticamente puede tomar ciertas medidas para subsanar esta situación y no se trata de
un evento insalvable.
Ejemplo 3.1.5. Supongamos que en el modelo de Cramer Lumdberg el monto de reclamaciones siguen
una distribución uniforme en (0, 100) y éstas se presentan con una intensidad λ = 3. Modelar el capital
esperado de la compa?ia aseguradora en el tiempo.
Definición 3.6. Un Proceso de Poisson no homogéneo es un proceso a tiempo continuo {Nt }t≥0 y
espacio de estados E = {0, 1, 2, . . .} con parámetro una función positiva y localmente integrable λ(t), que
satisface:
1. N0 = 0
Proposición 3.4.
R t La variable aleatoria Nt en un proceso de Poisson tiene distribución P oisson(Λ(t)),
donde Λ(t)) = 0 λ(s)ds donde λ(t) es la intensidad al tiempo t.
Ejemplo 3.1.6. Para los ejemplos 3.1.1 y 3.1.2 consideremos el supuesto que λ(t) = t/2. Resolver
numericamente los ejemplos 3.1.1 y 3.1.2.
Capı́tulo 4
En este capı́tulo consideremos un proceso de Markov X = {Xt }t≥0 a tiempo continuo, homogéneo en el
tiempo y con espacio de estados finito E = {1, 2, . . . , m}.
Definición 4.1. Una matriz P (t) = {pij (t)}i,j∈E (para cada t ≥ 0) es llamada matriz de transición de
Markov asociada al proceso de Markov X = {Xt }t≥0 .
1. P (0) = I,
Cuando el espacio de estados es finito el comportamiento aleatorio de un proceso de Markov X = {Xt }t≥0
está determinado por su semigrupo estocástico {P (t)}t≥0 y la distribución de X0 .
P (t)t↓0 → 0
Nosotros consideramos sólo procesos de Markov con semigrupos estándar lo cual garantiza que las rea-
lizaciones de éstos son funciones continuas por la derecha, con mayor precisión, se tiene que el proceso
es estocasticamente continuo, separable y medible en intervalos compactos. Además, existe una versión
separable que es estocasticamente equivalente a este proceso. De hecho, con el espacio de estados finitos
se tiene que sus realizaciones son funciones escalonadas, es decir, para casi todo w ∈ Ω y para todo t ≥ 0
existen ∆(t, w) > 0 tal que
Xt+τ (w) = Xt (w)
para τ ∈ [0, ∆(t, w)). Esto motiva el concepto de procesos de saltos de Markov (PSM).
33
34 CAPÍTULO 4. PROCESOS DE SALTOS DE MARKOV
Definición 4.3. Un PSM es un proceso de Markov X = {Xt }t≥0 a tiempo continuo, con espacio de
estados finito (a lo más numerable en general) que empieza en un estado x0 al tiempo τ0 = 0 y permanece
en ese estado hasta un tiempo τ1 cuando realiza una transición (salto) a otro estado x1 . Permanece en
ese nuevo estado hasta un tiempo τ2 > τ1 , momento en el cual salta a otro estado x2 y ası́ sucesivamente.
De acuerdo a esta definición, resulta de interés estudiar la ley de probabilidad que gobierna el tiempo de
estancia de un PSM en un estado i y la transición a otro estado. Con esos objetivos consideramos a la
variable aleatoria
∆(t) = inf{s > 0|Xt+s 6= i, Xt = i}, (4.1)
es decir, ∆(t) es la variable aleatoria que modela el tiempo de estancia en el estado i desde el tiempo t.
∆(t) es un tiempo de paro.
Con este resultado tenemos que el tiempo de estancia en un estado para un PSM sigue una distribución
exponencial de parámetro dependiente del estado. Nosotros nos restringimos al estudio de PSM tales que
λi < ∞, es decir, PSM que no dan saltos instantaneos.
Ahora introducimos notación útil para determinar la transición entre estados en un PSM.
1. τ0 = 0,
5. N (t) = max{n ≥ 0|τn < t}, es decir, el número de saltos hasta el tiempo t.
τ∞ := supτk = ∞.
Proposición 4.2. Sea X = {Xt }t≥0 un PSM regular y τk+1 < ∞. Entonces, condicionada a Xτk = i, las
variables aleatorias ∆k+1 y Xτk+1 son independientes.
Sea X = {Xt }t≥0 un PSM y que Xt = i. Ahora, estamos interesados en analizar que pasa en intervalos
de tiempo infinitesimales (t, t + h), tenemos los siguientes casos.
4.1. CONCEPTOS BÁSICOS 35
1. El proceso puede estar en el mismo estado al tiempo t+h y esto ocurre con probabilidad pii (h)+o(h),
donde o(h) representa la posibilidad que el proceso se salga y regrese al estado i en el intervalo de
tiempo.
2. El proceso se mueva al estado j t + h y esto ocurre con probabilidad pij (h) + o(h), donde o(h)
representa la posibilidad que el proceso realize dos o más transiciones en el intervalo de tiempo.
A la matriz Q = {qij }i,j∈E la lalmaemos generador infinitesimal y es f??cil ver que su correspondiente
matriz de transición al tiempo t está dada por
P (t) = exptQ .
Teorema 4.2. Sea Q el generador infinitesimal de un proceso de saltos de Markov {Xt }t≥0 , entonces
1. Dado que el proceso est?? en el estado i al tiempo t, la variable aleatoria ∆(t) tiene distribución
exponencial de parámetro −qii y
2. si el proceso est?? en el estado i al tiempo t y −qii , con probabilidad 1 exite una funci??n discontinua
para alg??n t > 0 y de hecho la primera disconinuidad es un salto. Si 0 < s <≤ ∞, la probabildiad
condicional de que la primera discontinuidad en el intervalo [t, t + s) sea un salto al estado j (i 6= j)
q
es qiji , (qi = −qii ).
En este proceso Xt representa la población de una cierta entidad al tiempo t, donde a tasa de nacimiento
es λ y la tasa de mortadidad es β. Si suponenos que la población está acotada superiormete, éste es un
ejemplo de un proceso de saltos de Markov que puede ser facilmente simulado.
36 CAPÍTULO 4. PROCESOS DE SALTOS DE MARKOV
Capı́tulo 5
Un proceso de difusión {Xt }t≥0 unidimensional es un proceso estocástico a tiempo continuo con propiedad
fuerte de Markov y trayectorias continuas casi en todas partes.
1
limh↓0 P[|Xt+h − x| > |Xt = x] = 0
h
∀x ∈ I y > 0.
Casi todos los procesos de difusión son caracterizados por dos condiciones básicas que describen su media
y varianza infinitesimales, sea ∆hXt = Xt+h − Xt y x ∈ I, dadas por
1
limh↓0 E[∆hXt |Xt = x] = µ(x, t)
h
y
1
limh↓0 P[(∆hXt )2 |Xt = x] = σ(x, t)
h
Definición 5.2. Ecuación Diferencial Estocástica
Sean µ(x, t) y σ(x, t) dos funciones R × [0, T ] → R. Una Ecuación Diferencial Estocástica es una ecuación
de la forma
dXt = µ(Xt , t)dt + σ(Xt , t)dBt ,
definida para los valores de t en [0, T ] y con condición inicial X0 independiente del Movimiento Browniano,
cuya solución representa un proceso de difusión con tales condiciones infinitesimales.
37
38 CAPÍTULO 5. ECUACIONES DIFERENCIALES ESTOCÁSTICAS
Sea {Xt }t≥0 un Proceso de Difusión, definimos a la variable aleatoria Tz , para z ∈ I, como
(
inf {t ≥ 0kXt = z} {t ≥ 0kXt = z} = 6 ∅
Tz =
∞ e.o.c
Sea {Xt }t≥0 un Proceso de Difusión regular en el espacio de estados I y parámetros µ(x, t) y σ 2 (x, t).
Sea g estricta monótona en I con segunda derivada continua, entonces Yt = g(Xt ) define un Proceso de
Difusión Regular en I 0 = [g(r), g(s)] y tiene parámetros
1
µY (x, t) = σ 2 (x, t)g 00 (x) + µ(x, t)g 0 (x)
2
y
σY2 (x, t) = σ 2 (x, t)[g 0 (x)]2
Un Proceso de Wiener Estándar (MBE) es un proceso markoviano a tiempo continuo con incrementos
estacionario e independientes tal que
1. P[W0 = 0] = 1
3. Wt − Ws ∼ N (0, t − s), ∀0 ≤ s ≤ t
Se define como Puente Browniano aquel proceso {Xt : t ∈ [0, 1]} solución de la ecuación diferencial
estocástica
Xt
dXt = − dt + dBt
1−t
con condición inicial X0 = 0.
limt→1− Xt = 0c.s.
Procederemos a simular éste y otros procesos más adelante después de conocer la forma más aceptable de
generar las trayectorias mediante discretización.
Capı́tulo 6
Cópulas
6.1. Introducción
En esta sección utilizaremos un enfoque que nos permite modelar dependencias en un vector aleatorio.
El tema es amplio, por lo que veremos apenas una breve introducción. Lo poderoso de este enfoque nos
permite parametrizar tal dependencia y además separar la información dada por la densidad conjunta de
variables aleatorias en dos partes: la información dada por las marginales mismas y la información dada
por la dependencia existente entre ellas.
Consideremos un vector aleatorio (X1 , ..., Xn ) en donde las distribuciones marginales Fi (X) = P(Xi ≤ x)
son continuas. Definamos nuevas variables aleatorias
Ui := Fi (Xi ).
Note que por el teorema de la transfomación inversa, ocurre que Ui ∼ U nif (0, 1). Definamos ahora a la
función C : [0, 1]n → [0, 1] dada por
Por otro lado, la función C tiene la información de dependencia entre las variables Xi , sin tomar
en cuenta cómo se comportan marginalmente ya que utiliza en su definición siempre un vector
(U1 , ..., Un ) con marginales fijas pero posible dependencia entre sus entradas.
La función C es en sı́ misma una función de distribución en el cubo unitario con marginales uniformes.
39
40 CAPÍTULO 6. CÓPULAS
4. C() ≥ 0, donde tal notación quiere decir que el incremento de un n-volumen dentro del cubo
unitario siempre es no negativo (veamos el ejemplo en el caso n = 2).
El siguiente teorema nos muestra la forma explı́cita que relaciona a cualquier función de distribución
conjunta con alguna cópula y sus funciones de distribución marginales.
Teorema 6.1 (Sklar). Si H es una función de distribución conjunta en Rn con distribuciones marginales
Fi , 1 ≤ i ≤ n, existe una cópula C tal que
Algo que hay que destacar, es que este teorema de existencia no nos asegura que en todos los casos prác-
ticos seamos capaces de encontrar a la función C de forma explı́cita. En esto es similar al teorema de la
función inversa, en donde tal función inversa no es ni siquiera analı́tica en algunos casos.
Queremos ahora tener una forma paramétrica que nos permita tener una idea del tipo de dependencia entre
las variables aleatorias que conforman al vector, y también el grado o intensidad en que son independien-
tes. Es por ello nos restringimos a una clase de cópulas que es importante en la teorı́a y en las aplicaciones.
Definición 6.2. Decimos que una cópula es arquimediana si existe φ : [0, 1] → [0, ∞] continua, decreciente
y convexa, con φ(1) = 0 tal que
Una observación directa de la definición de cópula arquimediana es que resulta ser intercambiable, es
decir, si uno altera el orden de las coordenadas del vector (u1 , ..., un ) la cópula que se obtiene es la misma.
Ejemplo 6.1.1. Sea φ(t) := − log t para t ∈ [0, 1]. Notemos que en este caso φ−1 (t) = exp(−t). Y
entonces
C(u1 , ..., un ) = φ−1 (− log u1 − ... − log un ) = exp(log u1 + ... + log un ) = u1 ...un .
Es decir, que a este generador corresponde la cópula que multiplica a sus entradas. Observando el teo-
rema de Sklar, esto implica que cuando tenemos esta cópula, la función de distribución factoriza en sus
marginales, por lo que llamaremos a esta cópula la cópula independiente.
Ejemplo 6.1.2 (Cópula de Gumbel). De manera similar al ejemplo anterior, podemos definir el generador
1
φ(t) := (− log t)θ donde θ es un parámetro en [0, 1]. En este caso φ−1 (t) = exp(−t θ ) y la cópula tiene la
forma explı́cita
X n
C(u1 , ..., un ) = exp − (log ui )θ .
i=1
6.2. SIMULACIÓN DE CÓPULAS 41
Notemos que cuando θ = 1 tenemos el caso de la cópula independiente. De hecho, el parámetro θ cumple
que
1
θ= ,
1 − τX,Y
donde τX,Y es la Tau de Kendall, una medida no paramétrica de correlación que está definida en [−1, 1].
Esto nos indica que cuando θ crece hacia infinito, τX,Y crece hacia 1; es decir, la dependencia tiende a
ser completa.
Ocurrirá en general para las cópulas arquimedianas lo que vimos en el ejemplo anterior: la cópula elegida
nos determinará el tipo de dependencia que tienen las variables aleatorias y habrá un parámetro θ que
nos indicará el grado de dependencia que tienen las variables aleatorias.
Supongamos que queremos simular a un vector (X1 , ..., Xn ) proveniente de una distribución F , en donde
ocurre que
F (x1 , ..., xn ) = C(F1 (x1 ), ..., Fn (xn )),
en donde conocemos a las marginales Fi y a la cópula C. Debido a que la cópula C es en sı́ misma una
función de distribución en [0, 1]n , el siguiente algoritmo funciona:
Algoritmo 6.2.1.
Debido al teorema de la función inversa, cada Xi tiene la distribución marginal correcta. Por otro lado,
las Xi ’s heredan la dependencia que tienen las v.a. uniformes Ui ’s. La prueba de este resultado es directa.
Empezaremos mostrando un algoritmo general para generar cópulas que sin embargo es adecuado exclu-
sivamente para dimensiones bajas. Mostraremos el caso particular de dimensión 2.
Notemos que dada una cópula C con densidad asociada c ocurre que
∂ h v u i Z u
Z Z Z u
∂
C(u, v) = c(s, t)dsdt = c(s, v)ds = c(s|v)dsFU |V (u|v),
∂v ∂v 0 0 0 0
donde en la penúltima igualdad untilizamos que c(v) = 1 debido a que la marginal de V es unifome en
(0, 1), por lo que la densidad conjunta de U y V es igual a la densidad condicional de U dado V .
42 CAPÍTULO 6. CÓPULAS
Por lo tanto, si tal derivación es posible podemos encontrar a FU |V , y si además la función FU |V tiene una
inversa explı́cita, podemos utilizar el algoritmo para vectores aleatorios que condiciona secuencialmente.
Este algoritmo toma la siguiente forma explı́cita para generar una cópula.
3. Devolver (U, V ).
En el caso en que las cópulas son arquimedianas tenemos un algoritmo poderoso (Marshall, Olkin, 1988)
que funciona en una dimensión arbitraria n y que requiere exclusivamente la simulación de n + 1 números
aleatorios. Lo desafortunado de tal algoritmo, es que es necesario conocer a L−1 (φ−1 ), la transformada
de Laplace inversa de la función inversa del generador. A continuación presentamos el algoritmo.
Presentamos ahora algunos ejemplos de cópulas arquimeadianas en donde es posible implementar el algo-
ritmo anterior.
Notemos que en los casos de la cópula deAli-Mikhail-Haq y Frank, la distribución de L−1 (φ−1 ) resulta ser
una variable aleatoria discreta.
6.2. SIMULACIÓN DE CÓPULAS 43
La importancia del estudio de los procesos estocásticos en el campo actuarial se debe a que son una
herramienta poderosa en la solución de problemas financieros, de seguros y en toda aquella situación que
se presente un cierto grado de incertidumbre en función del tiempo.
En este capı́tulo nos concentraremos en estudiar el problema de generar trayectorias de una variedad de
procesos estocásticos.
Consideremos una cadena de Markov X = {Xn }n≥0 a tiempo discreto, con espacio de estados E =
{1,2,. . ., M} y homogénea en el tiempo. Supongamos además que su distribución inicial está dada por
π = {π1 , . . . πN } y con matriz de probabilidades de transición:
p11 p12 ... p1N
p21 p22 ... p2N
P = .
.. .. .. ..
. . . .
pN 1 pN 2 . . . pN N
Sabemos que, dada una cadena de Markov homogénea, podemos obtener su matriz de transición y su
distribución inicia. Ahora nos preguntamos si dada una matriz estocástica y un vector de distribución de
probabilidades, es posible asociar una cadena de Markov que tenga a tal matriz como matriz de transición
y a tal vector como distribución inicial. El siguiente resultado asegura que sı́ se puede y su demostración
constructiva proveé un algoritmo para la simulación de una cadena de Markov.
Teorema 7.1. Dada una matriz estocástica de P ∈ MN ×N , una distribución inicial π sobre el espacio
de estados E = {1, 2 . . . , N }, existe un espacio de probabilidad en el que están definidas una sucesión
de variables aleatorias {Xn }n∈N con soporte en E, que conforman una cadena Markov homogénea con
espacio de estados E, matriz de transición P y distribución inicial π.
Demostración. Consideremos un espacio de probabilidad (Ω, F , P) en el cual está definida una sucesión
{Un }n∈N de variables aleatorias independientes uniformes en el intervalo (0,1). Definimos φi (y) como la
45
46 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
función de cuantiles sobre E asociada a la distribución {pi,j }1≤j≤N y a φ0 (y) como la función de cuantiles
sobre E asociada a la distribución π, para y en (0, 1).
X0 = φ0 (U0 )
Mostraremos ahora que el proceso {Xn }n≥0 propuesto satisface la propiedad de Markov.
De lo cual se sigue directamente la propiedad de Markov. Por lo tanto {Xn }n∈N es una cadena Markov,
con distribución inicial π y matriz de transición P.
El resultado anterior nos proporciona una justificación de la existencia de cadenas de Markov además de
indicarnos un procedimiento para simular trayectorias de éstas. A continuación mostramos tal procedi-
miento explı́citamente, en forma de algoritmo.
Algoritmo 7.1.1. Cadenas de Markov a tiempo discreto. Este algoritmo genera trayectorias de
una cadena de Markov homogénea con distribución inicial π y matriz de transición P hasta el horizonte
de tiempo m.
2. Inicializamos n=1.
Para la simulación de Cadenas de Markov y el estudio de las caracterı́sticas y resultados para una cadena
discreta en R está disponible la paqueterı́a markovchains. Con esta paqueterı́a podemos constatar cómo
se cumplen los resultados teóricos de Cadenas de Markov (ver la sección 2 en el Apéndice 1) y diversas
herramientas interesantes como el ajuste de una Cadena de Markov a partir de una secuencia de estados.
Ejemplo 7.1.1. Se simuló una trayectoria de una cadena de Markov usando el Algoritmo 7.1.1 con las
siguientes caracterı́sticas:
Matriz de transición
0,2 0,1 0,5 0,2
0,5 0,2 0,2 0,1
P = 0,2 0,5 0,1
,
0,2
0,3 0,5 0,1 0,1
vector de distribución inicial π
0,2 0,4 0,2 0,2 ,
vector de espacio de estados E
1 2 3 4 ,
y horizonte de tiempo m=30. En la figura 7.1 podemos observar la gráfica de la trayectoria simulada.
Ejemplo 7.1.2. El algoritmo anterior está implementado en la función rmarkovchain(), podemos ejem-
plificar el uso de estas funciones para aproximar numéricamente los resultados para el ejemplo 2.1.1.
En esta paqueterı́a las cadenas se manejan como objetos markovchain, a partir de la matriz de probabili-
dades de transición y el nombre de los estados. La forma en que hemos capturado la cadena del laberinto
es
48 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
> Plab<-array(c(0,1/3,0,1/3,0,0,0,0,0,.5,0,.5,0,.25,0,0,0,0,0,1/3,0,
+ 0,0,1/3,0,0,0,.5,0,0,0,.25,0,.5,0,0,0,1/3,0,1/3,0,1/3,
+ 0,1/3,0,0,0,.5,0,.25,0,0,0,.5,0,0,0,1/3,0,0,0,1/3,0,0,
+ 0,0,0,.25,0,.5,0,.5,0,0,0,0,0,1/3,0,1/3,0),dim=c(9,9))
> Lab<-new("markovchain",transitionMatrix=Plab)
pero hay que notar que los nombres de los estados son del tipo character. Al declarar de esta forma,
la computadora maneja a tales datos como cadenas de texto “1”,“2”,... en progresión de tantos naturales
como la dimensión de la matriz. Si fuese necesario, los nombres de los estados pueden ser personalizados
al declarar el parámetro states como un vector de cadenas de texto. Es por esta razón que al utilizar
las diversas funciones que manejen un objeto markovchain siempre se hace referencı́a al estado como el
nombre tipo character.
Al inicio, colocamos una rata en la esquina inferior izquierda del laberinto de la Figura 2.1 y comida en
la esquina superior derecha.
Supongamos que estando en cualquiera de los cuartos del laberinto, la rata puede ir a cualquiera de los
cuartos vecinos con la misma probabilidad, y que olvida en cada momento las decisiones que tomó con
anterioridad. Entonces, su posición en el laberinto se puede modelar por una cadena de Markov con matriz
de transición dada por:
7.1. SIMULACIÓN DE CADENAS DE MARKOV A TIEMPO DISCRETO Y LA PAQUETERÍA MARKOVCHAIN49
0 1/2 0 1/2 0 0 0 0 0
1/3 0 1/3 0 1/3 0 0 0 0
0 1/2 0 0 0 1/2 0 0 0
1/3 0 0 0 1/3 0 1/3 0 0
P = 0 1/4 0 1/4 0 1/4 0 1/4 0
0 0 1/3 0 1/3 0 0 0 1/3
0 0 0 1/2 0 0 0 1/2 0
0 0 0 0 1/3 0 1/3 0 1/3
0 0 0 0 0 1/2 0 1/2 0
Hemos utilizado la función rmarkovchain para componer una función que calcula el resultado nu-
méricamente al determinar un número de trayectorias y la casilla de la cual se va a partir, llamada
Lab.TLlegada() (ver A.0.12). Supongamos que la rata inicia en la casilla 1, los resultados se mues-
tran en el Cuadro 7.1.
De manera muy similar podemos simular trayectorias registrando el número de éxitos en los casos
en que, partiendo de i, ocurrió que el k-ésimo estado fue j. La implementación sugerida puede
realizarse con la función Lab.Pijk() (ver A.0.13). Tomando por ejemplo i = 1, j = 5 y k = 10
pasos, obtenemos los resultados desplegados en el Cuadro 7.2.
3. Si de nuevo seguimos solamente la trayectoria sin comida, ¿estamos seguros de regresar al punto
inicial?
Intuitivamente podemos pensar que la rata podrı́a siempre recorrer todo el laberinto, la función
is.irreducible() nos puede hacer comprobar si la cadena es irreducible:
> is.irreducible(Lab)
[1] TRUE
50 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
de modo que podemos concluir que todos los estados son recurrentes, y que fj1 = 1 para toda i ∈ E.
4. Si agregamos la comida, ¿cuántas veces regresará la rata al cuarto inicial antes de encontrar la
comida?
También a partir de trayectorias, podemos considerar la pregunta como un problema de primera
visita, pero primero hay que saber cuántas veces paso por el inicio antes de llegar a la comida. Lo
cual está implementado en Lab.jpori() (ver A.0.14), mostramos entonces los resultados para el
inicio en 1 y la comida en 9, los resultados se encuentran en el Cuadro 7.3.
Trayectorias Recurrencias
1 10 1.100000
2 100 0.950000
3 1000 0.988000
De este modo se pueden dar las aproximaciones frecuentistas de las probabilidades deseables, que serán
más precisas a medida que corramos más trayectorias en las funciones.
Suponga que un actuario se traslada todos los dı́as de su casa a la oficina por las mañanas y regresa por
las tardes. Cada vez que está a punto de trasladarse comprueba antes si está lloviendo (lo cual ocurre
independientemente cada mañana o tarde con la misma probabilidad p) para buscar uno de los dos para-
guas que posee para salir. Cuando no está lloviendo no se lleva ningún paraguas.
Una motivación natural para modelar este problema es conocer la probabilidad de que el actuario se moje
debido a que no tiene paraguas disponibles para salir.
Notemos que la cantidad de paraguas que tendrá disponible al realizar un traslado, no dependerá de
cuántos traslados haya realizado con anterioridad. De modo que podemos el siguiente proceso resultará
ser una cadena de Markov:
Notemos que el espacio de estados está dado por E = {0, 1, 2} y la matriz de transición correspondiente
a la dinámica es:
0 0 1
P = 0 1 − p p .
1−p p 0
Una observación es que esta modelación puede al caso en que el actuario poseé r paraguas, y se lleva un
paraguas cada vez que está lloviendo. En tal caso el espacio de estados es E = {0, 1, 2, . . . , r} y la matriz
7.1. SIMULACIÓN DE CADENAS DE MARKOV A TIEMPO DISCRETO Y LA PAQUETERÍA MARKOVCHAIN51
de transición es de tamaño r + 1.
Con la función Par.markov() (ver A.0.15) podemos generar el objeto markovchain que representa esta
cadena para r paraguas. Usaremos éste modelo para ilustrar las principales funciones de la paqueterı́a
markovchain.
Supongamos que el caso de dos paraguas y p = 1/2, si llegamos a necesitar cosas sencillas de un objeto mar-
kovchain que tal vez no declaramos nosotros como la probabilidad pi,j o la distribución de Xn |Xn−1 = i
(el renglón del estado i de la matriz), podemos usar las funciones transitionProbability() y condi-
tionalDistribution() respectivamente:
> Par2<-Par.markov(2,.5)
> Par2
> tP<-transitionProbability(Par2,"1","1")
> tP
[1] 0.5
> cD<-conditionalDistribution(Par2,"0")
> cD
0 1 2
0 0 1
Al hablar de una Cadena de Markov, tenemos como primer interés conocer caracterı́stcas de la cadena co-
mo las clases de comunicación y el tipo de estados que tiene, podemos pensar que en este ejemplo no tiene
estados absorbente ni transitorios y si todos los estados son recurrentes. Podemos aplicar absorbingSta-
tes(), transientStates() e is.irreducible() respectivamente para conocer tales caracterı́sticas.
> absorbingStates(Par2)
character(0)
52 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
> transientStates(Par2)
character(0)
> is.irreducible(Par2)
[1] TRUE
El output character(0) representa al conjunto como vacı́o. Ahora, de saber que es irreducible tenemos
la certeza de que la función steadyStates() nos proveerá de la distribución estacionaria de la cadena.
> DE<-steadyStates(Par2)
> DE
0 1 2
[1,] 0.2 0.4 0.4
Las probabilidades de primera visita tienen la complicación de hablar de las posibles trayectorias donde
estrictamente se empieza en i y que llegan por primera vez a j exáctamente en el paso n. Por lo que se
necesita realizar una procesión de cálculos, para evitar j antes de haber realizado n transiciones, los cuales
se implementa en firstPassage() que calcula una matriz de tantos renglones como pasos especificados
y tantas columnas como estados de la cadena.
Entonces para calcular fij (n) habrá que pedir n renglones y escoger la columna representante del destino.
Por ejemplo, buscamos la probabilidad de que en una ma?ana tengamos un paraguas en la casa, uno en la
oficina y que hasta la ma?ana siguiente (dos pasos) se tenga la misma cantidad, representada por f1,1 (2),
tiene respuesta una repuesta analı́tica sencilla pues representa una trayectoria única
11 1
f1,1 (2) = p1,2 p2,1 = =
22 4
> Trans2<-firstPassage(Par2,"1",2)
> Trans2[2,2]#El estado 1 corresponde a la segunda columna
[1] 0.25
La utilidad principal de este modelo es lograr tener una idea de la cantidad de veces que el actuario va
a mojarse. Lo cual puede ocurrir cuando no tiene sombrillas disponibles en algún paso. Para lo cual, se
7.1. SIMULACIÓN DE CADENAS DE MARKOV A TIEMPO DISCRETO Y LA PAQUETERÍA MARKOVCHAIN53
puede encontrar la distribución estacionaria π de la cadena, podemos decir que la probabilidad de estar
sin paraguas transcurrido el tiempo es la entrada π0 y que dada la probabilidad de lluvia p, entonces la
proporción de veces que se moja es
p(1 − p)
pπ0 =
3−p
> moj<-.5*DE[1]
> moj
[1] 0.1
De manera similar se puede encontrar analı́ticamente la respuesta analı́tica para este problema con el caso
de r paraguas, de modo que podemos comprobar la utilidad de la paqueterı́a cuando podamos manejar
una Cadena de Markov con caracterı́sticas más complejas.
Dicho lo anterior, podemos encontrar la forma en que la frecuencia de los estados en trayectorias simuladas
de la cadena pueden aproximar la distribución estacionaria. Generando una cadena con N = 4 comparamos
la distribución y la frecuencia de los estados en trayectorias.
54 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
0.35
0.4
EstVSSim_100
EstVSSim_10
0.25
0.2
0.15
0.05
0.0
1 2 3 4 5 1 2 3 4 5
0.35
0.35
EstVSSim_10000
EstVSSim_1000
0.25
0.25
0.15
0.15
0.05
0.05
1 2 3 4 5 1 2 3 4 5
Suponga que se quieren generar los primeros n eventos de un proceso Poisson de intensidad λ. Para ello
nos apoyaremos del resultado de que el tiempo transcurrido entre dos eventos sucesivos cualesquiera son
una sucesión de variables aleatorias independientes exponenciales de parámetro λ. De manera que para
generar un proceso Poisson basta con generar esos tiempos de interarribo.
1
Si generamos n números aleatorios U1 , U2 , . . . , Un y hacemos Xi = − log Ui , entonces las Xi pueden
λ
considerarse como los tiempos entre el (i−1)-ésimo y el i-ésimo evento de un proceso Poisson. Supongamos
que queremos generar las una trayectoria de un proceso de Poisson en el intervalo finito [0, T ] , podemos
seguir el procedimiento.
Algoritmo 7.2.1. Generación de trayectorias de un proceso de Poisson
En este algoritmo t se refiere al tiempo, I es el número de eventos que han ocurrido al tiempo t y S(I) es
7.2. SIMULACIÓN DE UN PROCESO DE POISSON 55
1. Hacer t = 0, I = 0
2. Generar U ∼ U (0, 1)
1
3. Hacer t = t − log U . Si t > T , detenerse
λ
4. En caso contrario, hacer I = I + 1 y S(I) = t
5. Ir al paso 2.
Con el algoritmo anterior vamos a hacer estimaciones de la forma usual, con la simulación del proceso de
Poisson, los valores mencionados en el ejemplo 3.1.1. La implementación del proceso la está disponible en
la función PPoisson.S() (ver A.0.17).
3. ¿Cuál es el tiempo esperado hasta la octava reclamación? La función PPoisson.TE() (ver A.0.20)
nos ayuda a responder esta pregunta en el Cuadro 7.6.
Notemos que la metodologı́a de la respuesta 1, con algo de espera, nos puede ayudar a aproximar probabi-
lidades cuya respuesta analı́tica no es posible calcular cuando λt o x son muy grandes como para calcular
56 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
(λt)x o x!.
4. Si en una semana se presentan 3 reclamaciones, ¿cuál es la probabilidad que todas sean del mis-
mo tipo? Para responder esta pregunta necesitamos generar las 5 trayectorias de las categorı́as
simultaneamente, lo cual se dejará como ejercicio.
Proposición 7.1. Consideremos un proceso de Poisson no homogéneo N = {Nt }t≥0 como en la Defi-
nición ??. Supongamos que supt>0 λ(t) ≤ λ. Sea N ∗ = {Nt∗ }t≥0 un proceso de Poisson con parámetro
λ con tiempos de ocurrencia {Tn∗ }n≥1 e independiente de una sucesión de variables aleatorias {Un }n≥1
independientes e identicamente distribuidas uniformes en el intervalo (0, 1). Entonces, se puede simular
a N haciendo X
Nt = I{Tn∗ ≤t,Un ≤λ(Tn∗ )} .
n≥1
Suponga que deseamos simular una trayectoria de un proceso de Poisson no homogéneo en un intervalo
de tiempo [0, T ] con función de intensidad λ(t). El método que revisaremos a continuación se conoce con
el nombre de muestreo aleatorio.
Tal proceso Poisson no homogéneo puede generarse seleccionando aleatoriamente el evento tiempos de un
proceso Poisson con tasa λ. Es decir, si un evento de un proceso Poisson con tasa λ que ocurre al tiempo t
es contabilizado con probabilidad λ(t)/λ, entonces el proceso de los eventos contabilizados es un proceso
Poisson no homogéneo con función de intensidad λ(t) para 0 ≤ t ≤ T .
Por lo tanto, simulando un proceso Poisson y contabilizando aleatoriamente sus eventos, podemos generar
un proceso Poisson no homogéneo. De esta forma podemos describir el algoritmo deseado como sigue:
1. Hacer t = 0, I = 0
1
3. Hacer t = t − log U . Si t > T , detenerse
λ
4. En caso contrario, generar otro número aleatorio U ∼ U (0, 1)
6. Regresar al paso 2.
Nota 7.1. La justificación de que el Algoritmo 7.2.2 genera trayectorias de un proceso de Poisson no
homogéneo se sigue de la Proposicón 7.1.
La implementación del algoritmo se presenta en la función PPoissonNH.S() (ver A.0.21), la cual puede
funcionar con cualquier función de intensidad que cumpla que λ : R+ ∪ {0} → R+ ∪ {0}.
En la Figura 4.2 podremos apreciar la forma en que actúa la función de intensidad con la ocurrencia de
saltos cuando tenemos λ(t) = t/2 y λ(t) = 1 + sen(t)
58 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
5
4
15
3
Saltos
t/2
10
2
5
1
0
0 2 4 6 8 10 2 4 6 8 10
t Tiempo
2.0
14
12
1.5
10
1+sin(t)
Saltos
1.0
8
6
0.5
4
2
0.0
0 2 4 6 8 10 0 2 4 6 8 10
t Tiempo
Nt
X
Xt = Yi ,
i=1
con N = {Nt }t≥0 un proceso de Poisson y {Yi }i≥1 una sucesión de variables aleatorias independientes e
identicamente distribuidas con distribución F. El siguiente algoritmo describe la manera de simular a X
en el intervalo de tiempo [0, T ].
1. Hacer t = 0, I = 0.
2. Generar U ∼ U (0, 1)
1
3. Hacer t = t − log U . Si t > T , detenerse
λ
4. En caso contrario, generar hacer I = I + 1 ,y S(I) = t
5. Generar YI ∼ F.
6. Hacer XT = Ii=1 Yi
P
7. Ir al paso 2.
La función PPoiCE.S() (ver A.0.22) ejemplifica el caso en que las saltos siguen una distribución exponen-
cial.Con lo anterior podemos también implementar la simulación del modelo de Cramér-Lundberg, con
el que es posible obtener trayectorias del capital de una compa?ı́a de seguros a través del tiempo para
estimar resultados de interés, como la probabilidad de ruina o tiempo esperado de ruina, como se muestra
en la Figura 7.2.3 para el caso de arribos exp(.4) y saltos exp(.8) con un capital inicial de 10 unidades.
Por el Teorema 4.2 se tiene que la forma de simular un Procesos de Saltos de Markov, a traves de una
trayectoria por tiempo de estadı́a se presenta a continuación:
60
50
40
Capital
30
20
10
0 20 40 60 80 100
Tiempo
2. Hacemos Yn = i
Para poder encontrar un trayectoria del Proceso de Saltos de Markov hay que considerar una matriz de
intensidades compatible con las caracterı́sticas del generador infinitesimal que representa los parámetros
necesarios, en la función PSM.S() (ver A.0.23) implementamors el algoritmo. Veamos en la Figura 7.3
usando la matriz de intensidades
7.3. SIMULACIÓN DEL PROCESO DE SALTOS DE MARKOV. 61
−0.5 0.25 0.25
Q = 0.4 −1 0.6 .
0.1 0.1 −0.2
2.0
1.5
1.0
Tiempo
El algoritmo anterior toma como principal fundamento los tiempos de estadı́a donde tenemos que simular
un estado inicial X(0), la trayectoria continúa hasta llegar al tiempo T en algún estado para X(T ). A
continuación vamos a abordar la propuesta de Asmussen & Holbolth para simular Puentes de Markov, lo
que significa que los estados para X(0) y X(T ) son conocidos.
62 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
1. Si X(0) = X(T ) = a y no hay saltos entonces conocemos todos los estados: X(t) = a, para 0 ≤ t ≤ T .
2. Si X(0) = a X(T ) = b 6= a y hay un único salto entonces sólo faltarı́a conocer a τ tal que X(t) = a,
para 0 ≤ t ≤ τ y X(t) = b, para 0 ≤ t ≤ τ .
Es entonces que estas conclusiones son fundamentales para la progresión del Algoritmo de la Bisección,
ya que de no encontrarnos en los casos anteriores entonces necesariamente hay estados que no conocemos
en el intervalo. De modo que el algoritmo busca llevar una revisión de los estados en un proceso de dividir
el intervalo y comprobar la existencia de los saltos posibles que pudieron haber ocurrido.
Dicho lo anterior, notamos coherente la idea de realizar la metologı́a sobre mitades de intervalo, y empe-
zamos entonces establecer la mecánica del algoritmo.
Si biseccionamos un intervalo (0, T ) que tiene al menos un salto y encontramos que en (0, T /2) o (T /2, T )
también hay al menos un salto entonces aún existen estados desconocidos y tendrı́amos que repetir el
proceso.
Antes de describir la forma en que determinamos la existencia de saltos en intervalos del proceso tenemos
que recurrir a algunos resultados.
Lema 7.1. Sean a y b estados distintos de un PSM, y un intervalo de longitud T con X(0) = a. La
probabilidad de que X(t) = b y que haya ocurrido un solo salto en el intervalo es
e−qa T −e−qb T
(
qb −qa qa 6= qb
Rab = qab −q
T e aT qa = qb
Y además la probabilidad de que X(T ) = b con al menos dos saltos en el intervalo es Pab (T ) − Rab (T ).
7.3. SIMULACIÓN DEL PROCESO DE SALTOS DE MARKOV. 63
Si qa > qb , por simetrı́a fab (t) es la densidad de la variable T − V con V distribuida de manera
exponencial de parámetro qb − qa truncada a [0, T ].
Supongamos que X(0) = X(T ) = a. Sea N(T) el número saltos en el intervalo [0,T], podemos escribir
X
Paa (T ) = Paa (T /2)Paa (T /2) + Pac (T /2)Pca (T /2).
c6=a
y también que
Pac = Rac (T /2) + [Pac (T /2) − Rac (T /2)].
Con lo cual podemos construir los escenarios posibles, tomando las abreviaturas ea = e−qa T /2 , rab =
Rab (T /2) y pab = Pab (T /2), en el Cuadro 7.9.
64 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
Es ahora que podemos reproducir el posible escenario que ocurre en el intervalo a traves de escoger alguno
de forma proporcional a los α-valores. A partir del caso correspondiente tendremos que establecer si es
posible hablar de saltos intermedios y tiempos de estadı́a en cada una de las bisecciones.
Ahora supongamos que X(0) = a y que X(T ) = b 6= a, entonces tenemos la probabilidad de transición
X
Paa (T ) = Paa (T /2)Pab (T /2) + Pab (T /2)Pbb (T /2) + Pac (T /2)Pcb (T /2).
c6=(a,b)
Con lo cual también podemos construir los casos posibles en el Cuadro 7.10.
De la misma manera hay que escoger alguno de los escenarios de manera propocional con los β-valores.
Teniendo en cuenta que, estamos hablando de la posibilidad de que exista un estado c distinto de los
7.4. SIMULACIÓN DE ECUACIONES DIFERENCIALES ESTOCÁSTICAS 65
extremos al cual se pudo llegar desde a para terminar en b antes del tiempo T , hay que realizar decisiones
un poco distintas que cuando los extremos son iguales.
Todo lo anterior nos implica una recursión sobre la cual hay que decidir sobre cada bisección producida.
Cuando produzcamos algún caso sobre un intervalo nuevo, con al menos un salto podremos registrar un
cambio de estado y un tiempo de estadı́a para el Puente de Markov. Y se deberá continuar el proceso
evidentemente hasta que esté determinado que en toda sección hay menos de dos saltos, encontrando ası́
la información completa.
En esta sección desarrollaremos métodos para simular a las soluciones a ecuaciones diferenciales estocásti-
cas. La mayoriade los métodos de simulación para este tipo de procesos están basados en aproximaciones
discretas de la solución continua. Una manera de clasificar estos métodos es considerando al orden de
convergencia (débil o fuerte) como criterio de optimalidad.
Para poder simular Procesos de Difusión a traves de la discretización de la ecuación diferencial hay que
garantizar la convergencia al proceso de continuo, vamos a considerar los siguientes conceptos.
Se dice que una aproximación a tiempo discreto X δ de un proceso a tiempo continuo X, donde δ denota
el incremento de tiempo máximo en la discretización, se dice que es de nivel fuerte de convergencia τ si
E[|Xtδ − Xt |] ≤ Cδ τ
Considerando otra vez la aproximación a tiempo discreto X δ de un proceso a tiempo continuo X, se dice
que es de nivel débil de convergencia τ si
para todo t ≥ 0, δ < δ0 con δ0 > 0, C una constante independiente de δ, cualquier función polinómica
creciente continua y diferenciable de orden 2(τ + 1).
Consideremos un proceso de difusión X = {Xt }t≥0 que es solución a la ecuación diferencial estocástica
66 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
para i = 0, 1, . . . , n − 1, con Y0 = x0 y
∆i = ti+1 − ti ,
Por otro lado como entre cualesquiera dos momentos de observación ti y ti+1 , el proceso puede ser definido
diferenciable. Una propuesta natural es considererar una interpolación lineal para Yt definida por
t − ti
Yt = Yti + (Yti+1 − Yti )
ti+1
para t ∈ [ti , ti+1 ). En particular el método de Euler tiene orden fuerte de convergencia con τ = 1/2.
Aquı́, se presenta una simulación de un proceso de difusión con el esquema de Euler, consideramos el
proceso de Ornstein-Uhlenbeck, que es una solución de la ecuación diferencial estocástica
donde α > 0 y σ > 0 son los parámetros del proceso W es un proceso de Wiener estándar. Si suponemos
que X0 = 0 y consideremos un intervalo de realización [0, 1] con un nivel de discretización 0 = t0 < t1 <
... < tn = 1, donde n = 100 y ∆ = ∆i = 0.01, para todo i = 1, 2, ..., n − 1, entonces el método de Euler
para este proceso es:
En la siguiente figura se presentea una realización del proceso cuando α = 0.5 y σ = 2.5 en el intervalo
[0, 1].
7.4. SIMULACIÓN DE ECUACIONES DIFERENCIALES ESTOCÁSTICAS 67
0.4
0.3
0.2
tray
0.1
0.0
1
Yti+1 = Yti + µ(Yti , ti )∆i + σ(Yti , ti )∆Wi + σ(Yti , ti )σ 0 (Yti , ti )ti [(∆Wi )2 − ∆i ],
2
Para ejemplificar el uso de este método de simulación cnsideremos el movimiento Browniano geométrico,
el cual es solución a la ecuación diferencial estocástica
68 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
dXt = θ1 Xt dt + θ2 Xt dWt ,
para este proceso, tenemos que µ(x, t) = θ1 x, σ(x, t) = θ2 x y σx (x, t) = θ2 entonces el esquema de Milstein
para este proceso es
1
Yti+1 = Yti + θ1 Yti ∆i + θ2 ∆Yti Wi + θ2 Yti [(∆Wi )2 − ∆i ]
2
θ22 θ2
= Yti (1 + ∆θ1 − ) + θ2 ∆Wi + 2 Yti (∆Wi )2
2 2
2
1
0
La paqueterı́a sde
Ahora que conocemos la implementación bajo discretización, podemos encontrar algunas de la ecuaciones
diferenciales estocásticas más comunes o usadas en la práctica implementadas en la paqueterı́a sde.
En los ejemplos anteriores mencionamos al proceso de Ornstein-Uhlenbeck, también conocido como proce-
so de Vasicek, que ha servido principalmente para modelar procesos biológicos y fisiológicos, y también el
Movimiento Browniano Geométrico, conocido también en la literatura como Black-Scholes-Merton (BS),
que modela el precio de activos financieros. A su vez otro proceso muy útil conocido como proceso de
Cox-Ingersoll-Ross (CIR), cuya ecuación diferencial estocástica es
p
dXt = (θ1 − θ2 Xt )dt + θ3 Xt dBt ,
con θ1 , θ2 , θ3 > 0 y 2θ1 > θ32 , la transformación Yt = 2cXt tiene una distribución condicional χ2 no
centralizada conocida, a partir de esto se puede encontrar la distribución condicional del proceso original
Xt |X0 ∼ χ2(ν,η)
2θ2
c=
θ32 (1 − e−θ2 t )
4θ1
ν=
θ32
η = x0 e−θ2 t
Además el proceso tiene la particularidad de mantenerse en valores positivos siempre, por lo que es usada
tı́picamente en tipos de cambio o tasas.
Estos tres procesos, dado que se conoce la distribución condicional, puede simularse como variables alea-
torias condicionados a un X0 y un ∆ de tiempo. Por lo que se tienen las funciones similares para dis-
tribuciones conocidas en R de densidad (dc), función de distribución (pc), cuantı́l (qc) y simulación (rc)
bajo la nomenclatura OU para Ornstein-Uhlenbeck, BS para el Browniano Geométrico y CIR para Cox-
Ingersoll-Ross.
De modo que si desearamos realizar una simulación del proceso CIR de parámetro θ = (1, 2, 1), ∆ = 1/100,
T = 1 y X0 = 1, usando la paqueterı́a sde podemos hacerlo de la siguiente forma:
> library(sde)
> proc<-numeric(101)
> proc[1]<-1
> for(i in 2:101){
+ proc[i]<-rcCIR(n=1,Dt=.01,x0=proc[i-1],theta=c(1,2,1))
+ }
70 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
1.2
1.0
0.8
proc
0.6
0.4
0.2
Aún cuando no tengamos un proceso gaussiano, podemos seguir recurriendo a la discretización mediante
Euler o Milstein, que no son precisamente los únicos métodos, para únicamente necesitar los parámetros
de deriva y difusión. Según el método escogido se necesitará tener conocimiento de las derivadas parciales
de ésas funciones, para lo cual en la función sde.sim() se tiene disponible distintas implementaciones.
Notemos que la gran cantidad de parámetros debe tener la función, se recomienda leer con cuidado la
documentación de la paqueterı́a.
Supongamos que queremos simular un alguna ecuación diferencial estocástica en particular en [0, 1] con
100 pasos. Tomemos como p ejemplo el Proceso Hiperbólico Simple, entonces tenemos el parámetro de
deriva µ(x, t) = −θXt / 1 − Xt2 y de difusión σ(x, t) = 1, especificando el método de discretización de
Milstein se requiere también especificar σx (x, t) = 0, supongamos θ = 1, los parámetros del intervalo que
necesitamos (t0=0,T=1,N=100) son los valores predeterminados y debemos especificar X0=0. Entonces
la forma de implementar el ejemplo es el siguiente
> d<-expression(-1*x/sqrt(1-x^2))
> s<-expression(1)
7.4. SIMULACIÓN DE ECUACIONES DIFERENCIALES ESTOCÁSTICAS 71
> sx<-expression(0)
> set.seed(123)
> PH<-sde.sim(X0=0,drift=d,sigma=s,sigma.x=sx,method="milstein")
0.8
0.6
0.4
PH
0.2
0.0
−0.2
Time
De manera muy simular la función BBridge() está constituida para simular un Puente Browniano di-
rectamente, por lo que se requieren de menos espeficicaciones. Con lo que también se tiene disponible
una para el Movimiento Browniano Estándary para el movimiento Browniano Geométrico, BM() y GBM()
respectivamente, que requieren menos parámetros. Con los valores determinados para estas funciones se
pueden obtener las simulaciones directamente, a continuación mostramos un Puente Browniano usando
BBridge().
> plot(BBridge())
Retomaremos las herramientas de la paqueterı́a sde más adelante para aprovechar las funciones imple-
mentadas sobre métodos de Inferencia Estocástica.
72 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
0.2
0.0
−0.2
BBridge()
−0.4
−0.6
−0.8
Time
7.5. Ejercicios
1. Implementar el modelo matemático de ejemplo 1.1.1.
2. Si suponemos que la partı́cula del ejemplo 1.1.2 empieza en el nodo 0 y se mueve hasta que todos
han sido visitados, ¿cuál es la probabilidad de que el nodo i con i ∈ 0, 1, . . . , m, es el último que se
visita?. La solución debe ser numérica. estocásticos.
3. En el ejemplo 1.1.3, suponga que los arribos entre clientes siguen una distribución exponencial de
parámetro α y que las variables aleatorias que modelan el tiempo de servicio son gobernadas por
una distribución común y además son independientes (exponenciales de parámetro λ). Proponer un
modelo y estimar los tiempos de servicio hasta atender a los clientes en el banco al tiempo t.
4. Responder (numéricamente) las preguntas planteadas en el ejemplo 2.1.1. ♦
5. Considere una cadena de Markov con espacio de estados {0, 1, 2} y matriz de transición
0.6 0.3 0.1
P = 0.3 0.3 0.4
0.4 0.1 0.5
7.5. EJERCICIOS 73
y con distribución inicial π = (0.2, 0.4, 0.4), simulando trayectorias, estimar las siguientes probabi-
lidades:
6. Estimar el número de pasos esperados para cambiar las bolas de urna en el ejemplo 2.2.4.
7. Estimar la probabilidad de estar en el mismo punto de partida después de 100 pasos en el ejemplo
2.2.2 para cualquier parametro p.
8. En e ejemplo 2.2.3 suponga que el jugador decide apostar 6 pesos si tiene al menos 20 de pesos y 1
si tiene menos de 20. ¿Aumenta su probabilidad de ruina?. Solución numérica.
9. Considere una cadena de Markov con espacio de estados {1, . . . , 5} y matriz de transición
1/2 0 1/2 0 0
0 1/4 0 3/4 0
P =
0 0 1/3 0 2/3
1/4 1/2 0 1/4 0
1/3 0 1/3 0 1/3
Estimar tiempos medios de recurrencia y número esperado de visitas a cada estado.
10. Escribir un código para estima el tiempo de llegada a un estado partiendo de otro en el ejemplo
2.2.1.
11. Sea {Xn }n≥0 una cadena de Markov con matriz de transición
0 21 12
P = 0 23 13
1 2
3 3 0
12. Generar un proceso de Poisson de parámetro λ = 2.5 utilizando el algoritmo implı́cito en el Teorema
.♦
14. Sea Nt un proceso de Poisson de parámetro λ = 2. Sea Sn el instante en el que ocurre el n-ésimo
evento. Estime:
a) E(N5 ).
b) E(N5 |N2 = 1)
c) E(S7 ).
d ) E(S7 |N2 = 3)
e) E(S7 |N5 = 4).
74 CAPÍTULO 7. SIMULACIÓN DE PROCESOS ESTOCÁSTICOS
16. Implementar el algoritmo para el proceso de Poisson no homogéneo cuando λ(t) = cos(t) en el
intervalo de tiempo [0, 2π].
17. Resolver numericamente los ejemplos 3.1.1 y 3.1.2 consideremos el supuesto que λ(t) = t/2.
19. Hacer un programa que simule (y grafique) un proceso de Poisson no homogéneo en R3 en la esfera
1
de radio 5, donde la función de tasa espacial está dada por λ(t) = mı́n{10, ||t|| } para t ∈ R3 , para t
tal que ||t|| ≤ 5.
Capı́tulo 8
En este capı́tulo introduciremos un concepto muy importante en la simulación estocástica que permite
dar solución a problemas matemáticos que como ya se mencionó resultan costosos o imposibles resolver
analı́ticamente. Además se presenta la importancia de la reducción de varianza en la implementación de
algoritmos de simulación y dos técnicas para conseguir este objetivo.
La simulación Monte Carlo es un método que emplea números aleatorios para resolver ciertos problemas
determinı́sticos donde el transcurrir del tiempo no juega un papel sustancial, principalmente problemas
de integración y optimización.
El método se llamó ası́ en referencia al Casino de Monte Carlo. Se originó y desarrolló durante la
segunda guerra mundial cuando esta metodologı́a fue aplicada a problemas relacionados al desarrollo de
la bomba atómica.
Citando a uno de los grandes impulsores del desarrollo de este método [4] decimos que “ el método de
Monte Carlo consiste en representar la solución analı́tica de un problema como de una población (hipo-
tética) y hacer la estimación de este parámetro a partir de una muestra aleatoria”.
En general podemos decir que la aplicación del método de Monte Carlo implica seguir los siguientes pasos:
Existen dos problemas que aparecen con frecuencia: optimizaci??n e integraci??n. Empecemos viendo
algunos ejemplos donde es importante la aplicación del método de Monte Carlo.
75
76 CAPÍTULO 8. MÉTODO MONTE CARLO Y REDUCCIÓN DE VARIANZA.
Supongamos que tenemos el siguiente problema de integración, sean f : Rm → R+ ∪ {0} y h una función
real integrable. El problema consiste en evaluar
Z
Λ= h(x)f (x)dx A ⊂ Rm ,
A
suponiendo que la integral existe, es finita, que f es una función de densidad y A = Rm , Λ, es el valor
esperado de h, entonces por la ley fuerte de los grandes números
Z n
1X
E [h(x)] = h(x)f (x)dx ≈ h(xi ) = Λ̂,
A n
i=1
con {x1, . . . , xn } una muestra de f (x). A Λ̂ se le conoce como estimador por Monte Carlo.
Con este estimador, que nace de la simulación de varibles aleatorias, podemos tener una solución a un pro-
blema que resolver análitiamente resulta costoso o imposible. Es importante hacer algunas observaciones
importantes, tenemos que:
h i
1. Ef Λ̂ = Λ .
1
− Λ)2 f (x)dx,
R
2. V arf [Λ̂] = n A (h(x)
q
σf (Λ̂) = V arf [Λ̂]
se le conoce como error estándar. Otro punto importante a destacar es que
Λ̂ ≈ Λ
cuando n → ∞ y
h i V ar[Λ̂]
P |Λ̂ − Λ| ≥ ≤ ,
2
entonces si
q
= V ar[Λ̂]/δ,
tenemos q
|Λ̂ − Λ| ≤ V ar[Λ̂]/δ
8.1. MÉTODO MONTE CARLO 77
con probabilidad 1 − δ. Como V ar[Λ̂] = o(1/n), entonces la estimación de Λ por medio de Λ̂ tiene un
error de orden n−1/2 .
Ahora veamos un ejemplo concreto donde se utiliza el método Montecarlo para resolver un problema
de integración.
donde g(x) es una función que toma valores reales que no es analitı́camente integrable.
Entonces
b
Rb
g(x)dx
Z
a
E(Y ) = (b − a) g(x)fX (x)dx = (b − a) =I
a (b − a)
n
X n
X
Yi g(Xi )
i=1 i=1
Iˆ = Ȳ (n) = = (b − a)
n n
Iα = Ef (X α−1 )
Z ∞
I1.9 = x0.9 e−x dx.
0
Xi = −ln(Ui )
donde Ui ∼ U (0, 1), i = 1, 2, . . . , n. Obteniendo los resultados presentados en la Tabla 8.1 a partir de la
función EMC.GAMMA() (ver A.0.24).
Ahora consideramos un ejemplo de optimización donde resulta de gran utilidad el método de Monte Carlo.
Ejemplo 8.1.3. Sea h : [−1, 1]×[−1, 1] → R definida como h(x, y) = (xsen20y+ysen20x)2 cosh(xsen10x)+
(xcos10y − ysen10x)2 cosh(ycos20y), usando el método de Monte Carlo encontraremos el máximo y mı́-
nimo.
Siguiendo al algoritmo, en este caso debemos generar números aleatorios {u1 , . . . , un } en [−1, 1] × [−1, 1] y
calcular {h(u1 ), . . . , h(un )}. De estos últimos, seleccionemos las parejas (umax , h(umax )) y (umin , h(umin ))
tales que h(umax ) = máx {h(u1 ), . . . , h(un )} y h(umin ) = mı́n {h(u1 ), . . . , h(un )}. En la tabla siguiente se
presentan resultados numéricos para diferentes tama?os de muestra.
Ejemplo 8.1.4. Una persona tiene el proyecto de poner una pensión para autos con K cajones. Supon-
gamos que Yn es el número de personas que acuden a rentar un cajón el n-ésimo dı́a (el contrato es por
dı́a) y que {Yn }n∈N son v.a.i.i.d. P oisson(λ). Si hay cajones disponibles se consideran como contratos
nuevos, en otro caso cada cliente toma su lugar. La probabilidad de que una persona desocupe el cajón
al dı́a siguiente es p (los cajones se regresan simpre al inicio del dı́a). Sea Xn el número de cajones en
renta al final del nénesimo dı́a y Zn el número de nuevos contratos durante el nésimo dı́a. Sabiendo que
cada nuevo contrato genera una ganancia de c pesos y un ingreso de r pesos por dı́a (o parte del dı́a) y
cada cajón se puede comprar sólo al principio con un costo de s pesos por cajón y por dı́a el obejtivo es
encontrar k que maximice la ganancia.
Tenemos que
Xn+1 = mı́n{k, Bin(Xn , 1 − p) + Yn+1 },
8.2. REDUCCIÓN DE LA VARIANZA 79
y
Zn+1 = Xn+1 − Bin(Xn , 1 − p).
Además {Xn } es una cadena de Markov homogénea a tiempo discreto con probabilidades de transición
mı́n{i,j}
λj−l e−λ
X i
P(Xn+1 = j|Xn = i) = (1 − p)l pi−l ,
l (j − l)!
l=1
Pk−1
con 0 ≤ i ≤ k y 0 ≤ j ≤ k − 1. Si j = k entonces pik = 1 − j=0 pij .
Para maximzar la ganancia promedio por dı́a (a largo plazo), tenemos que maximizar
M (k) = cE[Z(k)] + rE[X(k)] − sk (8.1)
donde
E[Z(k)] = lı́m E[Zn (k)] = limn→∞ E[Xn (k)] − E[Bin(Xn−1 (k), 1 − p)] = pE[X(k)].
n→∞
Entonces podemos reescribir a la función objetivo 8.1 como
M (k) = (c + r)E[X(k)] − sk,
donde
k
X
E[X(k)] = xπx
x=0
y π es la distribución estacionaria de la cadena {Xn }. Si usamos la media muestral tenemos un estimador
para k.
En esta sección nos enfocaremos en algunos aspectos teóricos y prácticos de las técnicas de reducción de
varianza, motivados en encontrar estimadores de Monte Carlo de varianza mı́nima.
Definición 8.1. Podemos definir a una técnica de reducción de la varianza como un medio para obtener
estimadores más precisos utilizando información conocida de nuestro modelo.
Por lo general, entre mayor sea la información con la que contemos sobre nuestro modelo, más dramática
será la reducción de la varianza. Las técnicas principales y más efectivas para la reducción de la varianza
son el el muestreo por importancia y método de Monte Carlo condicional, ambos serán discutidos en esta
sección. Otras técnicas que pueden ayudar a la reducción de la varianza son el uso de variables entitéticas,
de control y la estratificación.
Como motivación de la importacia del uso de las técnicas de reducción de varianza, comenzaremos con-
siderando el siguiente ejemplo, tomado de [12], que ilustra la importancia de este concepto en el método
de Monte Carlo.
Ejemplo 8.2.1. Suponga que X ∼ Cauchy(0, 1) y que estamos interesados en evaluar P [X ≥ 2], en este
ejemplo estamos interesados en calcular
Z∞
dx
θ = P [X ≥ 2] = .
π(1 + x2 )
2
80 CAPÍTULO 8. MÉTODO MONTE CARLO Y REDUCCIÓN DE VARIANZA.
Como esta integral tiene solución analı́tica, encontraremos dicha solución y nos servirá de referencia para
los estimadores que vamos a calcular. Para encontrar la solución, hacemos
x(φ) = tan φ,
entonces
1 + x2 = 1 + tan2 φ = sec2 φ
dx = sec2 φdφ.
Por otra parte, como φ(x) = tan−1 x, entonces φ(∞) = π/2, por lo que
Z∞ Zπ/2
dx 1 1 1
θ= = dφ = − tan−1 2 ≈ 0.147584.
π(1 + x2 ) π 2 π
2 tan−1 2
con {x1 , . . . , xn } ∼ Cauchy(0, 1), es claro que nθ̃1 es una variable aleatoria binomial con parámetros (n, θ)
y entonces
θ(1 − θ) 0.125803
V [θ̃1 ] = ≈
n n
El punto es que la varianza no parece buena, entonces usando las propiedades de la distribución Cauchy,
en este caso, la simétrica con respecto al cero, podemos calcular θ como
Z2
dx
2θ = P [|x| ≥ 2] = 1 −
π(1 + x2 )
−2
por lo que Z
1 dx
θ=
2 π(1 + x2 )
(−2,2)c
con {x1 , . . . , xn } ∼ Cauchy(0, 1), en donde 2nθ̃2 ∼ Bin(n, 2θ), por lo que la varianza de θ̃2 es aproxima-
damente:
0.0520109
V [θ̃2 ] ≈ ,
n
que es menor que la de θ̃1 .
Hasta ahora hemos propuesto dos estimadores y tenemos un criterio de desición saber cual es mejor,
ambos están basados en la simulación de variables aleatorias Cauchy, pero el punto es que no tenemos la
certeza de haber encontrado el estimador de menor varianza.
Z2 Z2
dx dx
1 − 2θ = =2
π(1 + x2 ) π(1 + x2 )
−2 0
y entonces podemos generar números aleatorios U (0, 2) y proponer un tercer estimador dado por:
n
1 2X 1
θ̃3 = −
2 n π(1 + x2i )i=1
entonces tenemos un estimador de varianza menor que la de los dos anteriores que propusimos.
Z∞ Z1/2 Z1/2
dx y −2 dy dy
θ= = =
π(1 + x2 ) π(1 + y −2 ) π(1 + y 2 )
2 0 0
Ası́ por ejemplo, si n1 = 1000, el estimador θ̃4 construido con una sola observación tiene, aproximada-
mente, la misma precisión que θ̃1 construido con n1 = 1000 observaciones.
Este ejemplo pone en evidencia el hecho de que no es tarea fácil encontrar el estimador de menor varianza
proponiendo diferentes estimadores, motivando la necesidad de contar con técnicas que permitan conseguir
el objetivo de reducir la varianza del los estimadores.
Z∞ Z∞
dx
θ= = f (x)ψ(x)dx
π(1 + x2 )
2 −∞
−1
donde f (x) = π(1 + x2 )
y ψ(x) = I[2,∞) . Supongamos que g es una función de densidad y entonces
Z∞ Z∞
f (x)ψ(x)
θ= g(x)dx = φ(x)g(x)dx = Eg [φ]
g(x)
−∞ −∞
donde
f (x)ψ(x)
φ(x) = ,
g(x)
con {x1 , . . . , xn } una muestra de g (con el supuesto que sea fácil de muestrear) y la varianza de este
estimador es 2
h i 1 2 1 Z f (x)ψ(x)
V θ̃5 = E θ̃5 − θ = − θ g(x)dx
n n g(x)
En el ejemplo de la Cauchy, debemos buscar una función, h(x), que tenga la misma forma que Cauchy(0, 1)
y que sea fácil de simular. Para conseguir dicho objetivo, primero observemos que la función decrece con
x2 , entonces, es natural pensar en h(x) = 1/ax2 , para algún a ∈ R+ .
Z∞
h(x)dx = 1/2a,
2
8.2. REDUCCIÓN DE LA VARIANZA 83
entonces
2
g(x) = I (x),
x2 (2,∞)
Ahora utilizando el método de la transformada inversa tenemos que si u ∼ U (0, 1), entonces x = 2/(1 − u)
es una variable aleatoria con densidad g(x); por lo que podemos estimar a θ con
n
1X x2j
θ̃6 = I[2,∞) (xj )
n 2π(1 + x2j )
j=1
donde {x1 , . . . , xn } es una muestra de G(x), pero nosotros estamos interesados en la varianza de θ̃6 , para
esto, utilizando el estimador de Monte Carlo, tenemos que
∞ ∞ 2
Z 2
2 Z 2
h i 1 x 2 x 2 0.0003821
V θ̃5 = dx − dx =
4nπ 2 1 + x2 x2 1 + x2 x2 n
2 2
que representa una reducción en 329 veces la varianza del caso Monte Carlo simple y cuyo tama?o equi-
valente es de n6 = 0.003n1 .
y este es el método llamado muestreo por importancia, mientras que a la función g se lellama función
de muestreo por importancia.
Para fijar ideas, tenemos que en general cuando se desea estimar θ por esta técnica se debe encontrar una
función de densidad g que domine a ψf y que sea fácil de simular. Entonces tenemos que
f (X)
θ = Eg (ψ(X) ).
g(X)
es conocido como la razón o cociente de verosimilitud. Es importante hacer notar que una gran ventaja
de este procedimiento, es que la misma función g puede ser usada para encontrar el valor esperado de
cualquier función ψ.
no es una condición necesaria para la convergencia de θ̃6 a θ, sı́ es precisa para la existencia de la varianza,
por lo tanto, bajo esta observación podemos concluir que el muestreo por importancia tiene poca eficiencia
cuando esto no se cumple, pues produce inestabilidad en la generación de los números aleatorios y en
consecuencia la estimación no es confiable, por lo que funciones g que no cumplan esta condición no son
recomendables. Esto implica que g deberá tener colas más pesadas que f .
Debido a la importancia que tiene la selección de la densidad g en el método de muestreo por importancia
para la varianza del estimador ψ̂ de la expresión (8.2.1), planteamos el siguiente problema para minimizar
la varianza de ψ̂ con respecto a g,
f (X)
mı́n Varg ψ(X) . (8.2)
g g(X)
Se deja para el lector probar que la solución a este problema es
|ψ(x)|f (x)
g ∗ (x) = R . (8.3)
|ψ(x)|f (x)dx
A la densidad g ∗ de las expresiones (8.3) y (8.4) se le llama denisdad optima de muestro por im-
portancia.
Ejemplo 8.2.2. Sea X ∼ Exp(λ) y ψ(X) = I{X≥τ } para algún τ > 0. Sea f la función de densidad de X
y el par??metro a estimar es:
θ = Ef (ψ(X)).
Tenemos que
g ∗ (x) = I{X≥τ } λe−(x−τ )λ .
Comenzaremos recordando algunas propiedades de esperanza condicional que servirán de motivación pa-
ra este método de reducción de varianza, llamado Monte Carlo condicional que también se conoce como
8.2. REDUCCIÓN DE LA VARIANZA 85
Rao-Blackwellization.
V [X|Y ] = E X 2 |Y − E 2 [X|Y ] ,
E [V [X|Y ]] = E E X 2 |Y − E E 2 [X|Y ]
= E X 2 − E E 2 [X|Y ]
= E E 2 [X|Y ] − E 2 [X]
V [E [X|Y ]] ≤ V [X] .
Motivados en la última expresión, es claro que condicionar siempre conduce a la reducción de la varianza.
donde X es una variable con función de densidad f , donde H es una función medible y supongamos que
existe una variable aleatoria Y (fácil de simular) con función de densidad g y E [H(X)|Y = y] se puede
calcular analı́ticamente, como
l = E [H(X)] = E [E [H(X)|Y ]]
V ar (E [H(X)|Y ]) ≤ V ar (H (X)) ,
de manera que usando la variable aleatoria E [H(X)|Y ], en lugar de H(X), conduce a la reducción de la
varianza.
Como podemos ver, este algoritmo requiere encontrar una variable aleatoria Y con las siguientes caracte-
rı́sticas:
Xm m
X
F m (x) = P [ Xi ≤ x] = F (x − Xi ).
i=1 i=2
M
X M
X
l = E]I{SM ≤x} ] = E[E(I{SM ≤x} | Xi )] = E[F (x − Xi , )]
i=2 i=2
n k R
ˆl = 1
X X
F (x − Xki ).
n
k=1 i=1
1. θ̂ = Y, el estimador ususal
donde c ∈ R. Es claro que E[θ̂c ] = θ. La pregunta es cuando θ̂c tiene menor varianza que θ̂. Para esto
veamos que:
Desde que esto es válido para cualqiuier c, podemos minimizar esta varianza como una función de c
obteniendo un mı́nimo cuando:
Cov(Y, Z)
c∗ = − .
V ar(Z)
De modo que para reducir la varianza basta que Cov(Y, Z) 6 =0 En este caso Z es conocida como la
variable de control. Para usarla en la simulación basta realizar el algoritmo calculando:
P
ˆ (Yj − Ȳ ) + (Zi − E[Z])
Cov(Y, Z) =
p−1
(Zi − E[Z])2
P
V ˆar(Z) =
p−1
Y finalmente
ˆ
Cov(Y, Z)
ĉ∗ = −
ˆ
V ar(Z)
2
Ejemplo 8.2.4. Supongamos que deseamos estimar θ = E[e(U +W ) ] donde U , W ∼ U (0, 1) iid. Y usemos
a Z2 := (U + W )2 como variable de control.
Nota 8.2. En este caso E[Z2 ] = E[U 2 + 2U W + W 2 ] = 1/3 + 1/2 + 1/3 = 7/6.
Otra forma de reducir la varianza de los estimadores Monte Carlo que resulta útil en varias situaciones y
que no requiere esfuerzo computacional extra es la siguiente:
88 CAPÍTULO 8. MÉTODO MONTE CARLO Y REDUCCIÓN DE VARIANZA.
Suponga que Z
I= f (x)g(x)dx
1
Iˆ = {I1 + I2 }
2
Esta es una manera ingenua de reducir varianza, pues lo que estamos haciendo es, básicamente, usar el
método crudo de Monte Carlo e ir aumentado el tama?o de la muestra. Pero, vayamos más allá, ¿qué pa-
sa si x y y no son independientes? , en este caso, Cov [I1 , I2 ] no es cero y ésta puede ser positiva o negativa.
Es claro que la varianzaoriginal irá disminuyendo a medida que esta covarianza sea negativa, es decir,
cuando los estimadores I1 y I2 estén correlacionados negativamente. Entonces, podemos concluir que en la
busqueda de la reducción de la varianza es importante contar con muestras correlacionadas negativamente.
Entonces
ˆ = 1 1
V [I] V [I1 ] + Cov[I1 , I2 ]
2 ( 2 )
1 Cov[I1 , I2 ]
= V [I1 ] 1 + p
2 V [I1 ]V [I2 ]
1
= V [I1 ]{1 + ρ[I1 , I2 ]}
2
donde ρ[x, y] denota al coeficiente de correlación entre x e y. Entonces, la varianza de Iˆ será mucho menor
que la de I1 si la correlación es negativa y cercana a menos uno.
En este punto, la pregunta obvia es, ¿podemos generar variable correlacionadas negativamente sin aumen-
tar demasiado el tama?o de la muestra original? Asombrosamente la respuesta no sólo es afirmativa, si
no que además no se generan observaciones adicionales, al menos, teóricamente. Para fijar ideas, veamos
un ejemplo de esto.
Z1 p
I= 1 − x2 dx.
0
En este caso, esta integral tiene solución analı́tica. Si hacemos x = sin θ y por tanto, dx = cos θdθ, tenemos
que
Zπ/2 Zπ/2
2 1 1
I = cos θdθ = + cos 2θ dθ
2 2
0 0
π/2
θ 1 π
= + sin 2θ = .
2 4 0 4
y entonces
Z1 p
1 p 2 0.0068
V [I2 ] = 1 − u2 + 1 − (1 − u)2 − 2I du ≈ .
4n n
0
Una de las principales ventajas de este algoritmo es que es un algoritmo iterativo para resolver problemas
de máxima verosimilitud cuando algo de las variables aleatorias no está observado (información incompleta
o faltante). Podemos describir la idea general de este algoritmo de la siguiente forma
2. Estimar los parámetros considerando la información completa con los valores estimados.
3. Repetir los pasos anteriore de la siguiente forma: para 1) se usa como parámetro al estimado y en
2) se usan los valores estimados como observados y se sigue iterativamente hasta la convergencia.
Y = {Yobs , Yf al }
donde Yobs = datos observados e Yf al =datos faltantes, entonces podemos reescribir a la función de
densidad como:
donde f1 es la función de desnsidad del vetor aleatorio Yobs y f2 es la función de densidad de Yf al |Yobs
respectivamente. Entonces tenemos que:
donde lobs (θ; Yobs ) es la log-verosimilitud de los datos observados y l(θ; Y ) la log-verosimilitud correspon-
diente a los datos completos. El algoritmo EM es utilizado en los casos cuando maximizar lobs (θ; Yobs )
resulta tarea complicada pero maximizar l(θ; Y ) es simple. El punto acá es que al no tener observado a
Y no se puede evaluar l(θ; Y ) y mucho menos maximizar.
En el contexto de este problema, el algorimo EM propone una solución al maximizar l(θ; Y ) de manera
iterativa reemplazando los datos faltantes por el valor esperado de éstos dados los datos observados. Esta
esperanza es calculada con respecto a la distribución de los datos completos evaluada en el valor actual
del parámetro θ, es decir, si θ(0) es el valor inicial de θ, entonces la primera iteración se debe calcular
como:
y luego Q(θ; θ(0) ) es maximizado como función de θ,es decir, se encuentra θ(1) tal que
Este algoritmo consiste en basicamente en dos pasos, una vez inicializado el parámetro θ(0) y haciendo
n = 1 entonces:
Paso E: Calcular
Q(θ; θ(n) ) = Eθ(n) [l(θ; Y )|Yobs ].
para todo θ ∈ Θ.
Estos pasos se repiten hasta la convegencia, es decir, hasta que L(θ(n+1) ) − L(θn ) < δ para δ lo suficien-
temente peque?a.
1 n/2 1 X 2 X
f (Y ; µ, σ 2 ) = ( ) exp[− ( Y i − 2µ Yi + nµ2 )]
2πσ 2 2σ 2
i i
2
P P
entonces claramente i Yi y i Yi son estadı́sticas suficientes y se tiene que
n 1 X 2 µ X nµ2
l(µ, σ 2 |Y ) = − log(σ 2 ) − 2 Yi + 2 Yi − 2 ,
2 2σ σ σ
i i
ahora, si suponemos que solamente tenemos observados m elementos de la muestra (m < n) estamos
en una situación de información faltante para hacer la estimación requerida y siguiendo los comentarios
anteriores tenemos que calcular:
X
Eθ ( Yi2 |Yobs )
i
y
92 CAPÍTULO 8. MÉTODO MONTE CARLO Y REDUCCIÓN DE VARIANZA.
X
Eθ ( Yi |Yobs ).
i
Ejemplo 8.3.2. Sea Z = (38, 34, 125) el resultado observado de una prueba multinomial con vector de
porbabilidad (1/2 − θ/2, θ/4, 1/2 + θ/4). El objetivo es obtener el estimador máximo verosimil de θ pero
para esto llevaremos el problema al contexto de información incompleta. Definimos Y = (Y1 , Y2 , Y3 , Y4 ) con
distribución multinomial de parámetro (1/2 − θ/2, θ/4, 1/2, θ/4) = (p1 , p2 , p3 , p3 ) entonces consideramos
al vector Y como el vector de información completa y definimos Yobs = (Y1 , Y2 , Y3 + Y4 ).
Tenemos que
4
X
l(θ; Y ) = Yi log(pi )
i=1
Paso E
E(Y1 |Yobs ) = Y1 = 38
E(Y2 |Yobs ) = Y2 = 34
θ 1 θ
E(Y3 |Yobs ) = E(Y3 |Y3 + Y4 ) = 125( )( + )
4 2 4
1 1 θ
E(Y4 |Yobs ) = E(Y4 |Y3 + Y4 ) = 125( )( + ) (8.5)
2 2 4
Paso M
(n)
34 + Y3
θ(n+1) = (n)
.
72 + Y3
8.4. EJERCICIOS 93
8.4. Ejercicios
1. A partir de la expresión
∞
X (−1)n
π=4 ,
2n + 1
n=0
estimar el valor de π por el método de Monte Carlo.
2. Implementar el Ejemplo 8.1.4 y estimar el valor k.
3. En el ejemplo de las diferentes varianzas, analizar el caso en que V (I1 ) > V (I2 ).
4. Aproximar la integral del kernel de una v.a. normal(0,1) con limites -3,5 y calcula la desviación
estándar del estimador.
5. Aproximar la integral del kernel de una v.a. gamma y calcula la desviación estándar del estimador.
6. Calcular los 4 estimadores para la probabilidad de que X > 2, donde X ∼ Cauchy(0, 1) y sus
varianzas
7. Para esa misma Cauchy pero ahora con muestreo por importancia y su varianza
8. Monte carlo condicional
a) X distribuye exp(10) .
b) M sea va Poisson (2).
En este capı́tulo se presenta una herramienta de simulación genérica, conocida como Monte Carlo vı́a
cadenas de Markov (MCMC), la cual permite generar muestras (aproximadas) de cualquier distribución.
Las técnicas de Monte Carlo vı́a cadenas de Markov permiten generar, de manera iterativa, observaciones
de distribuciones multivariadas que difı́cilmente podrı́an simularse utilizando métodos como los estudiados
hasta ahora. La idea básica es construir una cadena de Markov que sea fácil de simular y cuya distribución
estacionaria corresponda a la distribución objetivo que nos interesa.
Esta herramienta resulta de gran utilidad cuando se quiere simular un vector aleatorio con componentes
dependientes. La motivación de la construcción de este tipo de simulación está basada en el siguiente
resultado.
Proposición 9.1. Sea {Xn }n≥1 una cadena de Markov homogénea, irreducible y aperiódica con espacio
de estados E y distribución estacionaria π, se tiene que cuando n → ∞
Xn → X
Demostración. La primera afirmación se sigue directamente del los resultados de convergencia de cadenas
de Markov. El segundo es resultado es consecuencia de la ley de los grandes números. Nos concentraremos
en el estudio de dos de las principales técnicas de esta forma de simulación.
9.1. Metropolis-Hastings
La idea de este algoritmo, como se mencionó anteriormente, es simular una cadena de Markov tal que su
distribución estacionaria coincida con la distribución a simular.
Como motivación para el desarrollo este algoritmo, supongamos que queremos generar valores de una
variable aleatoria X con soporte en E = {1, . . . , N } y distribución π = (π1 , . . . , πN ), donde πi = bi /C,
95
96 CAPÍTULO 9. MONTE CARLO VÍA CADENAS DE MARKOV
Siguiendo la idea de los métodos de Monte Carlo vı́a cadenas de Markov, construimos una cadena de
Markov {Xn }n≥0 con espacio de estados E cuya evolución depende de la matriz de transición Q = {qij }
de otra cadena de Markov irreducible, dicha evolución está definida de la siguiente manera:
P (Y = j) = qij
para todo i, j ∈ E.
2. Si Y = j, hacemos (
j con probabilida αij
Xn+1 =
i con probabilida 1 − αij
donde
πj qji bj qji
αij = min ,1 = min ,1 ,
πi qij bi qij
entonces {Xn }n≥0 tiene como matriz de transición a P = {pij }{i,j∈E} donde
(
qij αij si i 6= j
pij = P
1 − k6=i qik αik si i=j
Ahora mencionaremos algunos resultados que son consecuencia de la construcción de la cadena de Markov.
Proposición 9.2. La cadena de Markov {Xn }n≥1 tiene como distribución estacionaria a π.
Demostración. Para demostrar este resultado basta ver que con la matriz de transición P = {pij }i,j∈E la
cadena de Markov es irreversible (con respecto al tiempo) y tiene como distribución estacionaria π si y
sólo si
πi pij = πj pji
πj qji
αij =
πi qij
Corolario 9.1. Si la cadena de Markov {Xn }n≥1 es irreducible y aperiódica, entonces π es la distribución
lı́mite.
9.1. METROPOLIS-HASTINGS 97
Una observación importante es que no se necesita calcular a la constante C para definir la cadena de
Markov.
donde
f (y)q(y, x)
α(x, y) = min ,1 .
f (x)q(x, y)
De esta forma tenemos que, repitiendo los pasos 1 y 2 del algoritmo anterior obtenemos una sucesión de
variables aletaorias dependientes X1 , X2 , . . . donde Xn tiene función de densidad f (x), para n grande.
Una cuestión importante en este algoritmo es la selección de matriz de transición Q (matrix de transición
propuesta). Existen diferentes maneras de proponer esta matrix que dependen del problema a resolver
(ver Rober & Casella (1999)), las tres propuestas más usadas son:
1. Simetrı́a: Consiste en suponer que q(x, y) = q(y, x). En este caso tendrı́amos que la probabilidad
de aceptación es:
f (y)
α(x, y) = min ,1 ,
f (x)
es decir, solamente depende de la función de densidad de la variable aleatoria a simular, entonces
tenemos un método de aceptación-rechazo parecido al visto en esta lectura.
2. Independencia: se supone que q(x, y) = g(y), para alguna función de densidad g. El candidato
generado será aceptado con probabilidad
f (y)g(x)
α(x, y) = min ,1 .
f (x)g(y)
98 CAPÍTULO 9. MONTE CARLO VÍA CADENAS DE MARKOV
Otra vez tenemos un método muy parecido al de aceptación-rechazo original e igual que en ese
método es importante que la densidad propuesta (g) esté cercana a f. Una observación importante
es que a diferencia del método de aceptación-rechazo original, éste produce muestras dependientes.
3. Caminata aleatoria: en esta modalidad, se toma en cuenta el valor que se generó en la n−ésima
etapa para generar la n + 1−ésima etapa, es decir, q(x, y) = g(y − x), donde g es una distribución
simétrica conocida, entonces, y = x + Z con Z ∼ g. Entonces tenemos que la probailidad de
aceptación es:
f (y)
α(x, y) = min ,1 .
f (x)
Ahora veremos algunos ejemplos del uso del algoritmo para la simulación de vectores aleatorios depen-
dientes.
Ejemplo 9.1.1. Supongamos que queremos generar valores de una variable aleatoria X ∼ N (0, 1)
Para conseguir nuestro objetivo, haremos uso del algoritmo Metropolis-Hastings usando una caminata
aleatoria como q propuesta. Entonces podemos escribir el algoritmo para este caso de la siguiente manera:
1. Inicializamos X0 .
donde n o
2 2
α(x, y) = min e1/2(Xi −Y ) , 1 .
Repitiendo este algoritmo las veces necesarias podemos obtener la muestra buscada, con el periodo ade-
cuado de calentamiento (tiempo de convergencia).
Ejemplo 9.1.2. Sea (X1 , X2 ) un vector aleatorio cuya densidad es
suponga que queremos estimar λ = E(X1 ) por medio del estimador Monte Carlo
PM
i=1 Xi1
λ̂ = ,
M
Para resolver este problema, seleccionamos el incremento Z = (Z1 , Z2 ) considerando que Z1 , Z2 ∼ N (0, a2 )
independientes para alguna a > 0. Algunas observaciones en la selección de la constante a son las siguientes
9.2. MUESTREO DE GIBBS 99
3. Generamos U ∼ U (0, 1). Si U < α(Xn , Y ), hacemos Xn+1 = Y, en otro caso hacemos Xn+1 = Xn .
En esta sección estudiaremos un caso particular del algoritmo de Metropolis-Hastings que es muy utilizado
pra generar muestras de vectores aleatorios y ha sido extensamente usado en estadı́stica bayesiana, este
método es conocido como el muestreo de Gibbs. La principal caracterı́stica del muestreo de Gibbs es que
la Cadena de Markov subyacente es construida de una sucesión de distribuciones condicionales.
De forma general la idea del algoritmo es suponer que si queremos obtener una muestra un vector alea-
torio X = (X1 , X2 , . . . , Xk ) con función de densidad p(X), consideremos a X[i] que denota al vector X
eliminando la i-ésima componente y consideremos la densidad condicional completa de Xi dado X[i] , como
Supongamos que las distribuciones condicionales completas son todas conocidas y fáciles de simular. Si
en el algoritmo de Metropolis-Hastings hacemos
tendremos que
p(Xi )p(X[i] |Xi )
α(Xi , X) = mı́n 1, =1
p(X[i] )p(Xi |X[i] )
entonces,
Z k
Z Z Y
K(x, B)p(x)dx = p(yj |y1 , . . . , yj−1 , xj+1 , . . . , xk )p(x)dy1 . . . dyk dx
Rk Rk B j=1
k
Z Z Y
= p(yj |y1 , . . . , yj−1 , xj+1 , . . . , xk )p(x)dy1 . . . dyk dx
B Rk j=1
Z
= p(x)dx
Como en el caso del algoritmo de Metropolis-Hastings, basta especificar la transición del paso j al j + 1.
Ası́, el algoritmo del muestreo de Gibbs puede ser descrito como:
(0) (0)
1. Inicializar X1 , . . . Xk yj=1
(j) (j)
2. Obtener X1 , . . . , Xk a partir de X (j−1) generando
(j+1) (j) (j)
X1 ∼ p(X1 |X2 , . . . , Xk )
(j+1) (j+1) (j) (j)
X2 ∼ p(X2 |X1 , X3 , . . . , Xk )
(j+1) (j+1) (j+1) (j)
X3 ∼ p(X3 |X1 , X2 , . . . , Xk )
..
.
(j+1) (j+1) (j+1) (j+1) (j)
Xk−1 ∼ p(Xk−1 |X1 , X2 , . . . , Xk−1 , Xk )
(j+1) (j+1) (j+1) (j+1)
Xk ∼ p(Xk |X1 , X2 , . . . , Xk−1 )
Recordemos que un vector aleatorio (X, Y ) continuo que toma valores en el plano euclı́diano tiene distri-
bución Normal Bivariada si su función de densidad está dada por
1 1 (x − µX )2 2ρ(x − µX )(y − µY ) (y − µY )2
fX,Y (x, y) = exp{− [ 2 − + ],
2πσX σY 2(1 − ρ2 ) σX σX σY σY2
1 1
fX,Y (x, y) = exp{− [x2 − 2ρxy + y 2 ].
2π 2(1 − ρ2 )
X|Y ∼ N (ρY, 1 − ρ2 )
y
Y |X ∼ N (ρX, 1 − ρ2 )
las cuales pueden ser simuladas utilizando alguno de los métodos presentados en este texto.
Este modelo introducido por Besag (1974) en el área de estadistica espacial. Supongamos que
Una propuesta inicial para simular observaciones de esta distribución es usando la relación
cuya solución analı́tica se dificulta. Sin embargo, es fácil mostrar que las densidades condicionales com-
pletas están dadas por
que son muy sencillas de simular. Como último ejemplo presentaremos un modelo clásico en estadı́stica
bayesiana.
Sea X = (X1 , . . . , Xn ) una muestra de una distribución Poisson con un punto de cambio aleatorio, es
decir, supongamos que el punto de cambio se presenta en m ∈ {1, . . . , n} = Jn entonces, condicional a m
tenemos que
Xi ∼ P oisson(λ)
si i ∈ Jm y
Xi ∼ P oisson(τ )
para i| ∈ Jn − Jm . Por otro lado, supongamos que λ, τ y m tienen distribuciones a priori independientes
con λ ∼ Gamma(α,β), τ ∼(σ, δ) y m ∼ U nif 1, . . . n}, donde α, β, σ, δ son constantes conocidas.
Para simular un muestra del vetor aleatorio (λ, τ, m) podemos ver relativamente fácil que la distribución
conjunta a posteriori correspondiente es
con
m
X
yn = Xi
i=1
y
n
X
zm = Xi ,
i=m+1
expresión que no parece fácil de simular. Para hacer usao del muestreo de Gibbs tenemos que encontrar
las condicionales completas a posteriori correspondientes, las cuales están dadas por:
τ |λ, m, X ∼ Gamma(τ + zm , δ + n − m)
y
λα+ym −1 τ σ+zm −1 exp{−(β + m)λ} exp −(δ + n − m)τ }
f (m|λ, τ X) = Pm α+y −1 σ+z −1 ,
i=1 λ
i τ i exp{−(β + i)λ} exp −(δ + n − i)τ }
para toda m ∈ Jn .
En este capı́tulo también estudiaremos otra alternativa para estimar parámetros de muestras que consi-
deremos observaciones incompletas Y .
El algoritmo EM Estocástico (StEM) nos permite trabajar con casos adversos tales como la imposibilidad
de calcular la esperanza condicional que requerirı́amos en el algoritmo EM.
Definición 9.1. Definimos al proceso θ̃n (k) como el parámetro estimado de la muestra completa X de
tama?o n en la k-ésima iteración del StEM.
Intuitivamente podemos notar que se trata de un cadena de Markov y que es necesario también pensar
en un tama?o de muestra factible para tener suficiencia de información y bajo costo de implementación.
Entonces tenemos al StEM de la forma:
Paso StE. Simulamos, dado el valor de θ̃n (k)|Y = y, la información faltante X̃.
Paso M. Hacemos k = k + 1. θ̃n (k) es igual al valor que maximice la log-verosimilitud de la infor-
mación completa.
El objetivo principal es hacer uso de las propiedades de la cadena de Markov antes mencionada. Consi-
deremos primero la siguiente cadena de Markov:
Definición 9.2. Definimos al proceso X̃(k) como las observaciones simuladas faltantes en la k-ésima
iteración del StEM dado del valor de θ̃n (k).
La forma en que se encuentran definidos ambos procesos implican el resultado crucial para la convergencia,
la cadena de Markov X̃(k) proporciona ciertas propiedades a la cadena de Markov θ̃n (k). Los siguientes
resultados nos permiten justificar la aplicación del algoritmo.
donde X̃ tiene la distribución condicional a las observaciones conocidas, es más grande que (1 + δ)c para
algún δ > 0.
Entonces la cadena de Markov θ̃n (k) tiene distribución estacionaria, y además, si ∆(θ) se distribuye
normalmente entonces la cadena es ergódica.
104 CAPÍTULO 9. MONTE CARLO VÍA CADENAS DE MARKOV
Ejemplo 9.3.1. Supongamos que tenemos una muestra de variables aleatorias exponciales de parámetro
λ, pero se tiene que un conjunto de ellas se encuentra censurado. Lo que sabemos de estas censuras es que
son valores mayores a una c real positiva, por lo cual hay que considerar cómo manejar esta información
para aplicar el algoritmo.
Una propuesta es suponer que para las variables aleatorias censuradas, se tiene que X̂j = c + Y con Y
distribuida exp(λ). De modo que se puede comprobar que el resultado de convergencia anteriormente visto
se cumple y podemos utilizar el algoritmo EM Estocástico para obtener el parámetro λ.
Es importante aclarar que las observacione que se generan en los métodos de Monte Carlo vı́a cadenas
de Markov no son independietes (por definición y construcción) y la idea es justo generar una muestra
aleatoria. En esta sección abordamos este problema.
Existen diversas sugerencias para resolver este problema, Gelfand & Smith (1990) , sugieren hacer corridas
simultaneas de n cadenas independientemente hasta obtener la convergencia en cada una. El problema
en esta metodologı́a es que si la convergencia se alcanza después de m iteraciones, entonces para obtener
una muestra de tama?o n, es necesario generar mn observaciones. Por otro lado, Geyer (1992), suguire
que una vez que se alcanza la convergencia, basta con generar n observaciones más y tomar estas como
muestra, pues anque no son independientes la teorı́a ergódica sustenta la inferencia. Otra propuesta es
la de Raftery & Lewis (1992) quienes sugieren que después de la convergencia se seleccione un elemento
para la muestra periodicamente, es decir, cada k observaciones. Por su parte, Gelman & Rubin (1992)
proponen que es recomendable correr, de manera simultánea, l cadenas independientes, con l no mayor a
diez, y de cada una tomar n/l observaciones, ya sea de manera consecutiva o cada k.
En conclusión se puede decir que lo más recomendable es realizar distintas pruebas en este sentido,
Además cuando las muestrar son generadas por medio de los métodos de Monte Carlo vı́a Cadenas de
Markov es muy importante ver si la cadena llega a la distribución estacionaria y como las muestras son
dependientes debemos dar un tiempo a que la cadena se estabilice, es decir, tomar un cierto número de
iteraciones como un ”periodo de calentamiento” y luego de este periodo ver la convergencia y estabilidad
de la cadena. Para determinar el periodo de calentamiento la primera sugerencia es hacer gráficas de los
estados, también serı́a importante graficar algunas funciones de interés (media muestral), aunque lo im-
portante en este punto es monitoriar el comportamiento de la cadena por medio de gráficas representativas.
Otro factor relevante a monitoriar son los coeficientes de correlación serial, para tener idea de la velocidad
de convergencia (correlación alta implica convergencia lenta). Una propuesta para medir la correlación
serial de orden k está dada por:
Pn−k
j=i(xj − x̄)(xj+k − x̄)
ρk = Pn 2
J=1 (xj − x̄)
9.5. Ejercicios
3. Implementar los ejemplos del muestreo de Gibbs para las muestras que se enviarán por correo.
4. Implementar el ejemplo del Algoritmo StEM, suponga que la muestra que trabajaremos tiene censura
a partir de c = 1.5 y que la información completa es de 100 observaciones.
5. Hacer un programa que simule y grafique el modelo de Ising en el toro Z5 ×Z5 . Hacer que el programa
imprima la configuración inicial, al paso 50, al paso 1000, y al paso 10,000. Qué pasa a largo plazo?
Hay una o varias configuraciones finales deterministas o converge hacia una distribución aleatoria
estacionaria?
6. Hacer en R un programa que resuelva el problema del agente viajero, utilizando enfriamiento
estocástico, para el siguiente diagrama:
Cada punto en la gráfica representa la locación geográfica de la ciudad. El costo del viaje entre
dos ciudades está dado por la distancia entre ellas: d((x1 , x2 ), (y1 , y2 )) = |x1 − y1 | + |x2 − y2 |.
El programa debe encontrar una solución particular al problema, calcular el costo asociado a esa
solución y graficar la trayectoria dada por la solución.
7. Utilizar el muestreo de slice dinámico para simular una muestra proveniente de la densidad
1 √
f (x) = exp − x, x > 0.
2
a) Simular con slice dinámico una colección de variables {Xk+1 , ..., Xk+n }, para algún periodo de
calentamiento k, y n fijo. Calcular la distribución empı́rica:
n
1X
F́ (t) := 1{Xi ≤t} ,
n
i=1
y graficarla.
√
b) Probar que si X tiene la densidad f y se hace la transformación Y = X entonces Y ∼
Gamma( 23 , 1).
c) Utilizar el inciso anterior para simular una muestra de v.a. {X1 , ..., Xn } con densidad f (utili-
zando el mismo n que en el primer inciso). Calcular la distribución empı́rica y graficarla.
d ) Comparar ambas aproximaciones con la densidad teórica. Qué tan buenas son? Cuál es mejor?
Qué tanto difieren, alterando k y n ?
106 CAPÍTULO 9. MONTE CARLO VÍA CADENAS DE MARKOV
Capı́tulo 10
Inferencia Estocástica
Es este capı́tulo estudiaremos la posibilidad de realizar estimaciones en parámetros de los procesoso es-
tocásticos que hemos simulado, cuyas trayectorias podrán ser vistas como una muestra potencial para la
inferencia o de no ser ası́ realizar los métodos necesarios para una estimación.
Conocemos a la estimación por Máxima Verosimilitud como forma más natural de estimar parámetros
para una variable aleatoria, para lo cual podremos encontrar casos en que se podrá definir la función de
verosimilitud para observaciones provenientes de un proceso estocástico. Pero en otros casos, de no ser
posible se puede recurrir a otras proposiciones.
Al tratar de hacer inferencia sobre una trayectoria observada de un Cadena de Markov hay que tener co-
nocimiento cierto conocimiento previo sobre la misma. Las condiciones mı́nimas que se deben de cumplir
la Cadena es ser irreducible, finita y aperiódica.
Supongamos una Cadena de Markov con espacio de estados E, entonces la matriz de transiciones se con-
vierte en los parámetros que buscamos encontrar. De esta forma la verosimilitud definida para trayectoria
observada a través de los estados {xi }i=0,1,...,n puede definirse como
n
n
Y YY
L(P ) = π(x0 ) P [Xk = j|xk−1 = i] = π(x0 ) pijij
k=1 i∈E j∈E
donde nij son los saltos al estado j desde el estado i, entonces la log-verosimilitud es
XX
`n (P ) = log(π(x0 )) + nij log(pij )
i∈E j∈E
con lo cual al maximizar con respecto de las probabilidades encontraremos los estimadores p̂ij .
107
108 CAPÍTULO 10. INFERENCIA ESTOCÁSTICA
P
j∈E pij = 1, ∀i, j ∈ E.
∂`n nij
= − λi = 0
∂pij pij
o bien
nij
pij =
λi
por tanto X nij
X ni
1= pij = =
λi λi
j∈E j∈E
nij
entonces λi = ni , y por tanto p̂ij = ni .
Notemos que influencia del tiempo sobre las transiciones la cadenas a tiempo discreto casi se encuentra
desapercibido por habla de un densidad a un paso. Por lo que la forma de definir la verosimilitud de
manera formal es a partir del Generador Infinitesimal en procesos continuos.
Bajo la complicación de definir las densidades se puede recurrir a otro componente para realizar la infe-
rencia. Notemos que la información sobre una trayectoria de un Proceso de Saltos de Markov podrı́a ser
los tiempos de salto y el estado al que se llega en ése momento.
Otra forma de interpretar tal información es obtener el tiempo de estadı́a en cada uno de los estados y
para cada salto la procedencia y destino. Es entonces que la distribución de tiempos de estadı́a nos ayu-
darán a realizar inferencia sobre los parámetros que en este caso son las entradas del Generador Infitesimal.
De tal modo que se define para una trayectoria observada de un Proceso de Saltos de Markov la función
de verosimilitud de el Generador Infinitesimal como
Y Y Nij
L(Q)T = qij exp(−qij Ri (T ))
i∈E j6=i
donde E es el espacion de estados del proceso, Nij es el proceso que cuenta la cantidad de saltos al estado
j desde el estado i y Ri es el tiempo permanecido en el estado i. De modo que al maximizar de la manera
10.3. ECUACIONES DIFERENCIALES ESTOCÁSTICAS 109
De manera equivalentea las Cadenas de Markov a tiempo discreto, se puede definir una verosimilitud a
través de las visitas a los estados en una trayectoria de n saltos de la forma
Y Y Kij
Ln (P ) = pij
i∈E j∈E
P
donde Kij es el numeros de transiciones del estado i al estado j y por tanto, haciendo Ki = j∈E Kij las
transiciones provenientes del estado i, se puede notar que como en el caso discreto los estimadores de la
K
probabilidad de transición se encuentran como p̂ij = Kiji .
La función PSM.EMV() (ver A.0.25) implementa el uso de las estadı́sticas suficientes de la trayectoria ob-
servada en Proceso de Saltos de Markov para la estimación del Generador Infinitesimal. A continuación,
dado que nuestras funciones de simulación (PSM.S()) y estimación son compatibles, podemos analizar las
fronteras de tiempo T que nos pueden dar aproximaciones aceptables.
En el Cuadro 10.1 presentamos la simulación y la estimación respectiva a cada horizonte de tiempo dado
mostrando el segundo renglón del Generador Infinesitmal, con la matriz
−0.5 0.25 0.25
Q = 0.4 −1 0.6 .
0.1 0.1 −0.2
La estimación de parámetros por Máxima Verosimilitud es posible claramente cuando encontramos una
solución mediante el lema de It? como anteriormente habı́amos mencionado. Lo cual nos permitirá definir la
función de verosimilitud a traves de las densidades condicionales cuando se trate de un Proceso Gaussiano.
Supongamos un ecuación diferencial estocástica de la forma
encontraremos entonces las distintas propiedades que nos darán la posibilidad de realizar las aproxima-
ciones a los parámetros presentes en diversos procesos.
110 CAPÍTULO 10. INFERENCIA ESTOCÁSTICA
Tomemos en cuenta que en estos procesos continuos la forma de definir la función de verosimilitud se
realiza a través de los parámetros infinitesimales, encontrada de la siguiente forma
T T
µ2 (Xs , θ)
Z Z
µ(Xs , θ) 1
LT (θ) = exp 2
dXs − ds ;
0 σ (Xs ) 2 0 σ 2 (Xs )
sin embargo, notamos que necesitamos en realidad un equivalente para observaciones discretas que se ha-
yan obtenido una trayectoria [0, T ]. Supongamos una discretización en el tiempo como la antes estudiada
y por simplicidad, no necesariamente en todos los casos, un incremento de tiempo constante de la forma
∆i = ∆ = T /n.
Las estimaciones se pueden encontrar más precisas en muestras con un ∆ de longitud tal que ∆ → 0 y
que a su vez la cardinalidad N de la muestra sea tal que N ∆ → ∞, todo esto a criterio de precisión.
Con lo cual contamos con una muestra de variables aleatorias para la cual podemos definir la función de
verosimilitud como
n
Y
Ln (θ) = pθ (∆, Xi |Xi−1 )pθ (X0 )
i=1
donde pθ (X0 ) no siempre es fácil de determinar a menos de que se tenga una distribución estacionaria,
de otra forma pensando como justificación que X0 es una condición inicial en la definición de la ecuación
diferencial estocástica se puede considerar pθ (X0 ) = 1.
Para asegurar estas distribuciones condicionales se deben cumplir los criterios de existencia y unicidad
para los parámetros de deriva y difusión. Pocos casos tendrán una forma explı́cita de los estimadores,
pues al trabajar la maximización de la función de log-verosimilitud por derivación hablamos de querer
encontrar la solución de un sistema de ecuaciones.
Pn
definido siempre que ocurra i=1 Xi−1 Xi > 0, y
n
2α̂ X
σ̂ 2 = (Xi − Xi−1 e−∆α̂ )2
n(1 − e−2∆α̂ )
i=1
lo cual no es compatible con la versión de tres parámetros cuya estimación nos permitirı́a inferir sobre un
proceso con reversión a la media, por lo cual se deberá recurrir a otros métodos.
La función mle(), nativa de la paqueterı́a stats4 pero incluida como requerimiento al instalar la paque-
terı́a sde y ejemplificaremos más adelante, nos permite realizar la estimación por máxima verosimilitud
de forma numérica aunque no haya un estimador de forma implicita.
La función Inf.OU.Dir() nos permitirá maximizar la versión del proceso de Ornstein-Uhlenbeck de dos
parámetros cuya implementación es directa.Hay que puntualizar que al usar la función mle() es necesario
proporcionar una función que proporcione el valor negativo de la log-verosmilitud de la muestra utilizada
para algún valor de los parámetros. Lo anterior se ejemplifica en nuestra función Inf.OU.mle().
En este tipo de métodos vamos a considerar las propiedades que adoptan la discretizaciones de los procesos
bajo los esquemas.
Método de Euler
Supongamos que los parámetros de una ecuación diferencial estocástica son constantes, entonces la método
de Euler produce la discretización
si consideramos que los parámetros se mantienen constantes en intervalos [t, t + ∆t) suficientemente
peque?os, podemos asumir entonces que las variables Xt+∆t − Xt son Gaussianas con esperanza µ(x, t)∆t
y varianza σ 2 (x, t)∆t. De modo que tal proceso diferenciado tiene una densidad de transición
En distintos modelos el tama?o de ∆ tendrá una influencia distinta sobre la exactitud de la estimación. En
diversos procesos,el parámetro de difusión es una constante positiva, por lo que veremos que la estimación
de éste es independiente a la del resto de los parámetros que entonces se encuentran en el parámetros de
difusión.
Bajo el siguiente criterio podemos determinar un control del comportamiento de la deriva cuando σ(x, t)
es una constante.
112 CAPÍTULO 10. INFERENCIA ESTOCÁSTICA
Sea µ(x, t) la deriva de una ecuación diferencial estocástica, entonces cumple la condición de crecimiento
polinomial si existen L > 0 y m > 0 tales que |µ(x, θ)| ≤ L(1 + |x|m ).
Adicionalmente si n∆3 → 0, el estimador que podemos obtener bajo éste método es consistente y asintóti-
camente gaussiano. Notemos entonces que a partir de estos supuestos podemos definir la log-verosimilitud
como
n
X (Xi − Xi−1 − µ(Xi−1 , θ))2 n
`n (θ) = − − log(2πσ 2 ∆i−1 )
2σ 2 ∆i−1 2
i=1
Para fines prácticos podemos tomar el hecho de que el parámetro σ es constante y notar que la expresión
anterior de la log-verosimilitud que buscamos se maximiza al igual que
n
X ∆i−1 2
`n (θ) = − (Xi − Xi−1 )µ(Xi−1 , θ) − µ (Xi−1 , θ)
2
i=1
De modo que tenemos tres métodos de la variedad que existen para estimar los parámetros de ecuaciones
diferenciales estocásticas. Comparamos estos métodos aplicados a muestras con un incremento ∆, en
los siguientes Cuadros se aplican los tres métodos a través de las funciones antes mencionadas y con la
función Inf.OU.Euler(), sobre trayectorias simuladas de 2000 pasos de Proceso de Ornstein-Uhlenbeck
con α = 1 y σ = .5, en donde se puede encontrar las particularidades de los m?todos por caracter?sticas
de la muestra.
10.4. Ejercicios
1. Implemente un algoritmo que estime por máxima verosimilitud los parámetros de un proceso CIR.
2. Implemente una posible forma de realizar inferencia sobre un proceso de Poisson regular de pará-
metro λ.
114 CAPÍTULO 10. INFERENCIA ESTOCÁSTICA
Apéndice A
FUNCIONES
Descripción
Gen.Lin.Cong() nos regresa un vector de números pseudo-aleatorios generados por la sucesión recursiva.
Código
> Gen.Lin.Cong<-function(n,a=7^5,m=2^31-1,c=0,
+ sem=as.numeric(Sys.time())){
+ V<-numeric(n)
+ V[1]<-sem
+ for(i in 1:(n-1)){
+ V[i+1]<-(a*V[i]+c)%%m
+ }
+ return(V/m)
+ }
Argumentos
n, número de observaciones.
c, valor en los reales no negativos del incremento (por default 0, llamado entonces Generador Con-
gruencial Multiplicativo).
m, valor en los reales positivos del módulo (por default 231 − 1).
sem, valor real positivo inicial o semilla (por default la hora de la máquina).
115
116 APÉNDICE A. FUNCIONES
Descripción
Gen.Cong.SemCont() nos regresa un vector de números pseudo-aleatorios generados por la sucesión re-
cursiva, iniciando por un número propuesto en (0,1) que puede considerarse como la primera variable
aleatoria del total de la muestra.
Código
> Gen.Cong.SemCont<-function(n,a=7^5,m=2^31-1,
+ sem=as.numeric(Sys.time())){
+ V<-numeric(n)
+ V[1]<-sem/m
+ for(i in 2:n){
+ V[i]<-((floor(m*a*V[i-1]))%%m)/m
+ }
+ return(V)
+ }
Argumentos
m, valor en los reales positivos del módulo (por default 231 − 1).
sem, valor real positivo inicial o semilla (por default la hora de la máquina), que debe ser menor a
m si es propuesta.
Descripción
rTInv() nos regresa un vector de observaciones generadas a partir de un vector que represente la distri-
bución de una variable aleatoria.
Código
> rTInv<-function(n,D){
+ if(sum(D)!=1)stop("El vector de densidades debe sumar 1")
+ muestra<-numeric(n)
+ for(i in 1:n){
+ k<-0
117
+ U<-runif(1)
+ F<-0
+ while(F<U){
+ F<-F+D[k+1]
+ if(F<U){k<-k+1}else{F<-1}
+ }
+ muestra[i]<-k
+ }
+ return(muestra)
+ }
Argumentos
n, número de observaciones.
D, vector de la distribución (refleja entonces la cardinalidad del soporte y las entradas suman uno).
Descripción
G.exp.inv() aplica el método de transformada inversa para la generación de variables aleatorias con
distribución exponencial, i.e. con función de densidad
f (x) = λe−λx
Código
> G.exp.inv<-function(n,lambda=1){
+ V<-numeric(n)
+ for(i in 1:n){U<-runif(1);V[i]<--log(1-U)/lambda}
+ return(V)
+ }
Argumentos
n, número de observaciones.
Descripción
M.exp.inv() aplica el método de transformada inversa en el caso discreto para generación de varia-
bles aleatorias con distribución Poisson, haciendo uso de la propiedad de multiplicaciones iterativas.
Código
> G.poi.inv<-function(n,lambda=1){
+ V<-numeric(n)
+ for(j in 1:n){
+ p<-exp(-lambda)
+ F<-p
+ i<-0
+ U<-runif(1)
+ if(F<U){
+ while(F<U){
+ i<-i+1
+ p<-p*lambda/i
+ F<-F+p
+ }
+ }
+ V[j]<-i
+ }
+ return(V)
+ }
Argumentos
n, número de observaciones.
Descripción
M.exp.inv() aplica el método de transformada inversa en el caso discreto para generación de varia-
bles aleatorias con distribución Poisson, con la modificación conveniente de iniciar el valor a escoger de
la variable aleatoria en el valor de λ. Para uso ilustrativo también registra las iteraciones realizadas para
obtener cada observación.
Código
119
> G.poi.mod<-function(n,lam){
+ M<-numeric(n)
+ PoisCont<-function(x)eval((lam^x)*exp(-lam)/gamma(x+1))
+ it<-numeric(n)
+ for(i in 1:n){
+ U<-runif(1)
+ k<-floor(lam)
+ F<-sum(PoisCont(0:k))
+ if(F<U){
+ while(F<U){
+ F<-F+PoisCont(k+1)
+ if(F<U){k<-k+1;it[i]<-it[i]+1}
+ }
+ }else{
+ while(F>U){
+ F<-F-PoisCont(k)
+ if(F>U){k<-k-1;it[i]<-it[i]+1}
+ }
+ }
+ M[i]<-k
+ }
+ info<-data.frame(muestra=M,iteraciones=it)
+ }
Argumentos
n, número de observaciones.
Descripción
con la cual también se calcula el promedio de iteraciones que refleja la eficiencia según la proximidad a la
constante c. La información se encuentra en un objeto tipo list().
Código
> AR.cont<-function(n){
+ M<-numeric(n)
120 APÉNDICE A. FUNCIONES
+ I<-numeric(n)
+ c<-135/64
+ for(i in 1:n){
+ it<-1
+ ac<-0
+ while(ac==0){
+ U<-runif(2)
+ if(U[2]<=256*U[1]*((1-U[1])^3)/27){ac<-1}else{it<-it+1}
+ }
+ M[i]<-U[1]
+ I[i]<-it
+ }
+ prom<-sum(I)/n
+ info<-list(muestra=M,promedio=prom,constante=c)
+ }
Argumentos
Descripción
con la cual también se calcula el promedio de iteraciones que refleja la eficiencia según la proximidad a
la constante c. La información se encuentra en un objeto tipo list(), se incluye también la función de
densidad para complementar el método.
Código
> f.dis<-function(x){
+ y<-0
+ if(x==1){y<-.2}
+ if(x==2){y<-.15}
+ if(x==3){y<-.35}
+ if(x==4){y<-.2}
+ if(x==5){y<-.1}
+ return(y)
+ }
> AR.dis<-function(n){
+ M<-numeric(n)
+ I<-numeric(n)
121
+ c<-.35/.2
+ for(i in 1:n){
+ it<-1
+ ac<-0
+ while(ac==0){
+ U<-runif(2)
+ Y<-floor(5*U[1])+1
+ if(U[2]<=5*f.dis(Y)/c){ac<-1}else{it<-it+1}
+ }
+ M[i]<-Y
+ I[i]<-it
+ }
+ prom<-sum(I)/n
+ info<-list(muestra=M,promedio=prom,constante=c)
+ }
Argumentos
Descripción
Código
> G.exp.counif<-function(n,lambda=1){
+ M<-numeric(n)
+ for(i in 1:n){
+ u<-runif(1,0,sqrt(lambda))
+ v<-runif(1,0,-(u/lambda)*(2*log(u)-log(lambda)))
+ M[i]<-v/u
+ }
+ return(M)
+ }
Argumentos
n, número de observaciones.
122 APÉNDICE A. FUNCIONES
Descripción
G.MixNorm() aplica el método de la Composición para generar variables aleatorias normales mixtas,
escogiendo a través de la ponderación una de las componentes para simularla.
Código
> G.MixNorm<-function(n,P,Mu,Sig){
+ M<-numeric(n)
+ mix<-length(P)
+ if(sum(P)!=1)stop("La ponderacion debe sumar uno")
+ if(length(Mu)!=mix | length(Sig)!=mix){
+ stop("Los parametros estan incompletos")
+ }
+ for(i in 1:n){
+ Y<-rTInv(1,P)+1
+ M[i]<-rnorm(1,Mu[Y],Sig[Y])
+ }
+ return(M)
+ }
Argumentos
Descripción
G.MNom() aplica el método de Transformada Inversa similar a la utilizable para la distribución bino-
mial para simular vectores de variables aleatorias Multinomiales.
Código
123
> G.MNom<-function(M,D,n=1){
+ if(sum(D)!=1)stop("El vector de densidades debe sumar 1")
+ if(length(D)>M)stop("El numero de objetos debe ser mayor
+ o igual que el numero de posiciones")
+ muestra<-matrix(0,n,length(D))
+ for(i in 1:n){
+ for(j in 1:M){
+ F<-0
+ c<-1
+ U<-runif(1)
+ while(F<U){
+ F<-F+D[c]
+ if(F<U){c<-c+1}
+ }
+ muestra[i,c]<-muestra[i,c]+1
+ }
+ }
+ return(muestra)
+ }
Argumentos
Descripción
Lab.TLlegada(), para el problema del Laberinto del ejemplo 2.1.1, realiza las trayectorias en las que
se regresa al estado de partida para realizar el promedio del tiempo de regreso.
Código
> Lab.TLegada<-function(n,l,Lab){
+ T<-numeric(n)
+ for(i in 1:n){
+ visita<-0
+ pasos<-0
+ e<-l
+ while(visita==0){
+ #Simulamos un paso sobre la cadena partiendo de e
124 APÉNDICE A. FUNCIONES
+ e<-rmarkovchain(1,Lab,e)
+ pasos<-pasos+1
+ if(e==l){visita<-1;T[i]<-pasos}
+ }
+ }
+ sum(T)/n
+ }
Argumentos
Lab, es el objeto markovchain de la cadena del Laberinto, que debe estar declarado antes.
Descripción
Lab.Pijk(), para el problema del Laberinto del ejemplo 2.1.1, realiza las trayectorias para encontrar
los casos en que se llega a j desde i en k pasos.
Código
> Lab.Pijk<-function(i,j,k,n,Lab){
+ exitos<-numeric(n)
+ for(l in 1:n){
+ pasos<-rmarkovchain(k,Lab,i)
+ if(pasos[k]==j){exitos[l]<-1}
+ }
+ sum(exitos)/n
+ }
Argumentos
k, número de transiciones.
n, número de trayectorias.
Lab, es el objeto markovchain de la cadena del Laberinto, que debe estar declarado antes.
125
Descripción
Lab.jpori(), para el problema del Laberinto del ejemplo 2.1.1, realiza trayectorias en las que se lle-
ga a j, buscando registrar las veces que primero se pasó por i, buscando encontrar el promedio de tales
recurrencias.
Código
> Lab.jpori<-function(i,j,n,Lab){
+ reg_i<-numeric(n)
+ for(k in 1:n){
+ e<-i
+ pasos<-0
+ llegada_j<-0
+ while(llegada_j==0){
+ e<-rmarkovchain(1,Lab,e)
+ pasos<-pasos+1
+ if(e==i){reg_i[k]<-reg_i[k]+1}
+ if(e==j){llegada_j<-1}
+ }
+ }
+ return(sum(reg_i)/n)
+ }
Argumentos
n, número de trayectorias.
Lab, es el objeto markovchain de la cadena del Laberinto, que debe estar declarado antes.
Descripción
Par.markov(), para el problema de la lluvia del ejemplo 7.1.4, genera el objeto markovchain para cual-
quier número de paraguas y probabilidad de lluvia.
Código
126 APÉNDICE A. FUNCIONES
> Par.markov<-function(r,p){
+ estados<-0:r
+ M<-matrix(0,r+1,r+1)
+ M[1,r+1]<-1
+ for(i in 2:(r+1)){
+ M[i,r-i+3]<-p
+ M[i,r-i+2]<-1-p
+ }
+ return(new("markovchain",states=as.character(estados),
+ transitionMatrix=M))
+ }
Argumentos
r, número de paraguas.
Descripción
Ehr.markov(), para la Cadena de Ehrenfest del ejemplo 2.2.4, genera el objeto markovchain para cual-
quier número de bolas.
Código
> Ehr.markov<-function(N){
+ library(markovchain)
+ P<-matrix(0,N+1,N+1)
+ P[1,2]<-1
+ P[N+1,N]<-1
+ for(i in 2:N){
+ P[i,i-1]<-(i-1)/N
+ P[i,i+1]<-(N-i+1)/N
+ }
+ estados<-0:N
+ cad<-new("markovchain",transitionMatrix=P,
+ states=as.character(estados))
+ return(cad)
+ }
Argumentos
127
N, número de bolas.
Descripción
Código
> PPoisson.S<-function(lambda,T){
+ t<-0
+ P<-0
+ while(t<T){
+ t<-t-log(runif(1))/lambda
+ if(t<T){P<-P+1}
+ }
+ return(P)
+ }
Argumentos
Descripción
PPoisson.P(), implementa el algoritmo 7.2.1 para simular trayectorias a un tiempo lı́mite de manera
que la frecuencia de los casos congruentes a los parámetros estiman la probabilidad del evento.
Código
> PPoisson.P<-function(lambda,T,x,n){
+ exitos<-numeric(n)
+ for(i in 1:n){
+ t<-0
+ P<-0
+ while(t<T){
+ t<-t-log(runif(1))/lambda
128 APÉNDICE A. FUNCIONES
+ if(t<T){P<-P+1}
+ }
+ if(P==x){exitos[i]<-1}
+ }
+ return(sum(exitos)/n)
+ }
Argumentos
Descripción
PPoisson.E(), implementa el algoritmo 7.2.1 para simular trayectorias a un tiempo lı́mite de manera
que el promedio estime el valor esperado del Proceso Poisson a un tiempo t.
Código
> PPoisson.E<-function(lambda,T,n){
+ muestra<-numeric(n)
+ for(i in 1:n){
+ t<-0
+ P<-0
+ while(t<T){
+ t<-t-log(runif(1))/lambda
+ if(t<T){P<-P+1}
+ }
+ muestra[i]<-P
+ }
+ return(sum(muestra)/n)
+ }
Argumentos
Descripción
PPoisson.TE(), implementa el algoritmo 7.2.1 para simular trayectorias a un tiempo lı́mite rescatando
sólo el tiempo de espera para el llegar el valor x de manera que el promedio estime el valor esperado de Sx .
Código
> PPoisson.TE<-function(lambda,x,n){
+ esperas<-numeric(n)
+ for(i in 1:n){
+ t<-0
+ P<-0
+ while(P<x){
+ t<-t-log(runif(1))/lambda
+ P<-P+1
+ }
+ esperas[i]<-t
+ }
+ return(sum(esperas)/n)
+ }
Argumentos
Descripción
PPoissonNH.S(), implementa el algoritmo 7.2.2 para simular un Proceso Poisson no Homogéneo con
una función de intensidad λ(t) y λ adecuadas, obteniendo los tiempos de salto.
Código
130 APÉNDICE A. FUNCIONES
> PPoissonNH.S<-function(T,inten,lambda){
+ Inten<-function(t)eval(inten)
+ t<-0
+ P<-0
+ s<-numeric()
+ while(t<T){
+ t<-t-log(runif(1))/lambda
+ U<-runif(1)
+ if(U<Inten(t)/lambda){P<-P+1;s<-c(s,t)}
+ }
+ return(P)
+ }
Argumentos
inten, es un objeto expression que representa la función de intensidad del Proceso Poisson no
Homogéneo, debe estar escrita para la variable t y estar definida en R+ ∪ {0} → R+ ∪ {0}.
lambda, es un real positivo que necesariamente sea mayor o igual que λ(t) para t ≤ T .
Descripción
PPoiCE.S(), implementa el algoritmo 7.2.3 para simular un Proceso Poisson Compuesto con saltos con
distribución exponencial.
Código
> PPoiCE.S<-function(lppc,lexp,T){
+ t<-0
+ P<-0
+ while(t<T){
+ t<-t-log(runif(1))/lppc
+ if(t<T){P<-P-log(runif(1)/lexp)}
+ }
+ return(P)
+ }
Argumentos
Descripción
PSM.S(), implementa el algoritmo 7.3.1 para simular un Proceso de Saltos de Markov, obteniendo tiempos
de salto y estados, a partir de una matriz de intensidades y una frontera de tiempo.
Código
> PSM.S<-function(T,Q,D){
+ if(sum(D)!=1)stop("El vector de densidades debe sumar 1")
+ N<-nrow(Q)
+ t<-0
+ tiempos<-numeric(1)
+ Sal<-numeric(1)
+ Sal[1]<-rTInv(1,D)+1
+ i<-Sal[1]
+ tiempos[1]<-t
+ while(t<T){
+ t<-t+log(runif(1))/Q[i,i]
+ if(t<T){
+ tiempos<-c(tiempos,t)
+ U<-runif(1)
+ F<-0
+ j<-0
+ while(F<U){
+ j<-j+1
+ if(j!=i){F<-F-Q[i,j]/Q[i,i]}
+ }
+ i<-j
+ Sal<-c(Sal,i)
+ }
+ }
+ return(list(Tiempos=tiempos,Estados=Sal))
+ }
Argumentos
Q, una matriz con valores congruentes con la matriz de intensidades de un PSM (reales negativos en
la diagonal y la suma de las demás entradas del renglón igual al valor positivo del de la diagonal).
132 APÉNDICE A. FUNCIONES
Descripción
EMC.GAMMA(), implementa la estimación del valor de la función Gamma como la media muestral, de
la función adecuada, de variables exponenciales. También incluye la varianza y desviación estándar del
estimador
Código
> EMC.GAMMA<-function(n,alfa){
+ U<-runif(n)
+ muestra<-(-log(U))
+ suma1<-0
+ suma2<-0
+ for(i in 1:n){
+ suma1<-suma1+muestra[i]^(alfa-1)
+ suma2<-suma2+muestra[i]^((alfa-1)*2)
+ }
+ Esp<-suma1/n
+ Var<-((suma2/n)-Esp^2)/n
+ de<-sqrt(Var)
+ return(c(Esp,Var,de))
+ }
Descripción
Código
> PSM.EMV<-function(E,TR){
+ J<-length(TR$Estados)
+ TPer<-numeric(E)
+ N<-matrix(0,E,E)
133
+ Q<-matrix(0,E,E)
+ for(i in 2:J){
+ TPer[TR$Estados[i-1]]<-TPer[TR$Estados[i-1]]+
+ TR$Tiempos[i]-TR$Tiempos[i-1]
+ N[TR$Estados[i-1],TR$Estados[i]]<-N[TR$Estados[i-1],TR$Estados[i]]+1
+ }
+ for(i in 1:E){
+ for(j in 1:E){
+ if(i!=j){
+ Q[i,j]<-N[i,j]/TPer[i]
+ }
+ }
+ Q[i,i]<--sum(Q[i,])
+ }
+ return(Q)
+ }
Argumentos
Descripción
Código
> Inf.OU.Dir<-function(X,Del){
+ n<-length(X)
+ alfa<--log(sum(X[1:(n-1)]*X[2:n])/sum(X[1:(n-1)]^2))/Del
+ sigma<-2*alfa*sum(X[2:n]-X[1:(n-1)]*
+ exp(-Del*alfa))/((n-1)*(1-exp(-2*Del*alfa)))
+ return(c(alfa,sigma))
+ }
Argumentos
Descripción
Inf.OU.Mle, implementa una rutina que utilice el valor negativo de la log-verosimilitud de la mues-
tra para parámetros dados, y llama a la función mle() para hacer la maximización.
Código
> Inf.OU.Mle<-function(X,Del){
+ OU.lik<-function(a,s){
+ n<-length(X)
+ -sum(dcOU(x=X[2:n],Dt=Del,x0=X[1:(n-1)],theta=c(0,a,s),log=TRUE))
+ }
+ est<-mle(OU.lik,start=list(a=.1,s=.1),method="L-BFGS-B",
+ lower=c(.00001,.00001,.00001),upper=c(10,10,10))
+ return(as.numeric(coef(est)))
+ }
Argumentos
Descripción
Inf.OU.Euler, implementa una rutina que utilice el valor negativo de la log-verosimilitud de la muestra
para parámetros dados suponiendo las diferencias como variables aleatorias gaussianas, y llama a la fun-
ción mle() para hacer la maximización.
Código
> Inf.OU.Euler<-function(X,Del){
+ n<-length(X)
+ Euler.lik<-function(alfa){
+ -sum((X[2:n]-X[1:(n-1)])*(-alfa*X[1:(n-1)])-Del*.5*(alfa*X[1:(n-1)])^2)
+ }
+ est<-mle(Euler.lik,start=list(alfa=1),method="L-BFGS-B",
+ lower=c(.00001,.00001,.00001),upper=c(10,10,10))
+ AL<-as.numeric(coef(est))
+ SIG<-sqrt(sum((X[2:n] - X[1:(n-1)])^2/(Del*(n-1))))
135
+ return(c(AL,SIG))
+ }
Argumentos
∆, un vector con los tiempos transición entre observaciones, que deben ser cortos para cumplir los
supuestos de normalidad.
136 APÉNDICE A. FUNCIONES
Bibliografı́a
[1] Caballero, Rivero, Uribe y Velarde. Cadenas de Markov. Un enfoque elemental. Number 29 in Textos,
Nivel Medio. SMM, 2004.
[2] Conover, W. J. Practical Nonparametric Statistics. Wiley and Sons, second edition, 1980.
[4] Halton, J. (1970) A retrospective and prospective survey of Monte Carlo method. SIAM Rev. 12, page
1-63.
[5] Harvey, C. R. . Time-varying conditional covariances in tests of asset pricing models. Journal of
Financial Economics, 24, page 289-317., 1989.
[6] Fishman, G. (2006).A First Course in Monte Carlo. Belmont, CA : Thomson Brooks.
[7] Gilks, W.R., Richardson, S. y Spiegelhalter, D.J. (1996). Markov Chain Monte Carlo in Practice.
Chapman and Hall.
[8] Iacus, Stefano M. Simulation and Inference for Stochastic Differential Equations. Springer, 2008.
[9] Karlin, Samuel y Taylor A First Course in Stochastics Processes. Academia Press, New York-London,
second edition, 1975.
[10] Laguna, M. and Marklund, J. (2005). Business process modeling, simulation and design. USA: Pren-
tice Hall.
[11] L’Ecuyer, Pierre Efficient and Portable Combined Number Generators. Research Contributions, Mon-
treal, Canada, 2010. http://www.iro.umontreal.ca/ lecuyer/myftp/papers/cacm88.pdf
[15] Rubinstein y Kroese Simulation and the Monte Carlo Method. Wiley Series in Probability and Sta-
tistics, second edition, 2007.
137