Muestreador de Gibbs
Muestreador de Gibbs
Muestreador de Gibbs
Director
M. Sc. Luis Alejandro Másmela Caita.
Title in English
Description and implementation of Gibbs Sampler in bivariate version
Jurado
Gabriel Córdoba Suárez
Director
Luis Alejandro Másmela Caita
Quiero agradecer a Dios por brindarme las capacidades para desarrollar mis estudios
y por todas las otras bendiciones que ha derramado sobre mi. A mi mamá Rosalia
Arévalo y mi abuelita Clementina Arévalo quienes han sido mi apoyo y guı́a en las
decisiones que he tomado en mi vida. Quiero agradecer también a los profesores del
Proyecto Curricular de Matemáticas de la Universidad Distrital por sus lecciones
académicas y consejos de vida que han compartido conmigo a lo largo de estos años.
Agradezco especialmente al profesor Luis Alejandro Másmela quien dirigió este trabajo
de grado porque sin sus conocimientos y paciencia no se hubiese podido culminar
satisfactoriamente. Por último, pero no por ello menos importante, al profesor Gabriel
Córdoba, por las correcciones y sugerencias hechas a este documento.
Índice general
Índice general I
Índice de figuras IV
Introducción V
1. Preliminares 1
1.1. Algunos conceptos de la teorı́a de la probabilidad en el caso multivariado 1
1.2. La prueba Ji-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Cadenas de Markov 7
2.1. Comunicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Periodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Primeras visitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4. Recurrencia y transitoriedad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5. Tiempo medio de recurrencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6. Clases cerradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.7. Número de visitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.8. Recurrencia positiva y nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.9. Evolución de distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.10. Distribuciones estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.11. Distribuciones lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.12. Cadenas regulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.13. Cadenas reversibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3. Muestreador de Gibbs 20
3.1. Algoritmo del muestreador de Gibbs para el caso bivariado . . . . . . . . 21
3.2. Ilustrando el muestreador de Gibss . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1. Distribución Beta-binomial . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1.1. Distribución Beta-binomial como distribución com-
puesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
I
ÍNDICE GENERAL II
Conclusiones 38
Códigos en R 39
Bibliografı́a 43
Índice de tablas
III
Índice de figuras
IV
Introducción
V
INTRODUCCIÓN VI
Preliminares
Un concepto básico en probabilidad tiene que ver con la definición de vector aleatorio.
Este extiende el concepto de variable aleatoria por una función de valores en Rn .
1
CAPÍTULO 1. PRELIMINARES 2
F (x1 , x2 , · · · , xn ) := P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) ,
3.
lı́m F (x, y) = F (x, y0 ) (1.2)
y&y0
4.
lı́m F (x, y) = 0
x→−∞
y
lı́m F (x, y) = 0
y→−∞
5.
lı́m F (x, y) = 1
(x,y)→(∞,∞)
4.
lı́m F (x1 , x2 , · · · xn ) = 1
(x1 ,x2 ,···xn )→(∞,∞,··· ,∞)
Los teoremas siguientes exhiben dos relaciones notables el Teorema 4 establece cómo
dado un vector aleatorio 2−dimensional y su función de distribución conjunta se
puede encontrar la función de densidad de probabilidad conjunta en las regiones en
que esta sea continua. La demostración de este hecho se puede encontrar en [4].
∂ 2 F (x, y) ∂ 2 F (x, y)
f (x, y) = =
∂x∂y ∂y∂x
P (X = x, Y = y)
pX|Y (x|y) := P (X = x|Y = y) = .
P (Y = y)
CAPÍTULO 1. PRELIMINARES 5
f (x, y)
fX|Y (x|y) :=
fY (y)
Uno de los objetivos del presente trabajo es exponer al muestreador de Gibbs como
un método optimo para estimar la distribución marginal de una variable aleatoria. Es
ası́ que con los valores obtenidos mediante la sucesión de Gibbs, se quiere presentar
que su comportamiento se asemeja a la distribución teórica. En [5] utilizan las
gráficas para mostrar esto, nosotros además lo presentamos por medio de la prueba
ji-cuadrado implementada en R.
El test ji-cuadrado es un estadı́stico de prueba formulado en 1990 por Karl Pearson.
En este supone que desconocemos la distribución de probabilidad y la hipótesis nula
es que dicha distribución es alguna conocida. Para determinar si la hipótesis se acepta
o rechaza se emplea una muestra. El estadı́stico de prueba es
k
2
X [ni − npi ]2
X =
i=1
npi
Cadenas de Markov
7
CAPÍTULO 2. CADENAS DE MARKOV 8
La matriz para la cual sus elementos son las probabilidades de transición entre los
estados del proceso.
La matriz que se definió se conoce como matriz estocástica o matriz de probabilidad de
transición. La Proposición 1 señala dos propiedades de esta matriz y su demostracion
puede ser consultada en [8].
Definición 12. Una distribución inicial para una cadena de Markov con espacio de
estados {0, 1, 2, 3, . . .} es una distribución de probabilidad sobre este conjunto.
La Proposición 2 recibe su nombre gracias a dos matemáticos de nacionalidades
distintas pero apasionados por los procesos estocásticos, esto les permitió de manera
independiente llegar a su formulación; los matemáticos aquı́ relacionados son Sydney
Chapman y Andréi Kolmogórov de nacionalidades inglesa y rusa respectivamente.
2.1. Comunicación
Definición 14. Se dice que una cadena de Markov es irreducible si todos los estados
se comunican entre sı́.
2.2. Periodo
en donde m.c.d. significa máximo común divisor. Cuando pii (n) = 0 para toda n ≥ 1,
se define d (i) = 0. En particular, se dice que un estado i es aperiódico si d (i) = 1.
Cuando d (i) = k ≥ 2 se dice que i es periódico de periodo k.
Una cadena de Markov en la cual todos sus estados son aperiódicos es llamada una
cadena de Markov aperiódica. El siguiente conjunto de Proposiciones 4, 5 y 6 son
algunas propiedades del periodo. La Proposición 4 se puede interpretar de diversas
maneras, por ejemplo, se puede decir que si dos estados están comunicados entonces
tendrán el mismo periodo lo que sugiere que el periodo es una propiedad de clase.
La Proposición 5 afirma que para cada estado es posible retornar a este con múltiplos
lo suficientemente grandes del periodo d(i).
Proposición 5. Para cada estado i, existe un entero N tal que para toda n ≥ N, se
cumple pii (nd (i)) > 0.
La Proposición 6 es un resultado de las Proposiciones 5 y 2.
Proposición 6. Si pij (m) > 0 para algún entero m, entonces existe un entero N
tal que para toda n ≥ N se cumple pij (m + nd (j)) > 0.
Esta sección trata del tiempo de primera visita de un subconjunto del espacio
de estados de una cadena de Markov. Existen diversas aplicaciones, por ejemplo,
el tiempo de mantenimiento de cierta máquina, es decir, dado que la máquina
funciona correctamente en qué periodo n de tiempo la máquina presentará un
daño y necesitará mantenimiento. Esta aplicación sugiere que se puede relacionar la
Definición 16 con la Definición 17. Es decir, dado de que exista una primera visita al
subconjunto del espacio de estados A :={la máquina presenta averı́a}, con un único
estado al que se puede llamar k y suponiendo que la cadena inicia en el estado j := la
máquina funciona correctamente. Entonces según la Definición 17 fij (n) representa
la probabilidad de que τij tome el valor n. La Proposición 7 es una formula bastante
útil y la demostración requiere de la ecuación 2.1.
Definición 17. Para cada n ≥ 1, el número fij (n) denota la probabilidad de que una
cadena que inicia en el estado i, llegue al estado j por primera vez en exactamente n
pasos, es decir,
Proposición
P 10. Sea j un estado transitorio. Para cualquier estado inicial i, se
cumple que ∞ n=1 pij (n) < ∞. En consecuencia, lı́mn→∞ pij (n) = 0.
¿Se puede decir que todos los estados de una cadena de Markov finita son recurrentes?,
de la Proposición 11 se puede extraer respuesta.
Proposición 11. Toda cadena de Markov finita tiene por lo menos un estado
recurrente.
Las pruebas de las Proposiciones 8, 9, 10 y 11, pueden ser consultadas en [8].
CAPÍTULO 2. CADENAS DE MARKOV 12
Proposición 12. Toda colección de estados que es cerrada e irreducible es una clase
de comunicación.
Esta primera parte de la sección concierne a definir una nueva variable aleatoria que
representa el número de visitas que una cadena de Markov hace sobre un estado
particular para un tiempo finito n. La Proposición 13 presenta algunas propiedades
para esta variable aleatoria su demostración puede consultarse en [8].
Definición 22. La variable aleatoria que registra el número de visitas que una cadena
realiza sobre un estado j a partir del estado i, para cualquier tiempo finito n se define
por:
X n
Nij (n) = 1Xk =j .
k=1
CAPÍTULO 2. CADENAS DE MARKOV 13
Cuando X0 = i.
Notación 2. Se acostumbra a denotar Ni (n) cuando los estados j e i coinciden.
Proposición 13. Para cualesquiera estados i y j,
1. (
1 si k = 0,
P (Nij ≥ k) =
fij (fjj )k−1 si k ≥ 1.
2. (
1 − fij si k = 0,
P (Nij = k) =
fij (fjj )k−1 (1 − fjj ) si k ≥ 1.
3.
∞
X 0
si fij = 0,
fij
E (Nij ) = pij (n) = si 0 ≤ fjj < 1,
1−fjj
n=1
∞ si fij 6= 0 y fjj = 1.
4. (
0 si j es transitorio,
P (Nij = ∞) =
fij si j es recurrente.
5. (
1 si j es transitorio,
P (Nij < ∞) =
1 − fij si j es recurrente.
Para finalizar esta sección se presenta el teorema ergódico para cadenas de Markov
junto con un corolario. El teorema ergódico proporciona el comportamiento lı́mite
del promedio temporal del número de vistas a un estado de una cadena de Markov,
tanto el teorema ergódico como su corolario hacen parte de los teoremas lı́mites para
cadenas de Markov. La demostración de estos resultados puede ser consultada en [8].
Nij (n) 1
lı́m = c.s. (2.5)
n→∞ n µj
En la Sección 2.4 se presentó una primera división para toda cadena de Markov por
su espacio de estados en dos subconjuntos disjuntos a saber recurrentes y transitorios.
El objetivo de esta sección es realizar una nueva división del espacio de estados
empleando la Definición 20 y responder la pregunta ¿Existen estados recurrentes
nulos en Cadenas de Markov finitas? Para lo cual es conveniente ver la Proposición
16.
Esta sección es una adaptación de [8] de la sección del mismo nombre. El propósito es
describir cómo se puede obtener una sucesión infinita de distribuciones de probabilidad
teniendo como partida un espacio de estados finito {0, 1, . . . , n} , una distribución
inicial π 0 = (π00 , π10 , . . . , πn0 ) . y una matriz de probabilidad de transición en un
paso. La cadena se encuentre en alguno de sus posibles estados de acuerdo a la
distribución π 1 = (π01 , π11 , . . . , πn1 ) , una vez pasada la primera unidad de tiempo, para
esta distribución la j−ésima entrada de este vector es
πj1 = P (X1 = j)
Xn
= P (X1 = j|X0 = i) P (X0 = i)
i=0
n
X
= πi0 pij
i=0
π m = π m−1 P = π 0 P m (2.6)
Al igual que sucede en álgebra lineal donde un sistema de ecuaciones lineales puede
tener infinitas soluciones o única solución o no existir solución una distribución
CAPÍTULO 2. CADENAS DE MARKOV 16
estacionaria para una cadena de Markov puede también presentarse de manera única,
múltiple o no existir. En libros de procesos estocásticos pueden encontrarse un buen
número de ejemplos.
Por lo dicho anteriormente es óptimo enunciar una definición alterna de distribución
estacionaria a saber: una distribución de probabilidad π = (π0 , π1 , . . .) es estacionaria
o invariante para una cadena de Markov con matriz de probabilidades de transición
P = (pij ) si,
π = πP. (2.7)
Producto de esta definición alterna se facilita obtener algunos resultados, por ejemplo,
si se tuviera una matriz de transición P para una cadena de Markov y se quisiera
conseguir una probable distribución P estacionaria se podrı́a resolver el sistema de
ecuaciones π = πP con la condición j πj = 1. una interesante propiedad matemática
de las distribuciones estacionaria es que forma un conjunto convexo.
Se conoce como distribución estacionaria debido a la propiedad de ser invariante por
el paso del tiempo, esto es una consecuencia de la ecuación 2.7 y se enuncia como:
una distribución π estacionaria satisface que para todo m ∈ N se tiene que π = πP m .
Es preciso destacar que aunque el vector nulo o vector de ceros cumple la ecuación
2.7 este no es una distribución de probabilidad.
La definición de distribución lı́mite para una cadena de Markov establece que esta se
determina por el lı́mite de las potencia de P y por tanto no depende de la distribución
inicial. Además es una distribución estacionaria.
No siempre una distribución estacionaria es una distribución lı́mite, es natural
entonces preguntarse qué condiciones debe satisfacer una distribución lı́mite para
ser estacionaria, para responder esta pregunta se presenta la Proposición 19 que es
válida tanto para espacios finitos como infinitos.
Obsérvese también que la Proposición 19 no hace la salvedad en que los lı́mites
puedan ser todos nulos pero finaliza recalcando que se obtiene una distribución de
probabilidad verdadera cuando el espacio de estados es finito. La importancia de
este argumento es que existen vectores que satisfacen la Definición 26 pero no son
distribuciones de probabilidad.
2. X
πj = πi pij .
i
Proposición 22. Una matriz estocástica es regular si, y sólo si, es finita, irreducible
y aperiódica.
CAPÍTULO 2. CADENAS DE MARKOV 19
Se cierra este capı́tulo con un muy breve estudio de un tipo particular de cadenas
irreducibles conocidas como cadenas reversibles. La condición de reversibilidad suele
describirse afirmando que para cualesquiera dos estados j e i de una cadena de
Markov la tasa de transición de i a j coincide con la tasa de transición de j a i. La
Proposición 24 describe como caracterizar una cadena de Markov reversible para la
cual exista una distribución que satisfaga la identidad 2.9.
Definición 28. Se dice que una cadena de Markov irreducible con probabilidades
de transición pij y con distribución estacionaria π es reversible en el tiempo si para
cualesquiera estados i y j,
πi pij = πj pji . (2.9)
Proposición 24. Considere una cadena irreducible para la cual existe una distribu-
ción π que cumple la identidad 2.9. Entonces π es una distribución estacionaria y la
cadena es reversible.
CAPÍTULO 3
Muestreador de Gibbs
20
CAPÍTULO 3. MUESTREADOR DE GIBBS 21
Algoritmo 1.
Entrada: • Distribuciones condicionales, fX|Y (x | y) y fY |X (y | x) .
• Número máximo de iteraciones k.
0 0
• Valor inicial de Y0 = y0 .
Salida: Sucesión de Gibbs
0 0
Paso 1. Sea i = 0, Y0 = y0 .
Paso 2. Mientras i + 1 ≤ k realizar pasos 3 y 4.
0 0 0
Paso 3. Obtener Xi mediante f (x | Yi = yi ).
0 0 0
Paso 4. Obtener Yi+1 mediante f (y | Xi = xi ).
0 0
• Salida Xi , Yi+1 (Algoritmo culminado satisfactoriamente).
• PARAR.
Paso 5. Salida (Se pidió la implementación del método como máximo para k
iteraciones).
• PARAR.
Los valores
0 0 0 0 0 0 0 0
Y0 , X0 , Y1 , X1 , Y2 , X2 , . . . , Yk , Xk , (3.1)
obtenidos al aplicar el Algoritmo 1 se conocen como “Sucesión de Gibbs”.
El éxito del muestreador de Gibss se basa en que haciendo k lo suficientemente
0 0
grande, la observación de Xk = xk es un punto muestral de f (x), es decir, cuando
0
k → ∞ la distribución de Xk → f (x) la verdadera marginal de X.
Sea X una variable aleatoria con parámetro P que se distribuye Beta(α, β). Sabemos
que,
n k
pX|P (x | p) = p (1 − p)n−x , (3.2)
x
entonces
pα−1 (1 − p)β−1
n x
f (p, x) = pX|P (x | p) = p (1 − p)n−x . (3.3)
x B (α, β)
CAPÍTULO 3. MUESTREADOR DE GIBBS 23
pα−1 (1 − p)β−1
Z 1
n x
pX (x) = p (1 − p)n−x dp
0 x B (α, β)
Z 1
n 1
= px (1 − p)n−x pα−1 (1 − p)β−1 dp
x B (α, β) 0
(3.4)
px+α−1 (1 − p)n−x+β−1
Z 1
n 1
= B (x + α, n − x + β) dp
x B (α, β) 0 B (x + α, n − x + β)
n B (x + α, n − x + β)
= .
x B (α, β)
Con respecto a 3.6, es posible encontrar las distribuciones fX (x) , fY (y) , fX|Y (x, y)
y fY |X (y|x) como sigue
Z 1
n Γ (α + β) x+α−1
fX (x) = y (1 − y)n−x+β−1 dy
x Γ (α) Γ (β)
0 Z 1
n Γ (α + β)
= y x+α−1 (1 − y)n−x+β−1 dy (3.7)
x Γ (α) Γ (β) 0
n Γ (α + β) Γ (x + α) Γ (n − x + β)
= .
x Γ (α) Γ (β) Γ (α + n + β)
n!
f (x1 , x2 ; n, p1 , p2 ) = px1 px2 (1 − p1 − p2 )n−x1 −x2 . (3.9)
x1 !x2 ! (n − x1 − x2 )! 1 2
regresando a 3.10
n−x
px1 1 X1 (n − x1 )!
= (n − x1 + 1)(n − x1 + 1) · · · (n) px2 2 (1 − p1 − p2 )n−x1 −x2
x1 ! x2 =0 2
x ! (n − x 1 − x 2 )!
n−x
px1 1 X1 n − x1
= (n − x1 + 1) · · · (n) px2 2 (1 − p1 − p2 )n−x1 −x2
x1 ! x =0
x2
2
px1 1
(n − x1 )!(n − x1 + 1) · · · (n)
= (p2 + (1 − p1 − p2 ))n−x1
x1 ! (n − x1 )!
n!
= px1 1 (1 − p1 )n−x1
x ! (n − x1 )!
1
n x1
= p (1 − p1 )n−x1 .
x1 1
(3.11)
Es ası́ que fX1 (x1 ) es Binomial(n, p1 ). En seguida para fX2 (x2 ), se tiene que
n−x
X2 n!
fX2 (x2 ) = px1 1 px2 2 (1 − p1 − p2 )n−x1 −x2
x1 =0
x1 !x2 ! (n − x1 − x2 )!
n−x
px2 2 n! X2 (n − x2 )!
= px1 (1 − p1 − p2 )n−x1 −x2
x2 ! x =0 (n − x2 )!x1 !(n − x2 − x1 )! 1
1
n−x
px2 2 n! X2 (n − x2 )!
= px1 (1 − p1 − p2 )n−x2 −x1
(n − x2 )!x2 ! x =0 x1 !(n − x2 − x1 )! 1
1
n−x 2
n x2 X n − x 2 x1
= p2 p1 (1 − p1 − p2 )n−x2 −x1
x2 x1 =0
x1
n x2
= p (p1 + (1 − p1 − p2 ))n−x2
x2 2
n x2
= p (1 − p2 )n−x2 .
x2 2
n!
px1 px2 (1 − p1 − p2 )n−x1 −x2
x1 !x2 !(n−x1 −x2 )! 1 2
fX1 |X2 (x1 | x2 ) = n!
px2 (1 − p2 )n−x2
x2 !(n−x2 )! 2
p1
Por lo tanto fX1 |X2 (x1 | x2 ) se distribuye binomial de parametros n − x2 y 1−p2
. Para
la distribución condicional, fX2 |X1 (x2 | x1 ), se tiene que,
n!
px1 px2 (1 − p1 − p2 )n−x1 −x2
x1 !x2 !(n−x1 −x2 )! 1 2
fX2 |X1 (x2 | x1 ) = n!
px1 (1 − p1 )n−x1
x1 !(n−x1 )! 1
p2
Es decir, fX2 |X1 (x2 | x1 ) se distribuye binomial de parametros n − x1 y 1−p1
.
La figura 3.3 contrasta la distribución teórica en 3.11 y la simulada empleando
el muestreador de Gibbs, que ha sido creada en R con k=200000 iteraciones. En
dicha figura puede apreciarse lo casi indistinguible que es el comportamiento de
ambas distribuciones, en donde el histograma en color azul representa la distribución
CAPÍTULO 3. MUESTREADOR DE GIBBS 29
P (0, 0) 0.2
fX|Y (0 | 0) = =
P (0) 0.3
P (1, 0) 0.1
fX|Y (1 | 0) = =
P (0) 0.3
P (0, 1) 0.4
fX|Y (0 | 1) = =
P (1) 0.7
P (1, 1) 0.3
fX|Y (1 | 1) = = .
P (1) 0.7
Para construir una matriz que contenga las probabilidades condicionales de X dado
Y =y 0.2 0.1
AX|Y = 0.40.3 0.3
0.3
0.7 0.7
0 0
En resumen hemos construidos la matriz de transición para ir de X0 a X1 . Esto
es fundamental para el presente trabajo pues se puso en evidencia la naturaleza
0 0
Markoviana de la iteración del Muestreador de Gibbs al considerar que ir de X0 a X1
forma una Cadena de Markov y poder escribir AX|X como un producto de matrices de
transición. En general la idea fundamental de los algoritmos MCMC, es el diseño de
una cadena de Markov cuya distribución estacionaria es precisamente la distribución
que se quiere muestrear. Para el caso del muestreador de Gibbs presentamos la
generalización del ejemplo anterior y uno empleando la distribución trinomial.
En este orden de ideas consideremos consideremos la tabla 3.2, con muestreo multi-
nomial dado que X y Y son variables aleatorias con distribución conjunta Bernoulli.
H
HH X
0 1
Y H
HH
0 p1 p2
1 p3 p4
Tabla 3.2. Distribución de probabilidades conjunta de la variable aleatoria discreta (X, Y ).
y p1 p3
p1 +p3 p1 +p3
AY |X = p2 p4 .
p2 +p4 p2 +p4
0 0
X 0 0
0 0
P X1 = x1 |X0 = x0 = P X1 = x1 |Y1 = y × P Y1 = y|X0 = x0 (3.14)
y
0 0 k
De manera que la matriz de transición para P Xk = xk |X0 = x0 es AX|X . Esto
implica que podemos calcular fácilmente la distribución de probabilidad de cualquier
0 0
Xk en la sucesión 3.1. En efecto, si denotamos la distribución marginal de Xk por
El lector en este punto puede llegarse a preguntar ¿que relación tiene esto con el
muestreador de Gibbs? la respuesta la daremos de inmediato. En efecto, ya que como
se ha indicado desde el inició de este capı́tulo el muestreador de Gibbs es uno de
los algoritmos MCMC, los cuales tienen como idea fundamental el diseño de una
cadena de Markov cuya distribución estacionaria es precisamente la distribución que
se quiere muestrear. Esto y el hecho de que cuando la matriz AX|X tiene todas sus
entradas positivas, la ecuación 3.16 garantiza que cuando k → ∞, fk converge a la
distribución f que es en un punto estacionario de 3.16. Sin importar la probabilidad
inicial f0 . Mas aún el hecho de que se satisface,
f AX|X = f. (3.17)
Responde al lector la pregunta planteada, es decir, la relación de este desarrollo y el
muestreador de Gibbs es que hemos visto la naturaleza markoviana del muestreador
de Gibbs. Ası́ mismo de la ecuación 3.17 para el caso descrito, podemos entender
porque el muestreador de Gibbs es uno de los algoritmos MCMC.
Veamos ahora que para fX en 3.13 se verifica 3.17,
2
1 p1 p23 1 p1 p2 p3 p4
p +p p +p
+ p3 +p4 p1 +p3
+
fX AX|X = [p1 + p3 p2 + p4 ] 1 3 p1 p 2 p1 +p 2 p3 +p4
1 2 1 p4 p3 1 p22 p24
p2 +p4 p1 +p2
+ p3 +p4 p2 +p4 p1 +p2
+ p3 +p4
= [p1 + p3 p2 + p4 ]
= fX
para obtener AX|Y dividimos cada renglon de P por la suma de todos los elementos
en este renglón, por ejemplo calculemos la entrada (1, 1) en la matriz AX|Y , esto es,
0.008/0.125 = 0.064.
0.064 0.288 0.432 0.216
0.160 0.480 0.360 0
AX|Y = 0.40
0.6 0 0
1 0 0 0
0
de manera que la matriz de transición de la subsucesión X en la sucesión de Gibbs
viene dada por
0.5688397 0.3530729 0.07304956 0.005037901
0.2746122 0.5255510 0.18220408 0.017632653
AX|X = AY |X AX|Y =
0.1325714 0.4251429 0.38057143 0.061714286 (3.18)
0
la cadena de Markov de las X es irreducible pues todos sus estados se comunican,
es aperiodica ya que todos sus estados tienen periodo 1, como lo muestra la matriz
3.18. Además también posee distribución estacionaria f = [0.343, 0.441, 0.189, 0.027]
(que se corresponde con la marginal de X en la tabla 3.3). Ası́ que por el teorema
20, se tiene que para cualesquiera estados i y j, lı́mn→∞ pij (n) = fj , en efecto, para
n = 21 se tiene que:
0.343 0.441 0.189 0.027
0.343 0.441 0.189 0.027
A21
X|X =
.
0.343 0.441 0.189 0.027
0.343 0.441 0.189 0.027
CAPÍTULO 3. MUESTREADOR DE GIBBS 35
Como un primer resultado se puede afirmar que para valores suficientemente grandes
0
de k la distribución marginal de Xk tiende a fX . Ası́ si detenemos la iteración (3.1)
0
a un valor suficientemente grande de k, podemos suponer que la distribución de Xk
es aproximadamente fX .
Casella y George (1992) argumentan que es posible considerar X, Y alguna o ambas
continuas, si bien no presentan qué condiciones se deben imponer para extender los
argumentos de dimensión finita, si afirman que la teorı́a continúa sirviendo y que
por tanto el muestreador de Gibbs determina una muy buena aproximación a la
distribución marginal de X. Es en este contexto que presentaremos un paralelo entre
la versión discreta que se ha desarrollado y el caso continuo. Para ello es pertinente
presentar pimero una versión para este último caso de la ecuación 3.14, es decir, una
0 0
formula que represente la densidad condicional de X1 dado X0 , esta es,
Z
f 0 0
X1 |X0 (x1 | x0 ) = fX 0 |Y 0 (x1 | y) fY 0 |X 0 (y | x0 ) dy.
1 1 1 0
Una vez hecha esta precisión, nuestro interés recae sobre tratar de describir una
k
matriz análoga a Ax|x , es decir, la matriz de transición de k−pasos. Teniendo
presente que X o Y pueden ser continuas, entonces el elemento buscado es “una
matriz de transición infinita ”. Cuyas entradas satisfacen la siguiente ecuación:
Z
fX 0 |X 0 (x | x0 ) = fX 0 |X 0 (x | t) fX 0 (t | x0 ) dt, (3.19)
k 0 k k−1 k−1 |X0
Por ultimo vale la pena mencionar que la ecuación 3.19 representa la versión continua
3.16, ası́ que la densidad fX 0 |X 0 representa una transición de un solo paso, y las
k k−1
otras dos densidades hacen referencia a fk y fk−1 . También en [5] se describe que
cuando k → ∞ se deduce que el punto estacionario de (3.19) es la densidad marginal
de X, la densidad para la cual fX 0 |X 0 converge.
k k−1
donde fXY (x, y) es la densidad conjunta desconocida, pero sabemos que fXY (x, y) =
fX|Y (x | y) fY (y), se deduce que
Z
fX (x) = fX|Y (x|y) fY (y) dy, (3.20)
R
ahora reemplazando fY (y) = fY |X (y|t) fX (t) dt, en 3.20 tenemos que
Z Z
fX (x) = fX|Y (x|y) fY |X (y|t) fX (t) dtdy
Z Z
= fX|Y (x|y) fY |X (y|t) dy fX (t) dt (3.21)
| {z }
h(x,t)
Z
= h (x, t) fX (t) dt.
3.4. Evaluación de P n
Sea P la matriz de transición para una cadena de Markov con k estados. Supongamos
que los autovalores de P son distintos entre sı́. Además la ecuación
0 0
P x = λx y y P = λy
k
X
Pn = λnj Aj ,
j=1
0 0
dado que yj xj = 1 y Aj definido como xj yj . Sin embargo en [2], también se considera
0
el caso donde no se ajusta la condición yj xj = 1 sino yj xj = cj , con el fin de obtener
k
X
n
P = c−1 n
j λj Aj .
j=1
38
APÉNDICE
Códigos en R
x<-c()
y<-c(0.4) ##Valor inicial para la sucesión de Gibbs##
##Algoritmo del Muestreador de Gibbs##
for(i in 1:100000){
x[i] <- rbinom(1,10,y[i])
y[i+1] <-rbeta(1,x[i]+2,15-x[i])
}
###Sucesión de Gibbs####
datos<-table(x)/100000
39
CÓDIGOS EN R 40
x<-c()
y<-c(0.4) ##Valor inicial para la sucesión de Gibbs##
##Algoritmo del Muestreador de Gibbs##
for(i in 1:100000){
x[i] <- rbinom(1,10,y[i])
y[i+1] <-rbeta(1,x[i]+2,15-x[i])
}
x<-c()
y<-c(2) ##Valor inicial para la sucesión de Gibbs##
##Algoritmo del Muestreador de Gibbs##
for(i in 1:200000){
x[i] <- rbinom(1,10-y[i],0.3/(1-0.2))
y[i+1] <-rbinom(1,10-x[i],0.2/(1-0.3))
}
###Sucesión de Gibbs####
datos2<-table(x)/200000
#### Evaluando la distribución Binomial #######
db <- function(x){
choose(10,x)*((0.3)^(x))*((0.7)^(10-x))
CÓDIGOS EN R 41
}
l<-db(0:10)
x<-c()
y<-c(2) ##Valor inicial para la sucesión de Gibbs##
##Algoritmo del Muestreador de Gibbs##
for(i in 1:200000){
x[i] <- rbinom(1,10-y[i],0.3/(1-0.2))
y[i+1] <-rbinom(1,10-x[i],0.2/(1-0.3))
}
#### Evaluando la distribución Binomial #######
db <- function(x){
choose(10,x)*((0.3)^(x))*((0.7)^(10-x))
}
l<-db(0:10)
###Cuadrado de bondad de ajuste####
frecb <- as.vector(table(x))/200000
estad_chi <- sum((frecb-l)^2/l)
pvalor <- p_valor<- pchisq(estad_chi,10,lower.tail=FALSE)
Código Ejemplo 1
install.packages("Matrix",dependencies=TRUE)
install.packages("expm",dependencies=TRUE)
#################################
#Distribución conjunta trinomial#
#################################
trinomial<- function(x,y,n,p,q){
if(x+y<=n)
(factorial(n)/(factorial(x)*factorial(y)*factorial(n-x-y)))
*p^x*q^y*(1-p-q)^(n-x-y)
else 0 }
#################################
#Matriz probabilidades trinomial#
#################################
conjunta <- function(n,p,q){
T <- matrix(nrow=n+1,ncol=n+1)
for(i in 0:n){
for(j in 0:n){
T[i+1,j+1] <- trinomial(i,j,n,p,q)
CÓDIGOS EN R 42
}
}
print(T)}
########################################################
#Obtención de la matriz de probabilidades de transición#
########################################################
##########
#Conjunta#
##########
fxy <- conjunta(3,0.5,0.3)
###############
#Marginal de x#
###############
fx <- apply(fxy,2,sum)
###############
#Marginal de y#
###############
fy <- apply(fxy,1,sum)
###################################################
#Marginal de X a partir de la matriz de transición#
###################################################
Ayx <- t(fxy)/fx
Axy <- fxy/fy
Ax <- Ayx%*%Axy
PAx<- Ax %^% 21
###################################################
#Marginal de Y a partir de la matriz de transición#
###################################################
Ay <- Axy%*%Ayx
PAy <- Ay %^% 21
Bibliografı́a
43