Introduccion Al Procesos Estocastics
Introduccion Al Procesos Estocastics
Introduccion Al Procesos Estocastics
PROCESOS ESTOCÁSTICOS
En el estudio de las variables aleatorias realizado hasta ahora se han explorado las car-
acterísticas aleatorias del fenómeno pero se ha mantenido una premisa por defecto, que esas
características aleatorias permanecen constantes a través del tiempo. Al incluir en el estu-
dio la presencia de la variable determinística tiempo se está considerando que, de alguna
forma, la variable aleatoria depende del tiempo. En otras palabras, la variable aleatoria
dependerá del fenómeno probabilístico y del tiempo. En consecuencia, cualquier función que
se establezca en términos de la variable aleatoria, como lo son la función de distribución o
la función de densidad, serán también dependientes del tiempo.
Uno de los objetivos de este capítulo es construir un modelo que nos permita explicar la
estructura y preveer la evolución, al menos a corto plazo, de una variable que observamos
a lo largo del tiempo. La variable observada puede ser económica (I.P.C., demanda de un
producto, existencias en un determinado almacén, etc...), física (temperatura de un proceso,
velocidad del viento en una central eólica, concentración en la atmósfera de un contaminante,
etc..) o social (número de nacimientos, votos de un determinado partido, etc..). Supondremos
a lo largo del tema que los datos se obtienen en intervalos regulares de tiempo (horas, días,
años,..) y el objetivo es utilizar la posible ”inercia” en el comportamiento de la serie con el
fin preveer su evolución futura. Así, una serie temporal será una sucesión de valores de una
variable obtenidos de manera secuencial durante el tiempo.
1
en la que se representa para cada t la función de densidad correspondiente a Xt . Aunque
en la figura se han representado unas funciones de densidad variables, un proceso estocás-
tico no tiene por que presentar esas diferencias en la función de densidad a lo largo del
tiempo. Como más adelante se comentará presentan un especial interés aquellos procesos
cuyo comportamiento se mantiene constante a lo largo de t.
A los posibles valores que puede tomar la variable aleatoria se le denominaran estados,
por lo que se puede tener un espacio de estados discreto y un espacio de estados continuo.
Por otro lado, la variable tiempo puede ser de tipo discreto o de tipo continuo. En el caso del
tiempo discreto se podría tomar como ejemplo que los cambios de estado ocurran cada día,
cada mes, cada año, etc.. En el caso del tiempo continuo, los cambios de estado se podrían
realizar en cualquier instante.
Por tanto, dependiendo de cómo sea el conjunto de subíndices T y el tipo de variable
aleatoria dado por Xt se puede establecer la siguiente clasificación de los procesos estocásti-
cos:
• Si por el contrario T es discreto, por ejemplo N, diremos que nos encontramos frente a
un proceso estocástico de parámetro discreto.
t Discreto t Continuo
Proceso de estado discreto
Proceso de estado discreto
y tiempo discreto (Cadena)
X Discreta y tiempo continuo ( Proc. Saltos Puros)
(Unidades producidas mensualmente
(Unidades producidas hasta el instante t)
de un producto)
Proceso de estado continuo Proceso de estado continuo
y tiempo discreto y tiempo continuo (Proceso Continuo)
X Continua
(Toneladas de producción diaria de (Velocidad de un vehículo en
un producto) el instante t)
2
operación’ con el valor 1, la siguiente figura muestra una posible secuencia de cambios de
estado a través del tiempo para esa máquina.
Para el caso de los Procesos de Saltos Puros se puede considerar como un ejemplo una
señal telegráfica. Sólo hay dos posibles estados (por ejemplo 1 y -1) pero la oportunidad
del cambio de estado se da en cualquier instante en el tiempo, es decir, el instante del cambio
de estado es aleatorio. La siguiente figura muestra una señal telegráfica.
3
5.2. Procesos de Estado Discreto.
En el caso de procesos estocásticos con espacio de estados discreto, una secuencia de variables
que indique el valor del proceso en instantes sucesivos suele representarse de la siguiente
manera:
{X0 = x0 , X1 = x1 , ..., Xn−1 = xn−1 , Xn = xn }
en la que cada variable Xi , i = 0, ..., n, tiene una distribución de probabilidades que, en
general, es distinta de las otras variables aunque podrían tener características comunes.
El principal interés del estudio a realizar en el caso discreto es el cálculo de probabilidades
de ocupación de cada estado a partir de las probabilidades de cambio de estado. Si en el
instante n − 1 se está en el estado xn−1 , ¿con qué probabilidad se estará en el estado xn en
el instante siguiente n?. Esta probabilidad de denotará como:
Nótese que esta probabilidad depende de toda la historia pasada del proceso, mientras
que la probabilidad de transición depende únicamente del estado actual que ocupe el proceso.
Propiedad de Markov: Se dice que un proceso cumple la propiedad de Markov cuando
toda la historia pasada del proceso se puede resumir en la posición actual que ocupa el proceso
para poder calcular la probabilidad de cambiar a otro estado, es decir, se cumple la propiedad
siguiente:
Una propiedad interesante que puede tener una Cadena es que los valores pij (n) no de-
pendan del valor de n. Es decir, las probabilidades de cambiar de estado son las mismas
en cualquier instante. Esta propiedad indica que las probabilidades de transición son esta-
cionarias.
Cadenas de Markov
Considere un equipo de computación el cual será revisado al inicio de cada día para verificar
si está operativo o si está dañado. El diagrama de estados de la siguiente figura muestra
los dos posibles estados del proceso y las relaciones que se deben cumplir para pasar de un
4
estado al otro. Así, con probabilidad PO-D se pasa del estado operativo al estado dañado;
ésta es una probabilidad de transición o de cambio de estado. En el caso de que el valor
de la probabilidad anterior no cambie a través del tiempo y, esto se repite para todas las
probabilidades involucradas en la figura, se dice que la Cadena es estacionaria.
Si en un día cualquiera el ordenador está dañado al comenzar el día, sólo puede ocurrir
una de dos cosas para el inicio del siguiente día: que siga dañado (con probabilidad PD-
D) o que haya sido reparado en ese día (con probabilidad PD-O). Por otro lado, si en un
día cualquiera el ordenador está funcionando correctamente al comenzar el día, sólo puede
ocurrir una de dos cosas para el inicio del siguiente día: que se dañe (con probabilidad PO-
D) o que se mantenga operativo (con probabilidad PO-O). Estos son los únicos eventos que
pueden ocurrir.
Si se define una variable aleatoria Xn como el estado del ordenador al inicio del día n,
se podrían asignar los valores 0 y 1 a los posibles estados ’dañado’ u ’operativo’, respectiva-
mente.
Otra pregunta de interés es, ¿con qué probabilidad el estado del computador en el día n
es ’operativo’ ?; ésta es una probabilidad de ocupación de estado. Esa probabilidad se denota
como P (Xn = 1) o también πn (1). De igual forma, la probabilidad, por ejemplo, de que el
computador esté dañado en la primera oportunidad de ser observado será π0 (0).
Utilizando la nomenclatura descrita anteriormente, se puede escribir:
P (Xn+1 = 1/Xn = 0) = p ⇒ P (Xn+1 = 0/Xn = 0) = 1 − p
P (Xn+1 = 0/Xn = 1) = q ⇒ P (Xn+1 = 1/Xn = 1) = 1 − q
Estos datos se podrían resumir en una matriz que se llama matriz de probabilidades de
transición o matriz de transición de estados.
µ ¶ µ ¶
P (Xn+1 = 0/Xn = 0) P (Xn+1 = 1/Xn = 0) 1−p p
Pn = =
P (Xn+1 = 0/Xn = 1) P (Xn+1 = 1/Xn = 1) q 1−q
En general, consideremos una cadena de Markov con k estados posibles s1 , s2 , ..., sk y
probabilidades estacionarias. Para i = 1, 2, 3, ..., k y j = 1, 2, 3, ..., k, denotaremos por pij
a la probabilidad condicionada de que el proceso esté en el estado sj en un determinado
momento si estuvo en el estado si en el momento inmediatamente anterior. Entonces la
matriz de transición de la cadena de Markov se define como una matriz cuadrada
k × k de la siguiente forma:
⎛ ⎞
p11 p12 · · · p1k
⎜ p21 p22 · · · p2k ⎟
⎜ ⎟
P = ⎜ .. .. .. ⎟
⎝ . . . ⎠
pk1 pk2 · · · pkk
5
El elemento en la fila i, columna j, pij = P (Xn = sj /Xn−1 = si ), representa la probabil-
idad de transición de un paso.
El usar esta representación en forma matricial nos facilita el cómputo de las probabili-
dades de transición en más de un paso. En general P × P = P2 corresponde a las probabili-
dades de transición en dos pasos, y P3 , P4 , ..., Pm , ... corresponden a las probabilidades de
transición en 3, 4, ..., m pasos respectivamente. De hecho, la matriz Pm se conoce como la
matriz de transición en m pasos de la cadena de Markov.
Distribución Inicial de la Cadena.
En ocasiones no se conoce a ciencia cierta la ubicación del proceso en el instante inicial.
Esta ocupación podría presentarse en forma probabilística como un vector de ocupación
inicial π 0 . Este vector tiene como componentes la probabilidad de ocupar cada uno de los
estados en el instante inicial, es decir, los términos π0 (j), para cada estado j = 1, 2, ..., k.
π0 = (π0 (1), π0 (2), π0 (3), ..., π0 (k))
con:
X
k
π0 (j) ≥ 0, π0 (j) = 1
j=1
6
Procesos de Saltos Puros
En este caso, el proceso sigue siendo discreto en estados pero la gran diferencia es que
los cambios de estado ocurren en cualquier instante en el tiempo (tiempo continuo). Hemos
apuntado anteriormente que un ejemplo típico de procesos de saltos puros es la señal telegrá-
fica.
Otros ejemplos de procesos de saltos puros son los siguientes:
1. N(0) = 0
2. N(t1 ) − N(t0 ), N(t2 ) − N(t1 ), ..., N(tn ) − N(tn−1 ) son variables aleatorias inde-
pendientes (proceso de incrementos independientes).
3. N(t + s) − N(s) (”No de sucesos que ocurren entre el instante s y el instante t + s)
sigue una distribución de Poisson de parámetro λt.
El proceso de Poisson se utiliza basicamente para modelar los llamados procesos de colas.
En ellos se pueden incluir muchos procesos: coches que llegan al peaje de una autopista,
clientes que llegan a un banco, peticiones que llegan a un servidor de Internet, llamadas que
pasan por una centralita, etc.
Consideremos, por ejemplo, el caso de un servidor de Internet. Queremos estudiar las
peticiones que va recibiendo este servidor. Podemos suponer que las peticiones llegan de
una en una. Si llamamos N(t) al número de peticiones que ha recibido el servidor hasta el
instante t, encontramos que una posible realizacion de este proceso sera del tipo:
7
donde S(1) indica el instante en que llega la primera petición, S(2) indica el instante en
que llega la segunda y, en general, S(i) indica el instante en que llega la i-ésima. Éste es un
ejemplo de un proceso que se puede representar utilizando el proceso de Poisson.
Tiene algunas características fundamentales:
• Para cada instante t, N(t) seguirá una distribución de Poisson de parámetro λt.
• Las diferencias entre los tiempos de llegadas consecutivas siguen una distribución expo-
nencial de parámetro λ, es decir, S(i + 1) − S(i) siguen una exponencial de parámetro
λ.
8
Por tanto, una realización de un proceso estocástico es una sucesión de infinitos valores de
una cierta variable a lo largo del tiempo. Si t tiene una consideración continua obtendremos
una representación continua , mientras que si t es discreto obtendremos una sucesión de
puntos.
Si recordamos la definición de serie temporal que dimos en la introducción, ”una serie
temporal será una sucesión de valores de una variable obtenidos de manera secuencial durante
el tiempo”, la única diferencia que hay entre ellas radica en que la realización consta de
infinitos elementos y la serie temporal de un número limitado. Así, desde el punto de vista
de los procesos estocásticos, diremos que
Por tanto, la teoría de los procesos estocásticos será de aplicación a las series temporales.
No obstante, nos encontraremos con una fuerte restricción que radica en el hecho de que en
muchas series temporales, ellas son la única realización observable del proceso estocástico
que las ha generado (por ejemplo, la serie de turistas que visitan España mes a mes, o la
unidades producidas diariamente en una factoría, etc.). Esto, en general nos colocará, cuando
queramos deducir las características del proceso a partir de las de la serie, en una situación
hasta cierto punto similar a la que tendríamos al intentar describir la composición de una
urna en base a una única bola extraída. Tal problema, que parece insalvable, requerirá que
apliquemos una serie de restricciones e hipótesis al tipo de proceso que queramos analizar.
9
Definición: Llamaremos función de medias del proceso a una función de t que proporciona
las medias de las distribuciones marginales para cada instante t
µt = E(Xt )
Definición: Llamaremos función de varianzas del proceso a una función de t que propor-
ciona las varianzas de las distribuciones marginales para cada instante t
σt2 = V ar(Xt )
y por último,
En general, estas dos últimas funciones dependen de dos parámetros (dos instantes).
Una condición de estabilidad que aparece en muchos fenómenos es que la dependencia sólo
dependa, valga la redundancia, de la ”distancia” entre ellos y no del instante considerado.
En estos casos tendremos:
Por otro lado, si estudiamos casos concretos como la evolución de las ventas de una
empresa o la concentración de un contaminante, sólo disponemos de una única realización
y aunque el proceso estocástico exista, al menos conceptualmente, para poder estimar las
características ”transversales” del proceso (medias, varianzas, etc..) a partir de la serie es
necesario suponer que estas permanecen ”estables” a lo largo de t. Esta idea nos conduce a
lo que se entiende por condiciones de estacionariedad de un proceso estocástico (o de una
serie temporal).
10
En la práctica del análisis de series encontraremos series con problemas de estacionariedad
que afecten a cualquiera de sus parámetros básicos, siendo los que más suelen afectar al pro-
ceso de análisis las inconstancias en media y varianza. En las siguientes figuras se muestran
dos ejemplos de series no estacionarias, la primera en media y la segunda en varianza.
Esta condición resulta bastante restrictiva y por consiguiente se adoptan otras un poco
más ”débiles”
1. µt = µ
2. σt2 = σ 2
3. Cov(t, t + j) = Cov(s, s + j) = γj j = 0, ±1, ±2, ...
Nota.-
En algunos libros este tipo de estacionariedad recibe el nombre de estacionariedad en
sentido amplio o estacionariedad de segundo orden. Por otro lado si sólo exigimos que la
función de medias sea constante se dirá que el proceso es estacionario de primer orden
o en media. Por último, indicar que la estacionariedad en sentido débil no garantiza la
estacionariedad, ahora bien bajo la suposición de normalidad de las variables si se verifica
esta igualdad.
11
Es inmediato probar que si un proceso es estacionario en sentido débil la función de
autocorrelación viene dada por:
γj γj
ρj = = 2
γ0 σ
Obviamente esta función es simétrica (ρj = ρ−j ) y sólo dependerá de la distancia o
retardo entre los instantes de tiempo o también llamado ”decalaje” . Así:
Definición: Se denomina función de autocorrelación simple (acf) a dicha función:
γj γj
ρj = = 2
γ0 σ
y la representación gráfica en forma de diagrama de barras de sus valores recibe el
nombre de correlograma.
Observar que el correlograma, tal y como se ha definido, sólo tiene sentido para series
estacionarias.
12
Modelos Auto-Regresivos de orden p, AR(p).
Al tratar de representar la influencia que hechos pasados tienen sobre el presente (y
en consecuencia sobre el futuro) de un proceso estocástico, podemos considerar diferentes
expresiones alternativas. Una de ellas consiste en colocar el valor actual del proceso como
dependiente de modo lineal de valores pasados del propio proceso, más una perturbación
aleatoria, que supondremos normalmente distribuida, que evite que el modelo sea
determinista:
B Xt = Xt−1 ⇒ B k Xt = Xt−k
y por tanto, un proceso autorregresivo puede expresarse en la forma:
εt = (1 − a1 B − a2 B 2 − ... − ap B p )Xt
Consideremos la expresión autorregresiva antes definida. En principio, no hay nada que
nos limite el número de periodos del pasado que influyen en el valor actual del proceso, sin
embargo tal planteamiento (probablemente cierto en términos teóricos) provoca problemas
no justificables por las ventajas prácticas obtenidas: el hecho de tener que estimar infinitos
coeficientes de regresión no se justifica cuando en la práctica se observa que sólo los periodos
más recientes tienen influencia significativa en el valor actual del proceso. Con ello, la
expresión anterior se trunca, dejando el valor actual dependiente de los últimos p valores del
proceso, más una perturbación aleatoria:
εt = (1 − a1 B − a2 B 2 − ... − ap B p )Xt
Un proceso de estas características se denomina proceso autorregresivo de orden p AR(p).
Si denotamos por ap (B) = 1−a1 B −a2 B 2 −...−ap B p , al llamado polinomio característico del
proceso obtenemos, el siguiente resultado que nos garantiza la estacionariedad del proceso.
13
Proposición: La condición necesaria y suficiente para que un proceso AR(p) sea esta-
cionario es que las raíces de su polinomio característico estén fuera del círculo unidad
del plano complejo.
E(Xt Xt−j ) = a1 E(Xt−1 Xt−j ) + a2 E(Xt−2 Xt−j ) + ... + ap E(Xt−p Xt−j ) + E(εt Xt−j ) (3)
γ0 = a1 γ1 + a2 γ2 + ... + ap γp + σε2
puesto que al ser E(εt εt−j ) = 0 para j > 0 se tiene (sin mas que aplicar de manera recursiva
(2)) E(εt Xt−j ) = σε2 . Por otro lado, dividiendo en (3) por γ0 es fácil probar que la función
de autocorrelación asociada al proceso debe verificar la misma ecuación en diferencias:
ρ1 = a1 + a2 ρ1 + ... + ap ρp−1
ρj = a1 ρ1 + a2 ρ2 ... + ap ρp−2
llamando:
14
el sistema anterior se escribe matricialmente:
ρ = R · a ⇒ a = R−1 · ρ
por consiguiente, los valores de los parámetros a se pueden obtener una vez estimada la
matriz de autocorrelaciones de orden p.
Veamos que el modelo de Yule-Walker nos da estimadores óptimos según mínimos cuadra-
dos de los coeficientes ak a partir de un conjunto términos observados de la serie. Así, si
consideramos un proceso AR(p):
a partir de n valores observados de la serie, x1 , x2 , ..., xn , los residuos et vendrán dados por:
Si denotamos por:
X
n
ρ̂k−j = ρ̂j−k = xi−k xi−j
i=1
que se corresponden con las ecuaciones de Yule-Walker donde se ha sustituido las correla-
ciones teóricas por sus estimaciones.
15
Sin embargo, en un AR(2) además del efecto de Xt−2 que se transmite a Xt , a través de
Xt−1 , existe un efecto directo de Xt−2 , sobre Xt , Podemos escribir:
p q
AR(2) : Xt−3 → Xt−2 → Xt−1 → Xt
b c
La función de autocorrelación simple tiene sólo en cuenta que Xt , y Xt−2 están rela-
cionadas en ambos casos, pero si medimos la relación directa entre Xt y Xt−2 , esto es,
eliminando del efecto total debido a Xt−1 , encontraremos que para un AR(1) este efecto es
nulo y para un AR(2) no.
En general, un AR(p) presenta efectos directos de observaciones separadas por 1, 2,
..., p retardos y los efectos directos de las p + 1, ... son nulos. Esta idea es la clave
para la utilización de la función de autocorrelación parcial, entendiendo el coeficiente de
autocorrelación parcial de orden k como una medida de la relación lineal entre observaciones
separadas k períodos con independencia de los valores intermedios. Llamaremos función de
autocorrelación parcial (fap) a la representación de los coeficientes de correlación parcial en
función del retardo. De esta definición se deduce que un proceso AR(p) tendrá los p primeros
coeficientes de autocorrelación parcial distintos de cero, y por tanto, en la f ap el número
de coeficientes ”significativamente” distintos de cero indica el orden del proceso AR. Esta
propiedad va a ser clave para identificar el orden de un proceso autorregresivo.
16