Clase 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 28

Capı́tulo 3

Variables aleatorias discretas

33
34 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

3.1. Motivación

Los espacios de muestreo que consideramos en el capı́tulo 2 podı́an ser cualquier cosa. Por
ejemplo, {cara, ceca}, {rojo, verde, azul}, {Juan, Pedro, Pablo}, {1, 2, 3, 4, 5, 6} son posibles
espacios de muestreo. Sin embargo, sólo el último de estos ejemplos contiene números que
pueden sumarse o multiplicarse entre sı́. De hecho, ese es también el único ejemplo en el cual
los elementos del espacio de muestreo se ordenan de una manera obvia. Para poder avanzar
con la teorı́a de las probabilidades, vamos a necesitar espacios que puedan ordenarse, de forma
que sea posible definir eventos en términos de ese ordenamiento. También vamos a necesitar
hacer operaciones matemáticas con los elementos del espacio de muestreo. Estas necesidades
nos llevan a definir el concepto de variable aleatoria, que se introduce en la próxima sección,
para después derivar el concepto de distribución acumulada. Luego, mostramos cómo calcular
valores medios de variables aleatorias, y algunas de sus propiedades. Por último, hacia el final
de la clase, nos familiarizamos con algunas de las distribuciones de probabilidad que aparecen
con frecuencia: La uniforme, la de Bernoulli, la binomial, la geométrica, la Poissoniana y la
distribución de Benford. Es importante entender en qué situación aparece cada una, y por qué.
También es importante gobernar los trucos matemáticos que tı́picamente aparecen cuando se
manipula cada una de estas distribuciones. Estos ejemplos constituirán las herramientas con las
cuales analizaremos situaciones más complicadas, más adelante.

3.2. Variables aleatorias y distribución acumulada

Definición: Una variable aleatoria es una función X : M → R que a cada elemento del
espacio de muestreo le asigna un número real. El mapeo puede o no ser inyectivo.

Comentario: Lo interesante de los números reales, es que son un conjunto ordenado. Cuando el
espacio de muestreo también está ordenado, tı́picamente se trabaja con mapeos X que preservan
el orden. Si el espacio de muestreo es además numérico, la función X se suele tomar igual a
3.2. VARIABLES ALEATORIAS Y DISTRIBUCIÓN ACUMULADA 35

Figura 3.1. Mapeo entre los elementos del espacio de muestreo y números de la recta real.

la identidad. En estos casos, no resulta evidente qué se gana introduciendo la función X. La


noción de variable aleatoria se vuelve indispensable cuando el espacio de muestreo carece de
un orden natural. Otra propiedad interesante de los números reales es que en ellos hay definidas
operaciones de suma y multiplicación. Esto permite el cálculo de valores medios, desviaciones
estándar y otras cantidades similares asociadas a las variables aleatorias, que no tienen por qué
estar definidas en el espacio de muestreo.

Comentario: Diremos que el alfabeto AX de una variable aleatoria es el conjunto de las imáge-
nes que se obtienen de aplicar X a cada elemento del alfabeto del espacio de eventos.

Definición: Dada una variable aleatoria X y un número real a, definimos el evento “X = a”


como el conjunto de elementos del espacio de muestreo que son mapeados en a a través de X.
Es decir,
el evento “X = a” es el conjunto {mi ∈ M/X(mi ) = a}.

Definición: Dada una variable aleatoria X y un número real a, definimos el evento X ≤ a como
el conjunto de elementos del espacio de muestreo que son mapeados en números reales menores
o iguales que a a través de X. Es decir,

el evento “X ≤ a” es el conjunto {mi ∈ M/X(mi ) ≤ a}.

Comentario: De manera análoga se definen eventos para las relaciones “ ≥ ”, “ < ” y “ > ”.
36 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

Definición: Dada una variable aleatoria X y dos números reales a y b, definimos el evento X ∈
[a, b] como el conjunto de elementos del espacio de muestreo que son mapeados en números
reales en el intervalo [a, b] a través de X. Es decir,

el evento “X ∈ [a, b]” es el conjunto {mi ∈ M/X(mi ) ∈ [a, b]}.

Comentario: De manera análoga se definen eventos sobre intervalos cuyos extremos pueden ser
abiertos o cerrados: (a, b), (a, b], ó [a, b).

Notación: Utilizaremos letras mayúsculas X, Y, Z, . . . para denotar variables aleatorias, y letras


minúsculas para elementos del codominio del mapeo que define la variable aleatoria. Las pro-
babilidades, que están definidas sobre eventos, se escribirán como P (X = a) o P (X ≤ a). A
veces, para simplificar la notación, cuando el contexto deje en claro de qué estamos hablando,
acortaremos P (X = a) ↔ PX (a) ↔ P (a).

Definición: Dada una variable aleatoria X y una distribución de probabilidad P , definimos la


distribución acumulada o también distribución cumulativa

F (a) = P (X ≤ a).

Comentario: La distribución acumulada sólo puede definirse sobre un conjunto ordenado, ya


que la definición contiene el sı́mbolo ≤. Este requerimiento justifica la introducción del con-
cepto de variable aleatoria a través del mapeo X.

Comentario: En la práctica veremos que P (X > a) = 1 − F (a).

Comentario: En la práctica veremos que la distribución acumulada es una función creciente de


su argumento.

Proposición: Conocida la distribución acumulada, es posible obener la probabilidad de interva-


3.3. VALORES MEDIOS 37

los de la forma (a, b], dado que (Fig. 3.2)

P (X ∈ (a, b]) = F (b) − F (a).

Para demostrar esta afirmación, observamos que podemos descomponer el evento X ∈ (a, b]

Figura 3.2. Eventos X ≤ a y X ≤ b, para a < b.

como la intersección de X ≤ b y X > a. Por ende,

P (X ∈ (a, b]) = P [(X ≤ b) ∩ (X > a)]


= P [(X ≤ b) ∩ (X ≤ a)], y usando el problema 10e del capı́tulo 2,
= P (X ≤ b) + P (X ≤ a) − P [(X ≤ b) ∪ (X ≤ a)]
= P (X ≤ b) + P (X ≤ a) − P [X ∈ (−∞, +∞)]
= P (X ≤ b) + P (X ≤ a) − 1
= P (X ≤ b) − P (X ≤ a)
= F (b) − F (a).

Es decir, si conocemos F (a1 ) y F (a2 ), con a1 < a2 , podemos calcular P (X ∈ (a1 , a2 ]) =


P [(X ≤ a2 ) − (X < a1 )]

3.3. Valores medios

Definición: Dada una variable aleatoria X con distribución P (x), el valor medio de la variable
es
X
hXi = x P (x). (3.1)
x∈AX
38 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

Definición: Dada una variable aleatoria X con distribución P (x) y una función arbitraria h :
R → R, el valor medio de la función es
X
hh(X)i = h(x) P (x).
x∈AX

Definición: En el caso particular en que la función h sea un polinomio de la forma h(x) =


(x − x0 )n , se denomina a su valor medio momento n-ésimo centrado en x0
X
h(X − x0 )n i = (x − x0 )n P (x).
x∈AX

Cuando no se especifica el valor de x0 , tı́picamente se está pensando en momentos centrados en


x0 = 0.

Definición: Dada una variable aleatoria X con distribución P (x), su varianza es

Var(X) = hX 2 i − hXi2 .

Definición: Dada una variable aleatoria X con distribución P (x), su desviación estándar es
p p
Sd(X) = Var(X) = hX 2 i − hXi2 .

Notación: Utilizaremos los brackets h·i para denotar los valores medios (incluidos los momen-
tos) aquı́ definidos.

Comentario: Los valores medios requieren sumar, multiplicar y dividir, por lo que solo pueden
calcularse en experimentos aleatorios que toman valores numéricos, o en variables aleatorias.

Comentario: Los valores medios son propiedades de la distribución de probabilidad, y no de


una medición en particular. Es importante advertir que el valor medio de una distribución
es un concepto distinto del promedio de un conjunto de datos. Dado un conjunto de datos
3.3. VALORES MEDIOS 39

{X1 = x1 , . . . , Xn = xn } obtenidos muestreando una variable aleatoria n veces, la media de


la muestra se define como el promedio de los valores medidos. Al ser un promedio de variables
aleatorias, la media de la muestra es también una variable aleatoria. En cambio, el valor medio
de una distribución de probabilidad no es una variable aleatoria: dada la distribución, la media
se obtiene de la Ec. 3.1. No hay nada estocástico en esa cuenta. Por una cuestión de fluctua-
ciones, la muestra tı́picamente contiene algunos valores que son mayores que el valor medio
de la distribución de probabilidad, y otros que son menores. Al promediar todos esos valores,
las fluctuaciones hacia arriba suelen cancelarse parcialmente con las fluctuaciones hacia abajo.
Pero no hay ninguna garantı́a de que la cancelación sea exacta, sobre todo, si la muestra es pe-
queña, por lo cual, el promedio de la muestra tı́picamente difiere de la media de la distribución
de probabilidad. Como veremos más adelante, si vale la ley de los grandes números, cuando el
número de muestras tiende a infinito, la media de la muestra tiende al valor medio de la distribu-
ción de probabilidad1 . Más adelante también describiremos ese paso al lı́mite, y analizaremos
con qué grado de certeza es posible aproximar el valor medio de la distribución de probabilidad
promediando n valores muestreados.

Proposición: Si conocemos todos los momentos de una distribución de probabilidad, podemos


calcular el valor medio de cualquier función analı́tica2 de la variable aleatoria. Para demostrarlo,
consideramos la expansión en serie de Taylor3 de la función en cuestión
* +∞ +
X X j  dj h(y) 
hh(X)i =
j=0
j! dy j y=0
+∞
1 dj h(y)
X  
= j
hX j i.
j=0
j! dy y=0

Esta propiedad implica que, si conocemos todos los hX j i, es posible conocer hh(X)i para
1
Esta afirmación requiere contar con una noción de convergencia en el ámbito de las variables aleatorias.
Explı́citamente: la distribución de probabilidad de la media de la muestra tiende a una delta centrada en el valor
medio, es decir, a una distribución cada vez más concentrada en el valor medio (la delta de Dirac se discute en el
capı́tulo 6).
2
Una función analı́tica es aquella que puede expresarse como una serie de potencias convergente.
3
Aprovechamos la ocasión para rendir un sentido homenaje al pobre Maclaurin, que si bien raramente es men-
cionado, tuvo un rol importante en la invención del concepto de desarrollos en series de potencias. Larga vida a
Maclaurin.
40 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

cualquier h expandible en serie de Taylor, aún sin conocer la distribución de probabilidad P (x).

En esta derivación, intercambiamos el orden de la suma involucrada en el promedio h·i y


la suma infinita de la serie de Taylor. Como la primera suma es finita, este procedimiento está
justificado. Cuando pasemos al caso de variables continuas, tendremos que tener más cuidado
con este paso.

Cuando los momentos están centrados en x0 , la derivación vale mutatis mutandis4 para
desarrollos en serie alrededor de x0 .

3.4. Ejemplos de distribuciones discretas

A continuación, discutimos algunas de las las distribuciones de probabilidad que aparecen


con mayor frecuencia. En cada caso, es importante identificar el tipo de simetrı́as que dan ori-
gen a la distribución estudiada. Además, para ir desarrollando cierta capacidad operativa, nos
familiarizamos con las operaciones algebraicas que permiten calcular valores medios con cada
una de las distribuciones. Por eso, en cada caso verificamos que la distribución está normalizada
- obviamente lo está - y calculamos el valor medio. De paso, identificamos truquillos que vale
la pena incorporar a nuestro portafolio de recursos calculı́sticos.

3.4.1. Distribución uniforme

Si una variable aleatoria X toma valores en un alfabeto AX = {a1 , . . . , an } y el problema


es completamente simétrico respecto de los distintos ai , desde un enfoque Bayesiano, debe ser
P (X = ai ) = P (X = aj ) para todo par de ı́ndices i y j. La simetrı́a del problema implica que
4
“Mutatis mutandis” significa “cambiando lo que haya que cambiar”. Y ahora pueden ir a cancherear por ahı́,
y agrandarse de que saben latı́n. En Probabilidad somos re cultes
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 41

A B
P(X ) F() 1
1/6
1/6 {

a a a a a a
1 2 3 4 5 6
 a a a a a a
1 2 3 4 5 6

Figura 3.3. A: Distribución de probabilidad uniforme, para el caso en que el cardinal de AX


vale 6 (por ejemplo, un dado no cargado). B: Distribución acumulada asociada.

no existe motivo por el cual el grado de certeza sobre el resultado de una medición pueda variar
con el resultado. Este tipo de razonamiento ilustra que, aún si las probabilidades representan
grados de certeza (un concepto subjetivo) la asignación de valores debe de todas formas basarse
en criterios racionales. Por lo tanto, en un problema que tiene simetrı́a, no es lı́cito trabajar con
una distribución que no sea uniforme. Por normalización (ver problema 10f del capı́tulo 2),
debe entonces ser

P (X = ai ) = 1/n, ∀i ∈ {1, . . . , n}.

Es inmediato ver que esta distribución de probabilidad está normalizada.

3.4.2. Distribución de Bernoulli

Dada una variable aleatoria X binaria, que toma valores en un alfabeto AX = {x1 , x2 }, su
distribución es

q si x = x1 ,
P (X = x) = (3.2)
1 − q si x = x2 ,

para algún valor del parámetro q. Esta distribución representa cualquier proceso binario (por
ejemplo, arrojar una moneda).
42 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

A B
P(x) F(x) 1
P(x2) {
P(x1)
{
x1 x2 x1 x2

Figura 3.4. A: Distribución de probabilidad de Bernoulli para un proceso binario donde el


resultado x1 es más probable que x2 . B: Distribución acumulada asociada.

Verifiquemos que la probabilidad está normalizada:


2
X
P (X = xi ) = q + (1 − q) = 1.
i=1

El valor del parámetro q depende del caso. Cuando q = 1/2, la distribución de Bernoulli es
uniforme, y representa un alfabeto simétrico (tal es el caso usual de las monedas, al menos,
de aquellas que suponemos no cargadas). En una situación genérica donde los dos resultados
x1 y x2 no son simétricos, se tiene q 6= 1/2. A veces, es posible deducir cuánto vale q redu-
ciendo el proceso a sub-procesos más elementales con simetrı́a de intercambio. Consideremos
por ejemplo el caso de una urna que contiene 10 pelotas, 3 de las cuales son negras, y el resto
blancas. Se mete la mano en la urna, y se extrae una pelota. Supongamos que X representa el
color de la pelota extraı́da. Para deducir el valor de q, analizamos un proceso más elemental,
y simétrico. Numeramos las pelotas del 1 al 10, de forma que las tres primeras son negras, y
las últimas siete son blancas. Definimos Y como el número de la pelota extraı́da, con alfabe-
to {1, 2, . . . , 10}. Una vez que conocemos el valor de Y , el valor de X queda completamente
determinado; decimos entonces que X es función de Y (figura 3.5)

negra si Y ∈ {1, 2, 3},
X(Y ) =
blanca si Y ∈ {4, 5, 6, 7, 8, 9, 10}.

Por simetrı́a, debe ser


P (y) = 1/10 ∀y.
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 43

Figura 3.5. Relación entre X e Y .

El objetivo es deducir P (X) a partir de P (Y ). Este problema involucra un cambio de varia-


bles, que es un tema que describiremos en el capı́tulo 7 con todo detalle. Por ahora, y a tı́tulo
ilustrativo, anticipamos que
X
P (X = x) = P (Y = y),
y∈Cx

donde Cx = {y ∈ {1, . . . , 10}/X(y) = x} es el conjunto de todas las pelotas que se correspon-


den con el color x. Es decir,

Cnegra = {1, 2, 3},


Cblanca = {4, 5, 6, 7, 8, 9, 10}.

Por ende

P (X = negra) = 3/10,
P (X = blanca) = 7/10.
44 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

3.4.3. Distribución binomial

Tomamos n muestras independientes del proceso de Bernoulli gobernado por la probabili-


dad de la Ec. 3.2, y evaluamos la probabilidad de que en k de las n muestras el resultado sea
X = x1 . La variable aleatoria K toma valores enteros entre 0 (si ninguna de las n mediciones
da x1 ) y n (si todas las mediciones dan x1 ). Si algunas mediciones dan x1 y otras x2 , existen
diversos ordenamientos posibles de los resultados. Consideremos inicialmente un ordenamiento
particular, por ejemplo, que en las primeras k muestras obtenemos el valor x1 y en las últimas
n − k, el valor x2 . Como suponemos muestreos independientes, la probabilidad de tal cadena de
eventos es q k (1 − q)n−k . El problema original, sin embargo, no impone un ordenamiento, por
lo que tenemos que considerar todas las cadenas que puedan obtenerse como permutación de
x1 x1 x1 x2 x2 x2 x2 x2 x2 x2 . La probabilidad de tales cadenas es siempre la misma, porque variar el
orden de los factores q y (1 − q) no afecta el producto total. El número de cadenas permutadas
es n!/k!(n − k)! Los distintos ordenamientos constituyen resultados disjuntos de la secuencia
de n mediciones, por ende, la probabilidad total es la suma de las probabilidades asociadas a
cada permutación. Es decir,
n!
P (k) = q k (1 − q)n−k .
k!(n − k)!
En la Fig. 3.6 vemos un ejemplo de distribución binomial para n = 10 y q = 1/3, con la
correspondiente acumulada. La probabilidad alcanza su valor máximo para k = 3, y decae a

A B

P(k) F(k)

k k
Figura 3.6. A: Distribución de probabilidad binomial para n = 10 y q = 1/3. B: Distribución
acumulada.

medida que nos alejamos de este valor. En la práctica veremos que en general, la distribución
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 45

binomial se maximiza cuando k es igual al entero más cercano de nq.

Verifiquemos que la distribución binomial está normalizada. Para ello, sumemos la probabilidad
de todos los valores posibles de k.
n n
X X n!
P (k) = q k (1 − q)n−k
k=0 k=0
k!(n − k)!
= [q + (1 − q)]n
= 1,
donde utilizamos la fórmula del binomio de Newton
r
r
X r!
(a + b) = a` br−` .
`=0
`!(r − `)!
Los cálculos que involucran a la binomial suelen requerir la fórmula del binomio de Newton.

La media de la distribución Binomial vale


Xn
hKi = k P (k)
k=0
n
X n!
= k q k (1 − q)n−k
k=0
k!(n − k)!
n
X n!
= q k (1 − q)n−k
k=1
(k − 1)!(n − k)!
n−1
X n!
= q `+1 (1 − q)n−(`+1)
`=0
`![n − (` + 1)]!
n−1
X (n − 1)!
= nq q ` (1 − q)n−1−`
`=0
`![(n − 1) − `]!
= nq.
En este cálculo, observando que el término k = 0 se anula, reordenando factores, y utilizando el
cambio de ı́ndices ` = k−1, logramos llevar la expresión dentro de la sumatoria a un binomio de
Newton que suma 1. En general, el cálculo de momentos de la binomial requiere ingeniárselas
para recuperar un binomio de Newton que sume 1.
46 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

3.4.4. Distribución geométrica

Muestreamos un proceso de Bernoulli (por ejemplo, arrojando una moneda) y definimos la


variable aleatoria K como el número de muestras necesarias para obtener el resultado x1 (por
ejemplo cara) por primera vez. El valor mı́nimo es 1, y se obtiene cuando x1 sale en la primera
muestra. El valor máximo no está acotado, ya que en principio, siempre es posible tener tanta
mala suerte, que cualquier número finito de muestras no contenga ningún x1 .

Si el resultado de la medición vale k, entonces en las k − 1 muestras precedentes no salió x1 . La


probabilidad de obtener x2 un número k − 1 de veces, e inmediatamente después obtener x1 es

P (k) = (1 − q)k−1 q.

En este caso, no hay que considerar las permutaciones, ya que el muestreo se interrumpe con el
primer resultado X = x1 , es decir, la cadena debe estar ordenada.

En la Fig. 3.7 vemos la distribución geométrica para q = 1/2, y la acumulada asociada. La dis-
A B C
-1/ln(1 - q)

)
k

)
Pk

(
(

k k q

Figura 3.7. A: Distribución de probabilidad geométrica para q = 1/2. B: Distribución acu-


mulada. C: Constante de decaimiento de la distribución exponencial de (A) en función de la
probabilidad q.

tribución geométrica decrece monótonamente con k, y tiende a cero exponencialmente, cuando


k → ∞. La constante caracterı́stica del decaimiento exponencial es λ = −1/ ln(1 − q), ya
que la probabilidad puede reescribirse como P (k) = q exp(−k/λ)/(1 − q). En la Fig. 3.7C se
muestra la dependencia de esta constante con el parámetro q. Cuando q es pequeño, la proba-
bilidad de obtener x1 es chica, y es de esperarse que se requieran numerosas mediciones para
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 47

obtener el primer x1 . Por ende, la probabilidad de tener k muestras decrece lentamente con k, y
es de esperarse que, de tanto en tanto, k tome valores grandes. Por el contrario, cuando q → 1,
es muy probable medir x1 , la distribución cae rápidamente, y k prácticamente nunca alcanza
valores grandes.

Verificamos que la distribución geométrica está normalizada.

+∞
X +∞
X
P (k) = p (1 − p)k−1
k=1 k=1
+∞
X
= p (1 − p)`
`=0
p
= = 1,
1 − (1 − p)

donde utilizamos la fórmula de la serie geométrica

+∞
X 1
a` = , si |a| < 1. (3.3)
`=0
1−a

Haciendo honor a su nombre, muchas veces el cálculo de cantidades que involucran a la distri-
bución geométrica requiere fórmulas asociadas a la serie geométrica. En ciertas aplicaciones,
puede ser útil tener también presente la fórmula que se obtiene de sumar un número finito de
términos de la serie geométrica

r−1
X 1 − ar
a` = .
`=0
1−a
48 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

Calculemos el valor medio de la distribución geométrica


+∞
X
hKi = k P (k)
k=1
+∞
X
= q k (1 − q)k−1
k=1
+∞
X
= q k (1 − q)k−1
k=0
+∞
!
d X k
= q λ
dλ k=0
λ=1−q
 
d −1
= q (1 − λ)
dλ λ=1−q
−2
 
= q (1 − λ) λ=1−q
= q (1 − (1 − q))−2
 

1
= , (3.4)
q
P+∞
donde intercambiamos la derivada con la suma infinita porque la serie k=0 λk converge uni-
formemente para λ ∈ [0, 1). Introdujimos la derivada para poder llevar la suma a la forma
de la serie geométrica (Ec. 3.3). El cálculo de valores medios con la distribución geométrica
tı́picamente involucra la presencia de tales derivadas. Como q ∈ [0, 1], el resultado indica que
hKi ≥ 1. Cuando q → 1 en valor medio se requiere una única muestra, ya que con certeza
obtendremos x1 . Cuando q → 0, con certeza obtenemos x2 , y el número medio de muestras
diverge.

3.4.5. Distribución Poissoniana

Consideremos un proceso binario que en cada intervalo de tiempo puede dar como resultado 0
ó 1. Entendemos el resultado 0 como “no pasó nada”, y el resultado 1, como que algo ocurrió.
Ejemplos posibles son
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 49

- Estamos en la parada de colectivo, y evaluamos minuto a minuto si llega el colectivo (1)


o no (0).

- Tenemos un detector delante de una muestra de 1 g de material radioactivo que emite


partı́culas a una tasa media de 1 partı́cula por hora por gramo de material, y evaluamos
segundo a segundo si llega alguna partı́cula al detector (1), o si no llega nada (0).

- Salimos a caminar por la plaza y evaluamos minuto a minuto si nos cae caca de paloma
en la cabeza (1) o no (0).

Partimos de la base que el evento que estamos evaluando tiene una tasa media de ocurrencia
λ. Por tasa entendemos una probabilidad por unidad de tiempo. Consideramos un intervalo de
duración t, y lo dividimos en n pequeños intervalos de duración dt (Fig. 3.8). La probabilidad

dt

Figura 3.8. El intervalo de duración t está compuesto por n intervalitos de duración dt.

de que el evento ocurra en un dado intervalito dt es λdt. Suponemos que la ocurrencia o no del
evento en un dado intervalo de tiempo es independiente de la ocurrencia o no a otros intervalos.
La probabilidad de que en k de los n intervalos suceda el evento es la binomial
n!
P (k) = (λdt)k (1 − λdt)n−k . (3.5)
k!(n − k)!
Queremos ver cómo se comporta esta probabilidad en el lı́mite de dt → 0. Para ello, notamos
que n = t/dt. Por lo tanto, la probabilidad que nos interesa es
(t/dt)!
P (k) = (λdt)k (1 − λdt)t/dt−k .
k!(t/dt − k)!
El paso al lı́mite es más sencillo si trabajamos con el logaritmo de la probabilidad. Es decir

ln P (k) = ln [(t/dt)!] − ln(k!) − ln[(t/dt − k)!] + k ln(λdt) + (t/dt − k) ln(1 − λdt).


50 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

Utilizando la aproximación de Stirling

ln(x!) ≈ x ln(x) − x, si x  1,

para x = t/dt  1, obtenemos que

ln P (k) ≈ (t/dt) ln (t/dt) − t/dt − ln(k!) − (t/dt − k) ln(t/dt − k) + (t/dt − k)


+k ln(λdt) + (t/dt − k) ln(1 − λdt). (3.6)

A primer orden en la expansión en serie de Taylor, ln(1 + ) ≈ . Aproximando los términos


cuarto y séptimo

ln(t/dt − k) = ln[(t/dt)(1 − kdt/t)]


= ln(t/dt) + ln(1 − kdt/t)
≈ ln(t/dt) − kdt/t
ln(1 − λdt) ≈ −λdt

Reemplazando en la Ec. 3.6

ln P (k) ≈ (t/dt) ln (t/dt) − t/dt − ln(k!) − (t/dt − k) ln(t/dt) +


+k − k 2 dt/t + (t/dt − k) + k ln(λdt) − (t/dt − k)λdt
(( (
≈ ( −  − ln(k!) − (t/dt) (
(t/dt)
(((ln((t/dt)
( t/dt

(((( ln(t/dt)
(( + k ln(t/dt) +
k − k 2 dt/t + 
+ −
t/dt
 k + k ln(λdt) − (t/dt − k)λdt
≈ − ln(k!) + k ln(λt) − λt + k(λ − k)dt,

Tomando la exponencial en ambos lados de la igualdad,

(λt)k −λt+k(λ−k)dt
P (k) ≈ e .
k!
Finalmente, en el lı́mite dt → 0,

Qk
Poiss(k) = lı́m P (k) = e−Q , (3.7)
dt→0 k!
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 51

donde definimos el parámetro


Q = λt.
La ecuación 3.7 define la distribución de Poisson, también llamada la Poissoniana. El parámetro
Q es adimensional, por ser el producto del tiempo t por la tasa λ, que es una probabilidad por
unidad de tiempo. Por ende, Q es el número de eventos que esperamos en el intervalo t. En la
Fig. 3.9 vemos la distribución de probabilidad y la acumulada para Q = 5. Para k grande, la

A B
Poiss(k)

F(k)

k k
Figura 3.9. A: Distribución de Poisson para Q = 5. B: Distribución acumulada.

distribución de Poisson decrece rápidamente, ya que el factorial del denominador supera a la


crecida exponencial del numerador.

Para derivar la distribución de Poisson, dividimos al intervalo grande en n intervalos pequeños


(Fig. 3.8), y asignamos una probabilidad λdt al suceso en cada sub-intervalo. Hay varios su-
puestos implı́citos en esta construcción:

1. Que el evento suceda o no suceda en un intervalo es independiente de que suceda o


no suceda en otros intervalos. En la mayor parte de los procesos, esta condición es una
idealización. En el ejemplo de los colectivos, por ejemplo, ciertamente no se cumple.
Si llega un colectivo a una parada, el proceso de frenado, permanencia en la parada, y
arranque, modifica la dinámica de otros colectivos que puedan llegar o pasar por la parada.
En el caso del detector de partı́culas, por citar otro ejemplo, muchas veces el proceso de
detección tiene un perı́odo refractario que, después de la detección de una partı́cula, deja
al detector inerte por un pequeño intervalo de tiempo.
52 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

2. Los sub-intervalos pueden hacerse arbitrariamente pequeños. El suceso, por ende, debe
alojarse sobre un conjunto continuo, que puede subdividirse infinitamente. El tiempo y
el espacio son posibles tales conjuntos—al menos, en la concepción usual de tiempo
y espacio. En estos casos, hablamos de sucesos que se caracterizan por una densidad
temporal o espacial. Pueden haber otros espacios que alberguen procesos Poissonianos
(por ejemplo, la longitud de onda λ de un fotón, la masa de una partı́cula que incide sobre
un detector, etc.), pero deben ser siempre espacios continuos, infinitamente divisibles. Por
ejemplo, el espacio de códigos postales no es continuo, como tampoco es el de genes, o
letras del alfabeto.

3. La probabilidad del suceso en cada sub-intervalo escala linealmente con la longitud del
intervalo. Es decir, si el intervalo crece, la probabilidad de tener eventos aumenta pro-
porcionalmente—al menos, para intervalos pequeños. No basta que, como requiere la
condición anterior, el espacio sea infinitamente divisible. También es importante que el
evento muestree la continuidad del espacio. Si el evento medido siempre cae en el mismo
número con precisión infinita, entonces la continuidad del espacio es irrelevante. Por
ejemplo, si fabrico bolitas de plastilina, y luego las peso, puedo preguntarme sobre la
probabilidad de que la bolita medida caiga en un intervalo dado de masas. Las bolitas no
son todas iguales, entonces si ampliamos el intervalo de interés, aumenta la probabilidad
de alojar más bolitas. Pero si en vez de pesar bolitas de plastilina pesamos electrones, las
masas obtenidas son todas iguales5 .

4. En la derivación también supusimos que en cada intervalo, el suceso puede ocurrir o no


ocurrir. No puede ocurrir parcialmente, y tampoco puede ocurrir más de una vez—o si
lo hace, solo nos interesa que ocurrió, sin importar el número de veces. Si se cumplen
las condiciones 1 y 2, entonces la probabilidad de que el evento suceda n veces en un
sub-intervalo es (λdt)n , que para todo n > 1, se hace despreciable frente a λdt, en el
lı́mite dt → 0. Por ende, los eventos múltiples pueden ser descartados.
5
Salvo, por supuesto, que la medición contenga errores de medición, en cuyo caso, las fluctuaciones no se
deben a variaciones en los objetos medidos, sino a variaciones en el equipo experimental, que no es el proceso que
estamos describiendo. Uno deberı́a hacer una teorı́a para los electrones, y otra para el equipo.
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 53

5. Por último, en la derivación supusimos que la probabilidad de que un evento suceda en el


itervalo i−ésimo es independiente de i. Esta condición puede no cumplirse si el conjunto
que aloja al proceso no es homogéneo. En el caso de los colectivos, podrı́a ocurrir que la
tasa λ de colectivos por hora depende de la hora del dı́a. En tal caso, la probabilidad de
tener un evento en el intervalo [τ, τ + dt] debe escribirse como λ(τ )dt. La binomial de la
Ec. 3.5 se transforma en
" # ( )
n! Y Y
P (k) = λ(τi )dt [1 − λ(τi )dt] ,
k!(n − k)! i∈I i∈I
/

donde I = {i1 , . . . , ik } es el conjunto de ı́ndices de los intervalos en los que ocurrió un


evento. Con un razonamiento en todo análogo al empleado arriba, se llega a la misma
distribución de Poisson de la Ec. 3.7, con la diferencia de que ahora definimos
Z t
Q= λ(τ ) dτ.
0

Esta definición de Q se reduce a la anterior, cuando λ es constante.

Verifiquemos que la Poissoniana está normalizada.


+∞ +∞
X X Qk
Poiss (k) = e−Q
k=0 k=0
k!
+∞
−Q
X Qk
= e
k=0
k!
−Q Q
= e e
= 1,

donde empleamos el desarrollo en serie de Taylor de la exponencial


+∞ `
X x
= ex .
`=0
`!

El cálculo de valores medios que involucran la distribución poissoniana muchas veces requiere
de la expansión de la exponencial.
54 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

Calculemos el valor medio de la distribución de Poisson.


+∞
X
hKi = k Poiss (k)
k=0
+∞
X Qk
= e−Q k
k=0
k!
+∞
X Qk
= e−Q k
k=1
k!
+∞
−Q
X Qk
= e
k=1
(k − 1)!
+∞
X Q`+1
= e−Q
`=0
`!
+∞
X Q`
= e−Q Q
`=0
`!
−Q Q
= e Qe
= Q, (3.8)

donde introdujimos el cambio de variables ` = k − 1, y manipulamos la sumatoria para obte-


ner la expansión en serie de Taylor de la exponencial. El resultado indica que el parámetro Q
que determina la forma de la distribución es igual al valor medio. A medida que Q crece, la
distribución se va desplazando hacia la derecha.

3.4.6. Distribución de Benford

Simon Newcomb era un astrónomo y matemático aplicado estadounidense-canadiense. Por-


taba una barba importante, como se usaba en la época (piénsese en James Maxwell, o en Karl
Marx, para ponerse en el contexto barbı́stico de aquellos tiempos). Durante su infancia, fue
educado por su padre. A los 16 años, se unió a un médico itinerante que prometió enseñarle
el uso de las hierbas en procesos medicinales. Pero Newcomb se desilusionó de su maestro, y
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 55

considerándolo un charlatán, lo abandonó. Se fue a los Estados Unidos, y trabajó como maestro
y tutor privado. Durante ese tiempo, se educó leyendo los libros a los que tuvo acceso, como por
ejemplo, los Principia de Newton. Trabajó como profesor universitario en una escuela naval, lo
que lo llevó a medir la posición de la luna y los planetas. Viajó a Paris, donde corrigió medi-
ciones astronómicas mal hechas hasta el momento. Luego volvió a los Estados Unidos, midió
constantes astronómicas con la mejor precisión que se tenı́a hasta el momento, entre ellas, la
velocidad de la luz.

En sus investigaciones, observó que las tablas de logaritmos es-


taban más gastadas en las primeras páginas que en las últimas. En
aquella época, cuando uno tenı́a que calcular el logaritmo de un dado
número x, lo primero que hacı́a era escribir el número de la forma
x = a 10k , con 1 ≤ a < 10, y k entero (positivo o negativo). Como
log10 x = log10 a + k, lo único que habı́a que calcular era log10 (a), y
como a estaba acotado entre 1 y 10, alguien se habı́a tomado el trabajo
de calcular muchos logaritmos en ese rango, y tabularlos. Las tablas
de logaritmos eran gruesos libros con pares de números (a, log10 a).
Las buenas tenı́an muchos tomos, frecuentemente con el tomo 1 con-
teniendo los valores de a entre 1 y 2, el tomo 2 entre 2 y 3, etc. Simon
Figura 3.10. Simon
Newcomb, 1835-1909. Newcomb notó que en todas las bibliotecas, el tomo 1 estaba más gas-
tado que el tomo 2, que el tomo 2 estaba más gastado que el tomo 3,
y ası́ siguiendo. Cuanto más avanzado el tomo, más nuevito. Se dio
cuenta de que la gente buscaba el logaritmo de números con primer dı́gito significativo pequeño
con mayor frecuencia que números con primer dı́gito significativo grande. Propuso entonces
que los números no aparecen todos con igual probabilidad. Postuló que aquellos con primer
dı́gito significativo entre n y n + 1 (con n entre 1 y 9) tienen probabilidad (Fig. 3.11)

P (n) = log10 (n + 1) − log10 (n).


56 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

Figura 3.11. A: Distribución de Benford. B: Distribución acumulada.

Frank Benford, un ingeniero eléctrico norteamericano, mostró que


la distribución de probabilidad propuesta por Newcomb se cumplı́a
para muy variadas listas de números. En particular, él la probó con
la longitud de 335 rı́os, 104 constantes fı́sicas, 1800 pesos molecu-
lares, 5000 números encontrados en un libro de matemática, y 308
números encontrados en Reader’s Digest. De hecho, hoy en dı́a suele
utilizarse en sistemas de control fiscal, para ver si la gente que entrega
sus balances inventa los números o no (las listas truchas de números
suelen realizarse con distribuciones uniformes sobre los dı́gitos). Hay
que hacer notar que el resultado de Benford se obtiene para números
que tienen unidades. Por ejemplo, si listamos todos los números del
Figura 3.12. Frank
Benford, 1883-1948. 1 al 1000, la frecuencia de los números con distintas primeras cifras
significativas no está dada por la ley de Benford-Newcomb. La distri-
bución describe listas de longitudes, masas, precios, o cualquier cifra
con unidades. Curiosamente, el resultado no depende de las unidades elegidas. Tampoco depen-
de de si algunos números están escritos en un sistema de unidades, y otros en otras. Es decir, es
lı́cito mezclar números con unidades distintas.

Por el momento, dejaremos este hecho como una curiosidad sin explicación, e invitamos a
quienes tengan ganas, a buscar números por ahı́, y graficar su distribución de primeras cifras.
Más adelante, volveremos sobre este tema, y lo aclararemos.
3.5. DE VUELTA A LAS APUESTAS 57

3.5. De vuelta a las apuestas

¿Tienen una respuestas a las dos preguntas que discutieron Blaise Pascal y Pierre de Fermat,
planteadas en la Sección 1.1? En particular, fı́jense qué pasa con la conveniencia o no de apostar
sobre el resultado del par de dados (apostamos por el doble seis) si el par es tirado 24 o 25 veces.
En cuanto a la pregunta de cómo distribuir el dinero del juego cuando las circunstancias externas
impiden llegar al final, traten de llegar a una expresión cerrada para la repartija, suponiendo que
cada contendiente tiene probabilidad 1/2 de ganar en cada round.
58 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

3.6. Ejercicios

1. Para un espacio de muestreo finito, muestre que

a) la acumulada F (x) es una función creciente de x,

b) P (X > a) = 1 − F (a),

c) F (a → +∞) → 1,

d) F (a → −∞) → 0.

2. Demuestre que cualquiera sea la distribución de probabilidad de X, se cumple que h(X −


hXi)2 i = hX 2 i − hXi2 .

3. Una variable aleatoria X toma valores en un conjunto de n números equiespaciados, con


probabilidad constante. Calcule hXi.

4. Una variable aleatoria X toma valores en un conjunto binario {x1 , x2 }, donde x1 y x2 son
dos números reales. Calcule todos los momentos de X suponiendo que P (X = x1 ) = q.
Calcule la varianza de X.

5. Calcule la varianza de la distribución binomial.

6. En un experimento para verificar si una persona tiene poderes extrasensoriales, un sujeto


debe adivinar el palo de una carta sacada de un mazo (sin comodines). El experimento se
repite 5 veces. ¿Cuál es la probabilidad de adivinar al azar más de la mitad de las veces?

7. La distribución binomial P (k) está definida en un alfabeto de números enteros 0 ≤ k ≤ n.


Para encontrar el valor de k que la maximiza, considere k ∈ R y encuentre el valor de
kmax que anula la derivada dP/dk|kmax . Suponga que tanto k como n son grandes, y
utilice la aproximación de Stirling

lı́m ln(x!) = x ln x − x.
x→∞
3.6. EJERCICIOS 59

8. Cierto dispositivo electrónico tiene 10 componentes y la probabilidad de que alguno falle


es 20 % (las fallas son independientes). Dado que al menos uno falló ¿cuál es la probabi-
lidad de que sean más de uno los que han fallado?

9. Calcule la varianza de la distribución geométrica.

10. Calcule la distribución acumulada de la distribución geométrica.

11. Un comediante callejero entretiene a la gente que pasa por la vereda. Para jugar con él,
hay que pagarle 2 pesos. El juego consiste en que uno tira un dado. Si llamamos n al
número obtenido del dado, se tira una moneda n veces. El comediante le paga al jugador
un peso por cada cara obtenida en esta secuencia de n tiros. Calcule la probabilidad de
que el comediante le devuelva a un jugador k pesos. ¿Cuál es la probabilidad de perder
plata con el comediante?

12. Un comediante callejero entretiene a la gente que pasa por la vereda. Para jugar con él,
hay que pagarle 2 pesos. El juego consiste en que uno tira una moneda el número de veces
n que es necesario para obtener la primera cara. Una vez determinado el valor de n, uno
tira la moneda n veces, y el comediante le paga al jugador un peso por cada cara obtenida
en esta secuencia de n tiros. Calcule la probabilidad de perder plata con el comediante.

13. Calcule la varianza de la distribución de Poisson.

14. Demuestre que la distribución binomial


n!
P (k) = q k (1 − q)n−k
k!(n − k)!
tiende a una distribución de Poisson cuando n → ∞ y q → 0 de tal manera que nq → λ.

15. Derive la expresión de la probabilidad P (k) para un proceso poissoniano en el que la tasa
por unidad de tiempo depende del tiempo, es decir, con una tasa no constante λ(t).

16. Considerando k ∈ R, verifique que la distribución Poissoniana alcanza un máximo local


para k igual a Q, al menos, cuando k es grande (es decir, cuando vale la aproximación de
Stirling).
60 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS

17. Demuestre que la distribución de Benford escrita para números en base b

Pb (n) = logb (n + 1) − logb (n), con n ∈ {1, 2, . . . , b − 1}

está normalizada.

También podría gustarte