Clase 2

Capı́tulo 3
Variables aleatorias discretas
33
34 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
3.1. Motivación
Los espacios de muestreo que consideramos en el capı́tulo 2 podı́an ser cualquier cosa. Por
ejemplo, {cara, ceca}, {rojo, verde, azul}, {Juan, Pedro, Pablo}, {1, 2, 3, 4, 5, 6} son posibles
espacios de muestreo. Sin embargo, sólo el último de estos ejemplos contiene números que
pueden sumarse o multiplicarse entre sı́. De hecho, ese es también el único ejemplo en el cual
los elementos del espacio de muestreo se ordenan de una manera obvia. Para poder avanzar
con la teorı́a de las probabilidades, vamos a necesitar espacios que puedan ordenarse, de forma
que sea posible definir eventos en términos de ese ordenamiento. También vamos a necesitar
hacer operaciones matemáticas con los elementos del espacio de muestreo. Estas necesidades
nos llevan a definir el concepto de variable aleatoria, que se introduce en la próxima sección,
para después derivar el concepto de distribución acumulada. Luego, mostramos cómo calcular
valores medios de variables aleatorias, y algunas de sus propiedades. Por último, hacia el final
de la clase, nos familiarizamos con algunas de las distribuciones de probabilidad que aparecen
con frecuencia: La uniforme, la de Bernoulli, la binomial, la geométrica, la Poissoniana y la
distribución de Benford. Es importante entender en qué situación aparece cada una, y por qué.
También es importante gobernar los trucos matemáticos que tı́picamente aparecen cuando se
manipula cada una de estas distribuciones. Estos ejemplos constituirán las herramientas con las
cuales analizaremos situaciones más complicadas, más adelante.
3.2. Variables aleatorias y distribución acumulada
Definición: Una variable aleatoria es una función X : M → R que a cada elemento del
espacio de muestreo le asigna un número real. El mapeo puede o no ser inyectivo.
Comentario: Lo interesante de los números reales, es que son un conjunto ordenado. Cuando el
espacio de muestreo también está ordenado, tı́picamente se trabaja con mapeos X que preservan
el orden. Si el espacio de muestreo es además numérico, la función X se suele tomar igual a
3.2. VARIABLES ALEATORIAS Y DISTRIBUCIÓN ACUMULADA 35
Figura 3.1. Mapeo entre los elementos del espacio de muestreo y números de la recta real.
la identidad. En estos casos, no resulta evidente qué se gana introduciendo la función X. La

noción de variable aleatoria se vuelve indispensable cuando el espacio de muestreo carece de
un orden natural. Otra propiedad interesante de los números reales es que en ellos hay definidas
operaciones de suma y multiplicación. Esto permite el cálculo de valores medios, desviaciones
estándar y otras cantidades similares asociadas a las variables aleatorias, que no tienen por qué
estar definidas en el espacio de muestreo.
Comentario: Diremos que el alfabeto AX de una variable aleatoria es el conjunto de las imáge-
nes que se obtienen de aplicar X a cada elemento del alfabeto del espacio de eventos.
Definición: Dada una variable aleatoria X y un número real a, definimos el evento “X = a”

como el conjunto de elementos del espacio de muestreo que son mapeados en a a través de X.
Es decir,
el evento “X = a” es el conjunto {mi ∈ M/X(mi ) = a}.
Definición: Dada una variable aleatoria X y un número real a, definimos el evento X ≤ a como
el conjunto de elementos del espacio de muestreo que son mapeados en números reales menores
o iguales que a a través de X. Es decir,
el evento “X ≤ a” es el conjunto {mi ∈ M/X(mi ) ≤ a}.
Comentario: De manera análoga se definen eventos para las relaciones “ ≥ ”, “ < ” y “ > ”.
Definición: Dada una variable aleatoria X y dos números reales a y b, definimos el evento X ∈
[a, b] como el conjunto de elementos del espacio de muestreo que son mapeados en números
reales en el intervalo [a, b] a través de X. Es decir,
el evento “X ∈ [a, b]” es el conjunto {mi ∈ M/X(mi ) ∈ [a, b]}.
Comentario: De manera análoga se definen eventos sobre intervalos cuyos extremos pueden ser
abiertos o cerrados: (a, b), (a, b], ó [a, b).
Notación: Utilizaremos letras mayúsculas X, Y, Z, . . . para denotar variables aleatorias, y letras

minúsculas para elementos del codominio del mapeo que define la variable aleatoria. Las pro-
babilidades, que están definidas sobre eventos, se escribirán como P (X = a) o P (X ≤ a). A
veces, para simplificar la notación, cuando el contexto deje en claro de qué estamos hablando,
acortaremos P (X = a) ↔ PX (a) ↔ P (a).
Definición: Dada una variable aleatoria X y una distribución de probabilidad P , definimos la

distribución acumulada o también distribución cumulativa
F (a) = P (X ≤ a).
Comentario: La distribución acumulada sólo puede definirse sobre un conjunto ordenado, ya

que la definición contiene el sı́mbolo ≤. Este requerimiento justifica la introducción del con-
cepto de variable aleatoria a través del mapeo X.
Comentario: En la práctica veremos que P (X > a) = 1 − F (a).
Comentario: En la práctica veremos que la distribución acumulada es una función creciente de

su argumento.
Proposición: Conocida la distribución acumulada, es posible obener la probabilidad de interva-

3.3. VALORES MEDIOS 37
los de la forma (a, b], dado que (Fig. 3.2)
P (X ∈ (a, b]) = F (b) − F (a).
Para demostrar esta afirmación, observamos que podemos descomponer el evento X ∈ (a, b]
Figura 3.2. Eventos X ≤ a y X ≤ b, para a < b.
como la intersección de X ≤ b y X > a. Por ende,
P (X ∈ (a, b]) = P [(X ≤ b) ∩ (X > a)]

= P [(X ≤ b) ∩ (X ≤ a)], y usando el problema 10e del capı́tulo 2,
= P (X ≤ b) + P (X ≤ a) − P [(X ≤ b) ∪ (X ≤ a)]
= P (X ≤ b) + P (X ≤ a) − P [X ∈ (−∞, +∞)]
= P (X ≤ b) + P (X ≤ a) − 1
= P (X ≤ b) − P (X ≤ a)
= F (b) − F (a).
Es decir, si conocemos F (a1 ) y F (a2 ), con a1 < a2 , podemos calcular P (X ∈ (a1 , a2 ]) =

P [(X ≤ a2 ) − (X < a1 )]
3.3. Valores medios
Definición: Dada una variable aleatoria X con distribución P (x), el valor medio de la variable
es
X
hXi = x P (x). (3.1)
x∈AX
Definición: Dada una variable aleatoria X con distribución P (x) y una función arbitraria h :
R → R, el valor medio de la función es
X
hh(X)i = h(x) P (x).
x∈AX
Definición: En el caso particular en que la función h sea un polinomio de la forma h(x) =

(x − x0 )n , se denomina a su valor medio momento n-ésimo centrado en x0
X
h(X − x0 )n i = (x − x0 )n P (x).
x∈AX
Cuando no se especifica el valor de x0 , tı́picamente se está pensando en momentos centrados en

x0 = 0.
Definición: Dada una variable aleatoria X con distribución P (x), su varianza es
Var(X) = hX 2 i − hXi2 .
Definición: Dada una variable aleatoria X con distribución P (x), su desviación estándar es
p p
Sd(X) = Var(X) = hX 2 i − hXi2 .
Notación: Utilizaremos los brackets h·i para denotar los valores medios (incluidos los momen-
tos) aquı́ definidos.
Comentario: Los valores medios requieren sumar, multiplicar y dividir, por lo que solo pueden
calcularse en experimentos aleatorios que toman valores numéricos, o en variables aleatorias.
Comentario: Los valores medios son propiedades de la distribución de probabilidad, y no de

una medición en particular. Es importante advertir que el valor medio de una distribución
es un concepto distinto del promedio de un conjunto de datos. Dado un conjunto de datos
3.3. VALORES MEDIOS 39
{X1 = x1 , . . . , Xn = xn } obtenidos muestreando una variable aleatoria n veces, la media de

la muestra se define como el promedio de los valores medidos. Al ser un promedio de variables
aleatorias, la media de la muestra es también una variable aleatoria. En cambio, el valor medio
de una distribución de probabilidad no es una variable aleatoria: dada la distribución, la media
se obtiene de la Ec. 3.1. No hay nada estocástico en esa cuenta. Por una cuestión de fluctua-
ciones, la muestra tı́picamente contiene algunos valores que son mayores que el valor medio
de la distribución de probabilidad, y otros que son menores. Al promediar todos esos valores,
las fluctuaciones hacia arriba suelen cancelarse parcialmente con las fluctuaciones hacia abajo.
Pero no hay ninguna garantı́a de que la cancelación sea exacta, sobre todo, si la muestra es pe-
queña, por lo cual, el promedio de la muestra tı́picamente difiere de la media de la distribución
de probabilidad. Como veremos más adelante, si vale la ley de los grandes números, cuando el
número de muestras tiende a infinito, la media de la muestra tiende al valor medio de la distribu-
ción de probabilidad1 . Más adelante también describiremos ese paso al lı́mite, y analizaremos
con qué grado de certeza es posible aproximar el valor medio de la distribución de probabilidad
promediando n valores muestreados.
Proposición: Si conocemos todos los momentos de una distribución de probabilidad, podemos

calcular el valor medio de cualquier función analı́tica2 de la variable aleatoria. Para demostrarlo,
consideramos la expansión en serie de Taylor3 de la función en cuestión
* +∞ +
X X j dj h(y)
hh(X)i =
j=0
j! dy j y=0
+∞
1 dj h(y)
X
= j
hX j i.
j=0
j! dy y=0
Esta propiedad implica que, si conocemos todos los hX j i, es posible conocer hh(X)i para
1
Esta afirmación requiere contar con una noción de convergencia en el ámbito de las variables aleatorias.
Explı́citamente: la distribución de probabilidad de la media de la muestra tiende a una delta centrada en el valor
medio, es decir, a una distribución cada vez más concentrada en el valor medio (la delta de Dirac se discute en el
capı́tulo 6).
2
Una función analı́tica es aquella que puede expresarse como una serie de potencias convergente.
3
Aprovechamos la ocasión para rendir un sentido homenaje al pobre Maclaurin, que si bien raramente es men-
cionado, tuvo un rol importante en la invención del concepto de desarrollos en series de potencias. Larga vida a
Maclaurin.
cualquier h expandible en serie de Taylor, aún sin conocer la distribución de probabilidad P (x).
En esta derivación, intercambiamos el orden de la suma involucrada en el promedio h·i y

la suma infinita de la serie de Taylor. Como la primera suma es finita, este procedimiento está
justificado. Cuando pasemos al caso de variables continuas, tendremos que tener más cuidado
con este paso.
Cuando los momentos están centrados en x0 , la derivación vale mutatis mutandis4 para
desarrollos en serie alrededor de x0 .
3.4. Ejemplos de distribuciones discretas
A continuación, discutimos algunas de las las distribuciones de probabilidad que aparecen

con mayor frecuencia. En cada caso, es importante identificar el tipo de simetrı́as que dan ori-
gen a la distribución estudiada. Además, para ir desarrollando cierta capacidad operativa, nos
familiarizamos con las operaciones algebraicas que permiten calcular valores medios con cada
una de las distribuciones. Por eso, en cada caso verificamos que la distribución está normalizada
- obviamente lo está - y calculamos el valor medio. De paso, identificamos truquillos que vale
la pena incorporar a nuestro portafolio de recursos calculı́sticos.
3.4.1. Distribución uniforme
Si una variable aleatoria X toma valores en un alfabeto AX = {a1 , . . . , an } y el problema

es completamente simétrico respecto de los distintos ai , desde un enfoque Bayesiano, debe ser
P (X = ai ) = P (X = aj ) para todo par de ı́ndices i y j. La simetrı́a del problema implica que
4
“Mutatis mutandis” significa “cambiando lo que haya que cambiar”. Y ahora pueden ir a cancherear por ahı́,
y agrandarse de que saben latı́n. En Probabilidad somos re cultes
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 41
A B
P(X ) F() 1
1/6
1/6 {
a a a a a a
1 2 3 4 5 6
a a a a a a
1 2 3 4 5 6
Figura 3.3. A: Distribución de probabilidad uniforme, para el caso en que el cardinal de AX

vale 6 (por ejemplo, un dado no cargado). B: Distribución acumulada asociada.
no existe motivo por el cual el grado de certeza sobre el resultado de una medición pueda variar
con el resultado. Este tipo de razonamiento ilustra que, aún si las probabilidades representan
grados de certeza (un concepto subjetivo) la asignación de valores debe de todas formas basarse
en criterios racionales. Por lo tanto, en un problema que tiene simetrı́a, no es lı́cito trabajar con
una distribución que no sea uniforme. Por normalización (ver problema 10f del capı́tulo 2),
debe entonces ser
P (X = ai ) = 1/n, ∀i ∈ {1, . . . , n}.
Es inmediato ver que esta distribución de probabilidad está normalizada.
3.4.2. Distribución de Bernoulli
Dada una variable aleatoria X binaria, que toma valores en un alfabeto AX = {x1 , x2 }, su
distribución es

q si x = x1 ,
P (X = x) = (3.2)
1 − q si x = x2 ,
para algún valor del parámetro q. Esta distribución representa cualquier proceso binario (por
ejemplo, arrojar una moneda).
A B
P(x) F(x) 1
P(x2) {
P(x1)
{
x1 x2 x1 x2
Figura 3.4. A: Distribución de probabilidad de Bernoulli para un proceso binario donde el

resultado x1 es más probable que x2 . B: Distribución acumulada asociada.
Verifiquemos que la probabilidad está normalizada:

2
X
P (X = xi ) = q + (1 − q) = 1.
i=1
El valor del parámetro q depende del caso. Cuando q = 1/2, la distribución de Bernoulli es
uniforme, y representa un alfabeto simétrico (tal es el caso usual de las monedas, al menos,
de aquellas que suponemos no cargadas). En una situación genérica donde los dos resultados
x1 y x2 no son simétricos, se tiene q 6= 1/2. A veces, es posible deducir cuánto vale q redu-
ciendo el proceso a sub-procesos más elementales con simetrı́a de intercambio. Consideremos
por ejemplo el caso de una urna que contiene 10 pelotas, 3 de las cuales son negras, y el resto
blancas. Se mete la mano en la urna, y se extrae una pelota. Supongamos que X representa el
color de la pelota extraı́da. Para deducir el valor de q, analizamos un proceso más elemental,
y simétrico. Numeramos las pelotas del 1 al 10, de forma que las tres primeras son negras, y
las últimas siete son blancas. Definimos Y como el número de la pelota extraı́da, con alfabe-
to {1, 2, . . . , 10}. Una vez que conocemos el valor de Y , el valor de X queda completamente
determinado; decimos entonces que X es función de Y (figura 3.5)

negra si Y ∈ {1, 2, 3},
X(Y ) =
blanca si Y ∈ {4, 5, 6, 7, 8, 9, 10}.
Por simetrı́a, debe ser

P (y) = 1/10 ∀y.
Figura 3.5. Relación entre X e Y .
El objetivo es deducir P (X) a partir de P (Y ). Este problema involucra un cambio de varia-

bles, que es un tema que describiremos en el capı́tulo 7 con todo detalle. Por ahora, y a tı́tulo
ilustrativo, anticipamos que
X
P (X = x) = P (Y = y),
y∈Cx
donde Cx = {y ∈ {1, . . . , 10}/X(y) = x} es el conjunto de todas las pelotas que se correspon-

den con el color x. Es decir,
Cnegra = {1, 2, 3},

Cblanca = {4, 5, 6, 7, 8, 9, 10}.
Por ende
P (X = negra) = 3/10,
P (X = blanca) = 7/10.
3.4.3. Distribución binomial
Tomamos n muestras independientes del proceso de Bernoulli gobernado por la probabili-

dad de la Ec. 3.2, y evaluamos la probabilidad de que en k de las n muestras el resultado sea
X = x1 . La variable aleatoria K toma valores enteros entre 0 (si ninguna de las n mediciones
da x1 ) y n (si todas las mediciones dan x1 ). Si algunas mediciones dan x1 y otras x2 , existen
diversos ordenamientos posibles de los resultados. Consideremos inicialmente un ordenamiento
particular, por ejemplo, que en las primeras k muestras obtenemos el valor x1 y en las últimas
n − k, el valor x2 . Como suponemos muestreos independientes, la probabilidad de tal cadena de
eventos es q k (1 − q)n−k . El problema original, sin embargo, no impone un ordenamiento, por
lo que tenemos que considerar todas las cadenas que puedan obtenerse como permutación de
x1 x1 x1 x2 x2 x2 x2 x2 x2 x2 . La probabilidad de tales cadenas es siempre la misma, porque variar el
orden de los factores q y (1 − q) no afecta el producto total. El número de cadenas permutadas
es n!/k!(n − k)! Los distintos ordenamientos constituyen resultados disjuntos de la secuencia
de n mediciones, por ende, la probabilidad total es la suma de las probabilidades asociadas a
cada permutación. Es decir,
n!
P (k) = q k (1 − q)n−k .
k!(n − k)!
En la Fig. 3.6 vemos un ejemplo de distribución binomial para n = 10 y q = 1/3, con la
correspondiente acumulada. La probabilidad alcanza su valor máximo para k = 3, y decae a
A B
P(k) F(k)
k k
Figura 3.6. A: Distribución de probabilidad binomial para n = 10 y q = 1/3. B: Distribución
acumulada.
medida que nos alejamos de este valor. En la práctica veremos que en general, la distribución
binomial se maximiza cuando k es igual al entero más cercano de nq.
Verifiquemos que la distribución binomial está normalizada. Para ello, sumemos la probabilidad
de todos los valores posibles de k.
n n
X X n!
P (k) = q k (1 − q)n−k
k=0 k=0
k!(n − k)!
= [q + (1 − q)]n
= 1,
donde utilizamos la fórmula del binomio de Newton
r
r
X r!
(a + b) = a` br−` .
`=0
`!(r − `)!
Los cálculos que involucran a la binomial suelen requerir la fórmula del binomio de Newton.
La media de la distribución Binomial vale

Xn
hKi = k P (k)
k=0
n
X n!
= k q k (1 − q)n−k
k=0
k!(n − k)!
n
X n!
= q k (1 − q)n−k
k=1
(k − 1)!(n − k)!
n−1
X n!
= q `+1 (1 − q)n−(`+1)
`=0
`![n − (` + 1)]!
n−1
X (n − 1)!
= nq q ` (1 − q)n−1−`
`=0
`![(n − 1) − `]!
= nq.
En este cálculo, observando que el término k = 0 se anula, reordenando factores, y utilizando el
cambio de ı́ndices ` = k−1, logramos llevar la expresión dentro de la sumatoria a un binomio de
Newton que suma 1. En general, el cálculo de momentos de la binomial requiere ingeniárselas
para recuperar un binomio de Newton que sume 1.
3.4.4. Distribución geométrica
Muestreamos un proceso de Bernoulli (por ejemplo, arrojando una moneda) y definimos la

variable aleatoria K como el número de muestras necesarias para obtener el resultado x1 (por
ejemplo cara) por primera vez. El valor mı́nimo es 1, y se obtiene cuando x1 sale en la primera
muestra. El valor máximo no está acotado, ya que en principio, siempre es posible tener tanta
mala suerte, que cualquier número finito de muestras no contenga ningún x1 .
Si el resultado de la medición vale k, entonces en las k − 1 muestras precedentes no salió x1 . La

probabilidad de obtener x2 un número k − 1 de veces, e inmediatamente después obtener x1 es
P (k) = (1 − q)k−1 q.
En este caso, no hay que considerar las permutaciones, ya que el muestreo se interrumpe con el
primer resultado X = x1 , es decir, la cadena debe estar ordenada.
En la Fig. 3.7 vemos la distribución geométrica para q = 1/2, y la acumulada asociada. La dis-
A B C
-1/ln(1 - q)
)
k
)
Pk
(
(
k k q
Figura 3.7. A: Distribución de probabilidad geométrica para q = 1/2. B: Distribución acu-

mulada. C: Constante de decaimiento de la distribución exponencial de (A) en función de la
probabilidad q.
tribución geométrica decrece monótonamente con k, y tiende a cero exponencialmente, cuando

k → ∞. La constante caracterı́stica del decaimiento exponencial es λ = −1/ ln(1 − q), ya
que la probabilidad puede reescribirse como P (k) = q exp(−k/λ)/(1 − q). En la Fig. 3.7C se
muestra la dependencia de esta constante con el parámetro q. Cuando q es pequeño, la proba-
bilidad de obtener x1 es chica, y es de esperarse que se requieran numerosas mediciones para
obtener el primer x1 . Por ende, la probabilidad de tener k muestras decrece lentamente con k, y
es de esperarse que, de tanto en tanto, k tome valores grandes. Por el contrario, cuando q → 1,
es muy probable medir x1 , la distribución cae rápidamente, y k prácticamente nunca alcanza
valores grandes.
Verificamos que la distribución geométrica está normalizada.
+∞
X +∞
X
P (k) = p (1 − p)k−1
k=1 k=1
+∞
X
= p (1 − p)`
`=0
p
= = 1,
1 − (1 − p)
donde utilizamos la fórmula de la serie geométrica
+∞
X 1
a` = , si |a| < 1. (3.3)
`=0
1−a
Haciendo honor a su nombre, muchas veces el cálculo de cantidades que involucran a la distri-
bución geométrica requiere fórmulas asociadas a la serie geométrica. En ciertas aplicaciones,
puede ser útil tener también presente la fórmula que se obtiene de sumar un número finito de
términos de la serie geométrica
r−1
X 1 − ar
a` = .
`=0
1−a
Calculemos el valor medio de la distribución geométrica

+∞
X
hKi = k P (k)
k=1
+∞
X
= q k (1 − q)k−1
k=1
+∞
X
= q k (1 − q)k−1
k=0
+∞
!
d X k
= q λ
dλ k=0
λ=1−q

d −1
= q (1 − λ)
dλ λ=1−q
−2

= q (1 − λ) λ=1−q
= q (1 − (1 − q))−2

1
= , (3.4)
q
P+∞
donde intercambiamos la derivada con la suma infinita porque la serie k=0 λk converge uni-
formemente para λ ∈ [0, 1). Introdujimos la derivada para poder llevar la suma a la forma
de la serie geométrica (Ec. 3.3). El cálculo de valores medios con la distribución geométrica
tı́picamente involucra la presencia de tales derivadas. Como q ∈ [0, 1], el resultado indica que
hKi ≥ 1. Cuando q → 1 en valor medio se requiere una única muestra, ya que con certeza
obtendremos x1 . Cuando q → 0, con certeza obtenemos x2 , y el número medio de muestras
diverge.
3.4.5. Distribución Poissoniana
Consideremos un proceso binario que en cada intervalo de tiempo puede dar como resultado 0
ó 1. Entendemos el resultado 0 como “no pasó nada”, y el resultado 1, como que algo ocurrió.
Ejemplos posibles son
- Estamos en la parada de colectivo, y evaluamos minuto a minuto si llega el colectivo (1)

o no (0).
- Tenemos un detector delante de una muestra de 1 g de material radioactivo que emite

partı́culas a una tasa media de 1 partı́cula por hora por gramo de material, y evaluamos
segundo a segundo si llega alguna partı́cula al detector (1), o si no llega nada (0).
- Salimos a caminar por la plaza y evaluamos minuto a minuto si nos cae caca de paloma
en la cabeza (1) o no (0).
Partimos de la base que el evento que estamos evaluando tiene una tasa media de ocurrencia
λ. Por tasa entendemos una probabilidad por unidad de tiempo. Consideramos un intervalo de
duración t, y lo dividimos en n pequeños intervalos de duración dt (Fig. 3.8). La probabilidad
dt
Figura 3.8. El intervalo de duración t está compuesto por n intervalitos de duración dt.
de que el evento ocurra en un dado intervalito dt es λdt. Suponemos que la ocurrencia o no del
evento en un dado intervalo de tiempo es independiente de la ocurrencia o no a otros intervalos.
La probabilidad de que en k de los n intervalos suceda el evento es la binomial
n!
P (k) = (λdt)k (1 − λdt)n−k . (3.5)
k!(n − k)!
Queremos ver cómo se comporta esta probabilidad en el lı́mite de dt → 0. Para ello, notamos
que n = t/dt. Por lo tanto, la probabilidad que nos interesa es
(t/dt)!
P (k) = (λdt)k (1 − λdt)t/dt−k .
k!(t/dt − k)!
El paso al lı́mite es más sencillo si trabajamos con el logaritmo de la probabilidad. Es decir
ln P (k) = ln [(t/dt)!] − ln(k!) − ln[(t/dt − k)!] + k ln(λdt) + (t/dt − k) ln(1 − λdt).

Utilizando la aproximación de Stirling
ln(x!) ≈ x ln(x) − x, si x 1,
para x = t/dt 1, obtenemos que
ln P (k) ≈ (t/dt) ln (t/dt) − t/dt − ln(k!) − (t/dt − k) ln(t/dt − k) + (t/dt − k)

+k ln(λdt) + (t/dt − k) ln(1 − λdt). (3.6)
A primer orden en la expansión en serie de Taylor, ln(1 + ) ≈ . Aproximando los términos

cuarto y séptimo
ln(t/dt − k) = ln[(t/dt)(1 − kdt/t)]

= ln(t/dt) + ln(1 − kdt/t)
≈ ln(t/dt) − kdt/t
ln(1 − λdt) ≈ −λdt
Reemplazando en la Ec. 3.6
ln P (k) ≈ (t/dt) ln (t/dt) − t/dt − ln(k!) − (t/dt − k) ln(t/dt) +

+k − k 2 dt/t + (t/dt − k) + k ln(λdt) − (t/dt − k)λdt
(( (
≈ ( − − ln(k!) − (t/dt) (
(t/dt)
(((ln((t/dt)
( t/dt

(((( ln(t/dt)
(( + k ln(t/dt) +
k − k 2 dt/t +
+ −
t/dt
k + k ln(λdt) − (t/dt − k)λdt
≈ − ln(k!) + k ln(λt) − λt + k(λ − k)dt,
Tomando la exponencial en ambos lados de la igualdad,
(λt)k −λt+k(λ−k)dt
P (k) ≈ e .
k!
Finalmente, en el lı́mite dt → 0,
Qk
Poiss(k) = lı́m P (k) = e−Q , (3.7)
dt→0 k!
donde definimos el parámetro

Q = λt.
La ecuación 3.7 define la distribución de Poisson, también llamada la Poissoniana. El parámetro
Q es adimensional, por ser el producto del tiempo t por la tasa λ, que es una probabilidad por
unidad de tiempo. Por ende, Q es el número de eventos que esperamos en el intervalo t. En la
Fig. 3.9 vemos la distribución de probabilidad y la acumulada para Q = 5. Para k grande, la
A B
Poiss(k)
F(k)
k k
Figura 3.9. A: Distribución de Poisson para Q = 5. B: Distribución acumulada.
distribución de Poisson decrece rápidamente, ya que el factorial del denominador supera a la

crecida exponencial del numerador.
Para derivar la distribución de Poisson, dividimos al intervalo grande en n intervalos pequeños

(Fig. 3.8), y asignamos una probabilidad λdt al suceso en cada sub-intervalo. Hay varios su-
puestos implı́citos en esta construcción:
1. Que el evento suceda o no suceda en un intervalo es independiente de que suceda o

no suceda en otros intervalos. En la mayor parte de los procesos, esta condición es una
idealización. En el ejemplo de los colectivos, por ejemplo, ciertamente no se cumple.
Si llega un colectivo a una parada, el proceso de frenado, permanencia en la parada, y
arranque, modifica la dinámica de otros colectivos que puedan llegar o pasar por la parada.
En el caso del detector de partı́culas, por citar otro ejemplo, muchas veces el proceso de
detección tiene un perı́odo refractario que, después de la detección de una partı́cula, deja
al detector inerte por un pequeño intervalo de tiempo.
2. Los sub-intervalos pueden hacerse arbitrariamente pequeños. El suceso, por ende, debe
alojarse sobre un conjunto continuo, que puede subdividirse infinitamente. El tiempo y
el espacio son posibles tales conjuntos—al menos, en la concepción usual de tiempo
y espacio. En estos casos, hablamos de sucesos que se caracterizan por una densidad
temporal o espacial. Pueden haber otros espacios que alberguen procesos Poissonianos
(por ejemplo, la longitud de onda λ de un fotón, la masa de una partı́cula que incide sobre
un detector, etc.), pero deben ser siempre espacios continuos, infinitamente divisibles. Por
ejemplo, el espacio de códigos postales no es continuo, como tampoco es el de genes, o
letras del alfabeto.
3. La probabilidad del suceso en cada sub-intervalo escala linealmente con la longitud del
intervalo. Es decir, si el intervalo crece, la probabilidad de tener eventos aumenta pro-
porcionalmente—al menos, para intervalos pequeños. No basta que, como requiere la
condición anterior, el espacio sea infinitamente divisible. También es importante que el
evento muestree la continuidad del espacio. Si el evento medido siempre cae en el mismo
número con precisión infinita, entonces la continuidad del espacio es irrelevante. Por
ejemplo, si fabrico bolitas de plastilina, y luego las peso, puedo preguntarme sobre la
probabilidad de que la bolita medida caiga en un intervalo dado de masas. Las bolitas no
son todas iguales, entonces si ampliamos el intervalo de interés, aumenta la probabilidad
de alojar más bolitas. Pero si en vez de pesar bolitas de plastilina pesamos electrones, las
masas obtenidas son todas iguales5 .
4. En la derivación también supusimos que en cada intervalo, el suceso puede ocurrir o no

ocurrir. No puede ocurrir parcialmente, y tampoco puede ocurrir más de una vez—o si
lo hace, solo nos interesa que ocurrió, sin importar el número de veces. Si se cumplen
las condiciones 1 y 2, entonces la probabilidad de que el evento suceda n veces en un
sub-intervalo es (λdt)n , que para todo n > 1, se hace despreciable frente a λdt, en el
lı́mite dt → 0. Por ende, los eventos múltiples pueden ser descartados.
5
Salvo, por supuesto, que la medición contenga errores de medición, en cuyo caso, las fluctuaciones no se
deben a variaciones en los objetos medidos, sino a variaciones en el equipo experimental, que no es el proceso que
estamos describiendo. Uno deberı́a hacer una teorı́a para los electrones, y otra para el equipo.
5. Por último, en la derivación supusimos que la probabilidad de que un evento suceda en el

itervalo i−ésimo es independiente de i. Esta condición puede no cumplirse si el conjunto
que aloja al proceso no es homogéneo. En el caso de los colectivos, podrı́a ocurrir que la
tasa λ de colectivos por hora depende de la hora del dı́a. En tal caso, la probabilidad de
tener un evento en el intervalo [τ, τ + dt] debe escribirse como λ(τ )dt. La binomial de la
Ec. 3.5 se transforma en
" # ( )
n! Y Y
P (k) = λ(τi )dt [1 − λ(τi )dt] ,
k!(n − k)! i∈I i∈I
/
donde I = {i1 , . . . , ik } es el conjunto de ı́ndices de los intervalos en los que ocurrió un

evento. Con un razonamiento en todo análogo al empleado arriba, se llega a la misma
distribución de Poisson de la Ec. 3.7, con la diferencia de que ahora definimos
Z t
Q= λ(τ ) dτ.
0
Esta definición de Q se reduce a la anterior, cuando λ es constante.
Verifiquemos que la Poissoniana está normalizada.

+∞ +∞
X X Qk
Poiss (k) = e−Q
k=0 k=0
k!
+∞
−Q
X Qk
= e
k=0
k!
−Q Q
= e e
= 1,
donde empleamos el desarrollo en serie de Taylor de la exponencial

+∞ `
X x
= ex .
`=0
`!
El cálculo de valores medios que involucran la distribución poissoniana muchas veces requiere
de la expansión de la exponencial.
Calculemos el valor medio de la distribución de Poisson.

+∞
X
hKi = k Poiss (k)
k=0
+∞
X Qk
= e−Q k
k=0
k!
+∞
X Qk
= e−Q k
k=1
k!
+∞
−Q
X Qk
= e
k=1
(k − 1)!
+∞
X Q`+1
= e−Q
`=0
`!
+∞
X Q`
= e−Q Q
`=0
`!
−Q Q
= e Qe
= Q, (3.8)
donde introdujimos el cambio de variables ` = k − 1, y manipulamos la sumatoria para obte-

ner la expansión en serie de Taylor de la exponencial. El resultado indica que el parámetro Q
que determina la forma de la distribución es igual al valor medio. A medida que Q crece, la
distribución se va desplazando hacia la derecha.
3.4.6. Distribución de Benford
Simon Newcomb era un astrónomo y matemático aplicado estadounidense-canadiense. Por-

taba una barba importante, como se usaba en la época (piénsese en James Maxwell, o en Karl
Marx, para ponerse en el contexto barbı́stico de aquellos tiempos). Durante su infancia, fue
educado por su padre. A los 16 años, se unió a un médico itinerante que prometió enseñarle
el uso de las hierbas en procesos medicinales. Pero Newcomb se desilusionó de su maestro, y
considerándolo un charlatán, lo abandonó. Se fue a los Estados Unidos, y trabajó como maestro
y tutor privado. Durante ese tiempo, se educó leyendo los libros a los que tuvo acceso, como por
ejemplo, los Principia de Newton. Trabajó como profesor universitario en una escuela naval, lo
que lo llevó a medir la posición de la luna y los planetas. Viajó a Paris, donde corrigió medi-
ciones astronómicas mal hechas hasta el momento. Luego volvió a los Estados Unidos, midió
constantes astronómicas con la mejor precisión que se tenı́a hasta el momento, entre ellas, la
velocidad de la luz.
En sus investigaciones, observó que las tablas de logaritmos es-

taban más gastadas en las primeras páginas que en las últimas. En
aquella época, cuando uno tenı́a que calcular el logaritmo de un dado
número x, lo primero que hacı́a era escribir el número de la forma
x = a 10k , con 1 ≤ a < 10, y k entero (positivo o negativo). Como
log10 x = log10 a + k, lo único que habı́a que calcular era log10 (a), y
como a estaba acotado entre 1 y 10, alguien se habı́a tomado el trabajo
de calcular muchos logaritmos en ese rango, y tabularlos. Las tablas
de logaritmos eran gruesos libros con pares de números (a, log10 a).
Las buenas tenı́an muchos tomos, frecuentemente con el tomo 1 con-
teniendo los valores de a entre 1 y 2, el tomo 2 entre 2 y 3, etc. Simon
Figura 3.10. Simon
Newcomb, 1835-1909. Newcomb notó que en todas las bibliotecas, el tomo 1 estaba más gas-
tado que el tomo 2, que el tomo 2 estaba más gastado que el tomo 3,
y ası́ siguiendo. Cuanto más avanzado el tomo, más nuevito. Se dio
cuenta de que la gente buscaba el logaritmo de números con primer dı́gito significativo pequeño
con mayor frecuencia que números con primer dı́gito significativo grande. Propuso entonces
que los números no aparecen todos con igual probabilidad. Postuló que aquellos con primer
dı́gito significativo entre n y n + 1 (con n entre 1 y 9) tienen probabilidad (Fig. 3.11)
P (n) = log10 (n + 1) − log10 (n).

Figura 3.11. A: Distribución de Benford. B: Distribución acumulada.
Frank Benford, un ingeniero eléctrico norteamericano, mostró que

la distribución de probabilidad propuesta por Newcomb se cumplı́a
para muy variadas listas de números. En particular, él la probó con
la longitud de 335 rı́os, 104 constantes fı́sicas, 1800 pesos molecu-
lares, 5000 números encontrados en un libro de matemática, y 308
números encontrados en Reader’s Digest. De hecho, hoy en dı́a suele
utilizarse en sistemas de control fiscal, para ver si la gente que entrega
sus balances inventa los números o no (las listas truchas de números
suelen realizarse con distribuciones uniformes sobre los dı́gitos). Hay
que hacer notar que el resultado de Benford se obtiene para números
que tienen unidades. Por ejemplo, si listamos todos los números del
Figura 3.12. Frank
Benford, 1883-1948. 1 al 1000, la frecuencia de los números con distintas primeras cifras
significativas no está dada por la ley de Benford-Newcomb. La distri-
bución describe listas de longitudes, masas, precios, o cualquier cifra
con unidades. Curiosamente, el resultado no depende de las unidades elegidas. Tampoco depen-
de de si algunos números están escritos en un sistema de unidades, y otros en otras. Es decir, es
lı́cito mezclar números con unidades distintas.
Por el momento, dejaremos este hecho como una curiosidad sin explicación, e invitamos a
quienes tengan ganas, a buscar números por ahı́, y graficar su distribución de primeras cifras.
Más adelante, volveremos sobre este tema, y lo aclararemos.
3.5. DE VUELTA A LAS APUESTAS 57
3.5. De vuelta a las apuestas
¿Tienen una respuestas a las dos preguntas que discutieron Blaise Pascal y Pierre de Fermat,
planteadas en la Sección 1.1? En particular, fı́jense qué pasa con la conveniencia o no de apostar
sobre el resultado del par de dados (apostamos por el doble seis) si el par es tirado 24 o 25 veces.
En cuanto a la pregunta de cómo distribuir el dinero del juego cuando las circunstancias externas
impiden llegar al final, traten de llegar a una expresión cerrada para la repartija, suponiendo que
cada contendiente tiene probabilidad 1/2 de ganar en cada round.
3.6. Ejercicios
1. Para un espacio de muestreo finito, muestre que
a) la acumulada F (x) es una función creciente de x,
b) P (X > a) = 1 − F (a),
c) F (a → +∞) → 1,
d) F (a → −∞) → 0.
2. Demuestre que cualquiera sea la distribución de probabilidad de X, se cumple que h(X −

hXi)2 i = hX 2 i − hXi2 .
3. Una variable aleatoria X toma valores en un conjunto de n números equiespaciados, con

probabilidad constante. Calcule hXi.
4. Una variable aleatoria X toma valores en un conjunto binario {x1 , x2 }, donde x1 y x2 son
dos números reales. Calcule todos los momentos de X suponiendo que P (X = x1 ) = q.
Calcule la varianza de X.
5. Calcule la varianza de la distribución binomial.
6. En un experimento para verificar si una persona tiene poderes extrasensoriales, un sujeto

debe adivinar el palo de una carta sacada de un mazo (sin comodines). El experimento se
repite 5 veces. ¿Cuál es la probabilidad de adivinar al azar más de la mitad de las veces?
7. La distribución binomial P (k) está definida en un alfabeto de números enteros 0 ≤ k ≤ n.

Para encontrar el valor de k que la maximiza, considere k ∈ R y encuentre el valor de
kmax que anula la derivada dP/dk|kmax . Suponga que tanto k como n son grandes, y
utilice la aproximación de Stirling
lı́m ln(x!) = x ln x − x.
x→∞
3.6. EJERCICIOS 59
8. Cierto dispositivo electrónico tiene 10 componentes y la probabilidad de que alguno falle

es 20 % (las fallas son independientes). Dado que al menos uno falló ¿cuál es la probabi-
lidad de que sean más de uno los que han fallado?
9. Calcule la varianza de la distribución geométrica.
10. Calcule la distribución acumulada de la distribución geométrica.
11. Un comediante callejero entretiene a la gente que pasa por la vereda. Para jugar con él,
hay que pagarle 2 pesos. El juego consiste en que uno tira un dado. Si llamamos n al
número obtenido del dado, se tira una moneda n veces. El comediante le paga al jugador
un peso por cada cara obtenida en esta secuencia de n tiros. Calcule la probabilidad de
que el comediante le devuelva a un jugador k pesos. ¿Cuál es la probabilidad de perder
plata con el comediante?
12. Un comediante callejero entretiene a la gente que pasa por la vereda. Para jugar con él,
hay que pagarle 2 pesos. El juego consiste en que uno tira una moneda el número de veces
n que es necesario para obtener la primera cara. Una vez determinado el valor de n, uno
tira la moneda n veces, y el comediante le paga al jugador un peso por cada cara obtenida
en esta secuencia de n tiros. Calcule la probabilidad de perder plata con el comediante.
13. Calcule la varianza de la distribución de Poisson.
14. Demuestre que la distribución binomial

n!
P (k) = q k (1 − q)n−k
k!(n − k)!
tiende a una distribución de Poisson cuando n → ∞ y q → 0 de tal manera que nq → λ.
15. Derive la expresión de la probabilidad P (k) para un proceso poissoniano en el que la tasa
por unidad de tiempo depende del tiempo, es decir, con una tasa no constante λ(t).
16. Considerando k ∈ R, verifique que la distribución Poissoniana alcanza un máximo local

para k igual a Q, al menos, cuando k es grande (es decir, cuando vale la aproximación de
Stirling).
17. Demuestre que la distribución de Benford escrita para números en base b
Pb (n) = logb (n + 1) − logb (n), con n ∈ {1, 2, . . . , b − 1}
está normalizada.

Clase 2

Cargado por

Copyright:

Formatos disponibles

Clase 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 2

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 3

Variables aleatorias discretas

3.2. Variables aleatorias y distribución acumulada

la identidad. En estos casos, no resulta evidente qué se gana introduciendo la función X. La

Definición: Dada una variable aleatoria X y un número real a, definimos el evento “X = a”

el evento “X ≤ a” es el conjunto {mi ∈ M/X(mi ) ≤ a}.

el evento “X ∈ [a, b]” es el conjunto {mi ∈ M/X(mi ) ∈ [a, b]}.

Notación: Utilizaremos letras mayúsculas X, Y, Z, . . . para denotar variables aleatorias, y letras

Definición: Dada una variable aleatoria X y una distribución de probabilidad P , definimos la

Comentario: La distribución acumulada sólo puede definirse sobre un conjunto ordenado, ya

Comentario: En la práctica veremos que P (X > a) = 1 − F (a).

Comentario: En la práctica veremos que la distribución acumulada es una función creciente de

Proposición: Conocida la distribución acumulada, es posible obener la probabilidad de interva-

los de la forma (a, b], dado que (Fig. 3.2)

P (X ∈ (a, b]) = F (b) − F (a).

Figura 3.2. Eventos X ≤ a y X ≤ b, para a < b.

como la intersección de X ≤ b y X > a. Por ende,

P (X ∈ (a, b]) = P [(X ≤ b) ∩ (X > a)]

Es decir, si conocemos F (a1 ) y F (a2 ), con a1 < a2 , podemos calcular P (X ∈ (a1 , a2 ]) =

3.3. Valores medios

Definición: En el caso particular en que la función h sea un polinomio de la forma h(x) =

Cuando no se especifica el valor de x0 , tı́picamente se está pensando en momentos centrados en

Definición: Dada una variable aleatoria X con distribución P (x), su varianza es

Comentario: Los valores medios son propiedades de la distribución de probabilidad, y no de

{X1 = x1 , . . . , Xn = xn } obtenidos muestreando una variable aleatoria n veces, la media de

Proposición: Si conocemos todos los momentos de una distribución de probabilidad, podemos

En esta derivación, intercambiamos el orden de la suma involucrada en el promedio h·i y

3.4. Ejemplos de distribuciones discretas

A continuación, discutimos algunas de las las distribuciones de probabilidad que aparecen

3.4.1. Distribución uniforme

Si una variable aleatoria X toma valores en un alfabeto AX = {a1 , . . . , an } y el problema

Figura 3.3. A: Distribución de probabilidad uniforme, para el caso en que el cardinal de AX

P (X = ai ) = 1/n, ∀i ∈ {1, . . . , n}.

Es inmediato ver que esta distribución de probabilidad está normalizada.

3.4.2. Distribución de Bernoulli

Figura 3.4. A: Distribución de probabilidad de Bernoulli para un proceso binario donde el

Verifiquemos que la probabilidad está normalizada:

Por simetrı́a, debe ser

Figura 3.5. Relación entre X e Y .

El objetivo es deducir P (X) a partir de P (Y ). Este problema involucra un cambio de varia-

donde Cx = {y ∈ {1, . . . , 10}/X(y) = x} es el conjunto de todas las pelotas que se correspon-

Cnegra = {1, 2, 3},

3.4.3. Distribución binomial

Tomamos n muestras independientes del proceso de Bernoulli gobernado por la probabili-

binomial se maximiza cuando k es igual al entero más cercano de nq.

La media de la distribución Binomial vale

3.4.4. Distribución geométrica

Muestreamos un proceso de Bernoulli (por ejemplo, arrojando una moneda) y definimos la

Si el resultado de la medición vale k, entonces en las k − 1 muestras precedentes no salió x1 . La

Figura 3.7. A: Distribución de probabilidad geométrica para q = 1/2. B: Distribución acu-

tribución geométrica decrece monótonamente con k, y tiende a cero exponencialmente, cuando

Verificamos que la distribución geométrica está normalizada.

donde utilizamos la fórmula de la serie geométrica

Calculemos el valor medio de la distribución geométrica

3.4.5. Distribución Poissoniana

- Estamos en la parada de colectivo, y evaluamos minuto a minuto si llega el colectivo (1)

- Tenemos un detector delante de una muestra de 1 g de material radioactivo que emite

ln P (k) = ln [(t/dt)!] − ln(k!) − ln[(t/dt − k)!] + k ln(λdt) + (t/dt − k) ln(1 − λdt).

Utilizando la aproximación de Stirling

para x = t/dt 1, obtenemos que

A primer orden en la expansión en serie de Taylor, ln(1 + ) ≈ . Aproximando los términos