Clase 2
Clase 2
Clase 2
33
34 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
3.1. Motivación
Los espacios de muestreo que consideramos en el capı́tulo 2 podı́an ser cualquier cosa. Por
ejemplo, {cara, ceca}, {rojo, verde, azul}, {Juan, Pedro, Pablo}, {1, 2, 3, 4, 5, 6} son posibles
espacios de muestreo. Sin embargo, sólo el último de estos ejemplos contiene números que
pueden sumarse o multiplicarse entre sı́. De hecho, ese es también el único ejemplo en el cual
los elementos del espacio de muestreo se ordenan de una manera obvia. Para poder avanzar
con la teorı́a de las probabilidades, vamos a necesitar espacios que puedan ordenarse, de forma
que sea posible definir eventos en términos de ese ordenamiento. También vamos a necesitar
hacer operaciones matemáticas con los elementos del espacio de muestreo. Estas necesidades
nos llevan a definir el concepto de variable aleatoria, que se introduce en la próxima sección,
para después derivar el concepto de distribución acumulada. Luego, mostramos cómo calcular
valores medios de variables aleatorias, y algunas de sus propiedades. Por último, hacia el final
de la clase, nos familiarizamos con algunas de las distribuciones de probabilidad que aparecen
con frecuencia: La uniforme, la de Bernoulli, la binomial, la geométrica, la Poissoniana y la
distribución de Benford. Es importante entender en qué situación aparece cada una, y por qué.
También es importante gobernar los trucos matemáticos que tı́picamente aparecen cuando se
manipula cada una de estas distribuciones. Estos ejemplos constituirán las herramientas con las
cuales analizaremos situaciones más complicadas, más adelante.
Definición: Una variable aleatoria es una función X : M → R que a cada elemento del
espacio de muestreo le asigna un número real. El mapeo puede o no ser inyectivo.
Comentario: Lo interesante de los números reales, es que son un conjunto ordenado. Cuando el
espacio de muestreo también está ordenado, tı́picamente se trabaja con mapeos X que preservan
el orden. Si el espacio de muestreo es además numérico, la función X se suele tomar igual a
3.2. VARIABLES ALEATORIAS Y DISTRIBUCIÓN ACUMULADA 35
Figura 3.1. Mapeo entre los elementos del espacio de muestreo y números de la recta real.
Comentario: Diremos que el alfabeto AX de una variable aleatoria es el conjunto de las imáge-
nes que se obtienen de aplicar X a cada elemento del alfabeto del espacio de eventos.
Definición: Dada una variable aleatoria X y un número real a, definimos el evento X ≤ a como
el conjunto de elementos del espacio de muestreo que son mapeados en números reales menores
o iguales que a a través de X. Es decir,
Comentario: De manera análoga se definen eventos para las relaciones “ ≥ ”, “ < ” y “ > ”.
36 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
Definición: Dada una variable aleatoria X y dos números reales a y b, definimos el evento X ∈
[a, b] como el conjunto de elementos del espacio de muestreo que son mapeados en números
reales en el intervalo [a, b] a través de X. Es decir,
Comentario: De manera análoga se definen eventos sobre intervalos cuyos extremos pueden ser
abiertos o cerrados: (a, b), (a, b], ó [a, b).
F (a) = P (X ≤ a).
Para demostrar esta afirmación, observamos que podemos descomponer el evento X ∈ (a, b]
Definición: Dada una variable aleatoria X con distribución P (x), el valor medio de la variable
es
X
hXi = x P (x). (3.1)
x∈AX
38 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
Definición: Dada una variable aleatoria X con distribución P (x) y una función arbitraria h :
R → R, el valor medio de la función es
X
hh(X)i = h(x) P (x).
x∈AX
Var(X) = hX 2 i − hXi2 .
Definición: Dada una variable aleatoria X con distribución P (x), su desviación estándar es
p p
Sd(X) = Var(X) = hX 2 i − hXi2 .
Notación: Utilizaremos los brackets h·i para denotar los valores medios (incluidos los momen-
tos) aquı́ definidos.
Comentario: Los valores medios requieren sumar, multiplicar y dividir, por lo que solo pueden
calcularse en experimentos aleatorios que toman valores numéricos, o en variables aleatorias.
Esta propiedad implica que, si conocemos todos los hX j i, es posible conocer hh(X)i para
1
Esta afirmación requiere contar con una noción de convergencia en el ámbito de las variables aleatorias.
Explı́citamente: la distribución de probabilidad de la media de la muestra tiende a una delta centrada en el valor
medio, es decir, a una distribución cada vez más concentrada en el valor medio (la delta de Dirac se discute en el
capı́tulo 6).
2
Una función analı́tica es aquella que puede expresarse como una serie de potencias convergente.
3
Aprovechamos la ocasión para rendir un sentido homenaje al pobre Maclaurin, que si bien raramente es men-
cionado, tuvo un rol importante en la invención del concepto de desarrollos en series de potencias. Larga vida a
Maclaurin.
40 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
cualquier h expandible en serie de Taylor, aún sin conocer la distribución de probabilidad P (x).
Cuando los momentos están centrados en x0 , la derivación vale mutatis mutandis4 para
desarrollos en serie alrededor de x0 .
A B
P(X ) F() 1
1/6
1/6 {
a a a a a a
1 2 3 4 5 6
a a a a a a
1 2 3 4 5 6
no existe motivo por el cual el grado de certeza sobre el resultado de una medición pueda variar
con el resultado. Este tipo de razonamiento ilustra que, aún si las probabilidades representan
grados de certeza (un concepto subjetivo) la asignación de valores debe de todas formas basarse
en criterios racionales. Por lo tanto, en un problema que tiene simetrı́a, no es lı́cito trabajar con
una distribución que no sea uniforme. Por normalización (ver problema 10f del capı́tulo 2),
debe entonces ser
Dada una variable aleatoria X binaria, que toma valores en un alfabeto AX = {x1 , x2 }, su
distribución es
q si x = x1 ,
P (X = x) = (3.2)
1 − q si x = x2 ,
para algún valor del parámetro q. Esta distribución representa cualquier proceso binario (por
ejemplo, arrojar una moneda).
42 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
A B
P(x) F(x) 1
P(x2) {
P(x1)
{
x1 x2 x1 x2
El valor del parámetro q depende del caso. Cuando q = 1/2, la distribución de Bernoulli es
uniforme, y representa un alfabeto simétrico (tal es el caso usual de las monedas, al menos,
de aquellas que suponemos no cargadas). En una situación genérica donde los dos resultados
x1 y x2 no son simétricos, se tiene q 6= 1/2. A veces, es posible deducir cuánto vale q redu-
ciendo el proceso a sub-procesos más elementales con simetrı́a de intercambio. Consideremos
por ejemplo el caso de una urna que contiene 10 pelotas, 3 de las cuales son negras, y el resto
blancas. Se mete la mano en la urna, y se extrae una pelota. Supongamos que X representa el
color de la pelota extraı́da. Para deducir el valor de q, analizamos un proceso más elemental,
y simétrico. Numeramos las pelotas del 1 al 10, de forma que las tres primeras son negras, y
las últimas siete son blancas. Definimos Y como el número de la pelota extraı́da, con alfabe-
to {1, 2, . . . , 10}. Una vez que conocemos el valor de Y , el valor de X queda completamente
determinado; decimos entonces que X es función de Y (figura 3.5)
negra si Y ∈ {1, 2, 3},
X(Y ) =
blanca si Y ∈ {4, 5, 6, 7, 8, 9, 10}.
Por ende
P (X = negra) = 3/10,
P (X = blanca) = 7/10.
44 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
A B
P(k) F(k)
k k
Figura 3.6. A: Distribución de probabilidad binomial para n = 10 y q = 1/3. B: Distribución
acumulada.
medida que nos alejamos de este valor. En la práctica veremos que en general, la distribución
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 45
Verifiquemos que la distribución binomial está normalizada. Para ello, sumemos la probabilidad
de todos los valores posibles de k.
n n
X X n!
P (k) = q k (1 − q)n−k
k=0 k=0
k!(n − k)!
= [q + (1 − q)]n
= 1,
donde utilizamos la fórmula del binomio de Newton
r
r
X r!
(a + b) = a` br−` .
`=0
`!(r − `)!
Los cálculos que involucran a la binomial suelen requerir la fórmula del binomio de Newton.
P (k) = (1 − q)k−1 q.
En este caso, no hay que considerar las permutaciones, ya que el muestreo se interrumpe con el
primer resultado X = x1 , es decir, la cadena debe estar ordenada.
En la Fig. 3.7 vemos la distribución geométrica para q = 1/2, y la acumulada asociada. La dis-
A B C
-1/ln(1 - q)
)
k
)
Pk
(
(
k k q
obtener el primer x1 . Por ende, la probabilidad de tener k muestras decrece lentamente con k, y
es de esperarse que, de tanto en tanto, k tome valores grandes. Por el contrario, cuando q → 1,
es muy probable medir x1 , la distribución cae rápidamente, y k prácticamente nunca alcanza
valores grandes.
+∞
X +∞
X
P (k) = p (1 − p)k−1
k=1 k=1
+∞
X
= p (1 − p)`
`=0
p
= = 1,
1 − (1 − p)
+∞
X 1
a` = , si |a| < 1. (3.3)
`=0
1−a
Haciendo honor a su nombre, muchas veces el cálculo de cantidades que involucran a la distri-
bución geométrica requiere fórmulas asociadas a la serie geométrica. En ciertas aplicaciones,
puede ser útil tener también presente la fórmula que se obtiene de sumar un número finito de
términos de la serie geométrica
r−1
X 1 − ar
a` = .
`=0
1−a
48 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
1
= , (3.4)
q
P+∞
donde intercambiamos la derivada con la suma infinita porque la serie k=0 λk converge uni-
formemente para λ ∈ [0, 1). Introdujimos la derivada para poder llevar la suma a la forma
de la serie geométrica (Ec. 3.3). El cálculo de valores medios con la distribución geométrica
tı́picamente involucra la presencia de tales derivadas. Como q ∈ [0, 1], el resultado indica que
hKi ≥ 1. Cuando q → 1 en valor medio se requiere una única muestra, ya que con certeza
obtendremos x1 . Cuando q → 0, con certeza obtenemos x2 , y el número medio de muestras
diverge.
Consideremos un proceso binario que en cada intervalo de tiempo puede dar como resultado 0
ó 1. Entendemos el resultado 0 como “no pasó nada”, y el resultado 1, como que algo ocurrió.
Ejemplos posibles son
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 49
- Salimos a caminar por la plaza y evaluamos minuto a minuto si nos cae caca de paloma
en la cabeza (1) o no (0).
Partimos de la base que el evento que estamos evaluando tiene una tasa media de ocurrencia
λ. Por tasa entendemos una probabilidad por unidad de tiempo. Consideramos un intervalo de
duración t, y lo dividimos en n pequeños intervalos de duración dt (Fig. 3.8). La probabilidad
dt
Figura 3.8. El intervalo de duración t está compuesto por n intervalitos de duración dt.
de que el evento ocurra en un dado intervalito dt es λdt. Suponemos que la ocurrencia o no del
evento en un dado intervalo de tiempo es independiente de la ocurrencia o no a otros intervalos.
La probabilidad de que en k de los n intervalos suceda el evento es la binomial
n!
P (k) = (λdt)k (1 − λdt)n−k . (3.5)
k!(n − k)!
Queremos ver cómo se comporta esta probabilidad en el lı́mite de dt → 0. Para ello, notamos
que n = t/dt. Por lo tanto, la probabilidad que nos interesa es
(t/dt)!
P (k) = (λdt)k (1 − λdt)t/dt−k .
k!(t/dt − k)!
El paso al lı́mite es más sencillo si trabajamos con el logaritmo de la probabilidad. Es decir
ln(x!) ≈ x ln(x) − x, si x 1,
(λt)k −λt+k(λ−k)dt
P (k) ≈ e .
k!
Finalmente, en el lı́mite dt → 0,
Qk
Poiss(k) = lı́m P (k) = e−Q , (3.7)
dt→0 k!
3.4. EJEMPLOS DE DISTRIBUCIONES DISCRETAS 51
A B
Poiss(k)
F(k)
k k
Figura 3.9. A: Distribución de Poisson para Q = 5. B: Distribución acumulada.
2. Los sub-intervalos pueden hacerse arbitrariamente pequeños. El suceso, por ende, debe
alojarse sobre un conjunto continuo, que puede subdividirse infinitamente. El tiempo y
el espacio son posibles tales conjuntos—al menos, en la concepción usual de tiempo
y espacio. En estos casos, hablamos de sucesos que se caracterizan por una densidad
temporal o espacial. Pueden haber otros espacios que alberguen procesos Poissonianos
(por ejemplo, la longitud de onda λ de un fotón, la masa de una partı́cula que incide sobre
un detector, etc.), pero deben ser siempre espacios continuos, infinitamente divisibles. Por
ejemplo, el espacio de códigos postales no es continuo, como tampoco es el de genes, o
letras del alfabeto.
3. La probabilidad del suceso en cada sub-intervalo escala linealmente con la longitud del
intervalo. Es decir, si el intervalo crece, la probabilidad de tener eventos aumenta pro-
porcionalmente—al menos, para intervalos pequeños. No basta que, como requiere la
condición anterior, el espacio sea infinitamente divisible. También es importante que el
evento muestree la continuidad del espacio. Si el evento medido siempre cae en el mismo
número con precisión infinita, entonces la continuidad del espacio es irrelevante. Por
ejemplo, si fabrico bolitas de plastilina, y luego las peso, puedo preguntarme sobre la
probabilidad de que la bolita medida caiga en un intervalo dado de masas. Las bolitas no
son todas iguales, entonces si ampliamos el intervalo de interés, aumenta la probabilidad
de alojar más bolitas. Pero si en vez de pesar bolitas de plastilina pesamos electrones, las
masas obtenidas son todas iguales5 .
El cálculo de valores medios que involucran la distribución poissoniana muchas veces requiere
de la expansión de la exponencial.
54 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
considerándolo un charlatán, lo abandonó. Se fue a los Estados Unidos, y trabajó como maestro
y tutor privado. Durante ese tiempo, se educó leyendo los libros a los que tuvo acceso, como por
ejemplo, los Principia de Newton. Trabajó como profesor universitario en una escuela naval, lo
que lo llevó a medir la posición de la luna y los planetas. Viajó a Paris, donde corrigió medi-
ciones astronómicas mal hechas hasta el momento. Luego volvió a los Estados Unidos, midió
constantes astronómicas con la mejor precisión que se tenı́a hasta el momento, entre ellas, la
velocidad de la luz.
Por el momento, dejaremos este hecho como una curiosidad sin explicación, e invitamos a
quienes tengan ganas, a buscar números por ahı́, y graficar su distribución de primeras cifras.
Más adelante, volveremos sobre este tema, y lo aclararemos.
3.5. DE VUELTA A LAS APUESTAS 57
¿Tienen una respuestas a las dos preguntas que discutieron Blaise Pascal y Pierre de Fermat,
planteadas en la Sección 1.1? En particular, fı́jense qué pasa con la conveniencia o no de apostar
sobre el resultado del par de dados (apostamos por el doble seis) si el par es tirado 24 o 25 veces.
En cuanto a la pregunta de cómo distribuir el dinero del juego cuando las circunstancias externas
impiden llegar al final, traten de llegar a una expresión cerrada para la repartija, suponiendo que
cada contendiente tiene probabilidad 1/2 de ganar en cada round.
58 CAPÍTULO 3. VARIABLES ALEATORIAS DISCRETAS
3.6. Ejercicios
b) P (X > a) = 1 − F (a),
c) F (a → +∞) → 1,
d) F (a → −∞) → 0.
4. Una variable aleatoria X toma valores en un conjunto binario {x1 , x2 }, donde x1 y x2 son
dos números reales. Calcule todos los momentos de X suponiendo que P (X = x1 ) = q.
Calcule la varianza de X.
lı́m ln(x!) = x ln x − x.
x→∞
3.6. EJERCICIOS 59
11. Un comediante callejero entretiene a la gente que pasa por la vereda. Para jugar con él,
hay que pagarle 2 pesos. El juego consiste en que uno tira un dado. Si llamamos n al
número obtenido del dado, se tira una moneda n veces. El comediante le paga al jugador
un peso por cada cara obtenida en esta secuencia de n tiros. Calcule la probabilidad de
que el comediante le devuelva a un jugador k pesos. ¿Cuál es la probabilidad de perder
plata con el comediante?
12. Un comediante callejero entretiene a la gente que pasa por la vereda. Para jugar con él,
hay que pagarle 2 pesos. El juego consiste en que uno tira una moneda el número de veces
n que es necesario para obtener la primera cara. Una vez determinado el valor de n, uno
tira la moneda n veces, y el comediante le paga al jugador un peso por cada cara obtenida
en esta secuencia de n tiros. Calcule la probabilidad de perder plata con el comediante.
15. Derive la expresión de la probabilidad P (k) para un proceso poissoniano en el que la tasa
por unidad de tiempo depende del tiempo, es decir, con una tasa no constante λ(t).
está normalizada.