Notas de Proba
Notas de Proba
Notas de Proba
Versión 2023.5
Departamento de Matemática - FCEyN
Universidad de Buenos Aires
Nota: No es una publicación oficial del Departamento de Matemática.
Prólogo a la versión 2022:
Las presentes Notas de Probabilidad y Estadística (para matemáticos) las he ido escri-
biendo a lo largo de las diferentes cursadas en las que estuve como profesor en esta materia
(2006, 2010, 2016 y 2021).
Su objetivo es ser una ayuda para facilitar el seguimiento y la comprensión de las clases
teóricas, y también que los estudiantes interesados puedan profundizar en algunos temas
(que en muchos casos están desarrollados con más extensión que en las clases teóricas).
El contendio del curso ha ido evolucionando a lo largo del tiempo, entre otras cosas para
adaptarse a los cambios en las materias anteriores. Es probable por ello que en la cursada
2022 no siga exactamente el mismo enfoque en algunas partes, aunque este material va a
seguir sirviendo como referencia.
1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 2
teoría general requiere una definición general de la esperanza matemática que se aplique
en todos los casos. Esto puede hacerse utilizando la integral de Riemman-Stieltjes (como
haremos en estas notas, siguiendo a V. Yohai) o la integral de Lebesgue.
Se aclara que el material de los apéndices no forma parte del contenido del curso, y no
se toma en los exámenes finales. En particular, en el apéndice D se presenta un resumen
de los resultados esenciales de la teoría de la integración de Lebesgue, algunos de los
cuáles se utilizarán (sin demostrarlos) durante el curso, y se explica porqué la definición
de la esperanza con la integral de Lebesgue es equivalente a la que utiliza la integral de
Riemman-Stieltjes.
Agradecimientos
Aún a riesgo de olvidarme de alguien, no quiero dejar de agradecer a todos los que de
alguna manera me ayudaron a dar la materia y a redactar este apunte.
A N. Fava y V. Yohai (con quienes en su momento cursé esta materia, dado que mis
cursos estuvieron inspirados en gran parte en lo que aprendí de ellos)
A todos mis estudiantes, quienes en muchas veces han aportado correcciones u ob-
servaciones que han contribuido a mejorar este apunte.
Pablo L. De Nápoli
Índice general
1. El Espacio Muestral 10
1.1. Experimentos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. La definición clásica de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. La interpretación frecuencial de la probabilidad . . . . . . . . . . . . . . . . 13
1.4. Definición axiomática de la probabilidad (provisional) . . . . . . . . . . . . 15
1.5. El marco de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1. Consecuencias de la σ-aditividad . . . . . . . . . . . . . . . . . . . . 21
3
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 4
4. Distribuciones Continuas 70
4.1. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1.1. Propiedades de las funciones de distibución . . . . . . . . . . . . . . 74
4.2. La integral de Riemann-Stieltjes y la definición de esperanza . . . . . . . . 76
4.3. La definición de Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4. Cambios de variables unidimensionales . . . . . . . . . . . . . . . . . . . . . 85
4.5. Suma de variables aleatorias independientes . . . . . . . . . . . . . . . . . . 87
4.5.1. Suma de variables normales independientes . . . . . . . . . . . . . . 89
4.6. Las Distribuciones Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.6.1. Análisis de la convergencia de la integral que define la función gama 92
4.6.2. Propiedades de la función gama . . . . . . . . . . . . . . . . . . . . . 92
4.6.3. Las distribuciones gama . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.7. Las distribuciones Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.8. La Distribución Exponencial y la propiedad de Falta de Memoria . . . . . . 97
4.8.1. Tiempos de espera y procesos de Poisson . . . . . . . . . . . . . . . 99
4.9. Algunas densidades útiles en estadística . . . . . . . . . . . . . . . . . . . . 101
4.9.1. Las densidades χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.9.2. Las densidades χn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
E. Independencia 286
E.1. El teorema π − λ de Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
E.2. Variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
E.3. Esperanza del producto de variables independientes . . . . . . . . . . . . . . 290
Bibliografía 312
Capítulo 1
El Espacio Muestral
Ω = {cara, ceca}
Ω = {1, 2, 3, 4, 5, 6}
10
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 11
de tiempo [0, T ] (movimiento Browniano). En este caso, cada posible resultado del
experimento es una curva continua. Por ello el espacio muestral podría tomarse como
el espacio de funciones continuas C([0, T ], R2 ).
Un evento o suceso es algo que puede ocurrir o no ocurrir en cada realización del
experimento aleatorio. Los eventos corresponden a subconjuntos del espacio muestral. Por
ejemplo: si el experimento consiste en arrojar un dado, el evento “sale un número par” está
representado por el subconjunto A = {2, 4, 6} del espacio muestral.
Las operaciones booleanas con los conjuntos tienen una interpretación natural en este
contexto. Recordamos cuáles son estas operaciones y su significado:
A∆B = (A ∪ B) − (A ∩ B) = (A − B) ∪ (B − A)
También notamos que la condición de que dos eventos A y B sean disjuntos (A∩B = ∅)
significa que ambos eventos no pueden ocurrir simultáneamente.
Ω = {ω1 , ω2 , . . . , ωn }
y supongamos que dichos resultados son equiprobables (es decir que consideramos que
cada uno de ellos tiene las mismas chances de ocurrir o no que los demás), entonces la
probabilidad de un evento A ⊂ Ω se define por
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 12
Ω = {1, 2, 3, 4, 5, 6}
y 3 casos favorable, que corresponden a los elementos del evento
A = {2, 4, 6}
Si suponemos que el dado no está cargado (de modo que asumimos que los seis resultados
posibles del experimento son equiprobables), entonces
3 1
P (A) = =
6 2
¿Cuál es el significado intuitivo de esta probabilidad?. Intuitivamente, esperamos que
si repetimos el experimento muchas veces, observemos que aproximadamente la mitad de
las veces sale un número par (y la otra mitad de las veces sale un número impar).
Notemos algunas propiedades de la noción de probabilidad, introducida por la definición
de Laplace:
0 ≤ P (A) ≤ 1
P (∅) = 0
P (Ω) = 1
imposible, mientras que si P (A) = 1 el suceso ocurre siempre. Sin embargo, esto no
será cierto para otras extensiones del concepto de probabilidad que introduciremos
más adelante.
A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
Observación 1.2.1
Notemos que el aparente azar en este ejemplo del dado, se debe en realidad a nuestra
ignorancia. Porque la mecánica clásica (Newtoniana) nos dice que el movimiento del dado
es en realidad un proceso completamente determinístico (no aleatorio). Y si conociéramos
la posición y velocidad iniciales y las fuerzas que actúan, podríamos calcular (en principio)
en forma exacta, cómo se va a mover el dado.
Un tipo diferente de azar, mucho más fundamental, aparece en la mecánica cuántica, una
de las teorías fundamentales de la física moderna. Esta teoría postula que el azar es un
componente esencial e irreductible de la naturaleza a nivel microscópico. Así por ejemplo,
no podemos predecir con exactitud donde vamos a encontrar un electrón, sino solamente
calcular la probabilidad de que el electrón esté en una cierta región del espacio.
fn → p cuando n → ∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 14
en algún sentido.
Este enunciado se conoce como ley de los grandes números y toda la teoría del
cálculo de probabilidades surgió del intento de formalizarlo como un teorema matemático
(como veremos más adelante).
Ω1 × Ω2 = {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 }
donde ω1 corresponderá al resultado del primer experimento y ω2 al del segundo.
Definición 1.4.1 Sea Ω un espacio muestral, por una probabilidad definida en Ω enten-
deremos una función P que a cada parte de Ω (evento) le asigna un número real de modo
que se cumplen las propiedades enunciadas en la sección anterior:
0 ≤ P (A) ≤ 1
P (∅) = 0
P (Ω) = 1
A ∩ B = 0 ⇒ P (A ∪ B) = P (A) + P (B)
Más adelante, nos veremos obligados a modificar esta definición, ya que en muchos
ejemplos no es posible asignar probabilidades a todas las posibles partes de Ω (por lo que
deberemos restringir la noción de evento).
Veamos algunos ejemplos:
Supongamos que tenemos un espacio muestral finito
Ω = {ω1 , ω2 , . . . , ωn }
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 16
pero que no queremos asumir que los posibles resultados de nuestro experimento aleatorio
son equiprobables. Entonces supondremos que cada uno de ellos tiene una probabilidad
pi ∈ [0, 1]:
P ({ωi }) = pi
Entonces dado un evento A ⊂ Ω, le asignamos la probabilidad
X
P (A) = pi
ωi ∈A
Si suponemos que
n
X
pi = 1
i=1
entonces la probabilidad así definida, verifica los axiomas de nuestra definición axiomática
de probabilidad.
Notemos que en particular, si los resultados ri (1 ≤ i ≤ n) son equiprobables:
p1 = p2 = . . . = pn
entonces pi = 1
n para todo i, y recuperamos la definición clásica de Laplace:
#(A)
P (A) =
n
El ejemplo anterior, fácilmente puede generalizarse al caso de un espacio muestral nu-
merable
Ω = {ω1 , ω2 , . . . , ωn , . . .}
Nuevamente supongamos que a cada resultado ωi (con i ∈ N) le hemos asignado una
probabilidad pi ∈ [0, 1], de modo que
∞
X
pi = 1
i=1
entonces si definimos X
P (A) = pi
ωi ∈A
P (B − A) = P (B) − P (A).
A ⊂ B ⇒ P (A) ≤ P (B)
Prueba: Como A ⊂ B,
B = A ∪ (B − A) unión disjunta
luego
P (B) = P (A) + P (B − A)
de donde, despejando P (B − A) obtenemos el resultado.
En particular, elijiendo B = Ω obtenemos
Corolario 1.4.3 Si A es un evento y Ac = Ω − A su complemento, entonces
P (Ac ) = 1 − P (A)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (A ∪ B) ≤ P (A) + P (B)
Prueba:
A ∪ B = (A − A ∩ B) ∪ (A ∩ B) ∪ (B − A ∩ B) (unión disjunta)
luego
P (A ∪ B) = P (A − A ∩ B) + P (A ∩ B) + P (B − A ∩ B)
= [P (A) − P (A ∩ B)] + P (B ∩ B) + [P (B) − P (A ∩ B)]
= P (A) + P (B) − P (A ∩ B)
Ejemplo 1.4.5 Supongamos que arrojamos dos dados y queremos calcular la probabilidad
de que nos salga al menos un 6. Consideramos A =“sale un 6 al arrojar el primer dado´´
y B =“sale un 6 al arrojar el segundo dado´´. Entonces la probabilidad buscada es
1 1 1 11
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + − = = 0,30555 . . .
6 6 36 36
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 18
Obviamente, el conjunto de todas las partes de Ω, P(Ω) es una σ-álgebra, pero existen
σ-álgebras más pequeñas.
Ejemplo: Si Ω es un conjunto no numerable, por ejemplo Ω = R entonces
E = {A ⊂ Ω : A es numerable o Ac es numerable}
3. Si A, B ∈ E entonces A − B ∈ E.
Definición 1.5.3 Sean Ω un conjunto y E ⊂ P(Ω). Una medida sobre E es una función
µ : E → [0, +∞]. con las siguientes propiedades:
1.
µ(∅) = 0
m(A + x) = m(A) ∀A ∈ M
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 21
Prueba: Utilizamos el truco de disjuntar los eventos y notamos que como son crecientes:
k−1
poniendo A0 = ∅
[
C k = Ak − Aj = Ak − Ak−1
j=1
deducimos que
∞
!
[
P Ak = lı́m P (An )
n→∞
k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 22
Prueba: Tomamos complemento Ak = Bkc . Entonces si los Bk eran decrecientes, los (Ak )
serán crecientes. Y observamos que por las leyes de De Morgan
!c
\ [
Bk = Ak
k∈N k∈N
Luego:
∞ ∞
! !
\ [
P Bk =1−P Ak
k=1 k=1
= 1 − lı́m P (Ak )
k→+∞
= lı́m [1 − P (Ak )]
k→+∞
= lı́m P (Bk )
k→+∞
En particular, !
si P (Ak ) = 0 para todo k ⇒ P
[
Ak = 0.
k∈N
Tomando complemento,
!
si P (Ak ) = 1 para todo k ⇒ P
\
Ak = 1.
k∈N
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 23
Prueba: Pongamos
n
[
Dn = Ak
k=1
Nota: Volveremos más adelante (en el lema de Borel-Cantelli 8.4.1) a analizar con
mayor profundidad las consecuencias probabilísticas de la hipótesis de σ-aditividad.
Capítulo 2
Probabilidad Condicional e
Independencia
Ω = {1, 2, 3, 4, 5, 6}
los eventos
A = sale un 2 = {2}
B = sale un número par = {2, 4, 6}
Entonces vamos a definir la probabilidad condicional de que ocurra el evento A sabiendo
que ocurre el evento B que notaremos P (A/B).
Si estamos en una situación como la anterior donde la definición clásica de Laplace se
aplica podemos pensarlo del siguiente modo: los resultados posibles de nuestro experimento
son ahora sólo los elementos de B (es decir: hemos restringido nuestro espacio muestral a
B), mientras que los casos favorables son ahora los elementos de A ∩ B luego
#(A ∩ B)
P (A/B) =
#(B)
Si dividimos numerador y denominador por #(Ω), tenemos:
24
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 25
#(A∩B)
#(Ω) P (A ∩ B)
P (A/B) = #(B)
=
P (B)
#(Ω)
Aunque hemos deducido esta fórmula de la definición clásica de Laplace, la misma tiene
sentido en general siempre que P (B) > 0. Adoptamos pues la siguiente definición:
P (A ∩ B)
P (A/B) = (2.1)
P (B)
1. La función A 7→ P (A/B) debe ser una probabilidad (o sea satisfacer los requisitos de
nuestra definición axiomática).
P (A/B) = P (A ∩ B/B) = kP (A ∩ B)
y como queremos que P (A/B) sea una probabilidad debe ser P (Ω/A) = 1, luego
1 = kP (Ω ∩ B) = kP (B)
con lo que:
1
k=
P (B)
y vemos que la definición (2.1) es la única que satisface estas condiciones.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 26
P (A ∩ Bk ) = P (Bk )P (A/Bk )
(2.2)
X
P (A) = P (Bk )P (A/Bk )
k∈I
1 1 11 1 17
P (A) = P (A/B1 ) · P (B1 ) + P (A/B2 ) · P (B2 ) = · + · = = 0,2361111 . . .
6 2 36 2 72
2.2. Independencia
Definición 2.2.1 Decimos que el evento A es independiente del evento B con P (B) > 0
si
P (A/B) = P (A)
Intuitivamente este concepto significa que; saber si el evento B ocurre o no, no nos dará
una mejor estimación de la probabilidad de que ocurra el evento A.
Teniendo en cuenta la definición de la probabilidad condicional, vemos que la condición
para que el evento A sea independiente de B es que:
P (A ∩ B) = P (A)P (B)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 27
Esta manera de escribir la definición tiene dos ventajas: se ve que tiene sentido aún si
P (B) = 0, y muestra que los roles de los eventos A y B son simétricos. Reescribimos pues
la definición en la siguiente forma:
A = “sale un 1”.
4 1 12 1
P (A) = = , P (B) = =
48 12 48 4
Entonces A ∩ B es “sale el uno de espadas” y
1 1 1
P (A ∩ B) = = · = P (A) · P (B)
48 12 4
Luego A y B son independientes.
Entonces
P (A ∩ B c ) = P (A) · [1 − P (B)] = P (A) · P (B c )
P (A ∩ B) = P (A) · P (B)
P (A ∩ C) = P (A) · P (C)
P (B ∩ C) = P (B) · P (C)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 29
P (A/B ∩ C) = P (A)
Esto significa que queremos que A sea independiente de B ∩ C por lo que vamos a pedir
que
P (A ∩ (B ∩ C)) = P (A) · P (B ∩ C)
o sea
P (A ∩ B ∩ C) = P (A) · P (B) · P (C)
0 ≤ pij ≤ 1 y
n
X
pij = 1
i=1
(Las columnas de la matriz son vectores de probabilidad). P se dice una matriz estocás-
tica.
E2 : Mercado en decrecimiento.
E3 : Mercado estancado.
Supongamos que tenemos la siguiente matriz de transición:
0,9 0,15 0,25
P = 0,075 0,8 0,25
0,025 0,05 0,5
(Esto podría aplicarse a todo un mercado o a un activo particular negociado en ese mercado)
Podemos representar esta situación por medio del siguiente grafo:
0.075
0.9 E1 E2 0.8
0.15
0.025 0.25
0.25 0.05
E3
0.5
Pueden encontrar más información sobre este tipo de modelos para mercados financieros
en [LJ20].
λ1 = 1, λ2 = 0,741421356237310, λ3 = 0,458578643762690
Y podemos encontrar una matriz de cambio de base C tal que
1 0,0 0,0
C −1 P C = D = 0,0 0,7414213562373091 0,0
0,0 0,0 0,4585786437626905
0,5773502691896265 0,44371856511363317 −0,03400257431430442
C = 0,5773502691896251 −0,8113070602072252 −0,13017637781608127
0,5773502691896256 −0,3806503501002046 0,9909076322234505
Luego
0,625 0,625 0,625
lı́m P t = 0,3125 0,3125 0,3125
t→+∞
0,0625 0,0625 0,0625
Entonces la ecuación
Ut = P t U0
nos muestra que no importa cuál sea el estado inicial U0 , el sistema converge al estado
estacionario:
0,625
U∞ = 0,3125
0,0625
Esto significaría que el mercado va a estar un 62, 5 % del tiempo en estado alcista, un
32, 15 % en estado bajista y un 6, 25 % estancado. Este vector es un autovector de autovalor
1 de P es decir:
P U∞ = U∞ = 1 · U∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 32
El experimento de tirar infinitas veces la moneda es una cadena de Markov con dos
estados {cara, ceca}. En este caso la matriz de transición es:
0,5 0,5
P =
0,5 0,5
El algoritmo page rank usado por Google para asignar a cada página un ranking a
cada página web. Este simula una un navegante que va visitando aleatoriamente las
páginas, y puede pensarse como una cadena de Markov (ver [KGS13]). La distribución
estacionaria de esta cadena de Markov determina el ranking que será asignado a cada
página.
También se utiliza con frecuencia modelos basados en cadenas de Markov para estu-
diar la propagación de epidemias. Ver por ejemplo el capítulo 2 de [Ige20].
Definición 3.1.1 Sea (Ω, E, P ) un espacio de probabilidad. Una variable aleatoria discreta
es una función X : Ω → R tal que la imagen de X es un conjunto finito o numerable de R:
Im(X) = {x1 , x2 , . . . , xi , . . .}
(donde la sucesión (xi ) puede ser finita o infinita), y tal que X −1 ({xi }) ∈ E sea un evento
para cada xi ∈ Im(X).
pi = P ({X = xi })
Dichas probabilidades se conocen como la distribución de probabilidades de la variable
X.
Ω = {ω = (ω1 , ω2 ) : ωi ∈ D}
S : Ω → N, S(ω) = ω1 + ω2
33
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 34
xi pi
2 1/36 = 0,028
3 2/36 = 0,056
4 3/36 = 0,083
5 4/36 = 0,111
6 5/36 = 0,139
7 6/36 = 0,167
8 5/36 = 0,139
9 4/36 = 0,111
10 3/36 = 0,083
11 2/36 = 0,056
12 1/36 = 0,028
3.2. La Esperanza
Un concepto de fundamental importancia asociado a las variables aleatorias, es el de
esperanza (o valor esperado). Para variables aleatorias discretas, este concepto resulta
sencillo de definir:
(3.1)
X
E[X] = pi xi
i
Notemos que una variable aleatoria discreta con imagen finita (o sea que tome sólo un
número finito de valores) siempre es integrable ya que la suma (3.1) es finita en este caso.
Ejemplo: Supongamos que arrojamos un dado ¿cuál es la esperanza del valor obtenido
X ?
1+2+3+4+5+6 21
E[X] = = = 3, 5
6 6
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 35
1 si ω ∈ A
IA (ω) =
0 si ω 6∈ A
Notemos que las Xi son variables aleatorias. Estamos interesados ahora en la siguiente
variable aleatoria, T = cuántas tiradas tengo que esperar hasta que salga una cara por
primera vez. Formalmente
T (ω) = mı́n i
xi =1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 36
Hay un caso especial, que es cuando siempre sale ceca, esto es: ¿qué valor de T le
asignaremos a la sucesión ω = (0, 0, 0, . . . , 0, . . .) ? Lo razonable es poner:
T ((0, 0, 0, . . . , 0, . . .)) = +∞
Esto muestra que a veces resulta conveniente admitir variables aleatorias que pueden tomar
el valor +∞ (o también −∞).
Ahora debemos calcular cuál es la distribución de probabilidades de T , es decir cuál es
la probabilidad de que T tome cada valor.
P {T = k} = P {X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1}
y dado que los ensayos son independientes a este evento le asignamos la probabilidad dada
por el producto de las probabilidades:
1
P {T = k} = P {X1 = 0} · P {X2 = 0} · . . . · P {Xk−1 = 0} · P {Xk = 1} =
2k
Mientras que al evento “siempre sale ceca” le asignamos probabilidad 0,
Utilizando la fórmula,
∞
x
si |x| < 1
X
kxk =
(1 − x)2
k=1
1 1 1 7
E[X] = 1 · + 2 · + 3 · = = 1,75
2 4 4 4
Veamos cómo se calcularía esto en la computadora usando Python 3 y el paquete
SciPy.
import scipy.stats
xk = (1, 2, 3)
pk = (0.5 , 0.25 , 0.25)
distribucion = scipy.stats. rv_discrete ( values =(xk , pk))
print ( distribucion .mean ())
diverge.
Si X es una variable aleatoria discreta cualquiera, escribimos
X = X+ − X−
donde
X si X ≥ 0
+
X =
0 si X < 0
y
−X si X < 0
−
X =
0 si X ≥ 0
Notamos que X + y X − son variables aleatorias no negativas.
Decimos que E[X] = +∞ si E[X + ] = +∞ y E[X − ] < ∞. Similarmente diremos que
E[X] = −∞ si E[X − ] = +∞ y E[X + ] < ∞. Si E[X + ] y E[X − ] son ambas infinitas, E[X]
no está definida.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 38
E[λX] = λE[X]
Prueba: Sean (xi ) los valores que toma X, e (yj ) los valores que toma Y : entonces
X X
E[X] = xi P {X = xi } = xi P {X = xi , Y = yj }
i i,j
ya que
{X = xi , Y = yj } (unión disjunta)
[
{X = xi } =
j
Similarmente,
X X
E[Y ] = yj P {X = xi } = yj P {X = xi , Y = yj }
j i,j
En consecuencia,
X
E[X] + E[Y ] = (xi + yj )P {X = xi , Y = yj }
i,j
pues
{X = xi , Y = yj } (unión disjunta)
[
{Z = zk } =
i,j:xi +yj =zk
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 39
Deducimos que
X
E[Z] = (xi + yj )P {X = xi , Y = yj } = E[X] + E[Y ]
k
|E[X]| ≤ E[|X|]
donde xi recorre la imagen de X, siempre que esta serie sea absolutamente convergente.
3.2.4. Independencia
Definición 3.2.7 Sean X e Y dos variables aleatorias discretas definidas en un mis-
mo espacio muestral. Diremos que son independientes, si para cada xi , yj los eventos
{X = xi } e {Y = yj } son independientes, es decir de acuerdo a la definición de eventos
independientes si,
P {X = xi , Y = yj } = P {X = xi } · {Y = yj }
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 41
Prueba:
X X
E[XY ] = xi yj P {X = xi , Y = yj } = xi yj P {X = xi }P {Y = yj }
i,j i,j
!
X X
xi P {X = xi } yj P {Y = yj } = E[X]E[Y ]
i j
n n
!
X X
f αi xi ≤ αi f (xi )
i=1 i=1
Prueba: Hagamos la demostración primero, en el caso que X toma sólo finitos valores.
Sea pi = P {X = xi }. Entonces
Xn
E[X] = pi xi
i=1
y notamos que
n
X pi
xi
sn
i=1
|E[X]|p ≤ E[|X|p ]
Algunas observaciones:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 43
≤ 2p máx(|X|p , |Y |p ) ≤ 2p (|X|p + |Y |p )
Por lo tanto,
E[|X + Y |p ] ≤ 2p (E[|X|p ] + E[|Y |p ]) < +∞
4. En consecuencia, el conjunto
Ejemplo: Notemos que L2d ⊂ L1d por lo anterior. Veamos un ejemplo de una variable
aleatoria que está en L1d pero no en L2d : Consideramos un espacio muestral numerable
Ω = {ω1 , ω2 , . . . , ωn , . . .}
en el que
1
P {ωn } =
n(n + 1)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 44
Var(X) = E[ϕ(X)]
X
= (xi − µX )2 · pi
i
Var(X)
p
σX =
se demomina desviación estándar o desviación típica.
En consecuencia,
Var(IA ) = (1 − p)2 p + p2 (1 − p) = p − p2 = pq
2. Var(aX + b) = a2 Var(X).
Var(X) = E[(X − µX )2 ]
= E[X 2 − 2µX X + µ2 ]
= E[X 2 ] − 2µX E[X] + E[µ2X ]
= E[X 2 ] − 2µ2X + µ2X
= E[X 2 ] − µ2X
= E[X 2 ] − E[X]2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 46
3.3.2. Covarianza
Definición 3.3.8 Sean X e Y dos variables aleatorias. Definimos la convarianza o co-
variancia de X e Y por
pi,j = P {X = xi , Y = yj }
Cov(X, Y ) = E[ϕ(X, Y )] =
X
pi,j (xi − µX ) · (yj − µY )
i,j
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 47
donde
ϕ(x, y) = (x − µX ) · (y − µY )
.
Observación: Si X e Y son variables aleatorias independientes entonces Cov(X,Y) = 0.
La recíproca no es cierta, como muestra el siguiente ejemplo:
Ejemplo (Barry James, pag. 130) Sean X e Y dos variables aleatorias con valores −1,
0, 1 con la siguiente función de probabilidad conjunta:
−1 0 1
1 1
−1 5 0 5
0 0 15 0
1 1
1 5 0 5
que sería geométricamente el coseno del ángulo entre X − µX y Y − µY , para medir que
tan lejos están las variables X e Y de estar correlacionadas. Se denomina coeficiente
de correlación entre X e Y . La desigualdad (3.3) nos dice que 0 ≤ |ρ| ≤ 1, o sea que
−1 ≤ ρ ≤ 1.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 48
Prueba:
i=1
n
Y
P {ω} = P {X1 = x1 , X2 = x2 , . . . , Xn = xn } = P {Xi = xi }
i=1
Ahora la probabilidad de que Xi = xi es p si xi = 1 (es un éxito) y q si xi = 0 (es un
fracaso). De modo que
P {ω} = pk q n−k
donde k = i=1 xi es el número de éxitos que ocurren en esa realización del experi-
Pn
mento. Notemos que esta forma de asignar las probabilidades dice precisamente que las Xi
son variables aleatorias independientes.
Por otra parte, notemos que si definimos Sn : Ω → R como el número de éxitos en
los n ensayos de Bernoulli, es una variable aleatoria (en la notación anterior Sn (ω) = k).
Tenemos que:
Sn = X1 + X2 + . . . + Xn (3.4)
Nos interesa cuál es la distribución de probabilidades de Sn , es decir queremos de-
terminar para cada k (con 0 ≤ k ≤ n) cuál es la probabilidad de que Sn tome el valor
k.
Observamos que el evento {Sn = k} = {ω ∈ Ω : Sn (ω) = k} se compone de las n-uplas
que tienen exactamente k éxitos y n − k fracasos, y que hay exactamente
n n!
=
k k!(n − k)!
de tales n-uplas, y cada una de ellas tiene probabilidad pk q n−k . En consecuencia la proba-
bilidad del evento Sn = k será
n
P {Sn = k} = pk q n−k
k
Esta distribución de probabilidades se conoce como la distribución binomial, dado
que viene dada por los términos del desarrollo del binomio de Newton:
n
n
X n
(p + q) = pk q n−k
k
k=0
Definición 3.4.1 Sea X : Ω → N0 una variable aleatoria con valores enteros. Diremos
que X tiene distribución binomial si:
n
P {X = k} = b(k, n, p) = pk q n−k (3.5)
k
y P {X = k} = 0 si k 6∈ {0, 1, . . . , n}. Notación: X ∼ Bi(n, p)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 50
1 si k = 0
b(k, n, p) = ,
0 si k = 1, 2, . . . n
0 si k = 0, 1, 2, . . . , n − 1
b(k, n, p) =
1 si k = n
Prueba:
X
P {X + Y = k} = P {X = m, Y = n}
m,n:m+n=k
P {X = m} · P {Y = n} por independencia
X
=
m,n:m+n=k
X
= p(m) · q(n) = (p ∗ q)(k)
m,n:m+n=k
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 52
(np)k
1 2 k−1
b(k, n, p) = 1 − · 1− ··· 1 − · (1 − p)n−k
n n n k!
Pongamos λ = np, entonces
λ n−k
k
1 2 k−1 λ
b(k, n, p) = 1 − · 1− ··· 1 − · 1−
n n n k! n
Como
λ n
lı́m 1− = e−λ
n→+∞ n
deducimos que si k es pequeño en comparación con n, entonces
λk −λ
b(k, n, p) ≈ e
k!
Como formalización de esta idea, obtenemos el siguiente teorema:
Teorema 3.6.1 (Teorema de Poisson) Si k está fijo, y n → +∞ de modo que λ = np
permanece fijo, entonces:
λk −λ
limn→+∞ b(k, n, p) = e
k!
Lo que obtuvimos en el límite, es otra distribución de probabilidades que se utiliza con
frecuencia y se conoce como distribución de Poisson:
Definición 3.6.2 Sea X : Ω → N0 una variable aleatoria entera. Diremos que X tiene
distribución de Poisson de parámetro λ > 0, si
λk −λ
P {X = k} = e
k!
Notación: X ∼ P(λ).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 53
y por lo tanto:
E[X 2 ] = E[X(X − 1)] + E[X] = λ2 + λ
y
Var(X) = E[X 2 ] − E[X]2 = λ2 + λ − λ2 = λ
Prueba:
k k
X X λm λk−m
(p ∗ q)(k) = p(m) · q(k − m) = 1
· e−λ1 · 2
· e−λ2
m! (k − m)!
m=0 m=0
k
1 X k!
= e−(λ1 +λ2 ) · λm · λk−m
k! m! · (k − m)! 1 2
m=0
k
−(λ1 +λ2 ) 1
X k (λ1 + λ2 )k
=e · λm k−m
1 · λ2 = e−(λ1 +λ2 ) ·
k! m k!
m=0
Definición 3.7.1 Sea X : Ω → N0 una variable aleatoria que toma valores enteros. Lla-
mamos función generatriz de la distribución de probabilidades de X a
∞
X
gX (z) = P {X = k}z k (z ∈ C)
k=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 55
suponiendo que esta serie tenga un radio de convergencia rX > 0 (entonces convergerá
absolutamente en |z| < rX ). Observación: La notación gX que usaremos en estas notas,
no es una notación estándar. 2
Notemos que si 0 < |z| < rX ,
gX (z) = E[z X ]
Cuando z = 0 esta fórmula es problemática si X toma el valor 0. Si usamos la definición
00 = 1, tiene sentido pues gX (0) = P {X = 0}.
Cuando z = 0,
gX+Y (0) = P {X + Y = 0} = P {X = 0, Y = 0}
= P {X = 0} · P {Y = 0} = gX (0) · gY (0)
Esta proposición puede generalizarse sin dificultad a varias variables independientes: si
X1 , X2 , . . . , Xn son independientes, entonces
gX1 +X2 +...+Xn (z) = gX1 (z) · gX2 (z) · · · gXn (z)
Notemos que la probabilidad de que Sn tome el valor k viene dado por el coeficiente de z k
en gSn . En consecuencia:
n
P {Sn = k} = pk q n−k (0 ≤ k ≤ n)
k
Las funciones generatrices pueden usarse para calcular esperanzas y varianzas (y más
generalmente momentos) de variables aleatorias enteras:
Proposición 3.7.3 Si la serie que define la función generatriz gX tiene radio de conver-
gencia rX > 1, entonces
0
E(X) = gX (1)
Var(X) = gX
00 0
(1) + gX 0
(1) − gX (1)2
Prueba: Como las series de potencia pueden derivarse término a término en el interior de
su disco de convergencia, tenemos que:
∞
X
0
gX (z) = kP {X = k}z k−1
k=1
Luego
00 0 0
V ar(X) = E[X 2 ] − E[X]2 = gX (1) + gX (1) − gX (1)2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 57
Var(fn )
P {|fn − p| > δ} ≤
δ2
pero
Sn pq
Var(fn ) = Var =
n n
En consecuencia:
pq
P {|fn − p| > δ} ≤ → 0 cuando n → +∞ (3.8)
nδ 2
Una generalización del teorema de Bernoulli (que se prueba con el mismo argumento)
es la siguiente, conocida (al igual que a veces el teorema de Bernoulli) como la ley débil de
los grandes números:
Teorema 3.7.6 (Ley débil de los grandes números - caso de variancia finita) Sean
X1 , X2 , . . . , Xn , . . . una secuencia infinita de variables aleatorias independientes e idénti-
camente distribuidas, con
E[Xi ] = µ
Var(Xi ) = σ 2 < +∞
Entonces si llamamos
X1 + X2 + . . . + Xn
Xn =
n
y tomamos cualquier δ > 0, tenemos que
σ2
Var(X n ) =
n
ya que las Xi son independientes. La desigualdad de Chebyshev, dice entonces que:
σ2
P {|X n − µ| > δ} ≤ → 0 cuando n → +∞
nδ 2
Algunas observaciones sobre el teorema de Bernoulli:
Si bien la prueba del teorema de Bernoulli, resulta muy sencilla hoy en día, J. Ber-
noulli dice en su libro que estuvo pensando en este teorema durante más de 20 años,
lo cuál muestra que el resultado no es para nada trivial.
La ley débil de los grandes números recibe este nombre, porque, como veremos más
adelante, existe otro teorema conocido como la ley fuerte de los grandes números,
que afirma que en realidad Sn → p (o X n → µ) con probabilidad 1.
(Pero notemos que para darle sentido a la afirmación de que Sn → p con probabilidad
1, debemos asignar probabilidades a secuencias de infinitos ensayos de Bernoulli, como
en el experimento que consideramos anteriormente de arrojar infinitas veces una
moneda. Esto introduce ciertas dificultades relacionadas con la teoría de la medida,
como por ejemplo que ya no podremos asignarle probabilidad a cualquier parte del
espacio muestral Ω, y que por lo tanto debemos restringir el dominio de la función
probabilidad a una σ-álgebra de eventos.)
Teorema 3.8.1 (Ley débil de los grandes números - caso general) Sean X1 , X2 , . . . , Xn , . . .
una secuencia infinita de variables aleatorias independientes e idénticamente distribuidas,
con
E[Xi ] = µ < +∞
Entonces si llamamos
Sn = X1 + X2 + . . . + Xn
y tomamos cualquier δ > 0, tenemos que
Sn
P − µ > δ → 0 cuando n → +∞
n
Prueba: Para simplificar la notación, notemos que podemos asumir sin pérdida de gene-
ralidad, que
E(Xi ) = 0 ∀ i
(cambiando si no Xi por Xi − µ).
La demostración en el caso de variancia infinita, se basa en el método de trunca-
miento, que consiste en descomponer Xi como suma de dos variables aleatorias. Para cada
k = 1, 2, . . . , n, escribimos:
donde
Xk si |Xk | ≤ λn
Un,k =
0 si |Xk | > λn
y
0 si |Xk | ≤ λn
Vn,k =
Xk si |Xk | > λn
donde δ > 0 es una constante que especificaremos después. Y pongamos:
Comencemos acotando:
P {|Un | > δn/2}
Observemos que las variables Un,k están acotadas (|Un,k | ≤ λn) y en consecuencia tienen
segundo momento finito. Más explícitamente, si llamemos a = E(|Xi |), tenemos que
2
E(Un,k ) ≤ nλa
Var(Un,k ) ≤ E(Un.k
2
) ≤ nλa
Por otra parte las Un,k son variables independientes e idénticamente distribuidas (pues
Un,k es función de Xk , y las Xk eran independientes e idénticamente distribuidas). En
consecuencia:
n
Var(Un ) = Var(Un,1 + Un,2 + . . . + Un,n ) = Var(Un,k ) ≤ n2 λa
X
k=1
y como
n
[
{Vn,1 + Vn,2 + . . . + Vn,n 6= 0} ⊂ {Vn,k 6= 0}
k=1
tenemos que:
n
X
P {|Vn | > δn/2} ≤ P {Vn,k 6= 0} = nP {V1 6= 0}
k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 62
ya que las Vk tienen todas la misma distribución de probabilidades. Pero por definición de
V1 , esto dice que
X
P {|Vn | > δn/2} ≤ nP {|X1 | > λn} = n P {X1 = xi }
i:|xi |>λn
Dado entonces cualquier ε > 0, como la esperanza de X1 es finita por hipótesis, dedu-
cimos que si elegimos n suficientemente grande, digamos si n ≥ n0 (ε), tendremos que:
ε
P {|Vn | > δn/2} <
2
(ya que las colas de una serie convergente tienden a cero).
Por (3.10), deducimos que:
P {|Sn | > δn} ≤ ε
si n ≥ n0 (ε).
En un lenguaje más moderno, el teorema de Weierstrass dice que los polinomios son
densos en el espacio C[0, 1] de las funciones continuas (con la norma del supremo).
La prueba de S.N. Berstein (1912) [Ber12] de este teorema, consiste en utilizar la dis-
tribución binomial, para construir explícitamente una sucesión de polinomios que converge
uniformemente a f .
Veamos primero la idea intuitiva de la demostración: sea p ∈ [0, 1] y sea como antes Sn
el número de éxitos en n ensayos de Bernoulli con probabilidad p. La ley de los grandes
números afirma que:
Sn
→ p (en probabilidad)
n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 63
(De vuelta, esto no es estrictamente cierto para toda sucesión de ensayos de Bernoulli, pero
sí vale en probabilidad.) Por lo que esperamos que:
Sn
E f → E[f (p)] = f (p)
n
Notemos que:
Xn
Sn k
Bn (p) = E f = f b(k, n, p)
n n
k=0
n
X n k
= f pk (1 − p)n−k
k n
k=0
ya que:
1
pq = p(1 − p) ≤∀ p ∈ [0, 1]
4
Más explícitamente podemos escribir esto como:
X X 1
b(k, n, p) = P {Sn = k} ≤
4nδ 2
|k/n−p|>δ |k/n−p|>δ
pues
n
X
b(k, n, p) = 1
k=0
En esta suma separamos dos partes, la suma sobre los k donde |k/n − p| ≤ δ (con el δ dado
por la continuidad uniforme), y la parte donde |k/n − p| > δ.
La primer parte la acotamos, fácilmente:
X k X
f − f (p) b(k, n, p) ≤ ε b(k, n, p) ≤ ε
n
k:|k/n−p|≤δ k:|k/n−p|≤δ
si n ≥ n0 (ε). En consecuencia, |Bn (p) − f (p)| < 2ε si n ≥ n0 (ε), para todo p ∈ [0, 1]. Esto
concluye la prueba del teorema de Weierstrass.
Con una cuenta análoga a la que hicimos antes para el caso p = 1/2 podemos probar
que E[X] = p1 .
La función generatriz de la distribución de probabilidades de X se obtiene justamente
sumando una serie geométrica:
∞
pz 1
si |z| < (3.11)
X
gX (z) = q k−1 pz k =
1 − qz q
k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 67
En consecuencia,
−r
P {Tr = k} = pr (−q)k−r (k = r, r + 1, . . .)
k−r
Notamos que:
−r (−r)(−r − 1)(−r − 2) . . . (−r − (k − r) + 1)
=
k−r (k − r)!
r(r + 1)(r + 2) . . . (k − 1)
= (−1)k−r
(k − r)!
(k − 1)!
= (−1)k−r
(r − 1)!(k − r)!
k−r k−1
= (−1)
r−1
pues (k − 1) − (r − 1) = k − r.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 68
Notación: X ∼ BN (r, p)
Falta: distribucion hipergeometrica
Distribución Multinomial
Es una generalización de la distribución binomial donde consideramos experimentos
con muchos varios posibles, en lugar de un experimento con sólo dos resultados.
Consideramos un experimento con N resultados posibles, y supongamos que la pro-
babilidad de que ocurra el i-ésimo resultado en una realización del experimento es pi , de
modo que:
N
X
pi = 1
i=1
Supongamos que repetimos el experimento n veces en condiciones independientes, y
llamemos Xi a la cantidad de veces que ocurre el i-ésimo resultado, de modo que:
X1 + X2 + . . . + XN = n
Entonces, la distribución de probabilidades conjunta de las Xi viene dada por:
n!
P {X1 = k1 , X2 = k2 , . . . , XN = kN } = pk1 pk2 . . . pkNN (3.12)
k1 !k2 . . . kN ! 1 2
si k1 +k2 +. . .+kN = N (y cero en caso contrario). Notamos que X = (X1 , X2 , . . . , XN )
es un vector aleatorio N -dimensional.
Notación: X ∼ M(n, p1 , p2 , . . . , pN )
Esta distribución recibe este nombre, debido a su relación con el desarrollo multinomial:
X n!
(x1 + x2 + . . . + xN )n = xk1 xk2 . . . xkNN
k1 !k2 . . . kN ! 1 2
kN :k1 +k2 +...+kN =n
0≤ki ≤n
Xi ∼ Bi(n, pi ) 0≤i≤N
luego
X1 ∼ Bi(n, p1 )
Capítulo 4
Distribuciones Continuas
70
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 71
FX (x) = P {X ≤ x}
Ejemplo 4.1.4 Variables aleatorias discretas: Sea X una variable aleatoria discreta
que toma una sucesión a lo sumo numerable de valores (xi ). Entonces, X es una variable
aleatoria de acuerdo a nuestra nueva definición (es decir, realmente estamos extendiendo
el concepto) ya que:
[
{ω ∈ Ω : a < X(ω) ≤ b} = {ω ∈ Ω : X(ω) = xi }
a<xi ≤b
Figura 4.1: La función de distribución de una variable aleatoria con distribución uniforme
en el intervalor [0, 1].
si x < 0
0
FX (x) = x si 0 ≤ x ≤ 1
1 si x > 1
1 si x ∈ [0, 1]
fX (x) =
0 si x 6∈ [0, 1]
|I|
P {X ∈ I} =
b−a
En este caso, la función de distribución es:
0 si x < a
FX (x) = (x − a)/(b − a) si a ≤ x ≤ b
1 si x > b
2
También llamada a veces función de distribución acumulada en la literatura.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 73
que veremos en dicho capítulo). Como consecuencia, esta distribución juega un papel central
en estadística. Se conoce también como distribución de Laplace o de Gauss.
Muchas ejemplos de datos reales se ajustan muy bien a esta distribución. Un ejemplo
clásico es la altura en la población humana [MRR13].
Figura 4.3: La función de distribución de una variable con distribución normal estándar
lı́m F (x) = 0
x→−∞
lı́m F (x) = 1
x→+∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 75
Observación 4.1.8 La propiedad iii) significa que los saltos de una función de distribución
nos indican cuando la probabilidad se concentra en un punto dado x0 , y que la magnitud
del salto nos dice cuanta probabilidad se concentra en ese punto x0 .
Prueba: i) Que 0 ≤ F (x) ≤ 1 es obvio por ser F (x) una probablidad. Si x1 ≤ x2 tenemos
que: {X ≤ x1 } ⊂ {X ≤ x2 }, y en consecuencia F (x1 ) ≤ F (x2 ).
ii) Sea x0 ∈ R y consideremos una sucesión decreciente (xn )n∈N > x0 que converja a
x0 . Entonces, \
{X ≤ x0 } = {X ≤ xn }
n∈N
Es la intersección de una familia decreciente numerable de eventos. Entonces, por las pro-
piedades de continuidad de la probabilidad:
P {X ≤ x0 } = lı́m P {X ≤ xn }
n→+∞
Es decir que:
F (x0 ) = lı́m F (xn )
n→+∞
Y como esto vale para toda sucesión (xn ) > x0 decreciente, que converja a x0 deducimos
que:
F (x0 ) = lı́m F (x)
x→x+
0
P {X < x0 } = lı́m P {X ≤ xn }
n→+∞
Es decir que:
P {x < x0 } = lı́m F (xn )
n→+∞
Como esto valle para toda sucesión (xn )n∈N < x0 que converja a x0 , deducimos que:
En consecuencia,
Observación 4.1.9 Es posible probar que estas propiedades caracterizan a las funciones
de distribución, en el sentido de que cualquier función F con estas propiedades será la
función de distribución de alguna variable aleatoria X. (ver la observación 4.4.4)
Observación 4.1.10 Es útil observar que como consecuencia de estas propiedades, los
puntos de discontinuidad de una función de distribución son a lo sumo numerables. (Esto
se prueba observando que para cada k, sólo puede haber a lo sumo k puntos donde el salto
de la función de distribución sea mayor que 1/k).
Definición 4.2.1 Diremos que la integral (4.2) existe y toma el valor I ∈ R si las sumas
Sπ (ϕ, F ) tienden al valor I cuando la norma
de la partición π tiende a cero, es decir si dado ε > 0, existe δ > 0 tal que |I − Sπ (ϕ, F )| <
ε para toda partición π con |π| < δ.
Z Z b Z b
ϕ(x) dF (x) = λ1 ϕ1 (x) dF (x) + λ2 ϕ2 (x) dF (x)
a a
Z b Z b Z b
ϕ(x) dF (x) = λ1 ϕ(x) dF1 (x) + λ2 ϕ(x) dF2 (x)
a a a
Lema 4.2.3 (Aditividad respecto al intervalo) Sea c ∈ (a, b]. Si a ϕ(x) dF (x) exis-
Rb
Z b Z c Z b
ϕ(x) dF (x) = ϕ(x) dF (x) + ϕ(x) dF (x)
a a c
Lema 4.2.5 Supongamos que a ϕ(x) dF (x) existe, siendo ϕ una función acotada en [a, b]
Rb
existe si ϕ(x) es continua en [a, b] y F es de variación acotada (ya que toda función de
variación acotada se puede escribir como diferencia de dos funciones crecientes). En este
caso, la integral se acota del siguiente modo:
!
Z b
ϕ(x) dF (x) ≤ sup |ϕ(x)| Vab (F )
a x∈[a,b]
Xπ = ξi si X ∈ (xi , xi+1 ]
Entonces:
n−1
X n−1
X
E[Xπ ] = ξi · P {Xπ = ξi } = ξi · P {xi < X ≤ xi+1 }
i=0 i=0
n−1
X
= ξi · (F (xi+1 ) − F (xi ))
i=0
es exactamente la suma de Riemann-Stieltjes Sπ (ϕ, F ) con ϕ(x) = x.
Entonces cuando la norma de la partición tiende a cero, E[Xπ ] tiende a la integral
Z b
x dF (x)
a
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 79
Definición 4.3.1 Sea X una variable aleatoria que tome valores en un intervalo [a, b] de
la recta, entonces la esperanza de X es la integral de Riemann-Stieltjes
Z b
E[X] = xdF (x) (4.3)
a
siendo F = FX su función de distribución.
n−1
X
E[ϕ(Xπ )] = ϕ(ξi ) · P {Xπ = ξi }
i=0
n−1
X
= ϕ(ξi ) · P {ξi < X ≤ ξi+1 }
i=0
n−1
X
= ϕ(ξi ) · (F (xi+1 ) − F (xi ))
i=0
0 si x < x0
Hx0 (x) =
1 si x ≥ x0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 80
Hx0 es la función de distribución de una variable aleatoria X que toma el valor x0 con
probabilidad 1. Entonces tenemos:
Prueba: En Sπ (ϕ, F ) el único término no nulo corresponde al intervalo [xi , xi+1 ] que
contiene a x0 , en consecuencia:
Sπ (ϕ, F ) = ϕ(ξi )
y cuando |π| → 0, ϕ(ξi ) → ϕ(x0 ), por la continuidad de ϕ.
Luego E[ϕ(X)] = ϕ(x0 ).
Ejemplo 2: Variables aleatorias discretas
Si X es una función de distribución de una variable discreta que toma finitos valores
x1 , x2 , . . . , xn con probabilidad pi = P {X = xi }, tenemos que:
n
X
F (x) = pi Hxi (x)
i=1
En consecuencia, por la linealidad de la integral de Riemann-Stieltjes respecto a F :
Z b n
X Z b n
X
E[ϕ(X)] = ϕ(x)dF (x) = pi ϕ(x)dHxi = pi ϕ(xi )
a i=0 a i=1
(donde a ≤ xi ≤ b ∀ i). Este resultado coincide con la fórmula anteriormente vista para
E[ϕ(X)] para variables discretas.
Ejemplo 3: Variables aleatorias absolutamente continuas Supongamos que X
es una variable aleatoria continua, que tiene la densidad f (x). Queremos calcular E[X].
Para ello, resultará útil el siguiente lema:
Lema 4.3.3 Supongamos que F : [a, b] → R es una función creciente con derivada continua
F 0 (x) = f (x), entonces
Z b Z b
ϕ(x) dF (x) = ϕ(x) f (x) dx
a a
para toda función ϕ ∈ C[a, b].
Prueba: Por el teorema del valor medio, F (xi+1 ) − F (xi ) = f (ξi )(xi+1 − xi ) para cierto
ξi ∈ (xi , xi+1 ). Entonces, con esta elección de los puntos intermedios, la suma Sπ se puede
escribir como
n−1
X
Sπ = ϕ(ξi )f (ξi )(xxi+1 − xi )
i=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 81
El problema es que este límite puede no existir. Si ϕ es no negativa, podemos decir que
siempre existe, pero puede valer +∞. Adoptaremos pues la siguiente definición.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 82
válida si Z ∞
|ϕ(x)| dF (x) < +∞
−∞
análoga a la proposición 3.2.4. Y cuando X tiene una densidad continua,
Z ∞
E[ϕ(X)] = ϕ(x) f (x) dx
−∞
1/2 si X ≤ 1/2
Y =
X si X > 1/2
Calculemos la función de distribución de Y :
FY (x) = P {Y ≤ x} = P {X ≤ x ∧ 1/2 ≤ x}
Deducimos que:
P (∅) = 0 si x < 1/2
FY (x) = P {X ≤ x} = x si 1/2 ≤ x ≤ 1
1 si x > 1
En el intervalo cerrado [0, 1/2] la función F coincide con la función 12 H1/2 en consecuencia:
Z 1/2 Z 1/2
1 1
x dF = x dH1/2 =
0 2 0 4
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 84
mientras que: Z 1 Z 1
1 1 3
x dF (x) = xdx = − =
1/2 1/2 2 8 8
pues en [1/2, 1] la función F (x) tiene derivada continua F 0 (x) = 1. Concluimos que:
1 3 5
E[Y ] = + =
4 8 8
Otra manera de hacer la cuenta es considerar la función de variable real ϕ(x) =
máx(x, 1/2) y utilizar la fórmula para E[ϕ(X)]:
Z 1 Z 1/2 Z 1
1 3 5
E[ϕ(X)] = máx(x, 1/2) dx = 1/2 dx + x dx = + =
0 0 1/2 4 8 8
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 85
FY (y) = P {Y ≤ y} = P {ϕ(X) ≤ y}
= P {X ≤ ϕ−1 (Y )(y)}
= FX (ϕ−1 (y)) (4.8)
(ln y − µ)2
1
fY (y) = √ exp − y>0
σy 2π 2σ 2
Esta distribución se llama así porque si Y tiene distribución log-normal, entonces
log Y = X tiene distribución normal.
Observación 4.4.3 Como otra aplicación, podemos dar una justificación rigurosa de la
fórmula (4.6) para el caso en que ϕ : R → R es biyectiva y estrictamente creciente. En
efecto, en este caso, y llamamos Y = ϕ(X), haciendo el cambio de variable y = ϕ(x) en la
integral de Stieltjes y teniendo en cuenta que entonces FY (y) = FX (x) por 4.8, obtenemos
que:
∞
Z Z ∞
E[Y ] = y dFY (y) = ϕ(x) dFX (x)
−∞ −∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 87
Dada una función de distribución F : R → [0, 1] (con las propiedades del lema
4.1.7) y si X ∼ U(0, 1), ¿cómo .podemos obtener otra variable aleatoria con
distribución F ?
Prueba: Aproximamos X por una variable aleatoria discreta Xπ . Suponemos primero que
X está concentrada en un intervalo (a, b] y y consideramos una partición π : x0 = a < x1 <
. . . < xn = b de (a, b] con puntos marcados ξk ∈ (xk−1 , xk ]. Definimos
Xπ = ξk si X ∈ (xk , xk+1 ]
Sea Zπ = Xπ + Y .
1. La convolución es conmutativa:
f ∗g =g∗f
(f ∗ g) ∗ h = f ∗ (g ∗ h)
3. Si f y g están soportadas en la semirrecta [0, +∞) (es decir: f (t) = g(t) = 0 si t < 0),
entonces:
Z x
(f ∗ g)(x) = f (t) g(x − t) dt
0
donde
t2 (x − t)2
A(x, t) := +
σ12 σ22
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 90
o sea:
2
σ2 σ12 σ12
1
A(x, t) = 2 2 t−x 2 + − x2
σ1 σ2 σ σ22 σ 2 σ22
Pero
1 σ12 σ 2 − σ12 σ22 1
2 − 2 2 = 2 2 = 2 2 = 2
σ2 σ σ2 σ σ2 σ σ2 σ
Con lo que nos queda finalmente que
2
σ2 σ2
1 2
A(x, t) = 2 2 t − x 12 + x
σ1 σ2 σ σ2
Sustituyendo
Z ∞ ( 2 )
x2 σ2 σ12
1
(f ∗ g)(x) = exp − 2 exp − 2 2 t − x 2 dt
σ1 σ2 2π 2σ −∞ 2σ1 σ2 σ
σ12
u=t−x
σ2
vemos que no depende en realidad de x, y es
Z ∞
σ2 2
I(x) = exp − 2 2 u du
−∞ 2σ1 σ2
x2
1
X + Y ∼ (f ∗ g)(x) = √ exp − 2
σ 2π 2σ
2. Γ(α + 1) = αΓ(α)
3. Γ(k) = (k − 1)! (En consecuencia, la función gama puede pensarse como una gene-
ralización del factorial a valores no enteros de la variable).
√
4. Γ(1/2) = π
Prueba:
La propiedad 1) es inmediata de la definición:
Z ∞ Z R
−x
Γ(1) = e dx = lı́m e−x dx = lı́m 1 − e−R = 1
0 R→+∞ 0 R→+∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 93
Definición 4.6.3 Decimos que X se distribuye según la distribución gama Γ(α, λ) (siendo
α, λ > 0) si su función de densidad de probabilidad es:
λα α−1 −λx
fα,λ (x) = x e I(0,+∞) (x) (4.12)
Γ(α)
4
También tiene importantes aplicaciones en otras ramas de la matemática como la teoría de números, y
aparece en numerosas fórmulas como la del volumen de una bola n-dimensional.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 94
Se deduce que (4.12) es efectivamente una densidad de probabilidades. Más aún esta fórmula
permite calcular fácilmente los momentos de las distribuciones gama: si X ∼ Γ(α, λ),
entonces
Z ∞
λα
k
µk (X) = E(X ) = xα+k−1 e−λx dx
Γ(α) 0
Γ(α + k) α(α + 1) · · · (α + k)
= =
Γ(α)λk λk
En particular, la esperanza y la variancia de la distribución gama son
α
E(X) = µ1 (X) = (4.14)
λ
y
α(α + 1) α 2 α
2
V ar(X) = E(X ) − E(X) = −2
= 2 (4.15)
λ2 λ λ
∞
λα α−1 −λx λα Γ(α + n)
Z
n Γ(α + n)
E(X ) = xn x e dx = α+n
=
0 Γ(α) Γ(α) λ Γ(α)λn
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 95
En particular
Γ(α + 1) α
E(X) = =
Γ(α)λ λ
Γ(α + 2) α2 α(α + 1) α2 α
Var(X) = E(X 2 ) − E(X)2 = 2
− 2
= 2
− 2 = 2
Γ(α)λ λ λ λ λ
Prueba: Según el corolario 4.5.5, X +Y ∼ fα1 ,λ ∗fα2 ,λ . Hemos de calcular esta convolución:
x
λα1 λα2 α2 −1 −αt
Z
(fα1 ,λ ∗ fα2 ,λ )(x) = (x − t)α1 −1 e−λ(x−t) t e dt
0 Γ(α1 ) Γ(α2 )
Z x
λα1 +α2
= (x − t)α1 −1 tα2 −1 dt e−λx
Γ(α1 )Γ(α2 ) 0
Z 1
λα1 +α2
α1 −1 α2 −1
(fα1 ,λ ∗ fα2 ,λ )(x) = (x − xu) (xu) x du e−λx
Γ(α1 ))Γ(α2 ) 0
Z 1
λα1 +α2
= xα1 +α2 −1 (1 − u)α1 −1 uα2 −1 du e−λx
Γ(α1 )Γ(α2 ) 0
λα1 +α2
= B(α1 , α2 ) xα1 +α2 −1 e−λx
Γ(α1 )Γ(α2 )
Notamos que esta es salvo la constante, la densidad gama fα1 +α2 ,λ , pero como la con-
volución de dos densidades de probabilidad es una densidad de probabilidad, y hay una
única constante que hace que la integral sobre (0, +∞) dé 1 deducimos que:
µk = E[X k ] = E[ϕ(X)] k ∈ N
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 97
donde
α(k) = α · (α + 1) · . . . · (α + k − 1)
se llama el símbolo de Pochhammer.
En particular, para k = 1 vemos que la esperanza vale,
α1
E[X] =
α1 + α2
y el momento de segundo orden:
α1 (α + 1)
E[X 2 ] =
(α1 + α2 ) · (α1 + α2 + 1)
Finalmente
α1 α2
Var(X) = E[X 2 ] − E[X]2 = 2
(α1 + α2 ) (α1 + α2 + 1)
P {t < T ≤ t + ∆t}
= P {T > ∆t}
P {T > t}
Llammemos F a la función de distribución de T , y sea G(t) = 1 − F (t). Entonces, esta
igualdad establece que:
G(t + s) = G(t)G(s)
G(t) = e−λt
Por consiguiente la función de distribución de T es:
F (t) = 1 − e−λt
N (t)
≈ P {T > t0 }
N0
y deducimos que:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 99
log 2
T1/2 =
λ
La siguiente tabla muestra por ejemplo los períodos de semi-desintegración de algunos
isótopos radiactivos:
Isótopo T1/2
Berilio-8 10−16 s
Polonio-213 4x10−6 s
Aluminio-28 2.25 min
Yodo-131 8 días
Estroncio-90 28 años
Radio-226 1600 años
Carbono-14 5730 años
Rubidio-87 5,7 × 1010 años
Por otra parte, si suponemos que el tiempo que un átomo tarda en desintegrarse es
independiente de lo que tardan los demás, las Tk+1 − Tk serán variables aleatorias in-
dependientes. Entonces la variable Tn será dada por una suma de n variables aleatorias
independientes, todas con distribución exponencial de parámetro λ.
Como Exp(λ) = Γ(1, λ), deducimos que Tn tiene distribución Γ(n, λ), es decir que se
distribuye según la densidad gn (t) dada por:
Deducimos que:
{D(t0 ) = n} = {Tn ≤ t0 } − {Tn+1 ≤ t0 }
En consecuencia,
Z t0 Z t0
P {D(t0 ) = n} = P {Tn ≤ t0 } − P {Tn+1 ≤ t0 } = gn (t) dt − gn+1 (t) dt
0 0
(λt0 )n −λt0
P {D(t0 ) = n} = e
n!
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 101
Esta densidad se conoce como densidad χ2 con n grados de libertad [abreviada χ2n ]. Las
fórmulas (4.14) y (4.15) nos dicen que si Z ∼ χ2n , entonces
E[Zn ] = n, Var[Zn ] = 2n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 102
(1/2)n/2 2 n/2−1 −z 2 /2
fZn (z) = 2z (z ) ·e
Γ(n/2)
2(1/2)n/2 n−1 −z 2 /2
= z ·e (z > 0)
Γ(n/2)
Vectores Aleatorios
m(B)
P {X ∈ B} = ∀B⊂A
m(A)
104
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 105
(De nuevo, quienes no hayan cursado análisis real pueden pensar que f es integrable
en el sentido de Riemann, y A es cualquier abierto de Rn ).
f (x) = ce−q(x)
F (x1 , x2 , . . . , xn ) = P {X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn }
Figura 5.1: La función de densidad normal bivariada (para dos variables independientes
con esperanza 0 y esperanza 1) dada por la ecuación (5.1).
P {(X, Y ) ∈ R} = P {X ≤ b, Y ≤ d} − P {X ≤ a, Y ≤ d}
− P {X ≤ b, Y ≤ c} + P {X ≤ a, Y ≤ c}
Es decir que:
Similarmente,
FY (y) = lı́m F (x, y)
x→+∞
Ejemplo 5.2.1 Antes consideramos un vector aleatorio (X, Y ) que se distribuía según la
densidad conjunta (5.1). Entonces, en este caso
Z ∞
fX (x) = f (x, y) dy
−∞
Z ∞
1 2 1 2 1 2
= √ e−x /2 √ e−y /2 dy = √ e−x /2
2π −∞ 2π 2π
Luego X ∼ N (0, 1). Similarmente, por simetría,
1 2
fY (y) = √ e−y /2
2π
y también Y ∼ N (0, 1).
donde la integral que aparece en el segundo miembro es una integral doble de Riemann-
Stieltjes.
Para definir este concepto puede procederse como en análisis II, considerando primero
la integral
Z bZ d
ϕ(x, y) dF (x, y) (5.6)
a c
en un rectángulo R = (a, b] × (c, d] de R2 . Consideramos una partición π del rectángulo R
en rectángulos más pequeños Rij = (xi , xi+1 ] × (yj , yj+1 ], definida por una partición πx del
intervalo [a, b]:
a = x0 < x 1 < . . . < x M = b
y otra partición πy del intervalo [c, d]:
a = y0 < y 1 < . . . < y N = b
Elegimos puntos intermedios ξi ∈ [xi , xi+1 ] y ηj ∈ [yj , yj+1 ], y consideramos sumas de
Riemann-Stieltjes dobles:
M
X −1 N
X −1
Sπ (ϕ, F ) = ϕ(ξi , ηj )∆F (Rij )
i=0 j=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 109
siendo
∆F (Rij ) = F (xi+1 , yj+1 ) − F (xi , yj+1 ) − F (xi+1 , yj ) + F (xi , yj )
que de acuerdo a la fórmula (5.2), representa la probabilidad de que el vector (X, Y ) tome
un valor en el rectángulo Rij .
Definamos la norma |π| de la partición π como el máximo de las normas de las par-
ticiones πx y πy . Entonces si, cuando la norma de la partición π tiende a cero, las sumas
S(π, F ) convergen a un número I, diremos que la integral (5.6) existe, y que toma el valor
I. Análogamente a lo que sucede en el caso unidimensional, podemos demostrar que esto
sucede si F es la función de distribución de un vector aleatorio, y ϕ es continua.
La intergral impropia, sobre todo el plano, que aparece en la fórmula (5.5) puede defi-
nirse como el límite de integrales sobre rectángulos:
Z ∞ Z ∞ Z bZ d
ϕ(x, y) dF (x, y) = lı́m ϕ(x, y) dF (x, y)
−∞ −∞ a,c→−∞;b a c
d→+∞
Para justificar intuitivamente la fórmula (5.5) podemos proceder como en el caso dis-
creto, definiendo variables aleatorias discretas Xπ e Yπ que aproximan a X e Y por:
Xπ = ξi si X ∈ (xi , xi+1 ]
Yπ = ηj si Y ∈ (yj , yj+1 ]
y observando que:
E[ϕ(Xπ , Yπ )] = Sπ (ϕ, F )
Por lo que cuando la norma de la partición π tiende a cero, obtenemos formalmente la
fórmula (5.5).
El caso que más nos va a interesar, es cuando el vector aleatorio (X, Y ) se distribuye
según una densidad conjunta f (x, y). En este caso, como ocurría en el caso unidimensional,
la esperanza de ϕ(X, Y ) puede calcularse mediante una integral de Riemann ordinaria, en
lugar de una integral de Riemann-Stieltjes:
Z ∞Z ∞
E[ϕ(X, Y )] = ϕ(x, y) f (x, y) dx dy (5.7)
−∞ −∞
Z ∞ Z ∞
Cov(X, Y ) = (x − µX )(y − µY ) dF (x, y)
−∞ −∞
en el caso , y
Z ∞ Z ∞
Cov(X, Y ) = (x − µX )(y − µY ) f (x, y) dx dy
−∞ −∞
Z ∞ Z ∞
Cov(X, Y ) = xy f (x, y) dx dy
Z−∞ −∞
∞ Z ∞
1 2 1 2
= x · y · √ e−x /2 · √ e−y /2 dx dy
2π 2π
−∞
Z ∞
−∞
Z ∞
1 −x2 /2 1 −y2 /2
= x· √ e dx · y·√ e dy
−∞ 2π −∞ 2π
= E[X] · E[Y ] = 0
En esta integral, hagamos el cambio de variable y = ϕ(x), x = ϕ−1 (y). Entonces, según
el teorema de cambio de variable
Z
P {Y ∈ W } = f (ϕ−1 (y))|detD(ϕ−1 )(y)|dy
W
5.5. Independencia
En el capítulo anterior anterior (definicion 4.5.1) introdujimos la noción de variables
aleatorias independientes en el caso continuo. Vamos a dar una caracterización de la inde-
pendencia en términos de la función de densidad de probabilidad conjunta. Para probarlo,
necesitaremos un lema de análisis, que generaliza el teorema fundamental del cálculo para
integrales bidimensionales:
Prueba: Como f es continua en (x0 , y0 ), dado ε > 0 podemos elegir δ > 0 tal que
Teorema 5.5.2 Supongamos que el vector (X, Y ) admite una densidad conjunta continua
f (x, y). Entonces las variables X e Y son independientes, si y sólo si f se factoriza en la
forma:
f (x, y) = fX (x)fY (y)
siendo fX y fY las densidades marginales de probabilidad.
donde
1 2
fX (x) = √ e−x /2
2π
1 2
fY (y) = √ e−y /2
2π
vemos que esta densidad describe dos variables con distribución normal estándar N (0, 1)
independientes.
Corolario 5.5.4 Si X e Y son variables aleatorias independientes con esperanza finita, que
se distribuyen según una densidad conjunta continua f (x, y) entonces XY tiene esperanza
finita y se tiene que
E[XY ] = E[X]E[Y ]
3
La propiedad vale aunque X e Y no admitan una densidad conjunta continua. Una demostración se da
en el apéndice E pero utilizando la integral de Lebesgue.
4
Para justificar rigurosamente este cálculo, hay que hacerlo primero con |xy| en lugar de xy, lo que con-
duce a E(|XY |) = E(|X|)E(|Y |), con lo que se establece que la integral doble es absolutamente convergente
y se justifica la aplicación del teorema de Fubini.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 115
(X, Y ) ∼ f (x)g(y)
Z
fXk (x) = f (x1 , x2 , . . . , xk−1 , x, xk+1 , . . . , xn ) dx1 dx2 . . . dxk−1 dxk+1 . . . dxn
Rn−1
n
Y
I= (ak , bn ]
k=1
se verifica que:
n
Y
P {X ∈ I} = P {ak < Xk ≤ bk }
k=1
X (1) = mı́n Xi
1≤i≤n
X (n) = máx Xi .
1≤i≤n
o sea
n
Y
FX (n) (x) = FXi (x) = F n (x)
i=1
La variable aleatoria
n
X
N= Zi
i=1
representa el número total de observaciones Xi que son menores o iguales que x. Notamos
que
N ∼ Bi(n, p)
Entonces
n
X
(k)
P {X ≤ x} = P {N ≥ k} = b(j, n, p)
j=k
donde
n j n−j
b(j, n, p) = p q q =1−p
j
O sea:
n
X n
FX (k) (x) = F (x)j [1 − F (x)]n−j
j
j=k
5.7.4. Un ejemplo
Ejercicio 5.7.2 (Ejercicio 9, práctica 6) Sean X1 , . . . , Xn variables aleatorias indepen-
dientes con distribución exponencial de parámetros α1 , . . . , αn respectivamente. Mostrar que
la distribución de X (1) es exponencial. ¿De qué parámetro?
Entonces
entonces los estadísticos de orden X (k) también son variables continuas con la densidad
fX (k) (x) = ck [F (k)]k−1 (1 − F (x))n−k f (x)
donde
m! n−1 n
ck = =n =k
(k − 1)!(n − k)! k−1 k
Idea de la Demostración: Antes vimos que
n
X n
FX (k) (x) = F (x)j [1 − F (x)]n−j
j
j=k
Derivando
n
X n
jF (x)j−1 [1 − F (x)]n−j − (n − j)F (x)j [1 − F (x)]n−j−1 f (x)
fX (k) =
j
j=k
Pero
n n! (n − 1)! n−1 n−1
j =j· =n· =n = (n − j)
j j!(n − j)! (j − 1)!(n − j)! j−1 j
¡Entonces la suma es telescópica y sólo sobrevive un término! (les dejo terminar la cuenta
como ejercicio)
y
X = R · cos W, Y = R · sen W
Caracterizar la distribución del vector (X, Y ).
r2 2
−2 log u ⇔ r2 = −2 log r ⇔ − = log u ⇔ u = e−r /2
p
r=
2
w
w = 2πv ⇔ v =
2π
Además observamos que
Pero
f(U,V ) (ϕ−1
1 (r, w)) = IΩ2 (z, w) = I(0,∞) (r) · I(0,2π) (w)
El jacobiano es:
2
re−r
−1 0 1 −r2 /2
| det D(ϕ )(z, w)| = det 1 = ze
0 2π 2π
Luego
1 −r2 /2
f(R,W ) (r, w) =
re I(0,∞) (r) · I(0,2π) (w)
2π
Notamos que R y W son independientes. W ∼ U (0, 2π) mientras que R ∼ χ2 (una de las
distribuciones que introdujimos en la clase 11).
Ahora hacemos un nuevo cambio de variable ϕ2 : Ω2 → Ω3 = R2 dado por
Este cambio de variable lo conocemos bien: es el cambio de variables polares. Sabemos que
su jacobiano es r, y que podemos hacerlo biyectivo quitando un conjunto de área cero.
Entonces, el teorema de cambio de variable se aplica también. Además
r 2 = x2 + y 2
La cuenta del ejercicio es la misma que la que se hace en análisis 2 para calcular el
área bajo la curva normal.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 122
Y la diferencial de ϕ−1 es
v u
Dϕ−1 (u, v) =
0 1
de modo que el Jacobiano es v. De acuerdo a la proposición 5.4.1, encontramos que el
vector (U, V ) se distribuye según la densidad conjunta
fX (tv)fY (v)v
(1/2)n/2 2
fY (y) = (ny 2 )n/2−1 e−ny /2 2ny I(0,+∞) (y)
Γ(n/2)
2nn/2 2
= n/2
y n−1 e−ny /2 I(0,+∞) (y)
2 Γ(n/2)
∞ (n−1)/2
2(1−n)/2 nn/2 1
Z
−x 2x
fT (t) = √ e dx
Γ(n/2) π n + t2 0 n + t2
Z ∞
nn/2 1
= √ e−x x(n−1)/2 dx
Γ(n/2) π (n + t2 )(n+1)/2 0
nn/2
n+1 1
= √ Γ
Γ(n/2) π 2 (n + t )(n+1)/2
2
n(n+1)/2
1 n+1
= √ Γ
Γ(n/2) nπ 2 (n + t2 )(n+1)/2
Finalmente obtenemos
−(n+1)/2
Γ n+1
t2
fT (t) = 2√
1+ (t > 0) (5.14)
Γ(n/2) nπ n
Esta distribución se conoce como distribución t de Student con n grados de libertad. Surge
del problema de estimar la media de una población normalmente distribuida cuando el
tamaño de la muestra es pequeño y la desviación estándar poblacional es desconocida.
Un dato curioso: La distribución de Student fue descripta en el año 1908 por William
Sealy Gosset. Gosset trabajaba en una fábrica de cerveza, Guinness, que prohibía a sus
empleados la publicación de artículos científicos debido a una difusión previa de secretos
industriales. De ahí que Gosset publicase sus resultados bajo el pseudónimo de “Student”.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 124
Figura 5.2: Gráfico de la densidad t de Student. Cuando n → +∞, estas curvas convergen
a la densidad normal estándar (¡ejercicio fácil de límites!).
Vamos a escribir los vectores como columnas. El producto escalar lo podemos escribir así:
x1 y1
x2 y2 n t
x= . . . , y = . . . ∈ R ⇒ hx, yi = x · y
xn yn
125
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 126
Recíprocamente, cada forma cuadrática está asociada a una única matriz simétrica.
Veamos cómo:
con
1 −3 −4
B = −3 4 0
−4 0 −1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 127
Teorema 6.1.2 Sea A ∈ Rn×n una matriz simétrica, (λk ) sus autovalores, y qA su forma
cuadrática asociada.
Curvas de nivel
En n = 2, las curvas de nivel de una forma cuadrática definida positiva son elipses.
Veámoslo en el ejemplo
2
1 3
qA (x) = x21 − x1 x2 + x22 = x1 − x2 + x22
2 4
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 128
Cov(X1 , X1 ) Cov(X1 , X2 ) . . . Cov(X1 , Xn )
Cov(X2 , X1 ) Cov(21 , X2 ) . . . Cov(X2 , Xn )
ΣX = Cov(X) = ∈ Rn×n
...
Cov(Xn , X1 ) Cov(Xn , X2 ) . . . Cov(Xn , Xn )
Notamos que es una matriz simétrica. También podemos escribir:
Cov(X) = E[(X − µX ) · (X − µX )t ]
Notamos que en la diagonal de la matriz de covariancias Cov(X) aparecen las variancias
2
σX i
= Cov(Xi , Xi ) = Var(Xi )
Otra observación interesante es que si las componentes del vector X son independientes,
entonces serán no correlacionadas
Cov(Xi , Xj ) = 0 si i 6= j
por lo que la matriz Cov(X) será diagonal.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 129
mientras que:
Cov[Y ] = E[(X − µY ) · (Y − µY )t ]
= E[((A · µX + b)) − (A · µX + b)) · (A · X + b − (A · µX + b))t ]
= E[(A · (X − µ)) · (A · (X − µX ))t ]
= E[A · (X − µ)) · (X − µX )t · At ]
= A · E[(X − µ)) · (X − µX )t ] · At
= A · Cov(X) · At
o sea:
ΣY = A · ΣX · At
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 130
Además, es definida positiva, salvo en el caso en que la distribución del vector X está
concentrada en un hiperplano afin H, es decir cuando existe un hiperplano afín
H = {x ∈ Rn : α1 · x1 + α2 · x2 + . . . + αn · xn = b}
tal que
P {X ∈ H} = 1
q(α) = E[(α1 X1 + α2 X2 + . . . + αn · Xn )2 ] α ∈ Rn
Algunas observaciones
Para simplificar, vamos a considerar primero el caso especial donde b = ~0. (distribu-
ción normal multivariada centrada en el origen)
Ya vimos que entonces la esperanza y varianza de Y serán
µY = A · µX = ~0
ΣY = A · ΣX · At = A · At
[Ojo: ¡en esta expresión el orden importa, no siempre una matriz A conmuta con su
transpuesta At !]
Esta es una matriz matriz simétrica definida positiva asociada a la forma cua-
drática q(x) = kAt · xk2 pues
q(x) = (At · x)t · (At · x) = xt · (A · At ) · x
y como A es no singular, At también con lo que q(x) = 0 si y sólo si x = 0.
Un caso especial
Un caso de especial interés es cuando la matriz A con la que hacemos el cambio de
variable es ortogonal Y = A · X, lo que siginifca que Σ = A · At = I. También det(Σ) = 1.
Por lo que obtenemos que fY = fX , o sea:
Caso general
Si b ∈ Rn es cualquiera y A ∈ Rn×n es una matriz no singular, a partir de Y = A · X + b
obtendríamos que
µY = E[Y ] = b
y que
Σ = Cov(Y ) = A · At
mientras que la densidad de Y será
1 1 t Σ−1 (y−µ)
fY (y) = p e− 2 (y−µ)
(2π)n det(Σ)
Algunas observaciones
Proposición 6.3.2 Si X tiene distribución normal multivariada, son equivalentes:
Las componentes Xj de X son independientes.
Las Xj no están correlacionadas, o sea
Cov(Xi , Xj ) = 0 si i 6= j
o sea la matriz Cov(X) es diagonal.
Recordamos que esta propiedad NO es cierta para vectores aleatorios en general.
Teoría de la predicción
y
Var(X) = E(X 2 ) − E(X)2
Por lo que las variables aleatorias en L2 tienen esperanza y varianza finitas.
L2 (Ω) es un espacio normado con la norma
hX, Y i = E(X · Y )
P {X = Y } = 1
134
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 135
S2 = {αX + β : α, β ∈ R} = h1, Xi
La idea es que queremos usar Yb para predecir el valor de Y , por eso en la teoría de
probabilidades se lo llama un predictor de Y .
¿Cuál es la mejor manera de elegir Yb ? Eso depende de cómo midamos el error en la
aproximación. Vamos a usar el criterio del error cuadrático medio. Queremos minimizar
ECM(Y, Yb ) = E(|Y − Yb |2 ) = kY − Yb k2
d(x, s) = kx − sk x ∈ S
x0 − s 0 ∈ S ⊥
o sea
hx0 − s0 , si = 0 para todo s ∈ S (7.1)
Nuestro V = L2 (Ω) es un espacio de dimensión infinita, pero este lema funciona exac-
tamente igual que en dimensión finita (y con la misma prueba).
Si S fuera de diemnsión finita, es suficiente verificar la condición de ortogonalidad (7.1)
para s en una base de S.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 136
hY − Yb , 1i = 0
o sea:
E[(Y − Yb ) · 1] = 0
Como Yb es constante, esto nos dice que el mejor predictor de Y es:
Y
c0 = E[Y ]
S2 = {αX + β : α, β ∈ R} = h1, Xi
(subespacio de dimensión 2). Según el lema, las condiciones de ortogonalidad que debe
verificar el predictor óptimo son:
hY − Yb , 1i = 0
hY − Yb , Xi = 0
o sea:
E[(Y − Yb ) · 1] = 0
E[(Y − Yb ) · X] = 0
Entonces los coeficientes α, β para el predictor óptimo deben satisfacer que
E[(Y − αX − β) · 1] = 0
E[(Y − αX − β) · X] = 0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 138
E[(Y − αX − β) · E[X]] = 0
E[(Y − αX − β) · (X − E(X))] = 0
por lo tanto
E[(Y − E(Y )) − α(X − E(X))] · (X − E(X))] = 0
Entonces distribuyendo la esperanza, obtenemos
Teorema 7.5.1 Sea Yb0 el predictor de menor error cuadrático medio en S2 . Vine dado
por Yb0 = αX + β donde α y β se determinan por las ecuaciones:
Cov(X, Y )
α=
Var(X)
β = E(Y ) − αE[X]
Var(Y ) + Cov
2
Var(X) − Var(Y )
(X,Y )
EM C1 − EM C2
=
ECM1 Var(Y )
Cov2 (X, Y )
= = ρ2 (X, Y )
Var(X)Var(Y )
Esto permite interpretar el coeficiente ρ2 (X, Y ) como el decrecimiento relativo del error
cuadrático medio cuando se usa un predictor lineal basado en X en vez de un predictor
constante. Por lo tanto ρ2 (X, Y ) mide la utilidad de la variable X para predecir a Y por
una función lineal.
¿Qué significaría |ρ| = 1?. Según la fórmula anterior, esto implica que
# x uniforme en (0 ,30)
Nota: Este capítulo está basado en las notas de Victor Yohai [Yoh], aunque preferimos utilizar
el lenguaje de álgebra lineal abstracta (análisis funcional) para hacer explícito el uso de la proyección
ortogonal. Y hemos agregado este último ejemplo para ilustrar cómo realizar una regresión lineal
en la computadora.
Capítulo 8
Convergencia de Variables
Aleatorias, y Ley Fuerte de los
Grandes Números
Definición 8.1.1 Sea (Xn )n∈N una sucesión de variables aleatorias, definidas sobre un
mismo espacio de probabilidad (Ω, E, P ). Se dice que (Xn ) converge en probabilidad a
la variable X si para todo ε > 0, tenemos que
Notación:
P
Xn −→ X
142
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 143
Prueba:
P {|Xn − X| > δ} = P {|Xn − X| > δ/X = 0} · P {X = 0}
+ P {|Xn − X| > δ/X 6= 0} · P {X 6= 0}
= P {|Xn | > δ} = 0
si 1
n < δ o sea n > 1δ , ya que |Xn | ≤ 1
n con probabilidad 1.
Ejemplo 8.1.3 (Variables con distribución normal que se concentran) Si Xn ∼ N (0, σn2 )
donde σn → 0 y X = 0 con probabilidad 1. Entonces Xn −→ X.
P
Prueba:
P {|Xn − X| > δ} = P {|Xn − X| > δ/X = 0} · P {X = 0}
+ P {|Xn − X| > δ/X 6= 0} · P {X 6= 0}
1
= P {|Xn | > δ} ≤ 2 Var(Xn )
δ
σn2
= 2 →0
δ
cuando n → +∞, por la desigualdad de de Chebyshev.
Veamos algunas propiedades de la convergencia en probabilidad:
con probabilidad 1.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 144
Si c = 0 es trivial.
Prueba:
Observación 8.1.7 Sea X : Ω → R una variable aleatoria finita en casi todo punto.
Entonces X está acotada en probabilidad en el siguiente sentido, dado ε > 0 existe k0 > 0
tal que
ε
P {|X| ≥ k0 } <
2
es una serie convergente, por consiguiente dado ε > 0, existirá un k0 tal que:
∞
X ε
P {k − 1 ≤ |X| ≤ k} <
2
k=k0 +1
Es decir que:
ε
P {|X| ≥ k0 } <
2
para todo n.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 145
Deducimos que:
y en consecuencia que
P {|Xn | > k0 + δ} ≤ ε
si n ≥ n0 (ε). Como hay una cantidad finita de valores de n < n0 combinando esto con la
observación anterior, se obtiene el resultado.
Prueba:
ε
P {|Xn Yn | > ε} = P |Xn | >
|Yn |
ε ε
≤ P |Xn | > ∧ |Yn | ≤ M + P |Xn | > ∧ |Yn | > M
|Yn | |Yn |
n ε o
≤ P |Xn | > + P {|Yn | > M } < ε
M
si n ≥ n0 (ε).
XY − Xn Yn = XY − Xn Y + Xn Y − Xn Yn = (X − Xn )Y + Xn (Yn − Y )
Notación:
c.s.
Xn −→ X
Ω = [0, 1]
P (E) = m(E). Comentamos que es una medida σ-aditiva que extiende la medida
elemental de uniones finitas intervalos.
E ⊂ P([0, 1]) será la σ-álgebra de Borel de [0, 1], generada por los sub-intervalos de
[0, 1].
Recordamos que una forma de pensarlo es que elegimos los dígitos binarios de un
número real en [0, 1] tirando infinitas veces una moneda equilibrada (ensayos de Bernoulli
con probabilidad de éxito 1/2).
Para n ∈ N, definimos los intervalos
j j+1
Jn = k , k
2 2
donde k = k(n) = [log2 (n)] y j = j(n) cumple que n = 2k + j con j ∈ {0, 1, 2, . . . , 2j−1 }.
Definimos Xn : [0, 1] → R como la función indicadora del intervalo Jn .
1 si ω ∈ Jn
Xn (ω) =
0 si ω 6∈ Jn
¡Cuando usamos el espacio muestral Ω = [0, 1] las funciones reales se vuelven variables
aleatorias!
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 148
Pero dado cualquier ω ∈ [0, 1], hay infinitos n tales que ω ∈ Jn , o sea Xn (ω) = 1. Por
lo que Xn no converge en forma casi segura a cero.
entonces
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 149
i) Si
∞
(8.1)
X
P (An ) < +∞
n=1
P (A∞ ) = 0
P (A∞ ) = 1
Prueba: Demostración de i): Dado ε > 0, teniendo en cuenta la hipótesis (8.1), podemos
elegir k tal que
X∞
P (An ) < ε
n=k
P (A∞ ) = 0
ya que como los eventos (An ) son independientes, también lo son sus complementos. Ahora
utilizando la desigualdad elemental
tenemos que:
l l l
! !
\ Y X
−P (An )
P Acn ≤ e = exp − P (An )
n=k n=k n=k
(ya que el segundo miembro de la desigualdad anterior tiende a cero cuando l → ∞).
Entonces, por la σ-subaditividad de la probabilidad,
∞
X [ \
P (Ac∞ ) ≤ P Acn = 0
k=1 k∈N n≥k
deducimos que
P (A∞ ) = 1
Solución: El mono teclea letras de un alfabeto con N caracteres. Cada caracter tiene
probabilidad pk > 0 de ser pulsado cada vez que el mono pulsa una tecla, de modo que
N
X
pk = 1, pk > 0
k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 151
diverge. Entonces por el lema de Borel Cantelli (parte II), con probabilidad 1 ocurrirán
infintos de los sucesos An , o sea el mono tecleará infinitas veces el Aleph.
Obviamente este ejemplo es una abstracción matemática: en la realidad no funciona,
¡porque la vida del mono no es infinita! ¡Y el lema de Borel-Cantelli no nos dice nada sobre
cuánto tiempo tendremos que esperar hasta que el mono teclee por puro azar nuestra obra
literaria favorita!.
Prueba: El lema de Borel Cantelli (parte I) implica que si llamamos An,ε al evento
entonces, con probabilidad 1 ocurren sólo finitos de los sucesos An,ε , es decir que el evento
\ [
A∞,ε = An,ε
k∈N n≥k
B = {ω ∈ Ω : Xn (ω) 6→ X(ω)}
1
= ω ∈ Ω : ∃m ∈ N ∀k ∈ N ∃n ≥ k : |Xn (ω) − X(ω)| >
m
[
= A∞,1/m
m∈N
Como aplicación del lema de Borel-Cantelli, se tiene el siguiente criterio para la con-
vergencia casi segura:
Nos queda:
4
Xn n
X n
X
E aj Xj = a4i E[Xi4 ] + 6 a2i a2j E[Xi2 Xj2 ]
j=1 i=1 i,j=1,i<j
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 154
X1 + X2 + . . . Xn c.s.
−→ µ
n
cuando n → +∞.
E Sn4 ≤ 3m4 n2
converge, el criterio para la convergencia casi segura que vimos antes (con p = 4),
implica que
Sn c.s.
−→ 0
n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 155
donde llamamos p a la probabilidad del éxito (Este enunciado que se conoce como la ley
fuerte de los grandes números de Borel, es un caso particular del teorema anterior. Notamos
que la hipótesis de que las Xi tengan cuarto momento finito, se satisface trivialmente ).
¿Pero qué significa exactamente esto? ¿cuál es el espacio muestral para este experimento
compuesto ?. Como dijimos anteriormente, el espacio muestra podemos representarlo como
donde ωi representará el resultado del i-ésimo ensayo. Entonces, las variables aleatorias Xi
se definen sencillamente por:
Xi (ω) = ωi
Para poder darle sentido a la afirmación (8.3), debemos decir cómo asignamos proba-
bilidades en el espacio Ω. El caso más sencillo es cuando p = q = 1/2 (éxito y fracaso
equiprobables).
En se caso, definamos para ello la función
φ : Ω → [0, 1]
por
∞
X ωi
φ(ω) =
2i
i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 156
En otras palabras, para cada ω ∈ Ω, φ(ω) será el número en [0, 1] cuyo desarrollo binario
tiene por dígitos a los ωi .
Podemos definir entonces la sigma-álgebra E como:
y la probabilidad P por
P (E) = m(ϕ(E))
donde m denota la medida de Lebesgue (ver la discusión en la sección 1.5).
Ejercicio: Comprobar que la función P así definida asigna correctamente las probabi-
lidades, en el sentido de que
P ({ω ∈ Ω : ω1 = x1 , ω2 = x2 , . . . , ωn = xn }) = 2−n
#{i : 1 ≤ i ≤ n, ωi = d}
fn =
n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 157
1 si ωi = d
Xi =
0 si ωi 6= d
y resulta que
P ({ω ∈ Ω : ω1 = d1 , ω2 = d2 , . . . , ωn = dn }) = b−n
P ({ω ∈ Ω : X1 = x1 , X2 = x2 , . . . , Xn = xn }) = pk q n−k
donde k = Sn (ω), p = 1/b, q = 1 − 1/b. En particular las variables Xi son de nuevo
independientes. Se deduce
1
fn → (8.4)
b
con probabilidad 1, o lo que es equivalente fn tiende a cero para casi todo x ∈ [0, 1] (o sea:
salvo para los x en un conjunto de medida cero en el sentido de Lebesgue). Los números que
verifican la relación (8.4) para todo dígito d ∈ D fueron denominador por Borel números
(simplemente) normales en la base b. Se deduce de lo demostrado que casi todo número es
simplemente normal en la base b.
Más aún, Borel definió los números absolutamente normales como aquellos que son
simplemente normales en cualquier base b ≥ 2. Como la unión numerable de conjuntos de
medida cero en el sentido de Lebesgue también tiene medida cero, se deduce el siguiente
teorema:
Teorema 8.7.2 (de Borel, [Bor09]) Casi todo número real del intervalo [0, 1] es absoluta-
mente normal.
Nota: Aunque este teorema implica que existen números absolutamente normales, su prueba
no es constructiva en el sentido que no nos provee ningún ejemplo de un número absolutamente
normal. El primer ejemplo fue dado por Sierpinski en 1916 [Sie17]. Ver también [BF02] para una
versión computable de la construcción de Sierpinski.
Capítulo 9
Convergencia en Distribución
Convergencia en Distribución
Definición 9.0.1 Se dice que una sucesión de variables aleatorias Xn converge en dis-
tribución a la variable aleatoria X, si
mente distribuidas)
D
Xn + c −→ X + c.
158
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 159
D
Xn −→ X.
X − |X − Xn | ≤ Xn
{Xn ≤ x0 } ⊂ {X ≤ x0 + ε} ∪ {|Xn − X| ≥ ε}
Tomamos probabilidad. Usamos que es creciente y subaditiva:
P {Xn ≤ x0 } ≤ P {X ≤ x0 + ε} + P {|Xn − X| ≥ ε}
Similarmente
Xn ≤ X + |Xn − X|
Si X ≤ x0 − ε y |Xn − X| ≤ ε ⇒ Xn ≤ x0 . Lo podemos traducir en una inclusión de
conjuntos:
{X ≤ x0 − ε} ∩ {|Xn − X| ≤ ε} ⊂ {Xn ≤ x0 }
Tomamos complemento. La inclusión se da vuelta, y usamos las leyes de De Morgan.
o
FX (x0 − ε) − P {|Xn − X| > ε} ≤ FXn (x0 )
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 161
FX (x0 − ε) ≤ lı́m inf FXn (x0 ) ≤ lı́m sup FXn (x0 ) ≤ FX (x0 + ε)
n→+∞ n→+∞
Es decir que
lı́m FXn (x0 ) = FX (x0 )
n→+∞
Prueba: Dado ε > 0, por el corolario F.0.3 del apéndice F (teorema de existencia para
la integral de Riemman-Stieltjes; corolario sobre la convergencia uniforme respecto de la
función de distribución), existirá un δ > 0 tal que:
Z b
ϕ(x) dFn (x) − Sπ (ϕ, Fn ) < ε
a
para todo n, y también
Z b
ϕ(x) dF (x) − Sπ (ϕ, F ) < ε
a
para cualquier partición π de [a, b] que verifique que |π| < δ (Pues Fn (1) − Fn (0) ≤ 1).
Fijemos una partición cualquiera π de [a, b] tal que |π| < δ. Claramente podemos elegir
los puntos de subdivisión de esta partición π para que sean puntos de continuidad de F
(pues el conjunto de puntos de discontinuidad de F es a lo sumo numerable, y por lo tanto
su conjunto de puntos de continuidad es denso en [a, b]).
Entonces notamos que como hay finitos puntos en la partición, claramente tendremos
que:
Z ∞ Z ∞ Z ∞ Z R
ϕ(x) dFn (x) − ϕ(x) dF (x) ≤ ϕ(x) dFn (x) − ϕ(x) dF (x)
−∞ −∞ −∞ −R
Z R Z R
+ ϕ(x) dFn (x) − ϕ(x) dF (x)
−R −R
Z ∞ Z ∞
+ ϕ(x) dF (x) − ϕ(x) dF (x) < 4ε
−∞ −∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 164
La función de Cauchy
Para construir una función de prueba no nula, comenzamos considerando la función
f : R → R dada por
si x > 0
−1/x
e
f (x) =
0 si x ≤ 0
Esta función es C ∞ (no tiene soporte compacto). Notamos que
f (k) (0) = 0 para todo k
por lo que el polinomio de Taylor de f de grado k en el origen es el polinomio nulo para
todo k, aunque la función f no es idénticamente nula.
Escalones suaves
Consideremos ahora la función h : R → R dada por
1 x
Z
h(x) = g(x)dx para − 1 ≤ x ≤ 1
c −1
Lema 9.3.1 Para cada x0 ∈ R y cada δ > 0, existe ϕδ de clase C ∞ tal que:
0 ≤ ϕδ (x) ≤ 1.
ϕδ (x) = 1 si x ≤ x0 .
ϕδ (x) = 0 si x ≥ x0 + δ.
Similarmente, podemos aproximar I≤x0 por la izquierda, por funciones suaves, definien-
do
x − x0
ϕ−δ (x) = 1 − h +1
δ
Lema 9.3.2 Para cada x0 ∈ R y cada δ > 0, existe ϕ−δ de clase C ∞ tal que:
0 ≤ ϕ−δ (x) ≤ 1.
ϕ−δ (x) = 1 si x ≤ x0 − δ.
ϕδ (x) = 0 si x ≥ x0 .
(c) La función h.
Prueba: Tenemos que probar que FXn (x0 ) → FX (x0 ) cuando n → +∞, para cada punto
de continuidad x0 de FX . Para ello, la idea es usar los escalones suaves ϕδ . Primero por la
derecha
Dado ε > 0, afirmamos que si δ es suficientemente pequeño,
ε
|E[ϕδ (X)] − FX (x0 )| < (9.3)
2
Notamos que:
Z ∞
E[ϕδ (X)] = ϕδ (x) dFX (x)
−∞
Z x0 Z x0 +δ Z ∞
= ϕδ (x) dFX (x) + ϕδ (x) dFX (x) + ϕδ (x) dFX (x)
−∞ x0 x0 +δ
Z x0 Z x0 +δ Z ∞
= 1 dFX (x) + ϕδ (x) dFX (x) + 0 dFX (x)
−∞ x0 x0 +δ
Z x0 +δ
= FX (x0 ) + ϕδ (x) dFX (x)
x0
Entonces
Z x0 +δ
|E[ϕδ (X)] − FX (x0 )| = ϕδ (x) dFX (x) ≤ FX (x0 + δ) − FX (x0 )
x0
que:
FXn (x0 ) = P {X ≤ x0 } = E[I≤x0 (X)]
≤ E[ϕδ (Xn )]
ε
≤ E[ϕδ (X)] + por (9.4)
2
≤ FX (x0 ) + ε por (9.3)
si n ≥ n0 (ε). Como ε > 0 es arbitrario, hemos probado que
lı́m sup FXn (x0 ) ≤ FX (x0 ) (9.5)
n→+∞
Para probar que FXn (x0 ) → FX (x0 ), necesitamos demostrar también una desigualdad
en el sentido contrario.
Para ello, aproximamos I(−∞,x0 ] por escalones suaves desde la izquierda.
El argumento entonces es similar. Usando la continuidad de F en x0 por la izquierda
tendremos que si δ es suficientemente pequeño,
ε
|E[ϕ−δ (X)] − FX (x0 )| < (9.6)
2
ya que
Z x0
|E[ϕ−δ (X)] − FX (x0 )| = ϕ−δ (x) dFX (x) ≤ FX (x0 ) − FX (x0 − δ)
x0 −δ
Fijamos un δ = δ(ε) tal que se verifique (9.6). Usando la hipótesis, dado ε > 0, existirá
un n0 tal que si n ≥ n0 tenemos que,
ε
|E[ϕ−δ (Xn )] − E[ϕ−δ (X)]| < (9.7)
2
Ahora notamos que ϕ−δ ≤ I≤x0 , luego
FXn (x0 ) = P {Xn ≤ x0 } = E[I(−∞,x0 −δ] (Xn )]
≥ E[ϕ−δ (Xn )]
ε
≥ E[ϕ−δ (X)] − por (9.7)
2
≤ FX (x0 ) − ε por (9.6)
si n ≥ n0 (ε). Como ε > 0 es arbitrario, hemos probado que
lı́m inf FXn (x0 ) ≥ FX (x0 ) (9.8)
n→+∞
La razón por la que será útil para nosotros considerar funciones de prueba C ∞ con
soporte compacto en el enunciado de este teorema, es que las utilizaremos en la prueba del
teorema 10.9.1.
Un lema previo
Lema 9.4.3 Si una sucesión de variables aleatorias (Xn ) verifica la hipótesis del recíproco
fuerte del teorema de Hellly-Bray, entonces es acotada en probabilidad, o equivalentemente
(FXn ) es ajustada. Dado, ε > 0 existe Nε tal que
P {|X| > Nε } < ε para todo n ∈ N
Prueba: Por la observación 8.1.7, sabemos que si X es una variable aleatoria finita en casi
todo punto. está acotada en probabilidad: dado ε > 0 existe Mε tal que
P {|X| > Mε } < ε
Elegimos ϕ C ∞ con soporte en Kε = [−2Mε , 2Mε ] tal que ϕ ≥ 1 en Jε = [−Mε , Mε ].
Entonces IKε ≥ ϕ, luego
P {|Xn | ≤ 2Mε } = E[IKε (Xn )] ≥ E[ϕ(Xn )]
Y por lo tanto si n ≥ n0 (ε) tendremos
P {|Xn | ≤ 2Mε } ≥ E[ϕ(X)] − ε
Pero ϕ ≥ IJε , luego
E[ϕ(X)] ≥ E[IJε (X)] = P {|X| ≤ Mε } ≥ 1 − ε
Entonces
P {|Xn | ≤ 2Mε } ≥ 1 − 2ε
o sea:
P {|Xn | > 2Mε } ≤ ε
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 170
Figura 9.3: Por ejemplo, acá vemos el gráfico de ϕ si Mε = 1, con lo que Kε = [−2, 2] y
Jε = [−1, 1]
Como esto vale para toda ϕ de clase C ∞ acotada, por la vesión débil del terema dedu-
cimos que:
D
Xn −→ X
como queríamos.
Entonces
Xn −→ X ⇔ pn (k) → p(k) para todo k ∈ D
D
Similarmente
E[ϕ(X)] = p(k)
Se deduce que pn (k) → p(k). Esto vale para todo k ∈ D.
Recíprocamente, supongamos que pn (k) → p(k) para todo k ∈ D. Queremos ver que
Xn −→ X. Para eso, vamos a usar el recíproco fuerte del teorema de Helly-Bray. Luego
D
Similarmente X
E[ψ(X)] = ψ(d) · p(d)
d∈D∩K
Como son sumas finitas, es claro que (9.9) se va a cumplir, ya que el límite de una suma
finita es igual a la suma de los límites.
g(X).
Prueba: Por el recíproco del teorema de Helly-Bray nos bastará probar que
Esto es:
E[ϕ(Xn )] → E[ϕ(X)]
donde ϕ = ψ ◦ g. Pero notamos que ψ es continua y acotada, por ser composición de
continuas y ψ acotada. Deducimos que esto es cierto, en virtud del teorema de Helly-Bray.
En el apunte de Victor Yohai [Yoh] pueden ver una prueba usando directamente la
definición de convergencia en distribución. Yo les voy a presentar una prueba alternativa
usando la caracerización dada por el teorema de Helly-Bray.
Prueba: Usando la caracerización dada por el teorema de Helly-Bray, queremos probar
que para toda ψ ∈ Cc∞ (R),
E[ψ(Xn + Yn )] → E[ψ(X)
y sabemos por hipótesis que:
E[ψ(Xn )] → E[ψ(X)]
Luego nos bastará probar que para cada ψ fija,
E[ψ(Xn + Yn )] − E[ψ(Xn )] → 0
y podemos estimar:
ε
E[|ψ(Xn + Yn )] − E[ψ(Xn )| · IAn,δ ] ≤
2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 174
|ψ(X + Yn ) − ψ(Xn )| ≤ 2C
Entonces:
ε
E[|ψ(Xn + Yn ) − ψ(Xn )| · IAcn,δ ] ≤ 2C · E[IAcn,δ ] = 2C · P (An,C ) <
2
Finalmente acotamos
E[ψ(Xn + Yn )] − E[ψ(Xn )] → 0
Prueba: Dado ε > 0 por definición de continuidad, existirá un δ > 0 tal que |x − c| ≤ δ
implica |g(x) − g(c)| ≤ ε. Luego,
En particular,
{|g(Xn ) − g(c)| ≥ ε} ⊂ {|Xn − c| ≥ δ}
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 175
tomando probabilidades:
por lo que si el lado derecho tiende a cero cuando n → +∞, también el término del medio.
O sea que si Xn −→ c, se deduce que g(Xn ) −→ g(c).
P P
Si c 6= 0,
Xn D X
−→
Yn c
Xn + Yn = (Xn + c) + (Yn − c)
P P
Yn −→ c ⇒ Yn − c −→ 0
También sabemos que Yn − c −→ 0. Por otra parte, (Xn ) está acotada en probabilidad,
P
ya que converge en distribución (Esto se deduce del lema 8.1.9, aunque puede probarse
directamente).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 176
Pero entonces Zn −→ 0 ya que es el producto que una sucesión que tiende a cero
P
en probabilidad por una que está acotada en probabilidad (lema 8.1.9), y por lo tanto
D
Zn −→ 0.
Entonces usando la versión simple del teorema de Slutsky, concluimos que Xn Yn −→
D
cX.
Finalmente, para ver que si c 6= 0,
Xn D X
−→
Yn c
escribimos
Xn 1
= Xn ·
Yn Yn
y observamos que
P 1 P 1
Yn −→ c ⇒ −→
Yn c
por el lema previo aplicado a la función g(y) = 1
y que es continua en y = c si c 6= 0. Entonce
el resultado se deduce del ítem anterior.
Capítulo 10
Funciones características
Lema 10.1.1 Si X : Ω → R es una variable aleatoria con valores complejos tal que
E[|X|] < +∞, entonces E[X] está bien definida y
luego E[X] está bien definida. Probemos la desigualdad (10.1). Si E[X]) = 0 no hay nada
que probar. Sino, la escribimos en forma polar
donde
r = |E(X)| = e−iθ E[X] ∈ R>0
Entonces
r = |Re(E[e−iθ X])| = |E[Re(e−iθ X)]| ≤ E[|Re(−eiθ X)|] ≤ E[| − eiθ X|] = E[|X|]
177
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 178
usando que ya sabemos que (10.1) es válida para variables aleatorias reales, y que
Similarmente, si f : [a, b] → C es una función continua, escribimos f (t) = x(t) + iy(t)
donde x, y : [a, b] → R. Y definimos
Z b Z b Z b
f (t) dt = x(t) dt + i y(t) dt
a a a
De nuevo tenemos Z b Z b
f (t) dt ≤ |f (t)| dt
a a
Esta desigualdad la podemos pensar como
Definición 10.2.1 Si X es una variable aleatoria tal que E(|X|) es finita, su función
característica se define por
ϕX (t) = E eitX
t∈R
Teniendo en cuenta la definición de la esperanza, esto puede escribirse como
Z ∞
ϕX (t) = eitx dFX (x)
∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 179
donde gX es la función generatriz que introdujimos en la sección 3.7. Por ejemplo, usando
esto deducimos que:
Si X ∼ Bi(n, p) ⇒ ϕX (t) = (p + qeit )n = 1 + p(eit − 1) donde q = 1 − p, por (3.6).
n
Para ser precisos, acá tendríamos que usar la integral de Lebesgue que se ve en los
cursos de análisis real. Pero en esta materia, lo usaremos simplemente como una notación
(pueden pensar la integral como una integral impropia).
Algunas observaciones:
Existe toda una rama de la matemática dedicada al estudio de las series de Fourier
y la transforma de Fourier, el análisis armónico.
Para nosotros, será una herramienta útil para estudiar la convergencia en distribución
de las variables aleatorias, y nos permitirá probar uno de los resultados centrales de
la teoría de probabilidades: el teorema del límite central.
De hecho, Joseph Fourier introdujo sus series para estudiar la propagación del calor
en una barra de metal, que describió por medio de una ecuación diferencial (eso lo
van a ver en el curso de ecuaciones diferenciales).
Por eso es una herramienta que vale la pena aprender, más allá de la aplicación
inmediata en la que estamos interesados (a la teoría de probabilidades).
Para los lectores interesados en saber más sobre series y transformadas de Fourier
recomiendo [Duo03].
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 181
ii)
|ϕX (t)| ≤ 1
iii)
ϕX (0) = 1
si
ε
|h| < δ =
E|X|
(si E[|X|] = 0, X = 0 con probabilidad 1 y ϕX ≡ 1].
ii) Es inmediata pues
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 182
Observación 10.2.8 Cuando X es una variable aleatoria con una densidad integrable, se
tiene que
ϕX (t) → 0 cuando |t| → ∞
en virtud del lema de Riemann-Lebesgue (un resultado importante del análisis armónico).
Sin embargo, esta propiedad no es cierta para variables aleatorias cualesquiera. Por ejemplo,
si X es una variable aleatoria, tal que X = 0 con probabilidad 1, entonces ϕX (t) ≡ 1.
1
Se requieren algunos conocimientos de análisis complejo para darle sentido a esta fórmula, z α se puede
definir en el plano complejo menos el eje real negativo, usando la fórmula z α = exp(α log(z)) y tomando la
rama principal del logaritmo.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 183
Existen varias pruebas de este teorema. Presentaré una prueba que aprendí en el curso
de V. Yohai que utiliza argumentos probabilísticos. Notemos que el teorema dice esencial-
mente que la densidad normal estándar es un punto fijo de la transformada de Fourier. Hay
también demostraciones que utilizan argumentos de análisis complejo o de ecuaciones dife-
renciales. La idea de dicha prueba es usar las propiedades de invariancia de la distribución
normal para obtener una ecuación funcional para la función característica buscada.
Prueba: Usando el resultado del ejemplo 4.4.1, vemos que basta probarlo para la variable
normalizada
X −µ
X∗ =
σ
que tiene distribución N (0, 1).
Consideramos entonces dos variables aleatorias X, Y ∼ N (0, 1) independientes, y sea
Z = aX + bY , con a, b > 0. Tendremos entonces
Por otra parte, sabemos por la proposición 4.5.6 y el ejemplo 4.4.1, que
Z ∼ N (0, a2 + b2 )
Comparando las dos expresiones para ϕZ (t) obtenemos la ecuación funcional buscada:
p
ϕX a2 + b2 t = ϕX (at)ϕX (tb)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 184
(Si α o β son cero, esto vale pues ϕX (0) = 1). Entonces por el lema 4.8.1, deducimos que
2
ϕ0X (t) = 2bt ebt
2
ϕ00X (t) = (2b + 2bt) ebt
En particular,
ϕ00X (0) = 2b = −µ2 (X)
por la proposición 10.2.6. Pero
µ2 (X) = V ar(X) = 1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 185
Prueba:
Z ∞ Z ∞ Z ∞
ixy
gb(x) dFX (x) = g(y)e
dFX (x)dy
−∞ −∞ −∞
Z ∞ Z ∞
ixy
= g(y)e dFX (x) dy
−∞ −∞
Z ∞ Z ∞ Z ∞
= eixy dFX (x) g(y) dy = ϕX (y) g(y) dy
−∞ −∞ −∞
= |g(y)| dy < ∞
−∞
Teorema 10.5.1 (Fórmula de inversión de Feller) Sea X una variable aleatoria con
E(|X|) < +∞, función de distribución FX y función característica ϕX . Entonces
Z x0 Z ∞
1 −iz·y −(σy)2 /2
FX (x0 ) = lı́m ϕX (y) e ·e dy dz
2π σ→0 −∞ −∞
en cada punto de continuidad x0 de FX .
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 186
Esta forma de la fórmula de inversión de Fourier es más simétrica, pero no es cierta sin
la restricción de que fb ∈ L1 (R).
Calculemos su función caracerística. Usando las propiedades, basta saber hacerlo con µ = 0
y b = 1. En ese caso,
Z ∞
1
ϕX (t) = f (t) =
b eixt e−|x| dx
−∞ 2
Z 0 Z ∞
ixt 1 −|x| 1
= e e dx + eixt e−|x| dx
−∞ 2 0 2
Z 0 Z ∞
1 1
= eixt ex dx + eixt e−x dx
−∞ 2 0 2
Z 0 Z ∞
1 1
= ex(it+1) dx + ex(it−1) dx
2 −∞ 2 0
Siguiendo, las integrales que nos quedaron se pueden calcular con la definición de integral
impropia y la regla de Barrow. Nos queda:
1 1 1
ϕX (t) = fb(t) = −
2 it + 1 it − 1
1
=
1 + t2
En general, si µ y b son cualesquiera, la función característica de una variable aleatoria
con distribución de Laplace va a ser
eitµ
ϕX (t) =
1 + b2 t
Prueba:
Z ∞
0
F(f )(t) = f 0 (x)eixt dx
−∞
Z R
= lı́m f 0 (x)eixt dx
R→+∞ −R
Z R
R
= lı́m f (x)eixt −R
− f (x)ite ixt
dx
R→+∞ −R
Z ∞
=− f (x)iteixt dx
−∞
= (−it)Ff (t)
Para justificar la derivación bajo el signo de integral, se usa un teorema de análisis real
(corolario del teorema de convergencia mayorada).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 190
La idea es que si una función está en S(R), ella y todas sus derivadas decaen en infinito
más rápido que x−k para todo k. Es un espacio muy chico, pero las funciones C ∞ de soporte
compacto están en él, así como las funciones gaussianas
con a > 0
2
f (x) = e−ax
dk
Ff (t) = F((ix)k f )(t)
dtk
entonces
D
Xn −→ X
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 191
Prueba: Supongamos primero que Xn −→ X. Para ver que ϕXn (t) → ϕ(t) basta aplicar
D
el corolario 9.2.3 aplicado a la función ϕ(t) = eitx (Este corolario se extiende a funciones
con valores complejos, separando la parte real y la imaginaria). Ahora queremos probar el
recíproco. Supongamos que ϕXn (t) → ϕ(t) para todo t. Queremos probar que Xn −→ X.
D
Usando el recíproco fuerte del teorema de Helly-Bray, esto es equivalente a probar que
E[ψ(Xn )] → E[ψ(X)]
para toda ψ de clase C ∞ con soporte compacto. Como obervamos antes, ψ está en el
espacio de Schwartz, así que podemos escribir ψ = F(g) donde
Z ∞
−1 1
g(x) = F (ψ)(x) = ψ(y) e−ix·y dy
2π −∞
haciendo la misma cuenta que antes, con Xn en lugar de X. Como vale para toda ψ con
soporte compacto, deducimos que
D
Xn −→ X
Nota: Este teorema será la clave de la demostración del Teorema del Límite Central en el
capítulo siguiente. La demostración que dimos está adaptada de [HN01, Teorema 11.50] (si bien
en este libro está escrita asumiendo que las distribuciones Fn son absolutamente continuas). En el
apéndice H se da una prueba alternativa (con un enunciado más general) tomada de [Jam02].
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 192
10.9.1. Un ejemplo
Supongaamos que las Xn son variables de Rademacher con probabilidad de éxito 1/2,
o sea
P {Xn = −1} = P {Xn = 1} = 1/2
y son independientes. Vamos a probar que
n
Xk
−→ U(−1, 1) cuando n → +∞
D
X
Yn =
2k
k=1
usando el teorema de Lévy.
Para ello vamos a calcular la función característica de Yn Notamos que
1 it 1 −it
ϕXn (t) = E[eitXn ] = · e + e = cos(t)
2 2
Como las Xn son independientes:
n n
Y t Y t
ϕYn (t) = ϕXk = cos
2k 2k
k=1 k=1
[Estas fórmulas las saqué del artículo de Wikipedia sobre la fórmula de Viète para π].
Entonces despejando vemos que si t 6∈ πZ,
t
sin(t) sin(t) 2n
ϕYn (t) = = ·
2n sen 2tn sen 2tn
t
Como
sen x
lı́m =1
x→0 x
vemos que
sen t
ϕYn (t) → ∀ t 6∈ πZ
t
Deducimos que
ϕYn (t) → ϕY (t) para todo t 6∈ πZ
donde Y ∼ U (−1, 1). Por el teorema de continuidad de Paul Lévy,
D
Yn −→ Y
Capítulo 11
En este capítulo, presentaremos el Teorema del Límite Central, que es uno de los resul-
tados fundamentales de la teoría de probabilidades. Informalmente, este teorema dice que
la suma de un número grande de variables aleatorias independientes con varianza finita ,
donde la varianza de cada variable contribuye poco (en algún sentido) a la varianza total
se distribuye en forma aproximadamente normal (formalizaremos esta idea más adelante).
Este teorema justifica el papel central que juega la distribución normal en la estadística.
Por ejemplo, los errores de medición en un experimento suelen tener una distribución nor-
mal, y esto es esperable por el teorema central del límite, si suponemos que el error de
medición puede originarse en distintas fuentes independientes de error, cada una de las
cuales contribuye en pequeña medida al error total.
Comenzaremos presentando una versión para la distribución binomial, conocida como
el teorema de De Moivre-Laplace. Es históricamente la primera versión que se conoció
del teorema del límite central. Y la demostraremos “a mano” utilizando la aproximación
del factorial por medio de la fórmula de Stirling. Después demostraremos una versión del
teorema del límite central para variables independientes y uniformemente distribuidas (con
varianza finita), por medio de la técnica de las funciones características que desarrollamos
en el capítulo anterior. Finalmente, haremos algunos comentarios sobre sus generalizaciones
y versiones más refinadas.
X − E(X)
X∗ = p
Var(X)
satisface que E(X ∗ ) = 0 y Var(X ∗ ) = 1.
193
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 194
Sn − np
Sn∗ = √ (11.1)
npq
Nuestro objetivo es estudiar el límite de la distribución de Sn∗ cuando n → +∞:
Comenzamos aproximando la distribución binomial, utilizando la fórmula de Stirling
(ver apéndice):
√
n! ∼ 2π nn+1/2 e−n eO(1/n)
Obtenemos1 :
donde
k − np
xk = √
npq
y para M ≥ 0,
máx |βn,k | → 0 cuando n → ∞ (11.2)
|xk |≤M
Prueba:
√
2π nn+1/2 e−n eO(1/n)
b(k, n, p) = √ √ pk q n−k
2π k k+1/2 e−k eO(1/k) 2π (n − k)n−k+1/2 e−(n−k) eO(1/(n−k))
r n−k
1 n np k nq
=√ eO(1/n)+O(1/k)+O(1/(n−k))
2π k(n − k) k n−k
Notemos que: r
√ q
k = np + xk npq = np 1 + xk
np
1
La prueba que presentamos del teorema de De Moivre-Laplace está basada en unas notas del curso de
probabilidad y estadística del profesor N. Fava.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 195
y que: r
√ p
n − k = nq − xk npq = nq 1 − xk
nq
Estimaremos en forma separada el valor de cada uno de los factores a medida que
n → +∞:
r v
n u n 1
=u q q =√ (1 + αn,k )
k(n − k) t np 1 + x q
nq 1 − x p npq
k np k nq
donde
máx |αn,k | → 0 cuando n → +∞
|xk |≤M
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 196
Para estimar el segundo factor, tomamos logaritmo y hacemos uso del desarrollo de
Taylor: log(1 + t) = t − t2 + O(t3 ) cuando t → 0.
2
En consecuencia:
np k nq n−k
k
n−k
log = (−k) log − (n − k) log
k n−k np nq
r r
q p
= (−k) log 1 + xk − (n − k) log 1 − xk
np nq
r
√ q 1 2 q 1
= (−np − xk npq) xk − x +O
np 2 k np n3/2
√
r
p 1 2 p 1
+ (−nq + xk npq) −xk − x +O
nq 2 k nq n3/2
√ 1 1 √ 1 2 1
= −xk npq + qx2k − qx2k + O + x k npq + px − px 2
+ O
2 n1/2 2 k k
n1/2
1 1
= − x2k + O
2 n1/2
Deducimos que:
np k nq n−k 2 1/2
= e−xk /2 · eO(1/n )
k n−k
Finalmente consideramos el término de error eO(1/n)−O(1/k)−O(1/(n−k)) = eE donde
1 1 1 1
E=O +O +O =O
q q
n np 1 + x q p
nq 1 − xk nq n
k np
En consecuencia, utilizando las estimaciones que hemos obtenido para cada factor, y
teniendo en cuenta que O(1/n1/2 ) + O(1/n) = O(1/n1/2 ), obtenemos que:
1 2 2
b(k, n, p) = √ e−xk /2 · (1 + αn (xk )) eO(1/n )
2πnpq
Finalmente, observamos que el factor de error dado por
1/2 )
(1 + αn (xk ))eO(1/n
tiende a 1 cuando n → +∞, uniformemente para los k tales que |xk | ≤ M , por lo que
podremos representarlo en la forma 1 + βn,k donde
máx |βn,k | → 0
|xk |≤M
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 197
Observación 11.1.2 La fórmula 11.2 significa que la aproximación dada por el teorema
de local De Moivre-Laplace es buena en el centro de la distribución binomial, pero no en
las colas de la misma. Por ejemplo, si n es grande y p es muy pequeño, como se ilustra en
la figura 11.2. En esta situación es mejor la aproximación por la distribución de Poisson
que discutimos en la sección 3.6. Por simetría, tampoco es buena si p está muy cerca de 1.
Observación 11.2.2 De acuerdo con [McD05a], el teorema 11.1.1 fue enunciado por De
Moivre en 1754 en su trabajo Approximatio ad Summam Terminorum Binomii (a + b)n
in Seriem expansi, pero sólo lo demostró para p = 1/2. La primera prueba completa fue
dada por Laplace (1795) en su libro Théorie analytiquedes probabilités. Análogamente el
teorema 11.2.1 fue demostrado por De Moivre para p = 1/2, y por Laplace para cualquier
p ∈ (0, 1).
.
La idea básica de la demostración es la siguiente:
X
Pn (a, b) = P {a < Sn∗ ≤ b} = b(k, n, p)
a<xk ≤b
Figura 11.3: Ilustración del teorema de De Moivre-Laplace: para p = 0,4 y distintos valores
de n, dibujamos la función de distribución de la distribución binomial, junto con la de la
normal estándar.
X
Pn (a, b) = P {a < Sn∗ ≤ b} ≈ g(xk )(xk+1 − xk )
a<xk ≤b
y esta es una suma de Riemann para la integral a g(x) dx. Por lo tanto, conforme
Rb
G(M ) − G(−M ) = 1 − ε
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 200
y además
1
<ε
M2
por consiguiente:
G(−M ) = 1 − G(M ) = ε/2
Consideramos primero el caso en que el intervalo (a, b) está contenido en el interva-
lo (−M, M ). La función gn definida por gn (x) = g(xk ) para xk < x ≤ xk+1 converge
uniformente a g(x) cuando n → +∞, en virtud de la continuidad uniforme de g.
Denotamos por k0 el mínimo entero tal que a < xk0 y sea k1 el máximo entero tal que
xk1 ≤ b.
En virtud del teorema 11.1.1,
X
Pn (a, b) = (1 + βn,k )g(xk )(xk+1 − xk )
a<xk ≤b
X X
= g(xk )(xk+1 − xk ) + βn,k g(xk )(xk+1 − xk )
a<xk ≤b a<xk ≤b
Z xk1 +1 X
= gn (x) dx + βn,k g(xk )(xk+1 − xk )
xk 0 a<xk ≤b
En consecuencia,
Z b Z xk0 Z xk1 +1
Pn (a, b) = gn (x) dx − gn (x) dx + gn (x) dx
a a b
X
βn,k g(xk )(xk+1 − xk )
a<xk ≤b
o sumando y restando gn :
Z b Z b Z xk0
Pn (a, b) = g(x) dx + [gn (x) − g(x)] dx + gn (x) dx
a a a
Z xk1 +1 X
+ gn (x) dx + βn,k g(xk )(xk+1 − xk )
b a<xk ≤b
Además como g y por consiguiente gn están acotadas por (2π)−1/2 , deducimos que:
Z xk
0 1
gn (x) dx ≤ √
a 2πnpq
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 201
, Similarmente: Z xk1 +1
1
gn (x) dx ≤ √
b 2πnpq
Finalmente, último término podemos acotarlo del siguiente modo,
X k1
X
βn,k g(xk )(xk+1 − xk ) ≤ máx |βn,k | g(xk )(xk+1 − xk )
|xk |≤M
a<xk ≤b k=k0
1
≤ √ 2M máx |βn,k | → 0 cuando n → +∞
2π |xk |≤M
para n ≥ n0 .
Si (a, b) no está contenido en (−M, M ), tenemos que:
Pero
Z −M Z b Z −M Z ∞
g(x) dx + g(x) dx ≤ g(x) dx + g(x) dx = G(−M ) + [1 − G(M )] < ε
a M −∞ M
y
1
Pn (a, −M ) + Pn (M, b) ≤ P {|Sn∗ | ≥ M } ≤
<ε
M2
por la desigualdad de Chebyshev, pues E(Sn∗ ) = 0 y Var(Sn∗ ) = 1 (teniendo en cuenta
nuestra elección de M al comienzo de la demostración). En consecuencia,
Z b
Pn (a, b) − g(x) dx ≤ 3ε
a
Sn
fn =
n
observada en la muestra (Estamos suponiendo que las elecciones de las distintas per-
sonas pueden considerarse independientes unas de otras, de modo que la elección de n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 203
P {|fn − p| ≤ ε} ≥ 1 − α (11.5)
Por ejemplo: supongamos que queremos que muestra encuesta (o control de calidad)
se equivoque como mucho en un 2 % en el 95 % de las veces que realizamos la encuesta.
Entonces, elegimos ε = 0, 02 y α = 0, 05.
Elegimos entonces xα de modo que:
α
G(−xα ) =
2
donde G es la función de distribución normal estándar (dada por 11.4). Por la simetría de
la curva normal,
α
G(xα ) = 1 −
2
Llamando Sn a la variable normalizada dada por (11.1), por el teorema de De Moivre
∗
Laplace:
Z xα
1 2
P {−xα ≤ Sn∗ ≤ xα } ≈ √ e−x /2 dx = G(xα ) − G(−xα ) = 1 − α
2π −xα
si n es suficientemente grande. En consecuencia, recordando la definición de Sn∗ y des-
pejando:
√ √
P {−xα npq ≤ Sn − np ≤ xα npq} ≈ 1 − α
√ √
P {np − xα npq ≤ Sn ≤ np + α npq} ≈ 1 − α
r r
pq Sn pq
P p − xα ≤ ≤ p + xα ≈1−α
n n n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 204
O sea: r
Sn pq
P − p ≤ xα ≈1−α
n n
Esta relación dice que con probabilidad 1 − α podemos asegurar que p está en el intervalo:
r r
Sn pq Sn pq
Iα = − xα , + xα
n n n n
Iα se llama un intervalo de confianza (asintótico) para p de nivel de confianza 1 − α.
En realidad en esta forma, esta relación no resulta todavía muy útil ya que no conocemos
p y entonces tampoco conocemos el ancho del intervalo Iα . Pero podemos observar que:
1
pq = p(1 − p) ≤ ∀ p ∈ [0, 1]
4
En consecuencia, podemos asegurar que
Sn 1 Sn 1
Iα ⊂ − xα √ , + xα √
n 2 n n 2 n
y que (si n es grande):
Sn 1
P − p ≤ xα √ ≥1−α
n 2 n
En consecuencia, si queremos que valga la relación (11.5) debemos elegir n para que:
1
xα √ ≤ ε
2 n
o sea: x 2
α
n ≥ n0 =
2ε
Esta relación nos dice cuál es el tamaño (mínimo) de la muestra que necesitamos para
poder garantizar un determinado margen de error con un determinado nivel de confianza.
Por ejemplo, si α = 0, 05 y ε = 0,02, obtenemos que: xα = 1, 96 y n ≥ 2401.
Observación: Notamos que cuando α → 0, xα → +∞ por lo que n0 → +∞.
Teorema 11.4.1 (Teorema del Límite Central, versión sencilla) Sea (Xk )k∈N : Ω →
R una sucesión de variables aleatorias independientes e idénticamente distribuidas con
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 205
0 < σ 2 = Var(Xk ) < +∞. Sea µ = E[Xk ] (como suponemos que las Xk tienen todas la
misma distribución, tendrán todas la misma esperanza y varianza). Notemos:
Sn = X1 + X2 + . . . + Xn
Sn − E[Sn ] Sn − nµ
Sn∗ = p = √
Var(Sn ) nσ
Entonces
D
Sn∗ −→ N (0, 1)
Observación 11.4.3 El nombre del teorema se debe a que proporciona una buena apro-
ximación en el centro de la distribución, pero no tan buena en las colas de la misma,
como vimos en la observación 11.1.2 para el caso de la distribución binomial. En inglés se
denomina central limit theorem, pero por esta observación resulta más correcto traducirlo
por teorema del límite central que por teorema central del límite, como muchas veces se
hace.
Para la prueba necesitamos un lema elemental sobre números complejos (que el lector
fácilmente puede demostrar usando la rama principal del logaritmo).
Lema 11.4.4 Si (cn ) es una sucesión de números complejos tal que cn → c, entonces
cn n
1+ → ec
n
Calculemos la función característica de Sn∗ . Como las (Xk ) son idependientes, y tienen
todas la misma distribución será
n
t
ϕSn∗ (t) = ϕ √
σ n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 206
donde ϕ(t) = ϕXk (t) para todo k. Hagamos el desarrollo de Taylor de ϕ(t) a segundo orden.
Usando la proposición 10.2.6 (que relaciona los momentos de Xk con las derivadas de la
función característica en t = 0), vemos que es
1
ϕ(Xk )(t) = 1 + ϕ0 (0)t + ϕ00 (0)t2 + t2 e2 (t)
2
σ 2
= 1 − t2 + t2 e2 (t)
2 2
σ
= 1 + − + e2 (t) t2
2
donde
lı́m e2 (t) = 0 (11.6)
t→+∞
por la propiedad que tiene el resto de Taylor. Entonces:
( 2 2 )n
σ t t
ϕSn∗ (t) = 1 + − + e2 √ √
2 σ n σ n
2 n
1 1 t t
= 1 + − + 2 e2 √
2 σ σ n n
Fijado un t, si llamamos
1 1 t
cn = − + 2 e2 √ t2
2 σ σ n
como
t2
cn → c = −
2
cuando n → ∞, por (11.6), vemos aplicando el lema que
2 /2
ϕSn∗ (t) → ec = e−t
donde las (Xk ) son variables con distribución normal estándar independientes, que introdu-
jimos en la sección 4.9.1. Entonces, por definición Zn tiene distribución χ2n y sabemos que
E[Zn ] = n y Var(Zn ) = 2n. Por el teorema del límite central, para n grande, la distribución
normal proporciona una buena aproximación de la distribución χ2n en el sentido que las
variables normalizadas
Zn − n
Zn∗ = √
2n
convergen en distribución a una normal estándar. El siguiente gráfico compara las funciones
de distribución de Zn∗ con la de la distribución normal, para n grande:
Teorema 11.5.1 (Teorema del Límite central de Lindeberg) Sea (Xk )k∈N una su-
cesión de variables aleatorias independientes tales que µk = E[Xk ] y σk2 = Var(Xk ), donde
σk es finita y al menos algún σk0 > 0. Sean
Sn = X1 + X2 + . . . + Xk
q
sn = Var(Sn ) = σ12 + . . . + σn2
p
entonces si definimos
Sn − E[Sn ] Sn − (µ1 + µ2 + . . . + µn )
Sn∗ = =
sn sn
tenemos que
D
Sn∗ −→ N (0, 1)
Teorema 11.5.2 (Teorema Límite central de Lyapunov) Sea (Xk )k∈N una sucesión
de variables aleatorias independientes tales que µk = E[Xk ] y σk2 = Var(Xk ), donde σk es
finita y al menos algún σk0 > 0. Sean
Sn = X1 + X2 + . . . + Xk
q
sn = Var(Sn ) = σ12 + . . . + σn2
p
y supongamos que existe algún δ > 0 tal que se cumple la siguiente condición de Lyapunov:
n
1 X
∀ ε > 0 lı́m E[|Xk − µk |2+δ ] = 0
ε→0 s2+δ
n k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 209
entonces si definimos
Sn − E[Sn ] Sn − (µ1 + µ2 + . . . + µn )
Sn∗ = =
sn sn
tenemos que
D
Sn∗ −→ N (0, 1)
Sn = X1 + X2 + . . . + Xn
Sn − E[Sn ] Sn − nµ
Sn∗ = √ = √
VarSn n σ
entonces
Cρ
|FS ∗ (x) − G(x)| ≤ √
σ3 n
donde G denota la función de distribución de la normal estándar y C es una constante fija.
También debemos mencionar que el teorema del límite central se generaliza sin dificul-
tades esenciales a vectores aleatorios, debiendo considerar en este caso para la distribución
límite a la distribución normal multivariada (ver [Jam02], teorema 7.2). Y que existen ver-
siones “locales” del teorema central del límite, que generalizan al teorema 11.1.1, para una
discusión al respecto ver [McD05a].
2
Este teorema fue descubierto independientemente por los matemáticos Andrew C. Berry [Ber41] y
Carl-Gustav Esseen [CG42]. La prueba en el primero de ellos también emplea el método de las funciones
características.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 210
(donde los corchetes indican la parte entera de N2 ), que está de acuerdo con nuestra intui-
ción. Más generalmente, si d ∈ N, y consideramos el evento
Dd = {n ∈ N : n es divisible por d}
y P ({n}) = 0.
Para n ∈ N consideremos ahora la función ω(n) que cuenta el número de divisores
primos distintos de n. Por ejemplo,
360 = 23 × 32 × 51 ⇒ ω(360) = 3
.
Entonces se tiene el siguiente teorema:
1 si pk divide a n
Xk (n) =
0 si 0 si no
Las Xk se comportan como variables aleatorias independientes pues de acuerdo con 11.7:
1 1 1
P {Xj = 1, Xk = 1} = = · = P {Xj = 1} · P {Xk = 1}
pj pk pj pk
En consecuencia como
∞
X
ω(n) = Xk (n)
k=1
(Esta suma es en realidad finita para cada n, pues basta sumar los primos con pk ≤ n),
vemos que ω se comporta como una suma de variables aleatorias independientes, y esto
explica porqué el teorema del límite central se aplique a ella. Sin embargo, hacer riguroso
este argumento requiere argumentos de teoría de las cribas. Una prueba relativamente
sencilla aparece en [GS07].
Capítulo 12
Esperanza Condicional
P (A ∩ B)
P (A/B) =
P (B)
Sea X : Ω → R una variable aleatoria discreta. Recordamos que la esperanza de X se
define como la serie
X
E[X] = xi P {X = xi }
i
donde Im = {xi } es por hipótesis a lo sumo numerable; siempre que dicha serie sea
absolutamente convergente.
En consecuencia, resulta natural definir la esperanza de X dado que ocurre el evento
A de probabilidad positiva, por:
X
E[X/A] = xi P {X = xi /A}
i
Es decir que:
1
E[X/A] = E[IA X] (12.1)
P (A)
212
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 213
Notemos que esta fórmula puede adoptarse como definición de la esperanza condicional
respecto de un evento para cualquier variable aleatoria (sea discreta o no) mientras tenga
esperanza finita, y el evento A tenga probabilidad positiva.
1 X
E[X/A] = xk · IA (xk )P {X = xk }
P (A)
k
∞
e−λ X λk
= k
1 − e−λ k!
k=1
(esta cuenta es la misma que para calcular E[X] !). Nos queda:
λ
E[X/A] =
1 − e−λ
Z ∞
1 1
donde φ(x) = √ e−x /2
2
P (A) = φ(x) dx =
0 2 2π
Z ∞
1 1 + 1
E[X/A] = E[IA X] = E[X ] = x+ · φ(x) dx
P (A) P (A) 1/2 −∞
x si x ≥ 0
Z ∞
2
=√ x·e −x2 /2
dx donde x =
+
2π 0 0 si x < 0
Generalización
Si X es una variable continua con densidad f (x), U ⊂ R abierto y A = {X ∈ U }.
1 1
E[X/A] = E[IA X] = E[gU (X)]
P (A) P (A)
Z ∞ Z
1 1
= gU (x)f (x) dx = f (x) dx
P (A) −∞ P (A) U
donde gU (x) = x si x ∈ U y 0 si x 6∈ U .
E[X/Y = yj ] = E[X/Aj ]
(12.2)
X
E[X/Y = yj ] = xi P {X = xi /Y = yj }
i
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 215
P {X = xi /Y = yj } = P {X = xi }
Luego
X X
E[X/Y = yj ] = xi · P {X = xi /Y = yj } = xi · P {X = xi } = E[X]
i i
En consecuencia, con lo que E[X/Y ] = E[X] (una variable aleatoria constante), en este
caso.
Es decir:
E[f (X)/X] = f (X)
En particular:
E[X/X] = X
Linealidad: si λ1 , λ2 ∈ R,
porque:
X
E[f (Y )X/Y = yj ] = f (yj ·) · xi · P {X = xi /Y = yj }
i
X
= f (yj ) xi · P {X = xi /Y = yj } = f (yj ) · E[X/Y = yj ]
i
12.2.1. Un ejemplo
Consideramos el siguiente ejemplo. Tiramos dos dados en forma sucesiva. Nuestro es-
pacio muestral es:
Ω = {ω = (ω1 , ω2 ) : ωi ∈ D}
donde D = {1, 2, 3, 4, 5, 6}. Consideramos la suma S de los puntos obbtenidos. S : Ω → R
Tenemos que S = X1 + X2 donde X1 (ω) = ω1 , X2 (Ω) = ω2 .
Tenemos que
E[S] = E[X1 ] + E[X2 ] = 3, 5 + 3, 5 = 7
Pero si sabemos cuánto salió en la primera tirada (o sea, cuándo vale X1 ), nuestra estima-
ción de las probabilidades para S cambia.
X
E[E[X/Y ]] = E[X/Y = yj ] · P (Aj )
j
X 1
= E[XIAj ] · P (Aj )
P (Aj )
j
X
= E[XIAj ] =
j
X
= E X IAj = E[X]
j
E[E[X/Y ]] = E[X]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 217
también se puede aplicar si X es una variable aleatoria continua, e Y una variable discreta
(siempre que P (Aj ) > 0).
Veamos un ejemplo (ejercicio de un parcial):
Enunciado:
Se tira un dado equilibrado de tres caras (o sea: se elege un número del 1 al 3 con
idénticas
PI probabilidades). Sea I el número obtenido en el dado. A continuación se define
Z = j=1 Xj donde las variables aleatorias Xj tienen distribución exponencial de pará-
metro 1, y son todas independientes entre sí y del lanzamiento del dado.
Sabemos que Zi ∼ Γ(i, 1) por ser suma de suma de i variables aleatorias indepedendientes
con distribución Exp(1) = Γ(1, 1). [por un resultado que vimos en la clase 11]
Esta es una distribución condicional. ¡ Pero I es aleatoria! La verdadera distribución
de Z se encuentra mezclando estas distribuciones condicionales, pesándolas de acuerdo a
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 218
la distribución de probabilidades de I,
3
X
fZ (z) = fZi (z) · P {I = i}
i=1
" 3 #
1 X z i−1
= · I(0+∞ (z)
3 (i − 1)!
i=1
E[Z/I = i] = E[Zi ] = i
dado que ya calculamos la esperanza de una variable con distribución Γ(i, 1) (en la clase
8). Entonces
3 3
X 1X 1+2+3
E[Z] = E[E[Z/I]] = E[Z/I = i] · P {I = i} = i= =2
3 3
i=1 i=1
P {Y = y0 }
P {X ∈ I/Y = y0 }
por el teorema fundamental del cálculo. Esta expresión se llama función de distribución
condicional de X dada Y . Esta cuenta tiene sentido sólo si fY (y) > 0.
De donde obtenemos la densidad densidad condicional de X dada Y dada por
fXY (x, y0 )
fX/Y =y0 (x) =
fY (y0 )
que podemos pensar como una versión infinitesimal de la definición de probabilidad con-
dicional.
Entonces podemos definir la esperanza condicional en este caso, integrando la densidad
condicional:
Z ∞ Z ∞
E[X/Y = y0 ] = x dFX/Y =y0 (x) = x fX/Y =y0 (x) dx
∞ −∞
Todas las propiedades anteriores van a seguir valiendo con esta definición.
donde
2
t σX ρσX σY
Σ=A·A = .
ρσX σY σY2
es la matriz de covariancias, y ρ es el coeficiente de correlación entre X e Y .
Esto dice, que en este caso la esperanza condicional está dada por la recta de regresión
lineal.
Entonces
a = σX
b = ρσX σY /a = ρσY
q
c = σY2 − b2 = σY (1 − ρ2 )1/2
donde Z es un vector con distribución normal bivariada estándar, es decir con componentes
Z1 , Z2 que son N (0, 1) independientes.
X µX σX 0 Z1
= + ·
Y µY ρσY σY (1 − ρ2 )1/2 Z2
de donde
X = µX + σX Z1
Y = µY + σY [ρZ1 + (1 − ρ2 )1/2 Z2 ]
Entonces:
h i
E[Y /X] = E µY + σY [ρZ1 + (1 − ρ2 )1/2 Z2 /X
X − µX
= E µY + σ Y ρ + (1 − ρ2 )1/2 Z2 /X
σX
X − µX h i
= E [µY /X] + E σY ρ /X + E (1 − ρ2 )1/2 Z2 /X =
σX
X − µX
= µY + σY ρ + (1 − ρ2 )1/2 E [Z2 /X]
σX
Se deduce que:
X − µX
E[Y /X] = µY + σY ρ
σX
Lema 12.4.3 La variable aleatoria h(Y ) = E[X/Y ] tiene las siguientes propiedades:
Más aún: la esperanza condicional E[X/Y ] está caracterizada por estas dos propiedades. en
el siguiente sentido: si h1 , h2 : R → R son dos funciones que verifican estas dos propiedades,
entonces
P {h1 (Y ) = h2 (Y )} = 1
Prueba: Para probar que h(Y ) tiene esperanza finita, debemos mostrar que la serie
X
h(yj )P {Y = yj }
j
donde (yj ) recorre los posibles valores que la variable Y toma con probabilidad positiva,
es absolutamente convergente.
X X X
|h(yj )|P {Y = yj } = xi P {X = xi /Y = yj } P {Y = yj }
j j i
XX
≤ |xi |P {X = xi , Y = yj } = E(|X|) < +∞
i j
donde el reordenamiento de la serie se justifica utilizando que dicha serie converge absolu-
tamente (dado que f es acotada).
Ahora probaremos la unicidad: supongamos que h1 , h2 : R → R son funciones que
verifican las propiedades anteriores. Entonces para cualquier función f : R → R acotada,
tenemos que:
E[f (Y )h1 (Y )] = E[f (Y )h2 (Y )] = E[f (Y )X]
En consecuencia, si llamamos h = h1 − h2 por la linealidad de la esperanza:
E[f (Y )h(Y )] = 0
h(yj )P {Y = yj } = 0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 223
Corolario 12.4.4
E[E[X/Y ]] = E[X]
Yb es función de X porque Y
c1 e Y
c2 lo son.
E[Yb Z] = c1 E[Y
c1 Z] + c2 [Y
c2 Z] = c1 E[Y1 Z] + c2 [Y2 Z] = E[Y Z]
Desigualdad de Cauchy-Schwartz: Si X, Y ∈ L2 ,
E(Y1 Y 2/X) ≤ E[Y1 /X]1/2 · E[Y2 /X]1/2
Condicionamiento reiterado:
E[E[X/Y ]/Z] = E[X/Z]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 226
ECM(Y, Yb ) = E(|Y − Yb |2 ) = kY − Yb k2
Dadas otra variable aleatoria X, vamos a considerar ahora el subespacio:
Por razones técnicas tenemos que pedir que h sea una función boreliana como mencio-
namos antes: es decir que h−1 (I) sea un conjunto boreliano para cada intervalo abierto I
en R. Por ejemplo, cualquier función continua va a cumplir esto.
Entonces, si X, Y ∈ L2 (Ω) podemos definir la esperanza condicional E[Y /X] como
la solución Yb de este problema de optimización.
Aplicando el lema 7.3.1, vemos que la esperanza condicional Yb = E[Y /X] se define por
las siguientes dos propiedades:
Yb ∈ S.
Im(X) = {x1 , x2 , . . . , xn }
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 227
Aj = {X = xj } = {ω ∈ Ω : X(ω) = xj }
forman una partición de Ω. Vamos a suponer que P (Aj ) > 0. En este caso S es de
dimensión finita, y una base de S está formada por sus funciones indicadoras
Como B es una base de S, alcanza mirar esta condición para Z = IAj . Por otra parte,
como los Aj son disjuntos, resulta que B es una base ortogonal (pero no ortonormal) de
S, pues
P (Aj ) si j = k
hIAj , IAk i = E(IAj · IAk ) =
0 si j 6= k
Nos queda:
E[Y · IAj ] = cj · P (Aj )
entonces:
1
cj = E[Y · IAj ] = E[Y /Aj ]
P (Aj )
que coincide con la definción que vimos en la clase pasada.
En resumen, cuando X es dicreta con imagen finita:
n
X
E[Y /X] = E[Y /Aj ] · IAj
i=1
Esta fórmula puede generalizarse al caso en que X tiene imagen numerable (en este
caso S no es de dimensión finita, y en lugar de una suma finita tenemos una serie, pero
esencialmente funciona igual).
∞
X
E[Y /X] = E[Y /Aj ] · IAj
i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 228
En este caso, debemos comprobar que esta fórmula define en efecto una función en
L2 (Ω). Como las IAj son ortogonales
∞
X
E[E[Y /X]2 ] = kE[Y /X]k2 = kE[Y /Aj ] · IAj k2
j=1
∞
X
= |E[Y /Aj ]|2 kIAj k2
j=1
X∞
= |E[Y /Aj ]|2 P (Aj )
j=1
Entonces
∞
X
E[E[Y /X]2 ] ≤ |E[IAj Y ]|2 = E(|Y |2 ) < +∞
i=1
fXY (x, y)
fY /X=x (y) =
fX (x)
donde Z ∞
fX (x) = fXY (x, y) dy
−∞
Se deduce en particular que h(x) es finita para casi todo x, por lo que E[X/Y ] está bien
definida.
Vamos a comprobar ahora que si Z = g(X) con g : R → R acotada, entonces E[Y · Z] =
E[Yb · Z]
Para calcular E[Y ·Z] la pensamos como la esperanza de una función del vector aleatorio
(X, Y ).
Z ∞Z ∞
E[Y · Z] = y · g(x) · fXY (x, y) dx dy
−∞ −∞
Vemos que h(Y ) verfica las dos condiciones de la definición axiomática de esperanza con-
dicional que vimos en la clase anterior.
Si supiéramos que Y ∈ L2 va a resultar que Yb está en L2 y que la misma cuenta se
puede hacer suponiendo que Z está en L2 (aunque g no fuera acotada).
Para probar que en efecto Yb = E[Y /X] ∈ L2 cuando Y ∈ L2 , la idea es aproximar h
por funciones acotadas:
h(x) si |h(x)| ≤ n
E[Y · Zn ] = E[Yb · Zn ]
porque hn (x) converge en forma monótona creciente hacia h. [Por el teorema de conver-
gencia monótona, otro resultado clave de análisis real). Resulta que:
E[Yb 2 ] ≤ E[Y 2 ]
o sea:
E(E(Y /X)2 ) ≤ E(Y 2 )
que es la misma desigualdad que obtuvimos antes en el caso discreto.
Capítulo 13
Estadística: Estimación de
parámetros
X1 , X2 , . . . , Xn
(conocido como media muestral es un estimador razonable de µ ya que por la ley fuerte
de los grandes números
cuando n → +∞
c.s.
X n −→ µ
Se dice que X n es un estimador fuertemente consistente para µ.
231
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 232
Me = X((n+1)/2) si n es impar
1
Me = X(n/2) + X(n/2+1) si n es par
2
Esto lleva a preguntarnos qué propiedades es deseable que tenga un estimador, para
tener un criterio para elegir un estimador sobre otro.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 233
sesgo(λ
bn ) = 0
y asintóticamente insesgado si
sesgo(λ
bn ) → 0
donde
c = E(Xi2 ) = Var(Xi ) + E(Xi )2 = σ 2 + µ2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 234
Por otra parte, necesitamos calcular E[ X n ]. Para ello, la observación clave es que
2
Entonces:
2 2 σ2
E( X n ) = Var( X n ) + E[X n ]2 = + µ2
n
Volviendo a (13.1) obtenemos que:
2
σ 1 n−1
E[bσn2 ] = σ 2 + µ2 − + µ2 = σ 2 1 − = σ2
n n n
Notación vectorial
En muchos ejemplos la distribución estará caracterizada por un número finito k de
parámetros, que podemos pensar como componentes de un vector
θ = (θ1 , θ2 , . . . , θk ) ∈ Rk
F = {N (µ, σ 2 ) : µ ∈ R, σ > 0}
A = {(mu, σ) : µ ∈ R, σ > 0}
F = {Fθ : θ ∈ A}
1 si si sale roja
Xi =
0 si si sale blanca
Aquí usamos la notación Pθ para indicar que las probabilidades indicadas dependen del
parámetro θ.
Para cada muestra particular (x1 , . . . , xn ), la estimación de máxima verosimilitud de θ
es el valor θbV M que maximiza la verosimilitud. Es decir:
θbM V (x1 , x2 , . . . , xn )
L(θ) = θs (1 − θ)n−s
donde
s = x1 + x2 + . . . + xn
Luego:
`(θ) = log L(θ) = s log θ + (n − s) log(1 − θ)
1 1
`0 (θ) = s · − (n − s) ·
θ 1−θ
El máximo se va a alcanzar cuando `0 (s) = 0, o sea:
X1 + X2 + . . . + Xn
θbM V = X n =
n
luego
n
X (xi − µ)2
1
`(θ) = log L(θ) = −n log σ − log(2π) −
2 2σ 2
i=1
Como ahora tenemos dos parámetros, para encontrar el máximo vemos donde se anulan
simultáneamente ambas derivadas parciales:
n
X (xi − µ) n
∂` 1X
(θ) = − = 0 ⇒ µ = xi
∂µ σ2 n
i=1 i=1
n n
!1/2
∂` n X (xi − µ)2 1X
(θ) = − + =0⇒σ= (xi − µ)2
∂σ σ σ3 n
i=1 i=1
n
!1/2
1X
σ
b= (xi − X n )2
n
i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 238
√ Xn − µ
Zn = n· ∼ N (0, 1)
σ
Ahora elegimos zα/2 de modo que P (Zn > zα/2 ) = α/2, y por la simetría de la curva
normal tenemos que
P {−zα/2 ≤ −Zn ≤ zα/2 } = 1 − α
Depejando obtenemos el intervalo de confianza
zα/2 σ zα/2 σ
Iα = X n − √ , X n + √
n n
P {µ ∈ Iα } = 1 − α
reemplazando a σ por un estimador fuertemente consistente σbn de los que vimos antes (da
igual cuál consideremos)
zα/2 σ zα/2 σ
bn bn
Iα = X n − √ , X n + √
n n
Con sólo suponer que la variancia de la distribución tendremos que:
√ Xn − µ D
Zn = n· −→ N (0, 1)
σ
por el teorema del límite central, siempre que σ 2 = Var(Xi ) < ∞.
Como
σ c.s.
−→ 1
σ
bn
tendremos que la convergencia en distribución no se ve alterada:
σ √ Xn − µ D
Zbn = Zn = n · −→ N (0, 1)
σ
bn σ
bn
por el teorema de Slutsky.
Por lo que nuestro intervalo
zα/2 σ zα/2 σ
bn bn
Iα = X n − √ , X n + √
n n
verfica que
lı́m P {µ ∈ Iα } = 1 − α
n→+∞
Capítulo 14
14.1. Introducción
A lo largo del curso, hemos tratado de mostrar las relaciones que existen entre la teoría
de probabilidades y las distintas ramas de la matemática, particularmente con el análisis
con la que está estrechamente ligada. Continuando esta linea, en éste capítulo, exploraremos
qué relación existe entre entre la teoría de probabilidades y la de ecuaciones diferenciales
parciales. Esta conexión es de gran importancia para los desarrollos actuales en ambas
áreas.
Una ecuación diferencial es una relación entre las derivadas de una función (que
puede involucrar derivadas de distintos órdenes o con respecto a diferentes variables, e
incluso a la misma función que es su derivada de orden cero). Las ecuaciones diferenciales
se utilizan habitualmente en muchas aplicaciones de la matemática, particularmente en
física, para modelar distintos fenómenos.
G = {(ih, jh) : i, j ∈ Z}
240
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 241
Nodos Vecinos
Dado un nodo (ih, jh) de la grilla, sus vecinos son los puntos ((i − 1)h, jh), (i +
1)h, jh), (ih, (j − 1)h), (ih, (j + 1)h).
Paseos al azar
Consideramos un bichito que efectua paseo al azar sobre la grilla. Trabajaremos
con un tiempo discreto t ∈ N0 . Empezamos en una posición inicial X0 . Llamamos Xt a la
posición al tiempo t. Será un vector aleatorio con valores en G.
En cada tiempo, suponiendo que estamos en un nodo Xt−1 elegimos con probabilidad
1/4 uno de sus vecinos y nos movemos a él.
Trayectorias
Aunque nuestro proceso tiene tiempo discreto, podríamos convertirlo en un proceso con
tiempo continuo t ∈ R≥0 , especificando que cuando n < t < n + 1 con i ∈ N0 , nuestro
bichito se mueve del nodo Xn al Xn+1 en linea recta a velocidad uniforme.
Xn = Xn + (t − n)(Xn+1 − Xn ), n<t<n+1
Ahora las trayectorias de nuestro proceso serán curvas continuas (poligonales).
Xτ ∈ ∂U
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 243
U = {(x, y) ∈ R2 : x2 + y 2 < 1}
∂U = {(x, y) ∈ R2 : x2 + y 2 = 1}
Notemos que en realidad esta probabilidad no depende del tiempo inicial t0 por la
falta de memoria del proceso.
1 X
uh (x0 ) = uh (v)
4 v∼x
0
donde ∆u es el Laplaciano de u.
∆u = 0 en U
u = f en ∂U
Estas fórmulas (que no hemos deducido) se ven en los cursos de ecuaciones diferenciales,
y a veces en los de análisis complejo.
Luego
d n−d
n 1 1 1 n
ph (xm , tn ) = P {Xtn = xm } = b(d, n, 1/2) = = n
d 2 2 2 d
ph (xm , tn ) = P {Xtn = xm }
= P {Xtn = xm /Un = 1} · P {Un = 1}
+ P {Xtn = xm /Un = −1} · P {Un = −1}
1 1
= P {Xtn−1 = xm−1 } · + P {Xtn−1 = xm+1 } ·
2 2
1
= (ph (xm−1 , tn−1 ) + ph (xm+1 , tn−1 ))
2
∂p
p(x, t + k) − p(x, t) = (x, t)k + o(k)
∂t
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 247
∂2p
p(x + h, t) + p(x − h, t) − 2p(x, t) = (x, t)h2 + o(h2 )
∂2x
Vamos a asumir que k = c · h2 donde c es una constante, entonces:
ph (xm , tn ) − ph (x, tn−1 ) 1 ph (xm , tn−1 ) + ph (xm , tn−1 ) − 2ph (xm , tn−1 )
=
k 2 ch2
Si suponemos que las densidades de probabilidad convergen
ph (x, t) → p(x, t)
∂p 1 ∂2p
(x, t) = (x, t)
∂t 2c ∂ 2 x
que se conoce como ecuación del calor o ecuación de difusión. Aunque esta ecua-
ción fue formulada originalmente por J. Fourier para describir la propagación del calor en
una barra de metal, se puede usar para describir muchos otros procesos de difusión (por
ejemplo de la tinta en el agua [LLLT04]).
∂u 1 ∂2u
(x, t) = (x, t)
∂t 2c ∂ 2 x
con la condición inicial
u(x0 , 0) = f (x0 )
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 248
Nota: Esto no es una justificación rigurosa, pero nos da una idea intuitiva de lo que
esperamos que ocurra. Una justificación rigurosa puede darse usando la teoría de las solu-
ciones viscosas (ver [Ros]).
Para encontrar explícitamente quien es p usamos el teorema local de De Moivre-Laplace
(teorema 11.1.1). Nos acordamos de que
(xm − x0 )2 c(xm − x0 )2
zd2 = =
h2 n tn
1 1 1 ch
√ =p =p =p
2πnpq 2πn/4 πtn /(2k) πtn /2
Luego cuando h → 0, obtenemos que:
−c(x − x0 )2
ph (xm , tn ) c
→ p(x, x0 , t) := √ exp
h πt t/2
u(x0 , 0) = f (x0 )
vendrá dada por:
Z ∞
u(x0 , t) := f (x) · p(x, x0 , t) dx
−∞
Repaso de Combinatoria
Los temas de este apéndice corresponden a álgebra I. Para más detalles recomiendo
consultar el apunte de la profesora Krick (se incluyen referencias a dicho apunte en este
apéndice).
Definición A.1.1 Decimos que dos conjuntos A y B son coordinables si existe una
función biyectiva f : A → B. Notación: A ∼ B.
249
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 250
A × B = {(1, a), (1, b), (2, a), (2, b), (3, a), (3, c)}, #(A × B) = 6
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 251
A = {a1 , a2 , . . . , an }
P(A) = {B : B ⊆ A} .
#(P(A)) = 2#(A)
A = {a1 , a2 , . . . , an }
V si ak ∈ B
(t1 , t2 , . . . , tn ) dada por tk =
F si ak 6∈ B
Entonces hay una biyección entre P(A) y T n con lo que #P(A) = #(T )n = 2n .
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 252
A.3. Permutaciones
A.3.1. Permutaciones de 3 elementos
¿De cuántas formas podemos ordenar 3 personas a = Aldo, b = Blanca, c = Carlos en
una fila?
a b c
Teorema A.3.2 Si n ∈ N,
n
Y
Pn = n! = 1 · 2 · 3 · · · n = k
k=1
Por ejemplo, ¿de cuántas maneras pueden ser ordenadas 5 personas en el orden de
mérito de un concurso? (suponiendo que nadie queda afuera del concurso)
Rta: 5! = 120.
Notar que si n = 0, A = B = ∅ y hay una única función f : ∅ → ∅ (la función vacía).
Entonces P0 = 1 por lo que la definición 0!=1 hace que el teorema sea cierto también en
este caso.
A.4. Variaciones
A.4.1. Una variación del problema anterior
Supongamos ahora que tenemos 4 personas en un concurso a = Aldo, b = Blanca,
c = Carlos d = Diana y tenemos que elegir una terna donde importa el orden en que
los ponemos. ¿De cuántas formas diferentes podemos hacerlo?
a b
a,b,c a,b,d a,c,b a,c,d a,d,b a,d,c b,a,c b,a,d b,c,a b,c,d b,d,a b,d,c
c d
c,a,b c,a,d c,b,a c,b,d c,d,a c,d,b d,a,b d,a,c d,b,a d,b,c d,c,a d,c,b
f (2) = c
f (3) = a
n · (n − 1) · (n − 2) . . . (n − k + 1)(n − k)(n − k − 1) · · · 1 n!
Vkn = =
(n − k) · (n − k − 1) · · · 1 (n − k)!
a, b, c a, c, b b, a, c b, c, a c, b, a c, a, b
V4
4 4 24
C3 = = 3 = =4
3 3! 6
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 255
Vn
n n!
= k =
k k! k!(n − k)!
[Fórmula de la proposición 3.2.2 del apunte, aunque allí se prueba de otra forma.]
También se lo conoce como número combinatorio.
por inducción [teorema 3.3.4]. También se puede seguir el camino inverso: deducir pri-
mero esta fórmula de la interpretación combinatoria (como hicimos) y a partir de ella la
recurrencia haciendo cuentitas.
0
0
1 1
0 1
2 2 2
0 1 2
3 3 3 3
0 1 2 3
4 4 4 4 4
0 1 2 3 4
5 5 5 5 5 5
0 1 2 3 4 5
6 6 6 6 6 6 6
0 1 2 3 4 5 6
7 7 7 7 7 7 7 7
0 1 2 3 4 5 6 7
Obtenemos
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
1 6 15 20 15 6 1
1 7 21 35 35 21 7 1
Cadenas de Markov
Notamos
PN = {x ∈ RN : xk ≥ 0, x1 + x2 + . . . + xN = 1}
al conjunto de vectores de probabilidad N -dimensionales.
258
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 259
nk
1 X
P Snk = P j+1 U0
nk
j=1
nX
k +1
1
= P j U0
nk
j=2
nk
1 X
= P j U0 − P U0 + P nj +1 U0
nk
j=1
nk
1 X
= P j U0 − P U0 + P nj +1 U0
nk
j=1
pero
1
lı́m k − P U0 + P nj +1 U0 k = 0
k→∞ nk
y en el límite:
P U ∞ = U∞
o sea que U∞ es una distribución estacionaria.
También es posible probar este teorema como consecuencia directa del teorema de punto
fijo de Brower, ya que se puede ver que PN es homeomorfo a una bola cerrada de dimensión
N − 1.
Teorema B.0.2 Si pi,j > 0 para todo i, j, es una contracción en la métrica que definimos
antes. Deducimos que tiene un único punto fijo U∞ ∈ PN y que para todo U0 ∈ V n
lı́m P n U0 = U∞
n→+∞
Prueba: Podemos elegir ε > 0 tal que pi,j > 0. Entonces como
N
X
pij = 1
i=1
N
" #
X 1 X ε 1 ε α
qi,j = pi,j − N = − N = = 1
α α α α α
i=1 i=1
Sean x, y ∈ PN , entonces
N
X
x i − yi = pij (xj − yj )
j=1
N N
" #
X X X X
=α qij (xj − yj ) + ε xi − yi =α qij (xj − yj )
j=1 i=1 i=1 j=1
Luego
N
X
|xi − yj | ≤ α qij |xj − yj |
j=1
n
X n X
X N
kx − yk = |xi − yj | ≤ α qij |xj − yj |
i=1 i=1 j=1
N
" n #
X X
≤α qi,j |xj − yj |
j=1 i=1
N
X
≤α |xj − yj | = α|x − y|
j=1
La Fórmula de Stirling
261
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 262
Es decir:
Z π/2 Z π/2
n−2 2
In = (n − 1)sen cos dx = (n − 1)senn−2 (1 − cos2 x) dx = (n − 1)[In−2 − In ]
0 0
π 2 2 4 4 6 6 2m 2m I2m
= · · · · · ... · ·
2 1 3 3 5 5 7 2m − 1 2m + 1 I2m+1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 263
π 22 · 42 · 62 · · · (2m − 2)2
= lı́m · 2m
2 m→+∞ 32 · 52 · 72 · · · (2m − 1)2
Tomando raíz cuadrada:
2 · 4 · 6 · · · (2m − 2) √
r
π
= lı́m · 2m
2 m→+∞ 3 · 5 · 7 · · · (2m − 1)
Multiplicando el denominador y el denominador por 2 · 4 · 6 . . . · (2m − 2) resulta:
22 · 42 · 62 · · · (2m − 2)2 √
r
π
= lı́m · 2m
2 m→+∞ 2 · 3 · 5 · 6 · 7 · · · (2m − 1)
√
22 · 42 · 62 · · · (2m)2 2m
= lı́m ·
m→+∞ (2m)! 2m
22m (12 · 22 · 32 · · · m2
= lı́m √
m→+∞ (2m)! 2m
22m (m!)2
= √
lı́m
m→+∞ (2m)! 2m
√
Multiplicando ambos miembros por 2, resulta:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 264
√ 22m (m!)2
π= lı́m √
m→+∞ (2m)! m
Cuando n es grande, es razonable que esperar que el valor de log(n!) esté próximo del
valor de la siguiente integral, que representa el área bajo la curva y = log x (en el intervalo
1 ≤ x ≤ n) y que podemos calcular exactamente:
Z n
An = log x dx = n log n − n + 1
1
La suma en (C.1) representa una aproximación a esta integral por medio de rectángulos
(sumas de Riemman). Una aproximación mejor se consigue utilizando la aproximación por
medio de trapecios:
n−1 n−1
X log(k) + log(k + 1) X 1 1
Tn = = log(k) + log n = log(n!) − log n
2 2 2
k=1 k=1
Como la función f (x) = log x es cóncava, la secante a la curva y = f (x) que une los
puntos (k, log(k)) y (k + 1, log(k + 1)) queda por abajo de dicha curva. En consecuencia,
An ≥ Tn
Nuestro objetivo es estimar el error En = An − Tn . Notamos que:
Z k+1
log(k) + log(k + 1)
Ek+1 − Ek = log x dx −
k 2
representa el área que queda entre la recta secante y la curva en el intervalo [k, k + 1].
Como la función es cóncava, Ek+1 − Ek ≥ 0. Por otro lado el área entre la curva la secante
podemos acotarla por el área entre la tangente a la curva en x = k + 1/2, es decir la recta:
1
y = T (x) = log(k + 1/2) + (x − (k + 1/2))
k + 1/2
y la secante (pues siendo f cóncava, tenemos que f (x) ≤ T (x)). Deducimos que:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 265
Z k+1
log(k) + log(k + 1)
Ek+1 − Ek ≤ T (x) dx −
k 2
es decir:
log(k) + log(k + 1)
Ek+1 − Ek ≤ log(k + 1/2) −
2
1 1 1 1 1 1 1
= 1+ − 1+ < 1+ − 1+
2 2k 2 2(k + 1/2) 2 2k 2(k + 1)
Sumando estas igualdades para k = 1, 2, . . . , n − 1, todos los términos del lado derecho
se cancelan, excepto dos (serie telescópica), y como E0 , obtenemos que:
1 3 1 1 1 3
En < log − log 1 + < log
2 2 2 2n 2 2
Notamos que En es entonces, monótona creciente y acotada, por lo tanto En tiende a un
límite E cuando n → +∞. Y la desigualdad para Ek+1 − Ek permite estimar la diferencia
E − En :
∞
X 1 1
E − En ≤ (Ek+1 − Ek ) < 1+
2 2n
k=n
n! = αn nn+1/2 e−n
La sucesión αn es ahora monótona decreciente, y tiende al límite: α = e1−E . En conse-
cuencia, por las estimaciones anteriores:
r
αn E−En (1/2) log(1+1/2n) 1 1
1≤ =e <e = 1+ ≤1+
α 2n 2n
En consecuencia, tenemos las desigualdades:
n+1/2 −n 1
αn e ≤ n! ≤ α 1 + nn+1/2 e−n
2n
Nos queda determinar el valor de la constante α. Para ello utilizamos la fórmula de
Wallis,
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 266
Construcción de la Integral de
Lebesgue, y equivalencia de las
distintas definiciones de esperanza
Motivación
En este apéndice presentaremos una construcción de la integral de Lebesgue, que es
una herramienta útil para definir esperanzas de variables aleatorias y operar con ellas (Se
desarrolla en los cursos de análisis real, pero aquí presentaremos algunas nociones básicas,
siempre teniendo en mente la interpretación probabilística).
Para ver porqué la integral de Stieltjes no es adecuada para muchos propósitos teóricos,
consideremos la definición que hemos dado anteriormente de la esperanza de una variable
aleatoria X en términos de una integral de Stieltjes:
Z +∞
E[X] = x dF (x)
−∞
267
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 268
Definición D.1.1 Sea (Ω, M) un espacio medible y sea f : Ω → R una función. Diremos
que f es una función medible (respecto a la σ-álgebra M) si para todo α ∈ R el conjunto
{f > α} = {ω ∈ Ω : f (ω) > α} es medible, es decir pertenece a M.
i) f es medible.
Prueba: i) ⇒ ii): \
{f ≥ α} = {f > α − 1/n}
n∈N
Como f es medible, cada uno de los conjuntos {f > α − 1/n} pertenece a M, y como M
es una σ-álgebra, es cerrada por intersecciones numerables. Concluimos que {f ≥ α} ∈ M.
ii) ⇒ iii): Notamos que {f < α} = Ω − {f ≥ α}, y como M es cerrada por comple-
mentos, {f < α} ∈ M.
iii) ⇒ iv) : Escribimos
\
{f ≤ α} = {f < α + 1/n}
n∈N
iii) f 2 es medible.
iv) f · g es medible,
v) Si g 6= 0, f /g es medible.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 270
Prueba: i): {f + k > α} = {f > α − k} Si k > 0: {kf > α} = {f > α/k} mientras que si
k < 0: {kf > α} = {f < alpha/k}
ii): {f + g > α} = {f > α − g} y α − g es medible por i)
√ √
iii): Si α ≥ 0, {f 2 > α} = {f > α} ∪ {f < − α} (sino {f 2 > α} = Ω).
iv): Se deja como ejercicio (por iii) basta ver que 1/g es medible)
Observación: El lema se puede adaptar al caso en que f o g toman los valores ±∞.
f + g está bien definida, salvo cuando es de la forma (+∞) + (−∞) o (−∞) + ∞. Para
definir f · g, hay que utilizar las convenciones 0 · (±∞) = (±∞) · 0 = 0
Lema D.1.5 Sea (fn )n∈N una sucesión de funciones medibles. Entonces
es medible.
Prueba: Notamos que [
{sup fn (x) > λ} = {fn > λ}
n∈N n∈N
Por lo que si cada fn es medible, {fn > λ} ∈ M ∀ n ∈ N , y en consecuencia como M es
una σ-álgebra, {supn∈N fn (x) > λ} ∈ M. Esto prueba que supn fn (x) es medible.
Del mismo modo, se prueba que ı́nf n fn (x) es medible, ya que:
[
{ ı́nf fn (x) < λ} {fn < λ}
n∈N
n∈N
Para probar que lı́m sup fn es medible, notamos que
lı́m sup fn = ı́nf sup fn
k k≥n
Pero para cada k, supk≥n fn es medible por lo que ya probamos, y en consecuencia lı́m sup fn
es medible. De modo análogo, de que
lı́m inf fn = sup ı́nf fn
k k≥n
Se deduce que lı́mı́nf fn es medible. Finalmente notamos que si la sucesión (fn ) converge,
entonces lı́mn→+∞ fn (x) = lı́m inf fn (x) = lı́m sup fn (x), por lo que la función límite de las
fn es medible.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 271
1 si ω ∈ Ei
IEi (ω) =
0 si ω 6∈ Ei
1
En la teoría de probabilidades el nombre de función característica suele usarse para otra cosa, por eso
preferimos en estas notas el de indicador. A veces se usa la notación χE en lugar de IE
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 272
Lema D.1.10 Si f : Ω → [0, +∞] es una función medible no negativa, entonces existe
una sucesión ϕn (x) de funciones simples no negativas tales que
siendo
i−1 i
En,i = {x ∈ Ω : n ≤ f (x) < n
2 2
Fn = {x ∈ Ω : f (x) ≥ n}
Es decir que:
i−1
si i−1 i
ϕn (x) = 2n 2n ≤ f (x) < 2n
n si f (x) ≥ n
Se prueba que ϕn (x) tiene las propiedades del enunciado.
Z
E[X] = X dP
Ω
La integral de las funciones simples, tiene las siguientes propiedades: (que se demuestran
exactamente como las propiedades de la esperanza de variables aleatorias discretas)
Prueba: Supongamos que un conjunto medible A se representa como una unión disjunta
numerable de una sucesión (An )n∈N de conjuntos medibles:
[
A= An
n∈N
En consecuencia,
N
X
λ(An ) = ci µ(Ei ∩ An )
i=1
Y por lo tanto
∞
X ∞ X
X N
λ(An ) = ci µ(Ei ∩ An )
n=1 n=1 i=1
Como en esta suma doble los términos µ(Ei ∩ An ) son no negativos, da lo mismo efectuar
la suma en cualquier orden. En consecuencia,
∞
X X ∞
N X N
X ∞
X
λ(An ) = ci µ(Ei ∩ An ) = ci µ(Ei ∩ An )
n=1 i=1 n=1 i=1 n=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 275
y concluimos que:
∞
X N
X Z Z
λ(An ) = ci µ(Ei ∩ A) = ϕ(x) IA (x) dµ = ϕ(x) dµ
n=1 i=1 Ω A
Prueba: Sea
f (x) = lı́m fn (x)
n→+∞
es decir, Z Z
lı́m ϕ(x) dµ = ϕ(x) dµ
n→+∞ A Ω
n
De modo que,
Z Z Z
α ϕ(x) dµ = α lı́m ϕ(x)dµ ≤ lı́m fn (x) dµ
Ω n→+∞ A n→+∞ Ω
n
y por lo tanto como esto vale para toda función simple ϕ con 0 ≤ ϕ ≤ f , por la definición
de integral, deducimos que:
Z
f (x) dµ ≤ lı́m fn (x) dµ
Ω n→+∞
Prueba: Utilizamos el lema de aproximación por funciones simples: sabemos que existen
una sucesión creciente (fn (x)) de funciones simples que converge a f (x), y una sucesión
creciente (gn (x)) de funciones simples que converge a g(x). Entonces por la linealidad de
la integral de funciones simples,
Z Z Z
[λ1 fn (x) + λ2 gn (x)] dµ = λ1 fn (x) dµ + λ2 gn (x) dµ
Ω Ω Ω
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 277
Teorema D.3.7 (Lema de Fatou) Sea fn : M → [0, +∞] una sucesión de funciones
medibles no negativas. Entonces:
Z Z
lı́m inf fn (x) dµ ≤ lı́m inf fn (x) dµ
Ω n→+∞ n→+∞ Ω
Prueba: Llamemos
f (x) = lı́m inf fn (x) = sup ı́nf fn (x)
n→+∞ k∈N n≥k
y en consecuentcia: Z Z
gk (x) dµ ≤ lı́m inf fn (x) dµ
Ω n→+∞ Ω
Y por lo tanto: Z Z
lı́m gk (x) dµ ≤ lı́m inf fn (x) dµ
k→+∞ Ω n→+∞ Ω
En consecuencia utilizando (D.2), deducimos que:
Z Z
f (x)dµ ≤ lı́m inf fn (x) dµ
Ω n→+∞ Ω
f = f+ − f− (D.3)
y
0 si f (x) ≥ 0
−
f (x) =
−f (x) si f (x) < 0
Notamos que:
|f | = f + + f −
Definición D.4.1 Diremos que una función medible f : Ω → R es integrable si son finitas
las integrables Z
f + (x) dµ
Ω
y Z
f − (x) dµ
Ω
En ese caso, definimos la integral de f con respecto a µ en el espacio Ω por:
Z Z Z
f (x) dµ = +
f (x) dµ + f − (x) dµ
Ω Ω Ω
Z Z
=λ f +
dµ − λ f − dµ
Ω Ω
Z
=λ f dµ
Ω
Si λ < 0, notamos que:
(λf )+ = (−λ)f −
(λf )− = (−λ)f +
y de nuevo, vemos usando la definición y la linealidad de la integral para funciones no
negativas, que si f es integrable, λf también lo es y se verifica que:
Z Z Z
λf dµ = (λf )+ dµ − (λf )− dµ =
Ω Ω Ω
Z Z
= −λ f − dµ + λ f + dµ
Ω Ω
Z
=λ f dµ
Ω
(El caso λ = 0 es trivial porque la integral de la función nula dá 0).
Ahora probaremos que la integral distribuye la suma: Para ello notamos que (D.3)
proporciona una escritura de f como diferencia de dos funciones no negativas. Pero que si
tenemos otra escritura de f como diferencia de dos funciones medibles no negativas:
f = f1 − f2
Entonces de f + − f − = f1 − f2 , deducimos f + + f2 = f1 + f − , entonces por la linealidad
de la integral para funciones no negativas:
Z Z Z Z
+
f dµ + f2 dµ = f1 dµ + f − dµ
Ω Ω Ω Ω
En consecuencia, Z Z Z
f dµ = f1 dµ − f2 dµ
Ω Ω Ω
Vale decir que si en lugar de (D.3), utilizáramos cualquier otra descomposición de f como
diferencia de funciones medibles no negativas obtendríamos el mismo valor de la integral.
Hecha esta observación, notamos que
f + g = f + − f − + g + − g − = (f + + g + ) − (f − + g − )
y que esta última expresión proporciona una escritura de f +g como diferencia de funciones
no negativas. En consecuencia, por la observación anterior, y la linealidad de la integral
para funciones no negativas:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 280
Z Z Z
(f + g) dµ = +
(f + g ) dµ − +
(f − + g − ) dµ =
Ω Ω Ω
Z Z Z Z
−
f +
dµ + +
g dµ − f dµ − g − dµ =
Ω Ω Ω Ω
Z Z
= f dµ + g dµ
Ω Ω
y tal que existe una función integrable g de modo que |fn (x)| ≤ g (en casi todo punto con
respecto a la medida µ). Entonces
Z
lı́m |fn (x) − f (x)| dµ = 0
n→+∞ Ω
En particular, Z Z
lı́m fn (x) dµ = f (x) dµ
n→+∞ Ω Ω
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 281
µX (B) = P (X −1 (B))
Lema D.5.1 Sea ϕ : R → R una función medible Borel. Entonces se tiene que
Z Z
E[ϕ(X)] = ϕ(X) dµ = ϕ(x) dµX
Ω R
en el siguiente sentido.
Por otra parte, notamos que ϕ(X) : M → R es una función simple que toma el valor
ci en el conjunto X −1 (Bi ), de modo que:
Z n
X
ϕ(X) dP = ci P (X −1 (Bi ))
Ω i=1
Dado que por definición de µX , µX (Bi ) = P (X −1 (Bi )), ambas integrales coinciden.
Sea ahora ϕ : R → R una función boreliana no negativa. Y consideramos una sucesión
creciente de funciones borelianas simples ϕn : R → R que converge a ϕ en forma creciente.
Dado que para cada n ∈ N tenemos que:
Z Z
ϕn (X) dP = ϕn (x) dµX
Ω R
y que: Z Z
−
ϕ (X) dµ = ϕ− (x) dµX
Ω R
La linealidad de la integral implica entonces que:
Z Z
ϕ(X) dP = ϕ(x) dµX
Ω R
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 283
en el siguiente sentido:
Prueba: Supongamos primero que ϕ tiene soporte en un intervalo cerrado [a, b]. Consi-
deremos una partición π : a = x0 < x1 < . . . < xn = b del intervalo y elijamos puntos
intermedios ξi ∈ (xi , xi+1 ).
Definamos la función simple ϕπ : [a, b] → R dada por:
Entonces:
n−1
X n−1
X Z
S(π, F ) = ϕ(xii )[F (xi+1 ) − F (xi )] = ϕ(ξi )µX ((xi .xi+1 ]) = ϕπ (x) dµ
i=1 i=1 Ω
Ahora bien, como ϕ es uniformemente continua en [a, b], deducimos que ϕπ converge
uniformenete a ϕ en [a, b] cuando la norma de la partición π tiende a cero. En efecto, dado
ε > 0, sea δ > 0 el que corresponde a ε por la continuidad uniforme de ϕ en [a, b]. Entonces,
si x ∈ (xi , xi+1 ],
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 284
Lo que en particular, dice que |ϕ(x)| es integrable con respecto a µX si y sólo si:
Z ∞
|ϕ(x)| dF (x) < +∞
−∞
Si esto sucede, podemos aplicar el teorema de convergencia mayorada a la sucesión ϕ(x)I[an ,bn ]
(que claramente está mayorada por |ϕ(x)|, y deducir que la fórmula (D.4) es cierta, también
en este caso.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 285
µX (B) = P (X −1 (B)
Y si ϕ : Rn → R es una función medible Borel, entonces tendremos la fórmula (genera-
lización del lema D.5.1:
Z Z
E[ϕ(X)] = ϕ(X) dP = ϕ(x)dµX
Ω Rn
Apéndice E
Independencia
λ1 ) Ω ∈ L
λ2 ) A ∈ L ⇒ Ac = Ω − A ∈ L
286
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 287
Si A ⊂ B, y A, B ∈ L → B − A ∈ L.
Prueba: B − A = B ∩ Ac = (B c A)c y B c ∩ A = ∅.
S
Prueba: Sea L0 el λ-sistema generado por P, esto es la intersección de todos los λ-sistemas
que contienen a P (que es a su vez un λ-sistema). Notamos que en particular λL0 ⊂ L.
Afirmamos que L0 es un π-sistema. Para probar que L0 es un π-sistema, procedemos del
siguiente modo: dado A ∈ L, definimos
LA = {B ⊂ Ω : A ∩ B ∈ L0 }
Afirmación 1: Si A ∈ L0 , entonces LA es un λ-sistema.
entonces [
Bn ∈ LA
n∈N
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 288
Afirmación 2: Si A ∈ P, entonces L0 ⊂ LA .
Si A ∈ P, entonces para cualquier B ∈ P tenemos que A ∩ B ∈ P, ya que P es por
hipótesis un π-sistema. Deducimos que P ⊂ LA . Luego por la afirmación 1, LA es un
λ-sistema que continene a P, lo cual por la definición de L0 implica que L0 ⊂ LA .
Afirmación 3: Si C ∈ L0 , entonces L0 ⊂ LC .
Para todo A ∈ P, por la afirmación 2, tenemos que LA ⊂ L0 . Luego si C ∈ L0 , entonces
C ∈ LA , que por simetría de la definición implica que A ∈ LC . Como esto vale para todo
A ∈ P, deducimos que P ⊂ LC .
Por la afirmación 1, deducimos que LC es un λ-sistema que contiene a P, lo que por la
definición de L0 , implica que L0 ⊂ LC .
Finalmente sean D, E ∈ L0 . Entonces por la afirmación 3, D ∈ L0 ⊂ LE . En conse-
cuencia por definición de LE , D ∩ E ∈ L0 . Concluimos que L0 es un π-sistema.
Conclusión de la prueba: Como L0 es a la vez un π-sistema, y un λ-sistema, es
una σ-álgebra. Como contiene a P, deducimos que σ(P) ⊂ L0 . Y entonces, como L0 ⊂ L,
concluimos que σ(P) ⊂ L.
λ1 ) R ∈ L1 :
ya que P {Y ∈ R = 1.
λ2 ) B ∈ L1 ⇒ B c = R − B ∈ L1
En efecto,
[
P {(X, Y ) ∈ (a, b] × B} = P {(X, Y ) ∈ ((a, b] × Bn )}
n∈N
X
= P {(X, Y ) ∈ (a, b] × Bn }
n∈N
X
= P {X ∈ (a, b]}P {Y ∈ Bn }
n∈N
!
X
= P {X ∈ (a, b]} P {Y ∈ Bn }
n∈N
= P {X ∈ (a, b]}P {Y ∈ B}
Notemos que no es posible probar que L1 sea una σ-álgebra, pues este argumento no
funciona si los Bn no fueran disjuntos.
Por otra parte la familia P de los intervalos semiabiertos de la recta (contando como
intervalo semiabierto al conjunto vacío (a, a] = ∅ es un π-sistema, y por la definición de
variables aleatorias independientes, P ⊂ L1 .
El teorema π − λ nos permite concluir entonces que σ(P) ⊂ L1 , es decir: que la σ-
álgebra B(R) de los borelianos de la recta, está contenida en L1 . Entonces, hemos probado
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 290
L2 = {B ⊂ R : P {(X, Y ) ∈ B × B2 } = P {X ∈ B} · P {Y ∈ B2 } : ∀ B ∈ B(R) }
Prueba: Hacemos uso una vez más del método de aproximación por funciones simples.
Supongamos pues primero que X e Y son no negativas, y sean (Xn ) e (Yn ) variables alea-
torias simples (discretas) tales que Xn converja a X en forma creciente, e Yn converja
en forma creciente a Y , dadas por la construcción del lema D.1.10. Notamos que como
consecuencia de dicha construcción, si X e Y son independientes, Xn e Yn resultan inde-
pendientes. En consecuencia, como ya probamos que el resultado es cierto para variables
discretas (proposición 3.2.9) , tenemos que
E[Xn ] → E[X]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 291
E[Yn ] → E[Y ]
E[Xn · Yn ] → E[X · Y ]
Luego,
E[X · Y ] = E[X] · E[Y ]
Esto establece el resultado para funciones no negativas. En el caso general, hacemos uso,
una vez más de la descomposición:
X = X+ − X−
Y =Y+−Y−
Entonces,
Recordamos que esta integral, se define como el límite conforme la norma |π| de la
partición tiende a cero, de las sumas:
n−1
X
Sπ (ϕ.F ) = ϕ(ξi )(F (xi+1 ) − F (xi ))
i=0
donde π : a = x0 < x1 < . . . xn = b es una partición de [a, b] y ξi ∈ [xi , xi+1 ] es un
punto intermedio.
Estas sumas son poco manejables para nuestros propósitos pues dependen de los puntos
intermedios ξi variables. Por ello, las reemplazamos por sumas superiores e inferiores que
son de más fácil manejo:
Para cada i (0 ≤ i ≤ n − 1), notamos:
mi = ı́nf ϕ(x)
x∈[xi ,xi+1 ]
Mi = sup ϕ(x)
x∈[xi ,xi+1 ]
292
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 293
Lema F.0.2 Dado ε > 0, existe δ > 0 tal que si |π| < δ, tenemos que
Prueba: Dado ε > 0, como ϕ es uniformemente continua en [a, b], existirá un δ > 0 tal
que si |x − y| < δ con x, y ∈ [a, b], se tiene que |ϕ(x) − ϕ(y)| < ε. Entonces, si π es cualquier
partición de [a, b] tal que |π| < δ, tendremos que:
n−1
X
Uπ (ϕ, F ) − Lπ (ϕ, F ) = (Mi − mi )(F (xi+1 ) − F (xi ))
i=0
n−1
X
≤ ε(F (xi+1 ) − F (xi )) ≤ ε(F (b) − F (a))
i=0
Hechas estas observaciones, estamos en condiciones de demostrar el teorema, para ello
comencemos eligiendo una sucesión (πn ) de particiones de (a, b] de modo que πn+1 sea un
refinamiento de πn , y que |πn | → 0. Por ejemplo, podemos elegir como πn la partición
uniforme de [a, b] en 2n partes de igual longitud.
Entonces, por la propiedad de monotonía la sucesión de sumas inferiores Lπn (ϕ, F ) será
monótona creciente, y además está acotada pues
!
Lπn ≤ sup ϕ(x) (F (b) − F (a))
x∈[a,b]
Dado ε > 0, sea δ > 0 el que corresponde a ε de acuerdo al lema, y elijamos n tal que
|πn | < δ, y
|Lπn − I| < ε
|Uπn − I| < ε
Afirmamos entonces que:
lı́m Sπ (ϕ, F ) = I
|δ|→0
Una observación adicional nos será útil para demostrar el teorema de Helly sobre paso
al límite en la integral de Stieltjes: este δ sólo depende de la continuidad uniforme de ϕ y
de la magnitud de la variación F (b) − F (a) de F en [a, b] (La partición πn sólo juega un rol
auxiliar en el argumento, pero δ es independiente de n y por lo tanto de F mientras F (b) −
F (a) permanezca acotado). Esto nos proporciona el siguiente corolario (sobre convergencia
uniforme de la integral de Stieltjes respecto de la función F ):
Corolario F.0.3 Sea ϕ ∈ C[a, b]. Dados ε > 0 y C > 0, existe un δ > 0 (que depende de
ε > 0 y C pero es independiente de F ) tal que si F es cualquier función F : [a, b] → R
creciente tal que
F (b) − F (a) ≤ C
y π una partición de (a, b] con puntos marcados tal que |π| < δ entonces
Z b
ϕ(x) dF (x) − Sπ (ϕ, F ) < ε
a
Apéndice G
Sn = X1 + X2 + . . . + Xn
donde Sk = X1 + X2 + . . . + Xn .
Queremos obtener una cota para P (A). Para ello lo descomponemos en eventos disjuntos,
de acuerdo a cual es la primera vez que Sk2 ≥ λ2 :
A1 = {S12 ≥ λ2 }
296
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 297
Luego,
n
X
IA = IAn
k=1
n
X
Sn2 ≥ Sn2 IA = Sn2 IAk
k=1
y tomando esperanza:
n
(G.1)
X
E[Sn2 ] ≥ E[Sn2 IAk ]
k=1
Nos gustaria sustituir Sn por Sk en esta sumatoria. Para ello, notamos que:
Luego
n
1 1 X
P (A) ≤ E[Sn
2
] = Var(Xk )
λ2 λ2
k=1
Var(Xn )
∞
(G.2)
X
< +∞
n2
n=1
Entonces (Xn )n∈N verifica la ley fuerte de los grandes números, es decir:
X1 + X2 + . . . + Xn E(X1 ) + E(X2 ) + . . . + E(Xn ) c.s.
− −→ 0
n n
En consecuencia:
∞
X 1 X 1
n
=
4 4n
n:2n+1 ≥k n=j(k)
(pues 2j(k) ≥ k2 ).
Por lo que sustituyendo, concluimos que:
16m2 X Var(Xk )
∞
X
P (Am,n ) ≤ < +∞
3 k2
n=1 k=1
por la hipótesis.
Etapa 2: Por el lema de Borel-Cantelli, concluimos que, fijado m con probabilidad 1,
sólo ocurren finitos de los eventos An,m . Vale decir que si
1
para infinitos n =
\ [
Am,∞ = ω ∈ Ω : Mn (ω) ≥ Am,n
m
k∈N n≥k
Prueba: Pongamos
A0 = {ω ∈ Ω : X(ω) = 0}
An = {ω ∈ Ω : n − 1 < |X| ≤ n}
A∞ = {ω ∈ Ω : X(ω) = ±∞}
Los eventos An (con n ∈ N ∪ {∞}) forman una partición del espacio Ω. Notemos así
mismo que bajo cualquiera de las dos condiciones del enunciado X es finita con probabilidad
1, es decir A∞ tiene probabilidad cero. En consecuencia, por la σ-aditividad de la integral
(de Lebesgue) respecto del conjunto 1 :
X∞ Z
E[|X|] = |X| dP
n=0 An
y por lo tanto:
XZ XZ
(n − 1) dP ≤ E[|X|] ≤ n dP
n=1 An n=1 An
(Notamos que el término correspondiente a n = 0 se anula). Es decir que:
X X
(n − 1)P (An ) ≤ E[|X|] ≤ nP (An )
n=1 n=1
o sea, teniendo encuenta que los An forman una partición (y que por lo tanto sus probabi-
lidades suman 1): !
X X
nP (An ) − 1 ≤ E[|X|] ≤ nP (An )
n=1 n=1
Deducimos pues que:
∞
X
E[|X|] < +∞ ⇔ nP (An ) < +∞
n=1
Para escribir esto de otra forma (y obtener la conclusión del enunciado), introduzcamos los
eventos:
Bn = {ω ∈ Ω : |X(ω)| > n}
Entonces An = Bn−1 − Bn y como Bn ⊂ Bn−1 deducimos que:
P (An ) = P (Bn−1 ) − P (Bn )
En consecuencia,
∞
(G.3)
X
E[|X|] < +∞ ⇔ n {P (Bn−1 ) − P (Bn )} < +∞
n=1
1
Aquí presentamos una prueba usando la integral Lebesgue. Son posibles pruebas alternativas, por ej.
usando la integral de Stieltjes. Ver Barry James
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 302
tiene sumas parciales acotadas, y es por lo tanto convergente. Esto prueba una de las im-
plicaciones del enunciado. Para probar la otra, supongamos que dicha serie es convergente.
Entonces, por (G.4):
X N N
X −1
n {P (Bn−1 ) − P (Bn )} ≤ P (B0 )
n=1 n=1
y en consecucnia por (G.3), E[|X|] < +∞.
Lema G.2.4 Sea X una variable aleatoria con esperanza finita, y pongamos para cada n,
An = {ω ∈ Ω : −n ≤ |X(ω)| ≤ n}.Entonces:
∞
X 1
K= E[X 2 IAn ] < +∞
n2
n=1
1 1 2
= + <
j2 j j
Volviendo a la prueba del lema, para cada j ∈ N , consideramos el evento:
Bj = {ω ∈ Ω : j − 1 < |X(ω)| ≤ j}
y
B0 = {ω ∈ Ω : X(ω) = 0}
Entonces:
n
Bj (unión disjunta)
[
An =
j=0
En consecuencia:
n
X
2
E[X IAn ] = E[X 2 IBj ]
j=0
y por lo tanto:
∞ ∞ n
X 1 2
X 1 X
K= E[X IAn ] = E[X 2 IBj ]
n2 n2
n=1 n=1 j=−0
Cambiando el orden de la suma (cosa que está permitida, ya que es una serie de términos
no negativos):
∞ X∞
X 1
K= E[X 2 IBj ]
n2
j=1 n=j
X1 + X2 + . . . Xn c.s.
−→ µ
n
cuando n → +∞.
Xn si |Xn | ≤ n
Yn =
0 si |Xn | > n
Lema G.2.6 Supongamos que se cumplen las hipótesis del teorema G.2.5 Las variables
truncadas Yn tienen las siguientes propiedades:
i)
limn→+∞ E[Yn ] = µ
ii)
Var(Yn )
∞
X
< +∞
n2
n=1
iii) Con probabilidad 1, dado ω ∈ Ω existe un n0 = n0 (ω) tal que Xn (ω) = Yn (ω) para
n ≥ n0 .
Ahora bien la secuencia de variables aleatorias: X1 I{|Xn |≤1} está acotada por |X1 |:
E[Yn ] → E[X1 ] = µ
An = {ω ∈ Ω : Xn (ω) 6= Yn (ω)}
Entonces:
∞
X ∞
X ∞
X ∞
X
P (An ) = P {Xn 6= Yn } = P {|Xn | > n} = P {|X1 | > n} < +∞
n=1 n=1 n=1 n=1
Lema G.2.8 Sea (µk )k∈NPuna sucesión de números reales tales que µk → µ cuando k →
+∞, y pongamos zn = n1 nk=1 νk entonces zn → µ cuando n → +∞.
En virtud del lema G.2.6, ii), vemos que las variables truncadas Yn verifican las hipótesis
de la primera ley fuerte de Kolmogorov (teorema G.2.1), en consecuencia P (D) = 1. Ahora
bien, en virtud del lema G.2.8:
µ1 + µ2 + . . . + µn
→µ
n
y en consecuencia: B ∩ D ⊂ C. Pero como, P (B) = P (D) = 1, deducimos que P (C) = 1.
Esto concluye la prueba de la segunda ley fuerte de Kolmogorov.
Nota: Una demostración alternativa del teorema (G.2.5), que no depende de la des-
igualdad de Kolmogorov, se da en el artículo de N. Etemadi [Ete81].
Apéndice H
La siguiente condición, donde se pide que esto valga uniformemente en n, nos permitirá
evitar la pérdida de masa en el infinito:
Definición H.0.1 Sea (Fn ) una sucesión de funciones de distribución. Diremos que (Fn )
es ajustada 1 si dado ε > 0 existe Mε > 0 tal que
Teorema H.1.1 Supongamos que (Fn )n∈N es una sucesión de funciones de distribución.
Entonces existe una subsucesión Fnk y una función F : R → R creciente y continua por la
derecha, tal que
lı́m Fnk (x) = F (x)
k→+∞
307
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 308
Observación H.1.2 La función límite F puede no ser una función de distribución. Por
ejemplo si a + b + c = 1, y
y tenemos que
lı́m F (x) = b, lı́m F (x) = b + c = 1 − a
x→−∞ x→+∞
Como Fnk (r2 ) → G(r2 ) ≥ G(r1 ) y F (nk )(s) → G(s) ≤ F (s), se deduce que si k ≥ k0 (ε),
F (x) − ε < Fnk (r2 ) ≤ Fnk (x) < Fnk (s) < F (x) + ε
i) (Fn ) es ajustada.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 309
Prueba: Supongamos primero que (Fn ) es ajustada, y sea Fnk una subsucesión que verifica
ii). Elijamos r < −Mε y s > Mε puntos de continuidad de F , emtpmces
1 − F (s) + F (r) = lı́m 1 − Fnk (s) + Fnk (r)
k→+∞
≤ lı́m sup 1 − Fn (Mε ) + Fn (−Mε ) ≤ ε
n→+∞
Deducimos que:
lı́m sup 1 − F (x) + F (−x) ≤ ε
x→+∞
y como ε es arbitrario. se deduce que F que se verifica (H.1).
Para probar el recíproco, supongamos que (Fn ) no es ajustada. Entonces hay un ε > 0
y una subsucesión Fnk tal que
1 − Fnk (k) + Fnk (−k) ≥ ε
Utilizando el principio de selección de Helly (y pasando a una subsucesión) podemos su-
poner que Fnk (x) → F (x) en los puntos de continuidad de F (donde F es continua por la
derecha). Sean r < 0 < s puntos de continuidad de F , entonces
1 − F (s) + F (r) = lı́m 1 − Fnk (s) + Fnk (r) ≥ lı́m inf 1 − Fnk (k) + Fnk (−k) ≥ ε
k→+∞ k→+∞
ϕn (t) → ϕ(t) ∀ t ∈ R
ii) Recíprocamente, si
ϕn (t) → ϕ(t) ∀t ∈ R
donde ϕ(t) es una función continua en t = 0, entonces existe una distribución de
probabilidad F tal que Fn converge débilmente a F .
Prueba: La afirmación i) es una consecuencia del corolario 9.2.3 aplicado a ϕ(t) = eitx .
Para probar la afirmación recíproca ii), vamos a mostrar que la sucesión de funciones
de distribución (Fn )n∈N es ajustada. Esto será una consecuencia de la continuidad de ϕ(t)
en t = 0
Si x ∈ R y δ > 0 entonces
sen(δx) 1 δ
Z
1≤2 1− = (1 − cos(tx) dt si |δx| > 2
δx δ −δ
Podemos consider variables aleatorias Xn con distribución Fn , tomar x = Xn y tomar
esperanzas para obtener
1 δ
Z
P {|δXn | > 2} ≤ E[1 − cos(tXn )] dt
δ −δ
1 δ
Z
= Re[E(1 − exp(itXn )] dt
δ −δ
1 δ
Z
= Re[(1 − E[exp(itXn )]] dt
δ −δ
1 δ
Z
= Re[1 − ϕn (t)] dt
δ −δ
Como
|Re[1 − ϕn (t)]| ≤ |1 − ϕn (t)]| ≤ +|ϕn (t)| ≤ 2,
por el teorema de convergencia mayorada vemos que
1 δ
Z
P {|δXn | > 2} → Re[1 − ϕ(t)] dt
δ −δ
y por lo tanto
Z δ
1
P {|δXn | > 2} → |1 − ϕ(t)| dt ≤ 2ε
δ −δ
Como (Fn ) es ajustada, (Fnk ) también lo es. Luego, de nuevo por el teorema de Prokhorov,
existe una subsucesión (Fnkj ) de Fn tal que Fn converge en distribución a alguna distri-
bución de probabilidades, que por lo que dijimos antes tiene que ser necesariamente F .
Entonces Fnkj (x0 ) → F (x0 ), y esto contradice (H.2).Este absurdo provino de suponer que
Fn (x0 ) 6→ F (x0 ), por lo que Fnk (x0 ) → F (x0 ). Esto vale para todo x0 ∈ C(F ).
Bibliografía
[Ash08] Robert B Ash. Basic probability theory. Courier Corporation, 2008. URL: http:
//www.math.uiuc.edu/~r-ash/BPT.html.
[Fel57] William Feller. An introduction to probability theory and its applications. 1957.
[Yoh] Victor Yohai. Notas del curso Probabilidades y Estadística. URL: http://mate.
dm.uba.ar/~vyohai/Notas%20de%20Probabilidades.pdf.
312
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 313
[Jam19] Sreenivasa Rao Jammalamadaka. Essential Statistics with Python and R. Uni-
versity of California, Santa Barbara., 2019. URL: https://escholarship.org/
uc/item/03w0n5g3.
[Moo69] F. Mood, A. Graybill. Introducción a la Teoría de la Estadística. Aguilar, editor,
1969.
[Fra17] P Francesco. Cantelli. sulla probabilità come limite della frequenza. Rom. Acc.
L. Rend.(5), 26(1):39–45, 1917.
[McD05a] D. McDonald. The local limit theorem: A historical perspective. Journal of the
Iranian Statistical Society, 4:73–86, 2005.
[FC09] Adan J Corcho Fernandez and Marcos Petrucio de A Cavalcante. Introducao a ana-
lise harmonica e aplicacoes. IMPA, 2009. URL: https://impa.br/wp-content/
uploads/2017/04/27CBM_11.pdf.
[HN01] John K. Hunter and Bruno Nachtergaele. Applied analysis. World Scientific Pu-
blishing Company, 2001.
[WZ77] Richard Lee Wheeden and Antoni Zygmund. Measure and integral, volume 26.
Dekker New York, 1977.
[LL10] Gregory F Lawler and Vlada Limic. Random walk: a modern introduction, volume
123. Cambridge University Press, 2010.
[Ros] Julio D Rossi. Tug-of-war games and pdes. course in maxwell centre for analysis
and nonlinear pdes. edimburg. scotland. may 2010. URL: http://mate.dm.uba.
ar/~jrossi/ToWandPDEs(2).pdf.
[GS07] Andrew Granville and Kannan Soundararajan. Sieving and the erdős–kac theorem.
In Equidistribution in number theory, an introduction, pages 15–27. Springer, 2007.
URL: http://arxiv.org/abs/math/0606039.
[KGS13] P Ravi Kumar, Alex KL Goh, and Ashutosh Kumar Singh. Application of
markov chain in the pagerank algorithm. Pertanika Journal of Science and
Technology, 21:541–554, 2013.
[LJ20] G Lakshmi and M Jyothi. Application of markov process for prediction of stock
market performance. International Journal of Recent Technology and Enginee-
ring, 8(6):1516–1519, 2020.
[LLLT04] Sanboh Lee, HY Lee, IF Lee, and CY Tseng. Ink diffusion in water. European
journal of physics, 25(2):331, 2004.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 316
[MRR13] Cameron Appel Max Roser and Hannah Ritchie. Human height. Our World in
Data, 2013. URL: https://ourworldindata.org/human-height.
Índice alfabético
desigualdad de Chebyshev, 51
desigualdad de Markov, 51
distribucion-multinomial, 75
distribuciones beta, 106
distribuciones gama, 103
distribuciones marginales, 118
distribución binomial negativa, 73
distribución de Poisson, 58
distribución geométrica, 73
distribución normal, 81
distribución normal multivariada, 145
distribución uniforme, 80
esperanza, 38
independencia, 44
de variables aleatorias continuas, 123
momentos, 47
varianza, 49
317