Notas de Proba

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 318

Notas de Probabilidad y Estadística

Por Pablo De Nápoli

Versión 2023.5
Departamento de Matemática - FCEyN
Universidad de Buenos Aires
Nota: No es una publicación oficial del Departamento de Matemática.
Prólogo a la versión 2022:

Las presentes Notas de Probabilidad y Estadística (para matemáticos) las he ido escri-
biendo a lo largo de las diferentes cursadas en las que estuve como profesor en esta materia
(2006, 2010, 2016 y 2021).
Su objetivo es ser una ayuda para facilitar el seguimiento y la comprensión de las clases
teóricas, y también que los estudiantes interesados puedan profundizar en algunos temas
(que en muchos casos están desarrollados con más extensión que en las clases teóricas).
El contendio del curso ha ido evolucionando a lo largo del tiempo, entre otras cosas para
adaptarse a los cambios en las materias anteriores. Es probable por ello que en la cursada
2022 no siga exactamente el mismo enfoque en algunas partes, aunque este material va a
seguir sirviendo como referencia.

Consideraciones sobre el enfoque elegido


Una seria dificultad que se presenta en esta asignatura es que el desarrollo riguroso de la
teoría de probabilidades está indisolublemente ligado a la teoría de la medida (Integral de
Lebesgue). Este teoría se desarrolla en la asignatura Análisis Real / Medida y probabilidad.
Pero el Departamento de Matemática ha decidido (ya hace años) que la presente asignatura
esté antes en el régimen de correlatividades. Por lo que en el momento de cursarla, los
estudiantes no conocen esta herramienta.

Teniendo en cuenta esta dificultad, en el curso he seguido el siguiente enfoque: en el


capítulo 3 se presentan primero los conceptos fundamentales de la materia en el contexto
de variables aleatorias discretas. En dicho contexto, se opera con sumas finitas o infinitas
(series), por lo que las demostraciones no presentan dificultades técnicas.

Posteriormente, en el capítulo , se generalizan estos conceptos al caso de variables


aleatorias continuas, pero por lo general se omiten las demostraciones (que muchas veces
presentan dificultades técnicas fáciles de resolver si uno conoce la teoría de la integral de
Lebesgue). Si bien haremos énfasis en el caso más importante en la práctica de las variables
absolutamente continuas (que poseen una densidad de probabilidad), el desarrollo de la

1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 2

teoría general requiere una definición general de la esperanza matemática que se aplique
en todos los casos. Esto puede hacerse utilizando la integral de Riemman-Stieltjes (como
haremos en estas notas, siguiendo a V. Yohai) o la integral de Lebesgue.

Se aclara que el material de los apéndices no forma parte del contenido del curso, y no
se toma en los exámenes finales. En particular, en el apéndice D se presenta un resumen
de los resultados esenciales de la teoría de la integración de Lebesgue, algunos de los
cuáles se utilizarán (sin demostrarlos) durante el curso, y se explica porqué la definición
de la esperanza con la integral de Lebesgue es equivalente a la que utiliza la integral de
Riemman-Stieltjes.

Agradecimientos
Aún a riesgo de olvidarme de alguien, no quiero dejar de agradecer a todos los que de
alguna manera me ayudaron a dar la materia y a redactar este apunte.

A N. Fava y V. Yohai (con quienes en su momento cursé esta materia, dado que mis
cursos estuvieron inspirados en gran parte en lo que aprendí de ellos)

A G. Boente Boente (quien generosamente me prestó el material de sus clases, a M.


A. García Álvarez (por regalarme su excelente libro), y a todos los colegas que me
hicieron comentarios críticos sobre estas notas.

A todos los que fueron mis ayudantes en las diferentes cursadas:

• En 2006: Marcela Svarc, Julieta Molina, Analía Ferrari.


• En 2010: Daniela Rodriguez, Julián Martinez, Alejandro Lugea.
• En 2016: Analía Ferrari, Julieta Molina, Florencia Statti.
• En 2021: Agustín Damonte, Octavio Duarte.
• En 2022: Mariano Merzbacher, Nicolas Igolnikov, Eugenia Belén.

A todos mis estudiantes, quienes en muchas veces han aportado correcciones u ob-
servaciones que han contribuido a mejorar este apunte.

Pablo L. De Nápoli
Índice general

1. El Espacio Muestral 10
1.1. Experimentos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. La definición clásica de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. La interpretación frecuencial de la probabilidad . . . . . . . . . . . . . . . . 13
1.4. Definición axiomática de la probabilidad (provisional) . . . . . . . . . . . . 15
1.5. El marco de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1. Consecuencias de la σ-aditividad . . . . . . . . . . . . . . . . . . . . 21

2. Probabilidad Condicional e Independencia 24


2.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1. Fórmula de la probabilidad total . . . . . . . . . . . . . . . . . . . . 26
2.2. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1. Una aplicación a la ecología . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2. Propiedades de la independencia de eventos . . . . . . . . . . . . . . 28
2.2.3. Independencia con tres eventos . . . . . . . . . . . . . . . . . . . . . 28
2.2.4. Generalización a familias arbitrarias de eventos . . . . . . . . . . . . 29
2.3. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1. Un ejemplo de una cadena de Markov . . . . . . . . . . . . . . . . . 30
2.3.2. Propiedades de la matriz de transición . . . . . . . . . . . . . . . . . 30
2.3.3. Comportamiento a largo plazo . . . . . . . . . . . . . . . . . . . . . 31
2.3.4. Otros ejemplos de cadenas de Markov . . . . . . . . . . . . . . . . . 32

3. Variables Aleatorias Discretas 33


3.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. La Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1. Esperanzas en la computadora . . . . . . . . . . . . . . . . . . . . . 37
3.2.2. Esperanzas infinitas . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.3. Propiedades de la Esperanza . . . . . . . . . . . . . . . . . . . . . . 38
3.2.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.5. Desigualdad de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 4

3.3. Momentos - Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42


3.3.1. Desigualdades de Chebyshev y de Markov . . . . . . . . . . . . . . . 46
3.3.2. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4. Ensayos de Bernoulli - La Distribución Binomial . . . . . . . . . . . . . . . 48
3.5. Convoluciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.6. La aproximación de Poisson a la distribución binomial . . . . . . . . . . . . 52
3.7. El método de las funciones generatrices . . . . . . . . . . . . . . . . . . . . 54
3.7.1. Cálculo de la esperanza y la varianza de la distribución binomial (de
otra manera) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.2. Otra aplicación: otra forma de deducir las propiedades de la distri-
bución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.3. El teorema de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.8. Ley débil de los grandes números: caso general . . . . . . . . . . . . . . . . 59
3.9. Polinomios de Bernstein: Una prueba del teorema de Weierstrass . . . . . . 62
3.10. Otras distribuciones relacionadas con los ensayos de Bernoulli . . . . . . . . 65

4. Distribuciones Continuas 70
4.1. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1.1. Propiedades de las funciones de distibución . . . . . . . . . . . . . . 74
4.2. La integral de Riemann-Stieltjes y la definición de esperanza . . . . . . . . 76
4.3. La definición de Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4. Cambios de variables unidimensionales . . . . . . . . . . . . . . . . . . . . . 85
4.5. Suma de variables aleatorias independientes . . . . . . . . . . . . . . . . . . 87
4.5.1. Suma de variables normales independientes . . . . . . . . . . . . . . 89
4.6. Las Distribuciones Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.6.1. Análisis de la convergencia de la integral que define la función gama 92
4.6.2. Propiedades de la función gama . . . . . . . . . . . . . . . . . . . . . 92
4.6.3. Las distribuciones gama . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.7. Las distribuciones Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.8. La Distribución Exponencial y la propiedad de Falta de Memoria . . . . . . 97
4.8.1. Tiempos de espera y procesos de Poisson . . . . . . . . . . . . . . . 99
4.9. Algunas densidades útiles en estadística . . . . . . . . . . . . . . . . . . . . 101
4.9.1. Las densidades χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.9.2. Las densidades χn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5. Vectores Aleatorios 104


5.1. Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.2. Densidades y distribuciones marginales . . . . . . . . . . . . . . . . . . . . . 107
5.3. Esperanza de funciones de vectores aleatorios. Covariancia . . . . . . . . . . 108
5.4. Cambios de variable n-dimensionales . . . . . . . . . . . . . . . . . . . . . . 111
5.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 5

5.6. Suma de variables aleatorias independientes . . . . . . . . . . . . . . . . . . 115


5.6.1. Vectores aleatorios n-dimensionales . . . . . . . . . . . . . . . . . . . 115
5.7. Estadísticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.7.1. Distribución del máximo . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.7.2. Distribución del mínimo . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.7.3. Distribución de los estadísticos de orden . . . . . . . . . . . . . . . . 117
5.7.4. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.7.5. Densidad de los estadísticos de orden . . . . . . . . . . . . . . . . . . 119
5.8. Las densidades beta como estadísticos de orden de la uniforme . . . . . . . 119
5.9. Otro ejercicio sobre estadísticos de orden, para comparar . . . . . . . . . . . 120
5.10. Un ejercicio de cambio de variable . . . . . . . . . . . . . . . . . . . . . . . 120
5.10.1. Densidad del cociente de dos variables aleatorias independientes . . 122
5.10.2. La densidad t de Student . . . . . . . . . . . . . . . . . . . . . . . . 122

6. Distribución normal multivariada 125


6.1. Un repaso de algunas nociones
de Álgebra Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.1.1. Transpuesta de una matriz . . . . . . . . . . . . . . . . . . . . . . . 125
6.1.2. Matrices Simétricas y Ortogonales . . . . . . . . . . . . . . . . . . . 125
6.1.3. Formas Cuadráticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.2. Espeanza de un vector aleatorio y Matriz de covariancias . . . . . . . . . . 128
6.3. Distribución normal multivariada en general . . . . . . . . . . . . . . . . . . 130

7. Teoría de la predicción 134


7.1. El contexto abstracto en el que vamos a trabajar . . . . . . . . . . . . . . . 134
7.2. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.3. Un lema de álgebra lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.4. Predicción por variables aleatorias constantes . . . . . . . . . . . . . . . . . 137
7.5. Predicción por funciones lineales de X . . . . . . . . . . . . . . . . . . . . . 137
7.6. Cálculo del error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . 138
7.7. Mejora en el error medio cuadático . . . . . . . . . . . . . . . . . . . . . . . 139
7.8. Algunas observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.9. Regresión lineal la computadora . . . . . . . . . . . . . . . . . . . . . . . . . 140

8. Convergencia de Variables Aleatorias, y Ley Fuerte de los Grandes Nú-


meros 142
8.1. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 142
8.2. Convergencia casi-segura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.3. Un ejemplo para ver que convergencia en probabilidad no implica conver-
gencia casi segura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.4. El lema de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 6

8.4.1. Un ejemplo para el lema de Borel-Canteli . . . . . . . . . . . . . . . 150


8.5. Un Criterio para la convergencia casi segura . . . . . . . . . . . . . . . . . . 151
8.6. Un caso especial de la desigualdad de Khinchine . . . . . . . . . . . . . . . 153
8.7. La ley fuerte de los grandes números . . . . . . . . . . . . . . . . . . . . . . 154
8.7.1. Un ejemplo: La ley fuerte de Borel para ensayos de Bernoulli . . . . 155
8.7.2. Números Normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

9. Convergencia en Distribución 158


9.1. Relación entre los modos de convergencia . . . . . . . . . . . . . . . . . . . 159
9.2. El Teorema de Helly-Bray . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
9.3. Un disgresión técnica: Funciones de prueba . . . . . . . . . . . . . . . . . . 164
9.4. El Recíproco del tereorema de Helly-Bray . . . . . . . . . . . . . . . . . . . 167
9.4.1. Una versión más fuerte . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.5. El teorema de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
9.5.1. Una versión simple del teorema . . . . . . . . . . . . . . . . . . . . . 173
9.5.2. Un lema para el teorema de Slutsky . . . . . . . . . . . . . . . . . . 174
9.5.3. El Teorema de Slutksky . . . . . . . . . . . . . . . . . . . . . . . . . 175

10.Funciones características 177


10.1. Esperanza de variables aleatorias con valores complejos . . . . . . . . . . . 177
10.2. Funciones Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.2.1. Funciones características de variables aleatorias continuas . . . . . . 179
10.2.2. Propiedades de las funciones características . . . . . . . . . . . . . . 181
10.3. La Función Característica de la Distribución Normal . . . . . . . . . . . . . 183
10.4. La identidad de Plancherel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.5. La Fórmula de Inversión: unicidad de la función característica . . . . . . . . 185
10.5.1. Otra versión de la fórmula de inversión . . . . . . . . . . . . . . . . . 187
10.6. Transformada de Fourier de una derivada . . . . . . . . . . . . . . . . . . . 189
10.7. Derivada de la transformada de Fourier . . . . . . . . . . . . . . . . . . . . 189
10.8. El espacio de Schwartz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
10.9. El Teorema de Continuidad de Paul Lévy . . . . . . . . . . . . . . . . . . . 190
10.9.1. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

11.El Teorema del Límite Central 193


11.1. El Teorema Local de De Moivre-Laplace . . . . . . . . . . . . . . . . . . . . 193
11.2. El Teorema de De Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . 198
11.3. Una Aplicación a la Estadística . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4. El Teorema del Límite Central . . . . . . . . . . . . . . . . . . . . . . . . . 204
11.4.1. Aplicación a las distribuciones χ2n . . . . . . . . . . . . . . . . . . . . 206
11.5. Generalizaciones y comentarios adicionales . . . . . . . . . . . . . . . . . . . 208
11.6. Una Aplicación a la Teoría de Números . . . . . . . . . . . . . . . . . . . . 210
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 7

12.Esperanza Condicional 212


12.1. Esperanza condicional respecto de un evento . . . . . . . . . . . . . . . . . 212
12.1.1. Un ejemplo con una variable discreta . . . . . . . . . . . . . . . . . . 213
12.1.2. Un ejemplo con una variable continua . . . . . . . . . . . . . . . . . 213
12.2. Esperanza comdicional de una variable con respecto a otra: caso discreto . . 214
12.2.1. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
12.2.2. Fórmula de la probabilidad total . . . . . . . . . . . . . . . . . . . . 216
12.3. Esperanza condicional de una variable continua respecto de una discreta . . 217
12.4. Esperanza condicional de variables continuas . . . . . . . . . . . . . . . . . 218
12.4.1. Un ejemplo: Esperanzas condicionales en la distribución normal bi-
variada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
12.4.2. Un detalle muy técnico . . . . . . . . . . . . . . . . . . . . . . . . . 223
12.4.3. El caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
12.4.4. Teorema de existencia . . . . . . . . . . . . . . . . . . . . . . . . . . 224
12.5. Propiedades de la esperanza condicional . . . . . . . . . . . . . . . . . . . . 225
12.6. La esperanza condicional como proyección ortogonal . . . . . . . . . . . . . 226
12.6.1. El caso en que la variable Y es discreta . . . . . . . . . . . . . . . . 226

13.Estadística: Estimación de parámetros 231


13.1. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . 231
13.1.1. Sesgo de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . 233
13.1.2. Sesgo de la media muestral . . . . . . . . . . . . . . . . . . . . . . . 233
13.1.3. Sesgo para el estimador de la varianza . . . . . . . . . . . . . . . . . 233
13.1.4. Estimador insesgado de la varianza . . . . . . . . . . . . . . . . . . . 234
13.2. Estimadores de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . 234
13.3. Verosimilitud en el caso discreto . . . . . . . . . . . . . . . . . . . . . . . . 235
13.3.1. Estimación del parámetro de la distribución de Bernoulli . . . . . . 236
13.4. Verosimilitud en el caso continuo . . . . . . . . . . . . . . . . . . . . . . . . 236
13.4.1. Estimación de los parámetros de la distribución normal . . . . . . . 237
13.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
13.5.1. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
13.5.2. Solución cuando la varianza es conocida . . . . . . . . . . . . . . . . 238
13.5.3. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . . . 238

14.Paseos al azar y Ecuaciones Diferenciales 240


14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
14.2. Un modelo sin tiempo: Paseos al azar y funciones armónicas . . . . . . . . . 240
14.3. Un modelo con tiempo: La ecuación del calor o ecuación de difusión . . . . 245
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 8

A. Repaso de Combinatoria 249


A.1. Formalizando algunas cosas que sabemos desde la escuela primaria . . . . . 249
A.2. Usando estas ideas para contar algunos objetos matemáticos . . . . . . . . . 251
A.2.1. ¿Cuántas funciones hay de A en B? . . . . . . . . . . . . . . . . . . 251
A.2.2. ¿Cuántas partes tiene un conjunto? . . . . . . . . . . . . . . . . . . . 251
A.3. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
A.3.1. Permutaciones de 3 elementos . . . . . . . . . . . . . . . . . . . . . . 252
A.3.2. Otra manera de pensar las permutaciones de 3 elementos . . . . . . 252
A.3.3. Permutaciones en general . . . . . . . . . . . . . . . . . . . . . . . . 252
A.4. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
A.4.1. Una variación del problema anterior . . . . . . . . . . . . . . . . . . 253
A.4.2. Otra manera de pensar las variaciones . . . . . . . . . . . . . . . . . 253
A.4.3. Variaciones en general . . . . . . . . . . . . . . . . . . . . . . . . . . 254
A.5. Combinaciones: ¿Y si no tenemos en cuenta el orden? . . . . . . . . . . . . 254
A.5.1. El Triangulo de Pascal . . . . . . . . . . . . . . . . . . . . . . . . . . 255
A.5.2. Números combinatorios complementarios . . . . . . . . . . . . . . . 256
A.5.3. Suma de todos los combinatorios para un n fijo . . . . . . . . . . . . 257
A.5.4. Teorema del Binomio . . . . . . . . . . . . . . . . . . . . . . . . . . 257

B. Cadenas de Markov 258

C. La Fórmula de Stirling 261


C.1. La fórmula de Wallis para π . . . . . . . . . . . . . . . . . . . . . . . . . . 261
C.1.1. Otra fórmula de la fñormula de Wallis . . . . . . . . . . . . . . . . . 263
C.2. Prueba de la fórmula de Stirling . . . . . . . . . . . . . . . . . . . . . . . . 264

D. Construcción de la Integral de Lebesgue, y equivalencia de las distintas


definiciones de esperanza 267
D.1. Funciones Medibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
D.1.1. Funciones Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
D.2. Integral de Funciones Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 272
D.3. Integral de funciones no negativas . . . . . . . . . . . . . . . . . . . . . . . . 273
D.4. Funciones Integrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
D.5. Equivalencia de las distintas definiciones de Esperanza . . . . . . . . . . . . 281
D.5.1. Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

E. Independencia 286
E.1. El teorema π − λ de Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
E.2. Variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
E.3. Esperanza del producto de variables independientes . . . . . . . . . . . . . . 290

F. Existencia de las Integrales de Riemann-Stieltjes 292


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 9

G. Las Leyes Fuertes de Kolmogorov 296


G.1. La Desigualdad de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . 296
G.2. La Ley Fuerte de los Grandes Números . . . . . . . . . . . . . . . . . . . . . 298
G.2.1. La Primera Ley Fuerte de Kolmogorov . . . . . . . . . . . . . . . . . 298
G.2.2. Algunos Lemas Preparatorios . . . . . . . . . . . . . . . . . . . . . . 300
G.2.3. La Segunda Ley Fuerte de Kolmogorov . . . . . . . . . . . . . . . . . 304

H. Compacidad para la convergencia en distribución 307


H.1. El Principio de Selección de Helly . . . . . . . . . . . . . . . . . . . . . . . . 307
H.2. Una versión más general del Teorema de Continuidad de Paul Levy . . . . . 309

Bibliografía 312
Capítulo 1

El Espacio Muestral

1.1. Experimentos Aleatorios


La teoría de probabilidades trata con experimentos aleatorios, es decir con experimentos
cuyo resultado no resulta posible prever de antemano. Denominamos espacio muestral
al conjunto de los posibles resultados de un experimento aleatorio, y lo simbolizamos con
la letra Ω.
Históricamente, la teoría de probabilidades se desarrolló para estudiar los juegos de azar,
pero posteriormente encontró otras innumerables aplicaciones. En estos casos el espacio
muestral es usualmente finito:
Ejemplos de experimentos aleatorios:

Se arroja una moneda. Hay dos resultados posibles:

Ω = {cara, ceca}

Se arroja un dado. Hay seis resultados posibles:

Ω = {1, 2, 3, 4, 5, 6}

Sin embargo, en otras aplicaciones del cálculo de probabilidades, aparecen espacios


muestrales de naturaleza más compleja. Veamos algunos ejemplos:

Se elije un individuo al azar de una población humana y se mide su altura. El resultado


es un número real positivo (dentro de un cierto rango). Podemos por lo tanto pensar
que el espacio muestral Ω es un intervalo de la recta real.

Se observa la trayectoria de una partícula que se mueve sobre la superficie de un


líquido siguiendo una trayectoria de apariencia caótica durante un cierto intervalo

10
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 11

de tiempo [0, T ] (movimiento Browniano). En este caso, cada posible resultado del
experimento es una curva continua. Por ello el espacio muestral podría tomarse como
el espacio de funciones continuas C([0, T ], R2 ).

Un evento o suceso es algo que puede ocurrir o no ocurrir en cada realización del
experimento aleatorio. Los eventos corresponden a subconjuntos del espacio muestral. Por
ejemplo: si el experimento consiste en arrojar un dado, el evento “sale un número par” está
representado por el subconjunto A = {2, 4, 6} del espacio muestral.
Las operaciones booleanas con los conjuntos tienen una interpretación natural en este
contexto. Recordamos cuáles son estas operaciones y su significado:

La intersección A ∩ B representa el evento que ocurre si ocurre A y también B.

La unión A ∪ B representa el evento que ocurre si ocurre A o ocurre B (pero pueden


ocurrir ambos simultáneamente, es un “o” no exclusivo).

El complemento Ac de un evento, representa el evento que ocurre si no ocurre A.

La diferencia de conjuntos A − B = A ∩ B c representa el evento que ocurre si ocurre


A pero no ocurre B.

La diferencia simétrica A∆B representa el evento que ocurre si ocurre A o ocurre B


pero no ocurren ambos simultáneamente (Es un “o” exclusivo). Recordamos que:

A∆B = (A ∪ B) − (A ∩ B) = (A − B) ∪ (B − A)

También notamos que la condición de que dos eventos A y B sean disjuntos (A∩B = ∅)
significa que ambos eventos no pueden ocurrir simultáneamente.

1.2. La definición clásica de Laplace


La idea básica del cálculo de probabilidades será asignar a cada evento A ⊂ Ω, un
número real entre 0 y 1 que llamaremos su probabilidad y simbolizaremos por P (A). Este
número medirá qué tan probable es que ocurra el evento A.
El matemático francés Pierre-Simon Laplace (1749–1827) propuso la siguiente definición
del concepto de probabilidad: consideremos un experimento aleatorio que tiene un número
finito de resultados posibles

Ω = {ω1 , ω2 , . . . , ωn }
y supongamos que dichos resultados son equiprobables (es decir que consideramos que
cada uno de ellos tiene las mismas chances de ocurrir o no que los demás), entonces la
probabilidad de un evento A ⊂ Ω se define por
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 12

casos favorables #(A)


P (A) = =
casos posibles #(Ω)
Por ejemplo, supongamos que nos preguntamos ¿cuál es la probabilidad de obtener un
número par al arrojar un dado?. En este caso hay 6 casos posibles, que corresponden a los
elementos del espacio muestral

Ω = {1, 2, 3, 4, 5, 6}
y 3 casos favorable, que corresponden a los elementos del evento

A = {2, 4, 6}
Si suponemos que el dado no está cargado (de modo que asumimos que los seis resultados
posibles del experimento son equiprobables), entonces
3 1
P (A) = =
6 2
¿Cuál es el significado intuitivo de esta probabilidad?. Intuitivamente, esperamos que
si repetimos el experimento muchas veces, observemos que aproximadamente la mitad de
las veces sale un número par (y la otra mitad de las veces sale un número impar).
Notemos algunas propiedades de la noción de probabilidad, introducida por la definición
de Laplace:

1. La probabilidad de un evento es un número real entre 0 y 1.

0 ≤ P (A) ≤ 1

2. La probabilidad de un evento imposible es 0:

P (∅) = 0

mientras que la probabilidad de un evento que ocurre siempre es 1:

P (Ω) = 1

Por ejemplo; al tirar un dado, la probabilidad de sacar un 7 es cero mientras que la


probabilidad de sacar un número menor que 10 es uno (Los eventos imposibles corres-
ponden como conjuntos al conjunto vacío, y los que ocurren siempre corresponden a
todo el espacio muestral Ω ).
Notemos que para el concepto de probabilidad introducido por la definición clásica
de Laplace, es cierta la recíproca de esta afirmación: si P (A) = 0, el suceso A es
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 13

imposible, mientras que si P (A) = 1 el suceso ocurre siempre. Sin embargo, esto no
será cierto para otras extensiones del concepto de probabilidad que introduciremos
más adelante.

3. Si A y B son dos eventos que no pueden ocurrir simultáneamente, entonces la pro-


babilidad de que ocurra A u ocurra B (lo que corresponde como conjunto a A ∪ B),
es cero

A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)

Observación 1.2.1
Notemos que el aparente azar en este ejemplo del dado, se debe en realidad a nuestra
ignorancia. Porque la mecánica clásica (Newtoniana) nos dice que el movimiento del dado
es en realidad un proceso completamente determinístico (no aleatorio). Y si conociéramos
la posición y velocidad iniciales y las fuerzas que actúan, podríamos calcular (en principio)
en forma exacta, cómo se va a mover el dado.

Un tipo diferente de azar, mucho más fundamental, aparece en la mecánica cuántica, una
de las teorías fundamentales de la física moderna. Esta teoría postula que el azar es un
componente esencial e irreductible de la naturaleza a nivel microscópico. Así por ejemplo,
no podemos predecir con exactitud donde vamos a encontrar un electrón, sino solamente
calcular la probabilidad de que el electrón esté en una cierta región del espacio.

El uso de la definición de Laplace en ejemplos concretos requiere frecuentemente contar


los elementos de un conjunto. Para ello son fundamentales las nociones de combinatoria que
se ven en la materia Álgebra I. Pueden encontrar un resumen en el apéndice A. También
pueden consultar [Wil04].

1.3. La interpretación frecuencial de la probabilidad


Supongamos que tenemos un evento A en un espacio muestral Ω y que tiene una cierta
probabilidad p = P (A).
Repetimos nuestro experimento aleatorio muchas veces, y designamos por fn a la fre-
cuencia relativa de éxitos en las primeras n realizaciones de nuestro experimento. Es decir:

número de éxitos en las primeras n repeticiones


fn =
n
Intuitivamente, esperamos que fn aproxime a la probabilidad P (A) cuando n es grande.
Matemáticamente nos gustaría poder decir que

fn → p cuando n → ∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 14

en algún sentido.
Este enunciado se conoce como ley de los grandes números y toda la teoría del
cálculo de probabilidades surgió del intento de formalizarlo como un teorema matemático
(como veremos más adelante).

Observación 1.3.1 (experimentos compuestos) Supongamos que tenemos dos experimen-


tos aleatorios, a los que corresponden los espacios muestrales Ω1 y Ω2 . ¿Qué espacio mues-
tral corresponderá al experimento compuesto donde realizamos primero un experimento y
después el otro?. Será el producto cartesiano

Ω1 × Ω2 = {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 }
donde ω1 corresponderá al resultado del primer experimento y ω2 al del segundo.

Veamos un ejemplo: Supongamos que tenemos una moneda equilibrada y la arrojamos


n veces en forma sucesiva. Podemos asociarle a este experimento el espacio muestral
Ωn = {(ω1 , ω2 , . . . , ωn )}
donde
si en la i-ésima tirada de la modena sale ceca

0
ωi =
1 si en la i-ésima tirada de la modena sale cara
Como Ω tiene 2n elementos que consideramos equiprobables, de acuerdo con la defición
de Laplace
1
P ({ω}) = n
2
Sea Sn el número de veces en que sale cara en n tiradas de la moneda. Sn es nuestro
primer ejemplo de una variable aleatoria, esto es: un número que depende del resultado
de un experimento aleatorio. Matemáticamente, Sn es una función Sn : Ω → N0 , dada por
Sn (ω) = ω1 + ω2 + . . . + ωn
Nos podemos preguntar ¿cuál es la probabilidad de que Sn tome un determinado valor
k? Notamos que que para que Sn = k debemos elegir k lugares ωk entre los n donde
pondremos un 1, y en los restantes n − k lugares pondremos un cero. Luego, de acuerdo a
la definición de Laplace:
n

k
P {Sn = k} =
2n
Este es un ejemplo de cómo especificar la distribución de probabilidades de la
variable Sn . Volveremos sobre estos conceptos más adelante, en el siguiente capítulo.
Sea fn = Snn la frecuencia relativa de caras. Entonces, esperamos que en algún sentido
Sn 1

n 2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 15

1.4. Definición axiomática de la probabilidad (provisional)


La definición clásica de Laplace, aunque tiene un claro significado intuitivo presen-
ta algunas limitaciones. En primer lugar, su aplicación está limitada a problemas donde
el espacio muestral es finito. Sin embargo como hemos mencionado al comienzo, en mu-
chas aplicaciones importantes del cálculo de probabilidades, nos encontramos con espacios
muestrales que no lo son.
Por otra parte, la definición clásica de Laplace hace la suposición de que los posibles
resultados del experimento aleatorio (los puntos del espacio muestral) son equiprobables,
pero es fácil imaginar experimentos en los que esta suposición no se verifica, por ejemplo
si arrojamos un dado que no está equilibrado (“está cargado”).
Por los motivos expresados, será conveniente generalizar la noción de probabilidad. Por
ello, introduciremos la siguiente definición axiomática (provisional).

Definición 1.4.1 Sea Ω un espacio muestral, por una probabilidad definida en Ω enten-
deremos una función P que a cada parte de Ω (evento) le asigna un número real de modo
que se cumplen las propiedades enunciadas en la sección anterior:

1. La probabilidad de un evento A es un número real entre 0 y 1:

0 ≤ P (A) ≤ 1

2. La probabilidad del evento imposible es 0:

P (∅) = 0

mientras que la probabilidad de un evento que ocurre siempre es 1:

P (Ω) = 1

3. La probabilidad es finitamente aditiva:

A ∩ B = 0 ⇒ P (A ∪ B) = P (A) + P (B)

Más adelante, nos veremos obligados a modificar esta definición, ya que en muchos
ejemplos no es posible asignar probabilidades a todas las posibles partes de Ω (por lo que
deberemos restringir la noción de evento).
Veamos algunos ejemplos:
Supongamos que tenemos un espacio muestral finito

Ω = {ω1 , ω2 , . . . , ωn }
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 16

pero que no queremos asumir que los posibles resultados de nuestro experimento aleatorio
son equiprobables. Entonces supondremos que cada uno de ellos tiene una probabilidad
pi ∈ [0, 1]:
P ({ωi }) = pi
Entonces dado un evento A ⊂ Ω, le asignamos la probabilidad
X
P (A) = pi
ωi ∈A

Si suponemos que
n
X
pi = 1
i=1

entonces la probabilidad así definida, verifica los axiomas de nuestra definición axiomática
de probabilidad.
Notemos que en particular, si los resultados ri (1 ≤ i ≤ n) son equiprobables:

p1 = p2 = . . . = pn
entonces pi = 1
n para todo i, y recuperamos la definición clásica de Laplace:

#(A)
P (A) =
n
El ejemplo anterior, fácilmente puede generalizarse al caso de un espacio muestral nu-
merable
Ω = {ω1 , ω2 , . . . , ωn , . . .}
Nuevamente supongamos que a cada resultado ωi (con i ∈ N) le hemos asignado una
probabilidad pi ∈ [0, 1], de modo que

X
pi = 1
i=1

entonces si definimos X
P (A) = pi
ωi ∈A

obtenemos una probabilidad definida en Ω.


Es importante notar, que para esta nueva noción de probabilidad que hemos definido
ya no se verifica en general que P (A) = 0 implique que A sea un evento imposible, o que
si P (A) = 1 entonces A es un evento que ocurre siempre (porque algunos pi podrían ser
cero).
Veamos algunas consecuencias de estas definiciones:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 17

Proposición 1.4.2 Si A y B son dos eventos y A ⊂ B entonces

P (B − A) = P (B) − P (A).

En particular, la probabilidad es creciente:

A ⊂ B ⇒ P (A) ≤ P (B)

Prueba: Como A ⊂ B,
B = A ∪ (B − A) unión disjunta
luego
P (B) = P (A) + P (B − A)
de donde, despejando P (B − A) obtenemos el resultado. 
En particular, elijiendo B = Ω obtenemos
Corolario 1.4.3 Si A es un evento y Ac = Ω − A su complemento, entonces

P (Ac ) = 1 − P (A)

Proposición 1.4.4 Si A y B son dos eventos, entonces

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

En particular, la probabilidad es subaditiva:

P (A ∪ B) ≤ P (A) + P (B)

Prueba:

A ∪ B = (A − A ∩ B) ∪ (A ∩ B) ∪ (B − A ∩ B) (unión disjunta)

luego

P (A ∪ B) = P (A − A ∩ B) + P (A ∩ B) + P (B − A ∩ B)
= [P (A) − P (A ∩ B)] + P (B ∩ B) + [P (B) − P (A ∩ B)]
= P (A) + P (B) − P (A ∩ B)

Ejemplo 1.4.5 Supongamos que arrojamos dos dados y queremos calcular la probabilidad
de que nos salga al menos un 6. Consideramos A =“sale un 6 al arrojar el primer dado´´
y B =“sale un 6 al arrojar el segundo dado´´. Entonces la probabilidad buscada es
1 1 1 11
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + − = = 0,30555 . . .
6 6 36 36
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 18

Este resultado se puede generalizar para una unión de n eventos:

Proposición 1.4.6 (Fórmula de inclusiones y exclusiones) Sean A1 , A2 , . . . An even-


tos. Entonces
n
X nX o
P (A1 ∪ A2 ∪ . . . ∪ An ) = (−1)k+1 P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik )
k=1

donde para cada k, la segunda suma recorre las n


formas de elegir k conjuntos entre los

k
(Ai ).

Observación: Hay entonces


n  
X n
= 2n − 1
k
k=1

términos en total en la suma del segundo miembro.


La demostración se hace por inducción en n. Del mismo modo tenemos:

Proposición 1.4.7 (Subaditividad Finita) Sean A1 , A2 , . . . An eventos, entonces:


n n
!
[ X
P Ak ≤ P (Ak )
k=1 k=1

1.5. El marco de Kolmogorov


Como hemos dicho, en muchas situaciones importantes, no es posible asignar probabi-
lidades a todos los subconjuntos del espacio muestral.
El ejemplo más sencillo de esta situación es el siguiente: supongamos que realizamos el
experimento de elegir un número real del intervalo [0, 1] con “distribución uniforme”. Con
esto queremos decir que si I ⊂ [0, 1] es un intervalo, queremos que:

P (I) = |I| (1.1)


donde I designa la longitud del intervalo I.
Un experimento equivalente es el siguiente (ruleta continua): imaginemos que tenemos
una rueda y la hacemos girar. Nos interesa medir cual es la posición de la rueda. Dado que
esta está determinada por un ángulo θ ∈ [0, 2π) respecto de la posición inicial, podemos
pensar este experimento como elegir un número al azar en el intervalo [0, 2π). La distri-
bución uniforme, corresponde a postular que todas las posiciones finales de la rueda son
igualmente probables.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 19

Se demuestra en análisis real que no es posible definir una medida (probabilidad) σ-


aditiva, que esté definida para todos los posibles subconjuntos del intervalo [0, 1] de modo
que se verifique la relación (1.1) para cada subintervalo I ⊂ [0, 1].
Lebesgue propuso la siguiente solución a este problema: restringir la clase de los con-
juntos a los que asignaremos medida (probabilidad) a lo que se llama una σ-álgebra.

Definición 1.5.1 Sea Ω un conjunto (espacio muestral). Una σ-álgebra E de partes de Ω,


es una colección de partes de Ω con las siguientes propiedades:
1. ∅ ∈ E.

2. Si A está en E, entonces su complemento Ac = Ω − A ∈ E.

3. Si (An )n∈N es una familia numerable de conjuntos de Ω entonces


S
n∈N An ∈ E.

Obviamente, el conjunto de todas las partes de Ω, P(Ω) es una σ-álgebra, pero existen
σ-álgebras más pequeñas.
Ejemplo: Si Ω es un conjunto no numerable, por ejemplo Ω = R entonces

E = {A ⊂ Ω : A es numerable o Ac es numerable}

es una σ-álgebra más pequeña que P(Ω).


Algunas observaciones importantes:
Si E es una σ-álgebra de partes de Ω, entonces
1. Ω ∈ E.

2. Si (An )n∈N es una familia numerable de subconjuntos de Ω entonces


T
n∈N An ∈ E.
Prueba: por la fórmula de De Morgan
!c
\ [
An = Acn
n∈N n∈N

3. Si A, B ∈ E entonces A − B ∈ E.

Definición 1.5.2 Observemos que la intersección de una familia cualquiera de σ-álgebras


de partes de Ω, también es una σ-álgebra. Deducimos que para cualquier C ⊂ P(Ω), existe
una menor σ-álgebra σ(C) que la contiene. Dicha σ-álgebra se denomina la σ-álgebra generada por A.

{C ⊂ A ⊂ P(Ω) : A es una sigma álgebra }


\
σ(C) =
A
Definimos la σ-álgebra de Borel de R, como la σ-álgebra generada por los intervalos
abiertos de R. Notación: B(R)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 20

Definición 1.5.3 Sean Ω un conjunto y E ⊂ P(Ω). Una medida sobre E es una función
µ : E → [0, +∞]. con las siguientes propiedades:
1.
µ(∅) = 0

2. Si (An )n∈N es una familia disjunta numerable de conjuntos de E, entonces:


!
[ X
µ An = µ(An )
n∈N n∈N

Si además se verifica que µ(Ω) = 1, µ se denomina una medida de probabilidad sobre Ω.

El matemático ruso Andréi Kolmogórov propuso en 1931 el siguiente marco para la


teoría moderna de probabilidades, en el que vamos a trabajar:

Definición 1.5.4 Un espacio de probabilidad es una terna (Ω, E, P ) donde Ω es un con-


junto (espacio muestral), E es una σ-álgebra de partes de Ω (la σ-álgebra de los eventos)
y P es una medida de probabilidad sobre E.

El siguiente es un resultado fundamental de análisis real:

Teorema 1.5.5 (Existencia de la medida de Lebesgue) Existen una única σ-álgebra M de


partes de R y una única medida m : M → [0, +∞) con las siguientes propiedades:
1. M contiene a los intervalos abiertos (por lo tanto M contiene a la σ-álgebra de
Borel).

2. m(I) = |I| para cualquier intervalo de la recta.

3. Para cualquier conjunto A ∈ M, la medida de A es el supremo de las medidas de los


compactos contenidos en A:

m(A) = sup{m(K) : Kcompacto, K ⊂ A}

y es el ínfimo de las medidas de los abiertos que contienen a A:

m(A) = ı́nf{m(U ) : U abierto, U ⊃ A}

(Se dice que la medida m es regular).

4. La medida m es invariante por traslaciones:

m(A + x) = m(A) ∀A ∈ M
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 21

5. Si A ∈ M, m(A) = 0 y B ⊂ A; entonces B ∈ M y m(B) = 0. (se dice que la


σ-álgebra de Lebesgue es completa).

M se denomina la σ-álgebra de Lebesgue y m se denomina la medida de Lebesgue. Los


conjuntos de la σ-álgebra M se denominan conjuntos medibles Lebesgue.

Corolario 1.5.6 Si consideramos la restricción de la medida de Lebesgue y de la σ-álgebra


de Lebesgue al intervalo [0, 1], entonces obtenemos un espacio de probabilidad.

1.5.1. Consecuencias de la σ-aditividad


En lo sucesivo, trabajaremos en un espacio de probabilidad (Ω, E, P )

Proposición 1.5.7 (uniones crecientes) Si tenemos una sucesión infinita creciente de


eventos
A1 ⊂ A2 ⊂ . . . ⊂ Ak ⊂ Ak+1 ⊂ . . .
entonces

!
[
P Ak = lı́m P (Ak )
k→+∞
k=1

Prueba: Utilizamos el truco de disjuntar los eventos y notamos que como son crecientes:
k−1
poniendo A0 = ∅
[
C k = Ak − Aj = Ak − Ak−1
j=1

Ahora los Ck son disjuntos. Entonces por la σ-aditividad


∞ ∞ ∞ ∞ ∞
!
[ [ [ X X
Ak = Ck ⇒ P Ak = P (Ck ) = [P (Ak ) − P (Ak−1 )]
k=1 k=1 k=1 k=1 k=1

Miremos una suma parcial: ¡es una serie telescópica!


n
X
[P (Ak ) − P (Ak−1 )] = P (An ) − P (A0 ) = P (An )
k=1

deducimos que

!
[
P Ak = lı́m P (An )
n→∞
k=1

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 22

Proposición 1.5.8 (intersecciones decrecientes) Si tenemos una sucesión infinita de-


creciente de eventos
B1 ⊃ B2 ⊃ . . . Bk ⊃ Bk+1 ⊃ . . .
entonces

!
\
P Bk = lı́m P (Bk )
k→+∞
k=1

Prueba: Tomamos complemento Ak = Bkc . Entonces si los Bk eran decrecientes, los (Ak )
serán crecientes. Y observamos que por las leyes de De Morgan
!c
\ [
Bk = Ak
k∈N k∈N

Luego:
∞ ∞
! !
\ [
P Bk =1−P Ak
k=1 k=1
= 1 − lı́m P (Ak )
k→+∞
= lı́m [1 − P (Ak )]
k→+∞
= lı́m P (Bk )
k→+∞

Proposición 1.5.9 (σ-subaditividad) Si (Ak )n∈N es una familia numerable de eventos



!
[ X
P Ak ≤ P (Ak ).
k∈N k=1

En particular, !
si P (Ak ) = 0 para todo k ⇒ P
[
Ak = 0.
k∈N

Tomando complemento,
!
si P (Ak ) = 1 para todo k ⇒ P
\
Ak = 1.
k∈N
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 23

Prueba: Pongamos
n
[
Dn = Ak
k=1

Por la subaditividad finita


n
X ∞
X
P (Dn ) ≤ P (Ak ) ≤ P (Ak )
k=1 k=1

Pero los Dn son crecientes y



[ ∞
[
Ak = Dk .
k=1 k=1

Luego al tomar límite cuando n → +∞ deducimos que



!
[ X
P Ak = lı́m P (Dk ) ≤ P (Ak ).
k→∞
k∈N k=1


Nota: Volveremos más adelante (en el lema de Borel-Cantelli 8.4.1) a analizar con
mayor profundidad las consecuencias probabilísticas de la hipótesis de σ-aditividad.
Capítulo 2

Probabilidad Condicional e
Independencia

2.1. Probabilidad Condicional


En muchas situaciones tendremos que estimar la probabilidad de un evento pero dis-
ponemos de alguna información adicional sobre su resultado.
Por ejemplo supongamos que arrojamos un dado (equilibrado) y nos preguntamos ¿Qué
probabilidad le asignaríamos a sacar un dos, si supiéramos de antemano que el resultado
será un número par?. Para formalizar esta pregunta consideramos en el espacio muestral

Ω = {1, 2, 3, 4, 5, 6}

los eventos
A = sale un 2 = {2}
B = sale un número par = {2, 4, 6}
Entonces vamos a definir la probabilidad condicional de que ocurra el evento A sabiendo
que ocurre el evento B que notaremos P (A/B).
Si estamos en una situación como la anterior donde la definición clásica de Laplace se
aplica podemos pensarlo del siguiente modo: los resultados posibles de nuestro experimento
son ahora sólo los elementos de B (es decir: hemos restringido nuestro espacio muestral a
B), mientras que los casos favorables son ahora los elementos de A ∩ B luego

#(A ∩ B)
P (A/B) =
#(B)
Si dividimos numerador y denominador por #(Ω), tenemos:

24
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 25

#(A∩B)
#(Ω) P (A ∩ B)
P (A/B) = #(B)
=
P (B)
#(Ω)

Aunque hemos deducido esta fórmula de la definición clásica de Laplace, la misma tiene
sentido en general siempre que P (B) > 0. Adoptamos pues la siguiente definición:

Definición 2.1.1 La probabilidad condicional P (A/B) de un evento A suponiendo que


ocurre el evento B se define por:

P (A ∩ B)
P (A/B) = (2.1)
P (B)

siempre que P (B) > 0.

Otra manera de comprender esta definición es la siguiente: para definir la probabilidad


condicional P (A/B) queremos reasignar probabilidades a los eventos A ⊂ Ω de modo que
se cumplan tres condiciones:

1. La función A 7→ P (A/B) debe ser una probabilidad (o sea satisfacer los requisitos de
nuestra definición axiomática).

2. P (A ∩ B/B) = P (A/B) (Esta fórmula dice que la probabilidad condicional de que


ocurran los eventos A y B simultaneamente sabiendo que ocurre B debe ser igual a
la probabilidad condicional de A sabiendo que ocurre B).

3. Si A ⊂ B la probabilidad condicional P (A/B) debe ser proporcional a la probabilidad


de A de modo que
P (A/B) = kP (A) si A ⊂ B
siendo k una constante de proporcionalidad fija.

Entonces a partir de estas dos condiciones tenemos:

P (A/B) = P (A ∩ B/B) = kP (A ∩ B)

y como queremos que P (A/B) sea una probabilidad debe ser P (Ω/A) = 1, luego

1 = kP (Ω ∩ B) = kP (B)

con lo que:
1
k=
P (B)
y vemos que la definición (2.1) es la única que satisface estas condiciones.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 26

2.1.1. Fórmula de la probabilidad total


Si ahora consideramos una partición del espacio muestral Ω en eventos disjuntos B1 , B2 , . . . Bk , ...
en una cantidad finita o infinita numerable de eventos,
[
Ω= Bk
k∈I

con P (Bk ) > 0 para todo k, tenemos que:


X
P (A) = P (A ∩ Bk )
k∈I

por la σ-aditividad de la probabilidad, y como

P (A ∩ Bk ) = P (Bk )P (A/Bk )

en virtud de la definición de probabilidad condicional, deducimos la siguiente fórmula:

(2.2)
X
P (A) = P (Bk )P (A/Bk )
k∈I

Ejemplo: Supongamos que realizamos el siguiente experimento compuesto. Primero


arrojamos una moneda equilibrada. Luego, si sale cara arrojamos un dado, pero si sale
seca arrojamos dos dados. ¿cuál es la probabilidad de obtener al menos un 6 al arrojar los
dados?
Llamamos B1 = “sale cara´´, y B2 = B1c = “sale ceca´´. A = “sale al menos un 6´´.
Entonces, según la fórmula de la probabilidad total, y teniendo en cuenta el resultado del
ejemplo 1.4.5, tenemos que

1 1 11 1 17
P (A) = P (A/B1 ) · P (B1 ) + P (A/B2 ) · P (B2 ) = · + · = = 0,2361111 . . .
6 2 36 2 72

2.2. Independencia
Definición 2.2.1 Decimos que el evento A es independiente del evento B con P (B) > 0
si
P (A/B) = P (A)

Intuitivamente este concepto significa que; saber si el evento B ocurre o no, no nos dará
una mejor estimación de la probabilidad de que ocurra el evento A.
Teniendo en cuenta la definición de la probabilidad condicional, vemos que la condición
para que el evento A sea independiente de B es que:

P (A ∩ B) = P (A)P (B)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 27

Esta manera de escribir la definición tiene dos ventajas: se ve que tiene sentido aún si
P (B) = 0, y muestra que los roles de los eventos A y B son simétricos. Reescribimos pues
la definición en la siguiente forma:

Definición 2.2.2 Decimos que los eventos A y B son (estocásticamente) independientes


si
P (A ∩ B) = P (A)P (B)

Ejemplo 2.2.3 Consideramos el experimento de extraer una carta de un mazo de 48 cartas


españolas, y consideramos los eventos:

A = “sale un 1”.

B = ‘sale una carta de espadas”

4 1 12 1
P (A) = = , P (B) = =
48 12 48 4
Entonces A ∩ B es “sale el uno de espadas” y
1 1 1
P (A ∩ B) = = · = P (A) · P (B)
48 12 4
Luego A y B son independientes.

2.2.1. Una aplicación a la ecología


Supongamos que tenemos una población de animales en un territorio y queremos esti-
mar cuántos animales hay. Un método posible es el de captura / recaptura. Se utiliza
mucho para poblaciones de micro mamíferos y reptiles. Mediante trampas se capturan in-
dividuos que son marcados y devueltos a su ambiente. Después de un cierto período de
tiempo, suficiente para que los marcados se mezclen con el resto de la población, se realiza
una nueva captura
Nuestro espacio muestral Ω serán los individuos de la población. Consideramos, para
un individuo elegido al azar, los eventos:
A = “el animal es capturado en la primera captura (y marcado).”
B = “el animal es capturado en la segunda captura.”
C = A ∩ B = “el animal es capturado en la segunda captura y estaba marcado.”
Llamemos nA al número de inviduos capturados en la primera captura, nB a los cap-
turados en la segunda captura, nC a los capturados en la segunda captura y nΩ a los
capturados en ambas. nA , nB y nC son conocidos. Queremos determinar nΩ .
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 28

Si la población es grande, la probabilidad de un individuo de ser capturado será parecida


a la frecuencia observada. Entonces podemos estimar las probabilidades
nA nB nC
P (A) ≈ , P (B) ≈ , P (C) ≈
nΩ nΩ nΩ
Ahora como las capturas son independientes esperamos que

P (C) = P (A) · P (B)

por lo que tenemos la igualdad aproximada:


nC nA nB
≈ ·
nΩ nΩ nΩ
de donde podemos estimar el tamaño de la población como
nA · nB
nΩ ≈
nC

2.2.2. Propiedades de la independencia de eventos


Proposición 2.2.4 Si A y B son eventos independientes, A y B c también lo son.

Prueba: Notamos que


A ∩ Bc = A − B = A − A ∩ B
Luego como A ∩ B ⊂ A, y la hipótesis

P (A ∩ B c ) = P (A − A ∩ B) = P (A) − P (A ∩ B) = P (A) − P (A)P (B)

Entonces
P (A ∩ B c ) = P (A) · [1 − P (B)] = P (A) · P (B c )


2.2.3. Independencia con tres eventos


Si tenemos tres eventos A,B y C ¿cuándo diremos que son independientes?. No sólo
vamos a querer que tengamos independencia de a pares:

P (A ∩ B) = P (A) · P (B)

P (A ∩ C) = P (A) · P (C)
P (B ∩ C) = P (B) · P (C)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 29

Si no que también queremos por ejemplo que

P (A/B ∩ C) = P (A)

Esto significa que queremos que A sea independiente de B ∩ C por lo que vamos a pedir
que
P (A ∩ (B ∩ C)) = P (A) · P (B ∩ C)
o sea
P (A ∩ B ∩ C) = P (A) · P (B) · P (C)

2.2.4. Generalización a familias arbitrarias de eventos


En general, la definición de independencia es la siguiente:

Definición 2.2.5 Decimos que una familia cualquiera de eventos A ⊂ E es independiente


si
P (Ai1 ∩ Ai2 ∩ Ain ) = P (Ai1 )P (Ai2 ) · · · P (Ain )
para cualquier elección de una cantidad finita Ai1 , …, Ain de eventos distintos de la familia
A.

Ejercicio 2.2.6 (Ejercicio 9 de la práctica 2) Si A1 , . . . , An son eventos independien-


tes y B1 , . . . , Bn son tales que para cada i = 1, . . . , n se tiene Bi = Ai o Bi = Aci entonces
los eventos B1 , . . . , Bn también resultan independientes.

En este ejercicio, A = {A1 , . . . , An }.

2.3. Cadenas de Markov


Consideramos un sistema que puede tener una cantidad finita de estados Ω = {E1 , E2 , . . . , En }
y que evoluciona con tiempo discreto t ∈ N0 . Llamemos Xt al estado del sistema en el tiem-
po t.
La evolución del sistema estaría descripta por el espacio muestral

Ω∞ = {X = (X0 , X1 , X2 , . . . , Xt , . . .) : Xt ∈ Ω para todo t ∈ N0 }

Suponemos que tenemos una cierta probabilidad de pasar del estado Ei al Ej

pij = P {Xt+1 = Ei /Xt = Ej }

y que esta probabilidad es independiente de t (no varía en el tiempo)- Los números P =


(pij ) forman una matriz den × n que se denomina matriz de transición. Notamos que
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 30

0 ≤ pij ≤ 1 y
n
X
pij = 1
i=1
(Las columnas de la matriz son vectores de probabilidad). P se dice una matriz estocás-
tica.

2.3.1. Un ejemplo de una cadena de Markov


Consideramos un modelo simple de 3 estados para un mercado financiero con 3 estados:
E1 : Mercado en crecimiento.

E2 : Mercado en decrecimiento.

E3 : Mercado estancado.
Supongamos que tenemos la siguiente matriz de transición:
 
0,9 0,15 0,25
P = 0,075 0,8 0,25
0,025 0,05 0,5

(Esto podría aplicarse a todo un mercado o a un activo particular negociado en ese mercado)
Podemos representar esta situación por medio del siguiente grafo:
0.075

0.9 E1 E2 0.8
0.15

0.025 0.25

0.25 0.05

E3

0.5

Pueden encontrar más información sobre este tipo de modelos para mercados financieros
en [LJ20].

2.3.2. Propiedades de la matriz de transición


Notamos que por la fórmula de probabilidad total:
n
X
P (Xt+1 = Ei ) = P (Xt+1 = Ei /Xt = Ej ) · P (Xt = Ej )
j=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 31

Esto quiere decir que si consideramos el vector de probabilidades


 
P (Xt = E1 )
 P (Xt = E2 ) 
Ut =  
 ... 
P (Xt = En )
tendremos que
Ut+1 = P · Ut para todo t ∈ N
Entonces por inducción
Ut = P t U0

2.3.3. Comportamiento a largo plazo


Volvamos a nuestro ejemplo. Diagonalizemos la matriz M . Sus autovalores son:

λ1 = 1, λ2 = 0,741421356237310, λ3 = 0,458578643762690
Y podemos encontrar una matriz de cambio de base C tal que
 
1 0,0 0,0
C −1 P C = D =  0,0 0,7414213562373091 0,0 
0,0 0,0 0,4585786437626905

 
0,5773502691896265 0,44371856511363317 −0,03400257431430442
C =  0,5773502691896251 −0,8113070602072252 −0,13017637781608127 
0,5773502691896256 −0,3806503501002046 0,9909076322234505
Luego  
0,625 0,625 0,625
lı́m P t =  0,3125 0,3125 0,3125 
t→+∞
0,0625 0,0625 0,0625
Entonces la ecuación
Ut = P t U0
nos muestra que no importa cuál sea el estado inicial U0 , el sistema converge al estado
estacionario:  
0,625
U∞ =  0,3125 
0,0625
Esto significaría que el mercado va a estar un 62, 5 % del tiempo en estado alcista, un
32, 15 % en estado bajista y un 6, 25 % estancado. Este vector es un autovector de autovalor
1 de P es decir:
P U∞ = U∞ = 1 · U∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 32

2.3.4. Otros ejemplos de cadenas de Markov


Juegos de tablero con dados, como el Monopoly.

El experimento de tirar infinitas veces la moneda es una cadena de Markov con dos
estados {cara, ceca}. En este caso la matriz de transición es:
 
0,5 0,5
P =
0,5 0,5

Esta matriz verifica P 2 = P . Luego P t = P para todo t, y tenemos que el estado


estacionario es  
0,5
U∞ =
0,5

El algoritmo page rank usado por Google para asignar a cada página un ranking a
cada página web. Este simula una un navegante que va visitando aleatoriamente las
páginas, y puede pensarse como una cadena de Markov (ver [KGS13]). La distribución
estacionaria de esta cadena de Markov determina el ranking que será asignado a cada
página.

También se utiliza con frecuencia modelos basados en cadenas de Markov para estu-
diar la propagación de epidemias. Ver por ejemplo el capítulo 2 de [Ige20].

Pueden encontrar más información sobre las cadenas de Markov en el apéndice B.


Capítulo 3

Variables Aleatorias Discretas

3.1. Variables aleatorias discretas


En muchas situaciones, nos interesa un número asociado al resultado de un experimento
aleatorio: por ejemplo, el resultado de una medición.
Para evitar por el momento, algunas dificultades técnicas, comenzaremos con el caso
de variables aleatorias discretas, que resulta más sencillo de entender.

Definición 3.1.1 Sea (Ω, E, P ) un espacio de probabilidad. Una variable aleatoria discreta
es una función X : Ω → R tal que la imagen de X es un conjunto finito o numerable de R:

Im(X) = {x1 , x2 , . . . , xi , . . .}

(donde la sucesión (xi ) puede ser finita o infinita), y tal que X −1 ({xi }) ∈ E sea un evento
para cada xi ∈ Im(X).

Como X −1 ({xi }) = {ω ∈ Ω : X(ω) = xi } es un evento para cada i, esto significa que


están definidas las probabilidades:

pi = P ({X = xi })
Dichas probabilidades se conocen como la distribución de probabilidades de la variable
X.

Ejemplo 3.1.2 Tiramos dos dados. Nuestro espacio muestral es:

Ω = {ω = (ω1 , ω2 ) : ωi ∈ D}

donde D = {1, 2, 3, 4, 5, 6}. Consideramos la suma S de los puntos obbtenidos

S : Ω → N, S(ω) = ω1 + ω2

33
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 34

Es una variable aleatoria discreta. ¿Cuál es la distribución de probabilidades de S?

xi pi
2 1/36 = 0,028
3 2/36 = 0,056
4 3/36 = 0,083
5 4/36 = 0,111
6 5/36 = 0,139
7 6/36 = 0,167
8 5/36 = 0,139
9 4/36 = 0,111
10 3/36 = 0,083
11 2/36 = 0,056
12 1/36 = 0,028

3.2. La Esperanza
Un concepto de fundamental importancia asociado a las variables aleatorias, es el de
esperanza (o valor esperado). Para variables aleatorias discretas, este concepto resulta
sencillo de definir:

Definición 3.2.1 Sea X : Ω → R una variable aleatoria discreta. Diremos que X es


integrable (o que tiene esperanza finita) si la serie
X
pi xi
i

es absolutamente convergente, es decir si:


X
pi |xi | < +∞
i

En este caso definimos, la esperanza de X como el valor de dicha suma.

(3.1)
X
E[X] = pi xi
i

Notemos que una variable aleatoria discreta con imagen finita (o sea que tome sólo un
número finito de valores) siempre es integrable ya que la suma (3.1) es finita en este caso.
Ejemplo: Supongamos que arrojamos un dado ¿cuál es la esperanza del valor obtenido
X ?
1+2+3+4+5+6 21
E[X] = = = 3, 5
6 6
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 35

Ejemplo: Supongamos que jugamos un peso a la ruleta y apostamos a un color (por


ej. negro). Sea X nuestra ganancia (o pérdida) ¿cuánto debemos esperar ganar (o perder)
?
Aquí

si sale negro (con probabilidad 18


37 )

1
X=
−1 si sale rojo o cero (con probabilidad 1937 )
En consecuencia:
18 19 −1
E[X] = − = = −0, 027 . . .
37 37 37
Así pues, al jugar a la ruleta, debemos esperar perder un 27 por mil.
Ejemplo: Sea A un evento, consideramos la función IA : Ω → R definida por

1 si ω ∈ A

IA (ω) =
0 si ω 6∈ A

Intuitivamente IA vale 1 cuando el evento A ocurre, y 0 sino. Se denomina el indicador


del evento A. (En la teoría de la medida, esta función se llama la función característica
del conjunto A y se suele denotar por χA , pero en la teoría de probabilidades la expresión
“función característica” tiene un significado diferente).
IA es una variable aleatoria discreta pues su imagen consta de dos valores (0 y 1) y sus
pre-imágenes son IA−1
(0) = Ω − A y IA −1
(1) = A, que son eventos.
La esperanza de IA es:

E[IA ] = 0 · P (Ω − A) + 1 · P (A) = P (A)


Es decir, la esperanza del indicador de un evento, coincide con su probabilidad.
Ejemplo:(un ejemplo de una variable aleatoria que toma infinitos valores). Considere-
mos el experimento consistente en arrojar infinitas veces una moneda (en forma indepen-
diente).
Como vimos anteriormente, podemos modelizar este experimento utilizando el espacio
muestral Ω = {0, 1}N de las sucesiones de ceros y unos, y representando cada realización
del experimento por la sucesión ω = (Xi )i∈N donde

1 si en la i-ésima realización del experimento sale cara



Xi =
0 si en la i-ésima realización del experimento sale ceca

Notemos que las Xi son variables aleatorias. Estamos interesados ahora en la siguiente
variable aleatoria, T = cuántas tiradas tengo que esperar hasta que salga una cara por
primera vez. Formalmente
T (ω) = mı́n i
xi =1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 36

Hay un caso especial, que es cuando siempre sale ceca, esto es: ¿qué valor de T le
asignaremos a la sucesión ω = (0, 0, 0, . . . , 0, . . .) ? Lo razonable es poner:

T ((0, 0, 0, . . . , 0, . . .)) = +∞

Esto muestra que a veces resulta conveniente admitir variables aleatorias que pueden tomar
el valor +∞ (o también −∞).
Ahora debemos calcular cuál es la distribución de probabilidades de T , es decir cuál es
la probabilidad de que T tome cada valor.

P {T = k} = P {X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1}

y dado que los ensayos son independientes a este evento le asignamos la probabilidad dada
por el producto de las probabilidades:
1
P {T = k} = P {X1 = 0} · P {X2 = 0} · . . . · P {Xk−1 = 0} · P {Xk = 1} =
2k
Mientras que al evento “siempre sale ceca” le asignamos probabilidad 0,

P {T = +∞} = P {T ((0, 0, 0, . . . , 0, . . .)} = 0

Entonces la esperanza de T se calcularía por:


∞ ∞
X X k
E[T ] = kP {T = k} + (+∞) · P {T = +∞} = + (+∞) · 0
2k
k=1 k=1

Hacemos la convención de que:


0 · (+∞) = 0
Entonces la esperanza de T es:

X k
E[T ] =
2k
k=1

Utilizando la fórmula,

x
si |x| < 1
X
kxk =
(1 − x)2
k=1

que se deduce de derivar la serie geométrica, con x = 12 , deducimos que E[T ] = 2.


Así pues, en promedio, habrá que esperar dos tiradas, para que salga cara.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 37

3.2.1. Esperanzas en la computadora


Consideremos una variable aleatoria discreta con 3 valores 1, 2, 3 tal que
1 1
P {X = 1} = , P {X = 2} = P {X = 3} =
2 4

1 1 1 7
E[X] = 1 · + 2 · + 3 · = = 1,75
2 4 4 4
Veamos cómo se calcularía esto en la computadora usando Python 3 y el paquete
SciPy.
import scipy.stats
xk = (1, 2, 3)
pk = (0.5 , 0.25 , 0.25)
distribucion = scipy.stats. rv_discrete ( values =(xk , pk))
print ( distribucion .mean ())

3.2.2. Esperanzas infinitas


A veces resulta conveniente admitir esperanzas infinitas. Si X ≥ 0 diremos que E[X] =
+∞ si X
xi P {X = xi }
i

diverge.
Si X es una variable aleatoria discreta cualquiera, escribimos

X = X+ − X−

donde
X si X ≥ 0

+
X =
0 si X < 0
y
−X si X < 0


X =
0 si X ≥ 0
Notamos que X + y X − son variables aleatorias no negativas.
Decimos que E[X] = +∞ si E[X + ] = +∞ y E[X − ] < ∞. Similarmente diremos que
E[X] = −∞ si E[X − ] = +∞ y E[X + ] < ∞. Si E[X + ] y E[X − ] son ambas infinitas, E[X]
no está definida.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 38

3.2.3. Propiedades de la Esperanza


Proposición 3.2.2 (linealidad de la esperanza) 1. Si X, Y : Ω → R son variables
aleatorias discretas con esperanza finita, entonces

E[X + Y ] = E[X] + E[Y ]

2. Si X : Ω → R es una variable aleatoria discreta con esperanza finita, entonces:

E[λX] = λE[X]

Prueba: Sean (xi ) los valores que toma X, e (yj ) los valores que toma Y : entonces
X X
E[X] = xi P {X = xi } = xi P {X = xi , Y = yj }
i i,j

ya que
{X = xi , Y = yj } (unión disjunta)
[
{X = xi } =
j

y el reordenamiento de la serie está justificado por la convergencia absoluta, de la serie:


X
xi P {X = xi , Y = yj }
i,j

Similarmente,
X X
E[Y ] = yj P {X = xi } = yj P {X = xi , Y = yj }
j i,j

En consecuencia,
X
E[X] + E[Y ] = (xi + yj )P {X = xi , Y = yj }
i,j

Sea Z = X +Y y sean z1 , z2 , . . . , zk , . . . los valores de Z. Entonces los zk son exactamente


los valores xi + yj (pero estos últimos pueden repetirse). Entonces,
X X X
E[Z] = zk P {Z = zk } = zk P {X = xi , Y = yj }
k k i,j:xi +yj =zk

pues
{X = xi , Y = yj } (unión disjunta)
[
{Z = zk } =
i,j:xi +yj =zk
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 39

Deducimos que
X
E[Z] = (xi + yj )P {X = xi , Y = yj } = E[X] + E[Y ]
k

Esto completa la prueba de la primera afirmación. En cuanto a la segunda afirmación, λX


es una variable aleatoria discreta que toma los valores λxi , por lo tanto:
X X
E[λX] = λxi P {λX = λxi } = λ xi P {X = xi } = λE[X]
i i


Proposición 3.2.3 (Monotonía de la esperanza) 1. Si X es una variable aleatoria


con esperanza finita y X ≥ 0 con probabilidad 1, entonces E[X] ≥ 0.

2. Sean X e Y variables aleatorias con esperanza finita. Entonces, si X ≤ Y con


probabilidad 1, tenemos que E[X] ≤ E[Y ]

3. Si X es una variable aleatoria acotada, entonces:

ı́nf X ≤ E[X] ≤ sup X


Ω Ω
.

4. Si X es una variable aleatoria discreta con esperanza finita, entonces:

|E[X]| ≤ E[|X|]

Proposición 3.2.4 Sean X una variable aleatoria discreta y ϕ : R → R. Entonces


X
E[ϕ(X)] = ϕ(xi )P {X = xi }
i

siempre que esta serie sea absolutamente convergente.

Prueba: Sea Y = ϕ(X), y sean (yj ) los valores de Y , entonces:


X X X X
E[Y ] = yj P {Y = yj } = yj P {X = xi } = ϕ(xi )P {X = xi }
j j i:ϕ(xi )=yj i

(El reordenamiento se justifica usando la convergencia absoluta de la serie.) 


Esta propiedad se puede generalizar a funciones de vectores aleatorios. Este concepto
es una generalización natural del de variable aleatoria discreta:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 40

Definición 3.2.5 Un vector aleatorio discreto n-dimensional es una función X : Ω → Rn


tal que Im(X) sea finita o infinita numerable, y P {X = x} sea un evento para todo x ∈ Rn .
Dar un vector aleatorio discreto X = (X1 , X2 , . . . , Xn ) es equivalente a dar n variables
aleatorias discretas x1 , x2 , . . . , xn

Con esta terminología tenemos [con la misma demostración de antes]:

Proposición 3.2.6 Sean X un vector aleatorio n-dimensional y ϕ : Rn → R, entonces


X
E[ϕ(X)] = ϕ(xi )P {X = xi }
i

donde xi recorre la imagen de X, siempre que esta serie sea absolutamente convergente.

3.2.4. Independencia
Definición 3.2.7 Sean X e Y dos variables aleatorias discretas definidas en un mis-
mo espacio muestral. Diremos que son independientes, si para cada xi , yj los eventos
{X = xi } e {Y = yj } son independientes, es decir de acuerdo a la definición de eventos
independientes si,
P {X = xi , Y = yj } = P {X = xi } · {Y = yj }

Observación: Remarcamos que esta definición solamente se aplica a variables discre-


tas, cuando generalicemos esta noción a variables aleatorias no discretas, nos veremos en
la necesidad de adoptar una definición diferente.

Proposición 3.2.8 Si X e Y son variables aleatorias discretas independientes, y f, g :


R → R son funciones, entonces Z = f (X) y W = g(Y ) también son variables aleatorias
discretas independientes.

Prueba: Calculemos la distribución conjunta de Z y W :


X
P {Z = z, W = w} = P {X = x, Y = y}
x,y:f (x)=z,g(y)=w
X
= P {X = x}P {Y = y}
x,y:f (x)=z,g(y)=w
  
X X
= P {X = x}  P {Y = y} = P {Z = z}P {W = w}
x:f (x)=z y:g(y)=w


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 41

Proposición 3.2.9 Si X e Y son variables aleatorias discretas independientes con espe-


ranza finita, entonces:
E(XY ) = E(X)E(Y )

Prueba:
X X
E[XY ] = xi yj P {X = xi , Y = yj } = xi yj P {X = xi }P {Y = yj }
i,j i,j
! 
X X
xi P {X = xi }  yj P {Y = yj } = E[X]E[Y ]
i j

Observación: En el caso en que X e Y toman infinitos valores, la aplicación de la propiedad


distributiva, está justificada por el hecho de que las series que intervienen son absolutamente
convergentes, por hipótesis. 

3.2.5. Desigualdad de Jensen


Definición 3.2.10 Sea f : R → R una función. Diremos que f es convexa, si dados
x, y ∈ R y α ∈ [0, 1], se verifica que:
f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y)
Observación: Si f es de clase C 2 , entonces f es convexa, si y sólo si f 00 (x) ≥ 0.
Observación: Una función convexa en R es necesariamente continua. Además es posi-
ble probar que su derivada f 0 (x) existe salvo quizás para un conjunto a lo sumo numerable
de valores de x, y que f 0 es creciente (ver [WZ77], teorema 7.40).
Ejercicio: Una combinación convexa de los xi es una combinación lineal
n
X
αi xi
i=1

en la que y i=1 αi = 1. Probar que si f : R → R es una función convexa y


Pn
0 ≤ αi
i=1 αi xi es una combinación convexa, entonces:
Pn

n n
!
X X
f αi xi ≤ αi f (xi )
i=1 i=1

Proposición 3.2.11 (Desigualdad de Jensen) Si g : R → R es una función convexa,


entonces:
g(E[X]) ≤ E[g(X)])
en los siguientes casos: si X es no negativa y g(x) ≥ 0 para x ≥ 0, o si X y g son arbitrarias
y E(|g(X)|) < ∞.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 42

Prueba: Hagamos la demostración primero, en el caso que X toma sólo finitos valores.
Sea pi = P {X = xi }. Entonces
Xn
E[X] = pi xi
i=1

es una combinación convexa de los valores de X. Como X es una función convexa,


n n
!
X X
g(E[X]) = g p i xi ≤ pi g(xi ) = E[g(X)]
i=1 i=1

Si X toma un número numerable de valores, xi con probabilidades pi , entonces hacemos lo


siguiente: para cada n ∈ N definamos,
n
X
sn = pi
i=1

y notamos que
n
X pi
xi
sn
i=1

es una combinación convexa. Entonces, como g es convexa:


n n
!
X pi X pi
g xi ≤ g(xi )
sn sn
i=1 i=1

Cuando n → +∞, tenemos que sn → 1. Entonces, utilizando la continuidad de g, obtene-


mos que:
∞ ∞
!
X X
g(E[X]) = g p i xi ≤ pi g(xi ) = E[g(X)]
i=1 i=1

Ejemplo: f (x) = |x|p es una función convexa si p ≥ 1. En consecuencia, en este caso:

|E[X]|p ≤ E[|X|p ]

3.3. Momentos - Varianza


Definición 3.3.1 Sea X una variable aleatoria (discreta). Definimos el k-ésimo momento
de X entorno de b como E[(X − b)k ]. El k-ésimo momento absoluto entorno de b se define
como E[|X − b|k ].

Algunas observaciones:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 43

1. Si E[|X|t ] < ∞ y 0 ≤ s ≤ t, entonces E[|X|s ] < +∞. En efecto según la desigualdad


de Jensen,
(E[|X|s ])p ≤ E[|X|t ]
donde p = t
s ≥ 1. Es más, vemos que:

2. E[|X|p ]1/p es una función creciente de p.

3. Si E[|X|p ] < +∞ y E[|Y |p ] < +∞ entonces E[|X + Y |p ]1/p < +∞ Prueba:

|X + Y |p ≤ (|X| + |Y |)p = (2 máx |X|, |Y |)p

≤ 2p máx(|X|p , |Y |p ) ≤ 2p (|X|p + |Y |p )
Por lo tanto,
E[|X + Y |p ] ≤ 2p (E[|X|p ] + E[|Y |p ]) < +∞


4. En consecuencia, el conjunto

Lpd (Ω, E, P ) = {X : Ω → R variable aleatoria discreta : E[|X|p ] < +∞}

(siendo R = R ∪ {±∞}) es un espacio vectorial.

5. Si p ≥ 1, es posible probar que


1
kXkp = E[|X|p ] p

es una norma en dicho espacio.

En lo sucesivo, nos van a interesar especialmente dos clases Lp :

L1d (Ω) = {X : Ω → R : variable aleatoria (discreta) con esperanza finita}

L2d (Ω) = {X : Ω → R : variable aleatoria (discreta) con segundo momento finito}

Ejemplo: Notemos que L2d ⊂ L1d por lo anterior. Veamos un ejemplo de una variable
aleatoria que está en L1d pero no en L2d : Consideramos un espacio muestral numerable

Ω = {ω1 , ω2 , . . . , ωn , . . .}

en el que
1
P {ωn } =
n(n + 1)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 44

Verifiquemos que esta asignación efectivamente define una distribución de probabilidades


en Ω:
∞ ∞ ∞  
X X 1 X 1 1
P {ωn } = = − =1
n(n + 1) n n+1
n=1 n=1 n=1

(serie telescópica). Definamos la variable aleatoria X : Ω → R, dada por X(ωn ) = n.
Entonces,
∞ √ ∞
X X n X 1
E(X) = X(ωn )P {ωn } = ≤ 3/2
< +∞
n(n + 1) n
n=1 n=1 n=1
pero
∞ ∞
X X n X 1
E(X 2 ) = X(ωn )2 P {ωn } = = = +∞
n(n + 1) n+1
n=1 n=1 n=1

Definición 3.3.2 El segundo momento de X entorno de su media se llama la varianza


(o variancia1 ) de X, es decir:

Var(X) = E[(X − E(X))2 ]

Por lo anterior Var(X) < +∞ si y sólo si el segundo momento de X es finito, es decir si


X ∈ L2d .
Notamos que si X es una variable aleatoria discreta, podemos calcular su varianza
usando la fórmula

Var(X) = E[ϕ(X)]
X
= (xi − µX )2 · pi
i

donde µX = E[X] y ϕ(x) = (x − µX )2 .

Var(X)
p
σX =
se demomina desviación estándar o desviación típica.

Ejemplo: Sea A un evento con probabilidad p, e IA su indicador. Calculemos su va-


rianza. Ya vimos que:
E[IA ] = P (A) = p
En consecuencia:
Var(IA ) = E[(IA − p)2 ]
1
Según el diccionario de la RAE, ambas grafías son aceptables.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 45

La distribución de probabilidades de (IA − p)2 es:

(1 − p)2 si ocurre A (con probabilidad p)



2
(IA − p) =
p2 si no ocurre A (con probabilidad q = 1 − p)

En consecuencia,
Var(IA ) = (1 − p)2 p + p2 (1 − p) = p − p2 = pq

Proposición 3.3.3 1. Si X = c es constante, entonces Var(X) = 0.

2. Var(aX + b) = a2 Var(X).

Prueba: Si X = c es constante, E[X] = c luego V ar(X) = E[0] = 0.

E[aX + b] = aE[X] + E[b] = a · E[X] + b

Var(aX + b) = E[[(aX + b) − (a · E[X] + b)]2 ]


= E[(aX − aE(X))2 ] = E[a2 (X − E(X))2 ] = a2 E[(X − E(X))2 ]
= a2 Var(X)

Proposición 3.3.4 (Otra manera de escribir la varianza)

Var(X) = E[X 2 ] − E[X]2

Prueba: Sea µX = E[X]

Var(X) = E[(X − µX )2 ]
= E[X 2 − 2µX X + µ2 ]
= E[X 2 ] − 2µX E[X] + E[µ2X ]
= E[X 2 ] − 2µ2X + µ2X
= E[X 2 ] − µ2X
= E[X 2 ] − E[X]2


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 46

3.3.1. Desigualdades de Chebyshev y de Markov


Proposición 3.3.5 (Desigualdad básica) Sea X una variable aleatoria no negativa, en-
tonces
1
P (X ≥ λ) ≤ E(X) (3.2)
λ
Prueba: Sea A = {ω ∈ Ω : X(ω) ≥ λ}. Entonces X ≥ λIA , en consecuencia: E[X] ≥
λE[IA ] = λP (A) 

Proposición 3.3.6 (Desigualdad de Markov) Si X es una variable aleatoria (discre-


ta) entonces
1
P {|X| ≥ λ} ≤ p E(|X|p )
λ
Prueba: Si cambiamos X por |X|p en la desigualdad anterior tenemos que:
1
P {|X| ≥ λ} = P {|X|p > λp } ≤ E(|X|p )
λp


Proposición 3.3.7 (desigualdad de Chebyshevclásica) Sea X una variable (discre-


ta) entonces
Var(X)
P {|X − E(X)| > λ} ≤
λ2
Prueba: Usamos la desigualdad anterior con p = 2 y cambiamos X por X − E(X). 
Intuitivamente, la desigualdad de Chebyshevdice que la varianza de la variable X nos
da una estimación de la probabilidad de que X tome valores alejados de su esperanza. Si
Var(X) es pequeña, entonces es poco probable que X tome un valor alejado de E(X).

3.3.2. Covarianza
Definición 3.3.8 Sean X e Y dos variables aleatorias. Definimos la convarianza o co-
variancia de X e Y por

Cov(X, Y ) = E[(X − E(X))(Y − E(Y )]

Digamos que Im(X) = {x1 , x2 , . . . , xi , . . .} e Im(Y ) = {y1 , y2 , . . . , yj , . . .}. y

pi,j = P {X = xi , Y = yj }

denota la distribución conjunta de X e Y entonces:

Cov(X, Y ) = E[ϕ(X, Y )] =
X
pi,j (xi − µX ) · (yj − µY )
i,j
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 47

donde
ϕ(x, y) = (x − µX ) · (y − µY )
.
Observación: Si X e Y son variables aleatorias independientes entonces Cov(X,Y) = 0.
La recíproca no es cierta, como muestra el siguiente ejemplo:
Ejemplo (Barry James, pag. 130) Sean X e Y dos variables aleatorias con valores −1,
0, 1 con la siguiente función de probabilidad conjunta:
−1 0 1
1 1
−1 5 0 5
0 0 15 0
1 1
1 5 0 5

entonces E[XY ] = E[X] = E[Y ] = 0, pero X e Y no son independientes pues


1 1 1 1
P {X = 0, Y = 0} = 6= = · = P {X = 0}P {Y = 0}
5 25 5 5
Definición 3.3.9 Sean X1 , X2 , . . . , Xn variables aleatorias discretas. Diremos que no es-
tán correlacionadas si Cov(Xi , Xj ) = 0 para i 6= j.
Observación 3.3.10 Recordamos que introdujimos el espacio vectorial
L2d = {X : Ω → R variable aleatoria discreta con E(|X|2 ) < +∞}
Sus elementos se llaman variables aleatorias con segundo momento finito. Notemos
que:
X ∈ L2d ⇒ E(X) y Var(X) son finitas.
kXk2 = E(|X|2 )1/2
es una norma en este espacio, que proviene del producto interno
hX, Y i = E(X · Y )
Entonces la desigualdad de Cauchy-Schwarz (aplicada a X − µX y Y − µY ) nos da que
|Cov(X, Y )| ≤ Var(X) · Var(Y ) (3.3)
p p

Notemos que decir que X e Y no están correlacionadas equivale a decir que X − µX e


Y − µY son ortogonales en L2d . Esto nos sugiere considerar el número
Cov(X, Y )
ρ= p
Var(X) · Var(Y )
p

que sería geométricamente el coseno del ángulo entre X − µX y Y − µY , para medir que
tan lejos están las variables X e Y de estar correlacionadas. Se denomina coeficiente
de correlación entre X e Y . La desigualdad (3.3) nos dice que 0 ≤ |ρ| ≤ 1, o sea que
−1 ≤ ρ ≤ 1.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 48

Proposición 3.3.11 Si X e Y son variables aleatorias (discretas) con segundo momento


finito:
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y )

Prueba:

V ar(X + Y ) = E[(X + Y − E[X] − E[Y ])2 ] = E[((X − E(X) + (Y − E(Y ))2 ] =

= E[(X − E(X))2 ] + E[(Y − E(Y ))2 ] + 2E[(X − E(X))(Y − E(Y ))] =


= Var(X) + Var(Y ) + 2Cov(X, Y )


Corolario 3.3.12 Si X1 , X2 , . . . , Xn son variables aleatorias (discretas) con segundo mo-


mento finito, que no están correlacionadas, entonces
n
Var(X1 + X2 + . . . + Xn ) = Var(Xi )
X

i=1

Dem: Sale de la fórmula anterior por inducción.

3.4. Ensayos de Bernoulli - La Distribución Binomial


En esta sección presentaremos un esquema conceptual, que fue introducido por Ber-
noulli, y que es útil para modelizar muchas situaciones.
El esquema de ensayos de Bernoulli consiste en lo siguiente: Consideramos un experi-
mento aleatorio con dos resultados, que convencionalmente llamamos “éxito” y “fracaso”.
Supongamos que la probabilidad de obtener un éxito en una realización del experimento
es p ∈ [0, 1], y naturalmente la de obtener un fracaso será q = 1 − p
Imaginemos que repetimos el experimento una cantidad n de veces, de manera independiente.
Para modelizar este experimento consideramos el espacio muestral Ω = {0, 1}n compues-
to por las n-uplas de números 0 y 1 con la siguiente interpretación: codificaremos una
realización del experimento por una n-upla ω = (x1 , x2 , . . . , xn ) ∈ Ω de modo que:

1 si la i-ésima realización del experimento fue un “éxito”



xi =
0 si la i-ésima realización del experimento fue un “fracaso”
Es un espacio muestral finito, con cardinal 2n . Notemos que las funciones Xi : Ω → R
(proyecciones) dadas por Xi (ω) = xi son variables aleatorias.
¿De qué modo asignaremos las probabilidades en este espacio?. Puesto que consideramos
que los ensayos son independientes, a una determinada n-upla ω = (x1 , x2 , . . . , xn ) le
asignamos la probabilidad
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 49

n
Y
P {ω} = P {X1 = x1 , X2 = x2 , . . . , Xn = xn } = P {Xi = xi }
i=1
Ahora la probabilidad de que Xi = xi es p si xi = 1 (es un éxito) y q si xi = 0 (es un
fracaso). De modo que

P {ω} = pk q n−k
donde k = i=1 xi es el número de éxitos que ocurren en esa realización del experi-
Pn
mento. Notemos que esta forma de asignar las probabilidades dice precisamente que las Xi
son variables aleatorias independientes.
Por otra parte, notemos que si definimos Sn : Ω → R como el número de éxitos en
los n ensayos de Bernoulli, es una variable aleatoria (en la notación anterior Sn (ω) = k).
Tenemos que:

Sn = X1 + X2 + . . . + Xn (3.4)
Nos interesa cuál es la distribución de probabilidades de Sn , es decir queremos de-
terminar para cada k (con 0 ≤ k ≤ n) cuál es la probabilidad de que Sn tome el valor
k.
Observamos que el evento {Sn = k} = {ω ∈ Ω : Sn (ω) = k} se compone de las n-uplas
que tienen exactamente k éxitos y n − k fracasos, y que hay exactamente
 
n n!
=
k k!(n − k)!
de tales n-uplas, y cada una de ellas tiene probabilidad pk q n−k . En consecuencia la proba-
bilidad del evento Sn = k será
 
n
P {Sn = k} = pk q n−k
k
Esta distribución de probabilidades se conoce como la distribución binomial, dado
que viene dada por los términos del desarrollo del binomio de Newton:
n  
n
X n
(p + q) = pk q n−k
k
k=0

Definición 3.4.1 Sea X : Ω → N0 una variable aleatoria con valores enteros. Diremos
que X tiene distribución binomial si:
 
n
P {X = k} = b(k, n, p) = pk q n−k (3.5)
k
y P {X = k} = 0 si k 6∈ {0, 1, . . . , n}. Notación: X ∼ Bi(n, p)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 50

Figura 3.1: La distribución binomial con n = 20 y p = 0,4

Observación 3.4.2 Si p = 0, tenemos que

1 si k = 0

b(k, n, p) = ,
0 si k = 1, 2, . . . n

mientras que si p = 1 tenemos que

0 si k = 0, 1, 2, . . . , n − 1

b(k, n, p) =
1 si k = n

Esto está de acuerdo con la fórmula (3.5), definiendo 00 = 1.

Necesitamos calcular la esperanza y la varianza de Sn . Para ello utilizamos la repre-


sentación (3.4) de Sn como suma de las variables Xi . Notamos que cada Xi es de hecho
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 51

el indicador del evento “ocurre un éxito en la i-ésima realización del experimento”. En


consecuencia:
E[Xi ] = p, V ar(Xi ) = pq
Por la linealidad de la esperanza,
E[Sn ] = np
y por otro lado, como las Xi son variables aleatorias independientes, también se verifica
que
Var(Sn ) = npq

3.5. Convoluciones discretas


Consideramos dos variables aletorias discretas X e Y independientes con valores
enteros. La distribuciones puntuales vienen dadas por las sucesiones

pk = p(k) = P {X = k}, qk = q(k) = P {Y = k} k∈Z

que podemos pensar como funciones p, q : Z → R. ¿Cuál es la distribución de X + Y ?


Definimos la convolución discreta de p y q por
X X
(p ∗ q)(k) = p(m) · q(n) = p(m) · q(k − m)
m,n∈Z:m+n=k m∈Z

Si X e Y toman valores naturales con probabilidad 1 (en N0 la fórmula se simplifica


k
X
(p ∗ q)(k) = p(m) · q(k − m)
m=0

Proposición 3.5.1 Si X e Y independientes son variables aletorias discretascon valores


enteros, entonces la distribución puntual de probabilidades de X + Y viene dada por p ∗ q
es decir
P {X + Y = k} = (p ∗ q)(k)

Prueba:
X
P {X + Y = k} = P {X = m, Y = n}
m,n:m+n=k

P {X = m} · P {Y = n} por independencia
X
=
m,n:m+n=k
X
= p(m) · q(n) = (p ∗ q)(k)
m,n:m+n=k


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 52

3.6. La aproximación de Poisson a la distribución binomial


La aproximación de Poisson es una aproximación de la distribución binomial para el
caso en que k es pequeño comparado con n y p es también pequeño pero λ = np es
moderado.
Empecemos desarrollando el combinatorio que aparece en la distribución binomial:
 
n n(n − 1)(n − 2) . . . (n − k + 1) k
b(k, n, p) = pk q n−k = p (1 − p)n−k
k k!

Notamos que en el desarrollo del combinatorio, hay k factores en el numerador. Multipli-


cando y dividiendo por nk queda:

(np)k
     
1 2 k−1
b(k, n, p) = 1 − · 1− ··· 1 − · (1 − p)n−k
n n n k!
Pongamos λ = np, entonces

λ n−k
      k 
1 2 k−1 λ
b(k, n, p) = 1 − · 1− ··· 1 − · 1−
n n n k! n
Como
λ n
 
lı́m 1− = e−λ
n→+∞ n
deducimos que si k es pequeño en comparación con n, entonces

λk −λ
b(k, n, p) ≈ e
k!
Como formalización de esta idea, obtenemos el siguiente teorema:
Teorema 3.6.1 (Teorema de Poisson) Si k está fijo, y n → +∞ de modo que λ = np
permanece fijo, entonces:
λk −λ
limn→+∞ b(k, n, p) = e
k!
Lo que obtuvimos en el límite, es otra distribución de probabilidades que se utiliza con
frecuencia y se conoce como distribución de Poisson:

Definición 3.6.2 Sea X : Ω → N0 una variable aleatoria entera. Diremos que X tiene
distribución de Poisson de parámetro λ > 0, si

λk −λ
P {X = k} = e
k!
Notación: X ∼ P(λ).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 53

Figura 3.2: La distribución de Poisson con λ = 6.

Hay que verificar que efectivamente tenemos una distribución de probabilidades, es


decir que:
∞ ∞
X X λk
P {X = k} = e−λ =1
k!
k=0 k=0

pero esto es inmediato, considerando el desarrollo en serie de eλ .


Vamos a calcular ahora la esperanza y la varianza de la distribución de Poisson:
∞ ∞ ∞
X X λk X λk−1
E[X] = k · P {X = k} = k · e−λ = e−λ λ = e−λ · λ · eλ = λ
k! (k − 1)!
k=0 k=1 k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 54

Generalizando este truco


∞ ∞
X X λk
E[X(X − 1)] = k(k − 1) · P {X = k} = k(k − 1) · e−λ
k!
k=0 k=2

−λ 2
X λk−2
=e λ = e−λ · λ2 · eλ = λ2
(k − 2)!
k=1

y por lo tanto:
E[X 2 ] = E[X(X − 1)] + E[X] = λ2 + λ
y
Var(X) = E[X 2 ] − E[X]2 = λ2 + λ − λ2 = λ

Proposición 3.6.3 Si X ∼ P(λ1 ), Y ∼ P(λ2 ) y son independientes, entonces X + Y ∼


P(λ1 + λ2 ).

Prueba:

k k
X X λm λk−m
(p ∗ q)(k) = p(m) · q(k − m) = 1
· e−λ1 · 2
· e−λ2
m! (k − m)!
m=0 m=0
k
1 X k!
= e−(λ1 +λ2 ) · λm · λk−m
k! m! · (k − m)! 1 2
m=0
k  
−(λ1 +λ2 ) 1
X k (λ1 + λ2 )k
=e · λm k−m
1 · λ2 = e−(λ1 +λ2 ) ·
k! m k!
m=0

3.7. El método de las funciones generatrices


En algunas situaciones, el método que expondremos a continuación resulta de utilidad
para operar con distribuciones de probabilidad discretas. Lo usaremos para obtener de otro
modo la distribución binomial, y calcular su esperanza y su varianza.

Definición 3.7.1 Sea X : Ω → N0 una variable aleatoria que toma valores enteros. Lla-
mamos función generatriz de la distribución de probabilidades de X a

X
gX (z) = P {X = k}z k (z ∈ C)
k=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 55

suponiendo que esta serie tenga un radio de convergencia rX > 0 (entonces convergerá
absolutamente en |z| < rX ). Observación: La notación gX que usaremos en estas notas,
no es una notación estándar. 2
Notemos que si 0 < |z| < rX ,
gX (z) = E[z X ]
Cuando z = 0 esta fórmula es problemática si X toma el valor 0. Si usamos la definición
00 = 1, tiene sentido pues gX (0) = P {X = 0}.

Observación: En virtud de la unicidad del desarrollo en serie de potencias, la distri-


bución de probabilidades de una variable aleatoria entera está unívocamente determinada
por su función generatriz.

Proposición 3.7.2 Si X e Y son variables aleatorias independientes, entonces:

gX+Y (z) = gX (z) · gY (z)

para |z| < mı́n(rX , rY ).

Prueba: Como X e Y son independientes, z X y z Y son independientes. En consecuencia,


si 0 < |z| < rX :

gX+Y (z) = E[z X+Y ] = E[z X · z Y ] = E[z X ] · E[z Y ] = gX (z) · gY (z)

Cuando z = 0,
gX+Y (0) = P {X + Y = 0} = P {X = 0, Y = 0}
= P {X = 0} · P {Y = 0} = gX (0) · gY (0)

Esta proposición puede generalizarse sin dificultad a varias variables independientes: si
X1 , X2 , . . . , Xn son independientes, entonces

gX1 +X2 +...+Xn (z) = gX1 (z) · gX2 (z) · · · gXn (z)

Aplicación: Otra prueba de que el número de éxitos Sn en n ensayos de Bernoulli


tiene distribución binomial.
Utilicemos la representación (3.4) de Sn como suma de n variables independientes que
valen 1 con probabilidad p y 0 con probabilidad q = 1 − p. La función generatriz de cada
Xi es:
gXi (z) = pz + q
2
En clase y en versiones anteriores de estas notas utilicé la notación fX , pero decidí cambiarla por gX ,
ya que en la teoría de probabilidades la notación fX suele utilizarse para la densidad de probabilidad para
variables aleatorias absolutamente continuas.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 56

y como Sn es la suma de las Xi y son independientes:


n  
n
(3.6)
X
n
gSn (z) = (pz + q) = pk z k q n−k
k
k=0

Notemos que la probabilidad de que Sn tome el valor k viene dado por el coeficiente de z k
en gSn . En consecuencia:
 
n
P {Sn = k} = pk q n−k (0 ≤ k ≤ n)
k
Las funciones generatrices pueden usarse para calcular esperanzas y varianzas (y más
generalmente momentos) de variables aleatorias enteras:

Proposición 3.7.3 Si la serie que define la función generatriz gX tiene radio de conver-
gencia rX > 1, entonces
0
E(X) = gX (1)
Var(X) = gX
00 0
(1) + gX 0
(1) − gX (1)2

Prueba: Como las series de potencia pueden derivarse término a término en el interior de
su disco de convergencia, tenemos que:

X
0
gX (z) = kP {X = k}z k−1
k=1

con convergencia absoluta si |z| < rX . En particular si z = 1,



X
0
gX (1) = kP {X = k} = E[X]
k=1

Volviendo a derivar tenemos que



X
00
gX (z) = k(k − 1)P {X = k}z k−2
k=2

con convergencia absoluta si |z| < rX , y haciendo z = 1,



X
00
gX (1) = k(k − 1)P {X = k} = E[X(X − 1)] = E[X 2 ] − E[X]
k=2

Luego
00 0 0
V ar(X) = E[X 2 ] − E[X]2 = gX (1) + gX (1) − gX (1)2

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 57

3.7.1. Cálculo de la esperanza y la varianza de la distribución binomial


(de otra manera)
Sea como antes Sn el número de éxitos en n ensayos de Bernoulli. Como vimos antes
gSn (z) = (pz + q)n . En consecuencia, como
gS0 n (z) = n(pz + q)n−1 p
gS00n (z) = n(n − 1)(pz + q)n−2 p2
deducimos que
E[Sn ] = np
y que:
Var(Sn ) = n(n − 1)p2 + np − n2 p2 = −np2 + np = np(1 − p) = npq
Ejercicio: Si X ∼ Bi(n, p) e Y ∼ Bi(m, p) y son independientes, entonces X + Y ∼
Bi(n + m, p).

3.7.2. Otra aplicación: otra forma de deducir las propiedades de la dis-


tribución de Poisson
Si X tiene distribución de Poisson de parámetro λ, la función generatriz de su distri-
bución de probabilidades es:

λk z k
(3.7)
X
gX (z) = e−λ = e−λ eλz = eλ(z−1)
k!
k=0
Tenemos que
0
gX (z) = λeλ(z−1)
00
gX (z) = λ2 eλ(z−1)
En consecuencia por la proposición 3.7.3, deducimos que:
0
E(X) = gX (1) = λ
Var(X) = g 00 (1) + g 0 (1) − g 0 (1)2 = λ2 + λ − λ2 = λ
También podemos dar otra prueba de la proposición 3.6.3, cuyo enunciado recordamos:
Proposición 3.7.4 Si X ∼ P(λ1 ), Y ∼ P(λ2 ) y son independientes, entonces X + Y ∼
P(λ1 + λ2 ).
Prueba: Por la proposición 3.7.2,
gX+Y (z) = gX (z) · gY (z) = eλ1 (z−1) eλ2 (z−1) = e(λ1 +λ2 )(z−1)
En consecuencia, X + Y ∼ P(λ1 + λ2 ), ya que la distribución de probabilidades de X + Y
está determinada por su función generatriz. 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 58

3.7.3. El teorema de Bernoulli


Imaginemos que realizamos una sucesión ilimitada de ensayos de Bernoulli. Sea fn =
Sn
n la frecuencia de éxitos que obtenemos en los n primeros ensayos. Es intuitivamente
razonable que conforme n → +∞, fn tienda a la probabilidad p de obtener un éxito.
Nos gustaría transformar esta idea intuitiva en un teorema matemático. El siguiente
teorema debido a Jacques Bernoulli, y publicado en 1713 en su libro Ars Conjectandi,
constituye una formalización de esta idea:

Teorema 3.7.5 (Teorema de J. Bernoulli) Sea fn la frecuencia de éxitos en los n pri-


meros ensayos de una sucesión ilimitada de ensayos de Bernoulli. Entonces dado cualquier
δ > 0,
P {|fn − p| > δ} → 0 conforme n → ∞

Prueba: Notemos que E[fn ] = p. Luego, por la desigualdad de Chebyshev,

Var(fn )
P {|fn − p| > δ} ≤
δ2
pero  
Sn pq
Var(fn ) = Var =
n n
En consecuencia:
pq
P {|fn − p| > δ} ≤ → 0 cuando n → +∞ (3.8)
nδ 2

Una generalización del teorema de Bernoulli (que se prueba con el mismo argumento)
es la siguiente, conocida (al igual que a veces el teorema de Bernoulli) como la ley débil de
los grandes números:

Teorema 3.7.6 (Ley débil de los grandes números - caso de variancia finita) Sean
X1 , X2 , . . . , Xn , . . . una secuencia infinita de variables aleatorias independientes e idénti-
camente distribuidas, con
E[Xi ] = µ
Var(Xi ) = σ 2 < +∞
Entonces si llamamos
X1 + X2 + . . . + Xn
Xn =
n
y tomamos cualquier δ > 0, tenemos que

P {|X n − µ| > δ} → 0 cuando n → +∞


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 59

Prueba: Por linealidad de la esperanza, E[X n ] = µ, y por otro lado

σ2
Var(X n ) =
n
ya que las Xi son independientes. La desigualdad de Chebyshev, dice entonces que:

σ2
P {|X n − µ| > δ} ≤ → 0 cuando n → +∞
nδ 2

Algunas observaciones sobre el teorema de Bernoulli:

Si bien la prueba del teorema de Bernoulli, resulta muy sencilla hoy en día, J. Ber-
noulli dice en su libro que estuvo pensando en este teorema durante más de 20 años,
lo cuál muestra que el resultado no es para nada trivial.

Como todo teorema matemático, el teorema de Bernoulli no afirma nada sobre la


realidad, es solamente una afirmación sobre el modelo matemático
(La cuestión de la validez práctica de un modelo matemático sólo se puede decidir
sobre bases empíricas, es decir contrastándolo con la experiencia). Sin embargo, po-
demos interpretarlo como una muestra de la consistencia interna de nuestro modelo
matemático.

La ley débil de los grandes números recibe este nombre, porque, como veremos más
adelante, existe otro teorema conocido como la ley fuerte de los grandes números,
que afirma que en realidad Sn → p (o X n → µ) con probabilidad 1.
(Pero notemos que para darle sentido a la afirmación de que Sn → p con probabilidad
1, debemos asignar probabilidades a secuencias de infinitos ensayos de Bernoulli, como
en el experimento que consideramos anteriormente de arrojar infinitas veces una
moneda. Esto introduce ciertas dificultades relacionadas con la teoría de la medida,
como por ejemplo que ya no podremos asignarle probabilidad a cualquier parte del
espacio muestral Ω, y que por lo tanto debemos restringir el dominio de la función
probabilidad a una σ-álgebra de eventos.)

3.8. Ley débil de los grandes números: caso general


La hipótesis de que las variables aleatorias Xi tengan varianza finita no es realmente
necesaria para la validez de la ley débil de los grandes números, pudiéndose probar para
variables que tengan solamente esperanza finita, por medio de un método de truncamiento.
Sin embargo, para fijar ideas, hemos optado por enunciarla y demostrarla primero en este
caso en el que la demostración resulta más sencilla. Veamos ahora el caso general:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 60

Teorema 3.8.1 (Ley débil de los grandes números - caso general) Sean X1 , X2 , . . . , Xn , . . .
una secuencia infinita de variables aleatorias independientes e idénticamente distribuidas,
con
E[Xi ] = µ < +∞
Entonces si llamamos
Sn = X1 + X2 + . . . + Xn
y tomamos cualquier δ > 0, tenemos que
 
Sn
P − µ > δ → 0 cuando n → +∞
n

Prueba: Para simplificar la notación, notemos que podemos asumir sin pérdida de gene-
ralidad, que
E(Xi ) = 0 ∀ i
(cambiando si no Xi por Xi − µ).
La demostración en el caso de variancia infinita, se basa en el método de trunca-
miento, que consiste en descomponer Xi como suma de dos variables aleatorias. Para cada
k = 1, 2, . . . , n, escribimos:

Xk = Un,k + Vn,k (k = 1, 2, . . . , n) (3.9)

donde
Xk si |Xk | ≤ λn

Un,k =
0 si |Xk | > λn
y
0 si |Xk | ≤ λn

Vn,k =
Xk si |Xk | > λn
donde δ > 0 es una constante que especificaremos después. Y pongamos:

Un = Un,1 + Un,2 + . . . + Un,n


Vn = Vn,1 + Vn,2 + . . . + Vn,n
De la desigualdad triangular |Sn | ≤ |Un | + |Vn |, y de la subaditividad de la probabilidad,
deducimos que:

P {|Sn | > δn}


≤ P {|Un | > δn/2} + P {|Vn | > δn/2} (3.10)
Entonces hemos de probar que cada una de las probabilidades del segundo miembro tiende
a cero cuando n → +∞.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 61

Comencemos acotando:
P {|Un | > δn/2}
Observemos que las variables Un,k están acotadas (|Un,k | ≤ λn) y en consecuencia tienen
segundo momento finito. Más explícitamente, si llamemos a = E(|Xi |), tenemos que
2
E(Un,k ) ≤ nλa

En consecuencia las Uk,n tienen variancia finita:

Var(Un,k ) ≤ E(Un.k
2
) ≤ nλa

Por otra parte las Un,k son variables independientes e idénticamente distribuidas (pues
Un,k es función de Xk , y las Xk eran independientes e idénticamente distribuidas). En
consecuencia:
n
Var(Un ) = Var(Un,1 + Un,2 + . . . + Un,n ) = Var(Un,k ) ≤ n2 λa
X

k=1

Además de la definición de las Un,k deducimos que


X
E(Un,k ) = E(Un,1 ) = xi P {X1 = xi } → E(X1 ) = 0
i:|xi |>λn

conforme n → +∞. En consecuencia para n ≥ n0 (ε) será:

E(Un2 ) = Var(Un ) + E(Un )2 < 2λn2 a

y entonces por la desigualdad de Chebyshev, tenemos que:


8aλ ε
P {|Un | > δn/2} < 2
<
δ 2
si elegimos λ suficientemente pequeño.
En cuanto al segundo término: obviamente

P {|Vn | > δn/2} ≤ P {Vn,1 + Vn,2 + . . . + Vn,n 6= 0}

y como
n
[
{Vn,1 + Vn,2 + . . . + Vn,n 6= 0} ⊂ {Vn,k 6= 0}
k=1
tenemos que:
n
X
P {|Vn | > δn/2} ≤ P {Vn,k 6= 0} = nP {V1 6= 0}
k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 62

ya que las Vk tienen todas la misma distribución de probabilidades. Pero por definición de
V1 , esto dice que
X
P {|Vn | > δn/2} ≤ nP {|X1 | > λn} = n P {X1 = xi }
i:|xi |>λn

donde Im(X1 ) = {x1 , x2 , . . . , xn . . .}. Deducimos que:


1 X
P {|Vn | > δn/2} ≤ |xi |P {X1 = xi }
λ
|xi |>λn

Dado entonces cualquier ε > 0, como la esperanza de X1 es finita por hipótesis, dedu-
cimos que si elegimos n suficientemente grande, digamos si n ≥ n0 (ε), tendremos que:
ε
P {|Vn | > δn/2} <
2
(ya que las colas de una serie convergente tienden a cero).
Por (3.10), deducimos que:
P {|Sn | > δn} ≤ ε
si n ≥ n0 (ε). 

3.9. Polinomios de Bernstein: Una prueba del teorema de


Weierstrass
En esta sección expondremos una prueba del teorema de Weierstrass sobre aproximación
a funciones continuas por polinomios, debida a S.N. Bernstein:

Teorema 3.9.1 (Weierstrass) Sea f ∈ C[0, 1] una función continua f : [0, 1] → R,


entonces existe una sucesión de polinomios Pn (t) tal que Pn (t) → f (t) uniformemente para
t ∈ [0, 1].

En un lenguaje más moderno, el teorema de Weierstrass dice que los polinomios son
densos en el espacio C[0, 1] de las funciones continuas (con la norma del supremo).
La prueba de S.N. Berstein (1912) [Ber12] de este teorema, consiste en utilizar la dis-
tribución binomial, para construir explícitamente una sucesión de polinomios que converge
uniformemente a f .
Veamos primero la idea intuitiva de la demostración: sea p ∈ [0, 1] y sea como antes Sn
el número de éxitos en n ensayos de Bernoulli con probabilidad p. La ley de los grandes
números afirma que:
Sn
→ p (en probabilidad)
n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 63

y como f es continua es razonable esperar que:


 
Sn
f → f (p)
n

(De vuelta, esto no es estrictamente cierto para toda sucesión de ensayos de Bernoulli, pero
sí vale en probabilidad.) Por lo que esperamos que:
  
Sn
E f → E[f (p)] = f (p)
n

Notemos que:
   Xn  
Sn k
Bn (p) = E f = f b(k, n, p)
n n
k=0
n    
X n k
= f pk (1 − p)n−k
k n
k=0

es un polinomio en la variable p de grado menor o igual que n. Se lo denomina el n-ésimo


polinomio de Bernstein.

Observación 3.9.2 En esta fórmula, debemos interpetar 00 = 1, de acuerdo con la obser-


vación . Se deduce que Bn (0) = f (0), Bn (1) = f (1).

La demostración de S.N. Bernstein, consiste en probar que Bn (p) → f (p) uniforme-


mente para p ∈ [0, 1] (Los argumentos anteriores no constituyen una prueba rigurosa, pero
explican intuitivamente por qué esta afirmación es cierta).
De hecho, la demostración de esta afirmación se basa en argumentos muy similares a
los que nos llevaron a la prueba del teorema de Bernoulli.
Para la prueba del teorema de Weierstrass utilizaremos, dos propiedades claves de las
funciones continuas en un intervalo cerrado de la recta, a saber:

1. Una función continua en un intervalo cerrado de la recta, es acotada: existe una


constante M > 0 tal que:
|f (p)| ≤ M ∀ p ∈ [0, 1]

2. Una función continua en un intervalo cerrado de la recta, es uniformemente continua:


dado ε > 0 existe δ > 0 tal que si x, y ∈ [0, 1] y si |x−y| ≤ δ, entonces |f (x)−f (y)| < ε.

Necesitaremos una acotación de las colas de la distribución binomial: de acuerdo a la


desigualdad (3.8):  
Sn pq 1
P −p >δ ≤ 2 ≤
n nδ 4nδ 2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 64

Figura 3.3: Aproximación a f (x) = | 12 − x| mediante los polinomios de Bernstein.

ya que:
1
pq = p(1 − p) ≤∀ p ∈ [0, 1]
4
Más explícitamente podemos escribir esto como:
X X 1
b(k, n, p) = P {Sn = k} ≤
4nδ 2
|k/n−p|>δ |k/n−p|>δ

Queremos acotar la diferencia:


n     n    
X k X k
Bn (p) − f (p) = f b(k, n, p) − f (p) = f − f (p) b(k, n, p)
n n
k=0 k=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 65

pues
n
X
b(k, n, p) = 1
k=0

(¡Es una distribución de probabilidades!). En consecuencia,


n  
X k
|Bn (p) − f (p)| ≤ f − f (p) b(k, n, p)
n
k=0

En esta suma separamos dos partes, la suma sobre los k donde |k/n − p| ≤ δ (con el δ dado
por la continuidad uniforme), y la parte donde |k/n − p| > δ.
La primer parte la acotamos, fácilmente:
 
X k X
f − f (p) b(k, n, p) ≤ ε b(k, n, p) ≤ ε
n
k:|k/n−p|≤δ k:|k/n−p|≤δ

pues los b(k, n, p) suman 1.


La otra parte de la suma la acotamos usando nuestra estimación de las colas de la
distribución binomial:3
 
X k X 2M
f − f (p) b(k, n, p) ≤ 2M b(k, n, p) < <ε
n 4nδ 2
k:|k/n−p|>δ |k/n−p|>δ

si n ≥ n0 (ε). En consecuencia, |Bn (p) − f (p)| < 2ε si n ≥ n0 (ε), para todo p ∈ [0, 1]. Esto
concluye la prueba del teorema de Weierstrass.

3.10. Otras distribuciones relacionadas con los ensayos de


Bernoulli
Distribución Geométrica
Supongamos que realizamos una secuencia infinita de ensayos de Bernoulli, con proba-
bilidad de éxito p. Sea T1 la cantidad de ensayos que tenemos que realizar hasta obtener el
primer éxito (esto generaliza el ejemplo de la página 35 que corresponde al caso p = 1/2.).
Entonces, si T1 = k significa que los primeros k − 1 ensayos fueron fracasos y el k-ésimo
fue un éxito, y como los ensayos son independientes obtenemos como antes que:

P {T1 = k} = q k−1 p = (1 − p)k−1 p


3
Si en lugar de utilizar la desigualdad de Chebyshev, utilizamos otra herramienta de probabilidades
conocida como la “teoría de grandes desviaciones”, es posible obtener una acotación más precisa del error
de aproximar f por Bn . Ver el artículo [GP97] citado en la bibliografía
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 66

(y T1 = +∞ con probabilidad cero). Esta distribución se conoce con el nombre de


distribución geométrica de parámetro p.
Notación: X ∼ Ge(p) significa que X se distribuye con la distribución geométrica de
parámetro p.

Figura 3.4: La distribución geométrica con p = 0,1.

Con una cuenta análoga a la que hicimos antes para el caso p = 1/2 podemos probar
que E[X] = p1 .
La función generatriz de la distribución de probabilidades de X se obtiene justamente
sumando una serie geométrica:

pz 1
si |z| < (3.11)
X
gX (z) = q k−1 pz k =
1 − qz q
k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 67

Distribución binomial negativa


Más generalmente podemos considerar la variable Tr definida como el número de ensayos
que tenemos que realizar hasta obtener r éxitos. Queremos calcular la distribución de Tr :
Para ello notamos que,
Tr = E1 + E2 + . . . + Er
donde E1 = T1 y Ej = número de ensayos que debemos realizar después del éxito j − 1
para obtener el siguiente éxito. Notamos que las variables Ej son independientes (ya que
el tiempo que tenemos que esperar para obtener el siguiente éxito después de obtener j − 1
éxitos no depende de cuánto tardamos en obtener j éxitos) y que por la discusión anterior,
cada Ej tiene distribución geométrica de parámetro p.
Podemos entonces calcular la distribución de Tr utilizando el método de las funciones
generatrices, ya que por la independencia de las Ej , la función generatriz de la distribución
de probabilidades de Tr es:
 r
pz
gTr (z) = gE1 (z)gE2 (z) · · · gEr (z) =
1 − qz
Por lo tanto, utilizando el desarrollo del binomio (1 − qz)−r y haciendo el cambio de
índice k = j + r,
∞   ∞  
r
X −r j
X −r
gTr (z) = (pz) (−qz) = pr (−q)k−r z k
j k−r
j=0 k=r

En consecuencia,
 
−r
P {Tr = k} = pr (−q)k−r (k = r, r + 1, . . .)
k−r

Notamos que:
 
−r (−r)(−r − 1)(−r − 2) . . . (−r − (k − r) + 1)
=
k−r (k − r)!
r(r + 1)(r + 2) . . . (k − 1)
= (−1)k−r
(k − r)!
(k − 1)!
= (−1)k−r
(r − 1)!(k − r)!
 
k−r k−1
= (−1)
r−1

pues (k − 1) − (r − 1) = k − r.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 68

Entonces alternativamente podemos escribir:


 
k−1
P {Tr = k} = pr q k−r (k = r, r + 1, . . .)
r−1

Notación: X ∼ BN (r, p)
Falta: distribucion hipergeometrica

Distribución Multinomial
Es una generalización de la distribución binomial donde consideramos experimentos
con muchos varios posibles, en lugar de un experimento con sólo dos resultados.
Consideramos un experimento con N resultados posibles, y supongamos que la pro-
babilidad de que ocurra el i-ésimo resultado en una realización del experimento es pi , de
modo que:
N
X
pi = 1
i=1
Supongamos que repetimos el experimento n veces en condiciones independientes, y
llamemos Xi a la cantidad de veces que ocurre el i-ésimo resultado, de modo que:

X1 + X2 + . . . + XN = n
Entonces, la distribución de probabilidades conjunta de las Xi viene dada por:

n!
P {X1 = k1 , X2 = k2 , . . . , XN = kN } = pk1 pk2 . . . pkNN (3.12)
k1 !k2 . . . kN ! 1 2
si k1 +k2 +. . .+kN = N (y cero en caso contrario). Notamos que X = (X1 , X2 , . . . , XN )
es un vector aleatorio N -dimensional.
Notación: X ∼ M(n, p1 , p2 , . . . , pN )
Esta distribución recibe este nombre, debido a su relación con el desarrollo multinomial:
X n!
(x1 + x2 + . . . + xN )n = xk1 xk2 . . . xkNN
k1 !k2 . . . kN ! 1 2
kN :k1 +k2 +...+kN =n
0≤ki ≤n

(Tomando xi = pi se ve que las probabilidades en (3.12) suman 1, por lo que se trata


efectivamente de una distribución de probabilidades).

Una propiedad interesante de la distribución multinomial es que las distribuciones de


cada una de las Xi por separado (distribuciones marginales) son binomiales:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 69

Proposición 3.10.1 Si X ∼ M(n, p1 , p2 , . . . , pN ), entonces

Xi ∼ Bi(n, pi ) 0≤i≤N

Prueba: Por simetría, basta verlo para la distribución de X1 . Si 0 ≤ k1 ≤ n,


X
P {X1 = k1 } = P {X1 = k1 , X2 = k2 , . . . , XN = kN }
kN :k2 +...+kN =n−k1
0≤ki ≤n
X n!
= pk1 pk2 . . . pkNN
k1 !k2 . . . kN ! 1 2
kN :k2 +...+kN =n−k1
0≤ki ≤n
n! X (n − k1 )! k2
= pk1 p . . . pkNN
k1 !(n − k1 )! 1 k2 ! . . . k N ! 2
kN :k2 +...+kN =n−k1
0≤ki ≤n
n!
= pk1 (p2 + p3 + . . . + pN )n−k1
k1 !(n − k1 )! 1
n!
= pk1 (1 − p1 )n−k1
k1 !(n − k1 )! 1

luego
X1 ∼ Bi(n, p1 )

Capítulo 4

Distribuciones Continuas

4.1. Variables aleatorias continuas


En este capítulo estudiaremos variables aleatorias no discretas, en particular variables
continuas. La idea básica es la misma que antes: una variable aleatoria es un número
asociado al resultado de un experimento aleatorio, por lo que será una función X definida
sobre el espacio muestral Ω. Nuevamente, hay un requerimiento técnico, derivado del hecho
de que en general no resulta posible asignar probabilidades a todas las partes de Ω; a
saber que podamos calcular las probabilidades asociadas a dicha función. En el caso de
variables discretas, pedíamos que estuvieran definidas las probabilidades de que X tome un
determinado valor. En el caso de variables no discretas, esto no será suficiente: requeriremos
que podamos calcular la probabilidad de que el valor de X caiga en un intervalo dado de
la recta.
Definición 4.1.1 Sea (Ω, E, P ) un espacio de probabilidad. Una variable aleatoria será
una función X : Ω → R = R ∪ {±∞}, con la siguiente propiedad: para cualquier intervalo
de la recta (a, b] (a, b ∈ R) la preimagen X −1 (a, b] = {ω ∈ Ω : a < X(ω) ≤ b} pertenece a
E, es decir está definida la probabilidad P (X −1 (a, b]) = P {a < X ≤ b} de que X tome un
valor entre a y b.
Observación: En análisis real, el concepto análogo es el de función medible (ver apén-
dice D).
Definición 4.1.2 Diremos que la variable X es (absolutamente) continua si existe una
función integrable1 no negativa f : R → R≥0 tal que
Z b
P {a < X ≤ b} = f (x) dx
a
1
Quiere decir que en algún sentido sea posible calcular la integral de f sobre un intervalo de la recta. Los
que no conozcan la teoría de la integral de Lebesgue pueden pensar integrable Riemann, los que cursaron
análisis real pueden pensar que es integrable Lebesgue

70
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 71

La función f debe verificar que:


Z ∞
f (x) dx = 1
−∞

Se dice que f se distribuye según la densidad de probabilidades f (x) (o que f es la


densidad de probabilidad de X). A veces se nota, X ∼ f (x).

Definición 4.1.3 Si X : Ω → R es una variable aleatoria, su función de distribución2 será


la función F : R → R dada por:

FX (x) = P {X ≤ x}

Si X es absolutamente continua, y se distribuye según la densidad f (x) tendremos:


Z x
FX (x) = f (t) dt
−∞

Ejemplo 4.1.4 Variables aleatorias discretas: Sea X una variable aleatoria discreta
que toma una sucesión a lo sumo numerable de valores (xi ). Entonces, X es una variable
aleatoria de acuerdo a nuestra nueva definición (es decir, realmente estamos extendiendo
el concepto) ya que:
[
{ω ∈ Ω : a < X(ω) ≤ b} = {ω ∈ Ω : X(ω) = xi }
a<xi ≤b

Por definición de variable aleatoria discreta, {ω ∈ Ω : X(ω) = xi } ∈ E, y como siendo


la clase E una σ-álgebra, es cerrada por uniones numerables, deducimos que {ω ∈ Ω : a <
X(ω) ≤ b} ∈ E.
La función de distribución de X viene dada por la función “en escalera”
X
FX (x) = P {X = xi }
xi <x

que tiene un salto de magnitud pi = P {X = xi } en el punto xi (y que es constante en cada


intervalo entre dos xi ).

Ejemplo 4.1.5 Volvamos a considerar el experimento de elegir un número real en el


intervalo [0, 1] con distribución uniforme. Sea X el número obtenido.
Que lo elegimos con distribución uniforme significa que para cualquier intervalo I ⊂
[0, 1], postulamos que
P {X ∈ I} = |I|
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 72

Figura 4.1: La función de distribución de una variable aleatoria con distribución uniforme
en el intervalor [0, 1].

donde |I| representa la medida del intervalo.


Entonces la función de distribución de X viene dada por:

si x < 0

 0
FX (x) = x si 0 ≤ x ≤ 1
1 si x > 1

X es una variable absolutamente continua con densidad,

1 si x ∈ [0, 1]

fX (x) =
0 si x 6∈ [0, 1]

Notación: Notamos X se distribuye uniformemente en el intervalo [0, 1] del siguiente


modo: X ∼ U (0, 1).
Más generalmente si [a, b] es un intervalo de la recta, decimos que X tiene distribución
uniforme en el intervalo [a, b] (Notación: X ∼ U (a, b)) si para cualquier intervalo I ⊂ [a, b]
la probabilidad de que X pertenezca a I es proporcional a la medida de I, es decir:

|I|
P {X ∈ I} =
b−a
En este caso, la función de distribución es:

0 si x < a


FX (x) = (x − a)/(b − a) si a ≤ x ≤ b
1 si x > b

2
También llamada a veces función de distribución acumulada en la literatura.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 73

y la función de densidad es,


1
si x ∈ [a, b]

fX (x) = b−a
0 si x ∈
6 [a, b]

Ejemplo 4.1.6 Decimos que X tiene distribución normal, y lo notaremos X ∼ N (µ, σ 2 ),


si su función de densidad de probabilidad viene dada por:
1 2 2
fX (x) = √ e−(x−µ) /(2σ )
σ 2π
donde µ, σ son dos parámetros reales con σ > 0. El caso µ = 0, σ = 1, es decir N (0, 1), se
conoce como distribución normal estándar.

Figura 4.2: La densidad normal estándar

Si X ∼ N (0, 1), la función de distribución de X será la función:


Z x
1
(4.1)
2 2
FX (x) = √ e−(t−µ) /(2σ ) dt
σ 2π −∞
Veremos en el capítulo 11 que la distribución normal resulta útil por ejemplo para aproximar
la distribución binomial, del número Sn de éxitos en n ensayos de Bernoulli, cuando el
número de ensayos es grande. Más generalmente, se puede usar para aproximar la suma
de muchas variables aleatorias independientes cada una de las cuáles hace una pequeña
contribución a la varianza de la suma (Este es el contenido del Teorema del Límite Central
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 74

que veremos en dicho capítulo). Como consecuencia, esta distribución juega un papel central
en estadística. Se conoce también como distribución de Laplace o de Gauss.
Muchas ejemplos de datos reales se ajustan muy bien a esta distribución. Un ejemplo
clásico es la altura en la población humana [MRR13].

Figura 4.3: La función de distribución de una variable con distribución normal estándar

4.1.1. Propiedades de las funciones de distibución


El siguiente lema nos dice que propiedades tienen las funciones de distribución:

Lema 4.1.7 Sea X : Ω → R una variable aleatoria y F = FX su función de distribución.


Entonces F tiene las siguientes propiedades:
i) 0 ≤ F (x) ≤ 1 y F es creciente.

ii) F es continua por la derecha.

iii) F (x0 ) − lı́mx→x− F (x) = P {X = x0 } En particular, F es continua en x = x0 si y


0
sólo si P {X = x0 } = 0.

iv) Si X es finita con probabilidad 1 (o sea P {X = ±∞} = 0), entonces:

lı́m F (x) = 0
x→−∞

lı́m F (x) = 1
x→+∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 75

Observación 4.1.8 La propiedad iii) significa que los saltos de una función de distribución
nos indican cuando la probabilidad se concentra en un punto dado x0 , y que la magnitud
del salto nos dice cuanta probabilidad se concentra en ese punto x0 .

Prueba: i) Que 0 ≤ F (x) ≤ 1 es obvio por ser F (x) una probablidad. Si x1 ≤ x2 tenemos
que: {X ≤ x1 } ⊂ {X ≤ x2 }, y en consecuencia F (x1 ) ≤ F (x2 ).
ii) Sea x0 ∈ R y consideremos una sucesión decreciente (xn )n∈N > x0 que converja a
x0 . Entonces, \
{X ≤ x0 } = {X ≤ xn }
n∈N

Es la intersección de una familia decreciente numerable de eventos. Entonces, por las pro-
piedades de continuidad de la probabilidad:

P {X ≤ x0 } = lı́m P {X ≤ xn }
n→+∞

Es decir que:
F (x0 ) = lı́m F (xn )
n→+∞

Y como esto vale para toda sucesión (xn ) > x0 decreciente, que converja a x0 deducimos
que:
F (x0 ) = lı́m F (x)
x→x+
0

Es decir, que F es continua por la derecha.


iii) Análogamente, sea x0 ∈ R y tomemos una sucesión creciente (xn )n∈N < x0 que
converja a x0 . Ahora tenemos que,
[
{X < x0 } = {X ≤ xn }
n∈N

Entonces, aplicando nuevamente las propiedades de continuidad de la probabilidad:

P {X < x0 } = lı́m P {X ≤ xn }
n→+∞

Es decir que:
P {x < x0 } = lı́m F (xn )
n→+∞

Como esto valle para toda sucesión (xn )n∈N < x0 que converja a x0 , deducimos que:

lı́m F (x) = P {X < x0 }


x→x−
0

En consecuencia,

F (x0 ) − lı́m F (x) = P {X ≤ x0 } − P {X < x0 } = P {X = x0 }


x→x−
0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 76

En particular, F será continua por la izquierda en x0 (y por lo tanto continua en x0 ) si y


sólo si P {X = x0 } = 0.
iv) Es análoga tomando sucesiones crecientes (decrecientes) tales que xn → ±∞. 

Observación 4.1.9 Es posible probar que estas propiedades caracterizan a las funciones
de distribución, en el sentido de que cualquier función F con estas propiedades será la
función de distribución de alguna variable aleatoria X. (ver la observación 4.4.4)

Observación 4.1.10 Es útil observar que como consecuencia de estas propiedades, los
puntos de discontinuidad de una función de distribución son a lo sumo numerables. (Esto
se prueba observando que para cada k, sólo puede haber a lo sumo k puntos donde el salto
de la función de distribución sea mayor que 1/k).

4.2. La integral de Riemann-Stieltjes y la definición de es-


peranza
La integral de Riemann-Stieltjes es una generalización de la integral de Riemann. Stielt-
jes observó que cualquier función creciente F : R → R origina una noción de medida de
intervalos,

mF ((a, b]) = F (b) − F (a)


Para las aplicaciones a la teoría de probabilidades, nos interesa el caso en que F es la
función de distribución de una variable aleatoria.
Stieltjes definió la integral
Z b
ϕ(x) dF (x) (4.2)
a
generalizando la definición de la integral de Riemann de la siguiente manera: sea

π : a = x0 < x 1 < x 2 < . . . < x n = b


una partición del intervalo (a, b] (Dar una partición no es otra cosa que elegir finitos
puntos del intervalo en orden creciente) y elijamos puntos intermedios ξi ∈ (xi , xi+1 ] en
cada intervalito de la partición (En realidad, estamos trabajando con particiones con puntos
marcados, pero no lo haremos explícito en la notación). Consideramos entonces las sumas
de Riemann-Stieltjes
n−1
X
Sπ (ϕ, F ) = ϕ(ξ)(F (xi+1 ) − F (xi ))
i=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 77

Definición 4.2.1 Diremos que la integral (4.2) existe y toma el valor I ∈ R si las sumas
Sπ (ϕ, F ) tienden al valor I cuando la norma

|π| = máx |xi+1 − xi |


0≤i≤n−1

de la partición π tiende a cero, es decir si dado ε > 0, existe δ > 0 tal que |I − Sπ (ϕ, F )| <
ε para toda partición π con |π| < δ.

Observemos que si F (x) = x, la integral de Riemann-Stieltjes se reduce a la integral de


Riemann usual.
Algunas propiedades de la integral que son consecuencias más o menos inmediatas de
las definiciones:

Lema 4.2.2 (Linealidad) 1. Si a ϕ1 (x)dF (x) y a ϕ2 (x)dF (x) existen, y ϕ = λ1 ϕ1 +


Rb Rb

λ2 ϕ2 entonces, a ϕ(x) dF (x) también existe, y tenemos que:


Rb

Z Z b Z b
ϕ(x) dF (x) = λ1 ϕ1 (x) dF (x) + λ2 ϕ2 (x) dF (x)
a a

2. Si a ϕ(x) dF1 (x) y a ϕ(x) dF2 (x) existen, y F = λ1 F1 + λ2 F2 con λ1 , λ2 ≥ 0,


Rb Rb

entonces a ϕ(x) dF existe, y vale que:


Rb

Z b Z b Z b
ϕ(x) dF (x) = λ1 ϕ(x) dF1 (x) + λ2 ϕ(x) dF2 (x)
a a a

Lema 4.2.3 (Aditividad respecto al intervalo) Sea c ∈ (a, b]. Si a ϕ(x) dF (x) exis-
Rb

te, entonces también existen a ϕ(x) dF (x) y c ϕ(x) dF (x) y se verifica:


Rc Rb

Z b Z c Z b
ϕ(x) dF (x) = ϕ(x) dF (x) + ϕ(x) dF (x)
a a c

El siguiente teorema nos da una condición que permite garantizar la existencia de


integrales de Riemann-Stieltjes:

Teorema 4.2.4 Si ϕ : [a, b] → R es continua, y si F : [a, b] → R es creciente, entonces la


integral de Riemann-Stieltjes
Z b
ϕ(x) dF (x)
a
existe

Para la prueba, veáse el apéndice F.


El siguiente lema, nos dice cómo acotar una integral de Stieltjes:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 78

Lema 4.2.5 Supongamos que a ϕ(x) dF (x) existe, siendo ϕ una función acotada en [a, b]
Rb

y F creciente en [a, b]. Entonces,


!
Z b
ϕ(x) dF (x) ≤ sup |ϕ(x)| (F (b) − F (a))
a x∈[a,b]

Obs: Más generalmente se puede demostrar que la integral de Riemann-Stieltjes


Z b
ϕ(x) dF (x)
a

existe si ϕ(x) es continua en [a, b] y F es de variación acotada (ya que toda función de
variación acotada se puede escribir como diferencia de dos funciones crecientes). En este
caso, la integral se acota del siguiente modo:
!
Z b
ϕ(x) dF (x) ≤ sup |ϕ(x)| Vab (F )
a x∈[a,b]

4.3. La definición de Esperanza


Veamos como se aplican las integrales de Riemann-Stieltjes a la teoría de probabilidades.
Para ello consideremos una variable aleatoria, X : Ω → R no discreta y veamos como
podríamos definir la esperanza de X. Supongamos por simplicidad primero que X toma
valores en un cierto intervalo (a, b] de la recta.
Entonces, si tomamos una partición π del intervalo (a, b] (con puntos marcados como
antes), podemos considerar una variable aleatoria Xπ que aproxima a X del siguiente modo:

Xπ = ξi si X ∈ (xi , xi+1 ]
Entonces:
n−1
X n−1
X
E[Xπ ] = ξi · P {Xπ = ξi } = ξi · P {xi < X ≤ xi+1 }
i=0 i=0
n−1
X
= ξi · (F (xi+1 ) − F (xi ))
i=0
es exactamente la suma de Riemann-Stieltjes Sπ (ϕ, F ) con ϕ(x) = x.
Entonces cuando la norma de la partición tiende a cero, E[Xπ ] tiende a la integral
Z b
x dF (x)
a
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 79

(que de acuerdo al teorema anterior siempre existe), y podemos aceptar la siguiente


definición:

Definición 4.3.1 Sea X una variable aleatoria que tome valores en un intervalo [a, b] de
la recta, entonces la esperanza de X es la integral de Riemann-Stieltjes
Z b
E[X] = xdF (x) (4.3)
a
siendo F = FX su función de distribución.

Más generalmente podemos considerar la variable aleatoria ϕ(x) siendo ϕ : R → R una


función continua, entonces:

n−1
X
E[ϕ(Xπ )] = ϕ(ξi ) · P {Xπ = ξi }
i=0
n−1
X
= ϕ(ξi ) · P {ξi < X ≤ ξi+1 }
i=0
n−1
X
= ϕ(ξi ) · (F (xi+1 ) − F (xi ))
i=0

Entonces, cuando la norma de la partición π tiende a cero, estas sumas convergen a la


integral:
Z b
ϕ(x) dF (x)
a
y conjeturamos que
Z b
E[ϕ(X)] = ϕ(x) dF (x) (4.4)
a
para toda función continua ϕ ∈ C[a, b] (aunque demostrar esto directamente de la definición
es bastante complicado).
En particular,
Z b
Var(X) = E[(X − µ) ] =
2
(x − µ)2 dF (x)
a
siendo µ = E[X].
Veamos algunos ejemplos, para familiarizarnos con esta idea:
Ejemplo 1: Para x0 ∈ R, definimos la función escalón de Heaviside:

0 si x < x0

Hx0 (x) =
1 si x ≥ x0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 80

Hx0 es la función de distribución de una variable aleatoria X que toma el valor x0 con
probabilidad 1. Entonces tenemos:

Lema 4.3.2 Si x0 ∈ [a, b] y ϕ ∈ C[a, b], entones:


Z b
ϕ(x)dHx0 = ϕ(x0 )
a

Prueba: En Sπ (ϕ, F ) el único término no nulo corresponde al intervalo [xi , xi+1 ] que
contiene a x0 , en consecuencia:
Sπ (ϕ, F ) = ϕ(ξi )
y cuando |π| → 0, ϕ(ξi ) → ϕ(x0 ), por la continuidad de ϕ. 
Luego E[ϕ(X)] = ϕ(x0 ).
Ejemplo 2: Variables aleatorias discretas
Si X es una función de distribución de una variable discreta que toma finitos valores
x1 , x2 , . . . , xn con probabilidad pi = P {X = xi }, tenemos que:
n
X
F (x) = pi Hxi (x)
i=1
En consecuencia, por la linealidad de la integral de Riemann-Stieltjes respecto a F :
Z b n
X Z b n
X
E[ϕ(X)] = ϕ(x)dF (x) = pi ϕ(x)dHxi = pi ϕ(xi )
a i=0 a i=1
(donde a ≤ xi ≤ b ∀ i). Este resultado coincide con la fórmula anteriormente vista para
E[ϕ(X)] para variables discretas.
Ejemplo 3: Variables aleatorias absolutamente continuas Supongamos que X
es una variable aleatoria continua, que tiene la densidad f (x). Queremos calcular E[X].
Para ello, resultará útil el siguiente lema:

Lema 4.3.3 Supongamos que F : [a, b] → R es una función creciente con derivada continua
F 0 (x) = f (x), entonces
Z b Z b
ϕ(x) dF (x) = ϕ(x) f (x) dx
a a
para toda función ϕ ∈ C[a, b].

Prueba: Por el teorema del valor medio, F (xi+1 ) − F (xi ) = f (ξi )(xi+1 − xi ) para cierto
ξi ∈ (xi , xi+1 ). Entonces, con esta elección de los puntos intermedios, la suma Sπ se puede
escribir como
n−1
X
Sπ = ϕ(ξi )f (ξi )(xxi+1 − xi )
i=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 81

y vemos que cuando la norma de la partición π tiende a cero, tiende a la integral de


Riemann Z b
ϕ(x) f (x) dx
a

En particular, podemos definir la esperanza de una variable aleatoria con densidad
continua f (x) por:
Z b
E[X] = x f (x)dx
a
y más generalmente,
Z b
E[ϕ(X)] = ϕ(x) f (x) dx
a
En particular:
Z b
Var(X) = E[(x − µ)2 ] = (x − µ)2 dx
a
siendo µ = E[X].
Un ejemplo: Si consideramos X una variable con distribución uniforme en el intervalo
[a, b] entonces su densidad es:
1
f (x) =
b−a
Con lo que
Z b
a+b
µ = E(X) = xf (x) dx =
a 2
y
a+b 2
Z b 
1
VarX = x− f (x) dx = (b − a)2
a 2 12
¿Qué sucede si X no es una variable aleatoria acotada? En este caso debemos considerar
integrales de Riemann-Stieltjes impropias, de la forma:
Z ∞
ϕ(x) dF (x)
−∞
Naturalmente definimos esta integral, de la siguiente manera:
Z ∞ Z b
ϕ(x) dF (x) = lı́m ϕ(x) dF (x)
−∞ a→−∞,b→+∞ a

El problema es que este límite puede no existir. Si ϕ es no negativa, podemos decir que
siempre existe, pero puede valer +∞. Adoptaremos pues la siguiente definición.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 82

Definición 4.3.4 Sea X : Ω → R una variable aleatoria, y sea F = FX su función de


distribución. Diremos que X tiene esperanza finita, o que X es integrable, si
Z ∞
|x| dF (x) < +∞
−∞

En ese caso, definimos: Z ∞


E[X] = x dF (x) (4.5)
−∞

Más generalmente, tenemos la fórmula3 :


Z ∞
E[ϕ(X)] = ϕ(x) dF (x) (4.6)
−∞

válida si Z ∞
|ϕ(x)| dF (x) < +∞
−∞
análoga a la proposición 3.2.4. Y cuando X tiene una densidad continua,
Z ∞
E[ϕ(X)] = ϕ(x) f (x) dx
−∞

Ejemplo: Supongamos que X se distribuye según la densidad normal N (µ, σ 2 ). En-


tonces, haciendo el cambio de variable y = x−µ σ , econtramos que
Z ∞ Z ∞
1 −(x−µ)2 /(2σ 2 ) 1 2
E[X] = √ xe dx = √ (µ + σy) e−y /2 dy
σ 2π −∞ 2π −∞
 Z ∞   Z ∞ 
1 −y 2 /2 1 −y 2 /2
=µ √ e dy + σ √ ye dy = µ
2π −∞ 2π −∞
[La segunda integral se anula, pues la densidad normal estándar es una función par]. Simi-
larmente,
Z ∞ Z ∞
1 1
Var(X) = √ 2 −(x−µ)2 /(2σ 2 ) 2
(x − µ) e dx = √ σ 2 y 2 e−y /2 dy
σ 2π −∞ 2π −∞
Para calcular esta integral, observamos que:
 2 0 2
e−y /2 = (−y)e−y /2
3
Sin embargo es complicado justificar esto directamente a partir de la definición (4.5), pues no es sencillo
en general establecer cuál es la relación general entre las funciones de distribución Fϕ(X) y FX . En la
observación 4.4.3 consideraremos el caso de un cambio de variable estrictamente creciente y biyectivo. Una
justificación rigurosa de su validez en general se da en el apéndice D, pero utilizando herramientas de la
teoría de la integral de Lebesgue.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 83

e integramos por partes, deducimos que:


Z ∞
1
Var(X) = σ 2 √
2 /2
e−y dy = σ 2
2π −∞

Este ejemplo aclara el significado de los parámetros de la distribución normal.


Ejercicio: Se dice que la variable aleatoria tiene distribución exponencial Exp(λ) (don-
de λ > 0) cuando su densidad de probabilidad es

fX (x) = λe−λx I(0,+∞) (x) (4.7)

Demostrar que entonces


1 1
E(X) = Var(X) = 2
λ λ
Un ejemplo de una variable aleatoria que no es continua ni discreta: Sea
X una variable aleatoria con distribución uniforme en el intervalo [0, 1] y consideramos
Y = máx(X, 1/2), entonces:

1/2 si X ≤ 1/2

Y =
X si X > 1/2
Calculemos la función de distribución de Y :

FY (x) = P {Y ≤ x} = P {X ≤ x ∧ 1/2 ≤ x}

Deducimos que:
P (∅) = 0 si x < 1/2


FY (x) = P {X ≤ x} = x si 1/2 ≤ x ≤ 1
1 si x > 1

Deducimos que Y no es una variable discreta ya que FY no es una función escalera, y


que tampoco Y es una variable absolutamente continua ya que FY no es continua.
Calculemos la esperanza de Y , esto puede hacerse de varias formas, por ejemplo usando
la aditividad con respecto al intervalo de integración:
Z 1 Z 1/2 Z 1
E[Y ] = x dF (x) = x dF + x dF
0 0 1/2

En el intervalo cerrado [0, 1/2] la función F coincide con la función 12 H1/2 en consecuencia:
Z 1/2 Z 1/2
1 1
x dF = x dH1/2 =
0 2 0 4
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 84

Figura 4.4: La densidad exponencial con λ = 1 (gráfico de la función exponencial).

mientras que: Z 1 Z 1
1 1 3
x dF (x) = xdx = − =
1/2 1/2 2 8 8
pues en [1/2, 1] la función F (x) tiene derivada continua F 0 (x) = 1. Concluimos que:
1 3 5
E[Y ] = + =
4 8 8
Otra manera de hacer la cuenta es considerar la función de variable real ϕ(x) =
máx(x, 1/2) y utilizar la fórmula para E[ϕ(X)]:
Z 1 Z 1/2 Z 1
1 3 5
E[ϕ(X)] = máx(x, 1/2) dx = 1/2 dx + x dx = + =
0 0 1/2 4 8 8
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 85

Figura 4.5: La función de distribución FY en este ejemplo

Ejercicio: Supongamos que Z = mı́n(X, 1/2) donde X tiene distribución uniforme en


[0, 1]. Determinar la función de distribución FZ y la esperanza E(Z).

4.4. Cambios de variables unidimensionales


Consideremos primero un cambio de variable de la forma Y = ϕ(X) donde ϕ : R → R
es una función biyectiva y estrictamente creciente.
Entonces podemos facilmente relacionar las funciones de distribución de X e Y

FY (y) = P {Y ≤ y} = P {ϕ(X) ≤ y}
= P {X ≤ ϕ−1 (Y )(y)}
= FX (ϕ−1 (y)) (4.8)

En particular (derivando con la regla de la cadena), se deduce que si X admite una


densidad de probabilidad fX de clase C 1 , vemos que Y se distribuye según la densidad:

fY (y) = fX (ϕ−1 (y))[ϕ−1 ]0 (y) (4.9)


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 86

Ejemplo 4.4.1 Supongamos que X ∼ N (µ, σ 2 ) y hagamos un cambio de variable lineal,


Y = aX + b con a > 0. Esto corresponde a elegir
y−b
ϕ(x) = ax + b ⇒ ϕ−1 (y) =
a
Entonces según la fórmula (4.9), tenemos que
 
1 y−b
fY (y) = fX
a a

En particular en este ejemplo:


  2 
y−b
a −µ
( )
(y − (aµ + b))2
 
1   1
fY (y) = √ exp − = √ exp −
aσ 2π 
 2σ 2  aσ 2π
 2(aσ)2

Concluimos que Y ∼ N (aµ + b, a2 σ 2 ).

Ejemplo 4.4.2 (La distribución log-normal) Supongamos que X ∼ N (µ, σ 2 ). ¿Cuál


es la distribución de Y = eX ?. Tomamos ϕ(x) = ex , ϕ : R → R>0 es biyectiva y su inversa
es ϕ−1 (y) = log y. ϕ−1 : R>0 → R. Recordamos que
1
fY (y) = fX (ϕ−1 (y)) · (ϕ−1)0 (y) = fX (x) donde x = ϕ−1 (y)
ϕ0 (x)

Como ϕ(x) = elog y = y, encontramos que

(ln y − µ)2
 
1
fY (y) = √ exp − y>0
σy 2π 2σ 2
Esta distribución se llama así porque si Y tiene distribución log-normal, entonces
log Y = X tiene distribución normal.

Observación 4.4.3 Como otra aplicación, podemos dar una justificación rigurosa de la
fórmula (4.6) para el caso en que ϕ : R → R es biyectiva y estrictamente creciente. En
efecto, en este caso, y llamamos Y = ϕ(X), haciendo el cambio de variable y = ϕ(x) en la
integral de Stieltjes y teniendo en cuenta que entonces FY (y) = FX (x) por 4.8, obtenemos
que:

Z Z ∞
E[Y ] = y dFY (y) = ϕ(x) dFX (x)
−∞ −∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 87

La situación es bastante más compleja si admitimos cambios de variables que no son


monótonos o biyectivos.
Consideremos por ejemplo el cambio de variable Y = X 2 . Entonces para z > 0 tenemos
que:
√ √ √
FY (y) = P {X 2 ≤ y} = P {|X| ≤ y} = P {− y ≤ X ≤ y} =
√ √ √ √
P {X ≤ y} − P {Z < − y} = FX ( y) − FX (− y − )
mientras que claramente FY (y) = 0 si y < 0.
En particular si X es una variable absolutamente continua con densidad fX , encontra-
mos (derivando como antes) que:
1 √ √
fY (y) = √ [fX ( y) + fX (− y)] (y > 0) (4.10)
2 y

Observación 4.4.4 Una aplicación importante de los cambios de variables es la simula-


ción de distribuciones de probabilidad. En general, una computadora sabe generar números
pseudo-aleatorios, que simulan la distribución uniforme en el intervalo [0, 1]. Si queremos
generar a partir de ellos números pseudo-aleatorios que simulen la distribución F , se nos
plantea el problema siguiente

Dada una función de distribución F : R → [0, 1] (con las propiedades del lema
4.1.7) y si X ∼ U(0, 1), ¿cómo .podemos obtener otra variable aleatoria con
distribución F ?

Conforme a la fórmula 4.8, si F es continua (sin saltos) y estrictamente creciente,


podemos tomar Y = F −1 (X) donde F −1 denota la inversa de F . Cuando F no cumple
estas hipótesis, es posible hacer lo mismo, pero considerando la inversa generalizada de F
definida por
F −1 (y) = mı́n{x ∈ R : F (x) ≥ y}

4.5. Suma de variables aleatorias independientes


Nuestro siguiente objetivo será extender a variables no discretas la noción de indepen-
dencia:

Definición 4.5.1 Dos variables aleatorias X e Y se dicen independientes, cuando para


todo a < b y todo c < d los eventos {X ∈ (a, b]} e {Y ∈ (c, d]} son independientes. Es decir
(en virtud de la definición de eventos independientes), si vale que:
P {a < X ≤ b, c < Y ≤ d} = P {a < X ≤ b} · P {c < Y ≤ d}
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 88

Lema 4.5.2 Sean X e Y variables aleatorias independientes con funciones de distribución


FX y FY . Entonces Z = X + Y tiene la función de distribución
Z ∞
FZ (z) = FX (z − x) dFY (x)
−∞

Prueba: Aproximamos X por una variable aleatoria discreta Xπ . Suponemos primero que
X está concentrada en un intervalo (a, b] y y consideramos una partición π : x0 = a < x1 <
. . . < xn = b de (a, b] con puntos marcados ξk ∈ (xk−1 , xk ]. Definimos

Xπ = ξk si X ∈ (xk , xk+1 ]

Sea Zπ = Xπ + Y .

FZπ (z) = P {Zπ ≤ z} = P {Xπ + Y ≤ z}


X
= P {Xπ + Y ≤ z/Xπ = ξk } · P {Xπ = ξk }
k
X
= P {Y ≤ z − ξk } · P {Xπ = ξk }
k
X
= FY (z − ξk ) · P {xk < X ≤ xk+1 }
k
X
= FY (z − ξk ) · [FX (xk+1 ) − FX (xk )]
k

Esta es una suma de Riemann-Stieltjes y en el límite se obtiene el enunciado. 


Derivando obtenemos:

Corolario 4.5.3 Sean X e Y variables aleatorias independientes. Si X es una variable


continua con densidad fX y Y es una variable aleatoria cualquiera con función distribución
FY entonces Z = X + Y es una variable continua con densidad
Z ∞
fZ (z) = fX (z − x) dFY (x)
−∞

Definición 4.5.4 Sean f, g : R → R funciones integrables. Definimos su convolución


f ∗ g de la siguiente manera:
Z ∞
(f ∗ g)(x) = f (t) g(x − t) dt
−∞

Algunas Observaciones sobre la convolución:


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 89

1. La convolución es conmutativa:

f ∗g =g∗f

También es posible probar que es asociativa:

(f ∗ g) ∗ h = f ∗ (g ∗ h)

2. Si f y g son densidades de probabilidad, entonces f ∗ g también lo es.

3. Si f y g están soportadas en la semirrecta [0, +∞) (es decir: f (t) = g(t) = 0 si t < 0),
entonces:
Z x
(f ∗ g)(x) = f (t) g(x − t) dt
0

Corolario 4.5.5 Sean X e Y variables aleatorias independientes. Si X es una variable


continua con densidad fX y Y es una variable aleatoria continua con densidad fY entonces
Z = X + Y es una variable continua con densidad dada por la convolución fX ∗ fY :
Z ∞
fZ (z) = fX (z − x) · fY (y) dy
−∞

4.5.1. Suma de variables normales independientes


Proposición 4.5.6 Si X ∼ N (0, σ12 ) e Y ∼ N (0, σ22 ) son variables aleatorias independien-
tes, entonces X + Y ∼ N (0, σ12 + σ22 )

Prueba: Aplicamos el corolario 4.5.5 con


1 2 /(2σ 2 ) 1 2 /(2σ 2 )
f (x) = √ e−x 1 , g(x) = √ e−x 2
σ1 2π σ2 2π
Entonces X ∼ f ∗ g, donde
Z ∞
1 2 2 1 2 2
(f ∗ g)(x) = √ e−t /(2σ1 ) √ e−(x−t) /(2σ2 ) dt
−∞ σ1 2π σ2 2π
Z ∞  
1 1
= exp − A(x, t) dt
σ1 σ2 2π −∞ 2

donde
t2 (x − t)2
A(x, t) := +
σ12 σ22
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 90

Trabajemos con esta expresión, buscando completar el cuadrado:


t2 x2 − 2xt + t2
A(x, t) = +
σ12 σ22
2xt x2
 
2 1 1
=t + − + 2
σ12 σ22 σ22 σ2
σ 2 2xt x 2
= t2 2 2 − 2 + 2
σ1 σ2 σ2 σ2
siendo σ 2 = σ12 + σ22 .Luego
σ2 σ12 x2
 
2
A(x, t) = 2 2 t − 2xt 2 + 2
σ1 σ2 σ σ2

Y completando entonces el cuadrado:


" 2 #
σ2 σ2 σ 4 x2
A(x, t) = 2 2 t − x 12 − x2 14 + 2
σ1 σ2 σ σ σ2

o sea:
2 
σ2 σ12 σ12
 
1
A(x, t) = 2 2 t−x 2 + − x2
σ1 σ2 σ σ22 σ 2 σ22

Pero
1 σ12 σ 2 − σ12 σ22 1
2 − 2 2 = 2 2 = 2 2 = 2
σ2 σ σ2 σ σ2 σ σ2 σ
Con lo que nos queda finalmente que
2
σ2 σ2

1 2
A(x, t) = 2 2 t − x 12 + x
σ1 σ2 σ σ2
Sustituyendo
Z ∞ ( 2 )
x2 σ2 σ12
 
1
(f ∗ g)(x) = exp − 2 exp − 2 2 t − x 2 dt
σ1 σ2 2π 2σ −∞ 2σ1 σ2 σ

Sólo nos falta pues calcular la integral,


Z ∞ ( 2 )
σ2 σ12

I(x) = exp − 2 2 t − x 2 dt
−∞ 2σ1 σ2 σ
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 91

pero haciendo el cambio de variable

σ12
u=t−x
σ2
vemos que no depende en realidad de x, y es
Z ∞
σ2 2
 
I(x) = exp − 2 2 u du
−∞ 2σ1 σ2

Y haciendo un último cambio de variable


σ
v= u
σ1 σ2
nos queda que

v2 √
Z  
σ1 σ2 σ1 σ2
I(x) = exp − dv = 2π
σ −∞ 2 σ
Reemplazando nos queda que

x2
 
1
X + Y ∼ (f ∗ g)(x) = √ exp − 2
σ 2π 2σ

Es decir, que X + Y ∼ N (0, σ 2 ). 


Nota: Otra manera de demostrar este resultado sin hacer tantas cuentas aparece en
[Eis17]. Es una demostración muy corta y elegante, pero utiliza las ideas del capítulo
siguiente.

4.6. Las Distribuciones Gama


Definición 4.6.1 Definimos la función gama de Euler por
Z ∞
Γ(α) = xα−1 e−x dx (α > 0) (4.11)
0

Introducimos también la función Beta de Euler (íntimamente relacionada con la función


gama), definida para α1 , α2 > 0 por
Z 1
B(α1 , α2 ) = (1 − u)α1 −1 uα2 −1 du
0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 92

4.6.1. Análisis de la convergencia de la integral que define la función


gama
Para analizar la convergencia de la integral, la partimos en el 1
Z ∞ Z 1 Z ∞
α−1 −x α−1 −x
x e dx = x e dx + xα−1 e−x dx
0 0 1

Cuando x ≤ 1, acotamos usando e−x ≤ 1,


Z 1 Z 1 Z 1
1
xα−1 e−x dx ≤ xα−1 dx = lı́m xα−1 dx = si α > 0
0 0 r→0 r α
(esta integral es impropia cuando α < 1 pero converge).
Por otra parte para x ≥ 0 y cualquier k ∈ N vale la acotación,

X xj xk k!
ex = ≥ ⇒ e−x ≤ k
j! k! x
j=0

Luego si 0 < α < k tenemos


Z ∞ Z ∞ Z ∞
α−1 −x α−1 k! k!
x e dx ≤ x dx = k! xα−k−1 =
1 1 xk 1 k−α
Como para cada α > 0 podemos elegir un k de modo que α < k, deducimos que la integral
converge para todo α > 0.
Incluso sería posible considerar valores complejos de α, siempre que Re(α) > 0, pero
para los fines de esta materia nos bastará considerar valores reales de α.

4.6.2. Propiedades de la función gama


Proposición 4.6.2 La función gamma tiene las siguientes propiedades:
1. Γ(1) = 1

2. Γ(α + 1) = αΓ(α)

3. Γ(k) = (k − 1)! (En consecuencia, la función gama puede pensarse como una gene-
ralización del factorial a valores no enteros de la variable).

4. Γ(1/2) = π

Prueba:
La propiedad 1) es inmediata de la definición:
Z ∞ Z R
−x
Γ(1) = e dx = lı́m e−x dx = lı́m 1 − e−R = 1
0 R→+∞ 0 R→+∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 93

La propiedad 2) se prueba integrando por partes:


Z R
Γ(α + 1) = lı́m xα e−x dx
R→+∞
r→0+ r
Z R
= lı́m xα (−e−x )0 dx
R→+∞
r→0+ r
Z R
R
= lı́m − xα e−x 0
+ (xα )0 e−x dx
R→+∞
r→0+ r
Z R
α −R α −r
= lı́m −R e +r e + αxα−1 e−x dx
R→+∞
r→0+ r
Z ∞
=α xα−1 e−x dx
0
= αΓ(α)

La propiedad 3) Γ(k) = (k − 1)! se deduce entonces de las propiedades 1) y 2) por


inducción
Si k = 1 ya vimos que vale. El paso inductivo es:

Γ(k + 1) = kΓ(k) = k(k − 1)! = k!



La propiedad 4) sale con un cambio de variable: x = y 2 ⇒ y = x, dx = 2ydy
Z ∞ Z ∞ Z ∞
−1/2 −x 1 −y2 2 √
Γ(1/2) = x e dx = e 2ydy = 2 e−y dy = π
0 0 y 0

4.6.3. Las distribuciones gama


La función gama nos será útil para definir una familia de distribuciones de probabili-
dad4 :

Definición 4.6.3 Decimos que X se distribuye según la distribución gama Γ(α, λ) (siendo
α, λ > 0) si su función de densidad de probabilidad es:

λα α−1 −λx
fα,λ (x) = x e I(0,+∞) (x) (4.12)
Γ(α)
4
También tiene importantes aplicaciones en otras ramas de la matemática como la teoría de números, y
aparece en numerosas fórmulas como la del volumen de una bola n-dimensional.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 94

Observación 4.6.4 Haciendo el cambio de variable y = λx en (4.11), tenemos que


Z ∞
Γ(α)
= y α−1 e−λy dy (4.13)
λα 0

Se deduce que (4.12) es efectivamente una densidad de probabilidades. Más aún esta fórmula
permite calcular fácilmente los momentos de las distribuciones gama: si X ∼ Γ(α, λ),
entonces
Z ∞
λα
k
µk (X) = E(X ) = xα+k−1 e−λx dx
Γ(α) 0
Γ(α + k) α(α + 1) · · · (α + k)
= =
Γ(α)λk λk
En particular, la esperanza y la variancia de la distribución gama son
α
E(X) = µ1 (X) = (4.14)
λ
y
α(α + 1)  α 2 α
2
V ar(X) = E(X ) − E(X) = −2
= 2 (4.15)
λ2 λ λ

Figura 4.6: Un ejemplo de una densidad gama y algunos de sus parámetros.

Cálculo de los momentos de las distribuciones gama


λα α−1 −λx λα Γ(α + n)
Z
n Γ(α + n)
E(X ) = xn x e dx = α+n
=
0 Γ(α) Γ(α) λ Γ(α)λn
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 95

En particular
Γ(α + 1) α
E(X) = =
Γ(α)λ λ

Γ(α + 2) α2 α(α + 1) α2 α
Var(X) = E(X 2 ) − E(X)2 = 2
− 2
= 2
− 2 = 2
Γ(α)λ λ λ λ λ

Suma de variables independientes con distribución gama


Lema 4.6.5 Si X ∼ Γ(α1 , λ), Y ∼ Γ(α2 , λ) y son independientes, entonces X + Y ∼
Γ(α1 + α2 , λ).

Prueba: Según el corolario 4.5.5, X +Y ∼ fα1 ,λ ∗fα2 ,λ . Hemos de calcular esta convolución:

x
λα1 λα2 α2 −1 −αt
Z
(fα1 ,λ ∗ fα2 ,λ )(x) = (x − t)α1 −1 e−λ(x−t) t e dt
0 Γ(α1 ) Γ(α2 )
Z x
λα1 +α2
 
= (x − t)α1 −1 tα2 −1 dt e−λx
Γ(α1 )Γ(α2 ) 0

En esta integral hacemos el cambio de variable u = t/x (0 ≤ x ≤ 1). Entonces:

Z 1
λα1 +α2

α1 −1 α2 −1
(fα1 ,λ ∗ fα2 ,λ )(x) = (x − xu) (xu) x du e−λx
Γ(α1 ))Γ(α2 ) 0
Z 1
λα1 +α2

= xα1 +α2 −1 (1 − u)α1 −1 uα2 −1 du e−λx
Γ(α1 )Γ(α2 ) 0
λα1 +α2
= B(α1 , α2 ) xα1 +α2 −1 e−λx
Γ(α1 )Γ(α2 )
Notamos que esta es salvo la constante, la densidad gama fα1 +α2 ,λ , pero como la con-
volución de dos densidades de probabilidad es una densidad de probabilidad, y hay una
única constante que hace que la integral sobre (0, +∞) dé 1 deducimos que:

fα1 ,λ ∗ fα2 ,λ = fα1 ,α2 ,λ (4.16)


Como subproducto de la demostración obtenemos que:

λα1 +α2 λα1 +α2


B(α1 , α2 ) =
Γ(α1 )Γ(α2 ) Γ(α1 + α2 )
o sea
Γ(α1 )Γ(α2 )
B(α1 , α2 ) =
Γ(α1 + α2 )

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 96

Figura 4.7: Las densidades beta

4.7. Las distribuciones Beta


La función beta también puede usarse para definir una familia de distribuciones: las
distribuciones beta. Diremos que X ∼ β(α1 , α2 ) si se distribuye según la densidad:
1
fX (x) = xα1 −1 (1 − x)α2 −1 I(0,1) (x)
B(α1 , α2 )

Podemos preuntarnos ¿cuánto valen la esperanza y la varianza de X? Más generalmente,


podemos calcular los momentos de X.

µk = E[X k ] = E[ϕ(X)] k ∈ N
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 97

donde ϕ(x) = xk . Entonces usando la ecuación funcional para la función gama:


Z 1
1 B(α1 + k, α2 )
k
E[X ] = xk xα1 −1 (1 − x)α2 −1 dx =
B(α1 , α2 ) 0 B(α1 , α2 )
Γ(α1 + k)Γ(α2 ) Γ(α1 + α2 )
= ·
Γ(α1 + k + α2 ) Γ(α1 )Γ(α2 )
k
α(k) Y α1 + r
= (k)
=
(α1 + α2 ) α + α2 + r
r=0 1

donde
α(k) = α · (α + 1) · . . . · (α + k − 1)
se llama el símbolo de Pochhammer.
En particular, para k = 1 vemos que la esperanza vale,
α1
E[X] =
α1 + α2
y el momento de segundo orden:

α1 (α + 1)
E[X 2 ] =
(α1 + α2 ) · (α1 + α2 + 1)
Finalmente
α1 α2
Var(X) = E[X 2 ] − E[X]2 = 2
(α1 + α2 ) (α1 + α2 + 1)

4.8. La Distribución Exponencial y la propiedad de Falta de


Memoria
La distribución exponencial (4.7) es un modelo muy útil para distintos procesos: llama-
das que llegan a una central telefónica, tiempo de duración de una lámpara, desintegración
radiactiva, etc.
Por ejemplo, para fijar ideas, consideremos la desintegración radiactiva de un átomo.
La hipótesis fundamental que haremos para describir este fenómeno, es la propiedad de
“falta de memoria” que establece que la probabilidad de que un átomo se desintegre en
un intervalo de tiempo de longitud ∆t sólo depende de la longitud del intervalo y es
independiente de la historia anterior del material.
Podemos describir con más precisión esta propiedad de la siguiente manera: Si llamamos
T al tiempo en el que el átomo se desintegra, T es una variable aleatoria. La probabilidad
condicional de que el átomo se desintegre en el intervalo (t0 , t0 + ∆t] sabiendo que no se
ha desintegrado aún en tiempo t = t0 , es igual a la probabilidad de que se desintegre en el
intervalo (0, ∆t]:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 98

P {T > t0 + ∆t/T > t0 } = P {T > ∆t}


Por definición de probabilidad condicional, esto significa que:

P {t < T ≤ t + ∆t}
= P {T > ∆t}
P {T > t}
Llammemos F a la función de distribución de T , y sea G(t) = 1 − F (t). Entonces, esta
igualdad establece que:

G(t + ∆t) = G(t)G(∆t)


Necesitaremos el siguiente lema:
Lema 4.8.1 Sea G : R≥0 → R≥0 una función continua que satisface que:

G(t + s) = G(t)G(s)

Entonces: G(t) = G(0)at , siendo a = G(1) .


Volviendo a nuestro problema de la desintegración radiactiva, si ponemos G(1) = e−λ
(suponiendo G(0) 6= 0), y observamos que G(0) = 1 pues T > 0 (El átomo no se desintegró
aún en t = 0), obtenemos que:

G(t) = e−λt
Por consiguiente la función de distribución de T es:

F (t) = 1 − e−λt

y derivando vemos que su densidad es

f (t) = λ e−λt (t > 0)

Decimos que la variable continua T se distribuye según la densidad exponencial de


parámetro λ > 0, Exp(λ), que introdujimos en (4.7).
Supongamos ahora que tenemos un material radiactivo formado inicialmente por un
grán número de átomos N0 , y llamemos N (t) a la cantidad de átomos no desintegrados
hasta el instante t. Hagamos la hipótesis de que las desintegraciones de los distintos átomos
son independientes. Podemos pensar que son ensayos de Bernoullí, entonces por la ley de
los grandes números

N (t)
≈ P {T > t0 }
N0
y deducimos que:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 99

N (t) = N0 e−λt (4.17)


Esta expresión se conoce como la ley de desintegración radiactiva de Rutherford-Soddy
(1902). El valor de la constante λ depende de la sustancia.
Se define semivida o período de semi-desintegración T1/2 el tiempo en que una muestra
de material radiactivo tarda en reducirse a la mitad. De la fórmula (4.17), se deduce que

log 2
T1/2 =
λ
La siguiente tabla muestra por ejemplo los períodos de semi-desintegración de algunos
isótopos radiactivos:
Isótopo T1/2
Berilio-8 10−16 s
Polonio-213 4x10−6 s
Aluminio-28 2.25 min
Yodo-131 8 días
Estroncio-90 28 años
Radio-226 1600 años
Carbono-14 5730 años
Rubidio-87 5,7 × 1010 años

Observación 4.8.2 Entre las distribuciones discretas, la propiedad de falta de memoria


es característica de la distribución geométrica, que puede entonces considerarse como el
análogo discreto de la distribución exponencial.

4.8.1. Tiempos de espera y procesos de Poisson


Llamemos Ti al tiempo en que ocurre la iésima densintegración radiactiva, de modo
que:

T1 < T2 < . . . < Tn


(Podemos suponer para simplificar que no hay dos desintegraciones simultáneas, ya que
la probabilidad de que ello ocurra es despreciable). Notemos que:

Tn = T1 + (T2 − T1 ) + (T3 − T2 ) + . . . + (Tn − Tn−1 )


Las variables Tk − Tk−1 representan el tiempo entre la (k − 1)-ésima desintegración y
la k-ésima desintegración. Por la discusión anterior (y la propiedad de falta de memoria),
Tk −Tk−1 tiene distribución exponencial de parámetro λ > 0 (donde λ > 0 es una constante
que depende del material que estamos considerando).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 100

Por otra parte, si suponemos que el tiempo que un átomo tarda en desintegrarse es
independiente de lo que tardan los demás, las Tk+1 − Tk serán variables aleatorias in-
dependientes. Entonces la variable Tn será dada por una suma de n variables aleatorias
independientes, todas con distribución exponencial de parámetro λ.
Como Exp(λ) = Γ(1, λ), deducimos que Tn tiene distribución Γ(n, λ), es decir que se
distribuye según la densidad gn (t) dada por:

n−1 e−λt si t > 0


(
λn
gn (t) = (n−1)! t
0 si t ≤ 0
Llamemos D(t) al número de desintegraciones en el intervalo [0, t]. Entonces

D(t0 ) = n si y sólo si Tn ≤ t0 < Tn+1

Deducimos que:
{D(t0 ) = n} = {Tn ≤ t0 } − {Tn+1 ≤ t0 }
En consecuencia,
Z t0 Z t0
P {D(t0 ) = n} = P {Tn ≤ t0 } − P {Tn+1 ≤ t0 } = gn (t) dt − gn+1 (t) dt
0 0

Integrando por partes, tenemos que:


Z t0 t0
λn+1 n −λt
Z
gn+1 (t) dt = t e dt
0 0 n!
t0
" #
λn+1 e−λt t0
e−λt
Z
= tn − n tn−1 dt
n! (−λ) 0 0 (−λ)

λn+1 n e−λt0 t0 n+1


e−λt
Z
λ
= t0 −0− n tn−1 dt
n! (−λ) 0 n! (−λ)
Z t0
λn n −λt0 λn
=− t0 e + tn−1 e−λt dt
n! 0 (n − 1)!
Z t0
λn n −λt0
=− t e + gn (t) dt
n! 0 0
En definitiva concluimos que la distribución del número de desintegraciones viene dada
por una distribución de Poisson (proceso de Poisson):

(λt0 )n −λt0
P {D(t0 ) = n} = e
n!
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 101

Como dijimos al comienzo de la sección, aunque hemos presentado la distribución expo-


nencial y este cálculo de los tiempos de espera como modelo de la desintegración radiactiva,
este mismo modelo se puede aplicar a otros procesos donde la hipótesis de falta de memo-
ria resulte razonable como por ejemplo la llegada de eventos a un servidor informático, o
los siniestros en una companía de seguros. Esto explica la utilización de las distribuciones
exponencial y de Poisson en muchas aplicaciones de las probabilides.

4.9. Algunas densidades útiles en estadística


4.9.1. Las densidades χ2
En esta sección veremos algunas densidades que resultan especialmente útiles en esta-
dística. Nos proporcionarán ejemplos interesantes de las técnicas de cambio de variables.
Sea X ∼ N (0, 1) una variable aleatoria con distribución normal estándar. Utilizando la
fórmula (4.10), encontramos que Y = X 2 se distribuye según la densidad
 
1 √ √ 1 1 −y/2 1 −y/2
fY (y) = √ [fX ( y) + fX (− y)] = √ √ e + √ e
2 y 2 y 2π 2π
o sea
1
fY (y) = √ y −1/2 e−y/2 (y > 0)

Esta densidad se conoce como la densidad χ2 (“ji-cuadrado”] con un grado de libertad

[abreviada χ21 ]. Comparando con (4.12), y utilizando que Γ(1/2) = π, vemos que coincide
con la densidad Γ 2 , 2 .
1 1


Sean ahora X1 , X2 , . . . , Xn variables aleatorias independientes con distribución normal


estándar, y consideremos la variable aleatoria

Zn = X12 + X22 + . . . + Xn2

¿cuál es la distribución de Zn ? Por lo anterior cada una de las Xi se distribuye según la


densidad χ21 = Γ 12, 12 , y la densidad de Z será (por la independencia) la convolución de
la densidad Γ 12 , 12 n veces con sigo misma, que por el lema 4.6.5 da la densidad Γ n2 , 12 .


Es decir, que la densidad de Zn será

(1/2)n/2 n/2−1 −x/2


fZn (z) = x e (x > 0) (4.18)
Γ(n/2)

Esta densidad se conoce como densidad χ2 con n grados de libertad [abreviada χ2n ]. Las
fórmulas (4.14) y (4.15) nos dicen que si Z ∼ χ2n , entonces

E[Zn ] = n, Var[Zn ] = 2n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 102

Figura 4.8: Gráfico de la densidad χ2n

4.9.2. Las densidades χn


Si consideramos el vector aleatorio X = (X1 , X2 , . . . , Xn ) con las Xi ∼ N (0, 1) inde-
pendientes, p
Zn = kXk = Yn
entonces

(1/2)n/2 2 n/2−1 −z 2 /2
fZn (z) = 2z (z ) ·e
Γ(n/2)
2(1/2)n/2 n−1 −z 2 /2
= z ·e (z > 0)
Γ(n/2)

Esta distribución se lllama χn . Con n = 3 esta distribución aparece en física, como


la distribución de Maxwell-Boltzmann, que es la distribución de probabilidad de las
velocidades de un gas asociada a la estadística de Maxwell-Boltzmann para dicho sistema.
 m 3 −mv 2
2
f (v) = 4π v 2 e 2kT
2πkT
donde m es la masa de la partícula, T es la temperatura absoluta y k es una constante
(constante de Boltzmann).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 103

Figura 4.9: Gráfico de la distribución acumulada de una χ2n


Capítulo 5

Vectores Aleatorios

5.1. Vectores Aleatorios


Las ideas anteriores sobre variables aleatorias continuas, pueden generalizarse para
considerar vectores aleatorios.

Definición 5.1.1 Sea (Ω, E, P ) un espacio de probabilidad. Un vector aleatorio n-diemensional


es una función X : Ω → Rn con la propiedad de que si I = (a1 , b1 ] × (a2 , b2 ] × . . . × (an , bn ]
es un intervalo de Rn entonces X −1 (I) = {ω ∈ Ω : X(ω) ∈} ∈ E, es decir está definida la
probabilidad P {X ∈ I} de que X pertenezca a I.

Obsevación: Dar un vector aleatorio n-dimensional es equivalente a dar n variables


aleatorias X1 , X2 , . . . , Xn .
Ejemplos de vectores aleatorios:

1. Un ejemplo de vector aleatorio discreto es el que consideramos al describir la distri-


bución multinomial (ver página 68).

2. Distribución uniforme en un conjunto A ⊂ Rn de medida positiva: si A es un conjunto


de Rn de medida positiva y X es un vector aleatorio n-dimensional, decimos que X
se distribuye uniformemente en A si X pertenece a A con probabilidad 1, y si

m(B)
P {X ∈ B} = ∀B⊂A
m(A)

En esta definición A y B pueden ser conjuntos medibles Lebesgue cualesquiera, y


m(A) denota la medida de Lebesgue de A (Quienes no hayan cursado análisis real,
pueden pensar que A y B son conjuntos para los que tenga sentido calcular la medida
de A, por ejemplo que A y B son abiertos de R2 y m(A) representa el área de A).

104
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 105

3. Sea f : Rn → R una función integrable tal que 0 ≤ f (x) ≤ 1, y


Z
f (x) dx = 1
Rn

Decimos que el vector X se distribuye según la densidad conjunta f (x) si para


cualquier conjunto medible A ⊂ Rn , tenemos que:
Z
P {X ∈ A} = f (x) dx
A

(De nuevo, quienes no hayan cursado análisis real pueden pensar que f es integrable
en el sentido de Riemann, y A es cualquier abierto de Rn ).

4. Por ejemplo, una posible generalización de la distribución normal a dos dimensiones


(normal bi-variada), se obtiene especificando que el vector (X, Y ) se distribuye según
la densidad conjunta:

1 −(x2 +y2 )/2 1 1


(5.1)
2 2
f (x, y) = e = √ e−x /2 · √ e−y /2
2π 2π 2π
Veremos más adelante que esta densidad corresponde al caso especial de dos variables
aleatorias independientes con esperanza 0 y esperanza 1. Más generalmente, decimos
que el vector aleatorio X tiene distribución normal multivariada si se distribuye
según una densidad de la forma:

f (x) = ce−q(x)

donde q(x) = xt Ax es una forma cuadrática definida positiva, y c es una constante


elegida de modo que la integral de f sobre todo Rn dé 1. Más adelante volveremos
sobre este concepto.
La noción de función de distribución puede generalizarse a vectores aleatorios.

Definición 5.1.2 Si X : Ω → Rn es un vector aleatorio, su función de distribución


conjunta es la función F : Rn → R dada por:

F (x1 , x2 , . . . , xn ) = P {X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn }

Por ejemplo, si X es un vector aleatorio bidimensional que se distribuye según la den-


sidad conjunta f (x), entonces su función de distribución conjunta es:
Z x1 Z x2 Z xn
F (x1 , x2 , . . . , xn ) = ... f (x̃1 , x̃2 , . . . , x̃n ) dx̃1 dx̃2 . . . dx̃n
−∞ −∞ −∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 106

Figura 5.1: La función de densidad normal bivariada (para dos variables independientes
con esperanza 0 y esperanza 1) dada por la ecuación (5.1).

La noción de función de distribución resulta más complicada que en el caso de variables


aleatorias unidimensionales. En el caso unidimensional, la probabilidad de que la variable
X tome un valor en el intervalo (a, b] viene dada, en términos de la función de distribución
FX , por:

P {X ∈ (a, b]} = P {X ≤ b} − P {X ≤ a} = FX (b) − FX (a)


En cambio si (X, Y ) es un vector aleatorio con función de distribución conjunta F , y
R = (a, b] × (c, d] es un rectángulo (semiabierto) en R2 , la probabilidad de que (X, Y ) tome
un valor en R es (por la fórmula de inclusiones y exclusiones):

P {(X, Y ) ∈ R} = P {X ≤ b, Y ≤ d} − P {X ≤ a, Y ≤ d}
− P {X ≤ b, Y ≤ c} + P {X ≤ a, Y ≤ c}

Es decir que:

P {(X, Y ) ∈ R} = F (b, d) − F (a, d) − F (b, c) + F (a, c) := ∆F (R) (5.2)

(Esta cantidad es necesariamente no negativa, esta es la generalización bidimensional


del hecho de que en el caso unidimensional la función de distribución es creciente.)
Una fórmula análoga (¡pero más complicada!) es cierta para vectores aleatorios en más
dimensiones. Por ello, la noción de función de distribución no resultará tan útil como lo
era en el caso unidimensional (y con frecuencia resulta más cómodo pensar directamente
en términos de probabilidades asignadas a rectángulos, o subconjuntos más generales de
Rn ).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 107

5.2. Densidades y distribuciones marginales


Consideramos para simplificar la notación, un vector aleatorio bidimensional (X, Y ).
Investiguemos qué relación existe entre la función de distribución conjunta F del vector
(X, Y ) y las funciones de distribución FX y FY de cada variable por separado:
Notemos que:

FX (x) = P {X ≤ x} = P {X ≤ x, Y ≤ +∞} = F (x, +∞) = lı́m F (x, y)


y→+∞

Similarmente,
FY (y) = lı́m F (x, y)
x→+∞

FX y FY se conocen como las funciones de distribución marginales del vector aleatorio


(X, Y ).
Consideremos ahora el caso particular, en que el vector aleatorio (X, Y ) se distribuye
según la densidad conjunta f (x, y), su función de distribución será entonces:
Z x0 Z y0
F (x0 , y0 ) = P {X ≤ x0 , Y ≤ y0 } = f (x, y) dx dy
−∞ −∞

y en consecuencia sus funciones de distribución marginales vendrán dadas por:


Z x0 Z ∞
FX (x0 ) = f (x, y) dx dy
−∞ −∞
Z +∞ Z y0
FY (y0 ) = f (x, y) dx dy
−∞ −∞
Utilizando el teorema de Fubini, podemos escribir FX como una integral reiterada:
Z x0 Z ∞ 
FX (x0 ) = f (x, y) dy dx
−∞ −∞

Esta igualdad significa que el vector aleatorio X se distribuye según la densidad:


Z ∞
fX (x) = f (x, y) dy (5.3)
−∞

Similarmente, el vector aleatorio Y se distribuye según la densidad:


Z ∞
fY (y) = f (x, y) dx (5.4)
−∞

fX y fY se conocen como las densidades marginales de probabilidad del vector aleatorio


(X, Y ).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 108

Ejemplo 5.2.1 Antes consideramos un vector aleatorio (X, Y ) que se distribuía según la
densidad conjunta (5.1). Entonces, en este caso
Z ∞
fX (x) = f (x, y) dy
−∞
Z ∞
1 2 1 2 1 2
= √ e−x /2 √ e−y /2 dy = √ e−x /2
2π −∞ 2π 2π
Luego X ∼ N (0, 1). Similarmente, por simetría,
1 2
fY (y) = √ e−y /2

y también Y ∼ N (0, 1).

5.3. Esperanza de funciones de vectores aleatorios. Cova-


riancia
Sea (X, Y ) un vector aleatorio bidimensional, y ϕ : R2 → R una función continua. La
fórmula (4.6) para la esperanza de una función de una variable aleatoria puede generalizarse
a vectores aleatorios:
Z ∞Z ∞
E[ϕ(X, Y )] = ϕ(x, y) dF (x, y) (5.5)
−∞ −∞

donde la integral que aparece en el segundo miembro es una integral doble de Riemann-
Stieltjes.
Para definir este concepto puede procederse como en análisis II, considerando primero
la integral
Z bZ d
ϕ(x, y) dF (x, y) (5.6)
a c
en un rectángulo R = (a, b] × (c, d] de R2 . Consideramos una partición π del rectángulo R
en rectángulos más pequeños Rij = (xi , xi+1 ] × (yj , yj+1 ], definida por una partición πx del
intervalo [a, b]:
a = x0 < x 1 < . . . < x M = b
y otra partición πy del intervalo [c, d]:
a = y0 < y 1 < . . . < y N = b
Elegimos puntos intermedios ξi ∈ [xi , xi+1 ] y ηj ∈ [yj , yj+1 ], y consideramos sumas de
Riemann-Stieltjes dobles:
M
X −1 N
X −1
Sπ (ϕ, F ) = ϕ(ξi , ηj )∆F (Rij )
i=0 j=0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 109

siendo
∆F (Rij ) = F (xi+1 , yj+1 ) − F (xi , yj+1 ) − F (xi+1 , yj ) + F (xi , yj )
que de acuerdo a la fórmula (5.2), representa la probabilidad de que el vector (X, Y ) tome
un valor en el rectángulo Rij .
Definamos la norma |π| de la partición π como el máximo de las normas de las par-
ticiones πx y πy . Entonces si, cuando la norma de la partición π tiende a cero, las sumas
S(π, F ) convergen a un número I, diremos que la integral (5.6) existe, y que toma el valor
I. Análogamente a lo que sucede en el caso unidimensional, podemos demostrar que esto
sucede si F es la función de distribución de un vector aleatorio, y ϕ es continua.
La intergral impropia, sobre todo el plano, que aparece en la fórmula (5.5) puede defi-
nirse como el límite de integrales sobre rectángulos:
Z ∞ Z ∞ Z bZ d
ϕ(x, y) dF (x, y) = lı́m ϕ(x, y) dF (x, y)
−∞ −∞ a,c→−∞;b a c
d→+∞

Para justificar intuitivamente la fórmula (5.5) podemos proceder como en el caso dis-
creto, definiendo variables aleatorias discretas Xπ e Yπ que aproximan a X e Y por:

Xπ = ξi si X ∈ (xi , xi+1 ]

Yπ = ηj si Y ∈ (yj , yj+1 ]
y observando que:
E[ϕ(Xπ , Yπ )] = Sπ (ϕ, F )
Por lo que cuando la norma de la partición π tiende a cero, obtenemos formalmente la
fórmula (5.5).
El caso que más nos va a interesar, es cuando el vector aleatorio (X, Y ) se distribuye
según una densidad conjunta f (x, y). En este caso, como ocurría en el caso unidimensional,
la esperanza de ϕ(X, Y ) puede calcularse mediante una integral de Riemann ordinaria, en
lugar de una integral de Riemann-Stieltjes:
Z ∞Z ∞
E[ϕ(X, Y )] = ϕ(x, y) f (x, y) dx dy (5.7)
−∞ −∞

Un caso importante de aplicación de las fórmulas anteriores es cuando queremos calcular


la covarianza de dos variables aleatorias en el caso continuo. Recordamos que por definición:

Cov(X, Y ) = E[(X − µX )(Y − µY )]


siendo µX = E[X], µY = E[Y ]. Entonces tomando ϕ(x, y) = (x − µX )(y − µY ) en las
fórmulas anteriores, tenemos que:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 110

Z ∞ Z ∞
Cov(X, Y ) = (x − µX )(y − µY ) dF (x, y)
−∞ −∞
en el caso , y
Z ∞ Z ∞
Cov(X, Y ) = (x − µX )(y − µY ) f (x, y) dx dy
−∞ −∞

si el vector (X, Y ) admite una densidad conjunta.

Ejemplo 5.3.1 Volvamos a considerar el ejemplo de un vector aleatorio (X, Y ) que se


distribuía según la densidad conjunta (5.1). Ya vimos que X, Y ∼ N (0, 1) por lo que
µX = µY = 0. Calculemos

Z ∞ Z ∞
Cov(X, Y ) = xy f (x, y) dx dy
Z−∞ −∞
∞ Z ∞
1 2 1 2
= x · y · √ e−x /2 · √ e−y /2 dx dy
2π 2π
−∞
Z ∞
−∞
 Z ∞ 
1 −x2 /2 1 −y2 /2
= x· √ e dx · y·√ e dy
−∞ 2π −∞ 2π
= E[X] · E[Y ] = 0

Observación 5.3.2 Una de las propiedade más básicas de la esperanza es su linealidad.


Sin embargo, es difícil justificar su validez en general partiendo de la definición 4.5, ya
que la función de distribución FX no depende linealmente de la variable X. Utilizando la
fómula (5.7), podríamos sin embargo dar una justificación de que E[X + Y ] = E[X] + E[Y ]
para el caso en que X e Y tienen una densidad conjunta continua y esperanza finita1 . En
efecto, en este caso, tomando ϕ(x, y) = x + y. vemos que
Z ∞Z ∞
E[X + Y ] = (x + y) · f (x, y) dx dy
Z−∞
∞ Z−∞
∞ Z ∞Z ∞
= x · f (x, y) dx dy + y · f (x, y) dx dy
−∞ −∞ −∞ −∞
Z ∞ Z ∞
= x · fX (x) dx + y · fY (y) dy
∞ ∞
= E[X] + E[Y ].
1
Esta propiedad es válida en general, como se deduce inmediatamente de la interpretación de la esperanza
como una integral de Lebesgue, ver apéndice D.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 111

5.4. Cambios de variable n-dimensionales


Proposición 5.4.1 Supongamos que X es una vector que se distribuye según una densidad
f (x) con soporte en U siendo U un abierto Rn , y que ϕ : U → V es un difeomorfismo C 1 ,
donde V es otro abierto de Rn entonces, si consideramos el vector aleatorio Y = ϕ(X), Y
se distribuye en V según la densidad

f (ϕ−1 (y))|det(Dϕ−1 )(y)|

Prueba: Sea W ⊂ V un abierto cualquiera, entonces


Z
−1
P {Y ∈ W } = P {X ∈ ϕ (W )} = f (x)dx
ϕ−1 (W )

En esta integral, hagamos el cambio de variable y = ϕ(x), x = ϕ−1 (y). Entonces, según
el teorema de cambio de variable
Z
P {Y ∈ W } = f (ϕ−1 (y))|detD(ϕ−1 )(y)|dy
W

Como esto vale para todo W ⊂ V , concluimos que Y se distribuye en V según la


densidad f (ϕ−1 (y))|det(Dϕ−1 )(y))|. 

5.5. Independencia
En el capítulo anterior anterior (definicion 4.5.1) introdujimos la noción de variables
aleatorias independientes en el caso continuo. Vamos a dar una caracterización de la inde-
pendencia en términos de la función de densidad de probabilidad conjunta. Para probarlo,
necesitaremos un lema de análisis, que generaliza el teorema fundamental del cálculo para
integrales bidimensionales:

Lema 5.5.1 (Teorema de diferenciación para integrales) Supongamos que f es con-


tinua en (x0 , y0 ) y consideramos la integral
Z Z
1
Ihk = f (x, y) dx dy
hk Rhk

siendo Rhk el rectángulo


Rhk = (x0 , x0 + h] × (y0 , y0 + k]
donde h, k > 0 entonces

Ihk → f (x0 , y0 ) cuando (h, k) → 0


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 112

Prueba: Como f es continua en (x0 , y0 ), dado ε > 0 podemos elegir δ > 0 tal que

|f (x, y) − f (x0 , y0 )| < ε

si k(x − x0 , y − y0 )k∞ = max(x − x0 , y − y0 ) < δ. Entonces


Z Z
1
|Ihk − f (x0 , y0 )| = f (x, y) dx dy − f (x0 , y0 )
hk Rhk
Z Z Z Z
1 1
= f (x, y) dx dy − f (x0 , y0 ) dx dy
hk hk
Z Z Rhk Rhk
1
≤ |f (x, y) − f (x0 , y0 )| dx dy
hk Rhk
Z Z
1
≤ ε dx dy = ε
hk Rhk

si k(h, k)k∞ = max(|h|, |k|) < δ. 

Teorema 5.5.2 Supongamos que el vector (X, Y ) admite una densidad conjunta continua
f (x, y). Entonces las variables X e Y son independientes, si y sólo si f se factoriza en la
forma:
f (x, y) = fX (x)fY (y)
siendo fX y fY las densidades marginales de probabilidad.

Prueba: Supongamos primero que X e Y son independientes, y que el vector (X, Y ) se


distribuye según la densidad conjunta f (x, y). Entonces X se distribuye según la densidad
marginal fX dada por (5.3), y similarmente Y se distribuye según la densidad marginal
dada por (5.4).
Entonces dado (x0 , y0 ) ∈ R2 y h, k > 0, tenemos que:
Z x0 +h Z y0 +k
P {x0 < X ≤ x0 + h, y0 < Y ≤ y0 + k} = f (x, y) dx dy (5.8)
x0 y0
Z x0 +h
P {x0 < X ≤ x0 + h} = fX (x) dx (5.9)
x0
Z y0 +k
P {y0 < Y ≤ y0 + k} = fX (y) dy (5.10)
y0

En virtud de la definición (4.5.1), vemos que:


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 113

P {x0 < X ≤ x0 + h, y0 < Y ≤ y0 + k} P {x0 < X ≤ x0 + h} P {x0 < X ≤ x0 + k}


= ·
hk h k
(5.11)

De la expresión (5.9) cuando h → 0, deducimos que:

P {x0 < X ≤ x0 + h} FX (x0 + h) − FX (x0 )


= → fX (x0 )
h h
por el teorema fundamental del cálculo (siendo fX continua en x0 ).
Similarmente, cuando k → 0, (5.10) y el teorema fundamental del cálculo nos dicen
que:
P {y0 < Y ≤ y0 + k} FY (y0 + k) − FY (y0 )
= → fY (y0 )
k k
Finalmente, de la expresión (5.8), por el teorema de diferenciación para integrales (ge-
neralización del teorema fundamental del cálculo), deducimos que:

P {x0 < X ≤ x0 + h, y0 < Y ≤ y0 + k}


→ f (x0 , y0 )
hk
cuando h, k → 0, siempre que f sea continua en el punto (x0 , y0 ).
En consecuencia, cuando h, k → 0, a partir de la relación (5.11), obtenemos que:

f (x0 , y0 ) = fX (x0 )fY (y0 ) (5.12)

Esto prueba una de las implicaciones del teorema2


Para probar la afirmación recíproca, supongamos que la densidad conjunta f puede
expresarse en la forma:
f (x, y) = fX (x)fY (y)
siendo fX y fY dos densidades de probabilidad (Notemos que entonces, fX y fY deben ser
entonces necesariamente las densidades marginales dadas por (5.3 - 5.4), como se deduce
integrando respecto de x y de y).
Entonces, en virtud del teorema de Fubini,
Z bZ d
P {a < X ≤ b, c < Y ≤ d} = f (x, y) dx dy =
a c
Z b  Z d 
= fX (x) dx fX (y) dy = P {a < X ≤ b} · P {c < Y ≤ d}
a c
2
Para evitar complicaciones técnicas, hemos supuesto que la densidad conjunta f es continua. No obs-
tante, si f fuera solamente integrable, repitiendo el mismo argumento y usando el teorema de diferenciación
de integrales que se ve en análisis real, obtendríamos que la relación (5.12) se verifica en casi todo punto.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 114

por lo que se deduce que X e Y son variables aleatorias independientes. 


Notemos, que el significado de esta demostración, es que la relación (5.12), es una
“expresión infinitesimal” de la definición de independencia.

Ejemplo 5.5.3 Volvamos a considerar el ejemplo de un vector aleatorio (X, Y ) que se


distribuía según la densidad conjunta (5.1). Como

f (x, y) = fX (x) · fY (y)

donde
1 2
fX (x) = √ e−x /2

1 2
fY (y) = √ e−y /2

vemos que esta densidad describe dos variables con distribución normal estándar N (0, 1)
independientes.

Como corolario obtenemos el análogo de la proposición 3.2.9 para variables continuas3 .

Corolario 5.5.4 Si X e Y son variables aleatorias independientes con esperanza finita, que
se distribuyen según una densidad conjunta continua f (x, y) entonces XY tiene esperanza
finita y se tiene que
E[XY ] = E[X]E[Y ]

Prueba: Nuevamente usamos la fórmula (5.7), para obtener que4


Z ∞Z ∞
E[XY ] = (xy) f (x, y) dx dy
−∞ −∞
Z ∞Z ∞
= (xy) fX (x)fy (Y ) dx dy
−∞ −∞
Z ∞  Z ∞ 
= xfX (x) yfX (y)
−∞ −∞
= E[X]E[Y ]


3
La propiedad vale aunque X e Y no admitan una densidad conjunta continua. Una demostración se da
en el apéndice E pero utilizando la integral de Lebesgue.
4
Para justificar rigurosamente este cálculo, hay que hacerlo primero con |xy| en lugar de xy, lo que con-
duce a E(|XY |) = E(|X|)E(|Y |), con lo que se establece que la integral doble es absolutamente convergente
y se justifica la aplicación del teorema de Fubini.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 115

5.6. Suma de variables aleatorias independientes


Como aplicación podemos volver a demostrar la siguiente proposición:

Proposición 5.6.1 Supongamos que X e Y son variables aleatorias independientes, que


se distribuyen en R según las densidades f (x) y g(x) respectivamente, entonces X + Y se
distribuye según la densidad f ∗ g(x).

Prueba: Como X e Y son independientes,

(X, Y ) ∼ f (x)g(y)

Hacemos el cambio de variable lineal (U, V ) = ϕ(X, Y ) = (X + Y, Y ). Entonces (X, Y ) =


ϕ−1 (U, V ) = (U − V, V ). Como ϕ es una transformación lineal, su diferencial coincide
con ella misma. Para calcular el determinante de ϕ observamos que su matriz en la base
canónica de R2 es:  
1 1
0 1
En consecuencia, el determinante de ϕ es 1. Por el teorema anterior, tenemos que (U, V )
que:
(U, V ) ∼ f (u − v)g(v) (densidad conjunta)
Para recuperar la densidad de U (densidad marginal) debemos integrar en la variable v:
Z ∞
U∼ f (u − v)g(v) dv
−∞

5.6.1. Vectores aleatorios n-dimensionales


Las ideas anteriores se generalizan sin dificultad a vectores aleatorios multidimensiona-
les, pero la notación resulta más complicada. Así pues si X : Ω → Rn es un vector aleatorio
n-dimensional, que se distribuye según una densidad conjunta f (x) = f (x1 , x2 , . . . , xn ) que
supongremos por simplicidad continua, tendremos que:

La esperanza de una función ϕ(X) del vector X, donde ϕ : X → R es una función


continua, se puede calcular mediante la fórmula:
Z
E[ϕ(X)] = ϕ(x)f (x) dx
Rn
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 116

La k-ésima componente Xk del vector X (1 ≤ k ≤ n) se distribuye según la densidad


marginal:

Z
fXk (x) = f (x1 , x2 , . . . , xk−1 , x, xk+1 , . . . , xn ) dx1 dx2 . . . dxk−1 dxk+1 . . . dxn
Rn−1

Las componentes X1 , X2 , …Xn del vector X se dirán mutuamente independientes si


para cualquier rectángulo n-dimensional (producto de intervalos)

n
Y
I= (ak , bn ]
k=1

se verifica que:

n
Y
P {X ∈ I} = P {ak < Xk ≤ bk }
k=1

En términos de la función de distribución conjunta, X1 , X2 , . . . , Xn son mutuamente


independientes si y sólo si f (x) se factoriza en la forma:

f (x) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn )

5.7. Estadísticos de orden


Ejercicio 5.7.1 (práctica 6, item a)) Dadas X1 , . . . , Xn variables aleatorias indepen-
dientes e idénticamente distribuidas con función de distribución acumulada F , se definen
sus estadísticos de orden X (1) , . . . , X (n) como aquellas variables aleatorias que se obtienen
ordenando las Xi de manera creciente. En particular, tenemos que

X (1) = mı́n Xi
1≤i≤n

X (n) = máx Xi .
1≤i≤n

Hallar para cada k = 1, . . . , n la función de distribución acumulada de X (k) en términos


de F .

En estadística, cuando X1 , . . . , Xn son variables aleatorias independientes e idéntica-


mente distribuidas con función de distribución acumulada F , decimos que tenemos una
muestra aleatoria de tamaño n de la distribución F (con reposición).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 117

5.7.1. Distribución del máximo


Empezemos mirando el máximo X (n) . Dado x ∈ R, será X (n) ≤ x si Xi ≤ x para todo
i. De modo que
n
P {Xi ≤ x} por independencia
Y
(n)
P {X ≤ x} =
i=1

o sea
n
Y
FX (n) (x) = FXi (x) = F n (x)
i=1

al ser las Xi idénticamente distribuidas.

5.7.2. Distribución del mínimo


Similarmente miremos el máximo X (1) . Dado x ∈ R, será X (1) ≤ x si y Xi ≤ x para
algún i.
Queremos hallar FX (1) (x) = P {X (1) ≤ x}. Es más fácil mirar la probabilidad comple-
mentaria: Nuevamente como las variables son independientes,

FX (1) (x) = 1 − P {X (1) > x}


= 1 − P {Xi > x para todo i}
n
P {Xi > x} por independencia
Y
=1−
i=1
n
Y
=1− [1 − FXi (x)]
i=1
= 1 − [1 − F (x)]n

5.7.3. Distribución de los estadísticos de orden


Consideremos ahora uno cualquiera de los estadísticos de orden X (k) y, dado un x ∈ R,
preguntémosnos cuando X (k) eso significa que tenemos k observaciones que son menores o
iguales que x.
Definimos las variables
1 si Xi ≤ x

Zi =
0 si Xi > x
Vemos que son variables de Bernoulli con probabilidad de éxito p = F (x). Son indepen-
dientes porque las Xi lo eran.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 118

La variable aleatoria
n
X
N= Zi
i=1

representa el número total de observaciones Xi que son menores o iguales que x. Notamos
que
N ∼ Bi(n, p)
Entonces
n
X
(k)
P {X ≤ x} = P {N ≥ k} = b(j, n, p)
j=k

donde  
n j n−j
b(j, n, p) = p q q =1−p
j
O sea:
n  
X n
FX (k) (x) = F (x)j [1 − F (x)]n−j
j
j=k

5.7.4. Un ejemplo
Ejercicio 5.7.2 (Ejercicio 9, práctica 6) Sean X1 , . . . , Xn variables aleatorias indepen-
dientes con distribución exponencial de parámetros α1 , . . . , αn respectivamente. Mostrar que
la distribución de X (1) es exponencial. ¿De qué parámetro?

Solución: Recordamos que para una distribución exponencial Exp(α)


Z x
F (x) = αe−αx dx = 1 − e−αx
0

Entonces

FX ( 1) = 1 − P {X (1) > x} = 1 − P {Xi > x para todo i}


n
Y n
Y
=1− P {Xi > x} = 1 − [1 − FXi (x)]
i=1 i=1
Yn
=1− e−αi x = 1 − e−sx
i=1

donde s = α1 + α2 + . . . + αn . Luego X (1) ∼ Exp(s).


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 119

5.7.5. Densidad de los estadísticos de orden


Teorema 5.7.3 Si X1 , X2 , . . . , Xn son variables continuas independientes identicamente
distribuidas con densidad f y función de distribución acumulada
Z x
F (x) = f (t) dt
−∞

entonces los estadísticos de orden X (k) también son variables continuas con la densidad
fX (k) (x) = ck [F (k)]k−1 (1 − F (x))n−k f (x)
donde    
m! n−1 n
ck = =n =k
(k − 1)!(n − k)! k−1 k
Idea de la Demostración: Antes vimos que
n  
X n
FX (k) (x) = F (x)j [1 − F (x)]n−j
j
j=k

Derivando
n  
X n 
jF (x)j−1 [1 − F (x)]n−j − (n − j)F (x)j [1 − F (x)]n−j−1 f (x)

fX (k) =
j
j=k

Pero
     
n n! (n − 1)! n−1 n−1
j =j· =n· =n = (n − j)
j j!(n − j)! (j − 1)!(n − j)! j−1 j
¡Entonces la suma es telescópica y sólo sobrevive un término! (les dejo terminar la cuenta
como ejercicio)

5.8. Las densidades beta como estadísticos de orden de la


uniforme
Ejercicio 5.8.1 (Ejercicio 8, item d)) Probar que si las Xi tienen distribución unifor-
me en el intervalo [0, 1] entonces para cada k = 1, . . . , n la variable aleatoria X (k) tiene
distribución β(k, n − k + 1).
Solución: Antes vimos que
fX (k) (x) = ck [F (k)]k−1 (1 − F (x))n−k f (x)
Para la distribución uniforme si x ∈ (0, 1), f (x) = 1, F (x) = x, entonces
fX (k) (x) = ck xk−1 (1 − x)n−k
Por lo que vemos que X (k) ∼ β(k, n − k + 1).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 120

5.9. Otro ejercicio sobre estadísticos de orden, para compa-


rar
Ejercicio 5.9.1 (Ejercicio 15 de la práctica 6, item a)) Sean X1 , . . . , Xn variables alea-
torias absolutamente continuas, independientes e idénticamente distribuidas con función
de densidad f y consideremos el vector aleatorio X = (X (1) , . . . , X (n) ) conformado por
sus estadísticos de orden. Mostrar que X es absolutamente continuo y que su función de
densidad viene dada por
n
Y
fX (x) = n! f (xi )I{x:x1 <...<xn } (x).
i=1

5.10. Un ejercicio de cambio de variable


Ejercicio 5.10.1 Se tienen dos variables aleatorias independientes U, V ∼ U (0, 1). A partir
de ellas se definen las variables aleatorias R y W :
p
R = −2 log U , W = 2πV

y
X = R · cos W, Y = R · sen W
Caracterizar la distribución del vector (X, Y ).

Notamos que R toma valores en (0, +∞) y W en (0, 2π)


Para la primera parte consideramos el cambio de variable

(R, W ) = ϕ1 (U, V ) donde ϕ1 : Ω1 = (0, 1) × (0, 1) → Ω2 = (0, +∞) × (0, 2π)



dado por ϕ1 (u, v) = ( −2 log r, 2πv). Este cambio de variable es biyectivo y su inversa
1 : Ω2 → Ω1 es
ϕ−1
−r /2 w
 2 
ϕ−1
1 (r, w) = e ,

Para encontrarla, obervé que:

r2 2
−2 log u ⇔ r2 = −2 log r ⇔ − = log u ⇔ u = e−r /2
p
r=
2
w
w = 2πv ⇔ v =

Además observamos que

r ∈ (0, 1) ⇔ w ∈ (0, ∞), v ∈ (0, 1) ⇔ w ∈ (0, 2π)


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 121

¡Esta cuenta es fácil porque las varialbes no se mezclan!


Entonces según el teorema de cambio de variable

f(R,W ) (r, w) = f(U,V ) (ϕ−1 (r, w)) · | det D(ϕ−1


1 )(r, w)|

Pero
f(U,V ) (ϕ−1
1 (r, w)) = IΩ2 (z, w) = I(0,∞) (r) · I(0,2π) (w)

El jacobiano es:
2
re−r
 
−1 0 1 −r2 /2
| det D(ϕ )(z, w)| = det 1 = ze
0 2π 2π

Luego
1 −r2 /2
f(R,W ) (r, w) =
re I(0,∞) (r) · I(0,2π) (w)

Notamos que R y W son independientes. W ∼ U (0, 2π) mientras que R ∼ χ2 (una de las
distribuciones que introdujimos en la clase 11).
Ahora hacemos un nuevo cambio de variable ϕ2 : Ω2 → Ω3 = R2 dado por

(x, y) = ϕ2 (r, w) = (r cos w, r sen w)

Este cambio de variable lo conocemos bien: es el cambio de variables polares. Sabemos que
su jacobiano es r, y que podemos hacerlo biyectivo quitando un conjunto de área cero.
Entonces, el teorema de cambio de variable se aplica también. Además

r 2 = x2 + y 2

Y como det(Dϕ)(r, w) = r ⇒ det(Dϕ−1 ) = 1r . Encontramos que:

1 −r2 /2 1 2 1 (x2 +y2 )/2 1 2 1 2


f(X,Y ) (x, y) = re · = e−r /2 = e = √ e−x /2 · √ e−y /2
2π r 2π 2π 2π
Como ya vimos, esto significa que X e Y con variables con distribución normal estándar
independientes.

Este ejercicio proporciona un método para simular en la computadora la distribu-


ción normal, a partir de un generador de números pseudo-aleatorios que simula la
distribución uniforme.

La cuenta del ejercicio es la misma que la que se hace en análisis 2 para calcular el
área bajo la curva normal.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 122

5.10.1. Densidad del cociente de dos variables aleatorias independientes


Supongamos que X e Y son variables aleatorias continuas independientes, con densida-
des fX y fY respectivamente. Supongamos además que Y está concentrada en la semirrecta
positiva (0, +∞). Quremos calcular la densidad del cociente U = X/Y .
La densidad conjunta del vector aleatorio (X, Y ) será fX (x)fY (y) como consecuencia
de independencia de las variables X e Y .
Consideramos ahora el cambio de variable (U, V ) = ϕ(X, Y ) donde donde

(u, v) = ϕ(x, y) = (x/y, y)

entonces la función inversa será

(x, y) = ϕ−1 (u, v) = (uv, v)

Y la diferencial de ϕ−1 es  
v u
Dϕ−1 (u, v) =
0 1
de modo que el Jacobiano es v. De acuerdo a la proposición 5.4.1, encontramos que el
vector (U, V ) se distribuye según la densidad conjunta

fX (tv)fY (v)v

e integrando respecto la variable v podemos recuperar la densidad (marginal) de U que


resulta ser: Z ∞
fU (t) = fX (tv)fY (v)v dv (5.13)
0

5.10.2. La densidad t de Student


Sea X una variable aleatoria con distribución χ2 con n grados de libertad, Y una varia-
ble aleatoria con distribución normal estándar y supongamos que X e Y son independientes.
Queremos calcular la densidad de la variable aleatoria
q
X
n
T =
Y
[El porqué esta variable aleatoria es interesante, lo veremos más adelante al desarrollar
conceptos de estadística]
Ya vimos que la densidad de X viene dada por (4.18) Consideramos ϕ : (0, +∞) →
(0, +∞) dada por r
x
ϕ(x) =
n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 123

es un difeomorfismo cuya inversa es ϕ−1 (y) = ny 2 . q


Aplicando la fórmula de cambio de variables, encontramos que la densidad de U = X
n
es

(1/2)n/2 2
fY (y) = (ny 2 )n/2−1 e−ny /2 2ny I(0,+∞) (y)
Γ(n/2)
2nn/2 2
= n/2
y n−1 e−ny /2 I(0,+∞) (y)
2 Γ(n/2)

Utilizando la fórmula (5.13), vemos que T se distribuye según la densidad


∞ Z ∞
2nn/2
Z
2 2 2
fT (t) = fX (tv)fY (v)v dv = √ e−t v /2 v n−1 e−nv /2 v dv
n/2
2 Γ(n/2) 2π 0
0
(1−n)/2 n/2 Z ∞
2 n 2 2
= √ e−(t +n)v /2 v n dv (t > 0)
Γ(n/2) π 0

Hacemos el cambio de variable x = v2 2


2 (t + n), entonces esta integral se transforma en

∞ (n−1)/2
2(1−n)/2 nn/2 1
Z 
−x 2x
fT (t) = √ e dx
Γ(n/2) π n + t2 0 n + t2
Z ∞
nn/2 1
= √ e−x x(n−1)/2 dx
Γ(n/2) π (n + t2 )(n+1)/2 0
nn/2
 
n+1 1
= √ Γ
Γ(n/2) π 2 (n + t )(n+1)/2
2

n(n+1)/2
 
1 n+1
= √ Γ
Γ(n/2) nπ 2 (n + t2 )(n+1)/2

Finalmente obtenemos
−(n+1)/2
Γ n+1
 
t2
fT (t) = 2√
1+ (t > 0) (5.14)
Γ(n/2) nπ n

Esta distribución se conoce como distribución t de Student con n grados de libertad. Surge
del problema de estimar la media de una población normalmente distribuida cuando el
tamaño de la muestra es pequeño y la desviación estándar poblacional es desconocida.
Un dato curioso: La distribución de Student fue descripta en el año 1908 por William
Sealy Gosset. Gosset trabajaba en una fábrica de cerveza, Guinness, que prohibía a sus
empleados la publicación de artículos científicos debido a una difusión previa de secretos
industriales. De ahí que Gosset publicase sus resultados bajo el pseudónimo de “Student”.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 124

Figura 5.2: Gráfico de la densidad t de Student. Cuando n → +∞, estas curvas convergen
a la densidad normal estándar (¡ejercicio fácil de límites!).

Figura 5.3: Gráfico de la distribución acumulada de una t de Studient. Cuando n → +∞,


estas curvas convergen a la distribución acumulada de una normal estándar.
Capítulo 6

Distribución normal multivariada

6.1. Un repaso de algunas nociones


de Álgebra Lineal
6.1.1. Transpuesta de una matriz
Dada una matriz A ∈ Rm×n , su matriz transpuesta At ∈ Rn×m se obtiene intercam-
biando las filas y las columnas.
 
  1 4
1 2 3
A= ∈ R2×3 ⇒ At  2 5  ∈ R3×2
4 5 6
3 6

La operación de transponer tiene algunas propiedades interesantes:

(A + B)t = At + B t , (A · B)t = B t · At , det(At ) = det(A)

Vamos a escribir los vectores como columnas. El producto escalar lo podemos escribir así:
   
x1 y1
 x2   y2  n t
x= . . . , y = . . . ∈ R ⇒ hx, yi = x · y
  

xn yn

6.1.2. Matrices Simétricas y Ortogonales


A ⊂ Rn×n se dice simétrica si At = A.

P ⊂ Rn×n se dice ortogonal si P t · P = P · P t = I.

125
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 126

Teorema 6.1.1 Si A ⊂ Rn×n es simétrica, entonces existe P ortogonal tal que


 
λ1 0 0 ... 0
0 λ2 0 ... 0 
D = P t AP = 


 0 0 λ3 ... 0 
0 0 0 . . . λn

es diagonal, siendo los λk ∈ R los autovalores de la matriz A.

6.1.3. Formas Cuadráticas


Una forma cuadrática en las variables x1 , x2 , . . . xn es un polinomio homogéneo de
segundo grado en ellas, por ejemplo

q2 (x1 , x2 ) = x21 + 2x22 − 6x1 x2

q3 (x1 , x2 , x3 ) = x21 + 4x22 − x23 − 6x1 x2 − 8x1 x3


son formas cuadráticas en 2 y 3 variables respectivamente.
Dada una matriz simétrica A = (aij ) ∈ Rn×n , podemos asociarle la forma cuadrática
en n variables
n
X
qA (x) = hAx, xi = xt · A · x = aij xi xj
i,j=1

Recíprocamente, cada forma cuadrática está asociada a una única matriz simétrica.
Veamos cómo:

q2 (x1 , x2 ) = x21 + 2x22 − 6x1 x2


= x21 + 2x22 − 3x1 x2 − 3x2 x1
 
1 −3
⇒ q2 = qA con A =
−3 2
Similarmente

q3 (x1 , x2 , x3 ) = x21 + 4x22 − x23 − 6x1 x2 − 8x1 x3 = qB (x)

con  
1 −3 −4
B = −3 4 0
−4 0 −1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 127

Una forma cuadrática qA (x) y la correspondiente matriz simétrica A se dicen semi-


definidas positivas si
qA (x) ≥ 0 para todo x ∈ Rn
Ejemplo:  
1 −1
qA (x) = x21 − 2x1 x2 + x22 = (x1 − x2 ) , 2
A=
−1 1
es semifinida positiva.

Una forma cuadrática qA (x) y la correspondiente matriz simétrica A se dicen de-


finidas positivas si
qA (x) > 0 para todo x 6= ~0 ∈ Rn
Ejemplo
 2  
1 3 1 −1/2
qA (x) = x21 − x1 x2 + x22 = x1 − x2 + x22 A=
2 4 −1/2 1

Teorema 6.1.2 Sea A ∈ Rn×n una matriz simétrica, (λk ) sus autovalores, y qA su forma
cuadrática asociada.

A es semi-definida positiva si y sólo si λk ≥ 0 para todo k.

A es definida positiva si y sólo si λk > 0 para todo k.

Corolario 6.1.3 Si A es semi-definida positiva, det(A) ≥ 0.

Si A es definida positiva, det(A) > 0.

Esto es inmediato, pues det(A) = λ1 · λ2 · · · λn .

Curvas de nivel
En n = 2, las curvas de nivel de una forma cuadrática definida positiva son elipses.
Veámoslo en el ejemplo
 2
1 3
qA (x) = x21 − x1 x2 + x22 = x1 − x2 + x22
2 4
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 128

En n = 3 las superficies de nivel de una forma cuadrática definida positiva serán


elipsoides.

6.2. Espeanza de un vector aleatorio y Matriz de covarian-


cias
Consideramos un vector aleatorio X. Su esperanza se define componente a compo-
nente, y es un nuevo vector (no aleatorio)
   
X1 E[X1 ]
 X2 
 ∈ Rn ⇒ µX = E[X] =  E[X2 ]  ∈ Rn
 
X= . . .  ... 
Xn E[Xn ]
Definimos su matriz de covariancias Σ = ΣX = Cov por Σi,j = Cov(Xi , Xj ).

 
Cov(X1 , X1 ) Cov(X1 , X2 ) . . . Cov(X1 , Xn )
 Cov(X2 , X1 ) Cov(21 , X2 ) . . . Cov(X2 , Xn ) 
ΣX = Cov(X) =   ∈ Rn×n
 ... 
Cov(Xn , X1 ) Cov(Xn , X2 ) . . . Cov(Xn , Xn )
Notamos que es una matriz simétrica. También podemos escribir:
Cov(X) = E[(X − µX ) · (X − µX )t ]
Notamos que en la diagonal de la matriz de covariancias Cov(X) aparecen las variancias
2
σX i
= Cov(Xi , Xi ) = Var(Xi )

Otra observación interesante es que si las componentes del vector X son independientes,
entonces serán no correlacionadas
Cov(Xi , Xj ) = 0 si i 6= j
por lo que la matriz Cov(X) será diagonal.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 129

Un ejemplo que ya vivmos: Distribución normal multivariada estándar


Si X es un vector con componentes Xi ∼ N (0, 1) independientes, su densidad conjunta
vendrá dada por
n
Y 1 2 1 2
f (x) = √ e−xi /2 = n/2
e−kxk /2
i=1
2π (2π)
Tenemos
E[X] = ~0, Cov(X) = I (matriz identidad)
Por ejemplo si n = 2 tenemos la distribución normal bivariada estándar

Efecto de un cambio lineal sobre la esperanza y la matriz de covariancias


Si hacemos un cambio lineal Y = A·X +b donde ahora b ∈ Rn es un vector no aleatorio,
y A ∈ Rn×n es una matriz no aleatoria, encontramos que:

E[Y ] = AE[X] + E[b] = AE[X] + b = A · µX + b

mientras que:

Cov[Y ] = E[(X − µY ) · (Y − µY )t ]
= E[((A · µX + b)) − (A · µX + b)) · (A · X + b − (A · µX + b))t ]
= E[(A · (X − µ)) · (A · (X − µX ))t ]
= E[A · (X − µ)) · (X − µX )t · At ]
= A · E[(X − µ)) · (X − µX )t ] · At
= A · Cov(X) · At

o sea:
ΣY = A · ΣX · At
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 130

La matriz de covariancias es siempre definida positiva


Teorema 6.2.1 Si X es un vector aleatorio n-dimensional, su matriz se covarinncias
Cov(X) es una matriz simétrica semi-definida positiva.

Además, es definida positiva, salvo en el caso en que la distribución del vector X está
concentrada en un hiperplano afin H, es decir cuando existe un hiperplano afín

H = {x ∈ Rn : α1 · x1 + α2 · x2 + . . . + αn · xn = b}

tal que
P {X ∈ H} = 1

Prueba: Sea µX = E[X]. Entonces ya observamos que Cov(X − µX ) = Cov(X). Por lo


que podemos suponer sin pérdida de generalidad que µX = ~0.
Entonces Cov(X) = E[X · X t ]. Consideremos la expresión

q(α) = E[(α1 X1 + α2 X2 + . . . + αn · Xn )2 ] α ∈ Rn

Notamos que q(α) ≥ 0 y que


 
Xn n
X n
X
q(α) = E  Xi Xj αi αj =
 E[Xi Xj ]αi αj = Cov(Xi , Xj )αi αj
i,j=1 i,j=1 i,j=1

Entonces q(α) es la forma cuadrática asociada a la matriz Cov(X). Deducimos que


Cov(X) es semidefinida positiva. Finalmente si para algún α ∈ Rn ,

q(α) = 0 ⇒ α1 X1 + α2 X2 + . . . + αn · Xn = 0 con probabilidad 1

y esto dice que la distribución del vector X está concentrada en un hiperplano.




6.3. Distribución normal multivariada en general


Planteo del problema
En el ejercicio 25 de la práctica 7 se plantea el siguiente problema, supongamos que X
es un vector con distribución normal multivariada estándar como vimos antes, hacemos un
cambio lineal de variable
Y =A·X +b
donde A es una matriz no singular. ¿cuál es la distribución de Y ?
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 131

Esta distribución se llamará distribución normal multivariada, y es sumamente útil


en las aplicaciones a la estadística. Generalizará a n dimensiones la distribución normal.
En las guías prácticas se considera el caso especial en que n = 2 (distribución normal
bivariada), pero las cuentas son igualmente fáciles en general (con la notación adecuada).

Algunas observaciones
Para simplificar, vamos a considerar primero el caso especial donde b = ~0. (distribu-
ción normal multivariada centrada en el origen)
Ya vimos que entonces la esperanza y varianza de Y serán
µY = A · µX = ~0
ΣY = A · ΣX · At = A · At
[Ojo: ¡en esta expresión el orden importa, no siempre una matriz A conmuta con su
transpuesta At !]
Esta es una matriz matriz simétrica definida positiva asociada a la forma cua-
drática q(x) = kAt · xk2 pues
q(x) = (At · x)t · (At · x) = xt · (A · At ) · x
y como A es no singular, At también con lo que q(x) = 0 si y sólo si x = 0.

Fórmula de la densidad conjunta en la normal multivariada


Usando el teorema de cambio de variable que vimos en la clase 11 con y = ϕ(x) = A · x,
= A−1 · x, tenemos que la densidad conjunta de Y se relaciona con la de X por
ϕ−1 (y)
fY (y) = fX (A−1 y) · |det(A−1 )|
1 −1 2
= n/2
e−kA yk /2 · |det(A−1 )|
(2π)
Vamos a reescribir esta fórmula en términos de la matriz de covariancias
Σ = Σ Y = A · At
Notamos que
kA−1 yk2 = (A−1 y)t · (A−1 y) = y t · (A−1 )t · A−1 · y
Como por otra parte:
Σ−1 = (A · At )−1 = (At )−1 · A−1 = (A−1 )t · A−1
vemos que esta expresión es la forma cuadrática qΣ−1 asociada a Σ−1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 132

Fórmula de la densidad conjunta en la normal multivariada


Hasta ahora vimos que
1 1
fY (y) = n/2
e− 2 q(y) · |det(A−1 )|
(2π)
donde
q(y) = qΣ−1 (y) = y t Σ−1 y
Finalmente, veamos que relación tiene del determinante de A−1 con el de Σ. Como Σ =
A · At , entonces
det(Σ) = det(A) · det(At ) = det(A)2 ⇒ |det(A−1 )| = det(Σ)−1/2
y obtenemos la fórmula de la Densidad normal multivariada centrada en el origen:
1 1 t −1
fY (y) = p e− 2 y Σ y
n
(2π) det(Σ)

Distribuciones marginales de la normal multivariada


Como
n
X
Yj = Ai,j · Xj
i=1
y las Xj ∼ N (0, 1) independientes,
Ai,j · Xj ∼ N (0, A2i,j )
Usando el teorema que vimos en la clase 11 sobre la suma de variables normales indepen-
dientes, obtenemos que:
n
Yj ∼ N (0, σj ) donde σj =
X
2 2
A2i,j
i=1
Notamos que esto es consistente con la fórmula
ΣY = At · A
que obtuvimos antes (Las σj2 aparecen en la diagonal de la matriz ΣY ).

Un caso especial
Un caso de especial interés es cuando la matriz A con la que hacemos el cambio de
variable es ortogonal Y = A · X, lo que siginifca que Σ = A · At = I. También det(Σ) = 1.
Por lo que obtenemos que fY = fX , o sea:

Proposición 6.3.1 Si X tiene distribución normal multivariada estándar, y hacemos un


cambio de variable Y = A · X con A una matriz ortogonal, Y también tiene distribución
normal multivariada estándar.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 133

Caso general
Si b ∈ Rn es cualquiera y A ∈ Rn×n es una matriz no singular, a partir de Y = A · X + b
obtendríamos que
µY = E[Y ] = b
y que
Σ = Cov(Y ) = A · At
mientras que la densidad de Y será
1 1 t Σ−1 (y−µ)
fY (y) = p e− 2 (y−µ)
(2π)n det(Σ)

Algunas observaciones
Proposición 6.3.2 Si X tiene distribución normal multivariada, son equivalentes:
Las componentes Xj de X son independientes.
Las Xj no están correlacionadas, o sea
Cov(Xi , Xj ) = 0 si i 6= j
o sea la matriz Cov(X) es diagonal.
Recordamos que esta propiedad NO es cierta para vectores aleatorios en general.

El caso especial n = 2, distribución normal bivariada


En el ejercicio 25 de la práctica 7 se considera el caso especial n = 2, con un ligero
cambio de notación: ahora el vector aleatorio se denota (X, Y ), no (Y1 , Y2 ). La densidad
conjunta es:
(  )
2  2   
x−µX y−µ x−µ y−µY
−  1  + σ Y −2ρ σ X
1 2 1−ρ2 σX Y X σ
Y
fXY (x, y) = p e
2πσX σY 1 − ρ2
donde
2
   
µX σX ρσX σY
µ= y Σ= .
µY ρσX σY σY2
y ρ es el coeficiente de correlación entre X e Y .
Esta fórmula sale de que en este caso
σY2
 
2 2 2 −ρσX σY
det(Σ) = σX σY (1 − ρ ), Adj(Σ) =
−ρσX σX σY2
!
t 1 ρ
Adj(A) 1 −
Σ−1 = = σX
ρ
σX σY
1
det(A) 1 − ρ2 − σX σY σY
Capítulo 7

Teoría de la predicción

7.1. El contexto abstracto en el que vamos a trabajar


Consideramos un espacio de probabilidad (Ω, E, P ). Consideramos el espacio vectorial
de las variables aleatorias con segundo momento finito

L2 (Ω) = {variables aleatorias X : Ω → R : E(X 2 ) < ∞}


Recordamos que si X ∈ L2 (Ω),

E(|X|) ≤ E(X 2 )1/2 por la desigualdad de Jensen

y
Var(X) = E(X 2 ) − E(X)2
Por lo que las variables aleatorias en L2 tienen esperanza y varianza finitas.
L2 (Ω) es un espacio normado con la norma

kXk = E(X 2 )1/2

que proviene del producto interno

hX, Y i = E(X · Y )

Es un espacio con producto interno o espacio pre-Hilbert.


Para que L2 (Ω) sea realmente un espacio vectorial normado, hay considerar iguales a
las variables aleatorias X e Y tales que

P {X = Y } = 1

Con esta convención,


kXk = 0 ⇒ X = 0

134
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 135

7.2. Planteo del problema


Consideramos dentro de L2 un subespacio S. Queremos aproximar una variable alea-
toria Y por un elemento del subespacio Yb ∈ S.
Particularmente, vamos a usar dos subespacios:

S1 = variables aleatorias constantes = h1i

y dada una variable aleatoria X vamos a considerar

S2 = {αX + β : α, β ∈ R} = h1, Xi

La idea es que queremos usar Yb para predecir el valor de Y , por eso en la teoría de
probabilidades se lo llama un predictor de Y .
¿Cuál es la mejor manera de elegir Yb ? Eso depende de cómo midamos el error en la
aproximación. Vamos a usar el criterio del error cuadrático medio. Queremos minimizar

ECM(Y, Yb ) = E(|Y − Yb |2 ) = kY − Yb k2

7.3. Un lema de álgebra lineal


Lema 7.3.1 Sea V un espacio con producto interno y S ⊂ V un subespacio. Consideramos
x0 ∈ V . Entonces s0 ∈ S es el elemento de S que minimiza la distancia a x0

d(x, s) = kx − sk x ∈ S

si y sólo si s0 es la proyección ortogonal de x0 sobre s es decir:

x0 − s 0 ∈ S ⊥

o sea
hx0 − s0 , si = 0 para todo s ∈ S (7.1)

Nuestro V = L2 (Ω) es un espacio de dimensión infinita, pero este lema funciona exac-
tamente igual que en dimensión finita (y con la misma prueba).
Si S fuera de diemnsión finita, es suficiente verificar la condición de ortogonalidad (7.1)
para s en una base de S.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 136

Figura 7.1: Ilustración gráfica de la proyección ortogonal


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 137

7.4. Predicción por variables aleatorias constantes


Apliquémoslo al primero de nuestros ejemplos

S1 = variables aleatorias constantes = h1i

(subespacio de dimensión 1).


Dada Y ∈ L2 , la condición para que Yb ∈ S0 sea el predictor constante que minimiza el
error medio cuadrático es según el lema (con S = S0 , x0 = Y ,s0 = Yb ):

hY − Yb , 1i = 0

o sea:
E[(Y − Yb ) · 1] = 0
Como Yb es constante, esto nos dice que el mejor predictor de Y es:

Y
c0 = E[Y ]

y entonces el error medio cuarático en esta aproximación será

EMC1 = mı́n kY − Yb k2 = kY − Yb0 k2 = E[(Y − Y


c0 )2 ] = Var(Y )
Yb ∈S1

7.5. Predicción por funciones lineales de X


Ahora dada otra variable aleatoria X, consideramos

S2 = {αX + β : α, β ∈ R} = h1, Xi

(subespacio de dimensión 2). Según el lema, las condiciones de ortogonalidad que debe
verificar el predictor óptimo son:
hY − Yb , 1i = 0
hY − Yb , Xi = 0
o sea:
E[(Y − Yb ) · 1] = 0
E[(Y − Yb ) · X] = 0
Entonces los coeficientes α, β para el predictor óptimo deben satisfacer que

E[(Y − αX − β) · 1] = 0

E[(Y − αX − β) · X] = 0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 138

La primera condición dice que

E[Y ] − αE[X] − β = 0 (7.2)

También multiplicándola por E[X] obteneos que

E[(Y − αX − β) · E[X]] = 0

y entonces restándola de la segunda condición

E[(Y − αX − β) · (X − E(X))] = 0

Reemplazando el valor de β dado por (7.2),

E[(Y − αX − E(Y ) − αE(X)) · (X − E(X))] = 0

por lo tanto
E[(Y − E(Y )) − α(X − E(X))] · (X − E(X))] = 0
Entonces distribuyendo la esperanza, obtenemos

Cov(X, Y ) = E[(X − E[X]) · (Y − E(Y ))]


= α E[(X − E(X))2 ]
= αVar(X)

En resumen, hemos demostrado

Teorema 7.5.1 Sea Yb0 el predictor de menor error cuadrático medio en S2 . Vine dado
por Yb0 = αX + β donde α y β se determinan por las ecuaciones:

Cov(X, Y )
α=
Var(X)

β = E(Y ) − αE[X]

7.6. Cálculo del error cuadrático medio


Calculemos el error cuadrático medio óptimo al aproximar Y por una función lineal de
X.
EMC2 = mı́n kY − Yb k
Yb ∈S2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 139

Primero usamos que en el predictor óptimo β = E(Y ) − αE[X]

ECM2 = kY − Yb0 k2 = E[(Y − Yb0 )2 ] = E[(Y − αX − β)2 ]


= E[(Y − αX − (E[Y ] − αE[X]))2 ]
= E[((Y − E(Y )) − α(X − E(X)))2 ]
= E[(Y − E(Y ))2 ] + α2 E[(X − E(X))2 ] − 2αE[(Y − E(Y )) · (X − E(X))]
= Var(Y ) + α2 Var(X) − 2αCov(X, Y )

Y usando que α = Cov(X,Y


Var(X) en el predictor óptimo,
)

ECM2 = Var(Y ) + α2 Var(X) − 2αCov(X, Y )


Cov2 (X, Y ) Cov2 (X, Y )
= Var(Y ) + −2
Var(X) Var(X)
Cov2 (X, Y )
= Var(Y ) −
Var(X)

7.7. Mejora en el error medio cuadático


Queremos comparar cuánto mejoró el error medio cuadrático al usar como predictor de
Y una función lineal de X comparado con usar una variable aleatoria constante. Para ello
consideramos el cociente

Var(Y ) + Cov
2

Var(X) − Var(Y )
(X,Y )
EM C1 − EM C2
=
ECM1 Var(Y )
Cov2 (X, Y )
= = ρ2 (X, Y )
Var(X)Var(Y )

Esto permite interpretar el coeficiente ρ2 (X, Y ) como el decrecimiento relativo del error
cuadrático medio cuando se usa un predictor lineal basado en X en vez de un predictor
constante. Por lo tanto ρ2 (X, Y ) mide la utilidad de la variable X para predecir a Y por
una función lineal.

7.8. Algunas observaciones


Notamos que como S1 ⊂ S2 , ECM2 ≤ ECM1 . Esto nos dice nuevamente que |ρ(X, Y )| ≤
1, o sea nos proporciona otra prueba de la desigualdad de Cauchy-Schwarz.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 140

¿Qué significaría |ρ| = 1?. Según la fórmula anterior, esto implica que

ECM1 − ECM2 = ECM1 ⇒ ECM2 = 0

o sea que Y es una función lineal de X.


Notamos también que como para el predictor óptimo
Cov(X, Y )
α=
Var(X)
el signo de ρ(X, Y ) coincide con el signo de α. [Si ρ(X, Y ) > 0 el predictor óptimo será una
función lineal creciente de X, mientras que si ρ < 0 será una función lineal decreciente]

7.9. Regresión lineal la computadora


Veamos un rogramita en Python, usando SciPy:

# x uniforme en (0 ,30)

x = np. random . uniform (size =30, low =0, high =30)

# y = a*x + b con ruido


y = 0.5 * x + 1.0 + np. random . normal (scale =1, size=x.shape)

regresion = scipy.stats. linregress (x, y)


alpha = regresion .slope
beta = regresion . intercept
rho = regresion . rvalue
y_predicho = alpha * x + beta

El gráfico de la recta resultante se muestra en el siguiente gráfico:


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 141

Nota: Este capítulo está basado en las notas de Victor Yohai [Yoh], aunque preferimos utilizar
el lenguaje de álgebra lineal abstracta (análisis funcional) para hacer explícito el uso de la proyección
ortogonal. Y hemos agregado este último ejemplo para ilustrar cómo realizar una regresión lineal
en la computadora.
Capítulo 8

Convergencia de Variables
Aleatorias, y Ley Fuerte de los
Grandes Números

8.1. Convergencia en probabilidad


En la teoría de probabilidades se utilizan frecuentemente diferentes nociones de conver-
gencia de una sucesión (Xn )n∈N de variables aleatorias.
La primera noción que vamos a estudiar es la de convergencia en probabilidad, que
aparece en el teorema de Bernoulli (ley débil de los grandes números).

Definición 8.1.1 Sea (Xn )n∈N una sucesión de variables aleatorias, definidas sobre un
mismo espacio de probabilidad (Ω, E, P ). Se dice que (Xn ) converge en probabilidad a
la variable X si para todo ε > 0, tenemos que

P {|X − Xn | > ε} → 0 cuando n → +∞

Notación:
P
Xn −→ X

Observación: Si (Xn ) converge en probabilidad a X, cualquier subsucesión de (Xn )


también converge en probabilidad a X.

Ejemplo 8.1.2 (Variables con distribución uniforme que se concentran) Si Xn ∼


U(−1/n, 1/n) y X = 0 con probabilidad 1. Entonces Xn −→ X.
P

142
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 143

Prueba:
P {|Xn − X| > δ} = P {|Xn − X| > δ/X = 0} · P {X = 0}
+ P {|Xn − X| > δ/X 6= 0} · P {X 6= 0}
= P {|Xn | > δ} = 0
si 1
n < δ o sea n > 1δ , ya que |Xn | ≤ 1
n con probabilidad 1. 

Ejemplo 8.1.3 (Variables con distribución normal que se concentran) Si Xn ∼ N (0, σn2 )
donde σn → 0 y X = 0 con probabilidad 1. Entonces Xn −→ X.
P

Prueba:
P {|Xn − X| > δ} = P {|Xn − X| > δ/X = 0} · P {X = 0}
+ P {|Xn − X| > δ/X 6= 0} · P {X 6= 0}
1
= P {|Xn | > δ} ≤ 2 Var(Xn )
δ
σn2
= 2 →0
δ
cuando n → +∞, por la desigualdad de de Chebyshev. 
Veamos algunas propiedades de la convergencia en probabilidad:

Proposición 8.1.4 (Unicidad del límite) Si Xn −→ X y Xn −→ Y , entonces X = Y


P P

con probabilidad 1.

Prueba: Por la desigualdad triangular,


|X − Y | ≤ |X − Xn | + |Xn − Y |
Entonces
P {|X − Y | > ε} ≤ P {|X − Xn | > ε/2} + P {|Xn − Y | > ε/2}
Deducimos que para todo ε > 0,
P {|X − Y | > ε} = 0
Como
[  1

{X 6= Y } = |X − Y | >
n
n∈N
Por la σ-subaditividad de P , deducimos que:
∞  
X 1
P {X 6= Y } ≤ P |X − Y | > =0
n
n=1


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 144

Proposición 8.1.5 Si Xn −→ X y c ∈ R, entonces cXn −→ cX.


P P

Prueba: Si c 6= 0, tenemos que


 
ε
P {|cXn − cX| > ε} = P |Xn − X| > → 0 cuando n → +∞
|c|

Si c = 0 es trivial. 

Proposición 8.1.6 Si Xn −→ X e Yn −→ Y , entonces Xn + Yn −→ X + Y .


P P P

Prueba:

P {|(X + Y ) − (Xn + Yn )| > ε} ≤ P {|X − Xn | > ε/2} + P {|Y − Yn | > ε/2}

Observación 8.1.7 Sea X : Ω → R una variable aleatoria finita en casi todo punto.
Entonces X está acotada en probabilidad en el siguiente sentido, dado ε > 0 existe k0 > 0
tal que
ε
P {|X| ≥ k0 } <
2

Prueba: Notamos que



X
P {k − 1 ≤ |X| < k} = 1
k=1

es una serie convergente, por consiguiente dado ε > 0, existirá un k0 tal que:

X ε
P {k − 1 ≤ |X| ≤ k} <
2
k=k0 +1

Es decir que:
ε
P {|X| ≥ k0 } <
2


Lema 8.1.8 Si Xn −→ X, entonces (Xn ) está acotada en probabilidad, en el siguiente


P

sentido, dado ε > 0 existn M = Mε

∀ n ≥ n0 (ε) : P {|Xn | > M } < ε

para todo n.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 145

Prueba: Elegimos k0 como en la observación anterior. De la desigualdad triangular,

|Xn | ≤ |Xn − X| + |X|

Deducimos que:

P {|Xn | > k0 + δ} ≤ P {|Xn − X| > δ} + P {|X| > k0 }

y en consecuencia que
P {|Xn | > k0 + δ} ≤ ε
si n ≥ n0 (ε). Como hay una cantidad finita de valores de n < n0 combinando esto con la
observación anterior, se obtiene el resultado. 

Lema 8.1.9 Si Xn −→ 0 e Yn está acotada en probabilidad, entonces Xn Yn −→ 0.


P P

Prueba:  
ε
P {|Xn Yn | > ε} = P |Xn | >
|Yn |
   
ε ε
≤ P |Xn | > ∧ |Yn | ≤ M + P |Xn | > ∧ |Yn | > M
|Yn | |Yn |
n ε o
≤ P |Xn | > + P {|Yn | > M } < ε
M
si n ≥ n0 (ε). 

Corolario 8.1.10 Si Xn −→ X e Yn −→ Y , entonces Xn Yn −→ XY .


P P P

Prueba: Utilizamos el truco habitual de “sumar y restar”:

XY − Xn Yn = XY − Xn Y + Xn Y − Xn Yn = (X − Xn )Y + Xn (Yn − Y )

Entonces como X − Xn −→ 0 e Y está acotada en probabilidad, deducimos que (X −


P

Xn )Y −→ 0. Similarmente, como Yn − Y −→ 0 y Xn está acotada en probabilidad (por la


P P

proposición 8.1.8, deducimos que (X −Xn )Y −→ 0. Tenemos entonces que Xn Yn −XY −→


P P

0, y en consecuencia Xn Yn −→ XY (por la proposición 8.1.6)


P

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 146

8.2. Convergencia casi-segura


Definición 8.2.1 Se dice que la sucesión (Xn ) de variables aleatorias converge casi
seguramente a la variable X si
 
P lı́m Xn = X = 1
n→+∞

Notación:
c.s.
Xn −→ X

Proposición 8.2.2 Si Xn −→ X, entonces Xn −→ X.


c.s. P

Prueba: Notamos que por la definición de límite,


1
Xn (ω) −→ X(ω) ⇔ ∀k ≥ 1 ∃n0 ∀n ≥ n0 : |Xn (ω) − X(ω)| ≤
k
Negándola, tenemos que:
1
Xn (ω) 6−→ X(ω) ⇔ ∃k ≥ 1 ∀n0 ∃n ≥ n0 : |Xn (ω) − X(ω)| >
k
Esto podemos traducirlo en una relación entre conjuntos:
∞ \ ∞ [  
[ 1
{ω ∈ Ω : Xn (ω) 6−→ X(ω)} = ω ∈ Ω : |Xn (ω) − X(ω)| >
k
k=1 n0 =1 n≥n0

Como Xn −→ X, este conjunto tiene probabilidad 0. En consecuencia, también tienen


c.s.

probabilidad cero los eventos (más perqueños)


∞ [  
\ 1
Ak = ω ∈ Ω : |Xn (ω) − X(ω)| >
k
n0 =1 n≥n0

Como los eventos:


[  1

Bk,n0 = ω ∈ Ω : |Xn (ω) − X(ω)| >
k
n≥n0

son decrecientes, deducimos (por la continuidad de la probabilidad) que:



\
Ak = Bk,no ∧ P (Ak ) = 0 ⇒ lı́m P (Bk,n0 ) = 0
n0 →+∞
n0 =1

Vale decir que si elegimos n0 suficientemente grande, P (Bk,n0 ) < δ En consecuencia,


 
1
P ω ∈ Ω : |Xn (ω) − X(ω)| > <δ
k
para todo n ≥ n0 . Deducimos que Xn tiende en probabilidad a X. 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 147

8.3. Un ejemplo para ver que convergencia en probabilidad


no implica convergencia casi segura
Cuando trabajamos con la noción de convergencia casi-segura va a importar cuál es el
espacio muestral (Ω, E, P ).
En este ejemplo, vamos a considerar, el espacio muestral correspondiente al experimento
de elegir un número real con distribución uniforme en [0, 1].

Ω = [0, 1]

P (E) = m(E). Comentamos que es una medida σ-aditiva que extiende la medida
elemental de uniones finitas intervalos.

E ⊂ P([0, 1]) será la σ-álgebra de Borel de [0, 1], generada por los sub-intervalos de
[0, 1].

Recordamos que una forma de pensarlo es que elegimos los dígitos binarios de un
número real en [0, 1] tirando infinitas veces una moneda equilibrada (ensayos de Bernoulli
con probabilidad de éxito 1/2).
Para n ∈ N, definimos los intervalos
 
j j+1
Jn = k , k
2 2

donde k = k(n) = [log2 (n)] y j = j(n) cumple que n = 2k + j con j ∈ {0, 1, 2, . . . , 2j−1 }.
Definimos Xn : [0, 1] → R como la función indicadora del intervalo Jn .

1 si ω ∈ Jn

Xn (ω) =
0 si ω 6∈ Jn

¡Cuando usamos el espacio muestral Ω = [0, 1] las funciones reales se vuelven variables
aleatorias!
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 148

En este ejemplo, observamos que dado 0 < δ < 1,


1
P {|Xn | > δ} = → 0 cuando n → +∞
2k
Entonces
P
Xn −→ 0

Pero dado cualquier ω ∈ [0, 1], hay infinitos n tales que ω ∈ Jn , o sea Xn (ω) = 1. Por
lo que Xn no converge en forma casi segura a cero.

8.4. El lema de Borel-Cantelli


Lema 8.4.1 (de Borel-Cantelli [Bor09], [Fra17]) Consideramos una sucesión (An )n∈N
de eventos, y consideramos el el evento “ocurren infinitos An ”, es decir:
\ [
A∞ = An
k∈N n≥k

entonces
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 149

i) Si

(8.1)
X
P (An ) < +∞
n=1

entonces, con probabilidad 1 ocurre un número finito de tales sucesos. Es decir

P (A∞ ) = 0

ii) Si los An son eventos independientes, y



(8.2)
X
P (An ) = +∞
n=1

entonces, con probabilidad 1 ocurren infinito s An . Es decir,

P (A∞ ) = 1

Prueba: Demostración de i): Dado ε > 0, teniendo en cuenta la hipótesis (8.1), podemos
elegir k tal que
X∞
P (An ) < ε
n=k

Entonces, por la σ-subaditividad de la probabilidad:


 
[ X∞
P An  ≤ P (An ) < ε
n≥k n=k

y como la probabilidad es creciente:


 
[
P (A∞ ) ≤ P  An  < ε
n≥k

Como, ε es arbitrario, deducimos que:

P (A∞ ) = 0

Demostración de ii): Miremos el complemento de A∞ , que es según las leyes de De


Morgan: [ \
Ac∞ = Acn
k∈N n≥k
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 150

Entonces, tenemos que:


l l l
!
\ Y Y
P Acn = P (Acn ) = P (Acn )
n=k n=k n=k

ya que como los eventos (An ) son independientes, también lo son sus complementos. Ahora
utilizando la desigualdad elemental

1 − x ≤ e−x x ∈ [0, 1],

tenemos que:
l l l
! !
\ Y X
−P (An )
P Acn ≤ e = exp − P (An )
n=k n=k n=k

y en consecuencia utilizando que la probabilidad es creciente, y la hipótesis (8.2), deducimos


que:

!
\
c
P An = 0
n=k

(ya que el segundo miembro de la desigualdad anterior tiende a cero cuando l → ∞).
Entonces, por la σ-subaditividad de la probabilidad,
 

X [ \
P (Ac∞ ) ≤ P Acn  = 0
k=1 k∈N n≥k

deducimos que
P (A∞ ) = 1


8.4.1. Un ejemplo para el lema de Borel-Canteli


Ejemplo 8.4.2 Un mono teclea al azar en una computadora. Supongamos que cada tecla
tiene una probabilidad positiva (no necaraiamente todas la misma) de ser pulsada y que
las distintas pulsaciones del mono son independientes. Demostrar que con probabilidad 1,
el mono eventualmente tecleará el cuento El Aleph de Borges (o cualquier otra obra que
queramos), infinitas veces.

Solución: El mono teclea letras de un alfabeto con N caracteres. Cada caracter tiene
probabilidad pk > 0 de ser pulsado cada vez que el mono pulsa una tecla, de modo que
N
X
pk = 1, pk > 0
k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 151

Supongamos que El Aleph tiene L caracteres correspondientes a los índices k1 , k2 , . . . , kL >


0. Dada una secuencia de L caracteres, la probabilidad de que coincida con los caracteres
de El Aleph será el producto
p = pk1 pk2 . . . pkL > 0
de las correspondientes probabilidades, por la independencia de las pulsaciones. En gene-
ral, esta probabilidad será extremadamente pequeña. Pero esto vo va a afectar a nuestro
argumento.
Ahora dividamos las pulsaciones del mono en bloques de L caracteres, y sea An el
evento: “el mono teclea el Aleph en el n-ésimo bloque’´. Notmaos que los An son eventos
independientes y tienen todos probabilidad p. Como p > 0 la serie

X
P (An )
n=1

diverge. Entonces por el lema de Borel Cantelli (parte II), con probabilidad 1 ocurrirán
infintos de los sucesos An , o sea el mono tecleará infinitas veces el Aleph.
Obviamente este ejemplo es una abstracción matemática: en la realidad no funciona,
¡porque la vida del mono no es infinita! ¡Y el lema de Borel-Cantelli no nos dice nada sobre
cuánto tiempo tendremos que esperar hasta que el mono teclee por puro azar nuestra obra
literaria favorita!.

8.5. Un Criterio para la convergencia casi segura


Como aplicación del lema de Borel-Cantelli, se tiene el siguiente criterio para la con-
vergencia casi segura:

Proposición 8.5.1 Sea (Xn ) : Ω → R una sucesión de variables aleatorias, y X : Ω → R


otra variables aleatoria. Supongamos que para todo ε > 0,

X
P {|Xn − X| > ε} < +∞
n=1

(o sea, esta serie converge). Entonces


c.s.
Xn −→ X

Prueba: El lema de Borel Cantelli (parte I) implica que si llamamos An,ε al evento

An,ε = {ω ∈ Ω : |Xn (ω) − X(ω)| > ε}


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 152

entonces, con probabilidad 1 ocurren sólo finitos de los sucesos An,ε , es decir que el evento
\ [
A∞,ε = An,ε
k∈N n≥k

tiene probabilidad cero. Tomando ε = 1/m, con m ∈ N, y usando la σ sub-aditividad de


la probabilidad, vemos que el evento:

B = {ω ∈ Ω : Xn (ω) 6→ X(ω)}
 
1
= ω ∈ Ω : ∃m ∈ N ∀k ∈ N ∃n ≥ k : |Xn (ω) − X(ω)| >
m
[
= A∞,1/m
m∈N

tiene probabilidad cero, ya que es la unión numerable de eventos de probabilidad cero. En


consecuencia, P (B c ) = 1, es decir que
c.s.
Xn −→ X.


Como aplicación del lema de Borel-Cantelli, se tiene el siguiente criterio para la con-
vergencia casi segura:

Corolario 8.5.2 Sea (Xn ) : Ω → R una sucesión de variables aleatorias, y X : Ω → R


otra variables aleatoria. Supongamos que para algún p > 0,

X
E[|Xn − X|p ] < +∞
n=1

(o sea, esta serie converge). Entonces


c.s.
Xn −→ X

Prueba: Usando la desigualdad de Markov tenemos que


∞ ∞
X X E[|Xn − X|p ]
P {|Xn − X| > ε} ≤ < +∞
εp
n=1 n=1

por lo que se deduce del resultado anterior. 


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 153

8.6. Un caso especial de la desigualdad de Khinchine


El siguiente lema nos será de utilidad en la prueba de la ley fuerte de los grandes
números (con aj = 1), pero lo enuncio así porque nos puede ser útil en algún ejemplo más
adelante.
Lema 8.6.1 (Un caso especial de la desigualdad de Khinchine) Sean (Xk ) una su-
cesión de variables aleatorias independientes con E[Xk ] = 0 y cuarto momento acotado
E[|Xk |4 ] ≤ M donde M ∈ R
Entonces si los (aj ) son reales,
 !4  !2
n
X n
X
E ai Xi  ≤ 3M a2i
i=1 i=1

Prueba: Usando la linealidad de la esperanza, tenemos que


 !4 
Xn X
E ai Xi  = ai1 ai2 ai3 ai4 E[Xi1 Xi2 Xi3 Xi4 ]
i=1 1≤i1 ,i2 ,i3 ,i4 ≤n

Como las Xi son independientes, notamos que


E[Xi1 Xi2 Xi3 Xi4 ] = 0
salvo en el caso en que los subíndices son todos iguales, o si son iguales por pares (utilizando
que la esperanza del producto es el producto de las esperanzas cuando las variables son
independientes, y que la esperanza de cada variable es cero). Notemos que cada término
E[Xi2 Xj2 ] con i < j aparece 42 = 6 veces en esta suma.


Nos queda:
 4 
Xn n
X n
X
E  aj Xj   = a4i E[Xi4 ] + 6 a2i a2j E[Xi2 Xj2 ]
j=1 i=1 i,j=1,i<j

Notamos que por la desigualdad de Jensen


E[Xi2 ]2 ≤ E[(Xi2 )2 ] = E[Xi4 ] ≤ M
Y por otra parte i 6= j, Xi2 es independiente de Xj2 en consecuencia:
E[Xi2 Xj2 ] = E[Xi2 ]E[Xj2 ] ≤ M
Nos queda:
 !4    #2
n n n n
"
X X X X
E ai Xi ≤M a4i + 6 a2i a2j  ≤ 3M a2i
i=1 i=1 i,j=1,i<j i=1


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 154

8.7. La ley fuerte de los grandes números


Teorema 8.7.1 Sea (Xn )n∈N una sucesión de variables aleatorias independientes e iden-
ticamente distribuidas con m4 = E[Xn4 ] < +∞. Sea µ = E[Xi ] entonces

X1 + X2 + . . . Xn c.s.
−→ µ
n
cuando n → +∞.

Nota:La hipótesis de que el cuarto momento m4 es finito no es necesaria para la


validez de este teorema, pero facilitará enormemente la demostración. Una demostración
del teorema sin esta hipótesis (ley fuerte de Kolmogorov) se da en el apéndice G.
Prueba: La idea de la demostración va a ser usar el criterio para convergencia casi
segura que vimos antes con p = 4. Podemos suponer que µ = 0, cambiando sino Xn por
Yn = Xn − µ, ya que
Y1 + Y2 + . . . + Yn X1 + X2 + . . . + Xn
Yn = = − µ = Xn − µ
n n
con lo que
c.s. c.s.
X n −→ µ ⇔ Y n −→ 0
Notamos Sn = X1 + X2 + . . . + Xn .
Usando el lema con aj = 1 para todo j, podemos estimar el cuarto momento de Sn :

E Sn4 ≤ 3m4 n2
 

Deducimos que: " 4 #


Sn C
E ≤
n n2
Como la serie

X C
n2
n=1

converge, el criterio para la convergencia casi segura que vimos antes (con p = 4),
implica que
Sn c.s.
−→ 0
n

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 155

8.7.1. Un ejemplo: La ley fuerte de Borel para ensayos de Bernoulli


Un primer ejemplo que podemos considerar es el esquema de ensayos de Bernoulli, que
consideramos en el capítulo 3. Recordamos que en este esquema, un experimento con dos
posibles resultados (llamados convencionalmente éxito y fracaso) se repite infinitas veces
en condiciones independientes. Llamamos p a la probabilidad del éxito.
Como antes, consideramos entonces las variables aleatorias de Bernoulli:

1 si el i-ésimo experimento fue un éxito



Xi =
0 si el i-ésimo experimento fue un fracaso

Entonces Sn representa la cantidad de éxitos en los n primeros ensayos, y


Sn
fn =
n
la frecuencia relativa de éxitos en los n primeros ensayos. La ley fuerte de los grandes
números afirma entonces que

fn → p con probabilidad 1 (8.3)

donde llamamos p a la probabilidad del éxito (Este enunciado que se conoce como la ley
fuerte de los grandes números de Borel, es un caso particular del teorema anterior. Notamos
que la hipótesis de que las Xi tengan cuarto momento finito, se satisface trivialmente ).
¿Pero qué significa exactamente esto? ¿cuál es el espacio muestral para este experimento
compuesto ?. Como dijimos anteriormente, el espacio muestra podemos representarlo como

Ω = {ω = (x1 , x2 , . . . , xn , . . .) : ωi = 0 o ωi = 1} = {0, 1}N

donde ωi representará el resultado del i-ésimo ensayo. Entonces, las variables aleatorias Xi
se definen sencillamente por:
Xi (ω) = ωi

Para poder darle sentido a la afirmación (8.3), debemos decir cómo asignamos proba-
bilidades en el espacio Ω. El caso más sencillo es cuando p = q = 1/2 (éxito y fracaso
equiprobables).
En se caso, definamos para ello la función

φ : Ω → [0, 1]

por

X ωi
φ(ω) =
2i
i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 156

En otras palabras, para cada ω ∈ Ω, φ(ω) será el número en [0, 1] cuyo desarrollo binario
tiene por dígitos a los ωi .
Podemos definir entonces la sigma-álgebra E como:

E = {E ⊂ Ω : φ(E)es un subconjunto boreliano del intervalo [0, 1]}

y la probabilidad P por
P (E) = m(ϕ(E))
donde m denota la medida de Lebesgue (ver la discusión en la sección 1.5).
Ejercicio: Comprobar que la función P así definida asigna correctamente las probabi-
lidades, en el sentido de que

P ({ω ∈ Ω : ω1 = x1 , ω2 = x2 , . . . , ωn = xn }) = 2−n

donde k = Sn (ω). En particular, las variables aleatorias X1 , X2 , …, Xn resultan indepen-


dientes. Ayuda: notar que φ(E) consta en este caso de una unión finita de intervalos.
Entonces, cuando p = 1/2, la afirmación (8.3) puede interpretarse equivalentemente,
como la afirmación de que que para casi todo número en el intervalo [0, 1], si fn designa la
frecuencia de dígitos uno en los primeros n lugares de su desarrollo binario, se tiene que
fn → 1/2. En esta afirmación, como es usual en la teoría de la medida, significa “salvo
quizás para un conjunto de medida de Lebesgue cero”.

8.7.2. Números Normales


Una generalización de la idea anterior es considerar desarrollos en otra base de numera-
ción b, con b ≥ 2. Entonces pensamos en un experimento cuyos posibles resultados son los
dígitos 0, 1, . . . , b − 1 de la base b, que consideramos equiprobables y lo repetimos infinitas
veces.
Ω = DN siendo D = {0, 1, . . . , b − 1}
Ahora definimos la función
φ : Ω → [0, 1]
por

X ωi
φ(ω) =
bi
i=1

Fijamos un dígito d ∈ D y nos preguntamos por la frecuencia relativa de ese dígito en


los primeros n lugares del número real x = φ(ω)

#{i : 1 ≤ i ≤ n, ωi = d}
fn =
n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 157

que podremos escribir como antes en la forma


Sn
fn =
n
si definimos las variables Xi por

1 si ωi = d

Xi =
0 si ωi 6= d

Como antes, asignamos las probabilidades en Ω por:

P (E) = m(ϕb (E))

y resulta que
P ({ω ∈ Ω : ω1 = d1 , ω2 = d2 , . . . , ωn = dn }) = b−n
P ({ω ∈ Ω : X1 = x1 , X2 = x2 , . . . , Xn = xn }) = pk q n−k
donde k = Sn (ω), p = 1/b, q = 1 − 1/b. En particular las variables Xi son de nuevo
independientes. Se deduce
1
fn → (8.4)
b
con probabilidad 1, o lo que es equivalente fn tiende a cero para casi todo x ∈ [0, 1] (o sea:
salvo para los x en un conjunto de medida cero en el sentido de Lebesgue). Los números que
verifican la relación (8.4) para todo dígito d ∈ D fueron denominador por Borel números
(simplemente) normales en la base b. Se deduce de lo demostrado que casi todo número es
simplemente normal en la base b.
Más aún, Borel definió los números absolutamente normales como aquellos que son
simplemente normales en cualquier base b ≥ 2. Como la unión numerable de conjuntos de
medida cero en el sentido de Lebesgue también tiene medida cero, se deduce el siguiente
teorema:

Teorema 8.7.2 (de Borel, [Bor09]) Casi todo número real del intervalo [0, 1] es absoluta-
mente normal.

Nota: Aunque este teorema implica que existen números absolutamente normales, su prueba
no es constructiva en el sentido que no nos provee ningún ejemplo de un número absolutamente
normal. El primer ejemplo fue dado por Sierpinski en 1916 [Sie17]. Ver también [BF02] para una
versión computable de la construcción de Sierpinski.
Capítulo 9

Convergencia en Distribución

Convergencia en Distribución
Definición 9.0.1 Se dice que una sucesión de variables aleatorias Xn converge en dis-
tribución a la variable aleatoria X, si

lı́m FXn (x) = FX (x)


n→+∞

en cada x en el que FX sea continua. Notación:


D
Xn −→ X

Ejemplo 9.0.2 Supongamos que Xn ∼ N (0, σn2 ) donde σn → 0. Entonces Xn converge en


distribución a la variable aleatoria X con P {X = 0} = 1, cuya distribución F (que es la
función escalón de Heavside) es discontinua en cero. Este ejemplo muestra porqué resulta
natural pedir que haya convergencia sólo en los puntos de continuidad de F .

Proposición 9.0.3 Si Xn −→ X y Xn −→ Y , entonces FX = FY (X e Y están idéntica-


D D

mente distribuidas)

Prueba: FX (x) = FY (x) en cada x que sea simultáneamente punto de continuidad de FX


y FY . Pero FX y FY son crecientes, y tienen por lo tanto a lo sumo una cantidad numerable
de discontinuidades. Deducimos que FX (x) = FY (x) para los x en un subconjunto denso
de R, y entonces para todo x ya que ambas son continuas por la derecha. 

Proposición 9.0.4 Si Xn −→ X y c ∈ R es una constante, entonces cXn −→ cX y


D D

D
Xn + c −→ X + c.

158
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 159

Figura 9.1: Convergencia en distribución de la densidad normal al escalón cuando σ → 0.

Observación 9.0.5 Sin embargo, no es cierto en general que si


D D D
Xn −→ X, Yn −→ Y ⇒ Xn + Yn −→ X + Y

Para comprobarlo basta tomar Xn , Yn ∼ N (0, σ 2 ) independientes, X ∼ N (0, 1) y Y = −X.


Entonces Xn +Yn ∼ N (0, 2σ 2 ) que no converge en distribución a cero cuando σ → 0, aunque
X + Y = 0. Este ejemplo patológico se explica porque la convergencia en distribución se
refiere más a las distribuciones de las variables, que a las variables en sí mismas.

9.1. Relación entre los modos de convergencia


Proposición 9.1.1 Sea (Xn ) es una sucesión de variables aleatorias definidas sobre un
mismo espacio de probabilidad (Ω, E, P ) y finita son probabilidad 1. Si Xn −→ X, entonces
P
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 160

D
Xn −→ X.

Prueba: Sea x0 ∈ R tal que FX sea continua en x0 . Entonces

X − |X − Xn | ≤ Xn

Si X > x0 + ε y |Xn − X| < ε ⇒ Xn > x0 . Lo podemos traducir en una inclusión de


conjuntos:

{X > x0 + ε} ∩ {|Xn − X| < ε} ⊂ {Xn > x0 }


Tomamos complemento. La inclusión se da vuelta, y usamos las leyes de De Morgan.

{Xn ≤ x0 } ⊂ {X ≤ x0 + ε} ∪ {|Xn − X| ≥ ε}
Tomamos probabilidad. Usamos que es creciente y subaditiva:

P {Xn ≤ x0 } ≤ P {X ≤ x0 + ε} + P {|Xn − X| ≥ ε}

Esto establece la desigualdad:

FXn (x0 ) ≤ FX (x0 + ε) + P {|Xn − X| ≥ ε}

Similarmente
Xn ≤ X + |Xn − X|
Si X ≤ x0 − ε y |Xn − X| ≤ ε ⇒ Xn ≤ x0 . Lo podemos traducir en una inclusión de
conjuntos:

{X ≤ x0 − ε} ∩ {|Xn − X| ≤ ε} ⊂ {Xn ≤ x0 }
Tomamos complemento. La inclusión se da vuelta, y usamos las leyes de De Morgan.

{Xn > x0 } ⊂ {X > x0 − ε} ∪ {|Xn − X| > ε}


Tomamos probabilidad. Usamos que es creciente y subaditiva:

P {Xn > x0 } ≤ P {X > x0 − ε} + P {|Xn − X| > ε}

Esto establece la desigualdad:

1 − FXn (x0 ) ≤ 1 − FX (x0 − ε) + P {|Xn − X| > ε}

o
FX (x0 − ε) − P {|Xn − X| > ε} ≤ FXn (x0 )
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 161

Entonces juntando todo tenemos que

FX (x0 − ε) − P {|Xn − X| > ε} ≤ FXn (x0 ) ≤ FX (x0 + ε) + P {|Xn − X| ≥ ε}

Entonces como Xn −→ X por hipótesis,


P

FX (x0 − ε) ≤ lı́m inf FXn (x0 ) ≤ lı́m sup FXn (x0 ) ≤ FX (x0 + ε)
n→+∞ n→+∞

Y cuanndo ε → 0, como FX es continua en x0 ,

lı́m inf FXn (x0 ) = lı́m sup FXn (x0 ) = FX (x0 )


n→+∞ n→+∞

Es decir que
lı́m FXn (x0 ) = FX (x0 )
n→+∞

como queríamos probar. 

Proposición 9.1.2 Si Xn −→ 0, entonces Xn −→ 0.


D P

Prueba: Fijemos δ > 0.

{|Xn | ≥ δ} = {Xn ≤ −δ} ∪ {Xn ≥ δ}

P {|Xn | ≥ δ} = P {Xn ≤ −δ} + P {Xn ≥ δ}


= P {Xn ≤ −δ} + 1 − P {Xn < δ}
≤ P {Xn ≤ −δ} + 1 − P {Xn ≤ δ/2}
= FXn (−δ) + 1 − FXn (δ/2)

Pero por la hipótesis


1 si t > 0

FXn (t) → F0 (t) =
0 si t < 0
para todo t 6= 0. Luego,
P {|Xn | > δ} → 0

Como δ > 0 es arbitrario, deducimos que Xn −→ 0.


P

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 162

9.2. El Teorema de Helly-Bray


Teorema 9.2.1 (Helly) Supongamos que Fn : [a, b] → R es una sucesión de funciones de
distribución tales que Fn (x) → F (x) en cada punto de continuidad de F (x), entonces:
Z b Z b
ϕ(x) dFn (x) → ϕ(x) dF (x) (9.1)
a a

para toda función continua ϕ ∈ C[a, b].

Prueba: Dado ε > 0, por el corolario F.0.3 del apéndice F (teorema de existencia para
la integral de Riemman-Stieltjes; corolario sobre la convergencia uniforme respecto de la
función de distribución), existirá un δ > 0 tal que:
Z b
ϕ(x) dFn (x) − Sπ (ϕ, Fn ) < ε
a
para todo n, y también
Z b
ϕ(x) dF (x) − Sπ (ϕ, F ) < ε
a
para cualquier partición π de [a, b] que verifique que |π| < δ (Pues Fn (1) − Fn (0) ≤ 1).
Fijemos una partición cualquiera π de [a, b] tal que |π| < δ. Claramente podemos elegir
los puntos de subdivisión de esta partición π para que sean puntos de continuidad de F
(pues el conjunto de puntos de discontinuidad de F es a lo sumo numerable, y por lo tanto
su conjunto de puntos de continuidad es denso en [a, b]).
Entonces notamos que como hay finitos puntos en la partición, claramente tendremos
que:

lı́m Sπ (ϕ, Fn ) = Sπ (ϕ, F )


n→+∞

Es decir, que dado ε > 0, existirá un n0 , tal que si n ≥ n0 ,

|Sπ (ϕ, Fn ) − Sπ (ϕ, F )| < ε


En consecuencia, si n ≥ n0 ,
Z b Z b Z b
ϕ(x) dFn (x) − ϕ(x) dF (x) ≤ ϕ(x) dFn (x) − Sπ (ϕ, Fn )
a a a
+ |Sπ (ϕ, Fn ) − Sπ (ϕ, F )|
Z b
+ Sπ (ϕ, F ) − ϕ(x) dF (x)
a
< 3ε
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 163

Como ε > 0 es arbitrario, esto prueba el teorema. 


Un resultado análogo se verifica para integrales en intervalos infinitos:
Teorema 9.2.2 Supongamos que Fn : R → [0, 1] es una sucesión de funciones de distri-
bución tales que Fn (x) → F (x) en cada punto de continuidad de F (x), entonces:
Z ∞ Z ∞
ϕ(x) dFn (x) → ϕ(x) dF (x) (9.2)
−∞ −∞

para toda función continua acotada ϕ : R → R.


Prueba: Supongamos que |ϕ(x)| ≤ M ∀ x ∈ R. Dado ε > 0, podemos elegir R > 0 tal
que: Z
ε
1 − F (R) + F (−R) = dF (x) <
x≤−R∨X>R M
y por lo tanto
Z
ϕ(x) dFn (x) < 2ε.
|x|>R

Además, podemos suponer que R y −R son puntos de continuidad de F . Entonces,


como Fn (R) → F (R) y Fn (−R) → F (−R) cuando n → +∞, podemos elegir n1 tal que
para n ≥ n1 se verifique
Z

Fn (R) − Fn (−R) = dFn (x) <
|x|>R M
y por lo tanto:
Z
ϕ(x) dFn (x) < 2ε
|x|>R

y en virtud del teorema anterior, podemos elegir un n2 tal que si n ≥ n2 se verifica:


Z R Z R
ϕ(x) dFn (x) − ϕ(x) dF (x) < ε
−R −R
Entonces, tendremos que:

Z ∞ Z ∞ Z ∞ Z R
ϕ(x) dFn (x) − ϕ(x) dF (x) ≤ ϕ(x) dFn (x) − ϕ(x) dF (x)
−∞ −∞ −∞ −R
Z R Z R
+ ϕ(x) dFn (x) − ϕ(x) dF (x)
−R −R
Z ∞ Z ∞
+ ϕ(x) dF (x) − ϕ(x) dF (x) < 4ε
−∞ −∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 164

Como ε > 0 es arbitrario, esto prueba el teorema. 

Corolario 9.2.3 Si (Xn ) es una sucesión de variables aleatorias tales que Xn −→ X,


D

entonces E[ϕ(Xn )] → E[ϕ(X)] para toda función continua acotada.

9.3. Un disgresión técnica: Funciones de prueba


Para el siguiente teorema, vamos a usar el espacio de funciones de prueba
D = Cc∞ (R) = {f : R → R : f es C ∞ y tiene soporte compacto}
La condición de que f es C ∞ dice que todas las derivadas f (k) de f existen y son
continuas en todo R.
La condición de que f tiene soporte compacto, dice que
soporte(f ) = {x ∈ R : f (x) 6= 0}
es un conjunto compacto de R, o equivalentemente: existe un intervalo [a, b] tal que f (x) = 0
si x 6∈ [a, b].
A primera vista, parece un espacio muy pequeño. Uno podría pensar que D = {0}. ¡Sin
embargo vamos a ver que esto no es así!

La función de Cauchy
Para construir una función de prueba no nula, comenzamos considerando la función
f : R → R dada por
si x > 0
 −1/x
e
f (x) =
0 si x ≤ 0
Esta función es C ∞ (no tiene soporte compacto). Notamos que
f (k) (0) = 0 para todo k
por lo que el polinomio de Taylor de f de grado k en el origen es el polinomio nulo para
todo k, aunque la función f no es idénticamente nula.

Construyendo una función de prueba


Consideremos ahora: g : R → R dada por
si |x| < 1
 −1/(1−x2 )
e
g(x) =
0 si |x| ≥ 1
Vemos que g ∈ D y soporte(g) = [−1, 1]. Además todas las derivadas de g se anulan en los
puntos −1 y 1. Reescalando, dado un intervalo cualquiera [a, b] podríamos construir g ∈ D
tal que soporte(g) = I = [a, b]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 165

Escalones suaves
Consideremos ahora la función h : R → R dada por
1 x
Z
h(x) = g(x)dx para − 1 ≤ x ≤ 1
c −1

donde g es la del ejemplo anterior y


Z 1
c= g(x)dx
−1

y donde h(x) = 0 si x < −1 y h(x) = 1 si x > 1. Resulta que h es C ∞ y 0 ≤ h(x) ≤ 1.


Notemos que h0 (x) = g(x) si x ∈ (−1, 1) por el teorema fundamental del cálculo.
Finalmente, tomando  
x − x0
ϕδ (x) = 1 − h −1
δ
podemos probar el siguiente lema que afirma que podemos aproximar la función indicadora
I≤x0 = I(−∞,x0 ] del la semirrecta (−∞, x0 ] por la derecha, por funciones suaves.

Lema 9.3.1 Para cada x0 ∈ R y cada δ > 0, existe ϕδ de clase C ∞ tal que:

0 ≤ ϕδ (x) ≤ 1.

ϕδ (x) = 1 si x ≤ x0 .

ϕδ (x) = 0 si x ≥ x0 + δ.

En particular, ϕδ (x) ≥ I≤x0 (x) para todo x.

Similarmente, podemos aproximar I≤x0 por la izquierda, por funciones suaves, definien-
do  
x − x0
ϕ−δ (x) = 1 − h +1
δ

Lema 9.3.2 Para cada x0 ∈ R y cada δ > 0, existe ϕ−δ de clase C ∞ tal que:

0 ≤ ϕ−δ (x) ≤ 1.

ϕ−δ (x) = 1 si x ≤ x0 − δ.

ϕδ (x) = 0 si x ≥ x0 .

En particular, ϕδ (x) ≤ I≤x0 (x) para todo x.


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 166

Esta construcción es ilustrada en las figuras siguientes:

(a) La función de Cauchy f . (b) La función g.

(c) La función h.

(d) Las funciones ϕδ . (e) Las funciones ϕ−δ .

Figura 9.2: Etapas en la construcción de los escalones suaves, y su convergencia a la indi-


cadora de la semirrecta.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 167

9.4. El Recíproco del tereorema de Helly-Bray


Teorema 9.4.1 (Recíproco del teorema de Helly-Bray) Si (Xn ) es una sucesión de
variables aleatorias tales que E[ϕ(Xn )] → E[ϕ(X)] para toda función C ∞ acotada, entonces
D
Xn −→ X.

Prueba: Tenemos que probar que FXn (x0 ) → FX (x0 ) cuando n → +∞, para cada punto
de continuidad x0 de FX . Para ello, la idea es usar los escalones suaves ϕδ . Primero por la
derecha
Dado ε > 0, afirmamos que si δ es suficientemente pequeño,
ε
|E[ϕδ (X)] − FX (x0 )| < (9.3)
2
Notamos que:
Z ∞
E[ϕδ (X)] = ϕδ (x) dFX (x)
−∞
Z x0 Z x0 +δ Z ∞
= ϕδ (x) dFX (x) + ϕδ (x) dFX (x) + ϕδ (x) dFX (x)
−∞ x0 x0 +δ
Z x0 Z x0 +δ Z ∞
= 1 dFX (x) + ϕδ (x) dFX (x) + 0 dFX (x)
−∞ x0 x0 +δ
Z x0 +δ
= FX (x0 ) + ϕδ (x) dFX (x)
x0

Entonces
Z x0 +δ
|E[ϕδ (X)] − FX (x0 )| = ϕδ (x) dFX (x) ≤ FX (x0 + δ) − FX (x0 )
x0

acotando la integral de Stieltjes usando el lema 4.2.5) y que 0 ≤ ϕδ (x) ≤ 1.


Entonces, la afirmación (9.3) se deduce de la continuidad (por la derecha) de la función
de distribución FX .
Fijamos un δ = δ(ε) tal que se verifique (9.3). Entonces, por la hipótesis, existirá un
n0 tal que si n ≥ n0 tenemos que,
ε
|E[ϕδ (Xn )] − E[ϕδ (X)]| < (9.4)
2
Como consecuencia, usando que ϕδ (x) ≥ I≤x0 (x) deducimos que si n ≥ n0 , tenemos
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 168

que:
FXn (x0 ) = P {X ≤ x0 } = E[I≤x0 (X)]
≤ E[ϕδ (Xn )]
ε
≤ E[ϕδ (X)] + por (9.4)
2
≤ FX (x0 ) + ε por (9.3)
si n ≥ n0 (ε). Como ε > 0 es arbitrario, hemos probado que
lı́m sup FXn (x0 ) ≤ FX (x0 ) (9.5)
n→+∞

Para probar que FXn (x0 ) → FX (x0 ), necesitamos demostrar también una desigualdad
en el sentido contrario.
Para ello, aproximamos I(−∞,x0 ] por escalones suaves desde la izquierda.
El argumento entonces es similar. Usando la continuidad de F en x0 por la izquierda
tendremos que si δ es suficientemente pequeño,
ε
|E[ϕ−δ (X)] − FX (x0 )| < (9.6)
2
ya que
Z x0
|E[ϕ−δ (X)] − FX (x0 )| = ϕ−δ (x) dFX (x) ≤ FX (x0 ) − FX (x0 − δ)
x0 −δ

Fijamos un δ = δ(ε) tal que se verifique (9.6). Usando la hipótesis, dado ε > 0, existirá
un n0 tal que si n ≥ n0 tenemos que,
ε
|E[ϕ−δ (Xn )] − E[ϕ−δ (X)]| < (9.7)
2
Ahora notamos que ϕ−δ ≤ I≤x0 , luego
FXn (x0 ) = P {Xn ≤ x0 } = E[I(−∞,x0 −δ] (Xn )]
≥ E[ϕ−δ (Xn )]
ε
≥ E[ϕ−δ (X)] − por (9.7)
2
≤ FX (x0 ) − ε por (9.6)
si n ≥ n0 (ε). Como ε > 0 es arbitrario, hemos probado que
lı́m inf FXn (x0 ) ≥ FX (x0 ) (9.8)
n→+∞

Juntando (9.5) y (9.8), hemos probado que:


FXn (x0 ) → FX (x0 ) cuando n → +∞
como queríamos. 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 169

9.4.1. Una versión más fuerte


Con un poco más de esfuerzo, vamos a probar una versión más precisa:
Teorema 9.4.2 (Recíproco fuerte del teorema de Helly) Sean (Xn ) es una suce-
sión de variables aleatorias finitas en casi todo punto, y X otra variable aleatoria finita en
casi todo punto, tales que
E[ψ(Xn )] → E[ψ(X)]
para toda función ψ : R → R de clase C ∞ con soporte compacto, entonces Xn −→ X.
D

La razón por la que será útil para nosotros considerar funciones de prueba C ∞ con
soporte compacto en el enunciado de este teorema, es que las utilizaremos en la prueba del
teorema 10.9.1.

Un lema previo
Lema 9.4.3 Si una sucesión de variables aleatorias (Xn ) verifica la hipótesis del recíproco
fuerte del teorema de Hellly-Bray, entonces es acotada en probabilidad, o equivalentemente
(FXn ) es ajustada. Dado, ε > 0 existe Nε tal que
P {|X| > Nε } < ε para todo n ∈ N

Prueba: Por la observación 8.1.7, sabemos que si X es una variable aleatoria finita en casi
todo punto. está acotada en probabilidad: dado ε > 0 existe Mε tal que
P {|X| > Mε } < ε
Elegimos ϕ C ∞ con soporte en Kε = [−2Mε , 2Mε ] tal que ϕ ≥ 1 en Jε = [−Mε , Mε ].
Entonces IKε ≥ ϕ, luego
P {|Xn | ≤ 2Mε } = E[IKε (Xn )] ≥ E[ϕ(Xn )]
Y por lo tanto si n ≥ n0 (ε) tendremos
P {|Xn | ≤ 2Mε } ≥ E[ϕ(X)] − ε
Pero ϕ ≥ IJε , luego
E[ϕ(X)] ≥ E[IJε (X)] = P {|X| ≤ Mε } ≥ 1 − ε
Entonces
P {|Xn | ≤ 2Mε } ≥ 1 − 2ε
o sea:
P {|Xn | > 2Mε } ≤ ε

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 170

Figura 9.3: Por ejemplo, acá vemos el gráfico de ϕ si Mε = 1, con lo que Kε = [−2, 2] y
Jε = [−1, 1]

Demostración de la versión fuerte del recíproco del teorema de Helly-Bray


Prueba: Sabemos que
E[ψ(Xn )] → E[ψ(X)]
para toda función ψ : R → R de clase C ∞ con soporte compacto. Vamos a probar que
E[ϕ(Xn )] → E[ϕ(X)]
para toda ϕ de clase C ∞ acotada. Con lo que la versión débil del teorema va implicar la
versión fuerte.
Fijemos ϕ. Supongamos que |ϕ(x)| ≤ C para todo x.
Dado ε > 0, consideramos ρ de clase C ∞ tal que ρ(x) = 1 en [−Nε , Nε ] y 0 ≤ ρ(x) ≤ 1
siempre, consideramos φ = ρ · ϕ y escribimos

|E[ϕ(X)] − E[ϕ(Xn )]| ≤ |E[ϕ(X)] − E[ψ(X)]|


+ |E[ψ(X)] − E[ψ(Xn )]| + |E[ϕ(Xn )] − E[ψ(Xn )]|
Acotemos:
Z ∞
|E[ϕ(Xn )] − E[ψ(Xn )]| = [ϕ(x) − ψ(x)] dFn (x)
−∞
Z
≤ (1 − ρ(x)) · |ϕ(x)| dFn (x)
|x|>Nε
Z
≤ C dFn (x) = CP {|Xn | > Nε } < Cε
|x|>Nε
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 171

para todo n por el lema (¡Es una cota uniforme!). Similarmente:

|E[ϕ(X)] − E[ψ(X)]| < Cε

y finalmente por la hipótesis

|E[ψ(X)] − E[ψ(Xn )]| < ε si n ≥ n0 (ε)

Luego reemplazando en la desigualdad triangular que teníamos antes

|E[ϕ(X)] − E[ϕ(Xn )]| < (2C + 1)ε sin ≥ n0 (ε)

Entonces vemos que:


E[ϕ(Xn )] → E[ϕ(X)]

Como esto vale para toda ϕ de clase C ∞ acotada, por la vesión débil del terema dedu-
cimos que:
D
Xn −→ X
como queríamos. 

Un ejemplo de aplicación del teorema de Helly-Bray


Proposición 9.4.4 Sea D ⊂ R un conjunto discreto (=sin puntos de acumulación) y sean
Xn , X : Ω → R variables aleatorias concentradas en D. Llamemos

pn (k) = P {Xn = k}, p(k) = P {X = k}

Entonces
Xn −→ X ⇔ pn (k) → p(k) para todo k ∈ D
D

Esta enunciado generaliza el ejercicio 2 de la práctica 8, que corresponde al caso especial


D = Z. Vamos a resolverlo usando el teorema de Helly-Bray (aunque podría resolverse
usando la definición de convergencia en distribución).
Prueba: Supongamos primero que Xn −→ X. Dado un k ∈ D consideramos un entono
D

abierto U de k donde k sea el único punto de D (existe por la hipótesis de que D es


discreto).
Consideramos ϕ : R → R de clase C ∞ con soporte contenido en U tal que ϕ(k) = 1.
Entonces por Helly-Bray
E[ϕ(Xn )] → E[ϕ(X)]
pero ϕ(Xn ) es una variable aleatoria discreta, pues Xn está concentrada en D. Luego
X
E[ϕ(Xn )] = ϕ(d) · pn (d) = pn (k)
d∈D
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 172

Similarmente
E[ϕ(X)] = p(k)
Se deduce que pn (k) → p(k). Esto vale para todo k ∈ D.
Recíprocamente, supongamos que pn (k) → p(k) para todo k ∈ D. Queremos ver que
Xn −→ X. Para eso, vamos a usar el recíproco fuerte del teorema de Helly-Bray. Luego
D

queremos probar que


E[ψ(Xn )] → E[ψ(X)] (9.9)
para toda ψ : R → R de clase C ∞ con soporte compacto. Llamemos K al soporte de ψ.
Entonces D ∩ K es finito, y
X
E[ψ(Xn )] = ψ(d) · pn (d)
d∈D∩K

Similarmente X
E[ψ(X)] = ψ(d) · p(d)
d∈D∩K

Como son sumas finitas, es claro que (9.9) se va a cumplir, ya que el límite de una suma
finita es igual a la suma de los límites. 

Otra aplicación del teorema de Helly-Bray

Corolario 9.4.5 Si Xn −→ X y g : R → R es una función continua, entonces g(Xn ) −→


D D

g(X).

Prueba: Por el recíproco del teorema de Helly-Bray nos bastará probar que

E[ψ(g(Xn ))] → E[ψ(g(X))] para toda ψ ∈ Cc∞ (R)

Esto es:
E[ϕ(Xn )] → E[ϕ(X)]
donde ϕ = ψ ◦ g. Pero notamos que ψ es continua y acotada, por ser composición de
continuas y ψ acotada. Deducimos que esto es cierto, en virtud del teorema de Helly-Bray.


Corolario 9.4.6 Si Xn −→ X, y a, b son constantes, entonces aXn + b −→ aX + b.


D D

Observación 9.4.7 Sin embargo, no es cierto en general que si


D D D
Xn −→ X, Yn −→ Y ⇒ Xn + Yn −→ X + Y
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 173

9.5. El teorema de Slutsky


9.5.1. Una versión simple del teorema
Lema 9.5.1 Sean (Xn ) e (Yn ) dos sucesiones de variables aleatorias finitas con probabili-
dad 1. Supongamos que Xn −→ X e Yn −→ 0. Entonces Xn + Yn −→ X.
D P D

En el apunte de Victor Yohai [Yoh] pueden ver una prueba usando directamente la
definición de convergencia en distribución. Yo les voy a presentar una prueba alternativa
usando la caracerización dada por el teorema de Helly-Bray.
Prueba: Usando la caracerización dada por el teorema de Helly-Bray, queremos probar
que para toda ψ ∈ Cc∞ (R),
E[ψ(Xn + Yn )] → E[ψ(X)
y sabemos por hipótesis que:
E[ψ(Xn )] → E[ψ(X)]
Luego nos bastará probar que para cada ψ fija,

E[ψ(Xn + Yn )] − E[ψ(Xn )] → 0

Notamos que como ψ ∈ Cc∞ (R), ψ será acotada

|ψ(x)| ≤ C para todo x, y ∈ R

y cumplirá la condición de Lipschitz

|ψ(x) − ψ(y)| ≤ M |x − y| para todo x ∈ R

donde M es cualquier cota de |ψ 0 | (por el teorema del valor medio).


Usando las observaciones anteriores, tenemos que dado ε > 0,
ε
|ψ(Xn + Yn ) − ψ(Xn )| ≤ M |Yn | <
2
si
ε
|Yn | < δ =
2M
Entonces, introducimos los eventos:

An,δ = {ω ∈ Ω : |Yn (ω)| < δ}

y podemos estimar:
ε
E[|ψ(Xn + Yn )] − E[ψ(Xn )| · IAn,δ ] ≤
2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 174

Ahora vamos a necesitar mirar que pasa en

Acn,δ = {ω ∈ Ω : |Yn (ω)| ≥ δ}

Ahí vamos a usar la estimación más bruta

|ψ(X + Yn ) − ψ(Xn )| ≤ 2C

Entonces:
ε
E[|ψ(Xn + Yn ) − ψ(Xn )| · IAcn,δ ] ≤ 2C · E[IAcn,δ ] = 2C · P (An,C ) <
2

si n ≥ n0 (ε, δ) pues Yn −→ 0. Pero δ = δ(ε), así que en definita n0 depende sólo de ε.


P

Finalmente acotamos

|E[ψ(Xn + Yn )] − E[ψ(Xn )]| ≤ E[|ψ(Xn + Yn )] − E[ψ(Xn )|]


≤ E[|ψ(Xn + Yn )] − E[ψ(Xn )|IAn,δ ]
+ ≤ E[|ψ(Xn + Yn )] − E[ψ(Xn )|IAcn,δ ]
ε ε
≤ + =ε
2 2
si n ≥ n0 . O sea, que efectivamente hemos probado que:

E[ψ(Xn + Yn )] − E[ψ(Xn )] → 0

y como observamos antes, esto implica la validez del lema. 

9.5.2. Un lema para el teorema de Slutsky


Lema 9.5.2 Sea (Xn ) una sucesión de variables aleatorias finitas con probabilidad 1, tales
que Xn −→ c donde c ∈ R es una constante. Entonces si g : R → R es una función
P

boreliana continua en c, entonces:


P
Yn = g(Xn ) −→ g(c)

Prueba: Dado ε > 0 por definición de continuidad, existirá un δ > 0 tal que |x − c| ≤ δ
implica |g(x) − g(c)| ≤ ε. Luego,

{|g(x) − g(c)| ≥ ε} ⊂ {|x − c| ≥ δ}

En particular,
{|g(Xn ) − g(c)| ≥ ε} ⊂ {|Xn − c| ≥ δ}
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 175

tomando probabilidades:

0 ≤ P {|g(Xn ) − g(c)| ≥ ε} ≤ P {|Xn − c| ≥ δ}

por lo que si el lado derecho tiende a cero cuando n → +∞, también el término del medio.
O sea que si Xn −→ c, se deduce que g(Xn ) −→ g(c).
P P

9.5.3. El Teorema de Slutksky


Teorema 9.5.3 Sean (Xn ) e (Yn ) dos sucesiones de variables aleatorias finitas con proba-
bilidad 1. Supongamos que Xn −→ X e Yn −→ c donde X es otra variable aleatoria finita
D P

con probabilidad 1 y c una constante. Entonces,


D
Xn + Yn −→ X + c.
D
Xn Yn −→ cX.

Si c 6= 0,
Xn D X
−→
Yn c

Prueba: Para probar que Xn + Yn −→ X + c, escribimos:


D

Xn + Yn = (Xn + c) + (Yn − c)

Comomo Xn −→ X, tendremos que Xn + c −→ X + c por los resultados previos. También


D D

P P
Yn −→ c ⇒ Yn − c −→ 0

(esto sale directamente la definición).


El resultado se deduce entonces de la versión simple del teorema de Slutsky que proba-
mos antes (lema 8.1.9).
Similarmente, para ver que Xn Yc −→ cX, escibimos
D

Xn Yn = cXn + (Yn − c)Xn = Un + Zn

donde llammamos Un = cXn y Zn = (Yn − c)Xn .


Como Xn −→ X ⇒ Un −→ cX por los resultados previos.
D D

También sabemos que Yn − c −→ 0. Por otra parte, (Xn ) está acotada en probabilidad,
P

ya que converge en distribución (Esto se deduce del lema 8.1.9, aunque puede probarse
directamente).
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 176

Pero entonces Zn −→ 0 ya que es el producto que una sucesión que tiende a cero
P

en probabilidad por una que está acotada en probabilidad (lema 8.1.9), y por lo tanto
D
Zn −→ 0.
Entonces usando la versión simple del teorema de Slutsky, concluimos que Xn Yn −→
D

cX.
Finalmente, para ver que si c 6= 0,
Xn D X
−→
Yn c
escribimos
Xn 1
= Xn ·
Yn Yn
y observamos que
P 1 P 1
Yn −→ c ⇒ −→
Yn c
por el lema previo aplicado a la función g(y) = 1
y que es continua en y = c si c 6= 0. Entonce
el resultado se deduce del ítem anterior. 
Capítulo 10

Funciones características

10.1. Esperanza de variables aleatorias con valores complejos


Notemos que que podemos considerar variables aleatorias con valores complejos X :
Ω → C, en lugar de con valores reales como hemos hecho hasta ahora. Escribiendo X =
A + Bi donde A y B son la parte real e imaginaria de X, no ofrece ninguna dificultad
extender la definición de esperanza para ellas, escribiendo

E(X) = E(A) + iE(B)

Las propiedades de la esperanza se generalizan fácilmente para estas variables.

Lema 10.1.1 Si X : Ω → R es una variable aleatoria con valores complejos tal que
E[|X|] < +∞, entonces E[X] está bien definida y

|E[X]| ≤ E[|X|] (10.1)

Prueba: Como |A| ≤ |X|, |B| ≤ |X| se deduce que

E[|A|] ≤ E[|X|] < ∞, E[|B|] ≤ E[|X|] < ∞

luego E[X] está bien definida. Probemos la desigualdad (10.1). Si E[X]) = 0 no hay nada
que probar. Sino, la escribimos en forma polar

E[X] = r · eiθ con θ ∈ R

donde
r = |E(X)| = e−iθ E[X] ∈ R>0
Entonces

r = |Re(E[e−iθ X])| = |E[Re(e−iθ X)]| ≤ E[|Re(−eiθ X)|] ≤ E[| − eiθ X|] = E[|X|]

177
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 178

usando que ya sabemos que (10.1) es válida para variables aleatorias reales, y que

|Re(z)| ≤ |z| para todo z ∈ C


Similarmente, si f : [a, b] → C es una función continua, escribimos f (t) = x(t) + iy(t)
donde x, y : [a, b] → R. Y definimos
Z b Z b Z b
f (t) dt = x(t) dt + i y(t) dt
a a a

De nuevo tenemos Z b Z b
f (t) dt ≤ |f (t)| dt
a a
Esta desigualdad la podemos pensar como

|E[f (U )| ≤ E(|f (U )|) donde U ∼ U (a, b)

También podemos definir


d d d
f (t) = x(t) + i y(t)
dt dt dt
si a y b son derivables.

10.2. Funciones Características


Para la siguiente definición, recordemos que para x ∈ R, la función exponencial eix de
exponente imaginario puro puede definirse por medio de la fórmula de Euler

eix = cos x + i sen x

que puede justificarse a partir de los correspondientes desarrollos de Taylor.

Definición 10.2.1 Si X es una variable aleatoria tal que E(|X|) es finita, su función
característica se define por
ϕX (t) = E eitX
 
t∈R
Teniendo en cuenta la definición de la esperanza, esto puede escribirse como
Z ∞
ϕX (t) = eitx dFX (x)

Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 179

siendo FX la función de distribución de X, y si X es una variable con densidad continua


fX (x) entonces Z ∞
ϕX (t) = eitx fX (x) dx

Notemos entonces que en la teoría de probabilidades se llama función característica a lo
que en muchos otros contextos de la matemática se conoce como transformada de Fourier.
De hecho, existe toda una rama de la matemática dedicada al estudio de este tipo de
transformadas, el análisis armónico. Para nosotros, serà una herramienta ùtil para estudiar
la convergencia en distribución de las variables aleatorias (ver el teorema de continuidad
en la sección siguiente).
Observemos también que la función característica sólo depende de la distribución de
la variable aleatoria X, por lo que tiene sentido hablar de funciones característica de una
determinada distribución de probabilidades F . Por eso, a veces escribiremos ϕF en lugar
de ϕX para enfatizar este hecho.

Observación 10.2.2 Si X es una variable aleatoria discreta que toma valores en N0 ,


tenemos que

X X
ϕX (t) = eitk P {X = k} = (eit )k P {X = k} = gX (eit )
k=0 k=0

donde gX es la función generatriz que introdujimos en la sección 3.7. Por ejemplo, usando
esto deducimos que:
Si X ∼ Bi(n, p) ⇒ ϕX (t) = (p + qeit )n = 1 + p(eit − 1) donde q = 1 − p, por (3.6).
n

Si X ∼ P(λ) ⇒ ϕX (t) = eλ(exp(it)−1) por (3.7).

Si X ∼ Ge(p) ⇒ ϕX (t) = peit


1−qeit
donde q = 1 − p, por (3.11)

10.2.1. Funciones características de variables aleatorias continuas


Si X es una variable aleatoria absolutamente continua con densidad de probabilidad
f (x), entonces Z ∞
 itX 
ϕX (t) = E e = f (x)eitx dx
−∞
La función Z ∞
fb(t) = F(f )(t) = f (x)eitx dx
−∞
se llama transformada de Fourier de la función f . Está definida para cualquier f : R →
C tal que Z ∞
|f (x)| dx < ∞ Notación: f ∈ L1 (R)
−∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 180

Para ser precisos, acá tendríamos que usar la integral de Lebesgue que se ve en los
cursos de análisis real. Pero en esta materia, lo usaremos simplemente como una notación
(pueden pensar la integral como una integral impropia).

Ejemplo 10.2.3 Para la distribución uniforme, la función característica puede determi-


narse a partir de la definición. Si X ∼ U (a, b), entonces
b
eitb − eita
Z
dx
ϕX (t) = eitx =
a b−a it(b − a)

En particular cuando X ∼ U (−1, 1)

eit − e.it sin t


ϕX (t) = =
2it t
Notemos que ϕX 6∈ L1 (R) pues
Z ∞
sin t
dt = +∞
−∞ t

Algunas observaciones:
Existe toda una rama de la matemática dedicada al estudio de las series de Fourier
y la transforma de Fourier, el análisis armónico.

Para nosotros, será una herramienta útil para estudiar la convergencia en distribución
de las variables aleatorias, y nos permitirá probar uno de los resultados centrales de
la teoría de probabilidades: el teorema del límite central.

Pero las series y transformadas de Fourier tiene innumerables aplicaciones en muchas


ramas de la matemática y la física: ecuaciones diferenciales, análisis de señales, ondas,
procesamiento de imágenes, mecánica cuántica, teoría de números, etc.

De hecho, Joseph Fourier introdujo sus series para estudiar la propagación del calor
en una barra de metal, que describió por medio de una ecuación diferencial (eso lo
van a ver en el curso de ecuaciones diferenciales).

Por eso es una herramienta que vale la pena aprender, más allá de la aplicación
inmediata en la que estamos interesados (a la teoría de probabilidades).

Para los lectores interesados en saber más sobre series y transformadas de Fourier
recomiendo [Duo03].
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 181

10.2.2. Propiedades de las funciones características


Proposición 10.2.4 La función característica de una variable aleatoria X con E(|X|) <
∞ tiene las siguientes propiedades:

i) La función característica ϕX (t) es uniformemente continua.

ii)
|ϕX (t)| ≤ 1

iii)
ϕX (0) = 1

iv) Si hacemos un cambio lineal de variable, Y = aX + b

ϕY (t) = eitb ϕX (ta)

Prueba: Probemos i):

|ϕX (t + h) − ϕX (t)| = |E[ei(t+h)X ] − E[eitX ]| = |E[ei(t+h)X − eitX ]|


= |E[eitX · eihX − eitX )| = |E[eitX · (eihX − 1)|
≤ E[|eitX | · |eihX − 1|] = E[|eihX − 1|]
≤ E[|hX|)
= |h|E(|X|) < ε

si
ε
|h| < δ =
E|X|
(si E[|X|] = 0, X = 0 con probabilidad 1 y ϕX ≡ 1].
ii) Es inmediata pues

|ϕX (t)| = |E(eitX )| ≤ E(|eitX )| = E(1) = 1

iii) También es inmediata pues

ϕX (0) = E(ei0 ) = E(1) = 1

Para probar iv) notamos que

E(Y ) = E(eitY ) = E(eit(aX+b) ] = E[eitaX eitb ] = eitb ϕX (ta)


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 182

Proposición 10.2.5 Si X e Y son variables aleatorias independientes con esperanza finita


entonces
ϕX+Y (t) = ϕX (t)ϕY (t)
Prueba: Como X e Y son independientes, eitX y eitY también lo son entonces
ϕX+Y (t) = E it(X+Y ) = E[eitX ]E[eitY ] = ϕX (t)ϕY (t)

Proposición 10.2.6 Sea k ∈ N.Si E(|X|k ) < ∞, entonces ϕX (t) es de clase C k y
(k)
ϕX (t) = E((iX)k eitX )
En particular
(k)
ϕX (t) = ik mk (X)
donde
µk (X) = E(X k )
es el k-ésimo momento de la variable X (respecto del origen).
Prueba: Se obtiene derivando bajo el signo de esperanza. Para justificar esto, se requiere
un teorema de derivación de integrales con respecto a un parámetro, que se ve en análisis
real. 

Ejemplo 10.2.7 Si X ∼ Γ(α, λ), su función característica viene dada por


Z ∞
λα
ϕ(t) = eitx xα−1 e−λx dx
Γ(α) 0
Z ∞
λα
= xα−1 e−(λ−it)x dx
Γ(α) 0
Usando la fórmula (4.13) (que sigue valiendo para valores complejos de λ con Re(λ) > 0)
se deduce que 1 α
λα

Γ(α) λ
ϕX (t) = · = (10.2)
Γ(α) λ − it λ − it

Observación 10.2.8 Cuando X es una variable aleatoria con una densidad integrable, se
tiene que
ϕX (t) → 0 cuando |t| → ∞
en virtud del lema de Riemann-Lebesgue (un resultado importante del análisis armónico).
Sin embargo, esta propiedad no es cierta para variables aleatorias cualesquiera. Por ejemplo,
si X es una variable aleatoria, tal que X = 0 con probabilidad 1, entonces ϕX (t) ≡ 1.
1
Se requieren algunos conocimientos de análisis complejo para darle sentido a esta fórmula, z α se puede
definir en el plano complejo menos el eje real negativo, usando la fórmula z α = exp(α log(z)) y tomando la
rama principal del logaritmo.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 183

10.3. La Función Característica de la Distribución Normal


El siguiente teorema es clave para la prueba que haremos del teorema central del límite,
uno de los resultados fundamentales de la teoría de probabilidades:

Teorema 10.3.1 Si X ∼ N (µ, σ 2 ), entonces ϕX (t) = eitµ e−(σt)


2 /2

Existen varias pruebas de este teorema. Presentaré una prueba que aprendí en el curso
de V. Yohai que utiliza argumentos probabilísticos. Notemos que el teorema dice esencial-
mente que la densidad normal estándar es un punto fijo de la transformada de Fourier. Hay
también demostraciones que utilizan argumentos de análisis complejo o de ecuaciones dife-
renciales. La idea de dicha prueba es usar las propiedades de invariancia de la distribución
normal para obtener una ecuación funcional para la función característica buscada.
Prueba: Usando el resultado del ejemplo 4.4.1, vemos que basta probarlo para la variable
normalizada
X −µ
X∗ =
σ
que tiene distribución N (0, 1).
Consideramos entonces dos variables aleatorias X, Y ∼ N (0, 1) independientes, y sea
Z = aX + bY , con a, b > 0. Tendremos entonces

ϕZ (t) = ϕaX (t)ϕbY (t) = ϕX (ta)ϕY (tb)

y como la función característica sólo depende de la distribución esto es igual a

ϕZ (t) = ϕX (at)ϕX (tb)

Por otra parte, sabemos por la proposición 4.5.6 y el ejemplo 4.4.1, que

Z ∼ N (0, a2 + b2 )

Entonces de nuevo por el ejemplo 4.4.1,


Z
Z∗ = √ ∼ N (0, 1)
a2+ b2
y se deduce utilizando el item iv) de la proposición 10.2.4 que
p 
ϕZ (t) = ϕX a2 + b2 t

Comparando las dos expresiones para ϕZ (t) obtenemos la ecuación funcional buscada:
p 
ϕX a2 + b2 t = ϕX (at)ϕX (tb)
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 184

En particular eligiendo t = 1, tenemos que


p 
ϕX a2 + b2 = ϕX (a)ϕX (b)

Llamemos ψ(s) = ϕX ( s). Entonces

ψ(a2 + b2 ) = ψ(a2 )ψ(b2 )

y poniendo a = α2 , b = β 2 deducimos que

ψ(α + β) = ψ(α)ψ(β) para todo α, β ≥ 0

(Si α o β son cero, esto vale pues ϕX (0) = 1). Entonces por el lema 4.8.1, deducimos que

ψ(t) = etb para algún b ∈ R

ya que ψ(0) = 1, y por lo tanto


2
ϕX (t) = ebt
Para encontrar el valor de b, derivamos dos veces

2
ϕ0X (t) = 2bt ebt

2
ϕ00X (t) = (2b + 2bt) ebt
En particular,
ϕ00X (0) = 2b = −µ2 (X)
por la proposición 10.2.6. Pero

µ2 (X) = V ar(X) = 1

luego b = −1/2, y obtenemos que


2 /2
ϕX (t) = e−t


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 185

10.4. La identidad de Plancherel


Lema 10.4.1 (Identidad de Plancherel) Sea X una variable aleatoria con E(|X|) <
+∞, función de distribución FX y función característica ϕX . Entonces si g : R → R es
una función en L1 (R),
Z ∞ Z ∞
gb(x) dFX (x) = ϕX (y) g(y) dy
−∞ −∞

donde gb = F(g) es la transformada de Fourier de g.

Prueba:
Z ∞ Z ∞ Z ∞ 
ixy
gb(x) dFX (x) = g(y)e
dFX (x)dy
−∞ −∞ −∞
Z ∞ Z ∞ 
ixy
= g(y)e dFX (x) dy
−∞ −∞
Z ∞ Z ∞  Z ∞
= eixy dFX (x) g(y) dy = ϕX (y) g(y) dy
−∞ −∞ −∞

El cambio en el orden de integración se puede justificar pues


Z ∞Z ∞ Z ∞  Z ∞ 
ixy
|g(y)e | dFX (x) dy = |g(y)| dy · dFX (x)
−∞ −∞
Z ∞−∞ −∞

= |g(y)| dy < ∞
−∞

10.5. La Fórmula de Inversión: unicidad de la función carac-


terística
Un hecho fundamental es que es posible reconstruir la distribución de probabilidades
de una variable aleatoria, a partir de su función característica.

Teorema 10.5.1 (Fórmula de inversión de Feller) Sea X una variable aleatoria con
E(|X|) < +∞, función de distribución FX y función característica ϕX . Entonces
Z x0 Z ∞ 
1 −iz·y −(σy)2 /2
FX (x0 ) = lı́m ϕX (y) e ·e dy dz
2π σ→0 −∞ −∞
en cada punto de continuidad x0 de FX .
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 186

Prueba: Usamos la identidad de Plancherel con la elección


1 −iz·y −(σn y)2 /2
g(y) = e ·e

donde (σn ) es una sucesión tal que σn → 0 y z ∈ R. Entonces
1 2 /(2σ 2 )
gb(x) = √ e−(x−z) n
σn 2π
usando las propieddes que vimos antes. Queda:
Z ∞ Z ∞
1 −(x−z)2 /(2σ 2 ) 1 2
√ e dFX (x) = ϕX (y) e−iz·y · e−(σn y) /2 dy
−∞ σn 2π 2π −∞
Por el corolorario 4.5.3, la primera integral es la densidad de probabilidad de Xn =
X + Yn donde Yn ∼ N (0, σn2 ) es independiente de X. Integrando
Z x0  Z ∞ 
1 −ix0 ·y −(σn y)2 /2
FXn (x0 ) = ϕX (y) e ·e dy dz
2π −∞ −∞

Pero nos acordamos que Xn = X + Yn donde Yn ∼ N (0, σn2 ) es independiente de X.


Cuando σn → 0, Yn −→ 0, luego Xn −→ X,y por lo tanto Xn −→ X. Entonces
P P D

FXn (t) → FX (t)

en cada punto de continuidad de FX . Esto prueba el teorema. 


Una variante de este teorema es (Véase [Jam02], capítulo 6):

Teorema 10.5.2 (Otra versión de la Fórmula de inversión) Si X es una variable


aleatoria, con función de distribución F = FX y función característica ϕ = ϕX , y x e
y son puntos de continuidad de F x < y entonces
Z T −itx
1 e − eity
F (y) − F (x) = lı́m ϕ(t) dt
2π T →∞ −T it

Corolario 10.5.3 (Unicidad de la función característica) Si F1 y F2 son dos dis-


tribuciones de probabilidad, y ϕF1 (t) = ϕF2 (t) para todo t ∈ R (es decir: sus funciones
características coinciden) entonces F1 = F2 .

Prueba: La fórmula de inversión implica que F1 (x) = F2 (x) si x es un punto de continui-


dad. Si x no lo fuera, basta observar que como los puntos de discontinuidad de F1 y F2
son a lo sumo numerables, entonces podemos elegir una sucesión (xn ) tal que xn & x, tal
que xn sea un punto de continuidad tanto de F1 como de F2 , entonces F1 (xn ) = F2 (xn ) y
como F1 y F2 son continuas por la derecha, deducimos que F1 (x) = F2 (x). 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 187

10.5.1. Otra versión de la fórmula de inversión


En general, ϕX 6∈ L1 (R), como muestra el ejemplo de la distribución uniforme [ o
también si X fuera una variable discreta no nula]. Pero si esto ocurriera, podríamos pasar
al límite cuando σ → 0 en la integral (usando el teorema de convergencia mayorada), y
obtener una fórmula más sencilla
Z x0 Z ∞
1
FX (x0 ) = ϕX (y) e−ix0 ·y dy
2π −∞ −∞
[Si ϕX no estuviera en L1 , esto no tendría sentido pues la integral podría diverger como
se ve tomando x0 = 0]
Se deduce que entonces, X es una variable continua con la densidad:
Z ∞
1
fX (x0 ) = ϕX (y) e−ix0 ·y dy
2π −∞

En términos de la transformada de Fourier, esto se formularía así:

Teorema 10.5.4 (Fórmula clásica de inversión de Fourier) Sea f ∈ L1 (R) conti-


nua tal que fb ∈ L1 (R), entonces podemos reconstruir f a partir de su transformada mediante
la fórmula de inversión Z ∞
1
f (x) = fb(y) e−ix·y dy
2π −∞

Comparemos esto con la definición de la transformada:


Z ∞
f (y) =
b f (x) eix·y dx
−∞

Esta forma de la fórmula de inversión de Fourier es más simétrica, pero no es cierta sin
la restricción de que fb ∈ L1 (R).

Un ejemplo: la distribución de Laplace


Una variable aleatoria X tiene la distribución de Laplace o distribución expo-
nencial doble con parámetros µ ∈ R y b > 0 si tiene la densidad de probabilidad
 
1 |x − µ|
f (x) = exp −
2b b
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 188

Calculemos su función caracerística. Usando las propiedades, basta saber hacerlo con µ = 0
y b = 1. En ese caso,
Z ∞
1
ϕX (t) = f (t) =
b eixt e−|x| dx
−∞ 2
Z 0 Z ∞
ixt 1 −|x| 1
= e e dx + eixt e−|x| dx
−∞ 2 0 2
Z 0 Z ∞
1 1
= eixt ex dx + eixt e−x dx
−∞ 2 0 2
Z 0 Z ∞
1 1
= ex(it+1) dx + ex(it−1) dx
2 −∞ 2 0
Siguiendo, las integrales que nos quedaron se pueden calcular con la definición de integral
impropia y la regla de Barrow. Nos queda:
 
1 1 1
ϕX (t) = fb(t) = −
2 it + 1 it − 1
1
=
1 + t2
En general, si µ y b son cualesquiera, la función característica de una variable aleatoria
con distribución de Laplace va a ser
eitµ
ϕX (t) =
1 + b2 t

Otro ejemplo: La distribución de Cauchy


La distribución de Cauchy C(µ, λ) tiene densidad de probabilidad dada por:
1 λ
f (x) =
π λ2 + (x − µ)2
De vuelta, nos bastaría calcular su función característica con µ = 0 y λ = 1. Sería
Z ∞
1 1
ϕX (t) = 2+1
eixt dx
−∞ π x
No es fácil calcular esta integral directamente. Pero si observamos que la densidad f (x) =
1
1+x2
es el resultado del ejemplo anterior, podemos calcularla usando la fórmula de inversión
de Fourier (como f es par, no cambia la integral si reemplazamos x por −x). Obtenemos
ϕX (t) = e−|t|
En general, si µ y λ son cualesquiera,
ϕX (t) = eiµt−λ|t|
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 189

10.6. Transformada de Fourier de una derivada


Proposición 10.6.1 Si f : R → C es una función en L1 que es de clase C 1 y f (x) → 0
cuando |x| → +∞,
F(f 0 )(t) = (−it)Ff (t)

Prueba:
Z ∞
0
F(f )(t) = f 0 (x)eixt dx
−∞
Z R
= lı́m f 0 (x)eixt dx
R→+∞ −R
 Z R 
R
= lı́m f (x)eixt −R
− f (x)ite ixt
dx
R→+∞ −R
Z ∞
=− f (x)iteixt dx
−∞
= (−it)Ff (t)

10.7. Derivada de la transformada de Fourier


Proposición 10.7.1 Si f : R → C es una función en L1 tal que x · f (x) ∈ L1 entonces fb
es derivable y
d
Ff (t) = F(ixf )(t)
dt
Prueba:
Z ∞
d d ixt
Ff (t) = f (x) [e ] dx
dt dt
Z−∞

= f (x)ixeixt dx
−∞
= F(ixf )(t)

Para justificar la derivación bajo el signo de integral, se usa un teorema de análisis real
(corolario del teorema de convergencia mayorada). 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 190

10.8. El espacio de Schwartz


Definimos el espacio de Schwartz S(R) como el conjunto de funciones f : R → C de
clase C ∞ tales que para todo par de índices j y k en N0 existe una constante Mj,k tal que

|xj f (k) (x)| ≤ Mj,k para todo x ∈ R

La idea es que si una función está en S(R), ella y todas sus derivadas decaen en infinito
más rápido que x−k para todo k. Es un espacio muy chico, pero las funciones C ∞ de soporte
compacto están en él, así como las funciones gaussianas

con a > 0
2
f (x) = e−ax

En particular, si f ∈ S(R), f (k) y xk f estarán en S(R) para todo k ∈ N.

Teorema 10.8.1 Sea S = S(R) el espacio de Schwartz. La transformada de Fourier


pensada como una transformación lineal F : S → S es biyectiva. Su inversa viene dada
por la fórmula de inversión clásica
Z ∞
1
F −1 (g)(x) = g(y) e−ix·y f (y) dy
2π −∞

Para todo índice k tenemos:

F(f (k) )(t) = (−it)k Ff (t)

dk
Ff (t) = F((ix)k f )(t)
dtk

10.9. El Teorema de Continuidad de Paul Lévy


Teorema 10.9.1 Sea (Xn )n∈N una sucesión de variables aleatorias finitas en casi todo
punto, y X otra variable aleatoria finita en casi todo punto. Entonces
D
Xn −→ X ⇔ ϕXn (t) → ϕ(t) ∀ t ∈ R

Nota: En realidad vamos a ver que si

ϕXn (t) → ϕ(t) para casi todo t

entonces
D
Xn −→ X
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 191

Prueba: Supongamos primero que Xn −→ X. Para ver que ϕXn (t) → ϕ(t) basta aplicar
D

el corolario 9.2.3 aplicado a la función ϕ(t) = eitx (Este corolario se extiende a funciones
con valores complejos, separando la parte real y la imaginaria). Ahora queremos probar el
recíproco. Supongamos que ϕXn (t) → ϕ(t) para todo t. Queremos probar que Xn −→ X.
D

Usando el recíproco fuerte del teorema de Helly-Bray, esto es equivalente a probar que

E[ψ(Xn )] → E[ψ(X)]

para toda ψ de clase C ∞ con soporte compacto. Como obervamos antes, ψ está en el
espacio de Schwartz, así que podemos escribir ψ = F(g) donde
Z ∞
−1 1
g(x) = F (ψ)(x) = ψ(y) e−ix·y dy
2π −∞

será otra función en el espacio de Schwartz.


Entonces escibimos
Z ∞ Z ∞
E[ψ(Xn )] = ψ(x) dFXn (x) = gb(x) dFXn (x)
Z−∞

−∞

= g(x) ϕXn (x) dx


−∞

por la indentidad de Plancherel. Como

|g(x) ϕXn (x)| ≤ |g(x)|

y g está en L1 , podemos pasar al límite cuando n → +∞ usando el teorema de convergencia


mayorada. Y se obtiene:
Z ∞
E[ψ(Xn )] → g(x) ϕX (x) dx = E[ψ(X)]
−∞

haciendo la misma cuenta que antes, con Xn en lugar de X. Como vale para toda ψ con
soporte compacto, deducimos que
D
Xn −→ X

Nota: Este teorema será la clave de la demostración del Teorema del Límite Central en el
capítulo siguiente. La demostración que dimos está adaptada de [HN01, Teorema 11.50] (si bien
en este libro está escrita asumiendo que las distribuciones Fn son absolutamente continuas). En el
apéndice H se da una prueba alternativa (con un enunciado más general) tomada de [Jam02].
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 192

10.9.1. Un ejemplo
Supongaamos que las Xn son variables de Rademacher con probabilidad de éxito 1/2,
o sea
P {Xn = −1} = P {Xn = 1} = 1/2
y son independientes. Vamos a probar que
n
Xk
−→ U(−1, 1) cuando n → +∞
D
X
Yn =
2k
k=1
usando el teorema de Lévy.
Para ello vamos a calcular la función característica de Yn Notamos que
1 it 1 −it
ϕXn (t) = E[eitXn ] = · e + e = cos(t)
2 2
Como las Xn son independientes:
n   n  
Y t Y t
ϕYn (t) = ϕXk = cos
2k 2k
k=1 k=1

¿Cómo calcular este producto ? La identidad trigonométrica


   
t t
sen t = 2 sen · cos
2 2
permite probar por inducción que
 n
 "Y  #
n t t
sen t = 2 sen cos
2n 2k
k=1

[Estas fórmulas las saqué del artículo de Wikipedia sobre la fórmula de Viète para π].
Entonces despejando vemos que si t 6∈ πZ,
t
sin(t) sin(t) 2n 
ϕYn (t) = = ·
2n sen 2tn sen 2tn

t
Como
sen x
lı́m =1
x→0 x
vemos que
sen t
ϕYn (t) → ∀ t 6∈ πZ
t
Deducimos que
ϕYn (t) → ϕY (t) para todo t 6∈ πZ
donde Y ∼ U (−1, 1). Por el teorema de continuidad de Paul Lévy,
D
Yn −→ Y
Capítulo 11

El Teorema del Límite Central

En este capítulo, presentaremos el Teorema del Límite Central, que es uno de los resul-
tados fundamentales de la teoría de probabilidades. Informalmente, este teorema dice que
la suma de un número grande de variables aleatorias independientes con varianza finita ,
donde la varianza de cada variable contribuye poco (en algún sentido) a la varianza total
se distribuye en forma aproximadamente normal (formalizaremos esta idea más adelante).
Este teorema justifica el papel central que juega la distribución normal en la estadística.
Por ejemplo, los errores de medición en un experimento suelen tener una distribución nor-
mal, y esto es esperable por el teorema central del límite, si suponemos que el error de
medición puede originarse en distintas fuentes independientes de error, cada una de las
cuales contribuye en pequeña medida al error total.
Comenzaremos presentando una versión para la distribución binomial, conocida como
el teorema de De Moivre-Laplace. Es históricamente la primera versión que se conoció
del teorema del límite central. Y la demostraremos “a mano” utilizando la aproximación
del factorial por medio de la fórmula de Stirling. Después demostraremos una versión del
teorema del límite central para variables independientes y uniformemente distribuidas (con
varianza finita), por medio de la técnica de las funciones características que desarrollamos
en el capítulo anterior. Finalmente, haremos algunos comentarios sobre sus generalizaciones
y versiones más refinadas.

11.1. El Teorema Local de De Moivre-Laplace


Sea X una variable aleatoria con segundo momento finito. Entonces la variable reescal-
dada (o “normalizada”)

X − E(X)
X∗ = p
Var(X)
satisface que E(X ∗ ) = 0 y Var(X ∗ ) = 1.

193
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 194

Sea Sn el número de éxitos en n ensayos de Bernoulli con probabilidad p ∈ (0, 1).


Sabemos que Sn tiene distribución binomial:
 
n
P {Sn = k} = b(k, n, p) = pk q n−k (0 ≤ k ≤ n), q = 1 − p
k
y que E[Sn ] = np, Var(Sn ) = npq. Consideramos entonces la variable normalizada:

Sn − np
Sn∗ = √ (11.1)
npq
Nuestro objetivo es estudiar el límite de la distribución de Sn∗ cuando n → +∞:
Comenzamos aproximando la distribución binomial, utilizando la fórmula de Stirling
(ver apéndice):

n! ∼ 2π nn+1/2 e−n eO(1/n)
Obtenemos1 :

Teorema 11.1.1 (Teorema local de De Moivre-Laplace)


1 2
b(k, n, p) = √ e−xk /2 (1 + βn,k )
2πnpq

donde
k − np
xk = √
npq
y para M ≥ 0,
máx |βn,k | → 0 cuando n → ∞ (11.2)
|xk |≤M

Prueba:


2π nn+1/2 e−n eO(1/n)
b(k, n, p) = √ √ pk q n−k
2π k k+1/2 e−k eO(1/k) 2π (n − k)n−k+1/2 e−(n−k) eO(1/(n−k))
r  n−k
1 n  np k nq
=√ eO(1/n)+O(1/k)+O(1/(n−k))
2π k(n − k) k n−k
Notemos que:  r 
√ q
k = np + xk npq = np 1 + xk
np
1
La prueba que presentamos del teorema de De Moivre-Laplace está basada en unas notas del curso de
probabilidad y estadística del profesor N. Fava.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 195

Figura 11.1: Ilustración de la bondad de la aproximación a la distribución binomial por


la distribución normal dada por el teorema de local de De Moivre-Laplace, con n = 20 y
p = 0,4.

y que:  r 
√ p
n − k = nq − xk npq = nq 1 − xk
nq
Estimaremos en forma separada el valor de cada uno de los factores a medida que
n → +∞:
r v
n u n 1
=u  q   q =√ (1 + αn,k )
k(n − k) t np 1 + x q
nq 1 − x p npq
k np k nq

donde
máx |αn,k | → 0 cuando n → +∞
|xk |≤M
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 196

Para estimar el segundo factor, tomamos logaritmo y hacemos uso del desarrollo de
Taylor: log(1 + t) = t − t2 + O(t3 ) cuando t → 0.
2

En consecuencia:
 np k  nq n−k  
k

n−k

log = (−k) log − (n − k) log
k n−k np nq
 r   r 
q p
= (−k) log 1 + xk − (n − k) log 1 − xk
np nq
 r  
√ q 1 2 q 1
= (−np − xk npq) xk − x +O
np 2 k np n3/2
  

r
p 1 2 p 1
+ (−nq + xk npq) −xk − x +O
nq 2 k nq n3/2
   
√ 1 1 √ 1 2 1
= −xk npq + qx2k − qx2k + O + x k npq + px − px 2
+ O
2 n1/2 2 k k
n1/2
 
1 1
= − x2k + O
2 n1/2
Deducimos que:
 np k  nq n−k 2 1/2
= e−xk /2 · eO(1/n )
k n−k
Finalmente consideramos el término de error eO(1/n)−O(1/k)−O(1/(n−k)) = eE donde

   
   
1 1 1 1
E=O +O  +O =O
    
q q
n np 1 + x q p
nq 1 − xk nq n
k np

En consecuencia, utilizando las estimaciones que hemos obtenido para cada factor, y
teniendo en cuenta que O(1/n1/2 ) + O(1/n) = O(1/n1/2 ), obtenemos que:
1 2 2
b(k, n, p) = √ e−xk /2 · (1 + αn (xk )) eO(1/n )
2πnpq
Finalmente, observamos que el factor de error dado por
1/2 )
(1 + αn (xk ))eO(1/n
tiende a 1 cuando n → +∞, uniformemente para los k tales que |xk | ≤ M , por lo que
podremos representarlo en la forma 1 + βn,k donde
máx |βn,k | → 0
|xk |≤M


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 197

Observación 11.1.2 La fórmula 11.2 significa que la aproximación dada por el teorema
de local De Moivre-Laplace es buena en el centro de la distribución binomial, pero no en
las colas de la misma. Por ejemplo, si n es grande y p es muy pequeño, como se ilustra en
la figura 11.2. En esta situación es mejor la aproximación por la distribución de Poisson
que discutimos en la sección 3.6. Por simetría, tampoco es buena si p está muy cerca de 1.

Figura 11.2: Ilustración de la bondad de la aproximación a la distribución binomial por


la distribución normal dada por el teorema local de De Moivre-Laplace, con n = 3000 y
p = 0,01. Vemos que no resulta tan buena si n es grande y p es pequeña.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 198

11.2. El Teorema de De Moivre-Laplace


En este capítulo, notaremos por
1
(11.3)
2
g(x) = √ e−x /2

a la densidad normal estándar (que introdujimos en el ejemplo 4.1.6), y por
Z x
G(x) = g(t) dt (11.4)
−∞

a la correspondiente función de distribución normal (acumulada).


El siguiente teorema afirma que la distribución límite de la variable normalizada Sn∗
está dada por la integral definida de g(x):

Teorema 11.2.1 (De Moivre-Laplace)


Z b
1 2 /2
P {a < Sn∗ ≤ b} → √ e−x dx = G(b) − G(a)
2π a

uniformemente en a y en b cuando n → +∞.

Observación 11.2.2 De acuerdo con [McD05a], el teorema 11.1.1 fue enunciado por De
Moivre en 1754 en su trabajo Approximatio ad Summam Terminorum Binomii (a + b)n
in Seriem expansi, pero sólo lo demostró para p = 1/2. La primera prueba completa fue
dada por Laplace (1795) en su libro Théorie analytiquedes probabilités. Análogamente el
teorema 11.2.1 fue demostrado por De Moivre para p = 1/2, y por Laplace para cualquier
p ∈ (0, 1).

.
La idea básica de la demostración es la siguiente:
X
Pn (a, b) = P {a < Sn∗ ≤ b} = b(k, n, p)
a<xk ≤b

ya que si Sn∗ toma el valor xk , entonces Sn toma el valor k.


Los puntos xk están cada vez más próximos a medida que n → +∞, ya que
1
xk+1 − xk = √
npq
y por el teorema anterior b(k, n, p) ≈ g(xk )(xk+1 − xk ) entonces,
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 199

Figura 11.3: Ilustración del teorema de De Moivre-Laplace: para p = 0,4 y distintos valores
de n, dibujamos la función de distribución de la distribución binomial, junto con la de la
normal estándar.

X
Pn (a, b) = P {a < Sn∗ ≤ b} ≈ g(xk )(xk+1 − xk )
a<xk ≤b

y esta es una suma de Riemann para la integral a g(x) dx. Por lo tanto, conforme
Rb

n → +∞, es razonable que podamos aproximar Pn (a, b) por dicha integral.


La demostración consiste en una formalización de esta idea:
Prueba: Dado ε > 0, elegimos M de modo que

G(M ) − G(−M ) = 1 − ε
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 200

y además
1

M2
por consiguiente:
G(−M ) = 1 − G(M ) = ε/2
Consideramos primero el caso en que el intervalo (a, b) está contenido en el interva-
lo (−M, M ). La función gn definida por gn (x) = g(xk ) para xk < x ≤ xk+1 converge
uniformente a g(x) cuando n → +∞, en virtud de la continuidad uniforme de g.
Denotamos por k0 el mínimo entero tal que a < xk0 y sea k1 el máximo entero tal que
xk1 ≤ b.
En virtud del teorema 11.1.1,
X
Pn (a, b) = (1 + βn,k )g(xk )(xk+1 − xk )
a<xk ≤b
X X
= g(xk )(xk+1 − xk ) + βn,k g(xk )(xk+1 − xk )
a<xk ≤b a<xk ≤b
Z xk1 +1 X
= gn (x) dx + βn,k g(xk )(xk+1 − xk )
xk 0 a<xk ≤b

En consecuencia,
Z b Z xk0 Z xk1 +1
Pn (a, b) = gn (x) dx − gn (x) dx + gn (x) dx
a a b
X
βn,k g(xk )(xk+1 − xk )
a<xk ≤b

o sumando y restando gn :
Z b Z b Z xk0
Pn (a, b) = g(x) dx + [gn (x) − g(x)] dx + gn (x) dx
a a a
Z xk1 +1 X
+ gn (x) dx + βn,k g(xk )(xk+1 − xk )
b a<xk ≤b

El segundo término de esta expresión podemos acotarlo del siguiente modo:


Z b
[gn (x) − g(x)] dx ≤ (b − a) sup |gn (x) − g(x)| ≤ 2M sup |gn (x) − g(x)|
a x∈[a,b] x∈[a,b]

Además como g y por consiguiente gn están acotadas por (2π)−1/2 , deducimos que:
Z xk
0 1
gn (x) dx ≤ √
a 2πnpq
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 201

, Similarmente: Z xk1 +1
1
gn (x) dx ≤ √
b 2πnpq
Finalmente, último término podemos acotarlo del siguiente modo,

X k1
X
βn,k g(xk )(xk+1 − xk ) ≤ máx |βn,k | g(xk )(xk+1 − xk )
|xk |≤M
a<xk ≤b k=k0

1
≤ √ 2M máx |βn,k | → 0 cuando n → +∞
2π |xk |≤M

Como todas las estimaciones efectuadas, son independientes de a y b, concluimos que


cuando n → +∞,
Z b
Pn (a, b) → g(x) dx
a
uniformemente en a y b. Es decir: existe un entero n0 = n0 (ε) independiente de a y de b
tal que
Z b
Pn (a, b) − g(x) dx < ε
a

para cualquier a, b ∈ (−M, M ). En particular, deducimos que:


Z M
Pn (−M, M ) − g(x) dx ≤ ε
−M

para n ≥ n0 .
Si (a, b) no está contenido en (−M, M ), tenemos que:

Pn (a, b) = Pn (a, −M ) + Pn (−M, M ) + Pn (M, b)


y
Z b Z −M Z M Z b
g(x) dx = g(x) dx + g(x) dx + g(x) dx
a a −M M
Utilizando entonces la desigualdad triangular tenemos que:
Z b Z M
Pn (a, b) − g(x) dx ≤ Pn (−M, M ) − g(x) dx +
a −M
Z −M Z b
+Pn (a, −M ) + Pn (M, b) + g(x) dx + g(x) dx
a M
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 202

Pero
Z −M Z b Z −M Z ∞
g(x) dx + g(x) dx ≤ g(x) dx + g(x) dx = G(−M ) + [1 − G(M )] < ε
a M −∞ M

y
1
Pn (a, −M ) + Pn (M, b) ≤ P {|Sn∗ | ≥ M } ≤

M2
por la desigualdad de Chebyshev, pues E(Sn∗ ) = 0 y Var(Sn∗ ) = 1 (teniendo en cuenta
nuestra elección de M al comienzo de la demostración). En consecuencia,
Z b
Pn (a, b) − g(x) dx ≤ 3ε
a

si n ≥ n0 (ε) Esto concluye la demostración del teorema. 

11.3. Una Aplicación a la Estadística


Veremos ahora una aplicación del teorema de De Moivre-Laplace y de la distribución
normal, a la estadística.
Consideremos por ejemplo, una encuesta electoral para una elección donde participan
dos candidatos A y B, y supongamos que cada persona puede votar por uno de ellos (y para
simplificar que no hay votos en blanco). Podemos modelizar esto utilizando la distribución
binomial, para ello imaginemos un experimento aleatorio donde se elige una persona al
azar y se le pregunta por quien vota. Y llamemos p a la probabilidad de que vote por A
(“éxito”) y q = 1 − p a la probabilidad de que vote por B. Alternativamente, podemos
pensar que tenemos una elección en la que participan varios candidatos y que nos interesa
medir la intención de voto de un determinado candidato A. En este caso, consideramos
el experimento aleatorio que consiste en elegir una persona al azar, preguntarle por quien
vota, y hay dos resultados posibles que nos interesan: si vota por A (con probabilidad p) o
si no vota por A con probabilidad q=1-p.
Nuestro objetivo es estimar la probabilidad desconocida p. Como resulta extraordina-
riamente costoso y complicado preguntarle a cada votante del padrón electoral por quién
piensa votar, lo que suele hacerse es elegir una muestra, digamos formada por n perso-
nas. Entonces, conforme a la ley de los grandes números, si llamamos Sn a la cantidad de
personas de la muestra que votan por el candidato A, podemos aproximar la probabilidad
desconocida p por la frecuencia:

Sn
fn =
n
observada en la muestra (Estamos suponiendo que las elecciones de las distintas per-
sonas pueden considerarse independientes unas de otras, de modo que la elección de n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 203

personas encuestadas, puede considerarse como realizar n ensayos de Bernoulli, y la distri-


bución de Sn sea dada por la distribución binomial.)
Otro ejemplo análogo se da en el control de calidad en un proceso industrial. Por
ejemplo, imaginemos que tenemos un lote de 10.000 lamparitas y queremos saber cuantas
están falladas. Llamemos p a la probabilidad de que una lamparita elegida al azar funcione,
y q = 1 − p a la probabilidad de que esté fallada. Nuevamente, sería extraordinariamente
costoso probar una por una las lamparitas, por lo que se hace es elegir una muestra, y
aproximar p por la frecuencia fn observada en la muestra.
Una pregunta fundamental es entonces: ¿Cómo elegir el tamaño de la muestra?. Para
ello, elegimos un margen de error ε, y un nivel de confianza 1 − α donde ε y α son números
pequeños, y nos proponemos elegir el tamaño de la muestra de modo que podamos asegurar
que la probabilidad de que fn diste de p como mucho en ε es por lo menos 1 − α, o sea:

P {|fn − p| ≤ ε} ≥ 1 − α (11.5)
Por ejemplo: supongamos que queremos que muestra encuesta (o control de calidad)
se equivoque como mucho en un 2 % en el 95 % de las veces que realizamos la encuesta.
Entonces, elegimos ε = 0, 02 y α = 0, 05.
Elegimos entonces xα de modo que:
α
G(−xα ) =
2
donde G es la función de distribución normal estándar (dada por 11.4). Por la simetría de
la curva normal,
α
G(xα ) = 1 −
2
Llamando Sn a la variable normalizada dada por (11.1), por el teorema de De Moivre

Laplace:
Z xα
1 2
P {−xα ≤ Sn∗ ≤ xα } ≈ √ e−x /2 dx = G(xα ) − G(−xα ) = 1 − α
2π −xα
si n es suficientemente grande. En consecuencia, recordando la definición de Sn∗ y des-
pejando:
√ √
P {−xα npq ≤ Sn − np ≤ xα npq} ≈ 1 − α

√ √
P {np − xα npq ≤ Sn ≤ np + α npq} ≈ 1 − α

 r r 
pq Sn pq
P p − xα ≤ ≤ p + xα ≈1−α
n n n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 204

O sea:  r 
Sn pq
P − p ≤ xα ≈1−α
n n
Esta relación dice que con probabilidad 1 − α podemos asegurar que p está en el intervalo:
 r r 
Sn pq Sn pq
Iα = − xα , + xα
n n n n
Iα se llama un intervalo de confianza (asintótico) para p de nivel de confianza 1 − α.
En realidad en esta forma, esta relación no resulta todavía muy útil ya que no conocemos
p y entonces tampoco conocemos el ancho del intervalo Iα . Pero podemos observar que:
1
pq = p(1 − p) ≤ ∀ p ∈ [0, 1]
4
En consecuencia, podemos asegurar que
 
Sn 1 Sn 1
Iα ⊂ − xα √ , + xα √
n 2 n n 2 n
y que (si n es grande):
 
Sn 1
P − p ≤ xα √ ≥1−α
n 2 n
En consecuencia, si queremos que valga la relación (11.5) debemos elegir n para que:
1
xα √ ≤ ε
2 n
o sea:  x 2
α
n ≥ n0 =

Esta relación nos dice cuál es el tamaño (mínimo) de la muestra que necesitamos para
poder garantizar un determinado margen de error con un determinado nivel de confianza.
Por ejemplo, si α = 0, 05 y ε = 0,02, obtenemos que: xα = 1, 96 y n ≥ 2401.
Observación: Notamos que cuando α → 0, xα → +∞ por lo que n0 → +∞.

11.4. El Teorema del Límite Central


El siguiente teorema generaliza al de De Moivre-Laplace:

Teorema 11.4.1 (Teorema del Límite Central, versión sencilla) Sea (Xk )k∈N : Ω →
R una sucesión de variables aleatorias independientes e idénticamente distribuidas con
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 205

0 < σ 2 = Var(Xk ) < +∞. Sea µ = E[Xk ] (como suponemos que las Xk tienen todas la
misma distribución, tendrán todas la misma esperanza y varianza). Notemos:

Sn = X1 + X2 + . . . + Xn
Sn − E[Sn ] Sn − nµ
Sn∗ = p = √
Var(Sn ) nσ
Entonces
D
Sn∗ −→ N (0, 1)

Observación 11.4.2 Para comprender el significado de este teorema, observemos que si


consideramos el esquema de ensayos de Bernoulli, y las (Xk ) son las variables aleatorias de
la sección 3.4 entonces Sn representa el número total de éxitos en n ensayos, y el teorema
del límite central se reduce al teorema de De Moivre-Laplace.

Observación 11.4.3 El nombre del teorema se debe a que proporciona una buena apro-
ximación en el centro de la distribución, pero no tan buena en las colas de la misma,
como vimos en la observación 11.1.2 para el caso de la distribución binomial. En inglés se
denomina central limit theorem, pero por esta observación resulta más correcto traducirlo
por teorema del límite central que por teorema central del límite, como muchas veces se
hace.

Para la prueba necesitamos un lema elemental sobre números complejos (que el lector
fácilmente puede demostrar usando la rama principal del logaritmo).

Lema 11.4.4 Si (cn ) es una sucesión de números complejos tal que cn → c, entonces
 cn n
1+ → ec
n

Pasaremos entonces a la demostración del teorema del límite central:


Prueba: Sin pérdida de generalidad, podemos suponer que µ = 0, cambiando sino las Xk
por las variables centradas
Xek = Xk − µ

Calculemos la función característica de Sn∗ . Como las (Xk ) son idependientes, y tienen
todas la misma distribución será
 n
t
ϕSn∗ (t) = ϕ √
σ n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 206

donde ϕ(t) = ϕXk (t) para todo k. Hagamos el desarrollo de Taylor de ϕ(t) a segundo orden.
Usando la proposición 10.2.6 (que relaciona los momentos de Xk con las derivadas de la
función característica en t = 0), vemos que es
1
ϕ(Xk )(t) = 1 + ϕ0 (0)t + ϕ00 (0)t2 + t2 e2 (t)
2
σ 2
= 1 − t2 + t2 e2 (t)
2 2 
σ
= 1 + − + e2 (t) t2
2
donde
lı́m e2 (t) = 0 (11.6)
t→+∞
por la propiedad que tiene el resto de Taylor. Entonces:
(  2    2 )n
σ t t
ϕSn∗ (t) = 1 + − + e2 √ √
2 σ n σ n
    2 n
1 1 t t
= 1 + − + 2 e2 √
2 σ σ n n
Fijado un t, si llamamos   
1 1 t
cn = − + 2 e2 √ t2
2 σ σ n
como
t2
cn → c = −
2
cuando n → ∞, por (11.6), vemos aplicando el lema que
2 /2
ϕSn∗ (t) → ec = e−t

pero esta función es justamente la función característica de la distribución normal estándar


N (0, 1). Por el corolario el teorema de continuidad de Paul Lévy, se deduce que Sn∗ converge
en distribución a la normal estándar, como afirma el teorema. 
Una prueba alternativa del teorema del límite central sin utilizar funciones caracterís-
ticas se presenta en [Chi22]. Otra demostración interesante es la de [Tro59] (pero usa la
noción de operadores en un espacio de Banach).

11.4.1. Aplicación a las distribuciones χ2n


Para dar un ejemplo del teorema del límite central, consideremos nuevamente las va-
riables
Zn = X12 + X22 + . . . + Xn2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 207

donde las (Xk ) son variables con distribución normal estándar independientes, que introdu-
jimos en la sección 4.9.1. Entonces, por definición Zn tiene distribución χ2n y sabemos que
E[Zn ] = n y Var(Zn ) = 2n. Por el teorema del límite central, para n grande, la distribución
normal proporciona una buena aproximación de la distribución χ2n en el sentido que las
variables normalizadas
Zn − n
Zn∗ = √
2n
convergen en distribución a una normal estándar. El siguiente gráfico compara las funciones
de distribución de Zn∗ con la de la distribución normal, para n grande:

Figura 11.4: Convergencia en distribución de la distribución χ2n normalizada (distribución


de Zn∗ ) a la normal estándar.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 208

11.5. Generalizaciones y comentarios adicionales


El teorema del límite central no está limitado al caso de variables idénticamente distri-
buidas. Como dijimos en la introducción, se aplica en general a sumas de variables aleatorias
independientes con varianza finita, donde la varianza de cada variable contribuye (en algún
sentido) a la varianza total. Una condición muy general para su validez está dada por el
siguiente teorema de Lindeberg:

Teorema 11.5.1 (Teorema del Límite central de Lindeberg) Sea (Xk )k∈N una su-
cesión de variables aleatorias independientes tales que µk = E[Xk ] y σk2 = Var(Xk ), donde
σk es finita y al menos algún σk0 > 0. Sean

Sn = X1 + X2 + . . . + Xk
q
sn = Var(Sn ) = σ12 + . . . + σn2
p

y supongamos que se cumple la siguiente condición de Lindeberg:


n Z
1 X
∀ ε > 0 lı́m 2 (x − µk )2 dFXk (x) = 0
ε→0 sn |x−µk |>εsn
k=1

entonces si definimos

Sn − E[Sn ] Sn − (µ1 + µ2 + . . . + µn )
Sn∗ = =
sn sn
tenemos que
D
Sn∗ −→ N (0, 1)

El teorema de Lindeberg implica el siguiente teorema de Lyapunov que da una condición


más fuerte, pero quizás más fácil de entender:

Teorema 11.5.2 (Teorema Límite central de Lyapunov) Sea (Xk )k∈N una sucesión
de variables aleatorias independientes tales que µk = E[Xk ] y σk2 = Var(Xk ), donde σk es
finita y al menos algún σk0 > 0. Sean

Sn = X1 + X2 + . . . + Xk
q
sn = Var(Sn ) = σ12 + . . . + σn2
p

y supongamos que existe algún δ > 0 tal que se cumple la siguiente condición de Lyapunov:
n
1 X
∀ ε > 0 lı́m E[|Xk − µk |2+δ ] = 0
ε→0 s2+δ
n k=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 209

entonces si definimos

Sn − E[Sn ] Sn − (µ1 + µ2 + . . . + µn )
Sn∗ = =
sn sn
tenemos que
D
Sn∗ −→ N (0, 1)

La demostración de estos resultados puede verse en [Jam02] (capítulo 7). También


emplea el método de las funciones características, aunque resulta mucho más técnica.

Una pregunta que podemos hacernos es ¿cuál es la velocidad de convergencia a la


distribución normal en el teorema del límite central? Una respuesta es dada por el teorema
de Bery-Essen2 cuya versión más sencilla (correspondiente a la situación del teorema 11.4.1)
es la siguiente:

Teorema 11.5.3 (Teorema de Berry-Essen, versión sencilla) Si (Xk ) es una suce-


sión de variables independientes identicamente distribuidas, con E(Xk ) = µ, E(Xk2 ) =
Var(Xk ) = σ 2 > 0 y si suponemos además que el tercer momento respecto de la media µ
de las Xk
ρ = E[|Xk − µ|3 ] < ∞
es finito, y si definimos como antes

Sn = X1 + X2 + . . . + Xn
Sn − E[Sn ] Sn − nµ
Sn∗ = √ = √
VarSn n σ
entonces

|FS ∗ (x) − G(x)| ≤ √
σ3 n
donde G denota la función de distribución de la normal estándar y C es una constante fija.

También debemos mencionar que el teorema del límite central se generaliza sin dificul-
tades esenciales a vectores aleatorios, debiendo considerar en este caso para la distribución
límite a la distribución normal multivariada (ver [Jam02], teorema 7.2). Y que existen ver-
siones “locales” del teorema central del límite, que generalizan al teorema 11.1.1, para una
discusión al respecto ver [McD05a].
2
Este teorema fue descubierto independientemente por los matemáticos Andrew C. Berry [Ber41] y
Carl-Gustav Esseen [CG42]. La prueba en el primero de ellos también emplea el método de las funciones
características.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 210

11.6. Una Aplicación a la Teoría de Números


Resulta sorprendente encontrar aplicaciones del teorema del límite central, en ramas de
la matemática aparentemente alejadas de las probabilidades. En esta sección comentaremos
brevemente una de ellas: una aplicación a la teoría de números. Esta rama de la matemática
se ocupa fundamentalmente de las propiedades de los números enteros.
Comencemos con una pregunta muy básica: ¿qué quiere decir elegir un número natural
al azar?. Para ello, fijado un N ∈ N consideramos el conjunto ΩN = {n ∈ N : 1 ≤ n ≤ N }
como un espacio muestral discreto en el que asignamos probabilidades de acuerdo con la
definición clásica de Laplace:
#(A)
PN (A) = A ⊂ ΩN
N

Si queremos asignar a eventos A ⊂ Ω = N, resulta natural entonces tomar el límite


cuando N → ∞, y definir

P (A) = lı́m PN (A ∩ ΩN ) A⊂N


N →∞

siempre que este límite exista


Por ejemplo: ¿cuál es la probabilidad de que un número natural elegido al azar sea par?
De acuerdo a esta definición si D2 = {n ∈ N : n es par }, entonces
   
1 N 1 N 1
P (D2 ) = lı́m = lı́m + O(1) =
N →∞ N 2 N →∞ N 2 2

(donde los corchetes indican la parte entera de N2 ), que está de acuerdo con nuestra intui-
ción. Más generalmente, si d ∈ N, y consideramos el evento

Dd = {n ∈ N : n es divisible por d}

un argumento similar muestra que


1
P (Dd ) = (11.7)
d
como esperamos3 .
Sin embargo, hay que ser cuidadosos, porque esta noción de probabilidad no es σ-aditiva
(es decir: se sale del marco de Kolmogorov en el que venimos trabajando4 .). Por ejemplo,
P (N) = 1 pero [
N= {n}
n∈N
3
Para una discusión más detallada de este concepto, ver [San55]
4
Sin embargo, es posible formalizarla en el contexto más general de las álgebras de probabilidad condi-
cional propuesto por Renyi [Ren78]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 211

y P ({n}) = 0.
Para n ∈ N consideremos ahora la función ω(n) que cuenta el número de divisores
primos distintos de n. Por ejemplo,

360 = 23 × 32 × 51 ⇒ ω(360) = 3

.
Entonces se tiene el siguiente teorema:

Teorema 11.6.1 (Teorema del límite central de Erdős–Kac,[GS07]) La distribución


de ω(n) es asintóticamente normal, en el siguiente sentido:
 
ω(n) − log log n
lı́m PN n≤N :a≤ √ ≤b = G(b) − G(a)
N →∞ log log n

Podemos interpretar la intuición detrás de este teorema de la siguiente manera: consi-


deremos el conjunto de los primos numerado en forma creciente

P = {p1 = 2, p2 = 3, p3 = 5, p4 = 7, p5 = 11, p6 = 13, . . .},

y para cada k ∈ N definamos la función (variable aleatoria)

1 si pk divide a n

Xk (n) =
0 si 0 si no

Las Xk se comportan como variables aleatorias independientes pues de acuerdo con 11.7:
1 1 1
P {Xj = 1, Xk = 1} = = · = P {Xj = 1} · P {Xk = 1}
pj pk pj pk

En consecuencia como

X
ω(n) = Xk (n)
k=1

(Esta suma es en realidad finita para cada n, pues basta sumar los primos con pk ≤ n),
vemos que ω se comporta como una suma de variables aleatorias independientes, y esto
explica porqué el teorema del límite central se aplique a ella. Sin embargo, hacer riguroso
este argumento requiere argumentos de teoría de las cribas. Una prueba relativamente
sencilla aparece en [GS07].
Capítulo 12

Esperanza Condicional

12.1. Esperanza condicional respecto de un evento


Sea B un evento de probabilidad positiva. Recordamos que la probabilidad condicional
de que ocurra el evento A sabiendo que ocurre el evento B, notada P (A/B) se define por:

P (A ∩ B)
P (A/B) =
P (B)
Sea X : Ω → R una variable aleatoria discreta. Recordamos que la esperanza de X se
define como la serie
X
E[X] = xi P {X = xi }
i

donde Im = {xi } es por hipótesis a lo sumo numerable; siempre que dicha serie sea
absolutamente convergente.
En consecuencia, resulta natural definir la esperanza de X dado que ocurre el evento
A de probabilidad positiva, por:
X
E[X/A] = xi P {X = xi /A}
i

Teniendo en cuenta la definición de probabilidad condicional esto es equivalente a:


X P ({X = xi } ∩ A} 1 X
E[X/A] = xi = xi IA (xi )P {X = xi }
P (A) P (A)
i i

Es decir que:
1
E[X/A] = E[IA X] (12.1)
P (A)

212
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 213

Notemos que esta fórmula puede adoptarse como definición de la esperanza condicional
respecto de un evento para cualquier variable aleatoria (sea discreta o no) mientras tenga
esperanza finita, y el evento A tenga probabilidad positiva.

12.1.1. Un ejemplo con una variable discreta


Supongamos que X ∼ P(λ) donde λ > 0. Recordamos que su distribución puntual
viene dada por
λk
pk = P {X = k} = e−λ · k ∈ N0
k!
y que E[X] = λ. Pero supongamos que ahora sabemos que X ≥ 1. Entonces nuestra
estimación de las probabilidades cambiará Notamos que

P {X = 0} = p0 = e−λ ⇒ P (A) = 1 − e−λ

Tendremos la distribución condicional


si k = 0
(
0
P {X = k/A} = e−λ
1−e−λ
· λk
k! si k ≥ 1

Estamos interesados en calcular E[X/A] siendo A = {X ≥ 1}.

1 X
E[X/A] = xk · IA (xk )P {X = xk }
P (A)
k

e−λ X λk
= k
1 − e−λ k!
k=1

Pero haciendo un cambio de índice j = k − 1:


∞ ∞ ∞ ∞
X λk X λk X λj+1 X λj
k = = =λ = λeλ
k! (k − 1)! j! j!
k=1 k=1 j=0 j=0

(esta cuenta es la misma que para calcular E[X] !). Nos queda:
λ
E[X/A] =
1 − e−λ

12.1.2. Un ejemplo con una variable continua


Supongamos que X ∼ N (0, 1). Entonces E[X] = 0.
Pero supongamos que además sabemos que X > 0. Entonces nuestra estimación de las
probabilidades cambia, y ahora estamos interesados en calcular E[X/A] siendo A = {X >
0}. Notamos que
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 214

Z ∞
1 1
donde φ(x) = √ e−x /2
2
P (A) = φ(x) dx =
0 2 2π
Z ∞
1 1 + 1
E[X/A] = E[IA X] = E[X ] = x+ · φ(x) dx
P (A) P (A) 1/2 −∞
x si x ≥ 0
Z ∞ 
2
=√ x·e −x2 /2
dx donde x =
+
2π 0 0 si x < 0

Haciendo el cambio de variable y = x2 /2 vemos que:


r Z ∞ r
2 −y 2
E[X/A] = e dy =
π 0 π

Generalización
Si X es una variable continua con densidad f (x), U ⊂ R abierto y A = {X ∈ U }.
1 1
E[X/A] = E[IA X] = E[gU (X)]
P (A) P (A)
Z ∞ Z
1 1
= gU (x)f (x) dx = f (x) dx
P (A) −∞ P (A) U
donde gU (x) = x si x ∈ U y 0 si x 6∈ U .

12.2. Esperanza comdicional de una variable con respecto a


otra: caso discreto
Ahora consideremos dos variables discretas X, Y : Ω → R. Nos proponemos definir
el concepto de esperanza condicional E[X/Y ] de X dada Y . Supondremos que X tiene
esperanza finita.
Sean {yj } los distintos valores que toma la variable Y , y notemos que los eventos
Aj = {ω ∈ Ω : Y (ω) = yj } forman una partición del espacio muestral Ω.
Si P {Y = yj } > 0, podemos definir

E[X/Y = yj ] = E[X/Aj ]

utilizando la definición introducida en la sección anterior.


Más explícitamente:

(12.2)
X
E[X/Y = yj ] = xi P {X = xi /Y = yj }
i
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 215

Las probabilidades P {X = xi /Y = yj } que aparecen en esta definición se llaman la


distribución condicional de probabilidades de X dada Y .
Notemos que depende del valor yj de la variable Y . En consecuencia, E[X/Y ] puede
considerarse como una nueva variable aleatoria. Más explícitamente, definimos E[X/Y ] :
Ω → R por:

E[X/Y ](ω) = E[X/Y = Y (ω)]

Observación 12.2.1 Si X e Y son variables discretas independientes, entonces

P {X = xi /Y = yj } = P {X = xi }

Luego
X X
E[X/Y = yj ] = xi · P {X = xi /Y = yj } = xi · P {X = xi } = E[X]
i i

En consecuencia, con lo que E[X/Y ] = E[X] (una variable aleatoria constante), en este
caso.

Observación 12.2.2 En el otro extremo, ¿qué pasa cuando Y = f (X) siendo f : R → R


?
1 si yj = f (xi )

P {Y = yj /X = xi } =
0 si yj 6= f (xi )
Entonces: X
E[Y /X = xi ] = yj · P {Y = yj /X = xi } = f (xi )
j

Es decir:
E[f (X)/X] = f (X)
En particular:
E[X/X] = X

Otras propiedades útiles son:

Linealidad: si λ1 , λ2 ∈ R,

E[λ1 X1 + λ2 X2 /Y ] = λ1 · E[X1 /Y ] + λ2 · E[X2 /Y ]

Más generalmente, podemos sacar afuera de la esperanza condicional funciones de la


variable con respecto a la que estamos condicionando:

E[f (Y )X/Y ] = f (Y )E[X/Y ]


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 216

porque:
X
E[f (Y )X/Y = yj ] = f (yj ·) · xi · P {X = xi /Y = yj }
i
X
= f (yj ) xi · P {X = xi /Y = yj } = f (yj ) · E[X/Y = yj ]
i

12.2.1. Un ejemplo
Consideramos el siguiente ejemplo. Tiramos dos dados en forma sucesiva. Nuestro es-
pacio muestral es:
Ω = {ω = (ω1 , ω2 ) : ωi ∈ D}
donde D = {1, 2, 3, 4, 5, 6}. Consideramos la suma S de los puntos obbtenidos. S : Ω → R
Tenemos que S = X1 + X2 donde X1 (ω) = ω1 , X2 (Ω) = ω2 .
Tenemos que
E[S] = E[X1 ] + E[X2 ] = 3, 5 + 3, 5 = 7
Pero si sabemos cuánto salió en la primera tirada (o sea, cuándo vale X1 ), nuestra estima-
ción de las probabilidades para S cambia.

E[S/X1 ] = E[X1 /X1 ] + E[X2 /X1 ] = X1 + E[X2 ] = X1 + 3, 5

12.2.2. Fórmula de la probabilidad total


E[X/Y ] es una nueva variable aleatoria. ¿Qué pasa si calculamos su esperanza? Recor-
damos que Aj = P {Y = yj } es una partición de Ω.

X
E[E[X/Y ]] = E[X/Y = yj ] · P (Aj )
j
X 1
= E[XIAj ] · P (Aj )
P (Aj )
j
X
= E[XIAj ] =
j
  
X
= E X  IAj  = E[X]
j

Proposición 12.2.3 Fórmula de la probabilidad total

E[E[X/Y ]] = E[X]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 217

12.3. Esperanza condicional de una variable continua respec-


to de una discreta
La definición anterior de E[X/Y ],

E[X/Y = yj ] · IAj donde Aj = {Y = yj }


X
E[X/Y ] =
j

también se puede aplicar si X es una variable aleatoria continua, e Y una variable discreta
(siempre que P (Aj ) > 0).
Veamos un ejemplo (ejercicio de un parcial):

Enunciado:
Se tira un dado equilibrado de tres caras (o sea: se elege un número del 1 al 3 con
idénticas
PI probabilidades). Sea I el número obtenido en el dado. A continuación se define
Z = j=1 Xj donde las variables aleatorias Xj tienen distribución exponencial de pará-
metro 1, y son todas independientes entre sí y del lanzamiento del dado.

i) Encuentre una expresión explícita para la densidad de probabilidad de Z.

ii) Utilizando dicha expresión, calcule E[Z].

iii) Calcular P (Z > 3).

Solución del item i)


Si conociéramos el valor i de I, tendríamos la variable
i
X
Zi = Xj
j=1

Sabemos que Zi ∼ Γ(i, 1) por ser suma de suma de i variables aleatorias indepedendientes
con distribución Exp(1) = Γ(1, 1). [por un resultado que vimos en la clase 11]
Esta es una distribución condicional. ¡ Pero I es aleatoria! La verdadera distribución
de Z se encuentra mezclando estas distribuciones condicionales, pesándolas de acuerdo a
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 218

la distribución de probabilidades de I,
3
X
fZ (z) = fZi (z) · P {I = i}
i=1
" 3 #
1 X z i−1
= · I(0+∞ (z)
3 (i − 1)!
i=1

Recordamos que esta es otra aplicación de la fórmula de la probabilidad total.


Una vez determinada la distribución de Z su esperanza se encuentra mediante la fórmula
de siempre. Z ∞
E[Z] = z · fZ (z) dz
−∞
Pero ahora podríamos pensar esta cuenta de otra manera

E[Z/I = i] = E[Zi ] = i

dado que ya calculamos la esperanza de una variable con distribución Γ(i, 1) (en la clase
8). Entonces
3 3
X 1X 1+2+3
E[Z] = E[E[Z/I]] = E[Z/I = i] · P {I = i} = i= =2
3 3
i=1 i=1

12.4. Esperanza condicional de variables continuas


La definición anterior tiene un serio problema si queremos generalizar el concepto de
esperanza condicional E[X/Y ] cuando la variable aleatoria Y es continua: en general

P {Y = y0 }

puede ser cero, por lo que las probabilidades condicionales:

P {X ∈ I/Y = y0 }

donde I es un intervalo, no va a estar definida.


Vamos a investigar primero el caso en que X e Y admiten una densidad conjunta
fXY (x, y) continua. Recordamos que en esta situación Y se distribuye según la densidad
marginal
Z ∞
fY (y) = fXY (x, y) dx
−∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 219

Consideramos un pequeño intervalo J = [yo, y0 + h], entonces:


R R
P {X ∈ I, Y ∈ J} fXY (x, y) dxdy
P {X ∈ I/Y ∈ J} = = I JR
P {Y ∈ J} J fY (y) dy

Entonces elegimos I = (−∞, x] y dividimos arriba y abajo por h


1
R x R y0 +h
h −∞ y0 fXY (x, y) dxdy
P {X ≤ x/Y ∈ J} =
1 y0 +h
R
h y0 fY (y) dy

Cuando h → 0 esta expresión converge a


Rx
−∞ fXY (x, y0 ) dx
FX/Y =y0 (x) =
fY (y0 )

por el teorema fundamental del cálculo. Esta expresión se llama función de distribución
condicional de X dada Y . Esta cuenta tiene sentido sólo si fY (y) > 0.
De donde obtenemos la densidad densidad condicional de X dada Y dada por

fXY (x, y0 )
fX/Y =y0 (x) =
fY (y0 )

que podemos pensar como una versión infinitesimal de la definición de probabilidad con-
dicional.
Entonces podemos definir la esperanza condicional en este caso, integrando la densidad
condicional:
Z ∞ Z ∞
E[X/Y = y0 ] = x dFX/Y =y0 (x) = x fX/Y =y0 (x) dx
∞ −∞

Todas las propiedades anteriores van a seguir valiendo con esta definición.

12.4.1. Un ejemplo: Esperanzas condicionales en la distribución normal


bivariada
Recordamos que la distribución normal bivariada es la distribución de un vector
aleatorio    
X Z1
=A· +µ
Y Z2
donde Z1 , Z2 ∼ N (0, 1) son independientes,
 
µX
µ= ∈ R2
µY
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 220

y A ∈ R2×2 es una matriz no singular. Encontramos que su densidad conjunta es


(  )
2  2   
x−µX y−µ x−µ y−µY
−  1  + σ Y −2ρ σ X
1 2 1−ρ2 σX Y X σ
Y
fXY (x, y) = p e
2πσX σY 1 − ρ2

donde
2
 
t σX ρσX σY
Σ=A·A = .
ρσX σY σY2
es la matriz de covariancias, y ρ es el coeficiente de correlación entre X e Y .

Proposición 12.4.1 Si el vector (X, Y ) se distribuye según la densidad normal bivariada


N (µ, Σ), entonces
σY
E[Y |X] = µY + ρ (X − µX )
σX

Esto dice, que en este caso la esperanza condicional está dada por la recta de regresión
lineal.

Corolario 12.4.2 Por simetría, en eesta situación


σX
E[X|Y ] = µX + ρ (Y − µY )
σY

Prueba: Buscamos la descomposición de Cholesky de la matriz de covariancia. Es


decir buscamos A = Chol(Z) triangular tal que
     2   2

t a 0 a b a ab σX ρσX σY
A·A = · = =Σ=
b c 0 c ab b2 + c2 ρσX σY σY2

Nos quedan tres ecuaciones con tres incógnitas

a2 = σx2 , ab = ρσX σY , b2 + c2 = σY2

Entonces

a = σX
b = ρσX σY /a = ρσY
q
c = σY2 − b2 = σY (1 − ρ2 )1/2

Usando el resultado del ejercicio que mencionamos antes podemos escribir:


 
X
= µ + Chol(Σ)Z
Y
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 221

donde Z es un vector con distribución normal bivariada estándar, es decir con componentes
Z1 , Z2 que son N (0, 1) independientes.

       
X µX σX 0 Z1
= + ·
Y µY ρσY σY (1 − ρ2 )1/2 Z2

de donde

X = µX + σX Z1
Y = µY + σY [ρZ1 + (1 − ρ2 )1/2 Z2 ]

Entonces:
h i
E[Y /X] = E µY + σY [ρZ1 + (1 − ρ2 )1/2 Z2 /X
   
X − µX
= E µY + σ Y ρ + (1 − ρ2 )1/2 Z2 /X
σX
   
X − µX h i
= E [µY /X] + E σY ρ /X + E (1 − ρ2 )1/2 Z2 /X =
σX
 
X − µX
= µY + σY ρ + (1 − ρ2 )1/2 E [Z2 /X]
σX

Ahora X es una función de Z1 , y Z1 , Z2 eran independientes. Se deduce que X es indepen-


diente de Z2 . Y la relación de independencia entre las variables es simétrica. Luego:

E[Z2 /X] = E[Z2 ] = 0

Se deduce que:
 
X − µX
E[Y /X] = µY + σY ρ
σX

Lema 12.4.3 La variable aleatoria h(Y ) = E[X/Y ] tiene las siguientes propiedades:

Tiene esperanza finita.

Para cualquier función f : R → R acotada, se verifica que:

E[f (Y )h(Y )] = E[f (Y )X]


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 222

Más aún: la esperanza condicional E[X/Y ] está caracterizada por estas dos propiedades. en
el siguiente sentido: si h1 , h2 : R → R son dos funciones que verifican estas dos propiedades,
entonces
P {h1 (Y ) = h2 (Y )} = 1

Prueba: Para probar que h(Y ) tiene esperanza finita, debemos mostrar que la serie
X
h(yj )P {Y = yj }
j

donde (yj ) recorre los posibles valores que la variable Y toma con probabilidad positiva,
es absolutamente convergente.

X X X
|h(yj )|P {Y = yj } = xi P {X = xi /Y = yj } P {Y = yj }
j j i
XX
≤ |xi |P {X = xi , Y = yj } = E(|X|) < +∞
i j

Para probar la segunda afirmación calculamos:


X
E[f (Y )h(Y )] = f (yj )h(yj )P {Y = yj }
j
X X
= f (yj )P {Y = yj } xi P {X = xi /Y = yj }
i i
XX
= f (yj )xi P {X = Xi , Y = yj } = E[f (Y )X]
i j

donde el reordenamiento de la serie se justifica utilizando que dicha serie converge absolu-
tamente (dado que f es acotada).
Ahora probaremos la unicidad: supongamos que h1 , h2 : R → R son funciones que
verifican las propiedades anteriores. Entonces para cualquier función f : R → R acotada,
tenemos que:
E[f (Y )h1 (Y )] = E[f (Y )h2 (Y )] = E[f (Y )X]
En consecuencia, si llamamos h = h1 − h2 por la linealidad de la esperanza:

E[f (Y )h(Y )] = 0

Eligiendo f (t) = I{yj } (t) deducimos que:

h(yj )P {Y = yj } = 0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 223

Por lo tanto si h(yj ) 6= 0, P {Y = yj } = 0. En consecuencia:


X
P {h(Y ) 6= 0} = P {Y = yj } = 0
yj :h(yj )6=0

Es decir que: P {h1 (Y ) = h2 (Y )} = 1. 

Corolario 12.4.4
E[E[X/Y ]] = E[X]

(Se deduce tomando f ≡ 1 en la fórmula anterior).

12.4.2. Un detalle muy técnico


Recordamos que la σ-álgebra de Borel se define como la σ-álgebra de subconjuntos de
R generada por los intervalos (abiertos).

Definición 12.4.5 Una función h : R → R se dice boreliana si es medible respecto a la


σ-álgebra de Borel, o sea que h−1 (I) es un conjunto boreliano para todo intervalo abierto
I ⊂ R.

Nota: Esta definición garantiza que si X : Ω → R es una variable aleatoria, h(X) =


h ◦ X : Ω → R también lo es. pues

(h ◦ X)−1 (I) = X −1 (h−1 (I)

Entonces si I es un intervalo, h−1 (I) es un conjunto boreliano y entonces X −1 (h−1 (I))


es un evento (le podemos asignar una probabilidad).
Notemos que si h : R → R es continua, es boreliana.
Teniendo en cuenta las observaciones anteriores, es posible adoptar la siguiente defini-
ción axiomática de la esperanza condicional:

Definición 12.4.6 Sean X, Y : Ω → R variables aleatorias. Decimos que una variable


aleatoria Z = h(Y ) es una versión de la esperanza condicional E[X/Y ] si donde h : R → R
es una función boreliana, si se verifican las siguiente propiedades:

1. h(Y ) tiene esperanza finita.

2. Para cualquier función boreliana acotada f : R → R se verifica que:

E[f (Y )h(Y )] = E[f (Y )X]


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 224

12.4.3. El caso continuo


Haciendo las mismas cuentas de antes, pero con integrales en lugar de sumas, y densi-
dades en lugar de distribuciones puntuales, se prueba:

Teorema 12.4.7 Si el vector (X, Y ) se distribuye según la densidad de probabilidad con-


junta fXY y E(|X|) < ∞. Supongamos además que
fY (y) > 0 ∀y ∈ R
entonces Z ∞
h(y) = x fX/Y =y (x) dx
−∞
donde
fXY (x, y0 )
fX/Y =y0 (x) =
fY (y0 )
es la densidad condicional, proposciona una versión de la esperanza condicional E[X/Y ].

12.4.4. Teorema de existencia


El siguiente teorema afirma que siempre existe una versión de la esperanza condicional,
aunque no proporciona ninguna fórmula para calcularla. No demostraremos este teorema
ya que su demostración depende de un teorema de análisis real (el teorema de Radon-
Nikodym)

Teorema 12.4.8 Si X, Y : Ω → R son variables aleatorias, siempre existe una versión


de la esperanza condicional E[X/Y ]. Además si h1 (Y ), h2 (Y ) son dos versiones de la
esperanza condicional E[X/Y ], entonces
P {h1 (Y ) = h2 (Y )} = 1

Proposición 12.4.9 (Unicidad) Si Yb1 y Yb2 verifican la definición axiomática de la es-


peranza condicional, entonces Yb1 = Yb2 con probabilidad 1.

Prueba: Sea W = Yb1 − Yb2 . Yb1 = h1 (X), Yb2 = h2 (X). Entonces


W = h(X) con h = h1 − h2
E[W Z] = E[Yb1 Z] − E[Yb2 Z] = E[Y Z] − E[Y Z] = 0
para toda Z = f (X) con f boreliana acotada. Elegimos f (x) = I{h(x)>δ} . Tenemos
δ · P (Aδ ) ≤ E[W · IAδ ] = 0 donde Aδ = {W > δ}
Luego P (Aδ ) = 0 para todo δ > 0, se deduce que W ≤ 0 con probabilidad 1. Cambiando
W por −W , vemos que también W ≥ 0 con probabilidad 1, luego W = 0 o sea Yb1 = Yb2
con probabilidad 1. 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 225

12.5. Propiedades de la esperanza condicional


Las propiedades de la esperanza condicional se pueden deducir de la definición axiomá-
tica. Por ejemplo:

Proposición 12.5.1 (Linealidad) Sean Y1 , Y2 ∈ L1 (Ω). Si c1 , c2 ∈ R,


E[c1 · Y1 + c2 · Y2 /X] = c1 · E[Y1 /X] + c2 E[Y2 /X]

Prueba: Sean Y c2 = E[Y2 /X], Y = c1 · Y1 + c2 · Y2 Hay que verificar que


c1 = E[Y1 /X], Y
Yb = c1 Y c2 cumple con la definción axiomática de esperanza condicional.
c1 + c2 Y

Yb es función de X porque Y
c1 e Y
c2 lo son.

Yb tiene esperanza finita, pues E[Yb ] = c1 E[Y


c1 ] + c2 E[Y
c2 ]

Si Z = f (X) con f acotada, entonces

E[Yb Z] = c1 E[Y
c1 Z] + c2 [Y
c2 Z] = c1 E[Y1 Z] + c2 [Y2 Z] = E[Y Z]

Por la unicidad de la esperanza condicional, vale la propiedad.



Otras propiedades que también pueden demostrarse a partir de la definición axiomática
son:

Proposición 12.5.2 Si Y ∈ L1 , E[E[Y /X]] = E[Y ]


Sea Y ∈ L1 , g : R → R boreliana acotada, X otra variable aleatoria: E[Y ·g(X)/X] =
g(X)E[Y /X].
Monotonía: si Y1 , Y2 ∈ L1 , Y1 ≤ Y2 con probabilidad 1,
E[Y1 /X] ≤ E[Y2 /X]

Desigualdad de Cauchy-Schwartz: Si X, Y ∈ L2 ,
E(Y1 Y 2/X) ≤ E[Y1 /X]1/2 · E[Y2 /X]1/2

Desigualdad de Jensen: si Y ∈ L1 , ϕ : R → R es convexa y ϕ(Y ) ∈ L1 ,


ϕ(E[Y /X]) ≤ E[ϕ(Y )/X)
En particular:
|E[Y /X])|p ≤ E[|Y |p /X) si p ≥ 1

Condicionamiento reiterado:
E[E[X/Y ]/Z] = E[X/Z]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 226

12.6. La esperanza condicional como proyección ortogonal


Planteo del problema
Recordamos que la idea al definir E[X/Y ] es estimar X por medio de una función de
Y . Formalizaremos esta intuición usando las ideas que introdujimos en el capítulo 7.
El enfoque que vamos a desarrollar sólo funciona para variables aleatorias con segun-
do momento finito (mientras que como vimos anteriormente E[X/Y ] se puede definir en
general con sólo asumir que E[|X|] < ∞).
En dicho capítulo, planteamos el problema de aproximar una variable Y ∈ L2 (Ω) por
un elemento Yb de un subespacio S, de modo de minimizar el error cuarático medio

ECM(Y, Yb ) = E(|Y − Yb |2 ) = kY − Yb k2
Dadas otra variable aleatoria X, vamos a considerar ahora el subespacio:

S = {Y ∈ L2 (Ω) : Y = h(X) donde h : R → R}

Por razones técnicas tenemos que pedir que h sea una función boreliana como mencio-
namos antes: es decir que h−1 (I) sea un conjunto boreliano para cada intervalo abierto I
en R. Por ejemplo, cualquier función continua va a cumplir esto.
Entonces, si X, Y ∈ L2 (Ω) podemos definir la esperanza condicional E[Y /X] como
la solución Yb de este problema de optimización.
Aplicando el lema 7.3.1, vemos que la esperanza condicional Yb = E[Y /X] se define por
las siguientes dos propiedades:

Yb ∈ S.

E[(Y − Yb ) · Z] = 0 para toda Z ∈ S, o sea:

E[Y · Z] = E[Yb · Z] para todo Z ∈ S

Son esencialmente las mismas condiciones de la definición axiomática de la es-


peranza condicional que vimos antes. La única diferencia, es que allí trabajamos con
variables con esperanza finita, entonces tuvimos que pedir que Z = f (Y ) con f : R → R
acotada (para poder garantizar que las esperanzas que aparecen aquí sean finitas).

12.6.1. El caso en que la variable Y es discreta


Como vimos en la clase pasada, el caso más sencillo de la esperanza condicional E[Y /X]
es cuando la variable X es discreta. Para simplificar vamos a suponer que

Im(X) = {x1 , x2 , . . . , xn }
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 227

es finita y que pj = P {X = xj } > 0. Notamos que los eventos

Aj = {X = xj } = {ω ∈ Ω : X(ω) = xj }

forman una partición de Ω. Vamos a suponer que P (Aj ) > 0. En este caso S es de
dimensión finita, y una base de S está formada por sus funciones indicadoras

B = {IA1 , IA2 , . . . , IAn }

La condición de que Yb = E[Y /X] ∈ S dice que


n
X
E[Y /X] = cj · IAj
k=1

para ciertos escalares cj que queremos determinar.


Ahora miramos la condición

E[Y · Z] = E[Yb · Z] para todo Z ∈ S

Como B es una base de S, alcanza mirar esta condición para Z = IAj . Por otra parte,
como los Aj son disjuntos, resulta que B es una base ortogonal (pero no ortonormal) de
S, pues
P (Aj ) si j = k

hIAj , IAk i = E(IAj · IAk ) =
0 si j 6= k
Nos queda:
E[Y · IAj ] = cj · P (Aj )
entonces:
1
cj = E[Y · IAj ] = E[Y /Aj ]
P (Aj )
que coincide con la definción que vimos en la clase pasada.
En resumen, cuando X es dicreta con imagen finita:
n
X
E[Y /X] = E[Y /Aj ] · IAj
i=1

Esta fórmula puede generalizarse al caso en que X tiene imagen numerable (en este
caso S no es de dimensión finita, y en lugar de una suma finita tenemos una serie, pero
esencialmente funciona igual).

X
E[Y /X] = E[Y /Aj ] · IAj
i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 228

En este caso, debemos comprobar que esta fórmula define en efecto una función en
L2 (Ω). Como las IAj son ortogonales


X
E[E[Y /X]2 ] = kE[Y /X]k2 = kE[Y /Aj ] · IAj k2
j=1

X
= |E[Y /Aj ]|2 kIAj k2
j=1
X∞
= |E[Y /Aj ]|2 P (Aj )
j=1

Ahora por la desigualdad de Cauchy-Schwarz:


1 1 1
|E[Y /Aj ]| ≤ E(|Y IAj |) ≤ kY IAj k · kIAj k = kY k = E(IAj Y 2 )1/2
P (Aj ) P (Aj ) P (Aj )1/2

Entonces

X
E[E[Y /X]2 ] ≤ |E[IAj Y ]|2 = E(|Y |2 ) < +∞
i=1

Esperanzas condicionales en el caso continuo


El otro caso que vimos anteriormente es cuando X e Y son variables continuas con una
densidad conjunta fXY (x, y).
Recordamos que en este caso definimos la densidad condicional

fXY (x, y)
fY /X=x (y) =
fX (x)

donde Z ∞
fX (x) = fXY (x, y) dy
−∞

es la densidad marginal de X, suponiendo que fX (y) > 0 para todo y. En la clase


anterior, definimos E[Y /X] = h(X) donde
Z ∞
h(x) = y · fY /X=x (y) dy
−∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 229

Si Y tiene esperanza finita, podemos calcular


Z ∞
E[|E[Y /X]] = E[|h(X)|] = |h(x)| fX (x) dx
−∞
Z ∞ Z ∞
= y · fY /X=x (x) dy fX (x) dx
−∞ −∞
Z ∞ Z ∞ 
≤ |y| · fY /X=x (x) dy fX (x) dx
−∞ −∞
Z ∞ Z ∞ 
= |y| fY /X=x (x) fX (x)dx dy
−∞ −∞
Z ∞ Z ∞ 
= |y| fXY (x, y)dx dy
−∞ −∞
Z ∞
= |y| · fY (y) dy = E(|Y |) < ∞
−∞

Se deduce en particular que h(x) es finita para casi todo x, por lo que E[X/Y ] está bien
definida.
Vamos a comprobar ahora que si Z = g(X) con g : R → R acotada, entonces E[Y · Z] =
E[Yb · Z]
Para calcular E[Y ·Z] la pensamos como la esperanza de una función del vector aleatorio
(X, Y ).
Z ∞Z ∞
E[Y · Z] = y · g(x) · fXY (x, y) dx dy
−∞ −∞

mientras que como Yb · Z es una función de X sola,


Z ∞
E[Y · Z] =
b h(x) · g(x) · fX (x) dx
−∞

pero por la definición de h,


Z ∞  Z ∞
h(x) fX (x) = y · fY /X=x (y) dy · fX (x) = y · fXY (x, y) dy
−∞ −∞

Reemplazando vemos que


Z ∞ Z ∞ 
E[Y · Z] =
b g(x) y · fXY (x, y) dy dx
−∞ −∞
Z ∞Z ∞
= y g(x)fXY (x, y) dx dy = E[Y · Z]
−∞ −∞
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 230

Vemos que h(Y ) verfica las dos condiciones de la definición axiomática de esperanza con-
dicional que vimos en la clase anterior.
Si supiéramos que Y ∈ L2 va a resultar que Yb está en L2 y que la misma cuenta se
puede hacer suponiendo que Z está en L2 (aunque g no fuera acotada).
Para probar que en efecto Yb = E[Y /X] ∈ L2 cuando Y ∈ L2 , la idea es aproximar h
por funciones acotadas:

 h(x) si |h(x)| ≤ n

hn (x) = n si h(x) > n n∈N


−n si h(x) < −n

Entonces tomando Zn = hn (X), tenemos que:

E[Y · Zn ] = E[Yb · Zn ]

por lo que ya probamos. Luego por la desigualdad de Cauchy-Schwarz:

|E[Yb · Zn ]| ≤ E(Y 2 )1/2 · E(Zn2 )1/2

pero como |hn (x)| ≤ |h(x)|, |Zn | ≤ |Yb |, luego como Y ∈ L2 :

|E[Yb · Zn ]| ≤ E(Y 2 )1/2 · E(Yb 2 )1/2 = E(Yb 2 )

Ahora bien, explícitamente


Z ∞
E[Yb · Zn ] = hn (x) h(x) fX (x) dx
−∞

cuando n → +∞ esta integral va a converger a


Z ∞
2
E[Y ] =
b h(x)2 fX (x) dx
−∞

porque hn (x) converge en forma monótona creciente hacia h. [Por el teorema de conver-
gencia monótona, otro resultado clave de análisis real). Resulta que:

E[Yb 2 ] ≤ E[Y 2 ]

o sea:
E(E(Y /X)2 ) ≤ E(Y 2 )
que es la misma desigualdad que obtuvimos antes en el caso discreto.
Capítulo 13

Estadística: Estimación de
parámetros

13.1. Estimadores de máxima verosimilitud


Uno de los problemas centrales de la estadística es la estimación de parámetros de
una distribución.
Supongamos que tenemos una población y queremos medir una cierta variable aleatoria,
cuya distribución F no conocemos, pero sabemos o suponemos que F ∈ F , una cierta
familia de distribuciones.
Para estimar un parámetro θ = θ(F ), tomamos una muestra eleatoria de tamaño n de
nuestra población. Esto nos dará variables

X1 , X2 , . . . , Xn

todas con distribución F e independientes. Entonces queremos estimar θ mediante un


estimador
θ(X
b 1 , X 2 , . . . , Xn )

Por ejemplo, si µ es la esperanza de la distribución F , entonces:


n
1X
µ
bn = X n = Xi
n
i=1

(conocido como media muestral es un estimador razonable de µ ya que por la ley fuerte
de los grandes números

cuando n → +∞
c.s.
X n −→ µ
Se dice que X n es un estimador fuertemente consistente para µ.

231
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 232

Similarmente, ¿Cómo podríamos estimar σ 2 = Var(X) = E[(X − µ)2 ]. Un estimador


que podríamos considerar razonable es
n
1X
σbn2 = (Xi − X n )2
n
i=1
Este sería el valor de la varianza de la distribución empírica generada a partir de la
muestra.
Vamos a ver que nuevamente, este estimador es fuertemente consistente, o sea:
c.s.
bn −→ σ
σ
Recordando que Var(X) = E(X 2 ) − E(X)2 también tenemos:
" n #
2 1X 2 2
σ
bn = Xi − X n
n
i=1
Por la ley fuerte de los grandes números
n
1 X 2 c.s.
Xi −→ E(X 2 )
n
i=1
Como elevar al cuadrado es una función continua
bn2 → E[X 2 ] − E(X)2 = σ 2
σ
y por lo tanto
c.s.
bn −→ σ
σ
Ahora bien: dado un parámetro λ pueden pensarse diferentes estimadores para λ que
pueden parecer igualmente razonables.
Por ejemplo, supongamos que tenemos una población cuya distribución F sabemos que
es normal N (µ, σ 2 ) con ciertos parámetros µ y σ como vimos antes. Entonces, para estimar
µ podríamos usar la media muestral como vimos antes, porque µ es la esperanza de F .
Pero para la distribución normal µ también es la mediana. Por lo tanto otra forma de
estimar µ podría ser usar la mediana muestral Me. Para definirla ordenamos las variables
(o sea consideramos los estadísticos de orden):
X(1) ≤ X(2) ≤ . . . ≤ X(n)
y definimos

Me = X((n+1)/2) si n es impar

1
Me = X(n/2) + X(n/2+1) si n es par

2
Esto lleva a preguntarnos qué propiedades es deseable que tenga un estimador, para
tener un criterio para elegir un estimador sobre otro.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 233

13.1.1. Sesgo de un estimador


bn de un parámetro λ = λ(F ), se define el sesgo del estimador
Dado un estimador λ
como
sesgo(λ cn ] − λ
bn ) = E[λ

Un estimador se dice insesgado si

sesgo(λ
bn ) = 0

y asintóticamente insesgado si

sesgo(λ
bn ) → 0

13.1.2. Sesgo de la media muestral


Consideramos el estimador
n
1X
µ
bn = X n = Xi
n
i=1

para la esperanza µ = E[X].


Por la linealidad de la esperanza,
n n
1X 1X
E[X n ] = E[Xi ] = µ=µ
n n
i=1 i=1

Luego X n es un estimador insesgado de µ.

13.1.3. Sesgo para el estimador de la varianza


Ahora repitamos la cuenta con el estimador de la varianza que definimos antes. Recor-
damos que: " n #
1
(13.1)
X 2
bn2 =
σ Xi2 − X n
n
i=1

Así que empezemos calculando:


" n # n
1X 2 1X
E Xi = E[Xi2 ] = c
n n
i=1 i=1

donde
c = E(Xi2 ) = Var(Xi ) + E(Xi )2 = σ 2 + µ2
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 234

Por otra parte, necesitamos calcular E[ X n ]. Para ello, la observación clave es que
2

como las variables Xi son independientes


n
2 1 X σ2
Var( X n ) = 2 Var(Xi ) =
n n
i=1

Entonces:
2 2 σ2
E( X n ) = Var( X n ) + E[X n ]2 = + µ2
n
Volviendo a (13.1) obtenemos que:
 2     
σ 1 n−1
E[bσn2 ] = σ 2 + µ2 − + µ2 = σ 2 1 − = σ2
n n n

Luego este estimador no resulta insesgado, pero sí asintóticamente insesgado.

13.1.4. Estimador insesgado de la varianza


Si queremos tener un estimador insegado de la varianza, debemos reemplazarlo por:
n
1 X
Sn2 = (Xi − X n )2
n−1
i=1

que aparece en el ejercicio 24 de la práctica 8, ya que como


n
Sn2 = b2
·σ
n−1 n
ahora tendremos que:
E[Sn2 ] = σ 2

13.2. Estimadores de Máxima Verosimilitud


Veremos ahora un método general para obtener estimadores con buenas propiedades:
los estimadores de máxima verosimilitud.

Notación vectorial
En muchos ejemplos la distribución estará caracterizada por un número finito k de
parámetros, que podemos pensar como componentes de un vector

θ = (θ1 , θ2 , . . . , θk ) ∈ Rk

que se mueve en una cierta región A ⊂ Rk de parámetros admisibles.


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 235

Por ejemplo, podemos pensar en la familia de distribuciones normales:

F = {N (µ, σ 2 ) : µ ∈ R, σ > 0}

En este caso θ = (µ, σ) ∈ A, donde

A = {(mu, σ) : µ ∈ R, σ > 0}

En general, podemos escribir

F = {Fθ : θ ∈ A}

13.3. Verosimilitud en el caso discreto


Comenzemos considerando el caso discreto. En este caso la distribución Fθ vendrá dadas
por las probabilidades puntuales, que dependerán del vector de parámetros θ:

pθ (x) = P {Xi = x} (las mismas para todo)

(que serán cero salvo para numerables valores de de x)


Por ejemplo, supongamos que tenemos una urna con un cierto número de bolitas blancas
B y otro tanto de rojas R, y que extraemos n bolitas con reposición pero no conocemos
cuántas bolitas de cada color hay. Definimos las variables aleatorias de Bernoulli

1 si si sale roja

Xi =
0 si si sale blanca

Entonces Xi ∼ Be(θ) donde θ = B+R


R
∈ [0, 1] = A. Aquí los posibles valores de las Xi son
0 y 1, y sus pobablidades
pθ (1) = θ, pθ (0) = 1 − θ
Ahora nos preguntamos: si el parámetro θ tuviera un cierto valor, ¿cuál sería la proba-
bilidad de observar ciertos valores x1 , X2 , . . . , xn ?. Esto vendrá dado por la función de
verosimilitud

L(θ) = L(x1 , x2 , . . . , xn ; θ) := Pθ {X1 = x1 , X2 = x2 , . . . , Xn = xn }


n
Pθ {X = xi } por independencia
Y
=
i=1
n
Y
= pθ (xi )
i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 236

Aquí usamos la notación Pθ para indicar que las probabilidades indicadas dependen del
parámetro θ.
Para cada muestra particular (x1 , . . . , xn ), la estimación de máxima verosimilitud de θ
es el valor θbV M que maximiza la verosimilitud. Es decir:

L(x1 , x2 , xn ; θbM V ) = máx L(x1 , . . . , xn ; θ)


θ∈A

El estimador de máxima verosimilitud, θbV M (X1 , X2 , . . . , Xn ), es aquél que evaluado en


cada muestra particular nos da la estimación de máxima verosimilitud

θbM V (x1 , x2 , . . . , xn )

Como L es un producto, conviene maximizar `(s) = log L(θ).

13.3.1. Estimación del parámetro de la distribución de Bernoulli


En el ejemplo que vimos antes de la distribución Be(θ):

L(θ) = θs (1 − θ)n−s
donde
s = x1 + x2 + . . . + xn
Luego:
`(θ) = log L(θ) = s log θ + (n − s) log(1 − θ)

1 1
`0 (θ) = s · − (n − s) ·
θ 1−θ
El máximo se va a alcanzar cuando `0 (s) = 0, o sea:

s n−s 1−θ n−s 1 n s


= ⇐ = ⇔ −s= −1⇔θ =
θ 1−θ θ s θ s n
Así que en este caso el mejor

X1 + X2 + . . . + Xn
θbM V = X n =
n

13.4. Verosimilitud en el caso continuo


Cuando trabajamos con variables continuas, la distribución Fθ estará caracterizada por
una densidad de probabilidad fθ . entonces definimos la función de función de verosimi-
litud como la densidad conjunta del vector aleatorio (X1 , X2 , . . . , Xn ) correspondiente a
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 237

un determinado valor del parámetro θ, que de nuevo por la independencia de la muestra


será:
n
Y
L(θ) = L(x1 , x2 , . . . , xn ; θ) := fθ (xi )
i=1

13.4.1. Estimación de los parámetros de la distribución normal


Volvamos al ejemplo de la familia de las distribuciones normales. Son distribuciones
continuas con la densidad:
1 2 2
fθ (x) = √ e−(x−µ) /(2σ ) θ = (µ, σ)
σ 2π
Entonces:
n n
Y 1 −(xi −µ)2 /(2σ 2 ) 1 Y 2 2
L(θ) = √ e = √ e−(xi −µ) /(2σ )
σ 2π n
σ 2π i=1
i=1

luego
n
X (xi − µ)2
1
`(θ) = log L(θ) = −n log σ − log(2π) −
2 2σ 2
i=1

Como ahora tenemos dos parámetros, para encontrar el máximo vemos donde se anulan
simultáneamente ambas derivadas parciales:
n
X (xi − µ) n
∂` 1X
(θ) = − = 0 ⇒ µ = xi
∂µ σ2 n
i=1 i=1

n n
!1/2
∂` n X (xi − µ)2 1X
(θ) = − + =0⇒σ= (xi − µ)2
∂σ σ σ3 n
i=1 i=1

O sea que los estimadores de máxima verosimilitud para los parámetros de la


distribución normal son:
n
1X
µb = Xn = Xi
n
i=1

n
!1/2
1X
σ
b= (xi − X n )2
n
i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 238

13.5. Intervalos de confianza


13.5.1. Planteo del problema
Hasta ahora vimos como estimar los parámetros de una distribución. Por ejemplo si
sabemos (o conjeturamos) que tenemos una muetra de la distribución normal N (µ, σ 2 )
podemos estimar los parámetros.
¿Pero cómo podemos estimar el error cometido en la estimación? Primero considerare-
mos el caso más sencillo aunque poco realista en que σ es conocido y queremos estimar µ.
Sabemos que podemos estimar µ usando la medida muestral µ bn = X n .
Nos gustaría encontrar un intervalo de confianza para µ, es decir un intervalo alre-
dedor de µ
bn tal que
P {µ ∈ Iα } = 1 − α
donde 0 < α < 1 es un nivel de confianza elegido (típicamente α = 0, 05 ).
Ya nos encontramos con este concepto en un ejemplo que vimos en la clase 7 sobre las
aproximaciones de la normal (encuesta electoral).

13.5.2. Solución cuando la varianza es conocida


Cuando la 
distribución
 es normal y σ es conocida podemos razonar así: X n tendrá
distribución N µ, n Entonces:
σ2

√ Xn − µ
Zn = n· ∼ N (0, 1)
σ
Ahora elegimos zα/2 de modo que P (Zn > zα/2 ) = α/2, y por la simetría de la curva
normal tenemos que
P {−zα/2 ≤ −Zn ≤ zα/2 } = 1 − α
Depejando obtenemos el intervalo de confianza
zα/2 σ zα/2 σ
 
Iα = X n − √ , X n + √
n n

para el que podemos garantizar que

P {µ ∈ Iα } = 1 − α

13.5.3. Intervalos de confianza asintóticos


En la realidad, no es realista suponer que la distribución es conocida, o que la varianza
lo es. De todos modos, podemos definir un intervalo de confianza asintótico para µ = E[X],
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 239

Figura 13.1: ¿Cómo elegimos zα/2 para determinar un intervalo de confianza?.

reemplazando a σ por un estimador fuertemente consistente σbn de los que vimos antes (da
igual cuál consideremos)
zα/2 σ zα/2 σ
 
bn bn
Iα = X n − √ , X n + √
n n
Con sólo suponer que la variancia de la distribución tendremos que:
√ Xn − µ D
Zn = n· −→ N (0, 1)
σ
por el teorema del límite central, siempre que σ 2 = Var(Xi ) < ∞.
Como
σ c.s.
−→ 1
σ
bn
tendremos que la convergencia en distribución no se ve alterada:
σ √ Xn − µ D
Zbn = Zn = n · −→ N (0, 1)
σ
bn σ
bn
por el teorema de Slutsky.
Por lo que nuestro intervalo
zα/2 σ zα/2 σ
 
bn bn
Iα = X n − √ , X n + √
n n
verfica que
lı́m P {µ ∈ Iα } = 1 − α
n→+∞
Capítulo 14

Paseos al azar y Ecuaciones


Diferenciales

14.1. Introducción
A lo largo del curso, hemos tratado de mostrar las relaciones que existen entre la teoría
de probabilidades y las distintas ramas de la matemática, particularmente con el análisis
con la que está estrechamente ligada. Continuando esta linea, en éste capítulo, exploraremos
qué relación existe entre entre la teoría de probabilidades y la de ecuaciones diferenciales
parciales. Esta conexión es de gran importancia para los desarrollos actuales en ambas
áreas.
Una ecuación diferencial es una relación entre las derivadas de una función (que
puede involucrar derivadas de distintos órdenes o con respecto a diferentes variables, e
incluso a la misma función que es su derivada de orden cero). Las ecuaciones diferenciales
se utilizan habitualmente en muchas aplicaciones de la matemática, particularmente en
física, para modelar distintos fenómenos.

14.2. Un modelo sin tiempo: Paseos al azar y funciones ar-


mónicas
La Grilla
Consideramos una grilla o retículo en el plano

G = {(ih, jh) : i, j ∈ Z}

donde h > 0 es un parámetro. A los puntos de la grilla los llamaermos nodos.

240
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 241

Nodos Vecinos
Dado un nodo (ih, jh) de la grilla, sus vecinos son los puntos ((i − 1)h, jh), (i +
1)h, jh), (ih, (j − 1)h), (ih, (j + 1)h).

Los vecinos del nodo rojo son los nodos azules.

Paseos al azar
Consideramos un bichito que efectua paseo al azar sobre la grilla. Trabajaremos
con un tiempo discreto t ∈ N0 . Empezamos en una posición inicial X0 . Llamamos Xt a la
posición al tiempo t. Será un vector aleatorio con valores en G.
En cada tiempo, suponiendo que estamos en un nodo Xt−1 elegimos con probabilidad
1/4 uno de sus vecinos y nos movemos a él.

P {Xt+1 = q/Xt = p} = 1/4


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 242

para todo nodo q vecino a p.


Notamos que este proceso define una cadena de Markov donde los posibles estados
son los puntos de la grilla.
Tener una variable aleatoria Xt para cada tiempo t usualmente se denomina un proceso
estocástico.

Trayectorias
Aunque nuestro proceso tiene tiempo discreto, podríamos convertirlo en un proceso con
tiempo continuo t ∈ R≥0 , especificando que cuando n < t < n + 1 con i ∈ N0 , nuestro
bichito se mueve del nodo Xn al Xn+1 en linea recta a velocidad uniforme.

Xn = Xn + (t − n)(Xn+1 − Xn ), n<t<n+1
Ahora las trayectorias de nuestro proceso serán curvas continuas (poligonales).

Tiempo de salida de un dominio


Ahora consideramos un abierto acotado U ⊂ R2 con frontera suave (por ejemplo: un
círculo).
Supongamos que nuestro proceso (Xt ) comienza en un punto X0 ∈ U .
Notamos
τ = mı́n{t ∈ R≥0 : Xt 6∈ U }
al tiempo que nuestro proceso tarda en salir del dominio U (o τ = +∞ si nunca salimos).
Se llama el tiempo de parada para nuestro proceso.
Como las trayectorias son continuas no podemos salir de U sin cruzar la frontera ∂U ,
es decir

Xτ ∈ ∂U
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 243

¿Por dónde salimos?


Ahora consideramos una parte de la frontera Γ ⊂ ∂U . Por ejemplo

U = {(x, y) ∈ R2 : x2 + y 2 < 1}

∂U = {(x, y) ∈ R2 : x2 + y 2 = 1}

Γ = {(x, y) ∈ R2 : x2 + y 2 < 1, y > 0}


Nos preguntamos ¿cuál es la probabilidad de salir por Γ suponiendo que a tiempo t0 ∈ N
arrancamos en x0 ∈ G ?
Definimos una función uh : G → [0, 1]

uh (x0 ) = P {Xτ ∈ Γ/Xt0 = x0 }

Notemos que en realidad esta probabilidad no depende del tiempo inicial t0 por la
falta de memoria del proceso.

¿Qué propiedad cumple uh ?


Si a tiempo t0 ∈ N estamos en un nodo x0 , a tiempo t0 − 1 tenemos que haber estado
en alguno de sus vecinos (y hay un 1/4 de probabilidad para cada uno).
1 X
P {Xτ ∈ Γ/Xt0 = x0 } = P {Xτ ∈ Γ/Xt0 −1 = v}
4 v∼x
0

donde notamos por ∼ la relación de ser vecinos. O sea:


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 244

1 X
uh (x0 ) = uh (v)
4 v∼x
0

Es decir que uh verifica la propiedad discreta del valor medio. El valor de uh en


un nodo x0 es el promedio de los valores de uh en los nodos vecinos.
Las funciones que la cumplen se llaman funciones armónicas discretas.

¿Dónde aparecen las ecuaciones diferenciales?


Ahora si u : R2 → R es una función de clase C 2 , tenemos usando el desarrollo de
Taylor que
1 X 1
uh (v) = u(x0 ) + ∆u(x0 )h2 + o(h2 )
4 v∼x 2
0

donde ∆u es el Laplaciano de u.

∆u(x0 ) = uxx (x0 ) + uyy (x0 )

La ecuación para uh puede escribirse


" #
1 1 X
uh (x0 ) − uh (v) = 0
2h2 4 v∼x
0

Entonces, cuando h → 0 es esperable que uh converja a la solución del problema de


Dirichlet
en U

 ∆u = 0
u = 1 en Γ
u = 0 en ∂U − Γ

(Para dominios buenos, hay una solución única)

Solución para el círculo


Por ejemplo si U es el círculo como antes, la solución del problema de Dirichlet

∆u = 0 en U


u = f en ∂U

viene dada por


Z π
1
u(r cos θ, r senθ) = Pr (θ − t)f (cost, sen t) dt, 0≤r<1
2π −π
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 245

donde el núcleo de Poisson es



1 − r2 1 + reiθ
X  
|n| inθ
Pr (θ) = r e = = Re , 0≤r<1
n=−∞
1 − 2r cos θ + r2 1 − reiθ

Así que en nuestro ejemplo


Z π
1
u(r cos θ, r senθ) = Pr (θ − t) dt, 0≤r<1
2π 0

Estas fórmulas (que no hemos deducido) se ven en los cursos de ecuaciones diferenciales,
y a veces en los de análisis complejo.

14.3. Un modelo con tiempo: La ecuación del calor o ecua-


ción de difusión
Paseos al azar unidimensionales
Hasta aquíiconsideramos paseos al azar bidimensionales. Pero la misma idea puede
considerarse en cualquier número de dimensiones.
Consideremos para simplificar el caso unidimensional. Consideramos la grilla dada por
los múltiplos enteros de un parámetro h > 0, Gh = hZ.
Vamos a considerar una partícula que se mueve por esta grilla, en ciertos tiempos
tn = nk donde k > 0 es otro parámetro. Llamamos Tk = kN0 al conjunto de tiempos que
vamos a considerar-
La partícula comienza en tiempo t0 = 0 en una cierta posición X0 = x0 y después se
mueve al azar según la regla.

Xtn−1 + h con probabilidad 1/2



Xtn =
Xtn−1 − h con probabilidad 1/2
Podemos pensar que en cada tiempo discreto tn tiramos una moneda y decidimos si
ir para la izquierda o para la derecha una distancia h según el resultado de la moneda.
Asumimos que las distintas tiradas de la moneda son independientes.
¿Cómo podríamos encontrar la distribución de Xtn ? Podemos escribir

Xtn = Xtn−1 + hUn

donde la Un son variables aleatorias independientes, con distribución de Rademacher


1 con probabilidad 1/2

Un =
−1 con probabilidad 1/2
Luego:
Xtn = X0 + h(U1 + U2 + . . . + Un )
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 246

Podemos escribir Un = 2Vn − 1 donde Vn ∼ Be(1/2).

0 con probabilidad 1/2



Vn =
1 con probabilidad 1/2

Luego

Xtn = x0 + [2(V1 + V2 + . . . + Vn )n]h = x0 + [2Sn − n]h


donde Sn representa el número de éxitos en n ensayos de Bernoulli con probabilidad de
éxito 1/2, Sn ∼ Bi(1/2).
Podemos enconteces escibir una fórmula para la distribución de Xt0 .

   d  n−d  
n 1 1 1 n
ph (xm , tn ) = P {Xtn = xm } = b(d, n, 1/2) = = n
d 2 2 2 d

si xm = x0 + [2d − n]h con d ∈ {0, 1, 2, . . . , n}.


También podríamos obtener una ecuación en diferencias para uh notando que si
nuestra partícula está en la posición xn en un tiempo tn , en el tiempo tn−1 debe haber
estado en las posiciones xm−1 o xm+1 con probabilidad 1/2, dependiendo del valor de la
variable aletoria de Rademacher Un
Entonces si x ∈ G:

ph (xm , tn ) = P {Xtn = xm }
= P {Xtn = xm /Un = 1} · P {Un = 1}
+ P {Xtn = xm /Un = −1} · P {Un = −1}
1 1
= P {Xtn−1 = xm−1 } · + P {Xtn−1 = xm+1 } ·
2 2
1
= (ph (xm−1 , tn−1 ) + ph (xm+1 , tn−1 ))
2

La ecuación del calor o ecuación de difusión


Nos interesa entender el comportamiento asintótico de ph (x, x0 , t) cuando h → 0. Esto
va a depender de que relación exista entre el paso en el espacio h y el paso en el tiempo k.
Recordamos el desarrollo de Taylor:
Si p : R × R → R es una función C 2 ,

∂p
p(x, t + k) − p(x, t) = (x, t)k + o(k)
∂t
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 247

∂2p
p(x + h, t) + p(x − h, t) − 2p(x, t) = (x, t)h2 + o(h2 )
∂2x
Vamos a asumir que k = c · h2 donde c es una constante, entonces:

ph (xm , tn ) − ph (x, tn−1 ) 1 ph (xm , tn−1 ) + ph (xm , tn−1 ) − 2ph (xm , tn−1 )
=
k 2 ch2
Si suponemos que las densidades de probabilidad convergen

ph (x, t) → p(x, t)

obtenemos en el límite la ecuación diferencial en derivadas parciales

∂p 1 ∂2p
(x, t) = (x, t)
∂t 2c ∂ 2 x
que se conoce como ecuación del calor o ecuación de difusión. Aunque esta ecua-
ción fue formulada originalmente por J. Fourier para describir la propagación del calor en
una barra de metal, se puede usar para describir muchos otros procesos de difusión (por
ejemplo de la tinta en el agua [LLLT04]).

La solución fundamental de la ecuación del calor


Para cada t > 0, la función p(x, t) va a ser una densidad de probablidad, límite de las
probabilidades ph (xm , tn ) que dan la distribución discreta. Vab a depedender también del
punto x0 donde arranca nuestra partícula, así que las notaremos ph (xm , x0 , tn ) y p(x, x0 , t)
para enfatizar esto.
Entonces si f : R → R es una función acotada:
X
uh (x0 , tn ) = E[f (Xtn )/X0 = x0 ] = f (xm ) · ph (xm , x0 , tn )
xm
Z ∞
→ u(x0 , t) := f (x) · p(x, x0 , t) dx
−∞

y u también va a satisfacer la ecuación del calor

∂u 1 ∂2u
(x, t) = (x, t)
∂t 2c ∂ 2 x
con la condición inicial
u(x0 , 0) = f (x0 )
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 248

Nota: Esto no es una justificación rigurosa, pero nos da una idea intuitiva de lo que
esperamos que ocurra. Una justificación rigurosa puede darse usando la teoría de las solu-
ciones viscosas (ver [Ros]).
Para encontrar explícitamente quien es p usamos el teorema local de De Moivre-Laplace
(teorema 11.1.1). Nos acordamos de que

ph (xm , tn ) = P {Xtn = xm } = b(d, n, 1/2)

si xm = x0 + [2d − n]h con d ∈ {0, 1, 2, . . . , n}. Entonces


xm −x0
d − np d − n/2 2d − n xm − x0
zd = √ = p = √ = √h = √
npq n/4 n n nh

Luego como tn = kn = ch2 n :

(xm − x0 )2 c(xm − x0 )2
zd2 = =
h2 n tn

1 1 1 ch
√ =p =p =p
2πnpq 2πn/4 πtn /(2k) πtn /2
Luego cuando h → 0, obtenemos que:

−c(x − x0 )2
 
ph (xm , tn ) c
→ p(x, x0 , t) := √ exp
h πt t/2

Entonces recapitulando, la solución general de la ecuación del calor con la condición


inicial

u(x0 , 0) = f (x0 )
vendrá dada por:
Z ∞
u(x0 , t) := f (x) · p(x, x0 , t) dx
−∞

Esta fórmula se ve en los cursos de ecuaciones diferenciales.


Para profundizar en los temas de este capítulo, pueden consular [LL10] o [Law10].
Apéndice A

Repaso de Combinatoria

Los temas de este apéndice corresponden a álgebra I. Para más detalles recomiendo
consultar el apunte de la profesora Krick (se incluyen referencias a dicho apunte en este
apéndice).

A.1. Formalizando algunas cosas que sabemos desde la es-


cuela primaria
¿Cómo podemos reconocer que dos conjuntos tienen la misma cantidad de elementos?

Definición A.1.1 Decimos que dos conjuntos A y B son coordinables si existe una
función biyectiva f : A → B. Notación: A ∼ B.

Ejemplo: A = {1, 2, 3} y B = {a, b, c} son coordinables por medio de la función f (1) = a,


f (2) = b y f (3) = c.
Notamos que ∼ es una relación de equivalencia entre los conjuntos.

Es reflexiva: pues IdA : A → A es biyectiva. Luego A ∼ A.

Es simétrica porque si A ∼ B ⇒ existe f : A → B es biyectiva. Pero entonces


f −1 : B → A también lo es. Luego B ∼ A.

Es transitiva: Porque si A ∼ B y B ∼ C entonces existen f : A → B y g : B → C


biyectivas. Pero entonces g ◦ f : A → C es biyectiva [ ya que (g ◦ f )−1 = f −1 ◦ g −1 ]
Luego A ∼ C.

Notamos por #(A) el cardinal o cantidad de elementos de un conjunto A. Formal-


mente esto podría definirse como sigue:

249
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 250

Definición A.1.2 Para cada n ∈ N0 , consideramos la sección incial de los números


naturales
I0 = ∅, In = {1, 2, 3, . . . , n} = {m ∈ N : m ≤ n}
.
Decimos que un conjunto A es finito si es coordinable con alguna sección inicial de los
números naturales In . En este caso decimos que A tiene n elementos y escribimos
#(A) = n
Notamos que ∅ es finito y #(∅) = 0.
En caso contrario, decimos que A es infinito.
Esta definición es correcta porque In ∼ Im ⇔ n = m.
Si A ∼ B y A es finito, entonces B es finito y #(A) = #(B)
Formalizaremos ahora, algunas cosas que uno aprende en la escuela primaria:
Teorema A.1.3 (Número de elementos en una unión de conjuntos) Si A y B son
finitos, A ∪ B es finito y
#(A ∪ B) = #(A) + #(B) − #(A ∩ B)
En particular si A y B son disjuntos (A ∩ B = ∅),
#(A ∪ B) = #(A) + #(B)
Ejemplo: A = {1, 3, 4, 5}, B = {5, 6, 7}, A ∪ B = {1, 3, 4, 5, 6, 7}, A ∩ B = {5} entonces
#(A) = 4, #(B) = 3, #(A ∪ B) = 7,#(A ∩ B) = 1.
Teorema A.1.4 (Número de elementos en una diferencia de conjuntos) Si B es
finito y A ⊆ B, entonces A es finito y #(A) ≤ #(B).
#(B − A) = #(B) − #(A)
Teorema A.1.5 (Número de elementos de un producto cartesiano) Si A y B son
finitos, A × B es finito y
#(A × B) = #(A) · #(B)
En particular si
An = A × A × ... × A (n veces) = {(a1 , a2 , . . . , an ) : ai ∈ A}
entonces
#(An ) = #(A)n

Ejemplo: A = {1, 2, 3}, B = {a, b}, #(A) = 2, #(B) = 3

A × B = {(1, a), (1, b), (2, a), (2, b), (3, a), (3, c)}, #(A × B) = 6
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 251

A.2. Usando estas ideas para contar algunos objetos mate-


máticos
A.2.1. ¿Cuántas funciones hay de A en B?
Teorema A.2.1 (Cantidad total de funcione entre dos conjuntos) Si A y B son
finitos,
#{funciones f : A → B} = #(B)#(A)

Demostración: Sean n = #(A), m = #(B) y escribamos

A = {a1 , a2 , . . . , an }

A cada función f : A → B le podemos asociar la n-upla de elementos de B

(f (a1 ), f (a2 ), . . . , f (an ))

y recíprocamente cada una de estas n-úplas determina una función de A en B. Es una


correspondencia biyectiva. Es decir que el conjunto que estamos tratando de contar es
coordinable con B n . En consecuencia, tiene mn elementos.

A.2.2. ¿Cuántas partes tiene un conjunto?


Teorema A.2.2 (Cantidad total de funcione entre dos conjuntos) Dado un conjun-
to A, consideramos su conjunto de partes

P(A) = {B : B ⊆ A} .

Entonces si A es finito, P(A) es finito y

#(P(A)) = 2#(A)

Demostración: Sea n = #(A) y escribamos

A = {a1 , a2 , . . . , an }

Consideremos T = {V, F } un conjunto de 2 elementos. A cada subconjunto B ⊆ A le


podemos asignar la la n-upla de elementos de T

V si ak ∈ B

(t1 , t2 , . . . , tn ) dada por tk =
F si ak 6∈ B

Entonces hay una biyección entre P(A) y T n con lo que #P(A) = #(T )n = 2n .
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 252

A.3. Permutaciones
A.3.1. Permutaciones de 3 elementos
¿De cuántas formas podemos ordenar 3 personas a = Aldo, b = Blanca, c = Carlos en
una fila?

a b c

a,b a,c b,a b,c c,a c,b

a,b,c a,c,b b,a,c b,c,a c,a,b c,b,a

# Permutaciones de 3 elementos {a, b, c} = 3 × 2 × 1 = 3! = 6

A.3.2. Otra manera de pensar las permutaciones de 3 elementos


Notemos que cada manera de ordenar las personas como b, c, a puede pensarse como una
función biyectiva del conjunto I3 = {1, 2, 3} en {a, b, c} (que dice qué persona pusimos
en cada lugar de la fila)
f (1) = b
f (2) = c
f (3) = a
Luego 3! también es el número de funciones biyectivas de un conjunto de 3 elementos
en otro de 3 elementos.
Notamos que esta cantidad de funciones no depende de la naturaleza de los objetos que
estemos considerando.

A.3.3. Permutaciones en general


Definición A.3.1 Sea n ∈ N0 . El número de permutaciones Pn de n objetos es el número
de funciones biyectivas f : A → B cuando A y B son dos conjuntos cualesquiera con n
elementos. Por ejemplo, podemos tomar A = B o incluso A = B = In .
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 253

Teorema A.3.2 Si n ∈ N,
n
Y
Pn = n! = 1 · 2 · 3 · · · n = k
k=1

Por ejemplo, ¿de cuántas maneras pueden ser ordenadas 5 personas en el orden de
mérito de un concurso? (suponiendo que nadie queda afuera del concurso)
Rta: 5! = 120.
Notar que si n = 0, A = B = ∅ y hay una única función f : ∅ → ∅ (la función vacía).
Entonces P0 = 1 por lo que la definición 0!=1 hace que el teorema sea cierto también en
este caso.

A.4. Variaciones
A.4.1. Una variación del problema anterior
Supongamos ahora que tenemos 4 personas en un concurso a = Aldo, b = Blanca,
c = Carlos d = Diana y tenemos que elegir una terna donde importa el orden en que
los ponemos. ¿De cuántas formas diferentes podemos hacerlo?
a b

a,b a,c a,d b,a b,c b,d

a,b,c a,b,d a,c,b a,c,d a,d,b a,d,c b,a,c b,a,d b,c,a b,c,d b,d,a b,d,c

c d

c,a c,b c,d d,a d,b d,c

c,a,b c,a,d c,b,a c,b,d c,d,a c,d,b d,a,b d,a,c d,b,a d,b,c d,c,a d,c,b

Esto se conoce como el número de variaciones (sin repetición) de un conjunto de 4


elementos tomandos en tuplas de 3 elementos
V34 = 4 · 3 · 2 = 24

A.4.2. Otra manera de pensar las variaciones


Notemos que cada posible terna de personas como b, c, a puede pensarse ahora como
una función inyectiva del conjunto I3 = {1, 2, 3} en {a, b, c, d} (que dice qué persona
pusimos en cada lugar de la fila)
f (1) = b
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 254

f (2) = c
f (3) = a

A.4.3. Variaciones en general


En general, el número de variaciones Vkn cuenta de cuántas maneras podemos elegir k
objetos de un conjunto de n objetos donde importa en qué orden los tomamos (aquí
k ≤ n).
Formalmente, esto puede expresarse diciendo que Vkn es el número de funciones in-
yectivas f : A → B donde A tiene k elementos y B tiene n elementos. [ver proposición
3.2.2 del apunte].
Generalizando el razonamiento anterior vemos que está dado por:
k
Y
Vkn = n · (n − 1) · (n − 2) · · · (n − k + 1) = (n − j + 1)
j=1

También podemos escribirlo como

n · (n − 1) · (n − 2) . . . (n − k + 1)(n − k)(n − k − 1) · · · 1 n!
Vkn = =
(n − k) · (n − k − 1) · · · 1 (n − k)!

A.5. Combinaciones: ¿Y si no tenemos en cuenta el orden?


Volvamos al problema anterior, donde teníamos cuatro personas a, b, c, d y queríamos
escoger una terna. Pero supongamos que ahora no importa el orden en que las elegimos.
¿Cuántas elecciones posibles tenemos?
Una manera de pensarlo es la siguiente: En el conjunto de ternas que obtuvimos antes,
definimos una relación de equivalencia diciendo que dos ternas son equivlentes si una
se obtiene de la otra permutando los elementos, Sabemos que esta relación va a partir el
conjunto de ternas en clases de equivalencia. Por ejemplo la clase de equivalencia de la
terna a, b, c está formada por las ternas

a, b, c a, c, b b, a, c b, c, a c, b, a c, a, b

Cualquiera de ellas representa la misma elección de pesonas si no se tiene en cuenta el


orden. Notemos que cada clase tiene 3! = 6 elementos.
Como hay 24 ternas, y cada clase de equivalencia tiene 6 ternas tendremos en total

V4
 
4 4 24
C3 = = 3 = =4
3 3! 6
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 255

En general, podemos considerar el número de combinaciones Ckn = nk que cuenta




cuántas elecciones podemos hacer de k elementos a partir de un conjunto de n elementos


sin tener en cuenta el orden. O expresado en otras palabras: ¿cuántos subconjuntos de
k elementos podemos obtener a partir de uno de n?.
 
n
Pk (A) = {B ⊆ A : #(B) = k} ⇒ = #Pk (A) con n = #(A)
k

Generalizando el razonamiento anterior, se ve que:

Vn
 
n n!
= k =
k k! k!(n − k)!

[Fórmula de la proposición 3.2.2 del apunte, aunque allí se prueba de otra forma.]
También se lo conoce como número combinatorio.

Teorema A.5.1 (Definición recursiva de los números combinatorios)


   
n n
= =1
0 n
     
n n−1 n−1
= + 1≤k ≤n−1
k k−1 k

En el apunte se prueba esto a partir de la interpretación combinatoria de n



k
[proposición 3.3.3] y se deduce entonces la fórmula
 
n n!
=
k k!(n − k)!

por inducción [teorema 3.3.4]. También se puede seguir el camino inverso: deducir pri-
mero esta fórmula de la interpretación combinatoria (como hicimos) y a partir de ella la
recurrencia haciendo cuentitas.

A.5.1. El Triangulo de Pascal


Ordenemos los números combinatorios de la siguiente forma
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 256

0

0

1 1
 
0 1

2 2 2
  
0 1 2

3 3 3 3
   
0 1 2 3

4 4 4 4 4
    
0 1 2 3 4

5 5 5 5 5 5
     
0 1 2 3 4 5

6 6 6 6 6 6 6
      
0 1 2 3 4 5 6

7 7 7 7 7 7 7 7
       
0 1 2 3 4 5 6 7

Obtenemos
1

1 1

1 2 1

1 3 3 1

1 4 6 4 1

1 5 10 10 5 1

1 6 15 20 15 6 1

1 7 21 35 35 21 7 1

A.5.2. Números combinatorios complementarios


Teorema A.5.2 (Números combinatorios complementarios)
   
n n
= 0≤k≤n
k n−k

Hay dos maneras de pensarla:


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 257

Interpretación combinatoria: Hay tantos subconjuntos de n − k elementos en uno


de n elementos, como suboconjuntos de k elementos.
Si A tiene n elementos, y B ⊆ A, entonces B tiene k elementos sí y sólo si A − B
tiene n − k. Esto establece una biyeccción entre Pk (A) y Pn−k (A)

También es inmediata a partir de la fórmula


 
n n!
= 0≤k≤n
k k!(n − k)!

A.5.3. Suma de todos los combinatorios para un n fijo


Teorema A.5.3 (Suma de todos los combinatorios para un n fijo)
n  
X n
= 2n
k
k=0

Interpretación combinatoria: La suma cuenta cuándos subconjuntos se pueden


formar con un conjunto de n elementos ya que
n
Pk (A) unión disjunta
[
P(A) =
k=0

A.5.4. Teorema del Binomio


Teorema A.5.4 Sean x, y ∈ C, n ∈ N0 entonces:
n  
n
X n k n−k
(x + y) = x y
k
k=0
Apéndice B

Cadenas de Markov

En este apéndice demostraremos dos resultados fundamentales sobre las cadenas de


Markov.
En el espacio RN usamos la norma

kxk = |x1 | + |x2 | + . . . + |xN |

Notamos
PN = {x ∈ RN : xk ≥ 0, x1 + x2 + . . . + xN = 1}
al conjunto de vectores de probabilidad N -dimensionales.

Teorema B.0.1 Si P ∈ RN ×N es una matriz estocástica, entonces la transformación lineal


asociada a P aplica PN en sí mismo, y tiene un punto fijo

Prueba: Dado cualquier U0 ∈ PN considero los promedios


n
1X j
Sn = P U0
n
j=1

Sn ∈ PN como PN es compacto, existe una subsucesión convergente Snk . Digamos que


Snk → U∞ .
nk
1 X
Snk = P j U0
nk
j=1

258
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 259

nk
1 X
P Snk = P j+1 U0
nk
j=1
nX
k +1
1
= P j U0
nk
j=2
nk
1 X
= P j U0 − P U0 + P nj +1 U0
nk
j=1
nk
1 X
= P j U0 − P U0 + P nj +1 U0
nk
j=1

pero
1
lı́m k − P U0 + P nj +1 U0 k = 0
k→∞ nk

y en el límite:
P U ∞ = U∞
o sea que U∞ es una distribución estacionaria. 
También es posible probar este teorema como consecuencia directa del teorema de punto
fijo de Brower, ya que se puede ver que PN es homeomorfo a una bola cerrada de dimensión
N − 1.

Teorema B.0.2 Si pi,j > 0 para todo i, j, es una contracción en la métrica que definimos
antes. Deducimos que tiene un único punto fijo U∞ ∈ PN y que para todo U0 ∈ V n

lı́m P n U0 = U∞
n→+∞

Prueba: Podemos elegir ε > 0 tal que pi,j > 0. Entonces como
N
X
pij = 1
i=1

deducimos que εN ≤ 1.Achicando el ε podemos conseguir que εN < 1


Escribimos P = αQ + εJ donde α = 1 − N ε y J es la matriz de N × N cuyas entradas
son todos 1, o sea que si Q = (qi j)
pi,j − ε
qi,j =
α
Afirmamos que Q es una matriz estocástica: es claro por nuestra elección de ε > 0 que
qi,j > 0. Calculemos la suma de las columnas de j
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 260

N
" #
X 1 X ε 1 ε α
qi,j = pi,j − N = − N = = 1
α α α α α
i=1 i=1

Sean x, y ∈ PN , entonces
N
X
x i − yi = pij (xj − yj )
j=1
N N
" #
X X X X
=α qij (xj − yj ) + ε xi − yi =α qij (xj − yj )
j=1 i=1 i=1 j=1

Luego
N
X
|xi − yj | ≤ α qij |xj − yj |
j=1

n
X n X
X N
kx − yk = |xi − yj | ≤ α qij |xj − yj |
i=1 i=1 j=1
N
" n #
X X
≤α qi,j |xj − yj |
j=1 i=1
N
X
≤α |xj − yj | = α|x − y|
j=1

pues las columnas de q suman 1. 


Apéndice C

La Fórmula de Stirling

En muchas cuestiones del cálculo de probabilidades, resulta necesario disponer de una


aproximación de n! para n grande. Este es el contenido de la Fórmula de Stirling:

Teorema C.0.1 (Fórmula de Stirling)



n! ∼ 2π nn+1/2 e−n

Con más presición, se tienen las desigualdades:


√ √
 
n+1/2 n −n 1
2π n e < n! < 2πe 1+
4n

C.1. La fórmula de Wallis para π


La siguiente notable fórmula expresa a π como un producto infinito. La utilizaremos
para determinar la constante que aparece en la fórmula de Stirling:

Teorema C.1.1 (Producto infinito de Wallis para π)


 
π 2 2 4 46 6 2m 2m
= lı́m · · · · ... ·
2 m→+∞ 1 3 3 5 5 7 2m − 1 2m + 1
o en forma de producto infinito
π 2 2 4 4 6 6 2m 2m
= · · · · · ... · ...
2 1 3 3 5 5 7 2m − 1 2m + 1
Para demostrar esta fórmula, introduzcamos la cantidad
Z π/2
In = senn x dx
0

261
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 262

Lema C.1.2 Se verifica la relación de recurrencia:


n−1
In = In−2 (n ≥ 2)
n
Prueba: Integrando por partes:
π
Z π/2 π
Z
2 0
In = sen
n−1 0
x (− cos x) dx = −sen n−1
x cos x 2
0
− senn−1 x (− cos x) dx
0 0

Es decir:
Z π/2 Z π/2
n−2 2
In = (n − 1)sen cos dx = (n − 1)senn−2 (1 − cos2 x) dx = (n − 1)[In−2 − In ]
0 0

En consecuencia: nIn = (n − 1)In−2 , o sea:


n−1
In = In−2
n

Prueba de la fórmula de Wallis:
A fin, de calcular In observamos que
Z π/2
π
I0 = dx =
0 2
Z π/2
I1 = dx = 1
0
En consecuencia, podemos calcular los valores de In para n par o impar, respectiva-
mente:
2m − 1 2m − 3 5 3 1 π
I2m = · ··· · · ·
2m 2m − 2 6 4 2 2
2m 2m − 2 8 6 4 2
I2n+1 = · ··· · · ·
2m + 1 2m − 1 9 7 5 3
Podemos despejar π/2:
π 2 46 5 2m
= · · ... I2m
2 1 35 7 2m − 1
y utilizando la expresión de I2m+1

π 2 2 4 4 6 6 2m 2m I2m
= · · · · · ... · ·
2 1 3 3 5 5 7 2m − 1 2m + 1 I2m+1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 263

Queremos estimar el cociente I2m+1


I2m
: para ello observams que en el intervalo 0 < x < pi
2
se tiene 0 < sen x < 1, en consecuencia 0 < sen2m+1 x < sin2m−1 e integrando resulta que:
0 ≤ I2m+1 ≤ I2m ≤ I2m−1
luego
I2m 2m + 1 Im 2m + 1 1
1≤ = · ≤ =1+
I2m−1 2m I2m−1 2m 2m
Por la propiedad del sandwich deducimos que I2m+1
I2m
tiende a 1 cuando m → +∞. En
consecuencia:
 
π 2 2 4 4 6 6 2m 2m I2m
= lı́m · · · · · ... · ·
2 m→+∞ 1 3 3 5 5 7 2m − 1 2m + 1 I2m+1
Esto completa la demostración de la fórmula de Wallis.

C.1.1. Otra fórmula de la fñormula de Wallis


Podemos escribir el resultado anterior en la forma:
π 22 · 42 · 62 · · · (2m)2
= lı́m
2 m→+∞ 32 · 52 · 72 · · · (2m − 1)2 (2m + 1)
Como lı́mm→+∞ 2m+1
2m = 1 obtenemos (producto de límites):

π 22 · 42 · 62 · · · (2m − 2)2
= lı́m · 2m
2 m→+∞ 32 · 52 · 72 · · · (2m − 1)2
Tomando raíz cuadrada:
2 · 4 · 6 · · · (2m − 2) √
r
π
= lı́m · 2m
2 m→+∞ 3 · 5 · 7 · · · (2m − 1)
Multiplicando el denominador y el denominador por 2 · 4 · 6 . . . · (2m − 2) resulta:
22 · 42 · 62 · · · (2m − 2)2 √
r
π
= lı́m · 2m
2 m→+∞ 2 · 3 · 5 · 6 · 7 · · · (2m − 1)

22 · 42 · 62 · · · (2m)2 2m
= lı́m ·
m→+∞ (2m)! 2m
22m (12 · 22 · 32 · · · m2
= lı́m √
m→+∞ (2m)! 2m
22m (m!)2
= √
lı́m
m→+∞ (2m)! 2m

Multiplicando ambos miembros por 2, resulta:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 264

Teorema C.1.3 (Otra forma de la fórmula de Wallis)

√ 22m (m!)2
π= lı́m √
m→+∞ (2m)! m

C.2. Prueba de la fórmula de Stirling


La prueba de la fórmula de Stirling, se basa en la siguiente idea: tenemos que
n
(C.1)
X
log(n!) = log(k)
k=1

Cuando n es grande, es razonable que esperar que el valor de log(n!) esté próximo del
valor de la siguiente integral, que representa el área bajo la curva y = log x (en el intervalo
1 ≤ x ≤ n) y que podemos calcular exactamente:
Z n
An = log x dx = n log n − n + 1
1
La suma en (C.1) representa una aproximación a esta integral por medio de rectángulos
(sumas de Riemman). Una aproximación mejor se consigue utilizando la aproximación por
medio de trapecios:
n−1 n−1
X log(k) + log(k + 1) X 1 1
Tn = = log(k) + log n = log(n!) − log n
2 2 2
k=1 k=1

Como la función f (x) = log x es cóncava, la secante a la curva y = f (x) que une los
puntos (k, log(k)) y (k + 1, log(k + 1)) queda por abajo de dicha curva. En consecuencia,

An ≥ Tn
Nuestro objetivo es estimar el error En = An − Tn . Notamos que:
Z k+1
log(k) + log(k + 1)
Ek+1 − Ek = log x dx −
k 2
representa el área que queda entre la recta secante y la curva en el intervalo [k, k + 1].
Como la función es cóncava, Ek+1 − Ek ≥ 0. Por otro lado el área entre la curva la secante
podemos acotarla por el área entre la tangente a la curva en x = k + 1/2, es decir la recta:
1
y = T (x) = log(k + 1/2) + (x − (k + 1/2))
k + 1/2
y la secante (pues siendo f cóncava, tenemos que f (x) ≤ T (x)). Deducimos que:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 265

Z k+1
log(k) + log(k + 1)
Ek+1 − Ek ≤ T (x) dx −
k 2
es decir:

log(k) + log(k + 1)
Ek+1 − Ek ≤ log(k + 1/2) −
2
       
1 1 1 1 1 1 1
= 1+ − 1+ < 1+ − 1+
2 2k 2 2(k + 1/2) 2 2k 2(k + 1)
Sumando estas igualdades para k = 1, 2, . . . , n − 1, todos los términos del lado derecho
se cancelan, excepto dos (serie telescópica), y como E0 , obtenemos que:
 
1 3 1 1 1 3
En < log − log 1 + < log
2 2 2 2n 2 2
Notamos que En es entonces, monótona creciente y acotada, por lo tanto En tiende a un
límite E cuando n → +∞. Y la desigualdad para Ek+1 − Ek permite estimar la diferencia
E − En :
∞  
X 1 1
E − En ≤ (Ek+1 − Ek ) < 1+
2 2n
k=n

Entonces como An = Tn + En , obtenemos que:

log(n!) = (n + 1/2) log(n) − n + 1 − En


o escribiendo αn = e1−En , y tomando exponencial:

n! = αn nn+1/2 e−n
La sucesión αn es ahora monótona decreciente, y tiende al límite: α = e1−E . En conse-
cuencia, por las estimaciones anteriores:
r
αn E−En (1/2) log(1+1/2n) 1 1
1≤ =e <e = 1+ ≤1+
α 2n 2n
En consecuencia, tenemos las desigualdades:
 
n+1/2 −n 1
αn e ≤ n! ≤ α 1 + nn+1/2 e−n
2n
Nos queda determinar el valor de la constante α. Para ello utilizamos la fórmula de
Wallis,
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 266

√ 22m (m!)2 αn2 α2


π= lı́m √ = lı́m √ = √
m→+∞ (2m)! m n→+∞ α2n 2 α 2

por lo que deducimos que α = 2π.
Apéndice D

Construcción de la Integral de
Lebesgue, y equivalencia de las
distintas definiciones de esperanza

Motivación
En este apéndice presentaremos una construcción de la integral de Lebesgue, que es
una herramienta útil para definir esperanzas de variables aleatorias y operar con ellas (Se
desarrolla en los cursos de análisis real, pero aquí presentaremos algunas nociones básicas,
siempre teniendo en mente la interpretación probabilística).
Para ver porqué la integral de Stieltjes no es adecuada para muchos propósitos teóricos,
consideremos la definición que hemos dado anteriormente de la esperanza de una variable
aleatoria X en términos de una integral de Stieltjes:
Z +∞
E[X] = x dF (x)
−∞

siendo F = FX su función de distribución. Esta definición es muy útil desde el punto


de vista del cálculo, ya que no necesitamos conocer cuál es el espacio muestral o cuál es la
función P que asigna las probabilidades. Toda la información relevante sobre la variable X
está contenida en su función de distribución FX .
Sin embargo, por ejemplo resulta complicado por ejemplo, con esta definición probar
que la esperanza es lineal, ya que FX no depende linealmente de X.
Otro ejemplo es el siguiente (tomado del libro de Barry James): Si usamos la integral
de Stieltjes, entonces la fórmula:
Z +∞
E[ϕ(X)] = ϕ(x) dF (x)
−∞

267
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 268

puede no tener sentido si ϕ tiene un punto de discontinuidad en común con F . Esa es


la razón por la que si utilizamos la integral de Stieltjes, debemos restringir ϕ a ser una
función continua, y entonces por ejemplo ϕ no puede ser el indicador de un evento.
Por el contrario, la teoría de la integral de Lebesgue permite probar los teoremas sobre
la esperanza de variables aleatorias con toda generalidad, y en forma sencilla y elegante.
Uno de los propósitos fundamentales de este apéndice es presentar una prueba de
dos teoremas centrales de la teoría de Lebesgue: el teorema de convergencia monótona
y el teorema de convergencia mayorada, que forman parte del programa de la asignatura
Probabilidad y Estadística (para matemáticos).
Así mismo, probaremos que la definición de esperanza en términos de la integral de
Stieltjes es equivalente a la que utiliza la integral de Lebesgue.

D.1. Funciones Medibles


Consideramos un conjunto Ω y una σ-álgebra M de subconjuntos de Ω. Al par (Ω, M)
lo llamamos espacio medible. A los cojuntos de M los llamaremos conjuntos medibles
(representará la clase de aquellos conjuntos a los que asignaremos medida o probabilidad).
En la interpretación probabilística, Ω es el espacio muestral (conjunto de posibles re-
sultados de un experimento aleatorio) y M será la σ-álgebra E de los eventos (aquellas
partes de Ω a las que les asignaremos probabilidad).
Las funciones con las que vamos a trabajar deberán satisfacer una condición técnica, a
saber que podamos medir ciertos conjuntos asociados a la función.

Definición D.1.1 Sea (Ω, M) un espacio medible y sea f : Ω → R una función. Diremos
que f es una función medible (respecto a la σ-álgebra M) si para todo α ∈ R el conjunto
{f > α} = {ω ∈ Ω : f (ω) > α} es medible, es decir pertenece a M.

Si (Ω, E, P ) es un espacio de probabilidad, las funciones medibles sobre Ω (respecto a


la σ-álgebra P ) son precisamente las variables aleatorias definidas sobre Ω.
La noción de función medible puede formularse de varias maneras equivalentes. (En lo
sucesivo, usaremos las notaciones abreviadas {f < α} = {ω ∈ Ω : f (ω) < α}, etcétera).

Lema D.1.2 Sea f : Ω → R una función. Son equivalentes:

i) f es medible.

ii) Para todo α ∈ R, {f ≥ α} es medible.

iii) Para todo α ∈ R, {f < α} es medible.

iv) Para todo α ∈ R, {f ≤ α} es medible.


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 269

Prueba: i) ⇒ ii): \
{f ≥ α} = {f > α − 1/n}
n∈N

Como f es medible, cada uno de los conjuntos {f > α − 1/n} pertenece a M, y como M
es una σ-álgebra, es cerrada por intersecciones numerables. Concluimos que {f ≥ α} ∈ M.
ii) ⇒ iii): Notamos que {f < α} = Ω − {f ≥ α}, y como M es cerrada por comple-
mentos, {f < α} ∈ M.
iii) ⇒ iv) : Escribimos
\
{f ≤ α} = {f < α + 1/n}
n∈N

y utilizamos que M es cerrada por intersecciones numerables.


iv) ⇒ i) : Notamos que {f > α} = Ω − {f ≤ α}, y utilizamos que M es cerrada por
complementos. 

Proposición D.1.3 Sean f, g : Ω → R funciones medibles. Entonces:


{f < g} = {ω ∈ Ω : f (ω) < g(ω)} es medible.

Prueba: Notamos que


[ [
{f < g} = {f < q < g} = ({f < q} ∩ {q < g})
q∈Q q∈Q

y usamos que M es una σ-álgebra y que Q es numerable. 


El hecho de que la σ-álgebra M sea cerrada por operaciones conjuntísticas numerables,
tendrá como consecuencia que la clase de funciones medibles será cerrada por las opera-
ciones algebraicas, y por las operaciones de tomar supremo o límites. Más precisamente
tenemos las siguientes propiedades:

Lema D.1.4 Sean f, g : Ω → R funciones medibles Entonces:

i) f + k y kf son medibles para todo k ∈ R.

ii) f + g y f − g son medibles.

iii) f 2 es medible.

iv) f · g es medible,

v) Si g 6= 0, f /g es medible.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 270

Prueba: i): {f + k > α} = {f > α − k} Si k > 0: {kf > α} = {f > α/k} mientras que si
k < 0: {kf > α} = {f < alpha/k}
ii): {f + g > α} = {f > α − g} y α − g es medible por i)
√ √
iii): Si α ≥ 0, {f 2 > α} = {f > α} ∪ {f < − α} (sino {f 2 > α} = Ω).
iv): Se deja como ejercicio (por iii) basta ver que 1/g es medible) 
Observación: El lema se puede adaptar al caso en que f o g toman los valores ±∞.
f + g está bien definida, salvo cuando es de la forma (+∞) + (−∞) o (−∞) + ∞. Para
definir f · g, hay que utilizar las convenciones 0 · (±∞) = (±∞) · 0 = 0
Lema D.1.5 Sea (fn )n∈N una sucesión de funciones medibles. Entonces

sup fn (x) ı́nf fn (x)


n∈N n∈N

lı́m inf fn (x) lı́m sup fn (x)


n∈N n∈N
son medibles.
En particular si fn converge, entonces:
f (x) = lı́m fn (x)
n→+∞

es medible.
Prueba: Notamos que [
{sup fn (x) > λ} = {fn > λ}
n∈N n∈N
Por lo que si cada fn es medible, {fn > λ} ∈ M ∀ n ∈ N , y en consecuencia como M es
una σ-álgebra, {supn∈N fn (x) > λ} ∈ M. Esto prueba que supn fn (x) es medible.
Del mismo modo, se prueba que ı́nf n fn (x) es medible, ya que:
[
{ ı́nf fn (x) < λ} {fn < λ}
n∈N
n∈N
Para probar que lı́m sup fn es medible, notamos que
lı́m sup fn = ı́nf sup fn
k k≥n

Pero para cada k, supk≥n fn es medible por lo que ya probamos, y en consecuencia lı́m sup fn
es medible. De modo análogo, de que
lı́m inf fn = sup ı́nf fn
k k≥n

Se deduce que lı́mı́nf fn es medible. Finalmente notamos que si la sucesión (fn ) converge,
entonces lı́mn→+∞ fn (x) = lı́m inf fn (x) = lı́m sup fn (x), por lo que la función límite de las
fn es medible. 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 271

Definición D.1.6 Sea ϕ : R → R una función. Diremos que ϕ es medible Borel si es


medible con respecto a la σ-álgebra de Borel B(R), generada por los intervalos. Es decir si
para todo intervalo (a, b], su pre-imagen por ϕ, ϕ−1 ((a, b]) es un conjunto boreliano de la
recta.

Lema D.1.7 Sean (Ω, M) un espacio medible y f : Ω → R una función. Entonces f es


medible si y sólo si f −1 (B) ∈ M para todo B ∈ B(R).

Prueba: Notamos que:


A = {B ⊂ R : f −1 (B) ∈ M}
es una σ-álgebra. Si f es medible, entonces A contiene a los intervalos. Por lo tanto contiene
a toda la σ-álgebra de Borel (que es la menor σ-álgebra que contiene a los intervalos). 

Corolario D.1.8 Si (Ω, P ) es un espacio medible, f : Ω → R es medible y ϕ : R → R es


medible Borel, entonces ϕ ◦ f : Ω → R es medible.

Prueba: Sea B un boreliano de la recta, entonces ϕ−1 (B) es boreliano, y en consecuencia


como f es medible:
(ϕ ◦ f )−1 (B) = f −1 (ϕ−1 (B) ∈ M
Como esto vale para todo B boreliano, concluimos que ϕ ◦ f es medible. 
Interpretación probabilística: Sea (Ω, E, P ) un espacio de probabilidad. Si X : Ω →
R es una variable aleatoria, y ϕ : R → R es medible Borel, entonces ϕ(X) = ϕ ◦ X : Ω → R
es una variable aleatoria.

D.1.1. Funciones Simples


Definición D.1.9 Llamamos función simple a una función medible f : Ω → R que toma
un número finito de valores {c1 , c2 , . . . , cn }. Podemos representarla entonces como:
n
(D.1)
X
f= ci IEi
i=1

donde Ei = {ω ∈ Ω : f (ω) = ci }, y IAi es el indicador (o función característica1 ) del


conjunto Ei , definido por:

1 si ω ∈ Ei

IEi (ω) =
0 si ω 6∈ Ei
1
En la teoría de probabilidades el nombre de función característica suele usarse para otra cosa, por eso
preferimos en estas notas el de indicador. A veces se usa la notación χE en lugar de IE
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 272

En la interpretación probabilística, las funciones simples corresponden a las variables


aleatorias discretas que toman sólo un número finito de valores.
El siguiente lema de aproximación por funciones simples, será de gran utilidad para la
teoría de la integral:

Lema D.1.10 Si f : Ω → [0, +∞] es una función medible no negativa, entonces existe
una sucesión ϕn (x) de funciones simples no negativas tales que

lı́m ϕn (x) = f (x) ∀ x ∈ Ω


n→+∞

Prueba: Para cada n ∈ N , definimos:


n2n
X i−1
ϕn (x) = IEn,i (x) + nFn
2n
i=1

siendo  
i−1 i
En,i = {x ∈ Ω : n ≤ f (x) < n
2 2
Fn = {x ∈ Ω : f (x) ≥ n}
Es decir que:
i−1
si i−1 i

ϕn (x) = 2n 2n ≤ f (x) < 2n
n si f (x) ≥ n
Se prueba que ϕn (x) tiene las propiedades del enunciado. 

D.2. Integral de Funciones Simples


Consideramos ahora un espacio de medida (Ω, M, µ) es decir un espacio medible, donde
además está definida una medida (σ-aditiva) µ : M → [0, +∞].
Si f : Ω → R es una función simple, representada por (D.1) definimos su integral de la
siguiente manera:
Z X
f dµ = ci µ(Ai )
Ω i=1
En la interpretación probabilística, tenemos un espacio de probabilidad (Ω, E, P ) donde
la probabilidad no es otra cosa que una medida que asigna a todo el espacio Ω medida 1
(o sea: P (Ω) = 1).
Entonces la definición de integral de una función simple, no es otra cosa que nuestra
definición de esperanza de una variable aleatoria discreta, escrita en el lenguaje de la teoría
de la medida. Es decir, que si X : Ω → R es una variable aleatoria discreta, entonces
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 273

Z
E[X] = X dP

La integral de las funciones simples, tiene las siguientes propiedades: (que se demuestran
exactamente como las propiedades de la esperanza de variables aleatorias discretas)

Proposición D.2.1 1. linealidad: Si f y g son funciones simples:


Z Z Z
(f + g) dµ = f dµ + g dµ
Ω Ω Ω

Si f es una función simple, y k una constante:


Z Z
(kf ) dµ = k f dµ
Ω Ω

2. Monotonía: si f y g son funciones simples y f ≤ g, entonces:


Z Z
f dµ ≤ g dµ
Ω Ω

3. Si f es una función simple, entonces


Z Z
f dµ ≤ |f | dµ
Ω Ω

D.3. Integral de funciones no negativas


Definición D.3.1 Sea (Ω, M, µ) un espacio de medida, y f : Ω → [0, +∞] una función
medible no negativa. Definimos la integral de f de la siguiente manera:
Z Z 
f dµ = sup ϕ dµ : 0 ≤ ϕ ≤ f, ϕ simple
Ω Ω

Una consecuencia inmediata de la definición es la siguiente:


Proposición D.3.2 Si f, g : Ω → [0, +∞] son funciones simples no negativas tales que
f ≤ g, entonces Z Z
f (x) dµ ≤ g(x) dµ
Ω Ω

Definición D.3.3 Si A ∈ M es un conjunto medible, y f : Ω → [0, +∞] es una función


medible no negativa, definimos la integral de f sobre E como:
Z Z
f dµ = f · IA dµ
Ω Ω
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 274

Lema D.3.4 Sea ϕ una función simple no negativa. Entonces la función λ = λϕ : M →


[0, +∞] definida por: Z
λ(A) = ϕ dµ
A
es una medida

Prueba: Supongamos que un conjunto medible A se representa como una unión disjunta
numerable de una sucesión (An )n∈N de conjuntos medibles:
[
A= An
n∈N

Queremos probar que:



X
λ(A) = λ(An )
n=1

Como ϕ es una función simple, podremos representarla en la forma


N
X
ϕ= ci IEi
i=1

siendo Ei conjuntos medibles disjuntos.


Notamos que ϕ(x)IAn (x) es una función simple, que toma el valor ci en el conjunto
An ∪ Ei , es decir que su representación canónica es:
N
X
ϕ(x)IAn (x) = ci IEi ∩An
i=1

En consecuencia,
N
X
λ(An ) = ci µ(Ei ∩ An )
i=1

Y por lo tanto

X ∞ X
X N
λ(An ) = ci µ(Ei ∩ An )
n=1 n=1 i=1

Como en esta suma doble los términos µ(Ei ∩ An ) son no negativos, da lo mismo efectuar
la suma en cualquier orden. En consecuencia,

X X ∞
N X N
X ∞
X
λ(An ) = ci µ(Ei ∩ An ) = ci µ(Ei ∩ An )
n=1 i=1 n=1 i=1 n=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 275

Ahora notamos que: [


Ei ∩ A = (Ei ∩ An )
n∈N

siendo esta unión disjunta. En consecuencia, como µ es una medida,



X
µ(Ei ∩ A) = µ(Ei ∩ An )
n=1

y concluimos que:

X N
X Z Z
λ(An ) = ci µ(Ei ∩ A) = ϕ(x) IA (x) dµ = ϕ(x) dµ
n=1 i=1 Ω A

Teorema D.3.5 (Teorema de la Convergencia Monótona ) 2 Sea fn (x) : Ω → [0, +∞]


una sucesión creciente (o sea: fn (x) ≤ fn+1 (x)) de funciones medibles no negativas. En-
tonces, Z Z
lı́m f (x) dµ = lı́m fn (x) dmu
Ω n→+∞ n→+∞ Ω

Prueba: Sea
f (x) = lı́m fn (x)
n→+∞

Por la monotonía de la integral es claro que:


Z Z
fn (x) dµ ≤ f (x) dµ
Ω Ω

Y por lo tanto que: Z Z


lı́m fn (x) dµ ≤ f (x) dµ
n→+∞ Ω Ω
Por otra parte, sea ϕ una función simple tal que ϕ ≤ f . Dado α ∈ (0, 1), consideramos
los conjuntos (medibles)
An = {x ∈ Ω : fn (x) ≥ αϕx}
Entonces la sucesión (An )n∈N es monótona creciente (o sea An ⊂ An+1 ) y
[
Ω= An
n∈N
2
También conocido como teorema de Beppo Levi.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 276

Además la función λϕ definida en el lema anterior, es una medida, por lo tanto:


λ(Ω) = lı́m λ(An )
n→+∞

es decir, Z Z
lı́m ϕ(x) dµ = ϕ(x) dµ
n→+∞ A Ω
n

Por otra parte, para cada n ∈ N ,


Z Z Z
α ϕ(x) dµ ≤ fn (x) dµ ≤ fn (x) dµ
An An Ω

De modo que,
Z Z Z
α ϕ(x) dµ = α lı́m ϕ(x)dµ ≤ lı́m fn (x) dµ
Ω n→+∞ A n→+∞ Ω
n

Haciendo tender α a 1 deducimos que:


Z
ϕ(x) dµ ≤ lı́m fn (x) dµ
Ω n→+∞

y por lo tanto como esto vale para toda función simple ϕ con 0 ≤ ϕ ≤ f , por la definición
de integral, deducimos que:
Z
f (x) dµ ≤ lı́m fn (x) dµ
Ω n→+∞

Proposición D.3.6 (Linealidad de la integral) Si f, g : Ω → [0, +∞] son funciones


medibles no negativas y λ1 , λ2 ≥ 0 son números reales no negativos, entonces:
Z Z Z
[λ1 f (x) + λ2 g(x)] dµ = λ1 f (x) dµ + λ2 g(x) dµ
Ω Ω Ω

Prueba: Utilizamos el lema de aproximación por funciones simples: sabemos que existen
una sucesión creciente (fn (x)) de funciones simples que converge a f (x), y una sucesión
creciente (gn (x)) de funciones simples que converge a g(x). Entonces por la linealidad de
la integral de funciones simples,
Z Z Z
[λ1 fn (x) + λ2 gn (x)] dµ = λ1 fn (x) dµ + λ2 gn (x) dµ
Ω Ω Ω

Y el teorema de convergencia monótona implica entonces que:


Z Z Z
[λ1 f (x) + λ2 g(x)] dµ = λ1 f (x) dµ + λ2 g(x) dµ
Ω Ω Ω


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 277

Teorema D.3.7 (Lema de Fatou) Sea fn : M → [0, +∞] una sucesión de funciones
medibles no negativas. Entonces:
Z Z
lı́m inf fn (x) dµ ≤ lı́m inf fn (x) dµ
Ω n→+∞ n→+∞ Ω

Prueba: Llamemos  
f (x) = lı́m inf fn (x) = sup ı́nf fn (x)
n→+∞ k∈N n≥k

y consideremos la sucesión creciente de funciones no negativas:

gk (x) = ı́nf fn (x)


n≥k

Entonces por el teorema de convergencia monótona:


Z Z Z
f (x) dµ = lı́m gk (x) dµ = lı́m gk (x) dµ (D.2)
Ω Ω k→+∞ k→+∞ Ω

Por otra parte si n ≥ k, tenemos que


Z Z
gk (x) dµ ≤ fn (x) dµ
Ω Ω

y en consecuentcia: Z Z
gk (x) dµ ≤ lı́m inf fn (x) dµ
Ω n→+∞ Ω
Y por lo tanto: Z Z
lı́m gk (x) dµ ≤ lı́m inf fn (x) dµ
k→+∞ Ω n→+∞ Ω
En consecuencia utilizando (D.2), deducimos que:
Z Z
f (x)dµ ≤ lı́m inf fn (x) dµ
Ω n→+∞ Ω

D.4. Funciones Integrables


Si f : Ω → R es una función medible, hacemos la descomposición:

f = f+ − f− (D.3)

como diferencia de dos funciones medibles no negativas, siendo


f (x) si f (x) ≥ 0

+
f (x) =
0 si f (x) < 0
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 278

y
0 si f (x) ≥ 0


f (x) =
−f (x) si f (x) < 0
Notamos que:
|f | = f + + f −

Definición D.4.1 Diremos que una función medible f : Ω → R es integrable si son finitas
las integrables Z
f + (x) dµ

y Z
f − (x) dµ

En ese caso, definimos la integral de f con respecto a µ en el espacio Ω por:
Z Z Z
f (x) dµ = +
f (x) dµ + f − (x) dµ
Ω Ω Ω

Observación: De la definición de función integrable, deducimos que f es integrable si y


sólo si Z
|f (x)|dµ < +∞

Además: Z Z
f (x)dµ ≤ |f (x)| dµ
Ω Ω

Proposición D.4.2 (Linealidad de la integral) Si f, g : Ω → R son funciones integra-


bles y λ1 , λ2 son números reales, entonces λ1 f + λ2 g es integrable, y se tiene que:
Z Z Z
[λ1 f (x) + λ2 g(x)] dµ = λ1 f (x) dµ + λ2 g(x) dµ
Ω Ω Ω

Prueba: Primero probaremos que es posible sacar escalares de la integral: En efecto si


λ > 0, tenemos que:
(λf )+ = λf +
(λf )− = λf −
Entonces es claro por la definición y la linealidad de la integral para funciones no negativas,
que si f es integrable, λf también lo es y se verifica que:
Z Z Z
λf dµ = (λf ) dµ − (λf )− dµ =
+
Ω Ω Ω
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 279

Z Z
=λ f +
dµ − λ f − dµ
Ω Ω
Z
=λ f dµ

Si λ < 0, notamos que:
(λf )+ = (−λ)f −
(λf )− = (−λ)f +
y de nuevo, vemos usando la definición y la linealidad de la integral para funciones no
negativas, que si f es integrable, λf también lo es y se verifica que:
Z Z Z
λf dµ = (λf )+ dµ − (λf )− dµ =
Ω Ω Ω
Z Z
= −λ f − dµ + λ f + dµ
Ω Ω
Z
=λ f dµ

(El caso λ = 0 es trivial porque la integral de la función nula dá 0).
Ahora probaremos que la integral distribuye la suma: Para ello notamos que (D.3)
proporciona una escritura de f como diferencia de dos funciones no negativas. Pero que si
tenemos otra escritura de f como diferencia de dos funciones medibles no negativas:

f = f1 − f2
Entonces de f + − f − = f1 − f2 , deducimos f + + f2 = f1 + f − , entonces por la linealidad
de la integral para funciones no negativas:
Z Z Z Z
+
f dµ + f2 dµ = f1 dµ + f − dµ
Ω Ω Ω Ω

En consecuencia, Z Z Z
f dµ = f1 dµ − f2 dµ
Ω Ω Ω
Vale decir que si en lugar de (D.3), utilizáramos cualquier otra descomposición de f como
diferencia de funciones medibles no negativas obtendríamos el mismo valor de la integral.
Hecha esta observación, notamos que

f + g = f + − f − + g + − g − = (f + + g + ) − (f − + g − )

y que esta última expresión proporciona una escritura de f +g como diferencia de funciones
no negativas. En consecuencia, por la observación anterior, y la linealidad de la integral
para funciones no negativas:
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 280

Z Z Z
(f + g) dµ = +
(f + g ) dµ − +
(f − + g − ) dµ =
Ω Ω Ω
Z Z Z Z

f +
dµ + +
g dµ − f dµ − g − dµ =
Ω Ω Ω Ω
Z Z
= f dµ + g dµ
Ω Ω


Teorema D.4.3 (De convergencia mayorada, de Lebesgue) Sea fn (x) : Ω → R una


sucesión de funciones integrables, que converge puntualmente a una función f (x)

f (x) = lı́m fn (x)


n→+∞

y tal que existe una función integrable g de modo que |fn (x)| ≤ g (en casi todo punto con
respecto a la medida µ). Entonces
Z
lı́m |fn (x) − f (x)| dµ = 0
n→+∞ Ω

En particular, Z Z
lı́m fn (x) dµ = f (x) dµ
n→+∞ Ω Ω

Prueba: Sea hn (x) la sucesión de funciones medibles no negativas, definida por:

hn (x) = 2g(x) − |fn (x) − f (x)|

Entonces, por el lema de Fatou,


Z Z Z
2 g(x) dµ = lı́m hn (x) dµ ≤ lı́m inf fn (x) dµ
Ω Ω n→+∞ Ω
Z Z
2 g(x) dµ − lı́m sup |fn (x) − f (x)| dµ
Ω n→+∞ Ω
En consecuencia, Z
lı́m sup |fn (x) − f (x)| dµ = 0
n→+∞ Ω
Entonces,
Z Z Z
fn (x) dµ − f (x) dµ ≤ |fn (x) − f (x)| dµ → 0 cuando n → ∞
Ω Ω Ω


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 281

D.5. Equivalencia de las distintas definiciones de Esperanza


Sean como antes (Ω, E, P ) un espacio de probabilidad y X : Ω → R una variable
aleatoria. La esperanza de X no es otra cosa que su integral de Lebesgue respecto a la
medida P : Z
E[X] = X dµ

A la variable aleatoria X le podemos asociar la medida µX (o probabilidad), definida
para los conjuntos borelianos de la recta por:

µX (B) = P (X −1 (B))

µX se llama la distribución de probabilidades de X. Notamos que (R, B(R), µX ), donde


B(R) denota la σ-álgebra de Borel de la recta, es un espacio de probabilidad.
El siguiente lema afirma que es posible transformar las integrales respecto a P , en
integrales respecto a µX . Por consiguiente µX contiene toda la información sobre X que
es necesaria para calcular la esperanza de X, o más generalmente, de una función ϕ(X) de
X.

Lema D.5.1 Sea ϕ : R → R una función medible Borel. Entonces se tiene que
Z Z
E[ϕ(X)] = ϕ(X) dµ = ϕ(x) dµX
Ω R

en el siguiente sentido.

1. Si ϕ es no negativa, la fórmula vale sin restricciones. (Notar que estas integrales


siempre existen, aunque pueden ser infinitas)

2. Si ϕ es cualquiera, entonces ϕ(X) es integrable con respecto a P si y sólo si ϕ(x) lo


es con respecto a µX y en este caso es válida dicha fórmula.

Prueba: Primero consideramos el caso en que ϕ : R → R es una función boreliana simple,


entonces:
Xn
ϕ(x) = ci IBi (x)
i=1

para ciertos conjuntos Bi ⊂ R borelianos, de modo que:


Z n
X
ϕ(x) dµX = ci µX (Bi )
R i=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 282

Por otra parte, notamos que ϕ(X) : M → R es una función simple que toma el valor
ci en el conjunto X −1 (Bi ), de modo que:
Z n
X
ϕ(X) dP = ci P (X −1 (Bi ))
Ω i=1

Dado que por definición de µX , µX (Bi ) = P (X −1 (Bi )), ambas integrales coinciden.
Sea ahora ϕ : R → R una función boreliana no negativa. Y consideramos una sucesión
creciente de funciones borelianas simples ϕn : R → R que converge a ϕ en forma creciente.
Dado que para cada n ∈ N tenemos que:
Z Z
ϕn (X) dP = ϕn (x) dµX
Ω R

El teorema de convegencia monótona, implica que:


Z Z
ϕ(X) dP = ϕ(x) dµX
Ω R

Finalmente, consideremos una función boreliana ϕ : R → R cualquiera. Como |ϕ| es no


negativa, ya sabemos que:
Z Z
|ϕ(X)| dP = |ϕ(x)| dµX
Ω R

En consecuencia, ϕ(X) es integrable con respecto a P si y sólo si ϕ(x) lo es con respecto


a µX .
Finalmente, hagamos uso de la descomposición:

ϕ(x) = ϕ+ (x) − ϕ− (x)

Entonces como ϕ+ y ϕ− son no negativas, tenemos que:


Z Z
+
ϕ (X) dP = ϕ+ (x) dµX
Ω R

y que: Z Z

ϕ (X) dµ = ϕ− (x) dµX
Ω R
La linealidad de la integral implica entonces que:
Z Z
ϕ(X) dP = ϕ(x) dµX
Ω R


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 283

Anteriormente definimos la esperanza utilizando integrales de Stieltjes respecto a la


función de distribución de X. El siguiente teorema afirma que la definición de esperanza
que dimos anteriormente coincide con la nueva definición.
En la demostración, utilizaremos la notación:
Z b Z
ϕ(x) dµX = ϕ(x) dµX
a [a,b]

Teorema D.5.2 Sea ϕ : R → R una función continua. Entonces se tiene que:


Z b Z b
ϕ(x) dµX = ϕ(x) dF (x)
a a

en el siguiente sentido:

1. Si ϕ tiene soporte en un intervalo [a, b] entonces, la fórmula es válida, y ambos


mimebros son finitos.

2. Si ϕ es no negativa, la fórmula es válida sin restricciones (aunque ambas integrales


pueden ser infinitas)

3. Si ϕ es de signo abitrario, entonces ϕ(x) es integrable con respecto a µX si y sólo si


Z ∞
|ϕ(x)| dF (x) < +∞
−∞

y en este caso, también es válida dicha fórmula.

Prueba: Supongamos primero que ϕ tiene soporte en un intervalo cerrado [a, b]. Consi-
deremos una partición π : a = x0 < x1 < . . . < xn = b del intervalo y elijamos puntos
intermedios ξi ∈ (xi , xi+1 ).
Definamos la función simple ϕπ : [a, b] → R dada por:

ϕπ (x) = ξi si x ∈ (xi , xi+1 ]

Entonces:
n−1
X n−1
X Z
S(π, F ) = ϕ(xii )[F (xi+1 ) − F (xi )] = ϕ(ξi )µX ((xi .xi+1 ]) = ϕπ (x) dµ
i=1 i=1 Ω

Ahora bien, como ϕ es uniformemente continua en [a, b], deducimos que ϕπ converge
uniformenete a ϕ en [a, b] cuando la norma de la partición π tiende a cero. En efecto, dado
ε > 0, sea δ > 0 el que corresponde a ε por la continuidad uniforme de ϕ en [a, b]. Entonces,
si x ∈ (xi , xi+1 ],
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 284

|ϕπ (x) − ϕ(x)| = |ϕ(ξi ) − ϕ(x)| < ε


si |xi+1 − xi | < δ.
Deducimos que:
Z b Z b
lı́m ϕπ (x) dµX = ϕ(x) dµX
|π|→0 a a
ya que
Z Z Z b
ϕπ (X)dµX − ϕ(x) dµX ≤ |ϕπ (x) − ϕπ (x)| dµX < εµX ([a, b]) ≤ ε
Ω Ω a

Por definición de integral de Stieltjes esto dice que la integral


Z b
ϕ(x) dF (x)
a

existe, y coincide con


Z b
ϕ(x) dµX
a
Para el caso general, en el que ϕ no tiene soporte compacto, consideremos cualquier
sucesión decreciente (an )n∈N tal que an → −∞, y cualquier sucesión creciente (bn )n∈N tal
que bn → +∞, y observemos que
Z bn Z Z
ϕ( x) dµX = ϕ(x)I[an ,bn ] (x) dµ(x) → ϕ(x) dµX
an R R

Por el teorema de convergencia monótona aplicado a ϕ(x)I[an ,bn ] , si ϕ es no negativa.


En consecuencia, Z Z ∞
ϕ(x) dµX = ϕ(x) dF (x) (D.4)
R −∞
vale siempre que ϕ(x) sea no negativa.
Cuando ϕ tiene cualquier signo, observamos primero que
Z Z ∞
|ϕ(x)| dµ = |ϕ(x)| dF (x)
R −∞

Lo que en particular, dice que |ϕ(x)| es integrable con respecto a µX si y sólo si:
Z ∞
|ϕ(x)| dF (x) < +∞
−∞

Si esto sucede, podemos aplicar el teorema de convergencia mayorada a la sucesión ϕ(x)I[an ,bn ]
(que claramente está mayorada por |ϕ(x)|, y deducir que la fórmula (D.4) es cierta, también
en este caso. 
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 285

D.5.1. Vectores Aleatorios


Las ideas anteriores pueden generalizarse facilmente a vectores aleatorios. Si (Ω, E, P )
es un espacio de probabilidad, un vector aleatorio no es otra cosa que una función medible
Ω : X → Rn .
Podemos definir la distribución de probabilidades de X como la medida µX , definida
en la σ-álgebra de Borel de Rn por:

µX (B) = P (X −1 (B)
Y si ϕ : Rn → R es una función medible Borel, entonces tendremos la fórmula (genera-
lización del lema D.5.1:
Z Z
E[ϕ(X)] = ϕ(X) dP = ϕ(x)dµX
Ω Rn
Apéndice E

Independencia

En este apéndice utilizaremos las herramientas de la teoría de la medida para probar


algunas propiedades de las variables aleatorias independientes.

E.1. El teorema π − λ de Dynkin


Para la prueba de algunos teoremas de la teoría de probabilidades (y de la teoría de la
medida) se necesita un resultado técnico conocido como el teorema π − λ de Dynkin. Para
enunciarlo, necesitamos algunas definiciones previas:

Definición E.1.1 Sea Ω un conjunto. Una clase P de subconjuntos de Ω se llamará un


π-sistema si es cerrado bajo intersecciones finitas, o sea si A, B ∈ P ⇒ A ∩ B ∈ P.

Definición E.1.2 Una clase L se subconjuntos de Ω se llama un λ-sistema si verifica las


siguientes propiedades:

λ1 ) Ω ∈ L

λ2 ) A ∈ L ⇒ Ac = Ω − A ∈ L

λ3 ) Si (An ) es una familia numerable disjunta y An ∈ L, entonces


S
n∈N An ∈L

Obs: Debido a la condición de que los conjuntos sean disjuntos en la condición λ3 ), la


definición λ-sistema es mucho más débil que la de σ-álgebra. Toda σ-álgebra es un λ-sistema
pero la recíproca no es válida.

Algunas propiedades de los λ-sistemas


∅∈L

286
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 287

Si A ⊂ B, y A, B ∈ L → B − A ∈ L.
Prueba: B − A = B ∩ Ac = (B c A)c y B c ∩ A = ∅.
S

L es cerrado por unionesSnumerables crecientes. Si An ∈ L ∀ n ∈ N , y A1 ⊂ A2 ⊂


. . . ⊂ An ⊂ . . ., entonces n∈N An ∈ L.
Prueba:
[
An = A1 ∪ (A2 − A1 ) ∪ (A3 − A2 ) ∪ . . . ∪ (An − An−1 ∪ . . .
n∈N

Si L es a la vez un λ-sistema y un π-sistema, entonces L es una σ-álgebra.

Notación: Si P es una familia de partes de Ω, notamos por σ(P ) la σ-álgebra generada


por L.

Teorema E.1.3 (Teorema π − λ de Dynkin) Si P es un π-sistema, L es un λ-sistema,


y P ⊂ L entonces σ(P ) ⊂ L.

Prueba: Sea L0 el λ-sistema generado por P, esto es la intersección de todos los λ-sistemas
que contienen a P (que es a su vez un λ-sistema). Notamos que en particular λL0 ⊂ L.
Afirmamos que L0 es un π-sistema. Para probar que L0 es un π-sistema, procedemos del
siguiente modo: dado A ∈ L, definimos

LA = {B ⊂ Ω : A ∩ B ∈ L0 }
Afirmación 1: Si A ∈ L0 , entonces LA es un λ-sistema.

A ∩ Ω = A ∈ L0 por hipótesis, luego Ω ∈ LA .

Si B1 , B2 ∈ LA y B1 ⊂ B2 , entonces por definición A∩B1 , A∩B2 ∈ L0 . Ahora como L0


es un λ-sistema y A∩B1 ⊂ A∩B2 , tenemos que A∩B1 −A∩B2 = A∩(B1 −B2 ) ∈ L0 .
En consecuencia, B1 − B2 ∈ LA .

Si (Bn ) es una familia disjunta de conjuntos de LA entonces A ∩ Bn es una familia


disjunta de conjuntos de L0 , y como
!
[ \
A∩ Bn = (A ∩ Bn ) ∈ L0
n∈N n∈N

entonces [
Bn ∈ LA
n∈N
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 288

Afirmación 2: Si A ∈ P, entonces L0 ⊂ LA .
Si A ∈ P, entonces para cualquier B ∈ P tenemos que A ∩ B ∈ P, ya que P es por
hipótesis un π-sistema. Deducimos que P ⊂ LA . Luego por la afirmación 1, LA es un
λ-sistema que continene a P, lo cual por la definición de L0 implica que L0 ⊂ LA .
Afirmación 3: Si C ∈ L0 , entonces L0 ⊂ LC .
Para todo A ∈ P, por la afirmación 2, tenemos que LA ⊂ L0 . Luego si C ∈ L0 , entonces
C ∈ LA , que por simetría de la definición implica que A ∈ LC . Como esto vale para todo
A ∈ P, deducimos que P ⊂ LC .
Por la afirmación 1, deducimos que LC es un λ-sistema que contiene a P, lo que por la
definición de L0 , implica que L0 ⊂ LC .
Finalmente sean D, E ∈ L0 . Entonces por la afirmación 3, D ∈ L0 ⊂ LE . En conse-
cuencia por definición de LE , D ∩ E ∈ L0 . Concluimos que L0 es un π-sistema.
Conclusión de la prueba: Como L0 es a la vez un π-sistema, y un λ-sistema, es
una σ-álgebra. Como contiene a P, deducimos que σ(P) ⊂ L0 . Y entonces, como L0 ⊂ L,
concluimos que σ(P) ⊂ L. 

E.2. Variables independientes


Si X e Y son dos variables aleatorias, recordamos que X e Y se dicen independientes
si para cualquier par de intervalos (a, b] y (c, d] de la recta, los eventos {X ∈ (a, b]} y
{Y ∈ (c, d] son idenpendientes, es decir que:

P {(X, Y ) ∈ (a, b] × (c, d]} = P {X ∈ (a, b]} × P {Y ∈ (c, d]}


Podemos interpretar esta fórmula como:

µ(X,Y ) ((a, b] × (c, d]) = µX ((a, b])µY ((c, d])


El siguiente lema afirma que una fórmula análoga es válida si sustituimos los intervalos
por conjuntos borelianos de la recta:

Lema E.2.1 Sean X e Y dos variables aleatorias. Entonces X e Y son independientes si


y sólo si:
P {(X, Y ) ∈ B1 × B2 } = P {X ∈ B1 } · P {Y ∈ B2 }
para cualquier par B1 , B2 de conjuntos borelianos de la recta.

Prueba: Fijemos primero B1 , como siendo un intervalo (a, b] de la recta, y consideremos


la familia

L1 = {B ⊂ R : P {(X, Y ) ∈ (a, b] × B} = P {X ∈ (a, b]} · P {Y ∈ B}}


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 289

Afirmamos que A1 es un λ-sistema de subconjuntos de R. Chequeamos las tres condiciones


de la definición:

λ1 ) R ∈ L1 :

P {(X, Y ) ∈ (a, b] × R} = P X ∈ (a, b] = P {X ∈ (a, b]} · P {Y ∈ R}

ya que P {Y ∈ R = 1.

λ2 ) B ∈ L1 ⇒ B c = R − B ∈ L1
En efecto,

P {(X, Y ) ∈ (a, b] × B c } = P {(X, Y ) ∈ (a, b] × R} − P {(X, Y ) ∈ (a, b] × B}


= P {X ∈ (a, b]} − P {X ∈ (a, b]}P {Y ∈ B}
= P {X ∈ (a, b]}(1 − P {Y ∈ B)
= P {X ∈ (a, b]}P {Y ∈ B c }

λ3 ) Si (Bn ) es una familia numerable disjunta y Bn ∈ L1 , entonces B =


S
n∈N Bn ∈ L1
En efecto, utilizando que los Bn son disjuntos, tenemos que:

[
P {(X, Y ) ∈ (a, b] × B} = P {(X, Y ) ∈ ((a, b] × Bn )}
n∈N
X
= P {(X, Y ) ∈ (a, b] × Bn }
n∈N
X
= P {X ∈ (a, b]}P {Y ∈ Bn }
n∈N
!
X
= P {X ∈ (a, b]} P {Y ∈ Bn }
n∈N
= P {X ∈ (a, b]}P {Y ∈ B}

Notemos que no es posible probar que L1 sea una σ-álgebra, pues este argumento no
funciona si los Bn no fueran disjuntos.

Por otra parte la familia P de los intervalos semiabiertos de la recta (contando como
intervalo semiabierto al conjunto vacío (a, a] = ∅ es un π-sistema, y por la definición de
variables aleatorias independientes, P ⊂ L1 .
El teorema π − λ nos permite concluir entonces que σ(P) ⊂ L1 , es decir: que la σ-
álgebra B(R) de los borelianos de la recta, está contenida en L1 . Entonces, hemos probado
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 290

que la fórmula del enunciado, se verifica cuando B1 es un intervalo semiabierto y B2 un


boreliano arbitrario.
Ahora, repetimos el argumento, fijando la otra variable. Para ello consideramos la
familia:

L2 = {B ⊂ R : P {(X, Y ) ∈ B × B2 } = P {X ∈ B} · P {Y ∈ B2 } : ∀ B ∈ B(R) }

Repitiendo el argumento anterior, podemos probar que L2 es un λ-sistema, y por lo


anteriormente probado, L2 contiene a la clase P de los intervalos semiabiertos. Nuevamente,
por el teorema π − λ, L2 contiene a los borelianos. Pero esto significa precisamente, que la
fórmula del enunciado es válida para B1 , B2 borelianos arbitrarios de la recta.


Corolario E.2.2 Sean X, Y variables aleatorias independientes, y sean ϕ1 , ϕ2 : R → R


funciones medibles Borel. Entonces: ϕ1 (X) y ϕ2 (Y ) son variables aleatorias independientes.

Estos resultados se generalizan a varias variables independientes.

E.3. Esperanza del producto de variables independientes


A modo de ilustración de la utilidad de los teoremas de paso al límite en la integral,
demostraremos la siguiente propiedad:

Teorema E.3.1 Si X e Y son variables aleatorias independientes con esperanza finita


(esto es, integrables) entonces

E[X · Y ] = E[X] · E[Y ]

Prueba: Hacemos uso una vez más del método de aproximación por funciones simples.
Supongamos pues primero que X e Y son no negativas, y sean (Xn ) e (Yn ) variables alea-
torias simples (discretas) tales que Xn converja a X en forma creciente, e Yn converja
en forma creciente a Y , dadas por la construcción del lema D.1.10. Notamos que como
consecuencia de dicha construcción, si X e Y son independientes, Xn e Yn resultan inde-
pendientes. En consecuencia, como ya probamos que el resultado es cierto para variables
discretas (proposición 3.2.9) , tenemos que

E[Xn · Yn ] = E[Xn ] · E[Yn ]

Ahora, en virtud del teorema de convergencia monótona,

E[Xn ] → E[X]
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 291

E[Yn ] → E[Y ]
E[Xn · Yn ] → E[X · Y ]
Luego,
E[X · Y ] = E[X] · E[Y ]
Esto establece el resultado para funciones no negativas. En el caso general, hacemos uso,
una vez más de la descomposición:

X = X+ − X−

Y =Y+−Y−
Entonces,

E[X · Y ] = E[(X + − X − )(Y + − Y − ] = E[X + Y + − X − Y + − X + Y − + X − Y − ] =

E[X + Y + ] − E[X − Y + ] − E[X + Y − ] + E[X − Y − ]


Pero como X e Y son independientes X + , X − son independientes de Y + , Y − respectiva-
mente; en consecuencia:

E[X · Y ] = E[X + ]E[Y + ] − E[X − ]E[Y + ] − E[X + ]E[Y − ] + E[X − ]E[Y − ] =

(E[X + ] − E[X − ])(E[Y + ] − E[Y − ]) = E[X]E[Y ]



La prueba de este teorema ilustra como los teoremas de paso al límite resultan útiles
para generalizar las propiedades que conocemos para variables discretas, al caso de variables
aleatorias continuas.
Apéndice F

Existencia de las Integrales de


Riemann-Stieltjes

En esta apéndice, presentaremos una prueba del siguiente resultado fundamental de la


teoría de la integral de Riemann-Stieltjes:

Teorema F.0.1 Si F es una función creciente en un intervalo cerrado [a, b] de la recta, y


ϕ es una función continua en [a, b], entonces la integral de Riemann-Stieltjes
Z b
ϕ(x) dF (x)
a
existe

Recordamos que esta integral, se define como el límite conforme la norma |π| de la
partición tiende a cero, de las sumas:
n−1
X
Sπ (ϕ.F ) = ϕ(ξi )(F (xi+1 ) − F (xi ))
i=0
donde π : a = x0 < x1 < . . . xn = b es una partición de [a, b] y ξi ∈ [xi , xi+1 ] es un
punto intermedio.
Estas sumas son poco manejables para nuestros propósitos pues dependen de los puntos
intermedios ξi variables. Por ello, las reemplazamos por sumas superiores e inferiores que
son de más fácil manejo:
Para cada i (0 ≤ i ≤ n − 1), notamos:

mi = ı́nf ϕ(x)
x∈[xi ,xi+1 ]

Mi = sup ϕ(x)
x∈[xi ,xi+1 ]

292
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 293

y consideramos las sumas superiores Uπ y las sumas inferiores Lπ definidas por:


n−1
X
Lπ (ϕ.F ) = Mi (F (xi+1 ) − F (xi ))
i=0
n−1
X
Uπ (ϕ.F ) = Mi (F (xi+1 ) − F (xi ))
i=0

Es claro entonces que:

Lπ (ϕ, F ) ≤ Sπ (ϕ, F ) ≤ Uπ (ϕ, F )


Las sumas superiores e inferiores, tienen la siguiente propiedad importante (de mono-
tonía): Si π 0 es un refinamiento de π, entonces

Lπ0 (ϕ, F ) ≥ Lπ (ϕ, F )

Uπ0 (ϕ, F ) ≤ Uπ (ϕ, F )


(Las sumas superiores decrecen al afinar la partición, mientras que las inferiores crecen.)
Para demostrarla, es fácil observar que se verifica si π 0 es una partición obtenida de π
agregando un punto. Por inducción, se obtiene el caso general, ya que si π 0 es un refina-
miento de π, ello significa que se obtiene de π agregando finitos puntos.
De esta observación, se deduce lo siguiente: toda suma superior es mayor que cualquier
suma inferior. Es decir que si π y π 0 son dos particiones arbitrarias, siempre se verifica que:

Lπ (ϕ, F ) ≤ Uπ0 (ϕ, F )


Para demostrar esta afirmación, es suficiente notar que la partición π 00 = π ∪ π 0 es un
refinamiento común 1
Entonces, utilizando la propiedad de monotonía,

Lπ (ϕ, F ) ≤ Lπ00 ≤ Uπ00 ≤ Uπ0

Lema F.0.2 Dado ε > 0, existe δ > 0 tal que si |π| < δ, tenemos que

0 ≤ Uπ (ϕ, F ) − Lπ (ϕ, F ) < ε


1
Es esta propiedad de las particiones, de que dos particiones siempre tienen un refinamiento común, hace
de las particiones un conjunto dirigido. Así pués, Sπ (ϕ, F ) es una red que converge a la integral de Stieltjes.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 294

Prueba: Dado ε > 0, como ϕ es uniformemente continua en [a, b], existirá un δ > 0 tal
que si |x − y| < δ con x, y ∈ [a, b], se tiene que |ϕ(x) − ϕ(y)| < ε. Entonces, si π es cualquier
partición de [a, b] tal que |π| < δ, tendremos que:
n−1
X
Uπ (ϕ, F ) − Lπ (ϕ, F ) = (Mi − mi )(F (xi+1 ) − F (xi ))
i=0
n−1
X
≤ ε(F (xi+1 ) − F (xi )) ≤ ε(F (b) − F (a))
i=0

Hechas estas observaciones, estamos en condiciones de demostrar el teorema, para ello
comencemos eligiendo una sucesión (πn ) de particiones de (a, b] de modo que πn+1 sea un
refinamiento de πn , y que |πn | → 0. Por ejemplo, podemos elegir como πn la partición
uniforme de [a, b] en 2n partes de igual longitud.
Entonces, por la propiedad de monotonía la sucesión de sumas inferiores Lπn (ϕ, F ) será
monótona creciente, y además está acotada pues
!
Lπn ≤ sup ϕ(x) (F (b) − F (a))
x∈[a,b]

En consecuencia, existe el límite

I = lı́m Lπn (ϕ, F )


n→+∞

En virtud del lema, también tendremos que:

I = lı́m Uπn (ϕ, F )


n→+∞

Dado ε > 0, sea δ > 0 el que corresponde a ε de acuerdo al lema, y elijamos n tal que
|πn | < δ, y

|Lπn − I| < ε

|Uπn − I| < ε
Afirmamos entonces que:

|Sπ (ϕ, F ) − I| < 2ε


En efecto,

Sπ (ϕ, F ) − I ≤ Uπ (ϕ, F ) − Uπn + Uπn − I


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 295

≤ Uπ (ϕ, F ) − Lπ (ϕ, F ) + ε < 2ε


Similarmente,

Sπ (ϕ, F ) − I ≥ Lπ (ϕ, F ) − Lπn + Lπn − I


≥ Lπ (ϕ, F ) − Uπ (ϕ, F ) − ε > −2ε
En consecuencia,

lı́m Sπ (ϕ, F ) = I
|δ|→0

Una observación adicional nos será útil para demostrar el teorema de Helly sobre paso
al límite en la integral de Stieltjes: este δ sólo depende de la continuidad uniforme de ϕ y
de la magnitud de la variación F (b) − F (a) de F en [a, b] (La partición πn sólo juega un rol
auxiliar en el argumento, pero δ es independiente de n y por lo tanto de F mientras F (b) −
F (a) permanezca acotado). Esto nos proporciona el siguiente corolario (sobre convergencia
uniforme de la integral de Stieltjes respecto de la función F ):

Corolario F.0.3 Sea ϕ ∈ C[a, b]. Dados ε > 0 y C > 0, existe un δ > 0 (que depende de
ε > 0 y C pero es independiente de F ) tal que si F es cualquier función F : [a, b] → R
creciente tal que
F (b) − F (a) ≤ C
y π una partición de (a, b] con puntos marcados tal que |π| < δ entonces
Z b
ϕ(x) dF (x) − Sπ (ϕ, F ) < ε
a
Apéndice G

Las Leyes Fuertes de Kolmogorov

En este apéndice expondremos la demostración de la ley fuerte de los grandes números


de Kolmogorov.

G.1. La Desigualdad de Kolmogorov


La desigualdad de Kolmogorov es una generalización de la desigualdad de Chebyshev:

Proposición G.1.1 (Desigualdad de Kolmogorov) Sean X1 , X2 , . . . , Xn variables alea-


torias independientes tales que E[Xk ] = 0 y Var(Xk ) < +∞ para k = 1, 2, . . . , n. Pongamos:

Sn = X1 + X2 + . . . + Xn

Entonces para todo λ > 0,


  n
1 1 X
P máx |Sk | ≥ λ ≤ 2 Var(Sn ) = 2 Var(Xk )
1≤k≤n λ λ
k=1

donde Sk = X1 + X2 + . . . + Xn .

Prueba: Consideremos el evento:


 
A= máx Sk2 ≥λ 2
1≤k≤n

Queremos obtener una cota para P (A). Para ello lo descomponemos en eventos disjuntos,
de acuerdo a cual es la primera vez que Sk2 ≥ λ2 :

A1 = {S12 ≥ λ2 }

296
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 297

A2 = {S12 < λ, S22 ≥ λ2 }


y en general:

Ak = {S12 < λ2 , S22 < λ2 , . . . , Sk−1


2
< λ2 , Sk ≥ λ2 }

Entonces los Ak son disjuntos dos a dos, y


[
A= Ak
k∈N

Luego,
n
X
IA = IAn
k=1
n
X
Sn2 ≥ Sn2 IA = Sn2 IAk
k=1

y tomando esperanza:
n
(G.1)
X
E[Sn2 ] ≥ E[Sn2 IAk ]
k=1

Nos gustaria sustituir Sn por Sk en esta sumatoria. Para ello, notamos que:

Sn2 = (Sn − Sk + Sk )2 = (Sn − Sk )2 + 2Sk (Sn − Sk ) + Sk2 ≥ 2Sk (Sn − Sk ) + Sk2

Multiplicando por IAk y tomando esperanza tenemos que:

E[Sn2 IAk ] ≥ E[Sk2 IAk ] + 2E[Sk (Sn − Sk )IAk ]

Observamos ahora que Sk IAk y Sn − Sk son independientes (pues Sk IAk depende de


X1 , X2 , . . . , Xk y Sn − Sk depende de Xk+1 , Xk+2 , . . . , Xn ). En consecuencia:

E[Sk (Sn − Sk )IAk ] = E[Sk IAk ]E[Sn − Sk ] = 0


pues E[Sn ] = E[Sk ] = 0. En consecuencia:

E[Sn2 IAk ] ≥ E[Sk2 IAk ]


Ahora en Ak , Sk2 ≥ λ2 . En consecuencia,

E[Sn2 IAk ] ≥ E[λ2 IAk ] = λ2 P (Ak )


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 298

Sustituyendo este resultado en la desigualdad (G.1), tenemos que:


n
X
E[Sn2 ] ≥ λ2 P (Ak ) = λ2 P (A)
k=1

Luego
n
1 1 X
P (A) ≤ E[Sn
2
] = Var(Xk )
λ2 λ2
k=1


G.2. La Ley Fuerte de los Grandes Números


G.2.1. La Primera Ley Fuerte de Kolmogorov
Teorema G.2.1 (Primera ley fuerte de Kolmogorov) Sea (Xn )n∈N una sucesión de
variables aleatorias independientes con esperanza finita, y supongamos que:

Var(Xn )

(G.2)
X
< +∞
n2
n=1

Entonces (Xn )n∈N verifica la ley fuerte de los grandes números, es decir:
X1 + X2 + . . . + Xn E(X1 ) + E(X2 ) + . . . + E(Xn ) c.s.
− −→ 0
n n

Prueba: Podemos suponer sin perdida de generalidad que E[Xn ] = 0 ∀ n ∈ N (Sino


cambiamos Xn por Xn − E[Xn ]). Queremos probar que:
Sn c.s.
−→ 0
n
donde Sn = X1 + X2 + . . . + Xn . Definamos las “variables maximales diádicas”:
|Sk |
Mn = máx
2n <k≤2n+1 k
Basta probar que Mn → 0 casi seguramente.
Vamos a probar esto en dos etapas:
Etapa 1: Probaremos que
X  1

P Mn > < +∞
m
n=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 299

para m = 1, 2, . . ., utilizando la desigualdad de Kolmogorov.


Etapa 2: Probaremos que Mn → 0 casi seguramente, utilizando el lema de Borel-
Cantelli.
Etapa 1: Para probar la primera afirmación notamos que:
2n
   
|Sk | 1
P máx > ≤P máx |Sk | >
2n <k≤2n+1 k m 2n <k≤2n+1 m

(ya que dividir por 2n en lugar de k agranda el máximo)


n+1

2n
  m 2 2X
≤P máx |Sk | > ≤ Var(Xk )
1≤k≤2n+1 m 2n
k=1

Definamos el evento Am,n = Mn ≥ . Entonces


1

m
 
∞ ∞ n+1
m 2 2X
Var(Xk )
X X
P (Am,n ) ≤ 
4n
n=1 n=1 k=1

Cambiando el orden de la suma deducimos que:


 
Var(Xk ) 

X ∞
X X
P (Am,n ) ≤ m2 
4n
n=1 k=1 n:2n+1 ≥k
 

1
Var(Xk ) 
X X
= m2
4n
k=1 n:2n+1 ≥k

Ahora bien, sumando la serie geométrica:



X 1 4 1
=
4n 3 4j
n=j

En consecuencia:

X 1 X 1
n
=
4 4n
n:2n+1 ≥k n=j(k)

donde j(k) cumple:


2j(k) < k ≤ 2j(k)+1
En consecuencia: X 1 4 1 4 4 16
n
= j(k)
≤ 2
= 2
4 3 4 3 k 3k
n:2n+1 ≥k
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 300

(pues 2j(k) ≥ k2 ).
Por lo que sustituyendo, concluimos que:

16m2 X Var(Xk )

X
P (Am,n ) ≤ < +∞
3 k2
n=1 k=1

por la hipótesis.
Etapa 2: Por el lema de Borel-Cantelli, concluimos que, fijado m con probabilidad 1,
sólo ocurren finitos de los eventos An,m . Vale decir que si
 
1
para infinitos n =
\ [
Am,∞ = ω ∈ Ω : Mn (ω) ≥ Am,n
m
k∈N n≥k

entonces P (Am,∞ = 0). Y entonces si consideramos el evento:


[ \ [
A = {ω ∈ Ω : Mn (ω) 6−→ 0 } = ∞ Am,n
m∈N k∈N n≥k

por la σ-aditividad, tenemos que: P (A) = 0. Concluimos que Mn → 0 con probabilidad 1.




Corolario G.2.2 La ley fuerte de los grandes números,


X1 + X2 + . . . + Xn E(X1 ) + E(X2 ) + . . . + E(Xn ) c.s.
− −→ 0
n n
es válida para toda sucesión (Xn )n→N de variables aleatorias independientes y uniforme-
mente acotadas.

Prueba: Supongamos que |Xn | ≤ c. Entonces Var(Xn ) ≤ E[Xn2 ] ≤ c2 , y entonces la


hipótesis (G.2) es satisfecha. 

G.2.2. Algunos Lemas Preparatorios


Nuestro siguiente objetivo será probar que la ley fuerte de los grandes números es válida
sin la restricción de acotación uniforme. Para ello necesitaremos algunos lemas preparato-
rios:

Lema G.2.3 (Criterio de Integrabilidad) Sea X : Ω → R una variable aleatoria. En-


tonces E[|X|] < +∞ (“X es integrable”) si y sólo si

X
P {|X| > n} < +∞
n=1
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 301

Prueba: Pongamos
A0 = {ω ∈ Ω : X(ω) = 0}
An = {ω ∈ Ω : n − 1 < |X| ≤ n}
A∞ = {ω ∈ Ω : X(ω) = ±∞}
Los eventos An (con n ∈ N ∪ {∞}) forman una partición del espacio Ω. Notemos así
mismo que bajo cualquiera de las dos condiciones del enunciado X es finita con probabilidad
1, es decir A∞ tiene probabilidad cero. En consecuencia, por la σ-aditividad de la integral
(de Lebesgue) respecto del conjunto 1 :
X∞ Z
E[|X|] = |X| dP
n=0 An

y por lo tanto:
XZ XZ
(n − 1) dP ≤ E[|X|] ≤ n dP
n=1 An n=1 An
(Notamos que el término correspondiente a n = 0 se anula). Es decir que:
X X
(n − 1)P (An ) ≤ E[|X|] ≤ nP (An )
n=1 n=1

o sea, teniendo encuenta que los An forman una partición (y que por lo tanto sus probabi-
lidades suman 1): !
X X
nP (An ) − 1 ≤ E[|X|] ≤ nP (An )
n=1 n=1
Deducimos pues que:

X
E[|X|] < +∞ ⇔ nP (An ) < +∞
n=1
Para escribir esto de otra forma (y obtener la conclusión del enunciado), introduzcamos los
eventos:
Bn = {ω ∈ Ω : |X(ω)| > n}
Entonces An = Bn−1 − Bn y como Bn ⊂ Bn−1 deducimos que:
P (An ) = P (Bn−1 ) − P (Bn )
En consecuencia,

(G.3)
X
E[|X|] < +∞ ⇔ n {P (Bn−1 ) − P (Bn )} < +∞
n=1
1
Aquí presentamos una prueba usando la integral Lebesgue. Son posibles pruebas alternativas, por ej.
usando la integral de Stieltjes. Ver Barry James
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 302

Ahora notamos que “sumando por partes”:


N
X
n {P (Bn−1 ) − P (Bn )} = 1(P (B0 ) − P (B1 )) + 2(P (B1 ) − P (B2 )) + . . .
n=1

+N (P (BN −1 ) − P (BN ) = P (B0 ) + P (B1 ) + P (B2 ) + . . . + P (BN −1 ) − N P (BN )


Es decir que:
N N −1
(G.4)
X X
n {P (Bn−1 − P (Bn )} = P (Bn ) − N P (BN )
n=1 n=0
Ahora probaremos el enunciado: Si E[|X|] es finita, por la desigualdad de Markov:
1
P (BN ) ≤ E[|X|]
N
En conscuencia, de (G.4) y (G.3), deducimos que la serie de términos no negativos:

X
P (BN )
n=1

tiene sumas parciales acotadas, y es por lo tanto convergente. Esto prueba una de las im-
plicaciones del enunciado. Para probar la otra, supongamos que dicha serie es convergente.
Entonces, por (G.4):
X N N
X −1
n {P (Bn−1 ) − P (Bn )} ≤ P (B0 )
n=1 n=1
y en consecucnia por (G.3), E[|X|] < +∞. 

Lema G.2.4 Sea X una variable aleatoria con esperanza finita, y pongamos para cada n,
An = {ω ∈ Ω : −n ≤ |X(ω)| ≤ n}.Entonces:

X 1
K= E[X 2 IAn ] < +∞
n2
n=1

Prueba: Necesitamos la siguiente propiedad:



1 2
(G.5)
X

n2 j
n=j

Para establecer esta fórmula, notemos que para cada n ∈ N :


1 1 1 1
2
≤ = −
n n(n − 1) n−1 n
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 303

En consecuencia, sumando esta serie telescópica, obtenemos que:


∞ X  1 
X 1 1 X 1 1 1
= 2+ ≤ 2+ −
n2 j n2 j n−1 n
n=j n=j+1 n=j+1

1 1 2
= + <
j2 j j
Volviendo a la prueba del lema, para cada j ∈ N , consideramos el evento:

Bj = {ω ∈ Ω : j − 1 < |X(ω)| ≤ j}

y
B0 = {ω ∈ Ω : X(ω) = 0}
Entonces:
n
Bj (unión disjunta)
[
An =
j=0

En consecuencia:
n
X
2
E[X IAn ] = E[X 2 IBj ]
j=0

y por lo tanto:
∞ ∞ n
X 1 2
X 1 X
K= E[X IAn ] = E[X 2 IBj ]
n2 n2
n=1 n=1 j=−0

Cambiando el orden de la suma (cosa que está permitida, ya que es una serie de términos
no negativos):
∞ X∞
X 1
K= E[X 2 IBj ]
n2
j=1 n=j

Utilizando entonces la propiedad (G.5), vemos que:



X 2
K≤ E[X 2 IBj ]
j
j=1

Ahora bien, cuando ocurre el evento Bj , X 2 ≤ j|X|. Deducimos que,



X
K≤2 E[|X|IBj ] ≤ 2E[|X|] < +∞
j=1

ya que los eventos (Bj ) forman una partición de Ω. 


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 304

G.2.3. La Segunda Ley Fuerte de Kolmogorov


Teorema G.2.5 Sea (Xn )n∈N una sucesión de variables aleatorias independientes e idén-
ticamente distribuidas con E[|Xi |] < +∞. Sea µ = E[Xi ] entonces

X1 + X2 + . . . Xn c.s.
−→ µ
n
cuando n → +∞.

La prueba se basa en el método de truncamiento. Definimos unas nuevas variables


aleatorias Yn por:

Xn si |Xn | ≤ n

Yn =
0 si |Xn | > n

Lema G.2.6 Supongamos que se cumplen las hipótesis del teorema G.2.5 Las variables
truncadas Yn tienen las siguientes propiedades:

i)
limn→+∞ E[Yn ] = µ

ii)
Var(Yn )

X
< +∞
n2
n=1

iii) Con probabilidad 1, dado ω ∈ Ω existe un n0 = n0 (ω) tal que Xn (ω) = Yn (ω) para
n ≥ n0 .

Prueba: i): Como las Xn son idénticamente distribuidas:

E[Yn ] = E[Xn I{|Xn |≤1} ] = E[X1 I{|Xn |≤1} ]

Ahora bien la secuencia de variables aleatorias: X1 I{|Xn |≤1} está acotada por |X1 |:

|X1 I{|Xn |≤1} | ≤ |X1 |

que es integrable por hipótesis. En consecuencia, por el teorema de convergencia mayorada:

E[Yn ] → E[X1 ] = µ

ii): Nuevamente, como las Xn son idénticamente distribuidas

Var(Yn ) = Var(X1 I{|X1 |≤n} )


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 305

y la conclusión se sigue del lema G.2.4 pues X1 es integrable.


iii): Consideramos el evento

A = {ω ∈ Ω : ∃n0 = n0 (ω) tal que ∀n ≥ n0 : Xn (ω) = Yn (ω)}

Queremos ver que P (A) = 1. Para ello consideramos los eventos,

An = {ω ∈ Ω : Xn (ω) 6= Yn (ω)}

Entonces:

X ∞
X ∞
X ∞
X
P (An ) = P {Xn 6= Yn } = P {|Xn | > n} = P {|X1 | > n} < +∞
n=1 n=1 n=1 n=1

por el criterio de integrabilidad (lema G.2.3). En consecuencia, por el lema de Borel-


Cantelli, con probabilidad 1, sólo ocurre un número finito de los sucesos An , es decir que
P (A) = 1. 

Corolario G.2.7 Si consideramos el evento


n
( )
1X
B = ω ∈ Ω : lı́m |Xk (ω) − Yk (ω)| = 0
n→+∞ n
k=1

tenemos que P (B) = 1

En efecto, como A ⊂ B (donde A es el evento definido en la prueba anterior), y P (A) = 1


deducimos que P (B) = 1.
Necesitaremos también un lema (ejercicio) de análisis I:

Lema G.2.8 Sea (µk )k∈NPuna sucesión de números reales tales que µk → µ cuando k →
+∞, y pongamos zn = n1 nk=1 νk entonces zn → µ cuando n → +∞.

Podemos ahora concluir la prueba de la segunda ley fuerte de Kolmogorov (teorema


G.2.5): consideramos el evento
 
X1 (ω) + X2 (ω) + . . . + Xn (ω)
C= ω∈Ω: → µ cuando n → +∞
n

Y consideramos también el evento:


 
Y1 (ω) + Y2 (ω) + . . . + Yn (ω)
D= ω∈Ω: − µ → 0 cuando n → +∞
n

siendo µk = E(Yk ) y µ = − µ1 +µ2 +...+µ


n
n
.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 306

En virtud del lema G.2.6, ii), vemos que las variables truncadas Yn verifican las hipótesis
de la primera ley fuerte de Kolmogorov (teorema G.2.1), en consecuencia P (D) = 1. Ahora
bien, en virtud del lema G.2.8:
µ1 + µ2 + . . . + µn
→µ
n
y en consecuencia: B ∩ D ⊂ C. Pero como, P (B) = P (D) = 1, deducimos que P (C) = 1.
Esto concluye la prueba de la segunda ley fuerte de Kolmogorov.
Nota: Una demostración alternativa del teorema (G.2.5), que no depende de la des-
igualdad de Kolmogorov, se da en el artículo de N. Etemadi [Ete81].
Apéndice H

Compacidad para la convergencia


en distribución

La siguiente condición, donde se pide que esto valga uniformemente en n, nos permitirá
evitar la pérdida de masa en el infinito:

Definición H.0.1 Sea (Fn ) una sucesión de funciones de distribución. Diremos que (Fn )
es ajustada 1 si dado ε > 0 existe Mε > 0 tal que

lı́m sup 1 − Fn (Mε ) + F (−Mε ) ≤ ε


n→+∞

Si Xn es una sucesión de variables aleatorias con función de distribución Fn , esto es


equivalente a decir que la sucesión (Xn ) está acotada en probabilidad en el sentido de la
proposición 8.1.8.

H.1. El Principio de Selección de Helly


Veremos en esta sección un teorema de compacidad para la convergencia en distribución.

Teorema H.1.1 Supongamos que (Fn )n∈N es una sucesión de funciones de distribución.
Entonces existe una subsucesión Fnk y una función F : R → R creciente y continua por la
derecha, tal que
lı́m Fnk (x) = F (x)
k→+∞

para todo punto de continuidad x de F .


1
tight en inglés

307
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 308

Observación H.1.2 La función límite F puede no ser una función de distribución. Por
ejemplo si a + b + c = 1, y

Fn (x) = aI[n,+∞) (x) + bI[−n,+∞) + cG(x)

donde G es alguna función de distribución, entonces

Fn (x) → F (x) = b + cG(x) cuando n → +∞

y tenemos que
lı́m F (x) = b, lı́m F (x) = b + c = 1 − a
x→−∞ x→+∞

Luego se produce un fenómeno de “escape de masa al infinito”.

Prueba: Utilizando el método diagonnal de Cantor (y la numerabilidad de los racionales),


podemos construir una subsucesión Fnk de Fn tal que

lı́m Fnk (q) = G(q)


k→+∞

exista para todo q ∈ Q (es decir todo q racional).


La función G puede no ser continua por la derecha, pero si definimos

F (x) = ı́nf{G(q) : q ∈ Q, q > x}

obtenemos una función continua por la derecha pues

lı́m F (xn ) = ı́nf{G(q) : q ∈ Q, q > xn para algún n}


xn ↓x

= ı́nf{G(q) : q ∈ Q, q > x} = F (x)

Para completar la prueba, consideremos un punto x de continuidad de F , y elijamos


números racionales r1 , r2 , s tales que r1 < r2 < x < s y

F (x) − ε < F (r1 ) ≤ F (r2 ) ≤ F (x) ≤ F (x) < F (x) + ε

Como Fnk (r2 ) → G(r2 ) ≥ G(r1 ) y F (nk )(s) → G(s) ≤ F (s), se deduce que si k ≥ k0 (ε),

F (x) − ε < Fnk (r2 ) ≤ Fnk (x) < Fnk (s) < F (x) + ε

luego Fnk (x) → F (x). 

Teorema H.1.3 (Teorema de Prokhorov) Supongamos que (Fn ) es una sucesión de


funciones de distribución. Entonces son equivalentes:

i) (Fn ) es ajustada.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 309

ii) Para cualquier subsucesión (Fnk ) tal que


Fnk (x) → F (x)
para todo punto de continuidad de F siendo F continua por la derecha (como en el
principio de selección de Helly), se tiene que F es una función de distribución, es
decir que
F (−∞) = 0, F (+∞) = 1 (H.1)

Prueba: Supongamos primero que (Fn ) es ajustada, y sea Fnk una subsucesión que verifica
ii). Elijamos r < −Mε y s > Mε puntos de continuidad de F , emtpmces
1 − F (s) + F (r) = lı́m 1 − Fnk (s) + Fnk (r)
k→+∞
≤ lı́m sup 1 − Fn (Mε ) + Fn (−Mε ) ≤ ε
n→+∞

Deducimos que:
lı́m sup 1 − F (x) + F (−x) ≤ ε
x→+∞
y como ε es arbitrario. se deduce que F que se verifica (H.1).
Para probar el recíproco, supongamos que (Fn ) no es ajustada. Entonces hay un ε > 0
y una subsucesión Fnk tal que
1 − Fnk (k) + Fnk (−k) ≥ ε
Utilizando el principio de selección de Helly (y pasando a una subsucesión) podemos su-
poner que Fnk (x) → F (x) en los puntos de continuidad de F (donde F es continua por la
derecha). Sean r < 0 < s puntos de continuidad de F , entonces
1 − F (s) + F (r) = lı́m 1 − Fnk (s) + Fnk (r) ≥ lı́m inf 1 − Fnk (k) + Fnk (−k) ≥ ε
k→+∞ k→+∞

Haciendo que s → +∞ y que r → +∞ deducimos que


1 − F (+∞) + F (−∞) ≥ ε
Luego F no puede ser una función de distribución. 

H.2. Una versión más general del Teorema de Continuidad


de Paul Levy
Teorema H.2.1 Sea (Fn )n∈N una sucesión de distribuciones de probabilidad, y sean
Z ∞
ϕn (t) = eitx dFn (x)
−∞

las correspondientes funciones características. Entonces


Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 310

i) Si Fn converge débilmente a una distribución F , entonces

ϕn (t) → ϕ(t) ∀ t ∈ R

donde ϕ es la función característica de F .

ii) Recíprocamente, si
ϕn (t) → ϕ(t) ∀t ∈ R
donde ϕ(t) es una función continua en t = 0, entonces existe una distribución de
probabilidad F tal que Fn converge débilmente a F .

Prueba: La afirmación i) es una consecuencia del corolario 9.2.3 aplicado a ϕ(t) = eitx .
Para probar la afirmación recíproca ii), vamos a mostrar que la sucesión de funciones
de distribución (Fn )n∈N es ajustada. Esto será una consecuencia de la continuidad de ϕ(t)
en t = 0
Si x ∈ R y δ > 0 entonces

sen(δx) 1 δ
  Z
1≤2 1− = (1 − cos(tx) dt si |δx| > 2
δx δ −δ
Podemos consider variables aleatorias Xn con distribución Fn , tomar x = Xn y tomar
esperanzas para obtener

1 δ
Z
P {|δXn | > 2} ≤ E[1 − cos(tXn )] dt
δ −δ
1 δ
Z
= Re[E(1 − exp(itXn )] dt
δ −δ
1 δ
Z
= Re[(1 − E[exp(itXn )]] dt
δ −δ
1 δ
Z
= Re[1 − ϕn (t)] dt
δ −δ

Como
|Re[1 − ϕn (t)]| ≤ |1 − ϕn (t)]| ≤ +|ϕn (t)| ≤ 2,
por el teorema de convergencia mayorada vemos que

1 δ
Z
P {|δXn | > 2} → Re[1 − ϕ(t)] dt
δ −δ

Entonces, dado ε > 0, por la continuidad de ϕ(t) en t = 0, podemos encontrar un δ > 0


tal que
|1 − ϕ(t)| < ε si |t| < δ
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 311

y por lo tanto
Z δ
1
P {|δXn | > 2} → |1 − ϕ(t)| dt ≤ 2ε
δ −δ

Esto implica que la sucesión de funciones de distribución Fn es ajustada.


Continuemos entonces la demostración de la afirmación ii). Como Fn es ajustada, por el
teorema de Prokhorov H.1.3, existen una subsucesión (Fnk ) y una función de distribución F
tales que Fnk (x) → F (x) si x ∈ C(F ) donde C(F ) es el conjunto de puntos de continuidad
de F . Entonces por la primera parte del teorema ϕn (t) → ϕF (t), y por la unicidad de la
función característica, deducimos que ϕF = ϕ. Además esto implica que la sucesión (Fn )
tiene un único punto de acumulación F para la convergencia en distribución (es decir: no
puede haber dos subsucesiones de Fn que converjan a distribuciones distintas).
Este último hecho implica que Fn (x) → F (x) para todo x ∈ C(F ). En efecto, si
suponemos que no vale para alún x0 ∈ C(F ), existirían un ε > 0 y una subsucesión (Fnk )
de (Fn ) (no necesariamente la misma que consideramos antes), tales que

|Fnk (x0 ) − F (x0 )| > ε (H.2)

Como (Fn ) es ajustada, (Fnk ) también lo es. Luego, de nuevo por el teorema de Prokhorov,
existe una subsucesión (Fnkj ) de Fn tal que Fn converge en distribución a alguna distri-
bución de probabilidades, que por lo que dijimos antes tiene que ser necesariamente F .
Entonces Fnkj (x0 ) → F (x0 ), y esto contradice (H.2).Este absurdo provino de suponer que
Fn (x0 ) 6→ F (x0 ), por lo que Fnk (x0 ) → F (x0 ). Esto vale para todo x0 ∈ C(F ).

Bibliografía

Referencias Básicas del curso


[Álv15] Miguel Ángel García Álvarez. Introducción a la teoría de la probabilidad I - Primer
Curso). Fondo de Cultura Económica, 2015.

[Ash08] Robert B Ash. Basic probability theory. Courier Corporation, 2008. URL: http:
//www.math.uiuc.edu/~r-ash/BPT.html.

[Fel57] William Feller. An introduction to probability theory and its applications. 1957.

[Jam02] Barry R James. Probabilidade: Um Curso em Nível Intermediário, 2a. edição.


2002.

[Ren78] Alfred Renyi. Teoría de Probabilidades. Reverté, 1978.

[Roz73] Yu. Rozanov. Procesos Aleatorios. Editorial Mir, 1973.

[San55] Luis A. Santaló. La Probabilidad y sus aplicaciones. Ed. lberoamerieana, Buenos


Aires., 1955.

[Yoh] Victor Yohai. Notas del curso Probabilidades y Estadística. URL: http://mate.
dm.uba.ar/~vyohai/Notas%20de%20Probabilidades.pdf.

Combinatoria y Probabilidad Elemental


[Wil04] Miguel R Wilhelmi. Combinatoria y probabilidad. Grupo de Investigación en
Educación Estadística, Universidad de Granada, 2004.

Referencias Básicas sobre estadística


[Ash07] Robert B Ash. Lectures on Statistics. 2007. URL: http://www.math.uiuc.edu/
~r-ash/Stat.html.

312
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 313

[Jam19] Sreenivasa Rao Jammalamadaka. Essential Statistics with Python and R. Uni-
versity of California, Santa Barbara., 2019. URL: https://escholarship.org/
uc/item/03w0n5g3.
[Moo69] F. Mood, A. Graybill. Introducción a la Teoría de la Estadística. Aguilar, editor,
1969.

Libros avanzados sobre probabilidad:


Nota: Se recomiendan estos libros para quienes hayan cursado análisis real y quieran
profundizar en estos temas.
[Álv15] Miguel Ángel García Álvarez. Introducción a la teoría de la probabilidad II- Se-
gundo Curso. Fondo de Cultura Económica, 2015.
[Bil79] Patrick Billingsley. Probability and Measure. John Willey &Sons, 1979.
[Dur19] Rick Durrett. Probability: theory and examples, volume 49. Cambridge university
press, 2019.

Artículos Originales Citados


[Ber41] Andrew C Berry. The accuracy of the gaussian approximation to the sum
of independent variates. Transactions of the american mathematical society,
49(1):122–136, 1941.
[CG42] Esseen Carl-Gustav. On the liapunoff limit of error in the theory of probability.
Arkiv for matematik, astronomi och fysik, A: 1–19, 1942.
[Chi22] Calvin Wooyoung Chin. A short and elementary proof of the central limit theorem
by individual swapping. The American Mathematical Monthly, 129(4):374–380,
2022.
[Eis17] Bennett Eisenberg. A very short proof that the sum of independent normal random
variables is normal. The College Mathematics Journal, 48(2):137, 2017.
[Ete81] Nasrollah Etemadi. An elementary proof of the strong law of large numbers.
Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete, 55(1):119–122,
1981.
[GP97] Henryk Gzyl and Jose Luis Palacios. The weierstrass approximation theorem and
large deviations. The American mathematical monthly, 104(7):650–653, 1997.
[Tro59] HF Trotter. An elementary proof of the central limit theorem. Archiv der Mathe-
matik, 10(1):226–234, 1959.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 314

Referencias de Interés Histórico


[Ber12] Sergei Bernstein. Démonstration du théoreme de weierstrass fondée sur le calcul
des probabilities. Comm. Soc. Math. Kharkov, 13:1–2, 1912.

[Bor09] M Émile Borel. Les probabilités dénombrables et leurs applications arithméti-


ques. Rendiconti del Circolo Matematico di Palermo (1884-1940), 27(1):247–271,
1909.

[Fra17] P Francesco. Cantelli. sulla probabilità come limite della frequenza. Rom. Acc.
L. Rend.(5), 26(1):39–45, 1917.

[McD05a] D. McDonald. The local limit theorem: A historical perspective. Journal of the
Iranian Statistical Society, 4:73–86, 2005.

[McD05b] DR McDonald. The local limit theorem: a historical perspective. 2005.

Libros de Análisis Real


[Duo03] Javier Duoandikoetxea. Lecciones sobre las series y transformadas de fou-
rier. 2003. URL: http://www.ugr.es/acanada/docencia/matematicas/
analisisdefourier/Duoandikoetxeafourier.pdf.

[FC09] Adan J Corcho Fernandez and Marcos Petrucio de A Cavalcante. Introducao a ana-
lise harmonica e aplicacoes. IMPA, 2009. URL: https://impa.br/wp-content/
uploads/2017/04/27CBM_11.pdf.

[FK75] AN Kolmogorov-SV Fomín and AN Kolmogorov. Elementos de la teoría de fun-


ciones y del análisis funcional. Editorial Mir. Moscú, 1975.

[HN01] John K. Hunter and Bruno Nachtergaele. Applied analysis. World Scientific Pu-
blishing Company, 2001.

[WZ77] Richard Lee Wheeden and Antoni Zygmund. Measure and integral, volume 26.
Dekker New York, 1977.

Otra bibliografía consultada para la elaboración de estas notas


[CJ82] Richard Courant and Fritz John. Introducción al cálculo y al análisis matemático:
Vol. i. 1982.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 315

Referencias relacionadas con paseos al azar y ecuaciones di-


ferenciales
[Law10] Gregory F Lawler. Random walk and the heat equation, volume 55. American
Mathematical Soc., 2010.

[LL10] Gregory F Lawler and Vlada Limic. Random walk: a modern introduction, volume
123. Cambridge University Press, 2010.

[Ros] Julio D Rossi. Tug-of-war games and pdes. course in maxwell centre for analysis
and nonlinear pdes. edimburg. scotland. may 2010. URL: http://mate.dm.uba.
ar/~jrossi/ToWandPDEs(2).pdf.

Otros artículos sobre temas mencioandos en estas notas


[BF02] Verónica Becher and Santiago Figueira. An example of a computable absolutely
normal number. Theoretical Computer Science, 270(1-2):947–958, 2002.

[GS07] Andrew Granville and Kannan Soundararajan. Sieving and the erdős–kac theorem.
In Equidistribution in number theory, an introduction, pages 15–27. Springer, 2007.
URL: http://arxiv.org/abs/math/0606039.

[Sie17] Waclaw Sierpinski. Démonstration élémentaire du théorème de M. Borel sur les


nombres absolument normaux et détermination effective d’une tel nombre. Bulletin
de la Société Mathématique de France, 45:125–132, 1917.

Aplicaciones y Ejemplos de Datos Reales


[Ige20] Oluwatobiloba Ige. Markov Chain epidemic models and parameter estimation.
PhD thesis, Phd. Thesis- Marshall University, 2020.

[KGS13] P Ravi Kumar, Alex KL Goh, and Ashutosh Kumar Singh. Application of
markov chain in the pagerank algorithm. Pertanika Journal of Science and
Technology, 21:541–554, 2013.

[LJ20] G Lakshmi and M Jyothi. Application of markov process for prediction of stock
market performance. International Journal of Recent Technology and Enginee-
ring, 8(6):1516–1519, 2020.

[LLLT04] Sanboh Lee, HY Lee, IF Lee, and CY Tseng. Ink diffusion in water. European
journal of physics, 25(2):331, 2004.
Notas de Probabilidad y Estadística - ©2006-2023 Pablo L. De Nápoli 316

[MRR13] Cameron Appel Max Roser and Hannah Ritchie. Human height. Our World in
Data, 2013. URL: https://ourworldindata.org/human-height.
Índice alfabético

convergencia en distribución, 174

desigualdad de Chebyshev, 51
desigualdad de Markov, 51
distribucion-multinomial, 75
distribuciones beta, 106
distribuciones gama, 103
distribuciones marginales, 118
distribución binomial negativa, 73
distribución de Poisson, 58
distribución geométrica, 73
distribución normal, 81
distribución normal multivariada, 145
distribución uniforme, 80

esperanza, 38

independencia, 44
de variables aleatorias continuas, 123

lema de Borel-Cantelli, 163

momentos, 47

varianza, 49

317

También podría gustarte