Bello Proba - Probabilidad Clases Rev06

Preliminar - Clases Probabilidad - 2o C 2017
Ing. Ignacio Bello

rev06 - septiembre 2017
Índice
1. Repaso mı́nimo 5
1.1. Fórmulas para tener a mano . . . . . . . . . . . . . . . . . . . . . 5
1.2. Integrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Consideraciones previas 5
2.1. *Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Sobre los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4. Ejemplos disparadores . . . . . . . . . . . . . . . . . . . . . . . . 7
3. Grundbegriffe 8
3.1. Espacio de probabilidad - Axiomas K . . . . . . . . . . . . . . . . 8
3.2. Relación axiomas K - frecuencia relativa . . . . . . . . . . . . . . 9
3.3. *Interludio: álgebra de eventos . . . . . . . . . . . . . . . . . . . 9
3.4. Corolarios, teoremas, propiedades... . . . . . . . . . . . . . . . . . 11
3.5. Espacios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5.1. Espacios discretos (finitos o numerables) . . . . . . . . . . 12
3.5.2. Equiprobabilidad - Fórmula de Laplace . . . . . . . . . . 13
3.5.3. Espacios numerables . . . . . . . . . . . . . . . . . . . . . 14
3.6. Introducción a espacios continuos . . . . . . . . . . . . . . . . . . 15
4. Independencia y probabilidad condicional 16

4.1. Independencia estocástica . . . . . . . . . . . . . . . . . . . . . . 16
4.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . 17
4.3. Probabilidad total, Bayes . . . . . . . . . . . . . . . . . . . . . . 19
4.4. Independencia condicional . . . . . . . . . . . . . . . . . . . . . . 20
5. Bonustrack: Análisis combinatorio 20

5.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2. Mecánica estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.2.1. Estadı́stica de Maxwell-Boltzmann . . . . . . . . . . . . . 21
5.2.2. Estadı́stica de Bose-Einstein . . . . . . . . . . . . . . . . . 22
5.2.3. *Estadı́stica de Fermi-Dirac . . . . . . . . . . . . . . . . . 22
5.2.4. Modelo equivalente: Maxwell-Boltzmann . . . . . . . . . . 22
5.2.5. Modelo equivalente: Bose-Einstein . . . . . . . . . . . . . 22
5.2.6. Comparación . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1
6. Variables aleatorias (unidimensionales) 25
6.1. Definición y clasificación de V.A. . . . . . . . . . . . . . . . . . . 25
6.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.3. V.A. truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7. Simulación, análisis de datos 29

7.1. Definiciones y teoremas . . . . . . . . . . . . . . . . . . . . . . . 29
7.2. *Números aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . 30
7.3. Simulación de VA discretas . . . . . . . . . . . . . . . . . . . . . 30
7.4. Simulación de VA continuas y mixtas . . . . . . . . . . . . . . . . 33
7.5. Funciones para análisis de datos . . . . . . . . . . . . . . . . . . 33
8. Variables aleatorias n-dimensionales 34

8.1. Definiciones, distribución conjunta . . . . . . . . . . . . . . . . . 34
8.2. Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
8.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
9. Momentos 38
9.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
9.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.3. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.4. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9.5. Desigualdades, Ley débil de grandes números . . . . . . . . . . . 41
10.Transformaciones de V.A. 42
10.1. Definiciones y aclaraciones previas . . . . . . . . . . . . . . . . . 42
10.2. Teoremas para transformaciones de V.A. . . . . . . . . . . . . . . 43
11.Condicionales 45
11.1. Variables condicionales . . . . . . . . . . . . . . . . . . . . . . . . 45
11.2. Modelos discreto continuos . . . . . . . . . . . . . . . . . . . . . 47
11.3. Momentos y función de regresión . . . . . . . . . . . . . . . . . . 48
12.Esperanza condicional 49
12.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
12.2. Iterpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . 51
12.3. Ejemplos varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
13.Proceso Bernoulli 54
13.1. Procesos y proceso Bernoulli . . . . . . . . . . . . . . . . . . . . 54
13.2. Distribuciones asociadas . . . . . . . . . . . . . . . . . . . . . . . 55
13.3. Proceso Bernoulli generalizado . . . . . . . . . . . . . . . . . . . 56
13.4. Miscelánea tóxica . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
14.Proceso de Poisson 61
14.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . 61
14.2. Proceso puntual de Poisson . . . . . . . . . . . . . . . . . . . . . 62
14.3. Pérdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . 64
14.4. Más propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2
15.Variable normal y TCL 69
15.1. La variable normal univariada . . . . . . . . . . . . . . . . . . . . 69
15.2. Teoremas lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
15.3. La variable normal bivariada . . . . . . . . . . . . . . . . . . . . 71
3
Burocracia y otras hierbas
Nota aclaratoria
Estas notas se escribieron para uso personal, como ayuda para dar la clase,
y están en continua evolución. Le faltan gráficos, ejemplos, y una profunda
revisión. Se sugiere leerlas con cuidado, si no asistió a la clase compararlas con
las notas tomadas por algún compañero o compañera, y completarlas con lo
dado en el pizarrón.
No tienen intención de reemplazar la clase ni mucho menos un buen libro
(como los que se sugieren en la bibliografı́a), el objetivo es simplemente ahorrarle
al que lo considere conveniente la toma de apuntes; y facilitarle un poco la
cursada a aquellos con problemas para asistir.
Asistencia
Se tomará lista todas las clases (por orden del departamento), diremos que
se exigirá 75 % de asistencia para mantener la regularidad. El que sabe que
no va a cumplir avise. Vamos a usar la asistencia a modo de estadı́stica y
control temprano de abandono.
Los condicionales y cambios de curso deben avisar en el curso al que van
a asistir para que se los incorpore.
Evaluación
Se toma un parcial de 5 ejercicios, con 3 bien se aprueba. El parcial tiene 2
instancias de recuperación. Se agregan las fechas diferidas que hagan falta
para quienes presenten certificado de examen o enfermedad.
Se tomará un trabajo práctico. La consigna se dará en la 5ta o 6ta semana
y se entregará pasado el primer parcial. La idea es que lo hagan antes del
parcial, pero que si no llegan no quite tiempo de estudio. El TP incluye
una simulación y gráficos de función histograma y función de distribución
empı́rica. Se dará alguna ayuda para los que les cueste programar.
4
1. Repaso mı́nimo
1.1. Fórmulas para tener a mano
Sumatoria y serie Geométrica:
n ∞ ∞
X 1 − rn+1 X 1 X rk
ri = ri = ri = |r| < 1
i0
1−r i=0
1−r 1−r
i=k
Número e: n ∞
1 X 1
e = lı́m 1+ =
n→∞ n i=0
i!
Series para funciones exponencial e hiperbólicas:

∞ ∞ ∞
x
X xi X x2i X x2i+1
e = cosh(x) = sinh(x) =
i=0
i! i=0
(2i)! i=0
(2i + 1)!
Fórmula de Stirling:
√ n n
n! ∼ 2πn
e
1.2. Integrales
Repasar integrales de lı́nea en R2 y esas cosas (sobre todo los más viejos).
2. Consideraciones previas
2.1. *Antecedentes históricos
Armar lı́nea de tiempo central con los probabilistas, en paralelo rigor y teorı́a
de medida, unirlas en Kolmogorov.
Fuentes: Grimmet, Jacovkis, biografı́as de Wikipedia
300 A.C. Euclides, Elementos

250 A.C. Arquı́medes, El método de los teoremas mecánicos
1550 (pero publicado en 1663) Gerolamo Cardano (Ita) (el de ecuación cúbica),
Liber de ludo aleae (sobre los juegos de azar)
1654 Blaise Pacal (Fra) y Pierre de Fermat (Fra) discuten por carta el problema
de los puntos, luego en 1657 Huygens (Hol) publica De ratiociniis in ludo
aleae (Razonamientos en los juegos de azar). Introducen el concepto de
valor esperado
1713 de Jacob Bernoulli (Sui) (el que descubrió e, muerto en 1705) publican (un
sobrino) Ars conjectandi (Arte de la conjetura). Fruto de leer Huygens y
discutir con Leibniz (Ale) y con su hermano Johann, incluye el Teorema
de Bernoulli: la primera ley de los grandes números
5
1718 Abraham de Moivre (Fra) publica The Doctrine of Chances: a method
of calculating the probabilities of events in play. En la reedición de 1756
aparece la primera versión del TCL.
1812 Pierre-Simon Laplace (Fra) publica Théorie analytique des probabilités

prueba también el TCL
18xx Por los mismos años: Leonhard Euler (Ale), Carl Friedrich Gauss (Ale),
Joseph-Louis de Lagrange (Ita), Adrien-Marie Legendre (Fra), Siméon De-
nis Poisson (Fra)
1919 Richard von Mises (Aus-Hun) introduce el espacio muestral y define la
probabilidad como la frecuencia relativa.
18xx Rigor matemático Durante el s.XIX comienza a formalizarse con rigor
la matemática, comenzando por los trabajos de euclides. Augustin-Louis
Cauchy (Fra), Bernhard Riemann (Ale), Karl Weierstrass (Ale) (no tuvo
tı́tulo universitario)
19xx Teorı́a de medida A principios del s.XX la desarrollan Émile Borel (Fra),
Henri Lebesgue (Fra), Johann Radon (Aus), Maurice René Fréchet (Fra)
1933 Andrey Kolmogorov (Rus), Grundbegriffe der Wahrscheinlichkeitsrech-

nung
2.2. Bibliografı́a
Se recomienda intentar seguir las clases con los apuntes, vamos a dar todo
lo necesario para tener una buena base teórica y poder hacer los ejercicios.
Si hace falta, consultar los contenidos con los Borradores de Grynberg o el
Maronna. El Maronna es más conciso, es un libro publicado (menos errores),
pero en algunos temas no presenta todo lo que damos en el curso y en algunas
cosas puntuales usa otra notación. Los borradores son borradores, pero tienen
la ventaja de cubrir todos los temas del curso y casi en el mismo orden y estilo
que seguirán las clases. Hay veces que se extiende, pero si algo no se dio en clase
se puede saltear y listo.
Los dos textos mencionados y el Grinstead-Snell son de distribución libre y
gratuita.
Para el curso
Ambos textos son de distribución libre y gratuita.
Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], 2013

Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995
Otros
El de Snell-Grinstead es de distribución libre y gratuita. El de Jacovkis lo
publica Eudeba, es barato. Los de Feller creo que están agotados.
6
(El clásico t.I): Feller, W. An Introduction to Probability Theory and Its
Applications, Vol. I 2da ed. New York: John Wiley & Sons, 1957.
(El clásico t.II): Feller, W. An Introduction to Probability Theory and

Its Applications, Vol. II 2da ed. New York: John Wiley & Sons, 1971.
(Muy interesante, lleno de simulaciones y gráficos): Grinstead,
C., Snell, J. Grinstead and Snell’s Introduction to Probability. 1ra. ed.
[digital]:[digital] 2006.
(Para profundizar): Grimmet, G., Stirzaker, D. Probability and Random

Processes. 3ra. ed. Gran Bretaña: Oxford University Press, 2001.
(Para formalizar duro): Billingsley, P. Probability and Measure. 3ra.
ed. Estados Unidos: John Wiley & Sons, 1995.
(De difusión): Jacovkis, P. Azar, Ciencia y Sociedad. 1ra. ed. Buenos

Aires: Eudeba, 2012
2.3. Sobre los ejercicios

Leer atentamente los enunciados
Traducir con cuidado del lenguaje coloquial al formal

Siempre tener la teorı́a a mano. Al usar un teorema revisar las hipótesis
para ver si corresponde la aplicación
Tratar de hacer toda la guı́a en orden, rehacer los dados en clase. Si no
hay tiempo o le resulta fácil hacer sólo los STOP. Si hizo toda la guı́a use
exámenes viejos.
2.4. Ejemplos disparadores

Dar ejemplos de experimentos (moneda una vez, moneda hasta primera cara,
el [0, 1)). Concepto de experimento conceptual (Feller), espacio muestral Ω y de
“evento elemental” ω. Idea de probabilidad como medida o peso relativo P (ωi ),
necesidad de σ-álgebra para definir P : A → R.
7
3. Grundbegriffe
3.1. Espacio de probabilidad - Axiomas K
Definición 3.1 (Espacio muestral). Llamaremos espacio muestral a un con-
junto no vacı́o Ω. A sus elementos ω ∈ Ω los llamaremos eventos elementales.
NOTA: algunos autores llaman al espacio muestra S (por sample space). Kol-
mogorov lo llamó E en sus Fundaciones.
Definición 3.2 (Álgebra, Sigma-álgebra). Una familia A de subconjuntos de
Ω es un álgebra si contiene a Ω y es cerrada por complementos y por uniones
finitas. Formalmente, debe cumplir:
(a) Ω ∈ A
(b) A ∈ A ⇒ Ac ∈ A
(c) A, B ∈ A ⇒ A ∪ B ∈ A
Propiedad : las álgebras ası́ definidas son también cerradas por intersecciones,
A, B ∈ A ⇒ A ∩ B ∈ A
Si además la familia de subconjuntos es cerrada para toda unión numerable
de conjuntos disjuntos dos a dos, diremos que es una sigma álgebra
S∞
(d) Ai ∈ A i ≥ 1, Ai ∩ Aj = ∅ ∀i 6= j ⇒ n=1 An ∈ A
Propiedad : las sigma-álgebras ası́ definidas son también cerradas por uniones
(no necesariamente disjuntas) y por intersecciones:
S∞
Ai ∈ A i ≥ 1, ⇒ n=1 An ∈ A
T∞
Ai ∈ A i ≥ 1, ⇒ n=1 An ∈ A
A los subconjuntos A ∈ A los llamaremos eventos aleatorios.

Ejemplo 3.3 (Álgebras). Algunos ejemplos sencillos
El álgebra trivial para todo Ω es A = {∅, Ω}

Si agregamos un evento A: A = {∅, A, Ac , Ω}
y agregamos otro evento B: A = {∅, A, Ac , B, B c , A ∪ B, A ∪ B c , Ac ∪
B, Ac ∪ B c , (A ∪ B)c , (A ∪ B c )c , (Ac ∪ B)c , (Ac ∪ B c )c , Ω} –revisar–
Si modelamos el lanzamiento de un dado y tomamos como eventos elemen-
tales a los seis posibles resultados, |Ω| = 6, la mayor álgebra que podemos
armar contendrá al vacı́o (1), a los eventos elementales (6), a todos los pa-
res posibles (15), a todas la ternas (20), las cuaternas (15), los quintetos
(6) y el mismo ómega (1): en total 64 subconjuntos.
Convención 3.4 (Álgebra, Sigma-álgebra –sin azúcar–). En el curso usaremos

cuando no se aclare en el ejercicio como σ-álgebra A a todos los subconjuntos
que existan de Ω. A, con sus uniones e intersecciones (finitas o numerables) y sus
complementos; incluyendo al subconjunto vacı́o ∅ y a Ω. Usaremos la notación
2Ω y el nombre partes de Omega para referirnos a esa σ-álgebra.
8
Definición 3.5 (Medida de probabilidad). Una medida de probabilidad P sobre
(Ω, A) es una función P : A → R que satisface los siguientes axiomas:
(III) Para cada A ∈ A, P (A) ≥ 0

(IV) P (Ω) = 1
(V) Aditividad. Si los eventos A y B no tienen elementos en común (son dis-
juntos), entonces P (A ∪ B) = P (A) + P (B)
(VI) Continuidad. Para cada sucesión decreciente de eventos
A1 ⊃ A2 ⊃ · · · ⊃ Ai ⊃ · · ·
tal que al intersectar todos

∞
\
Ai = ∅
i=1
vale que
lı́m P (An ) = 0
n→∞
Definición 3.6 (Espacio de probabilidad). Un espacio de probabilidad es una

terna (Ω, A, P ) formada por un conjunto no vacı́o Ω llamado espacio muestral,
una σ-álgebra A de subconjuntos de Ω a los que llamamos eventos aleatorios, y
una medida P que satisface los axiomas III a VI.
NOTA: Kolmogorov publica en sus Grundbegriffe 5 axiomas, los primeros

2 definen la sigma-álgebra F sobre el espacio muestral E, y los 3 axiomas si-
guientes son los que enunciamos III a V. Luego en el segundo capı́tulo de la
publicación extiende la teorı́a a espacios infinitos con el axioma de continuidad
(VI).
3.2. Relación axiomas K - frecuencia relativa

Los axiomas III a V atrapan el concepto de frecuencia relativa. Notar que
si se realizan una cantidad fija n experimentos, se llama N (A) a la cantidad de
observaciones del evento A, y se define P (A) := N (A)/n, entonces P cumple
los primeros tres axiomas.
En sus Fundaciones, K. dedica un par de páginas a deducir empı́ricamen-
te los axiomas. Una traducción al castellano se encuentra en [1], Espacios de
Probabilidad, sección 1.2.
Si la cantidad de eventos elementales ω ∈ Ω es finita, el 4to axioma no es
necesario (se demuestra a partir de los primeros). El 4to axioma es esencial para
espacios muestrales infinitos.
3.3. *Interludio: álgebra de eventos

En clase sólo se mencionarán las leyes de De Morgan, el resto se supone que
los alumnos no saben, por si acaso se sube al campus un hojita con todas las
definiciones y teoremas.
Los eventos aleatorios A ∈ A son subconjuntos de Ω, vale el álgebra de
subconjuntos. Sean A, B, C, Ai ⊂ Ω eventos.
9
Definición 3.7 (Definiciones varias). Se definen:
Unión: A ∪ B := {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}
Intersección: A ∩ B := {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}
Complemento: Ac = A := {ω ∈ Ω : ω ∈
/ A}
Disjuntos (n): Diremos Ai disjuntos si Ai ∩ Aj = ∅ ∀i 6= j
Disjuntos (2): Diremos A, B disjuntos si A ∩ B = ∅
Sustracción: A \ B := A ∩ B c = {ω ∈ Ω : ω ∈ A ∧ ω ∈
/ B}
[n]
Partición: Si Ai disjuntos y Ui=1 Ai = Ω diremos que {Ai }i=1...[n] es una
partición de Ω.
Teorema 3.8 (Propiedades varias). Demostraciones a cargo del lector. Recor-
dar que dos conjuntos son iguales si todo evento del primero está necesariamente
en el segundo y vice versa.
Conmutativa 1: A ∪ B = B ∪ A
Conmutativa 2: A ∩ B = B ∩ A
Asociativa 1: (A ∪ B) ∪ C = A ∪ (B ∪ C)
Asociativa 2: (A ∩ B) ∩ C = A ∩ (B ∩ C)
Distributiva 1: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Distributiva 2: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Identidad 1: A ∪ ∅ = A
Identidad 2: A ∩ Ω = A
Complemento 1: A ∪ Ac = Ω (unión disjunta)
Complemento 2: A ∩ Ac = ∅
Idempotencia 1: A ∪ A = A
Idempotencia 2: A ∩ A = A
Dominación 1: A ∪ Ω = Ω
Dominación 2: A ∩ ∅ = ∅
Absorción 1: A ∪ (A ∩ B) = A
Absorción 2: A ∩ (A ∪ B) = A
Inters. como diferencia: A ∩ B = A \ (A \ B)
De Morgan 1: (A ∪ B)c = Ac ∩ B c
De Morgan 2: (A ∩ B)c = Ac ∪ B c
Doble complemento: (Ac )c = A
10
Complemento Omega: Ωc = ∅
Complemento Vacı́o: ∅c = Ω
[n]
Evento en partes: Si {Ai } es una partición, B = ∪i=1 (B ∩ Ai ) (unión
disjunta)
Antisimetrı́a: A ⊂ B ∧ B ⊂ A ⇔ A = B
Unicidad: A ∪ B = Ω ∧ A ∩ B = ∅ ⇔ Ac = B
NOTA: Los diagramas de Venn vienen bien para ver las propiedades, pero
no son una demostración (ver Arquı́medes, El Método, preámbulo dirigido a
Eratóstenes).
NOTACIÓN: Se usa aquı́ y en el curso el sı́mbolo ⊂ como incluido o igual.
e.g. A ⊂ A es verdadero (y A ⊃ A es verdadero también).
3.4. Corolarios, teoremas, propiedades...

Teorema 3.9 (Catarata de teoremas: Teoremata). Se demuestra a partir de
los axiomas:
1. P (Ac ) = 1 − P (A)
2. P (∅) = 0 (aclaración 1: P (A) = 0 ; A = ∅; aclaración 2: P (A) = 0 ; “A

nunca ocurre”)
3. Aditividad: Si los eventos . , An son disjuntos dos a dos (Ai ∩Aj =
SnA1 , A2 , . . P n
∅ si i 6= j) entonces P ( i=1 Ai ) = i=1 P (Ai )
4. Si A ⊂ B entonces P (B) = P (A) + P (B \ A)
5. Unión (2): P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

6. Unión (3...): P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩
C) − P (C ∩ A) + P (A ∩ B ∩ C). Generalizar para más eventos (principio
de inclusión-exclusión).
T∞
7. Si A1 ⊃ A2 ⊃ · · · y A = n=1 An , entonces P (A) = lı́mn→∞ P (An )
S∞
8. Si A1 ⊂ A2 ⊂ · · · y A = n=1 An , entonces P (A) = lı́mn→∞ P (An )
9. σ-aditividad. Si los eventos
S∞ A1 , A2P, . . . son disjuntos dos a dos (Ai ∩Aj = ∅
∞
si i 6= j) entonces P ( i=1 Ai ) = i=1 P (Ai ). ALTA NOTA: El teorema
de σ-aditividad es intercambiable por el axioma IV.
Demostración (las que faltan a cargo del alumno)
1. 1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ) y pasar restando
2. El vacı́o es complemento de Ω, aplicar el anterior y listo
3. Alumnos: Por inducción extender el axioma V.
11
4. Como A ⊂ B se cumple
A = A ∩ (B ∪ B c ) = A ∩ B
Además
B = B ∩ (A ∪ Ac ) = B ∩ A ∪ B ∩ Ac = A ∪ B \ A
y la unión es disjunta. Aplicando el axioma de aditividad:
P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A)

5. Podemos expresar la unión de A y B como la unión disjunta:
A ∪ B = A ∪ (B \ (A ∩ B))
luego aplicando axiomas y el teorema anterior (notar que (A ∩ B) ⊂ B):
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

6. Alumnos: Por inducción del anterior.
7. Ver [1] Espacios de probabilidad Teorema 1.8
8. Ver [1] Espacios de probabilidad Teorema 1.8
S
9. Definimos la sucesión Rn := m>n Am , n ≥ T∞1. La sucesión es decreciente
(evidente por construcción R1 ⊃ R2 . . .) y n=1 Rn = ∅ (pues son disjun-
tos dos a dos), por lo que se puede aplicar el último axioma:
lı́m P (Rn ) = 0
n→∞
Dividimos la unión infinita en dos conjuntos disjuntos y aplicamos el teo-

rema de aditividad:
∞
! n
[ X
P Ai = P (Ai ) + P (Rn )
i=1 i=1
Tomando lı́mite n → ∞ se anula el segundo término y queda la serie.
3.5. Espacios discretos

3.5.1. Espacios discretos (finitos o numerables)
Cuando el espacio muestral tiene una cantidad de elementos finita (o nume-
rable), una forma sencilla de definir una medida de probabilidad es asignarle un
peso a los eventos elementales mediante la función de probabilidad puntual p,
tal que la probabilidad de cada elemento esté entre 0 y 1 y la suma cierre a 1,
esto es X
p : Ω → [0, 1], p(ω) = 1
ω∈Ω
Luego a cualquier evento A ∈ A se le asigna como probabilidad la suma de las
probabilidades puntuales de sus elementos
X
P (A) := p(ω)
ω∈A
12
Teorema 3.10 (Construcción de espacios de probabilidad discretos). Todos los
espacios de probabilidad discretos (finitos o numerables) los podemos construir
sobre una función de probabilidad puntual de la manera descripta anteriormente.
Demostración ParaPun lado es muy sencilla, basta con probar que que la
definición P (A) := ω∈A p(ω) cumple con los 4 axiomas. Para el otro lado
(justificar el Todos que encabeza el enunciado) no se dará demostración, creo
que la da Grynberg en sus materias de posgrado como un teorema de extensión.
Ejemplo 3.11 (Lanzamiento de una moneda). Lanzamos una moneda una vez,
llamamos A: salió cara, E: salió ceca, tenemos Ω = {A, B}, A = {∅, {A}, {E}, Ω}
(primera y última vez que escribimos toda la sigma-álgebra por extensión).
Como A y E son complementarios, podemos asignar
p(A) = p p(E) = 1 − p
Luego, sumando las probabilidades puntuales
P ({A}) = p P ({E}) = 1 − p P (∅) = 0 P (Ω) = 1
obtenemos la medida de probabilidad.

Ejemplo 3.12 (Lanzamiento de un dado cargado). Lanzamos un dado una vez,
llamamos ωi : salió el número i. Se define la función de probabilidad puntual
sobre los eventos elementales: p(ωi ) = i/21. Calcular:
(a) Probabilidad de obtener un as
(b) Probabilidad de que el resultado sea par
(c) Probabilidad de que el resultado sea mayor o igual a 5
Solución Nombremos los eventos, A: salió un as, B: el resultado es par, C: el
resultado es mayor o igual a 5. Tendremos
P (A) = P ({ω1 }) = 1/21
P (B) = P ({ω2 } ∪ {ω4 } ∪ {ω6 }) = 2/21 + 4/21 + 6/21 = 12/21

P (C) = P ({ω5 } ∪ {ω6 }) = 5/21 + 6/21 = 11/21
3.5.2. Equiprobabilidad - Fórmula de Laplace

Definición 3.13 (Fórmula de Laplace). Una forma muy sencilla de asignar la
función de probabilidad puntual en espacios finitos es usando el mismo valor
para todos los eventos elementales, esto es
p(ω) = 1/|Ω| ∀ω ∈ Ω
luego, la medida de probabilidad para un evento será
P (A) = |A|/|Ω| ∀A ∈ A
Esta forma de asignar probabilidades se conoce como eventos equiprobables,

fórmula de Laplace o distribución uniforme en espacio finito. Modela bien juegos
de azar, se aplica también a fı́sica de partı́culas (mecánica estadı́stica).
13
Ejemplo 3.14 (Lanzamiento de dos dados equilibrados). Se lanzan dos dados
y se registra el resultado en un vector Ω = {ω : ω = (i, j), i, j = 1 . . . 6} (anoto
primero el dado A y luego el dado B), se asigna a todos los resultados la misma
probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número
(c) La probabilidad de que la suma de los dados sea 7
Solución Completar el ejemplo.

Ejemplo 3.15 (Lanzamiento de dos dados extraños). Se lanzan dos dados y
se registra el resultado en un vector Ω = {ω : ω = (i, j), i ≤ j, i, j = 1 . . . 6}
(anoto siempre primero el menor resultado), se asigna a todos los resultados la
misma probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número
(c) La probabilidad de que la suma de los dados sea 7

Pregunta: si tuviera que modelar (digamos por dinero) el juego de lanzar dos
dados y apostarle a lo que suman, ¿qué modelo elige de los dos presentados?
¿por qué?
3.5.3. Espacios numerables

Ejemplo 3.16 (Lanzamientos de moneda hasta primera cara). Lanzaremos una
moneda hasta obtener la primera cara. Asignamos la probabilidad (1−p)n−1 p al
evento el experimento duró exactamente n lanzamientos, donde 0 < p < 1, n ≥ 1
(aceptemos que la asignación es correcta y define un espacio de probabilidad).
(a) ¿Cuál es la probabilidad de que el experimento dure una cantidad par de
lanzamientos?
(b) ¿Cuál es la probabilidad de que el experimento se prolongue infinitamente?
Solución: Llamando A a cara y E a ceca, podemos describir nuestro espacio
muestral como:
Ω = {A, EA, EEA, EEEA, EEEEA, . . .}
Ω = {ω : ω = E n−1 A, n ≥ 1}
A los eventos “An : el experimento duró exactamente n lanzamientos” los pode-
mos escribir An = E n−1 A, y por consigna P (An ) = (1 − p)n−1 p. Para simplici-
dad, q = 1 − p, calculemos:
∞ ∞ ∞ ∞
[ X X pX 2 i p q2 pq
P( A2i ) = P (A2i ) = q 2i−1 p = (q ) = 2
=
i=1 i=1 i=1
q i=1 q1−q 1 − q2
14
Ahora definamos Bi : el experimento duró más de i lanzamientos.
i
[ i
X i
X
P (Bi ) = 1 − P (Bic ) = 1 − P ( Aj ) = 1 − P (Aj ) = 1 − (1 − p)j−1 p
j=1 j=1 j=1
T∞
Definimos B: el experimento se prolonga infinitamente. Tenemos B = i=1 Bi ,
y además la sucesión es decreciente B1 ⊃ B2 ⊃ . . .. Entonces
∞
X
PB = lı́m P (Bi ) = 1 − (1 − p)j−1 p = 0
i→∞
j=1
3.6. Introducción a espacios continuos

Definición 3.17 (Números random –INFORMAL–). Sean Ω = [0, 1); la σ-
álgebra A serán todos los medibles en [0, 1), i.e. los intervalos [a, b) ⊂ Ω con sus
uniones, intersecciones y complementos (admitiendo bordes abiertos o cerrados).
Diremos que tomamos un número al azar en el intervalo (o número aleatorio
o número random o simplemente un random) si la probabilidad asignada a un
intervalo incluido en [0, 1) es su longitud, esto es P ([a, b)) = b − a para todo
0 ≤ a < b < 1, y la probabilidad de uniones de segmentos disjuntos se extiende
de acuerdo a los axiomas.
Para una construcción formal ver [?] Probabilidad condicional... subtı́tulo
4.1. A estos números se los llama números random o números uniformes sobre
el intervalo [0, 1).
Ejemplo 3.18. Tomamos un número uniforme, calcular:
(a) La probabilidad de que el número 9 sea la primera cifra decimal del número
(b) La probabilidad de que en las primeras n cifras decimales (después de la
coma) aparezca el 9 al menos una vez
(c) La probabilidad de que en todo el desarrollo decimal del número no aparezca
el 9
Definición 3.19 (Punto al azar en una región –INFORMAL–). Sean Λ ⊂ Rn

una región con área finita y positiva. Construimos el espacio de probabilidad
tomando como espacio muestral a la región Ω = Λ; la sigma-álgebra A serán
todos los subconjuntos medibles en Λ, y la probabilidad para un evento A ∈ A
será su área relativa, esto es P (A) = |A|/|Λ|
15
4. Independencia y probabilidad condicional
4.1. Independencia estocástica
Definición 4.1 (Independencia estocástica). Una familia de eventos {Ai : i ∈
I} se dice independiente si se cumple
!
\ Y
P Ai = P (Ai )
i∈J i∈J
para todos los subconjuntos finitos J ⊂ I (son 2n − n − 1 ecuaciones que se

deben verificar).
NOTA A una familia de eventos independiente habitualmente se la trata de
eventos independientes
Ejemplo 4.2 (Independencia de 2 eventos). Dos eventos A y B son indepen-

dientes sii P (A ∩ B) = P (A)P (B)
Ejemplo 4.3 (Independencia de 3 eventos). Tres eventos A, B y C son inde-
pendientes sii se cumplen:
P (A ∩ B) = P (A)P (B)
P (B ∩ C) = P (B)P (C)
P (C ∩ A) = P (C)P (A)
P (A ∩ B ∩ C) = P (A)P (B)P (C)
Ejemplo 4.4 (Independencia de 4 eventos). Cuatro eventos son independientes

sii: se factorizan las intersecciones de a 2 (6 ecuaciones), las intersecciones de a 3
(4 ecuaciones) y la intersección de los 4 (1 ecuación). En total se deben verificar
11 ecuaciones.
Ejemplo 4.5 (Este sı́ es un ejercicio). Sea Ω = {dbc, dcb, cdb, cbd, bcd, bdc, ddd, bbb, ccc},
los eventos son equiprobales (espacio de Laplace, vale que p(ω) = 1/9 y P (A) =
|A|/9). Sean los eventos Dk : la k-ésima letra es una d. Demostrar que la fami-
lia {D1 , D2 , D3 } no es independiente, aunque los eventos sı́ son independientes
tomados de a pares. (Ejercicio tomado de [5] ejemplo 1.5.2)
Teorema 4.6 (Independencia y complementos). Sea A una familia de eventos
{Ai : i ∈ I} independiente. Sea B una familia de eventos {Bi : i ∈ I, Bi =
Ai Y Bi = Aci ∀i ∈ I}, i.e. B se construye a partir de tomar los eventos de A y
complementar algunos de ellos (o ninguno o todos). Entonces B es una familia
independiente. (Ver [6], ej. 1.11.17)
Demostración. Tomemos C = {Acj (∪i∈I, i6=j Ai )}, i.e. la familia A tomando
S
complemento en uno solo de ellos. Para demostrar que C es independiente bas-
tará con verificar, de las 2n − n − 1 ecuaciones aquellas donde aparezca el evento
que cambiamos Acj . Notar que
\
(Aj ∪ Acj ) (∩i6=j,i∈K Ai ) = (∩i6=j,i∈K Ai ) ∀K ⊂ I
16
donde la unión Aj ∪ Acj es disjunta. Tomando probabilidades y distribuyendo
la intersección con la unión, aplicando el axioma de unión disjunta y pasando
términos llegamos a:
\ \
P Acj (∩i6=j,i∈K Ai ) = P (∩i6=j,i∈K Ai ) − P Aj (∩i6=j,i∈K Ai )
a la derecha del igual quedan intersecciones de elementos de A, que es indepen-

diente:
\ Y Y
P Acj (∩i6=j,i∈K Ai ) = P (Ai ) − P (Aj ) P (Ai )
i6=j,i∈K i6=j,i∈K
tomando factor común...

\ Y Y
P Acj (∩i6=j,i∈K Ai ) = (1 − P (Aj )) P (Ai ) = P (Acj ) P (Ai )
i6=j,i∈K i6=j,i∈K
como esto vale para todo K ⊂ I demostramos que C es una familia independien-
te. Si ahora tomamos como punto de partida a C, complementamos uno de sus
eventos y tenemos una nueva familia independiente, y ası́ complementando de a
uno cuantas veces sea necesario seguiremos obteniendo familias independientes
de eventos.
Ejemplo 4.7 (Independencia y complementos). Sean A, B ∈ A eventos, son

equivalentes:
A, B independientes
A, B c independientes
Ac , B independientes
Ac , B c independientes
Teorema 4.8 (Independencia de eventos *triviales*). Sea A ∈ A un evento tal
que P (A) = 0 o P (A) = 1, entonces {A, B} es independiente para todo evento
B ∈ A. Ver [5] ej. 1.8.7.
4.2. Probabilidad condicional

Definición 4.9 (Probabilidad condicional). Sea A ∈ A tal que P (A) > 0, se
define para cada B ∈ A:
P (B ∩ A)
P (B|A) :=
P (A)
El valor definido recién se llama probabilidad condicional de B dado A, o más

abreviado probabilidad de B dado A, o también probabilidad de B sabiendo A
Teorema 4.10 (La probabilidad condicional es una medida de probabilidad).
La función P (·|A) : A → R definida anteriormente es una medida de probabili-
dad sobre A y (Ω, A, P (·|A)) es un espacio de probabilidad.
Demostración. Verificar que P (·|A) cumple los 4 axiomas.
17
Ejemplo 4.11. Se lanza nuestro dado cargado y se observa que el resultado es
mayor o igual que 4, ¿cuál es la probabilidad de que sea par?
Solución Sean
A: el resultado es mayor o igual que 4, A = {4, 5, 6}
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido
P (B ∩ A) P ({4, 6}) (4 + 6)/21 2

P (B|A) = = = =
P (A) P ({4, 5, 6}) (4 + 5 + 6)/21 3
Ejemplo 4.12. Se lanza un dado equilibrado y se observa que el resultado es

mayor o igual que 4, ¿cuál es la probabilidad de que sea par?
Solución Sean
A: el resultado es mayor o igual que 4, A = {4, 5, 6}
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido
P (B ∩ A) P ({4, 6}) 2/6 2

P (B|A) = = = =
P (A) P ({4, 5, 6}) 3/6 3
NOTA El resultado es el mismo de casualidad... ¿o no?
Teorema 4.13 (Regla del producto). Suponiendo que todos los eventos condi-
cionales tienen probabilidad positiva, tenemos que:
n−1
P (∩ni=1 Ai ) = P (A1 )P (A2 |A1)P (A3 |A1 ∩A2 )P (A4 |A1 ∩A2 ∩A3 ) · · · P (An |∩i=1 Ai )
Ejemplo 4.14 (Uno de bolas). Una urna contiene r bolas rojas y n bolas negras
(con n ≥ 3), se extraen sin reposición 3 bolas, ¿cuál es la probabilidad de que
las 3 sean negras?
Solución Sea Ni : la bola i es negra, aplicando la regla del producto
n n−1 n−2
P (N1 ∩ N2 ∩ N3 ) = · · · = · ·
n+r n−1+r n−2+r
Ejemplo 4.15 (Uno de cartas). Jugando al truco ¿cuál es la probabilidad de
que me repartan primero el as de espadas, luego el 7 de espadas y por último
otra carta de espadas (en ese orden)?
Solución
1 1 8
P (A ∩ B ∩ C) = · · · = · ·
40 39 38
Teorema 4.16 (Condicional de condicional). Sea (Ω, A, P ) un espacio de pro-
babilidad y B ∈ A un evento con probabilidad positiva P (B) > 0. Se define
Q : A → R como P (A|B). Se probó ya que (Ω, A, Q) es un nuevo espacio de
probabilidad. Si C ∈ A es un evento con probabilidad-Q positiva Q(C) > 0, la
probabilidad-Q dado C cumple Q(A|C) = P (A|B ∩ C). Ver [5] ej. 1.8.9.
Demostración.
Q(A ∩ C) P (A ∩ C|B) P (A ∩ B ∩ C)/P (B)
Q(A|C) = = = = P (A|B ∩ C)
Q(C) P (A|B) P (B ∩ C)/P (B)
18
4.3. Probabilidad total, Bayes
Teorema 4.17 (Fórmula de probabilidad total). S Sean los eventos A1 , A2 , . . .
una partición de Ω, esto es Ai ∩ Aj = ∅ ∀i 6= j y i≥1 Ai = Ω. Para todo evento
B ∈ A se cumple: X
P (B) = P (B|Ai )P (Ai )
i≥1
Demostración. Ver [1], Probabilidad condicional...,

S subtı́tulo 1.2. El procedi-
miento es sencillo, escribir B = B ∩ Ω = B ∩ ( i≥1 Ai ), calcular la probabilidad
aplicando aditividad y reemplazar las intersecciones por condicionales
X X
P (B) = · · · = P (B ∩ Ai ) = P (B|Ai )P (Ai )
i≥1 i≥1
NOTA: Para aplicar el teorema necesitamos P (Ai ) ≥ 0. Sin embargo, pode-

mos generalizar el teorema sin perder validez si interpretamos P (B|Ai )P (Ai ) =
0 cuando P (Ai ) = 0.
NOTA: Una partición tı́pica es Ω = A ∪ Ac .
Teorema 4.18 (Regla de Bayes). . Sean
S los eventos A1 , A2 , . . . una partición
de Ω, esto es Ai ∩ Aj = ∅ ∀i 6= j y i≥1 Ai = Ω. Sea el evento B ∈ A con
probabilidad positiva, se cumple:
P (B|An )P (An ) P (B|An )P (An )

P (An |B) = =P
P (B) i≥1 P (B|Ai )P (Ai )
En su forma más sencilla:

P (B|A)P (A)
P (A|B) =
P (B)
Demostración. Inmediata, aplicar probabilidades totales y pasar términos. Ver

[1], Probabilidad condicional..., subtı́tulo 1.3.
Ejemplo 4.19 (Malintencionado). Los alumnos antes de presentarse al parcial
hacen completa la guı́a con probabilidad 0.4. Los alumnos que hicieron la guı́a
aprueban el parcial con probabilidad 0.9 y aquellos que no la hicieron lo hacen
con probabilidad 0.03. ¿Cuál es la probabilidad de que un alumno tomado al
azar apruebe el parcial? ¿Si un alumno tomado al azar no aprobó el parcial,
cuál es la probabilidad de que haya hecho la guı́a?
Solución Sean:
A : el alumno aprueba el parcial
G : el alumno hizo la guı́a
Datos: P (G) = 0.4, P (A|G) = 0.9, P (A|Gc ) = 0.03
Inmediato: P (Gc ) = 0.6, , P (Ac |G) = 0.1, P (Ac |Gc ) = 0.97
P (A) = P (A|G)P (G) + P (A|Gc )P (Gc ) = 0.9 · 0.4 + 0.03 · 0.6

P (Ac |G)P (G) 0.1 · 0.4
P (G|Ac ) = =
P (Ac ) 1 − P (A)
19
Ejemplo 4.20 (Falsos positivos). Una enfermedad afecta a 1/100000 personas.
Se tiene un test que diagnostica como positivo a los enfermos con probabilidad
0.99, pero también diagnostica como positivo a los sanos con probabilidad 0.02.
Toma una persona al azar, le hace el test y da positivo, ¿cuál es la probabilidad
de que esté enfermo?
Solución Sean D+ : diagnóstico positivo, E: enfermo, se tiene
P (D+ |E)P (E)
P (E|D+) = =
P (P (D+ |E)P (E) + P (D+ |E c )P (E c )
0.99 · 1/100000
= ' 0.005
0.99 · 1/100000 + 0.02 · 99999/100000
4.4. Independencia condicional

Definición 4.21 (Independencia condicional). Sea C ∈ A un evento tal que
P (C) > 0. A la probabilidad condicional P (·|C) le corresponde la idea de inde-
pendencia condicional, diremos A, B independientes condicionalmente dado C
sii:
P (A ∩ B|C) = P (A|C)P (B|C)
el concepto se extiende naturalmente a una familia de más eventos.
NOTA IMPORTANTE: En general, la independencia condicional dado C
de A y B no implica ni es implicada por la independencia de A y B (ver [5]
ejercicio 1.5.5)
5. Bonustrack: Análisis combinatorio

5.1. Generalidades
En espacios finitos con equiprobabilidad (Laplace) calcular la probabilidad
de un evento se reduce a saber contar, P (A) = |A|/|Ω| o coloquialmente “casos
favorables” / “casos posibles”. Este tipo de problemas es muy común en juegos
de azar, pero se aplicó también a áreas de la fı́sica como la “mecánica estadı́sti-
ca”. Aunque no sea estrictamente un tema de teorı́a de probabilidad, veremos
algunas técnicas para logar simplicity and economy of thought [3] a la hora de
contar la cantidad de elementos de un conjunto.
La mayorı́a de este capı́tulo lo encuentra con más detalle y más ejemplos en
[1], Espacios de Probabilidad, Elementos de Análisis Combinatorio capı́tulos 3
y 4. También en [3] capı́tulos II.5 y IV.2 hay muchı́simos teoremas y ejemplos
de mecánica estadı́stica (esta clase de problemas la llama occupancy problem)
que exceden el alcance del curso.
Teorema 5.1 (Regla del producto). Sean A1 , A2 , . . . An conjuntos finitos, el
producto cartesiano (cuyos elementos son vectores) de ellos tiene cardinal el
producto de cardinales: |A1 × A2 × · · · An | = |A1 | · |A2 | · · · |An |
Dem.: Hacer una tabla con los elementos (α, β) ∈ A1 × A2 , la cantidad de
elementos de la tabla es inmediatamente |A1 | · |A2 |. Luego seguir por inducción.
Teorema 5.2 (Muestras ordenadas). . Para una población de n elementos dis-
tintos (cifras, letras), y un tamaño de muestra r fijado, la cantidad de muestras
ordenadas (vectores, palabras) distintas que se pueden formar es:
20
nr si se toma la muestra con reposición
(n)r = n(n − 1) · · · (n − r + 1) = n!/(n − r)! si se toma la muestra sin
reposición
Teorema 5.3 (Ordenamientos completos). Para una población de n elementos
distintos (cifras, letras), la cantidad de ordenamientos distintos usando toda la
población es:
n(n − 1) · · · 2 · 1 = n!
(simplemente un caso particular del teorema anterior sin reposición, n! = (n)n ).
Teorema 5.4 (Subploblaciones o subconjuntos). De una población (conjunto)
de n elementos distintos se puede extraer nr = r!(n−r)!
n!

subpoblaciones (sub-
conjuntos) distintas (conjuntos no ordenados) de tamaño r ≤ n.
Teorema 5.5 (Particiones o anagramas). Sean r1 . . . rk enteros tales que r1 +
. . . + rk = n, ri ≥ 0. El número de formas en que una población de n elementos
(cifras, letras) se puede dividir en k partes ordenadas (particionarse en k sub-
poblaciones) tales que la primera contenga r1 elementos (cifras, letras iguales),
la segunda r2 , etc., es:
n!
r1 !r2 ! . . . rk !
Ejemplo 5.6. ¿Cuántas palabras se pueden formar con las letras a, a, a, a, b,
8!
b, b, c? Respuesta: 4!3!1! = 280
Ejemplo 5.7. ¿Cuántos anagramas de banana (incluyendo banana) puede for-
6! 7!
mar? ¿y de pomposo? Respuesta: 1!3!2! = 60 para banana; 2!3!1!1! = 420 para
pomposo.
5.2. Mecánica estadı́stica

Daremos dos formas de asignar probabilidades al problema de distribuir bo-
las en urnas (y nombraremos una tercera que escapa al contenido del curso).
Ambos modelos son matemáticamente correctos, y la elección de uno u otro
dependerá de la fı́sica del problema y la contrastación con resultados experi-
mentales. Debe quedar claro que cuando se habla de partı́culas distinguibles o
indistinguibles no nos importa si las partı́culas realmente son iguales (o si las
personas son o no gemelos, las aceitunas todas de igual forma y tamaño o no,
las bolas de billar del mismo o de distinto número, etc.) sino la mecánica con la
que se ubican en las urnas. En [3] capı́tulo II.5 se encuentra una nota indicando
en qué casos de la fı́sica de partı́culas se aplica cada modelo.
Aclaración: Se habla de estadı́stica en el sentido que le dan los fı́sicos, hace
referencia a la mecánica con que se distribuyen las bolas y no a la estadı́stica
que estudiaremos en el curso.
5.2.1. Estadı́stica de Maxwell-Boltzmann

Se distribuyen r bolas (partı́culas) en n urnas (celdas) numeradas. Se impone
la hipótesis: las bolas son distinguibles y todas las configuraciones distintas son
equiprobables. La forma más sencilla de modelar cada posible evento elemental
es escribiendo un vector: ω = (x1 , x2 . . . xr ), donde xi representa el número de
21
urna en la que se ubica la bola i. Como cada bola puede estar en cualquiera de
las n urnas, las configuraciones posibles son |Ω| = nr . La probabilidad de cada
evento elemental será P ({ω}) = 1/nr .
5.2.2. Estadı́stica de Bose-Einstein

Se distribuyen r bolas (partı́culas) en n urnas (celdas) numeradas. Se impone
la hipótesis: las bolas son indistinguibles y todas las configuraciones distintas son
equiprobables. La forma más sencilla de modelar cada posible evento elemental es
escribiendo una cadena binaria donde el 0 representa una bola y el 1 representa
un cambio de urna, por ejemplo ω = “0001001011001 . . . 10000 . Más mundano, si
tiramos 2 bolas en 3 urnas, y ambas bolas caen en la primera urna, escribimos
“001100 . La cadena queda formada por r dı́gitos 0 y n − 1 dı́gitos 1. Las confi-
guraciones posibles son todas las cadenas que podemos formar, |Ω| = r+n−1

r .
r+n−1

La probabilidad de cada evento elemental será P ({ω}) = 1/ r .
5.2.3. *Estadı́stica de Fermi-Dirac

–no se dará en el curso– Se distribuyen r bolas (partı́culas) en n urnas
(celdas) numeradas, r ≤ n. Se impone la hipótesis: las bolas son indistinguibles,
no puede haber más de una bola por urna, y todas las configuraciones distintas
n

son equiprobables. Las configuraciones posibles son |Ω| = r . La probabilidad
de cada evento elemental será P ({ω}) = 1/ nr .

5.2.4. Modelo equivalente: Maxwell-Boltzmann

Como siempre, se distribuyen r bolas (partı́culas) en n urnas (celdas) nume-
radas. Para el modelo de Maxwell-Boltzmann, la hipótesis las bolas son distin-
guibles y todas las configuraciones distintas son equiprobables es equivalente a
decir cada una de las r bolas elige al azar una de n urnas de forma independiente
al resto de las bolas. De forma abreviada, se suele decir se colocan r bolas al azar
en n urnas. Según [3], sección II.5, ninguna partı́cula conocida se distribuye en
el espacio de acuerdo a este modelo según la experiencia.
Aunque los fı́sicos no le encuentren aplicación en la mecánica estadı́stica,
nos sirve para modelar (con ciertas hipótesis de independencia): r personas que
se suben en PB a un ascensor y eligen al azar entre n pisos donde se bajan, r
personas a las que le impusieron al azar su fecha de cumpleaños entre n = 365
dı́as, r eventos fortuitos que eligen al azar entre los n = 7 dı́as de la semana
cuándo ocurrir (o entre los n = 12 meses del año), etc.
5.2.5. Modelo equivalente: Bose-Einstein

Como siempre, se distribuyen r bolas (partı́culas) en n urnas (celdas) nume-
radas. Para el modelo de Bose-Einstein, la hipótesis las bolas son indistinguibles
y todas las configuraciones distintas son equiprobables no se puede pensar de
forma sencilla desde el punto de vista de lo que cada bola individualmente hace,
porque no hay independencia entre ellas.
Podemos imaginar que en este modelo aparecen fuerzas de interacción entre
partı́culas cercanas, cuando llega una nueva bola a un sistema no le da lo mismo
elegir una urna vacı́a que una ya ocupada.
22
El ejemplo práctico para este modelo es el que nos dan los fı́sicos: partı́culas
de fotones, nuclei, y átomos que contienen una cantidad par de de partı́culas
elementales. Cualquier otro ejemplo que aparezca en la guı́a o evaluaciones será
forzado (para bajarnos del ascensor a la B-E hay que ponerse de acuerdo, para
meter gatos en cajas a la B-E no alcanza con que sea de noche), y debe in-
dicar el enunciado claramente que las cosas se distribuyen con un modelo de
indistinguibles y con todas las configuraciones distintas equiprobables.
5.2.6. Comparación
La siguiente tabla resume los modelos que usamos en el curso, se puede
extender también a Fermi-Dirac.
Modelo Maxwell-Boltzmann Bose-Einstein

Caracterización Partı́culas distinguibles, con- Partı́culas indistinguibles,
figuraciones equiprobables configuraciones equiproba-
bles
Ω {x : x ∈ {1 . . . n}r } {x
P : x ∈ {0, 1}
r+n−1
y
xi = n − 1}
Coloquialmente... Vectores de r coordenadas, Palabras formadas por r le-
cada una representa en qué tras 0 y n − 1 letras 1. Cada
urna se coloca la bola corres- 0 representa una bola, cada 1
pondiente representa
un cambio de urna
r+n−1
|Ω| nr r
Ej. ω, r = 4, n = 5 (1, 1, 3, 1) 00011011
Se aplica a Distribución al azar de r co- Fı́sica de ciertas r partı́culas
sas en n lugares, urnas, cate- distribuidas en n celdas del
gorı́as, etc. espacio
5.2.7. Aplicaciones
Ejemplo 5.8 (Cantidad de bolas en una urna especificada). (Ver [1] Espacios
de Probabilidad... cap. 4). Sea Ua,k : hay exactamente k bolas en la urna a (con
0 ≤ k ≤ r). Se tiene para los distintos modelos (se explicó en clase de dónde
salen las fórmulas):
k r−k
r 1 1
PM B (Ua,k ) = 1−
k n n
r−k+n−2

n−2
PBE (Ua,k ) = r+n−1

n−1
Si ahora queremos fijar la cantidad de partı́culas en más de una urna espe-
cificada (desarrollo propio, –revisar–):
k l r−k−l
r! 1 1 2
PM B (Ua,k ∩ Ub,l ) = 1−
k!l!(r − k − l)! n n n
k l m r−k−l−m
r! 1 1 1 3
PM B (Ua,k ∩Ub,l ∩Uc,m ) = 1−
k!l!m!(r − k − l − m)! n n n n
23
r−k−l+n−3

n−3
PBE (Ua,k ∩ Ub,l ) = r+n−1

n−1
r−k−l−m+n−4

n−4
PBE (Ua,k ∩ Ub,l ∩ Uc,m ) = r+n−1

n−1
Si hacemos que n y r tiendan a infinito pero manteniendo λ = r/n, podemos

aproximar:
λk
PM B (Ua,k ) → e−λ
k!
k
1 1
PBE (Ua,k ) → 1−
1+λ 1+λ
Ejemplo 5.9 (Problema de los cumpleaños). Si queremos saber la probabilidad,
en el modelo de M-B, de “C: ninguna urna tiene más de una bola”, lo calculamos:
(n)r
P (C) =
nr
Si las r bolas son personas y las urnas la fecha de nacimiento, elegida al azar
entre n = 365 (o n = 366) opciones, podemos calcular la probabilidad de que
en un grupo de r personas no haya dos que cumplan el mismo dı́a como:
(365)r
P (C) =
365r
Esta probabilidad ya es P (C) < 0.5 para n = 23, del orden de 0.03 para n =
50 y de 0.01 para n = 70. Moraleja: No le apueste a un docente malintencionado
que en un curso no hay dos personas con el mismo cumpleaños porque pierde
seguro.
El modelo es simplemente una aproximación, la hipótesis de elección al azar
no se cumple ya que la cantidad de dı́as en el año no es un número fijo, y la distri-
bución de nacimientos no es del todo uniforme (ver http://www.nytimes.com/
2006/12/19/business/20leonhardt-table.html?_r=2 y http://www.vizwiz.
com/2012/05/how-common-is-your-birthday-find-out.html), estadı́sticas en
estados unidos muestran que se intenta que la gente no nazca en festividades
como navidad y año nuevo, y que hay mayor proporción de concepciones en los
meses más frı́os.
Ejemplo 5.10 (Celdas vacı́as). Si queremos saber la probabilidad de “Vm :
exactamente m celdas quedan vacı́as” en el modelo de Maxwell-Boltzmann lo
calculamos (ver [3] sección IV.2 fórmulas 2.4 y 2.11):
n−m r
n X v n−m m+v
PM B (Vm ) = (−1) 1−
m v=0 v n
si λ = ne−r/n , se puede aproximar cuando n y r son grandes y con una relación

r/n ni muy grande ni muy chica:
λm
P (Vm ) = e−λ
m!
24
6. Variables aleatorias (unidimensionales)
6.1. Definición y clasificación de V.A.
Definición 6.1 (Variable aleatoria). Sea (Ω, A, P ) un espacio de probabilidad.
Una variable aleatoria (V.A.) sobre Ω es una función X : Ω → R tal que para
todo x ∈ R se cumple:
{X ≤ x} := {ω ∈ Ω : X(ω) ≤ x} ∈ A
i.e. todo evento de la forma {X ≤ x} tiene su correspondiente preimagen en la

σ-álgebra, y entonces tiene asignada una probabilidad dada por P .
Definición 6.2 (Función de distribución). Sea (Ω, A, P ) un espacio de probabi-
lidad, y X una V.A. sobre Ω. La función de distribución (función de distribución
acumulada, Fda, cdf) F (x) de la variable aleatoria X se define:
F (x) := P (X ≤ x)
NOTA: F (x) existe y está bien definida para todo x ∈ R por la definición
de V.A.
NOTA: Anotaremos FX (x) (con subı́ndice X mayúscula) cuando queramos
destacar que se trata de la Fda de la V.A. X.
Teorema 6.3 (Teoremas varios para Fda). Sean (Ω, A, P ) un espacio de proba-
bilidad, X una V.A. sobre Ω, F (x) su función de distribución; a, b ∈ R números
tales que a ≤ b. Se cumple:
1. FX (x) tiene las siguientes propiedades:

(a) es no decreciente, F (a) ≤ F (b)
(b) es continua por derecha, ∀x0 ∈ R F (x+
0 ) = lı́mx↓xo F (x) = F (x0 )
(c) va de 0 a 1, lı́mx→−∞ F (x) = 0, lı́mx→+∞ F (x) = 1
2. P (a < X ≤ b) = F (b) − F (a)

3. P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a)
4. P (a < X < b) = F (b) − P (X = b) − F (a)
5. P (a ≤ X < b) = F (b) − P (X = b) − F (a) + P (X = a)

6. P (X > a) = 1 − F (a)
7. P (X < a) = F (a− )
8. P (X = a) = F (a) − F (a− )
Definición 6.4 (Átomos). Sea X una V.A. en un espacio de probabilidad,

diremos que a ∈ R es un átomo (punto pesado) de X sii P (X = a) = F (a) −
F (a− ) > 0 (i.e. F pega un salto en a). Llamaremos At(X) al conjunto de todos
los átomos de X:
At(x) = {a ∈ R : F (a) − F (a− ) > 0}
25
Teorema 6.5 (Sobre el número de átomos). La cantidad de átomos de una
variable aleatoria es finita o a lo sumo numerable. Además,
X
P (X = a) ≤ 1
a∈At(X)
Definición 6.6 (V.A. Discreta). Sea X una V.A. en un e.p., diremos que X es
una V.A. Discreta sii: X
P (X = a) = 1
a∈At(X)
i.e. toda la probabilidad se concentra en los átomos. A la función pX : A → R

definida por pX (x) := P (X = x) la llamaremos función de probabilidad puntal
de X.
Teorema 6.7 (Saltitos). Si X es una VA discreta, su Fda es continua por

tramos (una escalera).
Definición 6.8 (V.A. Continua). Sea X una V.A. en un e.p., diremos que X
es una V.A. continua sii F (x) es continua en todo R
Definición 6.9 (V.A. Mixta). Sea X una V.A. en un e.p., diremos que X es
una V.A. mixta sii X no es discreta ni continua.
Definición 6.10 (V.A. Absolutamente Continua). Sea X una V.A. en un e.p.,
diremos que X es una V.A. absolutamente continua sii existe f : R → R+
medible (integrable) tal que para todo a, b ∈ R tales que −∞ ≤ a < b < +∞
vale que:
Z b
P (a < X ≤ b) = f (x)dx
a
A f la llamaremos función de densidad (función de densidad puntual, fdp, pdf)

de la variable aleatoria X.
NOTA: Anotaremos fX (x) cuando queramos destacar que se trata de la fdp
de la V.A. X.
Teorema 6.11 (Sobre V.A. absolutamente continua). Si X es una V.A. abso-
lutamente continua vale que:
Rx
1. F (x) = −∞ f (t)dt
R +∞
2. −∞
f (t)dt = 1
d
3. dx F (x) = f (x) ∀x ∈ R donde f (x) es continua
4. X es continua (NOTA: existen continuas que no son absolutamente con-

tinuas, e.g. distribuciones de Cantor. No las veremos en el curso)
Convención 6.12 (Sobre las continuas). En el curso usaremos como sinónimos
continua y absolutamente continua
Ejemplo 6.13 (Varios). Dar en clase ejemplo de dado cargado (discreta) y de

número random (continua). Para mixtas referir al ejercicio 2.2.
26
Definición 6.14 (Función intensidad de fallas). Diremos que la V.A. absolu-
tamente continua T tiene función de intensidad de fallas λ(t) sii:
Z t
FT (t) = 1 − exp − λ(s)ds 1{t > 0}
0
Teorema 6.15 (Sobre la intensidad de fallas). Vale que:
(1) T tiene función de densidad:

Z t
fT (t) = λ(t) exp − λ(s)ds 1{t > 0}
0
(2) Si λ(t) = λ entonces T es una V.A. Exp(λ), con función de densidad:
fT (t) = λ exp (−λt) 1{t > 0}

c−1
(3) Si λ(t) = αc αt (con c y α reales positivos), entonces T es una V.A.
W ei(c, α), con función de densidad:
c−1 c
c t t
fT (t) = exp − 1{t > 0}
α α α
Teorema 6.16 (Teoremas de existencia). Veremos tres teoremas que garantizan

la existencia de una V.A. X en un e.p.
1. Existencia de X a partir de F :
Sea F : R → [0, 1] una función que satisface es no decreciente (F (a) ≤
F (b)), es continua por derecha (∀x0 ∈ R F (x+
0 ) = lı́mx↓xo F (x) = F (x0 ))
y va de 0 a 1 (F (−∞) = 0, F (+∞) = 1), entonces existe una VA X en un
e.p. tal que F es su Fda.
2. Existencia X a partir de f :
R +∞
Sea f : R → R+ una función medible (integrable) que satisface −∞ f (x)dx,
entonces existe una VA X absolutamente continua en un e.p. tal que f es
su fdp.
3. Existencia de X a partir de p:
P
Sea p : R → [0, 1] una función que satisface a∈A p(a) = 1, con A un
conjunto finito o numerable, entonces existe una VA X discreta en un e.p.
tal que p es su función de probabilidad
NOTA: Será correcto entonces al encontrar una función que satisface las
propiedades mencionadas decir que es una función de distribución, función de
densidad o función de probabilidad ya que en algún e.p. existirá una V.A. que
la tenga por tal.
Ejemplo 6.17 (Ejemplos). Dar V.A. Pascal (discreta) y V.A. Uniforme, Gam-
ma, Weibull, Normal (continuas). Sse usan al principio de guı́a 2, los alumnos
deben buscarlas en la tabla de distribuciones.
27
6.2. Cuantiles
Definición 6.18 (a-cuantil). Sea a ∈ (0, 1), X una V.A., definimos un a-cuantil
de X a cualquier número real xa ∈ R tal que:
1. F (xa ) − P (X = xa ) ≤ a
2. a ≤ F (xa )
NOTA: La definición habitual es otra (equivalente), en clase se dará solo la
primera. *Definición equivalente:
1. P (X < xa ) ≤ a
2. a ≤ P (X ≤ xa )
Teorema 6.19 (Existencia). El a-cuantil siempre existe. No necesariamente

es único, puede ser un solo punto o un segmento. Veremos un método para
encontrar uno de los a-cuantil de forma rápida.
Demostración. Ver [1] Variables aleatorias... cap. 1.3.
Teorema 6.20 (Cuantil de continuas). Si X es una V.A. continua, entonces
xa es un a-cuantil sii F (xa ) = a
Ejemplo 6.21 (Nota de la industria). Los materiales estructurales se especi-
fican por su 0.05-cuantil o su 0.10-cuantil, es decir, cuando uno solicita una
determinada resistencia (bajo un ensayo normalizado), hay una probabilidad
baja de que esa resistencia especificada no sea satisfecha por la pieza del mate-
rial.
Definición 6.22 (Mediana, cuartiles...). Se llama mediana de X al 0.5-cuantil
de X.
Se llaman primer, segundo y tercer cuartil a los 0.25-cuantil, 0.50-cuantil y
0.75-cuantil.
Se llaman quintiles los 0.20-cuantil, 0.40-cuantil, · · · 0.80-cuantil.
Se llaman deciles a los 0.10-cuantil, 0.20-cuantil, · · · 0.90-cuantil.
6.3. V.A. truncadas

Definición 6.23 (Variable truncada). Sea X una V.A. sobre un espacio de pro-
babilidad, B ⊂ R un medible tal que P (X ∈ B) > 0. Llamaremos “X truncada
a B, “X dado B”, “X condicionada a B”, etc., a la V.A. X condicionada a
tomar valores en B, formalmente definiremos X|X ∈ B como la V.A. que tiene
la siguiente función de distribución
P (X ∈ B ∩ X ≤ x)
FX|X∈B = P (X ≤ x|X ∈ B) =
P (X ∈ B)
Teorema 6.24 (Cálculo de densidad o probabilidad). Sea X una V.A. abso-

lutamente continua (c) o discreta (d) sobre un espacio de probabilidad, B un
medible tal que P (X ∈ B) > 0, vale que:
pX (x)·1{x∈B}
(d) pX|X∈B (x) = P (X∈B)
28
fX (x)·1{x∈B}
(c) fX|X∈B (x) = P (X∈B)
Teorema 6.25 (F.P.T. para truncadas). Sea X una V.A. absolutamente con-
tinua (c) o discreta (d) sobre un espacio de probabilidad; {Bi ⊂ R, i ≥ 1}
medibles disjuntos tal que P (X ∈ Bi ) > 0 y P (X ∈ ∪i≥1 Bi ) = 1 vale que:
P
(d) pX (x) = i≥1 pX|X∈Bi (x)P (X ∈ Bi )
P
(c) fX (x) = i≥1 fX|X∈Bi (x)P (X ∈ Bi )
Ejemplo 6.26 (Ejemplos truncadas). Dar exponencial (ver pérdida de memo-
ria), uniforme, geométrica (ver pérdida de memoria), dado cargado.
7. Simulación, análisis de datos

7.1. Definiciones y teoremas
Definición 7.1 (Inversa generalizada). Sea F una función de distribución, de-
finimos su inversa generalizada:
F −1 (u) := mı́n{x ∈ R : u ≤ F (x)} u ∈ (0, 1)
INTERPRETACIÓN: Graficar. Si u cae en la parte continua de F , F −1 es la

inversa usual. Si u cae en una meseta de F (infinitas inversas usuales), se toma
como inversa el valor más a la izquierda. Si u cae un salto (ninguna inversa
usual), se debe buscar el escalón que queda arriba y tomar el valor de más a la
izquierda.
Teorema 7.2 (Simulación). Sea U una VA U ∼ U (0, 1) (número random), F
una función de distribución, entonces X := F −1 (U ) es una VA cuya Fda es F .
Demostración. Notar que son equivalentes: F −1 (u) ≤ x ⇔ u ≤ F (x) (no es
tan sencillo como parece, recordar que F −1 es la inversa generalizada, hay que
analizar los 3 casos por separado).
Luego
P (X ≤ x) = P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = FU (F (x)) = F (x)
NOTA: La importancia de este teorema está en que los lenguajes de progra-

mación permiten generar número seudo-aleatorios a los que en general se puede
aceptar como números random. A partir de ellos, implementando un algorit-
mo que calcule inversas generalizadas podemos obtener valores simulados de la
variable aleatoria que queramos estudiar.
Teorema 7.3 (Transformada F). Sea X una VA absolutamente continua con

Fda FX , se define U := FX (X), entonces U es una VA uniforme U ∼ U (0, 1).
Teorema 7.4 (Algoritmo para transformar VA). Sea X una VA absolutamente
continua con Fda FX , sea FY una función de distribución. Se define Y :=
FY−1 (FX (X)), entonces Y es una VA cuya Fda es FY .
29
7.2. *Números aleatorios
La mayorı́a de los lenguajes de programación traen incorporadas alguna fun-
ción para generar números pseudo-aletaorios, que en la precisión que la máquina
permite se comportan a nuestros fines como los números random ya presentados
en el ejemplo 3.17. Antiguamente, los libros de probabilidad traı́an como anexo
tablas con números seudo aleatorios de determinada precisión. Y si se quiere
números realmente aleatorios hay algunos sistemas que a partir de mediciones
fı́sicas generan mediante filtros y funciones números aleatorios con la precisión
que se desee, por ejemplo los que se ofrecen en www.random.org.
El generador más difundido actualmente es el mezclador de Mersenne (o
Mersenne Twister). Ver:
http://octave.sourceforge.net/octave/function/rand.html
http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.set_state.html
https://en.wikipedia.org/wiki/Mersenne_Twister
https://en.wikipedia.org/wiki/Pseudorandom_number_generator
https://en.wikipedia.org/wiki/Linear_congruential_generator
Algoritmo 7.5 (Generador casero). Una forma casera sencilla de generar núme-
ros pseudo-aleatorios es la siguiente. Se necesitan tres enteros a, b y m. Se arran-
ca en un número entero (llamado semilla) 0 ≤ X0 < m, y a partir de allı́ se
obtienen los siguientes números enteros Xi como función del paso anterior. Si
dividimos Xi /m obtendremos un número Ui ∈ [0, 1).
Xi+1 = (a · Xi + b) mód m Ui+1 = Xi+1 /m
se repite tantas veces como sea necesario. El valor Xi puede ir pisando al anterior
para no consumir memoria. La calidad de los números generados depende de
los enteros elegidos, sugerencia: a = 16807 b = 0 m = 231 − 1
Tanto este generador sencillo como los mejores generadores tienen como
problema la periodicidad, después de una cantidad de simulaciones (grande) los
números comienzan a repetirse en exactamente la misma secuencia.
Tener control sobre los randoms (usar siempre la misma secuencia) puede
ser conveniente a la hora de revisar, depurar y optimizar código, ası́ en dife-
rentes corridas si uno no altera la parte estrictamente de simulación obtendrá
exactamente los mismos resultados.
7.3. Simulación de VA discretas

Definir la inversa generalizada para una variable discreta consiste realmente
en ver en cuál de los agujeros “cae” la uniforme y con eso generar la variable
simulada. Mejor que definir una función inversa f_inv(u) es definir sus lı́mites
y luego realizar una búsqueda. La búsqueda puede ser casera o usar funciones
que traiga el lenguaje en el que estemos programando.
Simulemos entonces un experimento sobre Ω = {ω1 , ω2 , . . . , ωm }. Cada even-
to elemental ωi tiene asignada una probabilidad puntual p(ωi ) = pi . Lo que
haremos será partir el intervalo [0, 1) en m intervalos numerados de 1 a m, ca-
da uno con longitud pi ; tomamos un número random U y vemos en cuál de
30
los intervalos cae, diremos que en nuestra simulación ocurre el evento ωk si U
pertenece al k-ésimo intervalo.
Formalizando, primero encontramos los lı́mites de los intervalos:
k
X
L0 := 0 Lk := pi
i=1
Pm
(notar que Lm = i=1 pi = 1). Luego le pedimos un random U a la compu-
tadora y llamamos X al subı́ndice del evento resultado de nuestra simulación,
tendremos
Xm
X= k1{Lk−1 ≤ U < Lk }
k=1
y diremos entonces que ocurrió el evento ωX .

Ejemplo 7.6 (Dado cargado). El siguiente algoritmo sirve para simular cual-
quier variable discreta sobre un espacio finito (y con ciertas limitaciones se puede
adaptar a un numerable). Como ejemplo simularemos el problema visto en el
3.12, basta que el usuario modifique los datos Omega y pp para simular otro
problema.
El algoritmo arma el vector con los lı́mites Lk , luego simula y acumula
los resultados en un vector de frecuencias absolutas. Por último, divide por
la cantidad de simulaciones para obtener la frecuencia relativa, y muestra por
pantalla la diferencia entre la probabilidad y la frecuencia relativa.
Se desarrolló en lenguaje Python, usando listas a modo de vectores. No se
usan paquetes para cálculo numérico, ni búsquedas binarias, ni sintaxis espe-
ciales del lenguaje; se espera que el alumno pueda “traducirlo” fácilmente a
cualquier lenguaje que maneje.
Algoritmo 7.7 (Simulación variables discretas). Versión básica
1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-
3 """
4 Simulacion de variables aleatorias discretas
5 Version sencilla: sin busqueda binaria, sin modulos numericos
6 """
7 #Imports
8 from __future__ import division
9 import random
10
11 #Numero de simulaciones
12 n_sim = int(1e6)
13
14 #Datos - Modificar a gusto

15 Omega = [1, 2, 3, 4, 5, 6]
16 pp = [1./21, 2./21, 3./21, 4./21, 5./21, 6./21]
17
18 #Cardinal de Omega
19 n_Omega = len(Omega)
20
21 #Inicializacion de listas
22 lims = [0] * (n_Omega+1)
31
23 frec = [0] * n_Omega
24 frel = [0] * n_Omega
25 delta = [0] * n_Omega
26 delta_r = [0] * n_Omega
27 uu = [0] * n_sim
28
29 #Limites de intervalos para simulacion

30 for i in range(n_Omega):
31 lims[i+1] = lims[i] + pp[i]
32 lims[-1] = 1.0 #evita errores de redondeo
33
34 #Uniformes (se podrian leer desde archivo)

35 for i in range(n_sim):
36 uu[i] = random.random()
37
38 #Simulacion y conteo de frecuencia absoluta

39 for i in range(n_sim):
40 for j in range(n_Omega):
41 if lims[j] <= uu[i] and uu[i]<lims[j+1]:
42 frec[j] += 1
43
44 #Calculo de frecuencia relativa y diferencia con probabilidad

45 for i in range(n_Omega):
46 frel[i] = frec[i] / n_sim
47 delta[i] = abs(frel[i]-pp[i])
48 delta_r[i] = round(delta[i],6)
49
50 #Salida por pantalla

51 print(’Omega: ’ + str(Omega))
52 print(’Frec.: ’ + str(frec))
53 print(’Frel.: ’ + str(frel))
54 print(’|p-f|: ’ + str(delta_r))
La salida por pantalla que obtenemos en una corrida:
Omega: [1, 2, 3, 4, 5, 6]
Frec.: [48052, 94916, 143122, 190068, 238114, 285728]
Frel.: [0.048052, 0.094916, 0.143122, 0.190068, 0.238114, 0.285728]
|p-f|: [0.000433, 0.000322, 0.000265, 0.000408, 1.9e-05, 1.4e-05]
Notar que con 106 simulaciones obtenemos unas 3 cifras correctas para todas
las probabilidades simuladas.
En el ejemplo vimos simplemente cómo hacer una simulación, y que para n
grande la frecuencia relativa se acercó a la probabilidad, pero como ya sabı́amos
la probabilidad no aprendimos nada sobre el experimento.
Lo más potente del método de simulación es modelar sistemas complejos y
calcular probabilidades que desconocemos.
Ejemplo 7.8 (Espacios equiprobables). Para simular extracciones con reposi-
ción de un bolillero (fórmula de Laplace) con n bolillas numeradas 0 . . . n − 1 se
procede:
Ni = bUi · nc
32
donde Ni es el número de la bolilla correspondiente al extracción i, y Ui es el
i-ésimo número random, y el sı́mbolo b·c significa redondear hacia abajo. Si las
bolillas están numeradas 1 . . . n simplemente se suma 1 al resultado anterior:
Ni = bUi · nc + 1
Ejercicio 7.9 (Jugando al rol con dados cargados). Lance 2 dados cargados
(los que venimos usando) y sume los resultados, luego lance 4 dados equilibrados
y sume los resultados; ¿qué probabilidad hay de que la primera suma sea mayor
a la segunda?
Ejercicio 7.10 (Paradoja de De Mere). Decida qué es más probable: (a) obtener
al menos un as en 4 tiros de un dado, (b) obtener al un doble as en 24 tiros de
dos dados.
7.4. Simulación de VA continuas y mixtas

Usar la F inversa. Hay ejemplos en el campus.
7.5. Funciones para análisis de datos

Definición 7.11 (Función de distribución empı́rica). Sea x = (x1 , x2 . . . xn ) un
vector en Rn . Se define la función de distribución empı́rica asociada al vector x:
n
1X
F dex (t) := 1{xi ≤ t}
n i=1
DESCRIPCIÓN INFORMAL: Arranca en 0, y cada vez que encuentra un

xi pega un saltito de altura 1/n (si encuentra un x repetido m veces el salto es
de altura m/n).
SUGERENCIA: Para construir la F de, ordenar de menor a mayor el vector
x
Teorema 7.12 (Fde es Fda). La función de distribución empı́rica asociada a
un vector es una función de distribución.
Definición 7.13 (Función histograma). Sea x = (x1 , x2 . . . xn ) un vector en Rn .
Sean a0 < a1 < . . . < am valores lı́mites para formar intervalos que contengan
a toda la muestra (a0 ≤ xi < am ∀i). Los lı́mites forman los intervalos Ij :=
[aj−1 , aj ) con longitudes Lj := aj − aj−1 . Definimos las frecuencias absolutas
como la cantidad de coordenadas xi que caen en el intervalo:
n
X
fj := 1{aj−1 ≤ xi < aj }
i=1
luego la función histograma asociada al vector y a los lı́mites:

m
1 X fj
histx,a (t) := 1{aj−1 ≤ t < aj }
n j=1 Lj
DESCRIPCIÓN INFORMAL: Es un conjunto de rectángulos, cada uno con

ancho Lj y altura fj /(nLj ), es decir área igual a la frecuencia relativa fj /n.
Teorema 7.14 (hist es fdp). La función histograma asociada a un vector y
a los valores lı́mites es una función de densidad (siempre y cuando todas las
muestras caigan dentro de los lı́mites de los intervalos).
33
8. Variables aleatorias n-dimensionales
Todo lo dado en este capı́tulo es un resumen de [1], Vectores aleatorios. Ahı́
hay más ejemplos y gráficos.
8.1. Definiciones, distribución conjunta

Un vector aleatorio (o variable aleatoria n-dimensional) es una función X :
Ω → Rn a la que, como hicimos en el caso real, le exigimos que todos los
eventos X ≤ x tengan asignada una probabilidad. Es simplemente extender
el concepto de variable aleatoria de la recta al hiper-espacio. Los llamaremos
vectores aleatorios, variables aleatorias n-dimensionales, o simplemente variables
aleatorias. Las V.A. de una dimensión son un caso particular de las V.A. n-
dimensionales, notar que todas las definiciones son consistentes.
Definición 8.1 (Relación de orden de vectores). Sean x, y ∈ Rn vectores, dire-
mos:
x ≤ y ⇔ xi ≤ yi ∀i = 1 . . . n
i.e. x está al sudoeste de y.
Definición 8.2 (Variable aleatoria). Sea (Ω, A, P ) un espacio de probabilidad,
X : Ω → Rn una transformación, diremos que X es una variable aleatoria si
cumple {ω ∈ Ω : X(ω) ≤ x} ∈ A ∀x ∈ Rn
Definición 8.3 (Función de distribución). Sea X una V.A n-dimensional, de-
finimos su función de distribución:
F (x) := P (X ≤ x)
Definición 8.4 (Discretas, continuas, mixtas). Clasificaremos también las V.A.
n-dimensionales en 3 tipos
1. Diremos X discreta si existe un conjunto At(X) ∈ Rn finito o numerable
tal que P (X ∈ At(X)) = 1 Llamaremos función de probabilidad conjunta
a:
pX (x) := P (X = x)
2. Diremos X continua si existe una función fX (x) : Rn → R+
0 tal que
Z
FX (x) = fX (t)dt ∀x ∈ Rn
t≤x
o equivalente Z
P (X ∈ S) = fX (t)dt ∀S ⊂ Rn
S
llamaremos función de densidad conjunta a fX (x). NOTA: las integrales
son n-dimensionales.
3. Diremos X mixta si no es continua ni discreta.
Ejemplo 8.5 (Continua bidimensional). Sea (X, Y ) una variable aleatoria con
densidad f(X,Y ) . Calcular la probabilidad de que (X, Y ) pertenezca al rectángulo
R = {0 < x < 2, 0 < y < 3} Respuesta
Z Z Z 3Z 2
P ((X, Y ) ∈ R) = f(X,Y ) (x, y)dxdy = f(X,Y ) (x, y)dxdy
R 0 0
34
8.2. Marginales
Las coordenadas Xi de un vector aleatorio X son variables aleatorias 1-
dimensionales, y como tales deben tener su propia distribución (sin importarme
lo que pase con las otras coordenadas Xj , j 6= i). A esas variables aleatorias, para
indicar o destacar que se trata de una coordenada de una variable n-dimensinal,
las llamaremos habitualmente variables aleatorias marginales.
Teorema 8.6 (Marginales, función de distribución). Sea X una V.A. n-dimensional
con función de distribución FX (x), vale que:
FXi (t) = lı́m FX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )

xj →+∞∀j=1...n,j6=i
Teorema 8.7 (Marginales, función de densidad). Sea X una V.A. n-dimensional

discreta (d) o continua (c) con función de probabilidad pX (x) o función de den-
sidad fX (x), vale que:
(d) X
pXi (t) = pX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )
x{1...n}\{i}
(c) Z
fXi (t) = fX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )dx{1...n}\{i}
Rn−1
Ejemplo 8.8 (Caso bidimensional). Sea (X, Y ) una V.A. 2-dimensional dis-
creta (d) o continua (c) con función de probabilidad p(X,Y ) (x, y) o función de
densidad f(X,Y ) (x, y), vale que:
(c y d) Usando abuso de notación para lı́mites
FX (x) = F(X,Y ) (x, +∞)
FY (y) = F(X,Y ) (+∞, y)
(d) X
pX (s) = p(X,Y ) (s, y)
y
X
pY (t) = p(X,Y ) (x, t)
x
(c) Z
fX (s) = f(X,Y ) (s, y)dy
R
Z
fY (t) = f(X,Y ) (x, t)dx
R
35
8.3. Independencia
Definición 8.9 (Independencia de una cantidad finita de V.A.). Dada una
familia de V.A. (Xi : i ∈ I) con |I| = n < ∞ (I es una colección de ı́ndices finita,
tı́picamente 1 . . . n) definidas sobre un mismo espacio de probabilidad (Ω, A, P ).
Diremos que sus V.A. son conjuntamente independientessi se verifica para todo
x ∈ Rn : !
\ Y
FX (x) = P {Xi ≤ xi } = FXi (xi )
i∈I i∈I
Definición 8.10 (Independencia de V.A.). Dada una familia de V.A. (Xi : i ∈

I) (donde I es una colección de ı́ndices finita o infinita numerable, tı́picamen-
te 1 . . .) definidas sobre un mismo espacio de probabilidad (Ω, A, P ). Diremos
que sus V.A. son conjuntamente independientes si para cualquier subconjunto
finito de ı́ndices J ⊂ I se verifica que las variables aleatorias (Xj : j ∈ J) son
independientes.
Teorema 8.11 (fdp de variables aleatorias independientes). Sea Xi una canti-
dad n finita de V.A. sobre el mismo e.p., con función de probabilidad conjunta
pX (x) (d) o función de densidad conjunta fX (x) (c). Xi son independientes si
y sólo si la función de probabilidad o densidad se factoriza en n funciones, una
por cada una de las variables, esto es:
Qn
(d) pX (x) = k i=1 p∗Xi (xi )
Qn ∗
(c) fX (x) = k i=1 fX i
(xi )
donde p∗Xi : R → R+ ∗ +
0 , fXi : R → R0 , k > 0. Las funciones en que se fac-
∗ ∗
toriza la conjunta pXi o fXi son las funciones de probabilidad o densidad de
las variables aleatorias marginales Xi salvo por una Q constante multiplicativa,
pXi (xi ) = ki p∗Xi (xi ), fXi (xi ) = ki fX
∗
i
(x i ), ki > 0, ki = k.
NOTA Ojo, no olvidar las indicadoras al factorizar
NOTA A veces encontrar las marginales dada una conjunta es tan sencillo
como mirar fijo, factorizar, y repartir correctamente las constantes
Teorema 8.12 (Independendia entre una V.A. Y y una X bernoulli). Sean

X, Y variables aleatorias sobre un mismo e.p., con X ∼ Be(p), son equivalentes:
X, Y independientes
P (X = 1, Y ≤ y) = pFY (y)
P (X = 0, Y ≤ y) = (1 − p)FY (y)
P (X = 1, Y > y) = p(1 − FY (y))

P (X = 0, Y > y) = (1 − p)(1 − FY (y))
Demostración. IDEA: Demostrar que la primera sentencia y la segunda son
equivalentes usando la definición de independencia de una cantidad finita de
V.A. Luego, demostrar que la segunda es equivalente al resto usando la pro-
piedad de que si un par de eventos es independiente, al tomar complemento en
alguno de ellos se obtiene un nuevo par independiente.
36
NOTA: A veces se quiere demostrar la independencia de dos variables donde
una de ellas es Bernoulli (ejercicios de coloquio, ejercicio 4.14), bastará elegir la
más sencilla de las últimas 4 igualdades y demostrarla.
Teorema 8.13 (Transformación de V.A. independientes). Ver [1] y [2]. Dada

una familia de V.A. (Xi : i ∈ I) independiente, m ∈ Z + un entero tal que
1 < m < n, g1 : Rm → R y g1 : Rn−m → R funciones regulares, entonces
Y1 := g1 (X1 , . . . , Xm ) y Y2 := g2 (Xm+1 , . . . , Xn ) son V.A. independientes.
NOTA: La definición de función regular está en [1], Transformaciones de
variables aleatorias, pp. 19 y 20. Diremos en nuestro curso que todas las transfor-
maciones de variables aleatorias son regulares, entonces si X, Y independientes
U = g(X) y V = h(Y ) serán independientes.
37
9. Momentos
En este capı́tulo simplemente se reordenan las definiciones y se resume [1],
Variables Aleatorias: Momentos. Remitirse a la fuente para muchos ejemplos y
demostraciones de los teoremas.
9.1. Esperanza
Definición 9.1 (Esperanza). Sea X una V.A. con función de distribución FX ,
definimos: Z ∞ Z 0
E[X] := [1 − FX (x)]dx − FX (x)dx
0 −∞
Teorema 9.2 (Definición clásica). Sea X una V.A. discreta (d), continua (c)
o mixta (m), vale:
P
(d) E[X] = x∈At(X) xP (X = x)
R∞
(c) E[X] = −∞ xfX (x)dx
P R∞ d

(m) E[X] = x∈At(X) xP (X = x) + −∞ x dx FX (x) dx
NOTA: La definición más frecuente de esperanza es esta, la cual se puede inter-
cambiar con la definición dada (que pasarı́a a ser teorema). Se consideró más
elegante una definición única que dividida según el caso.
Teorema 9.3 (Esperanza de funciones de V.A. n-D). Sea X una V.A. discreta
(d), continua (c) o mixta (m); y sea g : Rn → R tal que g(X) también es una
V.A., vale:
P
(d) E[g(X)] = x∈At(X) g(x)pX (x)
R∞
(c) E[g(X)] = −∞ g(x)fX (x)dx
P R∞ d

(m) E[g(X)] = x∈At(X) g(x)P (X = x) + −∞ g(x) dx FX (x) dx
NOTAS
Se restrigen las variables mixtas al caso 1-D por la desidia de entrar en
derivadas parciales. Se podrı́a generalizar fácilmente.
Para calcular la esperanza de una marginal Xi tomar g(X) = Xi y usar
el teorema, no es necesario calcular la densidad marginal de Xi .
Para calcular la esperanza de Y = g(X) no es necesario calcular la distri-
bución de Y , ni ninguna densidad marginal de X.
El último teorema incluye como caso particular a la definición clásica.
Teorema 9.4 (Propiedades). Vale que (para X o Xi con esperanza finita):
(1) Constantes: E[a] = a ∀a ∈ R
P P
(2) Linealidad: E[ ai Xi ] = ai E[Xi ]
Q Q
(3) Producto independiente: Si Xi son independientes, E[ Xi ] = E[Xi ]
38
(4) Truncada: E[X|X ∈ A] = E[X·1{X∈A}]
P (X∈A)
Pn
(5) F.P.T.: E[X] = i=1 E[X|X ∈ Ai ]P (X ∈ Ai ) si Ai es una partición de R
Pn
(6) F.P.T.: E[g(X)] = i=1 E[g(X)|X ∈ Ai ]P (X ∈ Ai ) si Ai es una partición
de R
Ejemplo 9.5 (Ejemplos de esperanza). Dar ejemplos de: función indicadora,
Bernoulli, dado común, dado cargado, uniforme, exponencial, Cauchy, ejercicio
2.2.
9.2. Varianza
Definición 9.6 (Varianza). Sea X una V.A. con esperanza finita, definimos la
varianza de X como
V (X) := E (X − E[X])2

llamaremos desvı́o de X a p
σX := V (X)
NOTA: para aplicaciones ingenieriles σX es más fácil de visualizar porque
tiene las mismas unidades que X.
Teorema 9.7 (Fórmula para calcular V). Sea X una V.A. con esperanza y
varianza finita:
V (X) = E[X 2 ] − E 2 [X]
Demostración. Basta con desarrollar el cuadrado del binomio y aplicar propie-
dades vistas
V (X) = E[(X − E[X])2 ] = E[X 2 + (E[X])2 − 2XE[X]] = · · ·
· · · = E[X 2 ] + (E[X])2 − 2E[X]E[X] = E[X 2 ] − (E[X])2
Teorema 9.8 (Propiedades de V). Vale que:

(1) Trato con constantes: V (aX + b) = a2 V (X) para todo a, b ∈ R
(2) Error cuadrático medio: E[(X −c)2 ] = V 2 (X)+(E[X]−c)2 para todo c ∈ R.
En particular, c = E[X] lo minimiza.
Ejemplo 9.9 (Ejemplos de varianza). Dar los mismos ejemplos que para espe-
ranza.
9.3. Covarianza
Definición 9.10 (Covarianza). Sean X e Y dos V.A. sobre el mismo espacio
de probabilidad (Ω, A, P ) con esperanza finita, llamaremos covarianza de X e
Y a:
Cov(X, Y ) := E [ (X − E[X]) · (Y − E[Y ]) ]
Teorema 9.11 (Fórmula para calcular Cov). Si X e Y cumplen además E[X 2 ]
y E[Y 2 ] finitas, vale:
Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ]
39
Demostración. La demostración simplemente es distribuir el producto de bino-
mios de la definición. La hipótesis de esperanza de los cuadrados finita permite
demostrar que E[XY ] es finita mediante la desigualdad |xy| ≤ (x2 + y 2 )/2.
Definición 9.12 (Matriz de covarianzas). Sea X una V.A. n-dimensional sobre
(Ω, A, P ), definimos la matriz Cov por sus coordenadas:
Cov i,j := Cov(Xi , Xj )
NOTA: Las calcularemos con la fórmula Covi,j = E[Xi Xj ] − E[Xi ]E[Xj ].

NOTACIÓN: A la matriz de covarianzas se la suele llamar Σ
Ejemplo 9.13 (Bernoulli conjunta). Dado en clase, V.A. bernoulli 2-D con
probabilidades puntuales a, b, c, d.
Definición 9.14 (Coeficiente de correlación). Sean X e Y dos V.A. sobre el
mismo espacio de probabilidad (Ω, A, P ) con covarianza, definimos su coeficiente
de correlación:
Cov(X, Y )
ρX,Y :=
Des(X) · Des(Y )
NOTA: Es un número con el mismo signo que la covarianza, pero “estanda-
rizado” al dividir por los desvı́os. El comportamiento de una V.A. 2-D suele ser
más fácil de comprender cualitativamente con el ρ que con la Cov.
Teorema 9.15 (Propiedades de Cov). Sean X, Y, Z, Xi , Yi V.A. con esperanza
del cuadrado finita; a, b ∈ R se cumple:
(1) Varianza: Cov(X, X) = V (X)
(2) Conmutativa: Cov(X, Y ) = Cov(Y, X)
(3) Distributiva: Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z)
Pm Pn Pm Pn
(4) Distributiva: Cov( i=1 Xi , j=1 Yj ) = i=1 j=1 Cov(Xi , Yj )
(5) Constantes: Cov(aX, Y + b) = aCov(X, Y ) = Cov(X + b, aY )
(6) X, Y independientes ⇒ Cov(X, Y ) = 0 (Nota 1: si existe). (Nota 2: no vale
la recı́proca en general)
(7) Varianza suma: V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
(8) Varianza suma: V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y )
Pn Pn Pn
(9) Varianza suma: V ar( i=1 Xi ) = i=1 j=1 Cov(Xi , Xj )
2
(10) Normales no correlacionadas: X ∼ N (µX , σX ), Y ∼ N (µY , σY2 ), Cov(X, Y ) =
0 ⇒ X, Y independientes
(11) Bernoullis no correlacionadas: X ∼ Ber(p), Y ∼ Ber(r), Cov(X, Y ) = 0 ⇒
X, Y independientes
(12) Lı́mites para correlación: −1 ≤ ρ ≤ 1
Ejemplo 9.16 (Interpretación). Covarianza (correlación) positiva indica que
cuando X crece Y tiende a hacer lo mismo, y que cuando X decrece Y también
lo hace. Covarianza (correlación) negativa indica lo contrario, cuando X va para
un lado Y va para el otro. Hacer gráficos de muestras (x, y) en clase.
40
9.4. Recta de regresión
Definición 9.17 (Recta de regresión). Sean X e Y dos V.A. sobre el mismo
espacio de probabilidad (Ω, A, P ) con covarianza, definimos la recta de regresión
de Y sobre X mediante su fórmula:
Cov(X, Y )
y(x) := (x − E[X]) + E[Y ]
V ar(X)
o, lo que es equivalente y más fácil de recordar:
x − E[X] y − E[Y ]
y ∗ := ρx∗ x∗ = , y∗ =
Des(X) Des(Y )
NOTA: en la fórmula aparecen la función y, la variable x, y algunos momen-
tos de las V.A., se trata de la expresión de una recta sin nada aleatorio.
9.5. Desigualdades, Ley débil de grandes números

Teorema 9.18 (Desigualdad de Cauchy-Schwarz). Ver [1], Variables Aleatorias,
Momentos
Teorema 9.19 (Gran desigualdad de Chebychev). Ver [1], Variables Aleatorias,
Momentos
Teorema 9.20 (Desigualdad de Markov). Sea X una V.A. no negativa (i.e.
P (X ≥ 0) = 1), a ∈ R, a > 0 un número positivo, se cumple:
E[X]
P (X ≥ a) ≤
a
Teorema 9.21 (Desigualdad de Markov cuadrada). Sea X una V.A., a ∈
R, a > 0 un número positivo, se cumple:
E[X 2 ]
P (X > a) ≤
a2
Teorema 9.22 (Pequeña desigualdad de Chebychev). Sea X una V.A. de va-
rianza finita, a ∈ R, a > 0 un número positivo, α ∈ R, α > 0 también positivo,
se cumple:
V (X)
P (|X − E[X]| ≥ a) ≤
a2
o, lo que es equivalente
1
P (|X − E[X]| ≥ α · Des(X)) ≤
α2
Teorema 9.23 (Ley débil de los grandes números, WLLN). Sea X1 , X2 . . .
una sucesión de V.A. independientes e idénticamente distribuidas (i.e. ensayos
1
Pn con varianza finita . Sea Sn , n ≥ 1
independientes de un mismo experimento)
la sucesión de sumar parciales Sn := i=1 Xi . Para todo > 0 vale que:

Sn
lı́m P − E[X1 ] > = 0
n→∞ n
1 Varianzafinita para Xi no es una hipótesis necesaria, se pide para poder demostrar el
teorema mediante Chebychev (pequeña). Si se quiere la demostración general preguntarle a
Analı́a
41
Demostración. Por linearidad de esperanza y por tener todas las V.A. la misma
esperanza:
hX i 1X 1
E[Sn /n] = E Xi /n = E[Xi ] = nE[X1 ] = E[X1 ]
n n
Como las variables son I.I.D. se anulan las Cov y se tiene:
1 X 1 V [X1 ]
V [Sn /n] = V [Xi ] = 2 nV [X1 ] =
n2 n n
Aplicando Chebychev (pequeña):

Sn V (X1 )
P − E[X1 ] > ≤
n n · 2
tomar lı́mite y listo.
– CONSULTAR DIFERENCIA ENTRE > EN WLLN Y ≥ EN CHEBY-
CHEV –
ALTA NOTA: Con este teorema los axiomas ya no solo atrapan la idea
de frecuencia relativa en el sentido de que permiten modelarla, sino que además
se demuestra que (con ciertas hipótesis) la frecuencia relativa Sn /n tiende a la
probabilidad a medida que aumenta la cantidad de ensayos.
NOTA: Se llama ley débil porque hay una fuerte. La ley fuerte de los grandes
números implica la débil, pero es de más difı́cil comprensión y mucho más difı́cil
demostración. Ver [5].
10. Transformaciones de V.A.

Si X es una V.A. y g una función, en muchas aplicaciones nos intersará saber
cómo se comporta Y = g(X). Trateremos en este capı́tulo de dar teoremas útiles
(métodos) para hallar la distribución de Y a partir de la distribución de X, tanto
en casos 1-dimensionales como n-dimensionales.
10.1. Definiciones y aclaraciones previas

Definición 10.1 (Soporte (o rango)). –Informal– Llamaremos soporte de una
variable aleatoria n-dimensional a los valores que puede tomar la V.A. X, lo
anotaremos esto es para Sop(X) (con Sop(X) ⊂ Rn ). Esto es:

n ∂FX (x)
Sop(X) := x ∈ R : P (X = x) > 0 ∨ ∃i / >0
∂xi
Teorema 10.2 (Perogrullada de transformaciones). Sea X ∈ Rm una V.A.

sobre un e.p. (Ω, A, P ); y sea g : D ∈ Rm → Rn una función con dominio tal
que Sop(X) ⊂ D. Entonces Y := g(X) está bien definida, y será una V.A. si y
sólo si cumple con lo que tiene que cumplir cualquier V.A., i.e.:
{Y ≤ y} = {ω ∈ Ω : Y := g(X) ≤ y} ∈ A ∀y ∈ Rn
NOTA: Para todas las transformaciones que usemos en el curso, Y = g(X)

será una V.A.
42
–Agregar bonitos gráficos–
Definición 10.3 (Inversa de una región). Sea g : D ∈ Rm → Rn , y S ⊂ Rn
una región (en el destino). Definimos su inversa o preimagen:
g −1 (S) := {x ∈ D : g(x) ∈ S}
10.2. Teoremas para transformaciones de V.A.

Teorema 10.4 (Método de eventos equivalentes). Sean X una V.A. m-dimensional,
g : D ∈ Rm → Rn una función, Y := g(X) una transformación tal que Y V.A.
n-dimensional, y S ⊂ Rn una región en el espacio destino, entonces:
P (Y ∈ S) = P (X ∈ g −1 (S))
Demostración. Evidente, pues el evento Y ∈ S refiere a los mismos ω ∈ Ω que
el evento X ∈ g −1 (S).
Teorema 10.5 (Caso particular - Fda de Y ). Tomemos como caso particular
S = {y 0 : y 0 ≤ y}, tendremos P (Y ∈ S) = P (Y ≤ y) = FY (y) lo que nos
permite calcular la función de distribución de Y aplicando el teorema:
FY (y) = P (X ∈ g −1 ({y 0 : y 0 ≤ y})
Teorema 10.6 (Caso particular - Discretas). Tomemos como caso particular
S = {y} (un conjunto con un único punto), X es una V.A. discreta, y exigimos g
inversible por regiones. Tendremos P (Y ∈ S) = P (Y = y) = P (X ∈ g −1 ({y}) lo
que nos permite calcular la función de probabilidades de Y aplicando el teorema:
X
pY (y) = P (Y = y) = P (X = x)
x:g(x)=y
X
pY (y) = P (Y = y) = P (X = x)|x=g−1 (y)
i
i
Donde (con cierto abuso de notación) i recorre las preimágenes que corres-
ponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas preimágenes
x como funciones gi−1 (y).
Teorema 10.7 (Caso particular lı́mite - Continuas). –Turbio– Tomemos X es
una V.A. continua con función de densidad fX (x) , y exigimos g inversible por
regiones. Llevando al lı́mite y con cierta complicidad del lector podemos escribir
P (Y ∼ y) = P (X ∼ g −1 ({y})), entonces si la transformación fuera biyectiva
fY (y)dy = fX (x)dx. Si la transformación es biyectiva por partes y el cambio
de variables no altera la dimensión (m = n), y considerando que la relación de
diferenciales la da el jacobiano de la transformación, tendremos
X fX (x)
fY (y) =
|Jg (x)|
x:g(x)=y
Escribiendo para i recorriendo las preimágenes:

X fX (x)
fY (y) =
i
|Jg (x)| x=gi−1 (y)
43
o también: X
fY (y) = fX (x) x=gi−1 (y)
|Jg−1 (y)|
i
i
Donde x = gi−1 (y) nos dice que se deben escribir las distintas preimágenes
x como funciones gi−1 (y). Las matrices jacobianas son Jg = dg(x)/dx, Jg−1 =
i
dgi−1 (y)/dy.
Ejemplo 10.8 (Box-Muller). Sean U1 , U2 variables aleatorias independientes
idénticamente distribuidas (VAIID) con distribución U [0, 1). Definimos las si-
guientes transformaciones:
p
R = −2 log(U1 ) Θ = 2πU2
(Z1 , Z2 ) = (R cos Θ, R sin Θ)

Buscaremos la densidad conjunta y marginales de (Z1 , Z2 ), analizando las trans-
formaciones parciales para tener más resultados.
Resultado: Resumimos las principales conclusiones
R2 ∼ Exp(1/2) = Γ(1, 1/2) = χ22
R ∼ Ray(1)
Θ ∼ U [0, 1)
(R, Θ) independientes
Z1 , Z2 V.A.I.I.D. con distribución N (0, 1)
Demostración. Vayamos paso a paso:
S = R2 = −2 log(U1 ), la transformación g(u) = −2 log(u) es biyectiva en

1
el soporte de U1 y tiene inversa g −1 (s) = e− 2 s . Aplicando la regla del
jacobiano:
fU (u) 1 1
fS (s) = = e− 2 s 1{s > 0}
|dg/du| g−1 (s) 2
√ √
R = S, la transformación g(s) = s es biyectiva en el soporte de S y
tiene inversa g −1 (r) = r2 . Aplicando la regla del jacobiano:
fS (s) 1 2
fR (r) = = re− 2 r 1{r > 0}
|dg/ds| g −1 (r)
Θ = 2πU2 , la transformación g(u) = 2πu es biyectiva en el soporte de U2

y tiene inversa g −1 (t) = 1/(2π). Aplicando la regla del jacobiano:
fU (u) 1
fΘ (t) = = 1{0 < t < 2π}
|dg/du| g −1 (t) 2π
(Z1 , Z2 ) = (R cos Θ, R sin Θ), la transformación g(r, t) = (r cos t, r sin t) es

biyectiva en el soporte de (R, Θ) y tiene inversa que no necesitaremos cal-
cular (verla en http://mathworld.wolfram.com/Box-MullerTransformation.html)
44
Aplicando la regla del jacobiano:
f(R,Θ) (r, t)
f(Z1 ,Z2 ) (z1 , z2 ) =
|Jg(r,t) | g −1 (z1 ,z2 )
Por teorema de transformaciones de V.A. con funciones regulares, como

R = h1 (U1 ) y Θ = h2 (U2 ) se cumple (R, Θ) independientes, entonces su
densidad conjunta será la densidad producto f(R,Θ) (r, t) = fR (r)fΘ (t).
El jacobiano de la transformación
cos(t) −r sin(t)
Jg(r,t) = =r
sin(t) r cos(t)
volviendo...
1 2
!
re− 2 r
f(Z1 ,Z2 ) (z1 , z2 ) = 1{r > 0, 0 < t < 2π}
r2π
g −1 (z1 ,z2 )
no necesitamos encontrar la inversa de g pues r2 = z12 + z22 es el único

reemplazo que necesitamos hacer. La indicadora se desvanece pues r > 0
vale para cualquier par (z1 , z2 ), y t no entra en la ecuación. Obtenemos:
1 − 1 (z12 +z22 ) 1 1 2 1 1 2
f(Z1 ,Z2 ) (z1 , z2 ) = e 2 = √ e− 2 z1 √ e− 2 z2
2π 2π 2π
11. Condicionales
En este capı́tulo se reordenan los conceptos de [1] Condicionales. Se intenta
minimizar la cantidad de definiciones para aprovechar los teoremas ya dados
en los capı́tulos anteriores. Para ejemplos y demostraciones leer el borrador
mencionado. Se dan todas las definiciones para V.A. en 2 dimensiones, se podrı́a
generalizar sin problema a n-dimensional, teniendo en cuenta que al condicionar
a Xi = xi se reduce la dimensión en 1.
11.1. Variables condicionales

Definición 11.1 (Fda condicional de Y dado X = x). Sean (X, Y ) una V.A.
2-dimensional sobre un e.p. (Ω, A, P ), discreta (d) o continua (c). Sea x ∈ R un
número tal que P (X = x) > 0 o fX (x) > 0. Definimos la siguiente función:
X P ((X, Y ) = (x, z))
FY |X=x (y) := si (X, Y ) discreta, P (X = x) > 0
P (X = x)
z≤y
Z y
fX,Y (x, z)dz
FY |X=x (y) := si (X, Y ) continua, fX (x) > 0
−∞ fX (x)
NOTA: Si no se cumplen las hipótesis no se define la función.
45
Teorema 11.2 (La Fda es una Fda). La función FY |X=x (y) como la definimos
es una función de distribución. Entonces, existe una V.A. sobre el espacio de
probabilidad (Ω, A, P ) que la tiene por función de distribución. La definiremos
a continuación.
Demostración. EJERCICIO: Verificar que se cumplen las tres propiedades que
debe cumplir
Definición 11.3 (V.A. Y condicional a X = x). Sean (X, Y ) una V.A. 2-
dimensional sobre un e.p. (Ω, A, P ), discreta (d) o continua (c). Sea x ∈ R un
número tal que P (X = x) > 0 o fX (x) > 0.
Definimos la variable aleatoria Y |X = x (se lee Y concionada a X = x,
o Y dado que X = x) sobre (Ω, A, P ) a partir de la función de distribución
FY |X=x (y).
NOTA: Si se cumplen las hipótesis la V.A. existe por teorema, si no no se
define.
NOTA TEOREMITA: Si (X, Y ) discreta Y |X = x será discreta, si con-
tinua continua.
Teorema 11.4 (Función de probabilidad o densidad). Sea Y |X = x discreta
(d) o continua (c) definida sobre (Ω, A, P ), su función de probabilidad puntual
o su función de densidad (fdp) vale:
P ((X, Y ) = (x, y)) pX,Y (x, y)

pY |X=x (y) = =
P (X = x) p(X = x)
fX,Y (x, y)
fY |X=x (y) =
fX (x)
Demostración. La segunda surge simplemente de derivar la función de distribu-
ción. La primera surge de analizar los saltos de la función de distribución.
NOTA: La división se puede hacer ya que para definir Y |X = x pedimos
que lo que está en el denominador no sea nulo.
Ejemplo 11.5 (Ejemplo condicionales). Hacer ejemplo con urna 3 verdes, 2 ro-
jas, 2 azules; extraer 2 sin reposición. Hacer ejemplo uniforme sobre un triángulo
o sobre una región como la del parcial.
Teorema 11.6 (Construcción de la conjunta). Sea Y |X = x discreta (d) o con-
tinua (c) definida sobre (Ω, A, P ), y dada la marginal de X, podemos reconstruir
la conjunta:
pX,Y (x, y) = pY |X=x (y)pX (x)
fX,Y (x, y) = fY |X=x (y)fX (x)
para completar, en los puntos donde la condicional no esté definida diremos que
la conjunta es nula.
Demostración. Pasar multiplicando y completar los huecos
46
Teorema 11.7 (Fórmula de probabilidad total ampliada). Sea Y |X = x discre-
ta (d) o continua (c) definida sobre (Ω, A, P ), y dada la marginal de X, podemos
reconstruir la marginal de Y :
X
pY (y) = pY |X=x (y)pX (x)
x∈Sop(X)
Z
fY (y) = fY |X=x (y)fX (x)dx
Sop(X)
Demostración. En la definición de densidad marginal reemplazar la conjunta

por el producto de condicional y marginal, restringir la operación al soporte
para evitar problemas técnicos
NOTA: La versión discreta es la FPT de siempre, ampliamos el teorema al
caso continuo.
11.2. Modelos discreto continuos

Definición 11.8 (V.A. Mezcla). Sean (Ω, A, P ) un e.p., M : Ω → Z+ (o en
otro conjunto) una V.A. discreta tal que Im(M (ω)) = M (conjunto tal que
M ⊂ Z+ ) con pM (m) = P (M = m) > 0 para todo m ∈ M. Sea (Xm : m ∈ M)
una familia de V.A. definida sobre el mismo e.p. (Ω, A, P ) e independiente de M .
En tal caso, X := XM (notar subı́ndice aleatorio) es una V.A. bien definida y la
llamaremos “Mezcla de variables aleatorias Xm obtenida mediante la mezcladora
M ”.
Convención 11.9 (Mezcla tı́pica). En general, M = 1, 2 . . . n. Para describir
la variable mezcla, escribiremos

 X1 con probabilidad p1
 n
X2 con probabilidad p2
 X
X= donde pi = 1
 ...
 i=1
Xn con probabilidad pn

Teorema 11.10 (Fda de variable mezcla). Sea X = XM variable mezcla como

la definimos, vale: X
FX (x) = FXm (x)P (M = m)
m∈M
Demostración.
X
FX (x) = P (XM ≤ x) = P (XM ≤ x|M = m)P (M = m) = . . .
m∈M
X X
... = P (Xm ≤ x|M = m)P (M = m) = FXm (x)P (M = m)
m∈M m∈M
47
Teorema 11.11 (fdp o fpp de variable mezcla). Sea X = XM variable mezcla
como la definimos, discreta o absolutamente continua, vale:
X
pX (x) = pXm (x)P (M = m)
m∈M
X
fX (x) = fXm (x)P (M = m)
m∈M
NOTA: Es perfectamente válido mezclar Xi discretas con Xj continuas, o

mezclar variables mixtas. Para analizar tal caso usar la función de distribución
que siempre es válida.
Ejemplo 11.12 (Ejemplo de mezcla). Resolver mezcla de dos uniformes. Mos-
trar gráfico de funciones de densidad originales y mezcla. Dejar servido para
hacer un bayes.
Definición 11.13 (Bayes discreto-continuo o Bayes para mezcla). Sea X = XM
variable mezcla como la definimos, con Xm absolutamente continuas. Definimos:
fXm (x)pM (m) fXm (x)pM (m)

P (M = m|X = x) := =P
fX (x) m∈M fXm (x)pM (m)
NOTA 1: Se puede interpretar la definición anterior como una ampliación

de la definición de P (B|A) para ciertos casos donde P (A) = 0; o como una poco
feliz forma de escribir dos cosas totalmente distintas con la misma notación.
NOTA 2: La definición anterior es consistente con cierta forma de paso al
lı́mite en la definición tradicional de probabilidad condicional. Ver [1]
11.3. Momentos y función de regresión

Teorema 11.14 (Momentos de variable condicional). Como Y |X = x es V.A.,
es inmediato:
Z ∞ Z 0
E[Y |X = x] = [1 − FY |X=x (y)]dy − FY |X=x (y)dy
0 −∞
Valen las mismas reglas de cálculo, definición clásica:

X
E[Y |X = x] = ypY |X=x (y)
y∈At(Y |Xx )
Z ∞
E[Y |X = x] = yfY |X=x (y)
−∞
y gran teorema:
X
E[g(Y |X = x)] = g(y)pY |X=x (y)
y∈At(Y |Xx )
Z ∞
E[g(Y |X = x)] = g(y)fY |X=x (y)
−∞
48
y para la varianza, si la esperanza del cuadrado es finita:
V (Y |X = x) = E[(Y |X = x)2 ] − E 2 [Y |X = x]
o, equivalente:
V (Y |X = x) = E[Y 2 |X = x] − E 2 [Y |X = x]
Teorema 11.15 (Momentos de mezcla). Sea X = XM V.A. mezcla como la

definimos en el capı́tulo, se demuestra fácilmente con un tema que veremos a
continuación: X
E[X] = E[Xm ]pM (m)
m∈M
X X
V [X] = V [Xm ]pM (m) + (E[Xm ] − E[X])2 pM (m)
m∈M m∈M
NOTA MECÁNICA: Ya mencionamos que esperanza y varianza son el

baricentro y el momento de inercia de la densidad, estas fórmulas son análogas
a calcular el baricentro de varias secciones y el momento de inercia baricéntrico
de varias secciones mediante Steiner.
Definición 11.16 (Función de regresión). Sean (X, Y ) una V.A. 2-dimensional

sobre un e.p. (Ω, A, P ), definimos la función de regresión de Y sobre X, ϕ :
Sop(X) → R, de la siguiente manera:
ϕ(x) := E[Y |X = x]
Definición 11.17 (Función *tridente). Sean (X, Y ) una V.A. 2-dimensional so-
bre un e.p. (Ω, A, P ), definimos la función *tridente de Y sobre X, ψ : Sop(X) →
R, de la siguiente manera:
ψ(x) := V [Y |X = x]
12. Esperanza condicional

12.1. Presentación
Este es probablemente el tema más difı́cil conceptualmente que veremos
en el curso (don’t panic: las cuentas son muy fáciles). Intentaremos dar una
descripción lo más clara posible, para entenderlo bien se deben leer libros que
escapan el alcance del curso (y el conocimiento del que escribe) como [9].
Comencemos describiendo el problema. Tenemos (X, Y ) una variable alea-
toria 2-dimensional sobre un e.p. (Ω, A, P ). En una realización del experimento
yo puedo observar o medir X, y a partir de ello quiero poder (en algún sentido)
aproximar la variable Y desconocida (pero realizada) como una función ϕ(X).
Dar algún ejemplo como caldera donde mido temperatura y quiero inferir
sobre la presión. Hacer esquema conceptual.
Definición 12.1 (V.A. esperanza condicional). Sea (X, Y ) una variable alea-
toria 2-dimensional sobre un e.p. (Ω, A, P ), con E[|Y |] < ∞. Llamaremos es-
peranza condicional de Y dada X, a la que escribiremos E[Y |X], a cualquier
49
variable aleatoria ϕ(X) (transformada de X con ϕ : R → R medible) tal que
cumpla la siguiente ecuación funcional:
E[ϕ(X)h(X)] = E[Y h(X)] ∀h : R → R medible y acotada

NOTA MECÁNICA: Ecuaciones funcionales similares se encuentran al
resolver problemas variacionales por métodos numéricos.
Teorema 12.2 (Existencia de la esperanza condicional). Muy complicado. En
los problemas del curso siempre existirá
Teorema 12.3 (Unicidad de la esperanza condicional). Si ϕ1 y ϕ2 son solucio-
nes de la ecuación funcional, las mismas son iguales a.s. (almost surely), esto es:
P (ϕ1 (X) = ϕ2 (X)) = 1. Entre nosotros diremos que la esperanza condicional
es única.
Teorema 12.4 (Importantı́simas propiedades de la esperanza condicional). Se
cumplen las hipótesis para definirla, vale:
1. Fórmula de probabilidades totales:
E[E[Y |X]] = E[Y ]
2. Funciones de X salen como constantes (propiedad pass trough):
E[g(X)Y |X] = g(X)E[Y |X]
3. Si X e Y son independientes, la V.A. esperanza condicional degenera en

constante:
E[Y |X] = E[Y ]
Demostración. Se demuestran en forma sencilla a partir de la definición y eli-

giendo inteligentemente la función h, ver [1], Condicionales.
Teorema 12.5 (Cálculo de la V.A. esperanza condicional). Se cumplen las
hipótesis para definirla, la función de regresión ϕ(x) = E[Y |X = x] resuelve la
ecuación funcional, vale entonces:
E[Y |X] = ϕ(x)|x=X = ϕ(X)
Demostración. Separar en caso discreto o continuo. Reemplazar en la ecuación

funcional ϕ por la sumatoria o integral de cálculo de la esperanza condicional
de Y dado X = x y en unos pasos se prueba que ϕ es solución.
Teorema 12.6 (Más propiedades de la V.A. esperanza condicional). Valen:
1. Linealidad: E[aY1 + bY2 |X] = aE[Y1 |X] + bE[Y2 |X]
2. *Monotonı́a: Y1 ≤ Y2 ⇒ E[Y1 |X] ≤ E[Y2 |X]
3. *Jensen: g : R → R convexa y E[|Y |] < ∞, E[|g(Y )|] < ∞ enton-
ces: g(E[Y |X]) ≤ E[g(Y )|X] y en particular, si E[Y 2 ] < ∞ entonces
E[Y |X]2 ≤ E[Y 2 |X].
NOTA: En clase solo daremos linealidad, no monotonı́a ni Jensen.
50
Definición 12.7 (V.A. varianza condicional). Con las mismas hipótesis que
definimos E[Y |X] y además E[Y 2 ] < ∞ definimos la varianza condicional de Y
dado X:
V (Y |X) := E[Y 2 |X] − (E[Y |X])2
Teorema 12.8 (Cálculo de la V.A. varianza condicional). Si está definida,
la varianza condicional se obtiene especificando la función *tridente ψ(x) =
V (Y |X = x) en la variable aleatoria X:
V (Y |X) = ψ(X)
Teorema 12.9 (Pitágoras). Si está definida la varianza condicional:
V (Y ) = E[V (Y |X)] + V (E[Y |X])
Demostración. Se puede demostrar a partir de cierta interpretación geométrica

de las definiciones dadas en este capı́tulo. Ver [1] Condicionales
12.2. Iterpretación geométrica

Seguiremos la interpretación geométrica de [1] Condicionales, subtı́tulo Pre-
dicción, aunque cambiando algunos nombres de elementos y reordenando los
conceptos. La idea es definir ciertos elementos, mostrar que estamos en un es-
pacio vectorial, y a partir de lo que sabemos de álgebra ver que la esperanza
condicional es una proyección ortogonal.
Definición 12.10 (Definiciones varias). Sean (Ω, A, P ) un e.p., definimos:
V := {X : X : Ω → R, X es V.A., V (X) < ∞}

HX := {h(X) : h : R → R, h(X) es V.A., E[(h(X))2 ] < ∞}
hX, Y i := E[X · Y ]
p p
||X|| := hX, Xi = E[X 2 ]
p
d(X, Y ) := ||X − Y || = E[(Y − X)2 ]
En palabras, V son todas las V.A. en el espacio de probabilidad de varianza fini-
ta, HX son todas las transformaciones posibles de X tal que esa transformación
sea V.A. de varianza finita, y luego definimos algunas operaciones (producto
interno, módulo, distancia) para las V.A.
Teorema 12.11 (Sobre las definiciones anteriores). Vale que:

V es un espacio vectorial (con la suma y producto por escalar usuales).
HX es un subespacio de V
hX, Y i es un producto interno en V

||X|| es una norma en V
d(X, Y ) es una distancia en V
51
Demostración. Demostraciones a cargo del lector, se asume que tiene co-
nocimientos básicos de álgebra lineal.
Teorema 12.12 (Predictor). Sean X, Y V.A. sobre un e.p. tales que E[Y 2 ] <
∞, y sea ϕ(X) = E[Y |X] la esperanza condicional de Y dado X. Vale que ϕ(X)
es la proyección ortogonal de Y sobre el subespacio HX .
Demostración. Vamos por partes
1. Primero demostremos que ϕ(X) ∈ HX usando la hipótesis E[Y 2 ] < ∞ y

la desigualdad de Jensen (que no dimos en clase por ser muy técnica)
E[ϕ(X)2 ] = E[E[Y |X]2 ] ≤ E[E[Y 2 |X]] = E[Y 2 ] < ∞
como es función de X y cumple la condición sobre la esperanza del cua-

drado ϕ(X) ∈ HX
2. Ahora probemos a partir de la ecuación funcional que define la esperanza
condicional que se trata de la proyección.
Si ϕ(X) es la p.o. de Y sobre HX , el vector que va de una V.A. a la otra
debe ser perpendicular al subespacio, esto es Y − ϕ(X) ⊥ HX . Partamos
de la ecuación funcional
E[ϕ(X)h(X)] = E[Y h(X)] ∀h
pasamos restando
E[Y h(X)] − E[ϕ(X)h(X)] = 0
por linearidad de esperanza
E[(Y − ϕ(X))h(X)] = 0
lo que es equivalente a escribir, usando el producto interno que definimos
hY − ϕ(X), h(X)i = 0 ∀h
lo que significa que es perpendicular al subespacio
Por lo tanto, podemos interpretar a ϕ(X) = E[Y |X] como la función de

X que más se acerca a Y (en el sentido de distancia que definimos) por ser
ϕ(X) la proyección ortogonal de Y . La esperanza condicional es entonces una
aproximación óptima o el mejor predictor.
Teorema 12.13 (Pitágoras II). Ya enunciamos, ahora demostraremos:
V (Y ) = E[V (Y |X)] + V (E[Y |X])
52
Demostración. Por definición de varianza, y usando la norma en V que definimos
podemos escribir:
V (Y ) = E[(Y − E[Y ])2 ] = . . .
sumamos y restamos ϕ(X) y agregamos paréntesis convenientemente
. . . = E [(Y − ϕ(X)) + (ϕ(X) − E[Y ])]2 = . . .

abrimos el binomio
. . . = E (Y − ϕ(X))2 + (ϕ(X) − E[Y ])2 + 2(Y − ϕ(X))(ϕ(X) − E[Y ]) = . . .

. . . = E[(Y −ϕ(X))2 ]+E[(ϕ(X)−E[Y ])2 ]+2E[Y ϕ(X)−Y E[Y ]−ϕ(X)2 +ϕ(X)E[Y ]]

Con paciencia se puede demostrar que:
E[(Y −ϕ(X))2 ] = E[V (Y |X)] (expresar como E[E[(Y −ϕ(X))2 |X]], luego
abrir el cuadrado y usar propiedades de esperanza condicional)
E[(ϕ(X)−E[Y ])2 = V (E[Y |X]) (este es casi inmediato, notar que E[ϕ(X)] =
E[Y ] y aplicar definición de varianza)
el tercer término se anula (de nuevo usar propiedades de esperanza condi-
cional)
queda entonces por resultado el teorema de pitágoras.

Gráficamente, podemos pensar HX como un plano (en el gráfico el plano ho-
rizontal); a las constantes como una recta dentro de ese plano, pues las podemos
considerar como k = h(X) y obviamente tienen varianza finita (vale 0), sobre
la recta de las constantes se ubicará E[Y ]. Como ya vimos, ϕ(X) = E[Y |X] es
la proyección de Y sobre el plano HX , también vale que E[Y ] es la proyección
sobre la recta tanto de Y como de ϕ(X). Luego dibujamos (se copia de [1]):
12.3. Ejemplos varios

PN
Ejemplo 12.14 (Suma aleatoria de V.A.). Hacer ejemplo S = i=1 Xi con Xi
independientes e independientes de N . Hacerlo paso a paso y usar la indepen-
dencia con N a último momento, destacar que en la guı́a hay ejercicios donde
eso no se cumple.
Ejemplo 12.15 (Mezcla). Demostrar las fórmulas dadas para esperanza y va-
rianza de mezclas
53
Figura 1: Teorema de pitágoras
13. Proceso Bernoulli

13.1. Procesos y proceso Bernoulli
Definición 13.1 (Proceso aleatorio). Un proceso aleatorio o proceso estocástico
Π es una familia {Xt : t ∈ T } de variables aleatorias que toman valores en un
conjunto S.
Nota: Las Xt pueden o no ser independientes.
Clasificación según T : si los tiempos son numerables, por ejemplo T =
Z+ , Z+
0 , Z clasificamos al proceso como de tiempo discreto. Si en cambio el tiem-
po es no numerable, tı́picamente T = [0, +∞), R, llamamos al proceso de tiempo
continuo.
Clasificación según S: el conjunto definirá si las variables Xt son discretas o
continuas, tı́picamente S = Z o S = R.
Definición 13.2 (Proceso Bernoulli). Diremos que {Xn : n ∈ Z + } es un
proceso Bernoulli si Xn son V.A.I.I.D. con distribución Ber(p), i.e.
P (Xn = x) = (1 − p)1{x = 0} + p1{x = 1}
o equivalente:
pXn (0) = 1 − p pXn (1) = p
El proceso Bernoulli (o ensayos Bernoulli) se puede pensar como tirar re-

petidas veces una moneda, o (más general) repetir en condiciones ideales un
experimento en el cual hay dos resultados posibles: éxito (1) y fracaso (0).
54
13.2. Distribuciones asociadas
Teorema 13.3 (Distribución binomial). Definamos Yn como la cantidad de
éxitos (1) observados en los primeros n (fijo) ensayos de Bernoulli
n
X
Yn := Xi
i=1
Vale que la variable Yn tendrá distribución binomial Bi(n, p) (ver tabla de

distribuciones).
Nota: su moda es mod(Yn ) = b(n + 1)pc o también mod(Yn ) = d(n + 1)pe − 1
(notar que en general son el mismo número y la moda es única, salvo cuando lo
que queda dentro del redondeo es un entero y entonces hay dos modas).
Teorema 13.4 (Distribución geométrica y pascal). Definamos Sk como la can-
tidad de experimentos necesarios (tiempo de espera) hasta observar k (fijo)
éxitos en ensayos Bernoulli. Formalmente:
( n
)
X
Sk = mı́n n : Xi = k
i=1
Vale que Sk tendrá distribución Pascal P a(k, p) (ver tabla de distribuciones).

El caso particular de tiempo de espera hasta el primer éxito S1 tiene distribución
Geométrica Geo(p) (ver tabla).
NOTA: No todos los autores definen Geométrica y Pascal como lo hacemos

en el curso. Los rusos en general las definen como cantidad de fracasos (en lugar
de experimentos) hasta el primer o k-ésimo éxito. Y a la geométrica algunos
autores la llaman binomial negativa.
Teorema 13.5 (Pérdida de memoria de la geométrica). Si T ∼ Geo(p) entonces
diremos que tiene la propiedad de pérdida de memoria, formalmente:
P (T > n + m|T > n) = P (T > m) ∀n, m ∈ Z+
Demostración. Inmediata, usar la definición de probabilidad condicional y re-

emplazar las probabilidades por su expresión (1 − p)n+m y (1 − p)n .
Teorema 13.6 (La pérdida de memoria caracteriza a la geométrica). Si T es

una variable aleatoria discreta a valores en Z+ con la propiedad de pérdida de
memoria, entonces T ∼ Geo(p), donde p = P (T = 1).
Teorema 13.7 (Tiempos entre éxitos sucesivos). Dado un proceso Bernoulli
donde definimos los tiempos de espera Sk con distribución Pascal P a(k, p),
definamos Tk como la cantidad de experimentos entre el éxito k − 1 y el éxito k
(con T1 la cantidad de ensayos hasta el primer éxito), formalmente:
T1 = S1 Tk = Sk − Sk−1 k>1
Vale que {Ti , i ∈ Z+ } son V.A.I.I.D. con distribución Geo(p).
55
Teorema 13.8 (Suma de geométricas IID). Sean {Ti , i ∈ Z+ } familia de
V.A.I.I.D. con distribución Geo(p), entonces:
k
X
Sk = Ti
i=1
tiene distribución P a(k, p).

Teorema 13.9 (Relación entre binomial y pascal). Sea Yn ∼ Bi(n, p) y Sk ∼
P a(k, p), vale que:
P (Yn ≥ k) = P (Sk ≤ n)
se interpreta: “en n ensayos Bernoulli ocurren por lo menos k éxitos” es lo mismo
que decir “el tiempo de espera hasta el k-ésimo éxito es a lo sumo n”.
Pn
Teorema 13.10 (Aproximación Poisson a la binomial). Sea Yn = i=1 Xi , se
indicó ya que es una variable aleatoria binomial. Si n es grande, p pequeño, y
λ := np constante vale que:
λy e−λ
P (Yn = y) ≈
y!
es decir, podemos aproximar a la distribución Bi(n, p) por una P oi(λ = np)
(donde λ es la media).
Demostración. En la fórmula de la binomial expresar el combinatorio por facto-
riales, reemplazar n! y (n−k)! por la fórmula de Stirling, tomar lı́mite resolviendo
las indeterminaciones 0∞ y listo.
13.3. Proceso Bernoulli generalizado

Definición 13.11 (Proceso Bernoulli). Diremos que {Xn : n ∈ Z + } es un
proceso Bernoulli generalizado si Xn son V.A.I.I.D. discretas sobre un conjunto
finito, sin perder generalidad {1 . . . r}
n
X
P (Xn = x) = px px = 1
x=1
o equivalente:
pXn (1) = p1 pXn (2) = p2 ... pXn (r) = pr
El proceso Bernoulli generalizado (o ensayos Bernoulli generalizados) se pue-

de pensar como repetir en condiciones ideales un experimento en el cual hay r
resultados posibles.
Teorema 13.12 (Distribución multinomial). Sea M n un vector que cuenta la
cantidad de ocurrencias de cada resultado en los primeros n ensayos, esto es:
n
X
(Mn )j := 1{Xi = j}
i=1
Vale que la variable M n tendrá distribución multinomial M ul(n, pi ) (ver tabla

de distribuciones).
56
Teorema 13.13 (Filtrar un P.B.G.). INFORMAL: Sea {Xn : n ∈ Z + } un
proceso Bernoulli generalizado a valores {1 . . . r} con probabilidades pi . Cons-
truimos el proceso {Yn : n ∈ Z + } a valores {1 . . . r} \ {j} a partir del proceso
original descartando todas las ocurrencias del resultado j. Vale que el nuevo
proceso es un proceso Bernoulli generalizado con probabilidades
py
P (Yn = y) = 1{y 6= j}
1 − pj
13.4. Miscelánea tóxica

Teorema 13.14 (Coleccionista - Tiempo de espera). {Xn : n ∈ Z + } un proce-
so Bernoulli generalizado a valores {1 . . . m} con probabilidades pi . Sea Cm la
cantidad mı́nima de experimentos (tiempo de espera) hasta haber observado a
todos los resultados posibles por lo menos una vez. Vale que:
m−1
X X 1
E[Cm ] = (−1)m−1−q
q=0
1 − PJ
|J|=q
P P
donde PJ = j∈J pj y |J|=q indica que sumemos en todos los J subconjuntos
de {1 . . . m} que tengan cardinal q.
Demostración. Ver [10]. Los autores trabajan con lenguajes regulares y funcio-
nes generadoras (escapan los objetivos del curso y conocimiento del autor).
Ejemplo 13.15 (Aplicación de coleccionista). Para entender la fórmula, resol-
vamos para m = 1
E[Cm ] = 1
Para m = 2, por simplicidad p = (p1 , p2 ) = (a, b)
1 1
E[Cm ] = −1 + +
1−a 1−b
Para m = 3, por simplicidad p = (p1 , p2 , p3 ) = (a, b, c)
1 1 1 1 1 1
E[Cm ] = 1 − − − + + +
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
Para m genérico y pi = 1/m (resultados equiprobables):
m
q−1 m 1
X
E[Cm ] = m (−1)
q=1
q q
como se vio en un ejercicio de la guı́a (chocolatines Jack), el caso de equiproba-

bilidad tiene un resultado más fuerte:

m−1 m−2 1
Cm ∼ 1 + Ge + Ge + · · · + Ge
m m m
Teorema 13.16 (Coleccionista - Robins hasta Batman). {Xn : n ∈ Z + } un

proceso Bernoulli generalizado a valores {1 . . . b} con probabilidades pi . Sea Nb
la cantidad mı́nima de ensayos (tiempo de espera) hasta observar por primera
57
vez el resultado b, i.e. Nb = mı́n{n : Xn = b}. Definimos para i = 1, . . . , b − 1
PNb −1
el valor Mi = n=1 1{Xn = i} que cuenta la cantidad de veces que veo el
resultado i hasta ver por primera vez el resultado b. Vale que:
m
pb pb pb
Mi ∼ Ge −1 P (Mi = m) = 1−
pb + pi pb + pi pb + pi
En particular, E[Mi ] = pi /pb

NOTA: Podemos pensar el problema del a siguiente manera: unos chocola-
tines traen premios de superhéroes Yankis. Todos queremos el premio Batman
(el premio r), si nos sale un Súperman o Mujer Maravilla (premios 6= i) nos los
quedamos, pero si nos sale un Robin (el premio i) lo tiramos al carajo. Compra-
mos chocolatines hasta conseguir el preciado Batman, ¿cuántos Robins tengo
que tirar?
Demostración. Ver [1], Ensayos Bernoulli, ejemplo 1.16. También se puede de-
mostrar notando que si al proceso Bernoulli generalizado de las Xi original lo
filtramos quitando todos los experimentos con resultado que no nos interesa
{j : j 6= i, j 6= r}, nos quedará un proceso con solamente dos resultados, i y r,
y probabilidades respectivas qi = pi /(pi + pr ) y qr = pr /(pi + pr ). El tiempo
de espera hasta el primer resultado r en el proceso filtrado es una geométrica
Ge(qr ), y para contar la cantidad de fracasos le restamos 1.
Teorema 13.17 (Rachas - Tiempos de espera). Del Feller XIII.7: Sea Tr el

tiempo de espera (cantidad de lanzamientos necesarios) hasta observar por pri-
mera vez una racha de r éxitos consecutivos en un P.B. p, con q = 1 − p, vale
que:
1 − pr 1 2r + 1 p
E[Tr ] = r
V (Tr ) = r 2
− r
− 2
qp (qp ) qp q
Sean fn la probabilidad de que la primera vez que se observa una racha de
r éxitos consecutivos ocurra en la tirada n, y qn la probabilidad de que en n
tiradas no haya ninguna racha de r éxitos consecutivos, vale que:
(x − 1)(1 − px) 1
fn '
(r + 1 − rx)q xn+1
1 − px 1
qn ' n+1
(r + 1 − rx)q x
donde x es la menor solución a la ecuación s = 1 − qpr sr+1 , la misma se puede
encontrar de forma recursiva tomando g(s) = 1−qpr sr+1 , x0 = 1, xn+1 = g(xn ).
Demostración. Ver [3]. Trabaja con funciones generadoras (escapan los objetivos
del curso y conocimiento del autor).
Teorema 13.18 (Rachas - Competencia). Del Feller VIII.1: Sea A el evento
“un racha de α éxitos consecutivos ocurre antes que una racha de β fracasos
consecutivos” en un P.B. p, con q = 1 − p, vale que:
1 − qβ
P (A) = pα−1
pα−1 + q β−1 − pα−1 q β−1
58
1 − pα
P (B) = q β−1
pα−1 + q β−1
− pα−1 q β−1
P (A) + P (B) = 1
Demostración. Ver [3]. Esta se entiende fácil, hace algo parecido a lo que hicimos
en el problema de la rata.
Ejemplo 13.19 (Coleccionista con tres premios y vacı́os). Resolveremos el pro-
blema del coleccionista clásico pero agregándole la posibilidad de que vengan
chocolatines vacı́os. Sea {Xi : i ∈ Z+ } un proceso Bernoulli generalizado a va-
lores (0, 1, 2, 3) con probabilidades respectivas (z, a, b, c). El coleccionista quiere
juntar 1 a 3, y los 0 no le interesan, representan el chocolatı́n vacı́o.
Llamaremos N al tiempo de espera a completar la colección, NZ al tiem-
po que falta hasta completar la colección dado que ya acumulé Z ⊂ {1, 2, 3}
(subconjunto de la colección completa).
Condicionemos para empezar N al primer resultado. Si sale vacı́o el problema
vuelve a empezar, si sale 1 a 3 el coleccionista avanza:
N |X1 = 0 ∼ 1 + N
N |X1 = 1 ∼ 1 + N1
N |X1 = 2 ∼ 1 + N2
N |X1 = 3 ∼ 1 + N3
Para analizar N1 de forma similar, condicionemos al resultado i que será el
primero después de obtener el premio 1 (no necesariamente i = 2 pues podrı́an
salir unos vacı́os primero). De nuevo, si ya tenemos el 1 acumulado y nos sale
vacı́o o de nuevo 1 el coleccionista no avanza, si sale 2 o 3 sı́.
N1 |Xi = 0 ∼ 1 + N1
N1 |Xi = 1 ∼ 1 + N1
N1 |Xi = 2 ∼ 1 + N1,2
N1 |Xi = 3 ∼ 1 + N1,3
Las variables N1,2 y N1,3 representan el tiempo de espera hasta encontrar

el único premio que falta, 3 y 2 respectivamente, se distribuyen entonces como
variables geométricas Ge(c) y Ge(b).
Entonces, por fórmula de probabilidades totales para esperanza:
E[N1 ] = (z + a)E[1 + N1 ] + bE[1 + N1,2 ] + cE[1 + N1,3 ]

E[N1 ] (1 − (z + a)) = (z + a + b + c) + bE[N1,2 ] + cE[N1,3 ]

1 b c
E[N1 ] = 1+ +
1−z−a c b

1 b c
E[N1 ] = 1+ +
b+c c b
59
Análogamente
1 c a
E[N2 ] = 1+ +
c+a a c

1 a b
E[N3 ] = 1+ +
a+b b a
Planteamos ahora E[N ] por fórmula de probabilidades totales
E[N ] = zE[1 + N ] + aE[1 + N1 ] + bE[1 + N2 ] + cE[1 + N3 ]
E[N ](1 − z) = (z + a + b + c) + aE[N1 ] + bE[N2 ] + cE[N3 ]

1 a b c b c a c a b
E[N ] = 1+ 1+ + + 1+ + + 1+ +
a+b+c b+c c b c+a a c a+b b a
Si z = 0 (no hay chocolatines vacı́os) trabajando se llega a la fórmula que
vimos en clase:
1 1 1 1 1 1
E[N ] = 1 − − − + + + si z = 0
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
60
14. Proceso de Poisson
Seguiremos [1], Procesos de Poisson, 22 de abril de 2013. Se formaliza un
poco más la pérdida de memoria del proceso, y se agrega algún resultado sobre
el PPP mirado desde un t0 hacia atrás.
14.1. Procesos puntuales

Definición 14.1 (Proceso puntual aleatorio). Sea {Sn : n ∈ Z+ 0 } un proceso
aleatorio que toma valores sobre [0, +∞) tales que, casi seguramente (a.s.)
(a) S0 = 0
(b) S0 < S1 < S2 < · · ·
(c) lı́mn→∞ Sn = +∞
Diremos entonces que Sn es un proceso puntual aleatorio o P.P. sobre la semi-
rrecta positiva.
NOTA 1: Un P.P. es un proceso que (con probabilidad 1): su primer variable
es 0, sus variables están ordenadas y no tienen arribos simultáneos, y no explota
(no puedo ver infinitos arribos en una cantidad finita de tiempo).
NOTA 2: Interpretaremos a los P.P. como el tiempo de arribo o el tiempo
de llegada de una marca o evento (hacer gráfico).
NOTACIÓN: A los procesos puntuales los llamaremos habitualmente con
letras griegas mayúsculas, por ejemplo “Sea Π un proceso puntual de Poisson
de tasa...”
Definición 14.2 (Tiempos de espera). Al proceso {Tn : n ∈ Z+ } definido por:
Tn := Sn − Sn−1
donde las Sn son un P.P, lo llamaremos sucesión de tiempos de espera entre

arribos. Notar que toma valores en [0, +∞) pues las Si están ordenadas de
menor a mayor.
Definición 14.3 (Proceso de conteo asociado). Sea {Sn : n ∈ Z+ 0 } un P.P,

y {Nt : t ∈ [0, +∞)} un proceso a tiempo continuo definido de la siguiente
manera: Nt es la cantidad de arribos que ocurren en el intervalo (0, t] (notar
que no cuento a S0 ), i.e.
X
Nt := 1{Sn ≤ t} = máx{n ≥ 0 : Sn ≤ t}
n≥1
Llamaremos al proceso de las Nt proceso de conteo de la sucesión de arribos Sn .

Definiremos también por comodidad la cantidad de arribos en el intervalo
(s, t] a la que llamaremos “incrementos”:
X
N(s,t] := Nt − Ns = 1{s < Sn ≤ t}
n≥1
NOTACIÓN: Escribiremos indistintamente para el proceso de conteo Nt =

N (t) y para los incrementos N(s,t] = N (s, t]
61
Teorema 14.4 (Propiedades de procesos puntuales y de conteo). Con las Sn y
Nt recién definidas vale que:
(1) Nt ≥ n ⇔ Sn ≤ t
(2) Nt = n ⇔ Sn ≤ t < Sn+1
(3) Nt es una V.A. a valores enteros no negativos
(4) N0 = 0 y lı́mt→∞ Nt = ∞
(5) Si s < t entonces Ns ≤ Nt .

(6) Si pensamos N (t) como una función (aleatoria, pues depende de las Sn ) de
t, tenemos N : R+ → N0 continua por derecha, no decreciente, que da saltos
en cada tiempo de arribo de altura 1. Hacer gráfico.
14.2. Proceso puntual de Poisson

Los procesos de Poisson tienen muchas propiedades que le son únicas, por
lo que admiten muchas definiciones distintas. Adoptamos la de [1] pues, en sus
palabras, es la más sencilla y generalizable (se la puede extender fácilmente de
la semirrecta R+ al espacio Rn )
Definición 14.5 (Proceso puntual de Poisson). Diremos que un P.P. {Sn : n ∈
Z+
0 } sobre la semirrecta positiva es un proceso puntual de Poisson de intensidad
λ > 0 si satisface las siguientes dos condiciones:
(1) El proceso de conteo asociado tiene incrementos independientes, i.e. para

cada colección finita de tiempos 0 < t1 < t2 < · · · < tn las variables
aleatorias N (0, t1 ], N (t1 , t2 ], . . . , N (tn−1 , tn ] son independientes.
(2) Los incrementos tienen la distribución de Poisson N (s, t] ∼ P oi(λ(t − s)),
i.e
e−λ(t−s) (λ(t − s))n
P (N (s, t] = n) = n ∈ Z+
0 ,0 ≤ s < t
n!
NOTA: La segunda condición se puede leer en dos partes:
(2.a) los incrementos son temporalmente homogéneos (o invariantes por tras-

lación), i.e. la distribución de las N (t, t + ∆t] depende de la longitud del
intervalo ∆t pero no de la posición del intervalo t.
(2.b) la distribución de cada incremento es Poisson con media proporcional a la
cantidad de tiempo considerado, N (t, t + ∆t] ∼ P oi(λ∆t)
Las condiciones 1 y la 2.a nos dicen que los incrementos son temporalmente
homogéneos (no importa donde nos paremos) e independientes, lo que implica
que si nos paramos en un tiempo arbitrario t y reiniciamos el proceso todo lo
que ocurra de ahı́ en adelante será independiente del pasado y se distribuirá de
la misma forma que el proceso original. Informalmente, diremos que le proceso
de Poisson no tiene memoria. La fiesta de Poisson empieza cuando llego.
62
Teorema 14.6 (Distribuciones asociadas). Sea Π = {Sn : n ∈ Z+ 0 } un PPP de
intensidad λ sobre la semirrecta positiva, y los tiempos de espera {Tn : n ∈ Z+ }
definidos:
Tn := Sn − Sn−1
Vale que:
(I) La densidad conjunta de los primeros n tiempos de arribo S1 , S2 , . . . , Sn
está dada por:
f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }
(II) Las marginales de los tiempos de arribo son V.A. gamma,
Sn ∼ Γ(n, λ)
(notar dependencia)
(III) Los tiempos de espera Tn son V.A.I.I.D. con distribución exponencial
Tn ∼ Exp(λ)
(notar independencia)
Demostración. Ver [1], Procesos de Poisson, teorema 1.5. No es tan larga y es
interesante. Arma la conjunta de las Gammas S1 . . . Sn a partir del proceso de
conteo tirando de galerazo unas integrales, y luego por jacobiano encuentra la
conjunta de las T1 . . . Tn .
Teorema 14.7 (Definiciones alternativas). Los enunciados (I) y (III) del teore-
ma anterior son caracterı́sticas únicas de los procesos de Poisson y sirven como
definiciones alternativas. Las propiedades sobre el proceso de conteo que usa-
mos como definición se pueden probar a partir de cualquiera de las definiciones
alternativas.
(I) Sea Π = {Sn : n ∈ Z+ 0 } un P.P. tal que la densidad conjunta de los
primeros n tiempos de arribo está dada por
f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }
vale que Π es un PPP(λ).

(II) NOTA: Con las marginales de los tiempos de arribo no podemos defi-
nir un PPP pues, como sabemos, las marginales no definen la densidad
conjunta.
(III) Sea {Tn : n ∈ Z+ } una sucesión de tiempos de espera con Tn V.A.I.I.D.
con distribución Exp(λ). Definimos al proceso de arribos Π = {Sn : n ∈
Z+
0 } de la siguiente manera:
n
X
S0 := 0 Sn := Ti n = 1, 2, . . .
i=1
vale que Π es un PPP(λ).
63
Demostración. Ver [1], Procesos de Poisson, tı́tulo 1.3. Es larga, hay que de-
mostrar que lo que se arma al “apilar” exponenciales independientes de tasa
λ es un proceso puntual, y que cumple las dos condiciones necesarias para ser
PPP.
Teorema 14.8 (Aditividades). Por si alguno no se avivó todavı́a, va de refuerzo:
Pn
1. Sean Ti V.A.I.I.D. exponenciales de tasa λ, y sea Sn = i=1 Ti , entonces
Sn tiene distribución Gamma (o Erlang) de parámetros n y λ, i.e.
Sn ∼ Γ(n, λ) ∼ Erl(n, λ)
Memorizar: suma de VA exponenciales independientes de misma tasa es

VA Gamma
2. P
Sean Ni V.A. independientes con distribución P oi(µi ), entonces N =
n
i=1 Ni tiene distribución de Poisson de media suma de las medias.
n
!
X
N ∼ P oi µi
i=1
Memorizar: suma de VA Poissones independientes es VA Poisson.
14.3. Pérdida de memoria

Teorema 14.9 (Pérdida de memoria 1). Sea Π un PPP(λ), t0 ∈ R+ positivo.
Definimos:
So∗ := 0 i0 := mı́n{i : Si > to } − 1
Si∗ := Sio +i − t0 i≥i
∗
Π = {Sn∗ : n ∈ Z+
0
Vale que Π∗ es un PPP(λ)

Demostración. (Informal) Se verifica que Π∗ es un PP, pues empieza con 0,
las variables vienen ordenadas de menor a mayor pues respestan el orden del
proceso original, y el lı́mite de Sn∗ en infinito coincide con el del proceso original.
Cumple con la condición 1 para ser PPP pues si en el proceso original elegi-
mos la colección de tiempos 0 < t1 < t2 < · · · < tn con t1 = t0 coincidente con
el origen del nuevo proceso, la independencia se deberá cumplir en el proceso
nuevo.
Cumple con la condición 2 pues las marcas las hereda del proceso original,
entonces P (N ∗ (s, t] = n) = P (N (s + t0 , t + to ] = n).
Tenemos entonces un proceso puntual que cumple las dos condiciones para
ser PPP.
NOTA: Hacer gráfico del proceso original y el nuevo sobre la misma recta.
Notar que es simplemente arrancar un nuevo cronómetro en un instante dado,
olvidando lo que pasó antes.
NOTA: La fiesta de Poisson empieza cuando llego.
64
Teorema 14.10 (Pérdida de memoria 2). Con las mismas hipótesis, pero T0
ahora es una V.A. a valores positivos independiente de Π (de todas las Sn )
Definimos:
So∗ := 0 i0 := mı́n{i : Si > To } − 1
Si∗ := Sio +i − T0 i≥i
∗
Π = {Sn∗ : n ∈ Z+
0
Vale que Π∗ es un PPP(λ)

Demostración. (Informal) Mismo procedimiento que en el teorema anterior, se
complica un poco la condición dos pues hay que condicionar las probabilidades
a T0 = t0 y aplicar fórmula de probabilidades totales.
Ejemplo 14.11 (Pérdida de memoria). Para compensar lo informal de las
demostraciones, calculemos sin aplicar los teoremas la probabilidad P (T1∗ > t),
que es además la que más choca con la intuición previa a estudiar estos procesos.
Caso 1: t0 arbitrario.
P (T1∗ > t) = P (Nt∗ = 0) = P (N(t0 ,t0 +t] = 0) = e−λt
de donde
T1∗ ∼ Exp(λ)
Caso 2: T0 V.A. positiva discreta
P (T1∗ > t) = P (Nt∗ = 0) = P (N(T0 ,T0 +t] = 0) = · · ·
la distribución de N(T0 ,T0 +t] no nos es conocida pues depende de T0 , ası́ que
condicionamos por FPT:
X
··· = P (N(T0 ,T0 +t] = 0|T0 = t0 )P (T0 = t0 ) = · · ·
t0 ∈A(T0 )
como T0 = t0 reemplazamos:
X
··· = P (N(t0 ,t0 +t] = 0|T0 = t0 )P (T0 = t0 ) = · · ·
t0 ∈A(T0 )
y como T0 es independiente del proceso podemos olvidar la condición

X
··· = P (N(t0 ,t0 +t] = 0)P (T0 = t0 ) = · · ·
t0 ∈A(T0 )
X X
··· = e−λt P (T0 = t0 ) = e−λt P (T0 = t0 ) = e−λt
t0 ∈A(T0 ) t0 ∈A(T0 )
de donde
T1∗ ∼ Exp(λ)
Caso 3: T0 V.A. positiva continua Es lo mismo sólo que en lugar de una
sumatoria debemos resolver una integral y en lugar de P (T0 = t0 ) debe ir
fT0 (t0 )dt0 .
65
Queda al final:
Z Z
··· = e−λt fT0 (t0 )dt0 = e−λt fT0 (t0 )dt0 = e−λt
R R
de donde
T1∗ ∼ Exp(λ)
Teorema 14.12 (Poisson hacia atrás). Sea Π un PPP(λ), t0 ∈ R+ positivo.

Definimos:
(−)
T1 := t0 − máx{Si : Si < t0 }
el tiempo que pasó desde la última marca hasta el instante arbitrario t0 ). Vale
(−)
que T1 se distribuye con la siguiente función de distribución:
FT (−) (t) = 1 − e−λt 1{0 < t < t0 } + 1{t0 ≤ t}

1
Demostración. Usando el proceso de conteo:

(−)
P (T1 > t = P (N (t0 − t, t0 ] = 0) = e−λt 1{t < t0 }
La esperanza del tiempo que pasó es
(−) 1 − e−λt0
E[T1 ]=
λ
NOTA: Notar que si t0 grande, se trata de una V.A. exponencial. El resul-
tado se puede generalizar, para un proceso lo suficientemente viejo (en estado
estacionario), desde un t0 arbitrario se tiene un PPP(λ) tanto hacia adelante
como hacia atrás.
Teorema 14.13 (Poisson hacia atrás y adelante). Sea Π un PPP(λ), t0 ∈ R+
positivo. Definimos:
W := mı́n{Si : Si ≥ t0 } − máx{Si : Si < t0 }
o, en la notación que venimos trabajando

(−)
W = T1∗ + T1
i.e., el tiempo de espera entre la última marca antes de t0 y la primera después

de t0 . Vale que:
fW (w) = λ2 we−λw 1{0 < w ≤ t0 } + λ(1 + λt0 )e−λw 1{t0 < w}
Demostración. Ver [4], I.4 Waiting time paradoxes, hace una mezcla entre las
exponenciales. O calcular la densidad de W como la suma entre la primera
exponencial desde t0 y el tiempo hacia atrás.
NOTA: Notar que para t0 grande se trata de una Γ(2, λ).
66
14.4. Más propiedades
Hipótesis en general: Sn , Tn y N (t) como se definieron.
Teorema 14.14 (Tiempos de arribo dada cantidad arribada). Sabiendo que
hasta t hubo un solo arribo, T1 se distribuye uniformemente entre 0 y t, i.e.
T1 |N (t) = 1 ∼ U (0, t)
o, equivalente:
s
P (T1 < s|N (t) = 1) = 1{0 < s < t} + 1{t ≤ s}
t
Demostración. Demostrar en clase, deberı́a salir fácil.
Si fijamos ahora la cantidad de arribos en un intervalo (a, d) y nos pregun-
tamos qué pasa en un sector del intervalor (b, c) ⊂ (a, d), obtenemos:

c−b
N (b, c]|N (a, b] = n ∼ Bi n, a≤b<c≤d
d−a
entonces,

n m c−b
P (N (b, c] = m|N (a, b] = n) = p (1 − p)n−m con p =
m d−a
Demostración. Demostrar en clase, deberı́a salir fácil. Tomar a = b = 0 sin
perder generalidad para que el subintervalo quede a la izquierda y el resto a
derecha ya evitar sumatorias.
Generalizando todavı́a más informalmente, podemos decir que si Π es un
proceso puntual de Poisson de intensidad λ sobre R+ . Condicional al evento
N (t) = n, los n arribos ocurridos en [0, t] tienen la misma distribución conjunta
que la de n puntos independientes elegidos al azar en [0, t].
Teorema 14.15 (Coloración). Sea Π un PPP sobre R+ de intensidad λ, y B
un PBG a valores {1 . . . r}. Colorearemos las marcas de r colores distintos de la
siguiente manera, a la marca n que ocurrió a tiempo Sn la pintamos del color
que nos indica la Xn (del PBG). Sean Πi los conjuntos de puntos (o tiempos de
arribo) pintados del color i, vale que Πi es un proceso de Poisson de intensidad
pi λ, y los Πi son procesos independientes.
Demostración. Demostraremos qué pasa con el proceso de conteo para t fijo y
dos colores nada más. Si para un t fijamos la cantidad n de arribos del proceso
original, y deseamos saber cuántos de ellos debemos colorear del primer colo y
cuántos del segundo, basta con ver las primeras n Bernoullis y contar cuántas
son éxito
n!
P (N1 (t) = n1 , N2 (t) = n2 |N (t) = n) = pn1 pn2
n1 !n2 ! 1 2
por lo tanto, teniendo en cuenta n = n1 + n2 la probabilidad no condicional
será:
n1 +n2

(n1 + n2 )! n1 n2 −λt (λt)
P (N1 (t) = n1 , N2 (t) = n2 ) = p p e
n1 !n2 ! 1 2 (n1 + n2)!
67
e−p1 λt (p1 λt)n1 e−p2 λt (p2 λt)n2

··· =
n1 ! n2 !
dos variables Poisson independientes de tasas p1 λ y p2 λ
Se generaliza a r colores fácilmente. Y la propiedad de homogeneidad del
proceso original Π se traslada a los procesos nuevos.
Teorema 14.16 (Competencia o superposición). Sean Πi con i = 1 . . . r pro-
cesos puntuales de Poisson independientes de tasa λi sobre R+ . ElPconjunto
r
Π = ∪ri=1 Πi es un proceso puntual de Poisson sobre R+ de tasa λ = i=1 λi .
Sea Xi la variable que toma el valor k en 1 . . . r si la marca i del proceso Π
vino dada por el proceso Πk , entonces las Xi son un P.B.G. con probabilidades
pi = λi /λ independiente del proceso Π.
NOTA: Los últimos dos teoremas se pueden pensar como recı́procos. Hacer
gráfico esclarecedor.
Teorema 14.17 (Primeros n − 1 arribos dado el tiempo n-ésimo). Sea Π un
PPP(λ), sn > 0, vale que:
(n − 1)!
fS1 ,...Sn−1 |Sn =sn (s1 , . . . sn−1 ) = 1{0 < s1 < · · · < sn−1 }
sn−1
n
i.e., dado el tiempo de arribo de la n-ésima marca, las anteriores se distribuyen

como una uniforme en el triángulo n − 1 dimensional 0 < s1 < · · · < sn−1
Demostración. Inmediato, hacer conjunta sobre marginal.
Teorema 14.18 (Proceso de Poisson compuesto). Sean {N (t), t ∈ R+ } el pro-

ceso de conteo asociado a un PPP de tasa λ y {Yi , i ∈ Z+ } un proceso de
V.A.I.I.D. cualesquiera. Definimos el proceso de poisson compuesto:
N (t)
X
X(t) := Yi
i=1
Vale que:
1. Si E[Yi ] finita, E[X(t)] = λtE[Y1 ]

2. Si V (Yi ) finita, V (X(t)) = λtE[Y12 ]
Demostración. Demostrar usando E[X(t)] = E[E[X(t)|N (t)]] y pitágoras. No-
tar que el planteo es muy similar a lo que llamamos suma aleatoria de variables
aleatorias, ahora simplemente aparece t que es un parámetro fijo.
68
15. Variable normal y TCL
15.1. La variable normal univariada
Definición 15.1 (Normal y normal estándar). Diremos X ∼ N (µ, σ 2 ) si
(x − µ)2

1
fX (x) = √ exp −
σ 2π 2σ 2
Diremos Z ∼ N (0, 1) o Z es normal estándar si

1 2
fZ (z) = ϕ(z) = √ e−z /2
2π
La función de distribución de Z se encuentra integrando ϕ con métodos
numéricos y es una función nueva en el sentido de que no la podemos escri-
bir como combinación de las funciones conocidas (polinomios, trigonométricas,
exponencial, etc.). La llamaremos:
FZ (z) = Φ(z)
La función Φ es estrictamente creciente y por lo tanto inversible, usaremos en

el curso la notación habitual de cuantiles, es decir:
zα = Φ−1 (α) α ∈ (0, 1)
Teorema 15.2 (Simetrı́a). Vale que:
Φ(−x) = 1 − Φ(x)
Demostración. Evidente pues ϕ(x) es simétrica respecto al eje y (función par).
Teorema 15.3 (Estandarización y cálculo). Sea X ∼ N (µ, σ 2 ), Z := (X −µ)/σ

vale que Z es normal estándar. Luego:
P (X ≤ x) = Φ x−µ

σ

P (a < X ≤ b) = Φ b−µ − Φ a−µ

σ σ
c −c c

P (|X − µ| < c) = Φ σ −Φ σ = 2Φ σ −1
NOTA: Los valores de Φ(z) se encuentran tabulados en libros y tablas,

usualmente para −3 ≤ z ≤ 3 con saltos de 0.01.
TeoremaP 15.4 (Aditividad). Sean Xi ∼ N (µi , σi2 ) V.A. normales independien-
n
tes, S := i=1 Xi , vale que:
n n
!
X X
2
S∼N µi , σi
i=1 i=1
Demostración. Tomar n = 2 y obtener la densidad de la suma por convolu-

ción (laburo jodido de análisis), luego inducción. Ver [1], Normalidad y teorema
central del lı́mite.
69
NOTA: Como aXi ∼ N (aµi , a2 σ 2 ), vale que
n n n
!
X X X
ai Xi ∼ N ai µi , a2i σi2
i=1 i=1 i=1
Se lee: combinación lineal de normales independientes es normal
15.2. Teoremas lı́mite

Teorema 15.5 (Teorema de De Moivre-Laplace). Sea Sn ∼ Bi(n, p) con 0 <
p < 1, vale que: !
Sn − np
lı́m P p ≤ x = Φ(x)
n→∞ np(1 − p)
Aplicación: para np y n(1 − p) grande diremos Sn ∼∼ N (np, np(1 − p)).
Luego (si q = 1 − p)

1
P (Sn = k) ' √npq ϕ k−np
√
npq (sugerimos no usar esta fórmula)

k−np
P (Sn ≤ k) ' Φ √
npq
O mejor, corrigiendo por continuidad ya que Sn es discreta, nos corremos un

medio para donde corresponda

P (Sn = k) ' Φ k+0.5−np
√
npq − Φ k−0.5−np
√
npq

k+0.5−np
P (Sn ≤ k) ' Φ √
npq
Demostración. Ver [3], capı́tulo VII - The normal aproximation to the binomial
distribution
Teorema 15.6 (Teorema central del lı́mite). Sea Xi : i ∈ Z+ una sucesión de
V.A.I.I.D., cada una con media µ y varianza σ 2 (finitas). Sea
Pn
∗ Xi − nµ
S := i=1√
nσ
Vale que:
lı́m P (S ∗ ≤ x) = Φ(x)
n→∞
Xi ∼∼ N (nµ, nσ 2 ) o S ∗ ∼∼
P
Aplicación: Para n grande diremos S :=
N (0, 1). Luego:

P (S ≤ x) ' Φ x−nµ
√
nσ

b−nµ a−nµ
P (a < S ≤ b) ' Φ √
nσ
−Φ √
nσ
S
P( n − µ ≤ a √σn ) ' 2Φ(a) − 1
Demostración. Ver [5], capı́tulo 5 - Generating functions and their aplications,

tı́tulo 5.10 Two limit theorems. La demostración es muy corta pero usa funciones
generadoras que es algo que no damos en el curso, hay que leer todo el capı́tulo.
70
NOTA: No es necesario que las variables sean idénticamente distribuidas,
ni que haya independencia entre todas, hay más generalizaciones del TCL que
no veremos en este curso.
15.3. La variable normal bivariada

Definición 15.7 (Normal bivariada). Diremos (X1 , X2 ) ∼ N (µ, Σ) si
(x1 − µ1 )2

1 −1
fX1 ,X2 (x1 , x2 ) = exp +
2(1 − ρ2 ) σ12
p
2πσ1 σ2 1 − ρ2
(x2 − µ2 )2

2ρ(x1 − µ1 )(x2 − µ2 )
−
σ22 σ1 σ2
donde los parámetros son el vector de medias y la matriz de covarianzas
σ12

µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
Teorema 15.8 (Marginales y condicionales). Sea (X1 , X2 ) ∼ N (µ, Σ) con:
σ12

µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
vale que:
X1 ∼ N (µ1 , σ12 )
X2 ∼ N (µ2 , σ22 )

X1 |X2 = x2 ∼ N µ1 + ρσ1 x2σ−µ
2
2
, (1 − ρ 2 2
)σ 1

X2 |X1 = x1 ∼ N µ2 + ρσ2 x1σ−µ
1
1
, (1 − ρ 2 2
)σ 2
Demostración. Ver [6], 5.12 The Bivariate Normal Distribution. Construye X1 , X2

como un cambio de variables a partir de dos normales estándar independientes
y demuestra las propiedades.
Teorema 15.9 (Generación de normales multivariadas). Sea Z = (Z1 , Z2 , . . . Zn )
un vector de n VAIID normales estándar.
Sea
X := T T Z + µ
donde µ ∈ Rn es el vector de medias y T ∈ Rn×n es una matriz tal que el produc-
to de su transpuesta por sı́ misma da por resultado una matriz de covarianzas
TTT = Σ
Vale que:
X ∼ N (µ, Σ)
i.e.:
1 1
fX (x) = q exp − (x − µ)T Σ−1 (x − µ)
(2π)n |Σ| 2
NOTA: es habitual usar para T la descomposición de Cholesky de Σ.

Demostración. Hacer fórmula del Jacobiano, es una transformación lineal bi-
yectiva. El teorema figura en [11], 5.3.1 Multivariate Normal Distribution.
71
Referencias
[1] Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], marzo a junio
de 2013.
[2] Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995.
[3] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
I. 2da ed. New York: John Wiley & Sons, 1957.
[4] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
II. 2da ed. New York: John Wiley & Sons, 1971.
[5] Grimmet, G., Stirzaker, D. Probability and Random Processes. 3ra. ed. Gran
Bretaña: Oxford University Press, 2001.
[6] DeGroot, M. H. Probability and Statistics. 2nd. ed. EE.UU.: Addison-
Wesley Publishing Company, 1989.
[7] [Varios artı́culos: ‘· distribution’]. En Wikipedia, The Free Encyclopedia.

Consultados en Julio 2016.
[8] Numpy and Scipy Documentation. Consultado en Julio 2016 de
https://docs.scipy.org/doc/
[9] Billingsley, P. Probability and Measure. 3rd. ed. EE.UU.: John Wiley &
Sons, 1995.
[10] Flajolet, P.; Gardy, D.; Thimonier, L. Birthday Paradox, coupon collectors,
caching algorithms and self-organizing search. Discrete Applied Mathema-
tics 39 (1992) 207-229
[11] Gentle, J. E. Random Number Generation and Monte Carlo Methods. 2nd.
ed. EE.UU.: Springer, 2005.
72

Bello Proba - Probabilidad Clases Rev06

Cargado por

Copyright:

Formatos disponibles

Bello Proba - Probabilidad Clases Rev06

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bello Proba - Probabilidad Clases Rev06

Cargado por

Copyright:

Formatos disponibles

Preliminar - Clases Probabilidad - 2o C 2017

Ing. Ignacio Bello

4. Independencia y probabilidad condicional 16

5. Bonustrack: Análisis combinatorio 20

7. Simulación, análisis de datos 29

8. Variables aleatorias n-dimensionales 34

Series para funciones exponencial e hiperbólicas:

300 A.C. Euclides, Elementos

1812 Pierre-Simon Laplace (Fra) publica Théorie analytique des probabilités

1933 Andrey Kolmogorov (Rus), Grundbegriffe der Wahrscheinlichkeitsrech-

Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], 2013

(El clásico t.II): Feller, W. An Introduction to Probability Theory and

(Para profundizar): Grimmet, G., Stirzaker, D. Probability and Random

(De difusión): Jacovkis, P. Azar, Ciencia y Sociedad. 1ra. ed. Buenos

2.3. Sobre los ejercicios

Traducir con cuidado del lenguaje coloquial al formal

2.4. Ejemplos disparadores

A los subconjuntos A ∈ A los llamaremos eventos aleatorios.

El álgebra trivial para todo Ω es A = {∅, Ω}

Convención 3.4 (Álgebra, Sigma-álgebra –sin azúcar–). En el curso usaremos

(III) Para cada A ∈ A, P (A) ≥ 0

(VI) Continuidad. Para cada sucesión decreciente de eventos

tal que al intersectar todos

Definición 3.6 (Espacio de probabilidad). Un espacio de probabilidad es una

NOTA: Kolmogorov publica en sus Grundbegriffe 5 axiomas, los primeros

3.2. Relación axiomas K - frecuencia relativa

3.3. *Interludio: álgebra de eventos

3.4. Corolarios, teoremas, propiedades...

2. P (∅) = 0 (aclaración 1: P (A) = 0 ; A = ∅; aclaración 2: P (A) = 0 ; “A

5. Unión (2): P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

3. Alumnos: Por inducción extender el axioma V.

Dividimos la unión infinita en dos conjuntos disjuntos y aplicamos el teo-

Tomando lı́mite n → ∞ se anula el segundo término y queda la serie.

3.5. Espacios discretos

Luego, sumando las probabilidades puntuales

P ({A}) = p P ({E}) = 1 − p P (∅) = 0 P (Ω) = 1

obtenemos la medida de probabilidad.

P (A) = P ({ω1 }) = 1/21

P (B) = P ({ω2 } ∪ {ω4 } ∪ {ω6 }) = 2/21 + 4/21 + 6/21 = 12/21

3.5.2. Equiprobabilidad - Fórmula de Laplace

luego, la medida de probabilidad para un evento será

Esta forma de asignar probabilidades se conoce como eventos equiprobables,

Solución Completar el ejemplo.

Solución Completar el ejemplo.

3.5.3. Espacios numerables

Ω = {A, EA, EEA, EEEA, EEEEA, . . .}

3.6. Introducción a espacios continuos

Definición 3.19 (Punto al azar en una región –INFORMAL–). Sean Λ ⊂ Rn

para todos los subconjuntos finitos J ⊂ I (son 2n − n − 1 ecuaciones que se

Ejemplo 4.2 (Independencia de 2 eventos). Dos eventos A y B son indepen-

Ejemplo 4.4 (Independencia de 4 eventos). Cuatro eventos son independientes

a la derecha del igual quedan intersecciones de elementos de A, que es indepen-

tomando factor común...

Ejemplo 4.7 (Independencia y complementos). Sean A, B ∈ A eventos, son

4.2. Probabilidad condicional

El valor definido recién se llama probabilidad condicional de B dado A, o más

P (B ∩ A) P ({4, 6}) (4 + 6)/21 2

Ejemplo 4.12. Se lanza un dado equilibrado y se observa que el resultado es

P (B ∩ A) P ({4, 6}) 2/6 2