Bello Proba - Probabilidad Clases Rev06
Bello Proba - Probabilidad Clases Rev06
Bello Proba - Probabilidad Clases Rev06
Índice
1. Repaso mı́nimo 5
1.1. Fórmulas para tener a mano . . . . . . . . . . . . . . . . . . . . . 5
1.2. Integrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Consideraciones previas 5
2.1. *Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Sobre los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4. Ejemplos disparadores . . . . . . . . . . . . . . . . . . . . . . . . 7
3. Grundbegriffe 8
3.1. Espacio de probabilidad - Axiomas K . . . . . . . . . . . . . . . . 8
3.2. Relación axiomas K - frecuencia relativa . . . . . . . . . . . . . . 9
3.3. *Interludio: álgebra de eventos . . . . . . . . . . . . . . . . . . . 9
3.4. Corolarios, teoremas, propiedades... . . . . . . . . . . . . . . . . . 11
3.5. Espacios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5.1. Espacios discretos (finitos o numerables) . . . . . . . . . . 12
3.5.2. Equiprobabilidad - Fórmula de Laplace . . . . . . . . . . 13
3.5.3. Espacios numerables . . . . . . . . . . . . . . . . . . . . . 14
3.6. Introducción a espacios continuos . . . . . . . . . . . . . . . . . . 15
1
6. Variables aleatorias (unidimensionales) 25
6.1. Definición y clasificación de V.A. . . . . . . . . . . . . . . . . . . 25
6.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.3. V.A. truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9. Momentos 38
9.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
9.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.3. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.4. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9.5. Desigualdades, Ley débil de grandes números . . . . . . . . . . . 41
10.Transformaciones de V.A. 42
10.1. Definiciones y aclaraciones previas . . . . . . . . . . . . . . . . . 42
10.2. Teoremas para transformaciones de V.A. . . . . . . . . . . . . . . 43
11.Condicionales 45
11.1. Variables condicionales . . . . . . . . . . . . . . . . . . . . . . . . 45
11.2. Modelos discreto continuos . . . . . . . . . . . . . . . . . . . . . 47
11.3. Momentos y función de regresión . . . . . . . . . . . . . . . . . . 48
12.Esperanza condicional 49
12.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
12.2. Iterpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . 51
12.3. Ejemplos varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
13.Proceso Bernoulli 54
13.1. Procesos y proceso Bernoulli . . . . . . . . . . . . . . . . . . . . 54
13.2. Distribuciones asociadas . . . . . . . . . . . . . . . . . . . . . . . 55
13.3. Proceso Bernoulli generalizado . . . . . . . . . . . . . . . . . . . 56
13.4. Miscelánea tóxica . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
14.Proceso de Poisson 61
14.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . 61
14.2. Proceso puntual de Poisson . . . . . . . . . . . . . . . . . . . . . 62
14.3. Pérdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . 64
14.4. Más propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2
15.Variable normal y TCL 69
15.1. La variable normal univariada . . . . . . . . . . . . . . . . . . . . 69
15.2. Teoremas lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
15.3. La variable normal bivariada . . . . . . . . . . . . . . . . . . . . 71
3
Burocracia y otras hierbas
Nota aclaratoria
Estas notas se escribieron para uso personal, como ayuda para dar la clase,
y están en continua evolución. Le faltan gráficos, ejemplos, y una profunda
revisión. Se sugiere leerlas con cuidado, si no asistió a la clase compararlas con
las notas tomadas por algún compañero o compañera, y completarlas con lo
dado en el pizarrón.
No tienen intención de reemplazar la clase ni mucho menos un buen libro
(como los que se sugieren en la bibliografı́a), el objetivo es simplemente ahorrarle
al que lo considere conveniente la toma de apuntes; y facilitarle un poco la
cursada a aquellos con problemas para asistir.
Asistencia
Se tomará lista todas las clases (por orden del departamento), diremos que
se exigirá 75 % de asistencia para mantener la regularidad. El que sabe que
no va a cumplir avise. Vamos a usar la asistencia a modo de estadı́stica y
control temprano de abandono.
Los condicionales y cambios de curso deben avisar en el curso al que van
a asistir para que se los incorpore.
Evaluación
Se toma un parcial de 5 ejercicios, con 3 bien se aprueba. El parcial tiene 2
instancias de recuperación. Se agregan las fechas diferidas que hagan falta
para quienes presenten certificado de examen o enfermedad.
Se tomará un trabajo práctico. La consigna se dará en la 5ta o 6ta semana
y se entregará pasado el primer parcial. La idea es que lo hagan antes del
parcial, pero que si no llegan no quite tiempo de estudio. El TP incluye
una simulación y gráficos de función histograma y función de distribución
empı́rica. Se dará alguna ayuda para los que les cueste programar.
4
1. Repaso mı́nimo
1.1. Fórmulas para tener a mano
Sumatoria y serie Geométrica:
n ∞ ∞
X 1 − rn+1 X 1 X rk
ri = ri = ri = |r| < 1
i0
1−r i=0
1−r 1−r
i=k
Número e: n ∞
1 X 1
e = lı́m 1+ =
n→∞ n i=0
i!
Fórmula de Stirling:
√ n n
n! ∼ 2πn
e
1.2. Integrales
Repasar integrales de lı́nea en R2 y esas cosas (sobre todo los más viejos).
2. Consideraciones previas
2.1. *Antecedentes históricos
Armar lı́nea de tiempo central con los probabilistas, en paralelo rigor y teorı́a
de medida, unirlas en Kolmogorov.
Fuentes: Grimmet, Jacovkis, biografı́as de Wikipedia
1654 Blaise Pacal (Fra) y Pierre de Fermat (Fra) discuten por carta el problema
de los puntos, luego en 1657 Huygens (Hol) publica De ratiociniis in ludo
aleae (Razonamientos en los juegos de azar). Introducen el concepto de
valor esperado
1713 de Jacob Bernoulli (Sui) (el que descubrió e, muerto en 1705) publican (un
sobrino) Ars conjectandi (Arte de la conjetura). Fruto de leer Huygens y
discutir con Leibniz (Ale) y con su hermano Johann, incluye el Teorema
de Bernoulli: la primera ley de los grandes números
5
1718 Abraham de Moivre (Fra) publica The Doctrine of Chances: a method
of calculating the probabilities of events in play. En la reedición de 1756
aparece la primera versión del TCL.
2.2. Bibliografı́a
Se recomienda intentar seguir las clases con los apuntes, vamos a dar todo
lo necesario para tener una buena base teórica y poder hacer los ejercicios.
Si hace falta, consultar los contenidos con los Borradores de Grynberg o el
Maronna. El Maronna es más conciso, es un libro publicado (menos errores),
pero en algunos temas no presenta todo lo que damos en el curso y en algunas
cosas puntuales usa otra notación. Los borradores son borradores, pero tienen
la ventaja de cubrir todos los temas del curso y casi en el mismo orden y estilo
que seguirán las clases. Hay veces que se extiende, pero si algo no se dio en clase
se puede saltear y listo.
Los dos textos mencionados y el Grinstead-Snell son de distribución libre y
gratuita.
Para el curso
Ambos textos son de distribución libre y gratuita.
Otros
El de Snell-Grinstead es de distribución libre y gratuita. El de Jacovkis lo
publica Eudeba, es barato. Los de Feller creo que están agotados.
6
(El clásico t.I): Feller, W. An Introduction to Probability Theory and Its
Applications, Vol. I 2da ed. New York: John Wiley & Sons, 1957.
7
3. Grundbegriffe
3.1. Espacio de probabilidad - Axiomas K
Definición 3.1 (Espacio muestral). Llamaremos espacio muestral a un con-
junto no vacı́o Ω. A sus elementos ω ∈ Ω los llamaremos eventos elementales.
NOTA: algunos autores llaman al espacio muestra S (por sample space). Kol-
mogorov lo llamó E en sus Fundaciones.
Definición 3.2 (Álgebra, Sigma-álgebra). Una familia A de subconjuntos de
Ω es un álgebra si contiene a Ω y es cerrada por complementos y por uniones
finitas. Formalmente, debe cumplir:
(a) Ω ∈ A
(b) A ∈ A ⇒ Ac ∈ A
(c) A, B ∈ A ⇒ A ∪ B ∈ A
Propiedad : las álgebras ası́ definidas son también cerradas por intersecciones,
A, B ∈ A ⇒ A ∩ B ∈ A
Si además la familia de subconjuntos es cerrada para toda unión numerable
de conjuntos disjuntos dos a dos, diremos que es una sigma álgebra
S∞
(d) Ai ∈ A i ≥ 1, Ai ∩ Aj = ∅ ∀i 6= j ⇒ n=1 An ∈ A
Propiedad : las sigma-álgebras ası́ definidas son también cerradas por uniones
(no necesariamente disjuntas) y por intersecciones:
S∞
Ai ∈ A i ≥ 1, ⇒ n=1 An ∈ A
T∞
Ai ∈ A i ≥ 1, ⇒ n=1 An ∈ A
8
Definición 3.5 (Medida de probabilidad). Una medida de probabilidad P sobre
(Ω, A) es una función P : A → R que satisface los siguientes axiomas:
A1 ⊃ A2 ⊃ · · · ⊃ Ai ⊃ · · ·
vale que
lı́m P (An ) = 0
n→∞
9
Definición 3.7 (Definiciones varias). Se definen:
Unión: A ∪ B := {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}
Intersección: A ∩ B := {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}
Complemento: Ac = A := {ω ∈ Ω : ω ∈
/ A}
Disjuntos (n): Diremos Ai disjuntos si Ai ∩ Aj = ∅ ∀i 6= j
Disjuntos (2): Diremos A, B disjuntos si A ∩ B = ∅
Sustracción: A \ B := A ∩ B c = {ω ∈ Ω : ω ∈ A ∧ ω ∈
/ B}
[n]
Partición: Si Ai disjuntos y Ui=1 Ai = Ω diremos que {Ai }i=1...[n] es una
partición de Ω.
Teorema 3.8 (Propiedades varias). Demostraciones a cargo del lector. Recor-
dar que dos conjuntos son iguales si todo evento del primero está necesariamente
en el segundo y vice versa.
Conmutativa 1: A ∪ B = B ∪ A
Conmutativa 2: A ∩ B = B ∩ A
Asociativa 1: (A ∪ B) ∪ C = A ∪ (B ∪ C)
Asociativa 2: (A ∩ B) ∩ C = A ∩ (B ∩ C)
Distributiva 1: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Distributiva 2: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Identidad 1: A ∪ ∅ = A
Identidad 2: A ∩ Ω = A
Complemento 1: A ∪ Ac = Ω (unión disjunta)
Complemento 2: A ∩ Ac = ∅
Idempotencia 1: A ∪ A = A
Idempotencia 2: A ∩ A = A
Dominación 1: A ∪ Ω = Ω
Dominación 2: A ∩ ∅ = ∅
Absorción 1: A ∪ (A ∩ B) = A
Absorción 2: A ∩ (A ∪ B) = A
Inters. como diferencia: A ∩ B = A \ (A \ B)
De Morgan 1: (A ∪ B)c = Ac ∩ B c
De Morgan 2: (A ∩ B)c = Ac ∪ B c
Doble complemento: (Ac )c = A
10
Complemento Omega: Ωc = ∅
Complemento Vacı́o: ∅c = Ω
[n]
Evento en partes: Si {Ai } es una partición, B = ∪i=1 (B ∩ Ai ) (unión
disjunta)
Antisimetrı́a: A ⊂ B ∧ B ⊂ A ⇔ A = B
Unicidad: A ∪ B = Ω ∧ A ∩ B = ∅ ⇔ Ac = B
NOTA: Los diagramas de Venn vienen bien para ver las propiedades, pero
no son una demostración (ver Arquı́medes, El Método, preámbulo dirigido a
Eratóstenes).
NOTACIÓN: Se usa aquı́ y en el curso el sı́mbolo ⊂ como incluido o igual.
e.g. A ⊂ A es verdadero (y A ⊃ A es verdadero también).
11
4. Como A ⊂ B se cumple
A = A ∩ (B ∪ B c ) = A ∩ B
Además
B = B ∩ (A ∪ Ac ) = B ∩ A ∪ B ∩ Ac = A ∪ B \ A
y la unión es disjunta. Aplicando el axioma de aditividad:
P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A)
5. Podemos expresar la unión de A y B como la unión disjunta:
A ∪ B = A ∪ (B \ (A ∩ B))
luego aplicando axiomas y el teorema anterior (notar que (A ∩ B) ⊂ B):
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
6. Alumnos: Por inducción del anterior.
7. Ver [1] Espacios de probabilidad Teorema 1.8
8. Ver [1] Espacios de probabilidad Teorema 1.8
S
9. Definimos la sucesión Rn := m>n Am , n ≥ T∞1. La sucesión es decreciente
(evidente por construcción R1 ⊃ R2 . . .) y n=1 Rn = ∅ (pues son disjun-
tos dos a dos), por lo que se puede aplicar el último axioma:
lı́m P (Rn ) = 0
n→∞
12
Teorema 3.10 (Construcción de espacios de probabilidad discretos). Todos los
espacios de probabilidad discretos (finitos o numerables) los podemos construir
sobre una función de probabilidad puntual de la manera descripta anteriormente.
Demostración ParaPun lado es muy sencilla, basta con probar que que la
definición P (A) := ω∈A p(ω) cumple con los 4 axiomas. Para el otro lado
(justificar el Todos que encabeza el enunciado) no se dará demostración, creo
que la da Grynberg en sus materias de posgrado como un teorema de extensión.
Ejemplo 3.11 (Lanzamiento de una moneda). Lanzamos una moneda una vez,
llamamos A: salió cara, E: salió ceca, tenemos Ω = {A, B}, A = {∅, {A}, {E}, Ω}
(primera y última vez que escribimos toda la sigma-álgebra por extensión).
Como A y E son complementarios, podemos asignar
p(A) = p p(E) = 1 − p
p(ω) = 1/|Ω| ∀ω ∈ Ω
P (A) = |A|/|Ω| ∀A ∈ A
13
Ejemplo 3.14 (Lanzamiento de dos dados equilibrados). Se lanzan dos dados
y se registra el resultado en un vector Ω = {ω : ω = (i, j), i, j = 1 . . . 6} (anoto
primero el dado A y luego el dado B), se asigna a todos los resultados la misma
probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número
(c) La probabilidad de que la suma de los dados sea 7
Ω = {ω : ω = E n−1 A, n ≥ 1}
A los eventos “An : el experimento duró exactamente n lanzamientos” los pode-
mos escribir An = E n−1 A, y por consigna P (An ) = (1 − p)n−1 p. Para simplici-
dad, q = 1 − p, calculemos:
∞ ∞ ∞ ∞
[ X X pX 2 i p q2 pq
P( A2i ) = P (A2i ) = q 2i−1 p = (q ) = 2
=
i=1 i=1 i=1
q i=1 q1−q 1 − q2
14
Ahora definamos Bi : el experimento duró más de i lanzamientos.
i
[ i
X i
X
P (Bi ) = 1 − P (Bic ) = 1 − P ( Aj ) = 1 − P (Aj ) = 1 − (1 − p)j−1 p
j=1 j=1 j=1
T∞
Definimos B: el experimento se prolonga infinitamente. Tenemos B = i=1 Bi ,
y además la sucesión es decreciente B1 ⊃ B2 ⊃ . . .. Entonces
∞
X
PB = lı́m P (Bi ) = 1 − (1 − p)j−1 p = 0
i→∞
j=1
(a) La probabilidad de que el número 9 sea la primera cifra decimal del número
(b) La probabilidad de que en las primeras n cifras decimales (después de la
coma) aparezca el 9 al menos una vez
(c) La probabilidad de que en todo el desarrollo decimal del número no aparezca
el 9
Solución Completar el ejemplo.
15
4. Independencia y probabilidad condicional
4.1. Independencia estocástica
Definición 4.1 (Independencia estocástica). Una familia de eventos {Ai : i ∈
I} se dice independiente si se cumple
!
\ Y
P Ai = P (Ai )
i∈J i∈J
P (B ∩ C) = P (B)P (C)
P (C ∩ A) = P (C)P (A)
P (A ∩ B ∩ C) = P (A)P (B)P (C)
16
donde la unión Aj ∪ Acj es disjunta. Tomando probabilidades y distribuyendo
la intersección con la unión, aplicando el axioma de unión disjunta y pasando
términos llegamos a:
\ \
P Acj (∩i6=j,i∈K Ai ) = P (∩i6=j,i∈K Ai ) − P Aj (∩i6=j,i∈K Ai )
como esto vale para todo K ⊂ I demostramos que C es una familia independien-
te. Si ahora tomamos como punto de partida a C, complementamos uno de sus
eventos y tenemos una nueva familia independiente, y ası́ complementando de a
uno cuantas veces sea necesario seguiremos obteniendo familias independientes
de eventos.
Ac , B independientes
Ac , B c independientes
Teorema 4.8 (Independencia de eventos *triviales*). Sea A ∈ A un evento tal
que P (A) = 0 o P (A) = 1, entonces {A, B} es independiente para todo evento
B ∈ A. Ver [5] ej. 1.8.7.
P (B ∩ A)
P (B|A) :=
P (A)
17
Ejemplo 4.11. Se lanza nuestro dado cargado y se observa que el resultado es
mayor o igual que 4, ¿cuál es la probabilidad de que sea par?
Solución Sean
A: el resultado es mayor o igual que 4, A = {4, 5, 6}
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido
Teorema 4.13 (Regla del producto). Suponiendo que todos los eventos condi-
cionales tienen probabilidad positiva, tenemos que:
n−1
P (∩ni=1 Ai ) = P (A1 )P (A2 |A1)P (A3 |A1 ∩A2 )P (A4 |A1 ∩A2 ∩A3 ) · · · P (An |∩i=1 Ai )
Ejemplo 4.14 (Uno de bolas). Una urna contiene r bolas rojas y n bolas negras
(con n ≥ 3), se extraen sin reposición 3 bolas, ¿cuál es la probabilidad de que
las 3 sean negras?
Solución Sea Ni : la bola i es negra, aplicando la regla del producto
n n−1 n−2
P (N1 ∩ N2 ∩ N3 ) = · · · = · ·
n+r n−1+r n−2+r
Ejemplo 4.15 (Uno de cartas). Jugando al truco ¿cuál es la probabilidad de
que me repartan primero el as de espadas, luego el 7 de espadas y por último
otra carta de espadas (en ese orden)?
Solución
1 1 8
P (A ∩ B ∩ C) = · · · = · ·
40 39 38
Teorema 4.16 (Condicional de condicional). Sea (Ω, A, P ) un espacio de pro-
babilidad y B ∈ A un evento con probabilidad positiva P (B) > 0. Se define
Q : A → R como P (A|B). Se probó ya que (Ω, A, Q) es un nuevo espacio de
probabilidad. Si C ∈ A es un evento con probabilidad-Q positiva Q(C) > 0, la
probabilidad-Q dado C cumple Q(A|C) = P (A|B ∩ C). Ver [5] ej. 1.8.9.
Demostración.
Q(A ∩ C) P (A ∩ C|B) P (A ∩ B ∩ C)/P (B)
Q(A|C) = = = = P (A|B ∩ C)
Q(C) P (A|B) P (B ∩ C)/P (B)
18
4.3. Probabilidad total, Bayes
Teorema 4.17 (Fórmula de probabilidad total). S Sean los eventos A1 , A2 , . . .
una partición de Ω, esto es Ai ∩ Aj = ∅ ∀i 6= j y i≥1 Ai = Ω. Para todo evento
B ∈ A se cumple: X
P (B) = P (B|Ai )P (Ai )
i≥1
19
Ejemplo 4.20 (Falsos positivos). Una enfermedad afecta a 1/100000 personas.
Se tiene un test que diagnostica como positivo a los enfermos con probabilidad
0.99, pero también diagnostica como positivo a los sanos con probabilidad 0.02.
Toma una persona al azar, le hace el test y da positivo, ¿cuál es la probabilidad
de que esté enfermo?
Solución Sean D+ : diagnóstico positivo, E: enfermo, se tiene
P (D+ |E)P (E)
P (E|D+) = =
P (P (D+ |E)P (E) + P (D+ |E c )P (E c )
0.99 · 1/100000
= ' 0.005
0.99 · 1/100000 + 0.02 · 99999/100000
20
nr si se toma la muestra con reposición
(n)r = n(n − 1) · · · (n − r + 1) = n!/(n − r)! si se toma la muestra sin
reposición
Teorema 5.3 (Ordenamientos completos). Para una población de n elementos
distintos (cifras, letras), la cantidad de ordenamientos distintos usando toda la
población es:
n(n − 1) · · · 2 · 1 = n!
(simplemente un caso particular del teorema anterior sin reposición, n! = (n)n ).
Teorema 5.4 (Subploblaciones o subconjuntos). De una población (conjunto)
de n elementos distintos se puede extraer nr = r!(n−r)!
n!
subpoblaciones (sub-
conjuntos) distintas (conjuntos no ordenados) de tamaño r ≤ n.
Teorema 5.5 (Particiones o anagramas). Sean r1 . . . rk enteros tales que r1 +
. . . + rk = n, ri ≥ 0. El número de formas en que una población de n elementos
(cifras, letras) se puede dividir en k partes ordenadas (particionarse en k sub-
poblaciones) tales que la primera contenga r1 elementos (cifras, letras iguales),
la segunda r2 , etc., es:
n!
r1 !r2 ! . . . rk !
Ejemplo 5.6. ¿Cuántas palabras se pueden formar con las letras a, a, a, a, b,
8!
b, b, c? Respuesta: 4!3!1! = 280
Ejemplo 5.7. ¿Cuántos anagramas de banana (incluyendo banana) puede for-
6! 7!
mar? ¿y de pomposo? Respuesta: 1!3!2! = 60 para banana; 2!3!1!1! = 420 para
pomposo.
21
urna en la que se ubica la bola i. Como cada bola puede estar en cualquiera de
las n urnas, las configuraciones posibles son |Ω| = nr . La probabilidad de cada
evento elemental será P ({ω}) = 1/nr .
22
El ejemplo práctico para este modelo es el que nos dan los fı́sicos: partı́culas
de fotones, nuclei, y átomos que contienen una cantidad par de de partı́culas
elementales. Cualquier otro ejemplo que aparezca en la guı́a o evaluaciones será
forzado (para bajarnos del ascensor a la B-E hay que ponerse de acuerdo, para
meter gatos en cajas a la B-E no alcanza con que sea de noche), y debe in-
dicar el enunciado claramente que las cosas se distribuyen con un modelo de
indistinguibles y con todas las configuraciones distintas equiprobables.
5.2.6. Comparación
La siguiente tabla resume los modelos que usamos en el curso, se puede
extender también a Fermi-Dirac.
5.2.7. Aplicaciones
Ejemplo 5.8 (Cantidad de bolas en una urna especificada). (Ver [1] Espacios
de Probabilidad... cap. 4). Sea Ua,k : hay exactamente k bolas en la urna a (con
0 ≤ k ≤ r). Se tiene para los distintos modelos (se explicó en clase de dónde
salen las fórmulas):
k r−k
r 1 1
PM B (Ua,k ) = 1−
k n n
r−k+n−2
n−2
PBE (Ua,k ) = r+n−1
n−1
Si ahora queremos fijar la cantidad de partı́culas en más de una urna espe-
cificada (desarrollo propio, –revisar–):
k l r−k−l
r! 1 1 2
PM B (Ua,k ∩ Ub,l ) = 1−
k!l!(r − k − l)! n n n
k l m r−k−l−m
r! 1 1 1 3
PM B (Ua,k ∩Ub,l ∩Uc,m ) = 1−
k!l!m!(r − k − l − m)! n n n n
23
r−k−l+n−3
n−3
PBE (Ua,k ∩ Ub,l ) = r+n−1
n−1
r−k−l−m+n−4
n−4
PBE (Ua,k ∩ Ub,l ∩ Uc,m ) = r+n−1
n−1
λk
PM B (Ua,k ) → e−λ
k!
k
1 1
PBE (Ua,k ) → 1−
1+λ 1+λ
Ejemplo 5.9 (Problema de los cumpleaños). Si queremos saber la probabilidad,
en el modelo de M-B, de “C: ninguna urna tiene más de una bola”, lo calculamos:
(n)r
P (C) =
nr
Si las r bolas son personas y las urnas la fecha de nacimiento, elegida al azar
entre n = 365 (o n = 366) opciones, podemos calcular la probabilidad de que
en un grupo de r personas no haya dos que cumplan el mismo dı́a como:
(365)r
P (C) =
365r
Esta probabilidad ya es P (C) < 0.5 para n = 23, del orden de 0.03 para n =
50 y de 0.01 para n = 70. Moraleja: No le apueste a un docente malintencionado
que en un curso no hay dos personas con el mismo cumpleaños porque pierde
seguro.
El modelo es simplemente una aproximación, la hipótesis de elección al azar
no se cumple ya que la cantidad de dı́as en el año no es un número fijo, y la distri-
bución de nacimientos no es del todo uniforme (ver http://www.nytimes.com/
2006/12/19/business/20leonhardt-table.html?_r=2 y http://www.vizwiz.
com/2012/05/how-common-is-your-birthday-find-out.html), estadı́sticas en
estados unidos muestran que se intenta que la gente no nazca en festividades
como navidad y año nuevo, y que hay mayor proporción de concepciones en los
meses más frı́os.
Ejemplo 5.10 (Celdas vacı́as). Si queremos saber la probabilidad de “Vm :
exactamente m celdas quedan vacı́as” en el modelo de Maxwell-Boltzmann lo
calculamos (ver [3] sección IV.2 fórmulas 2.4 y 2.11):
n−m r
n X v n−m m+v
PM B (Vm ) = (−1) 1−
m v=0 v n
24
6. Variables aleatorias (unidimensionales)
6.1. Definición y clasificación de V.A.
Definición 6.1 (Variable aleatoria). Sea (Ω, A, P ) un espacio de probabilidad.
Una variable aleatoria (V.A.) sobre Ω es una función X : Ω → R tal que para
todo x ∈ R se cumple:
{X ≤ x} := {ω ∈ Ω : X(ω) ≤ x} ∈ A
F (x) := P (X ≤ x)
NOTA: F (x) existe y está bien definida para todo x ∈ R por la definición
de V.A.
NOTA: Anotaremos FX (x) (con subı́ndice X mayúscula) cuando queramos
destacar que se trata de la Fda de la V.A. X.
Teorema 6.3 (Teoremas varios para Fda). Sean (Ω, A, P ) un espacio de proba-
bilidad, X una V.A. sobre Ω, F (x) su función de distribución; a, b ∈ R números
tales que a ≤ b. Se cumple:
25
Teorema 6.5 (Sobre el número de átomos). La cantidad de átomos de una
variable aleatoria es finita o a lo sumo numerable. Además,
X
P (X = a) ≤ 1
a∈At(X)
Definición 6.6 (V.A. Discreta). Sea X una V.A. en un e.p., diremos que X es
una V.A. Discreta sii: X
P (X = a) = 1
a∈At(X)
26
Definición 6.14 (Función intensidad de fallas). Diremos que la V.A. absolu-
tamente continua T tiene función de intensidad de fallas λ(t) sii:
Z t
FT (t) = 1 − exp − λ(s)ds 1{t > 0}
0
1. Existencia de X a partir de F :
Sea F : R → [0, 1] una función que satisface es no decreciente (F (a) ≤
F (b)), es continua por derecha (∀x0 ∈ R F (x+
0 ) = lı́mx↓xo F (x) = F (x0 ))
y va de 0 a 1 (F (−∞) = 0, F (+∞) = 1), entonces existe una VA X en un
e.p. tal que F es su Fda.
2. Existencia X a partir de f :
R +∞
Sea f : R → R+ una función medible (integrable) que satisface −∞ f (x)dx,
entonces existe una VA X absolutamente continua en un e.p. tal que f es
su fdp.
3. Existencia de X a partir de p:
P
Sea p : R → [0, 1] una función que satisface a∈A p(a) = 1, con A un
conjunto finito o numerable, entonces existe una VA X discreta en un e.p.
tal que p es su función de probabilidad
NOTA: Será correcto entonces al encontrar una función que satisface las
propiedades mencionadas decir que es una función de distribución, función de
densidad o función de probabilidad ya que en algún e.p. existirá una V.A. que
la tenga por tal.
Ejemplo 6.17 (Ejemplos). Dar V.A. Pascal (discreta) y V.A. Uniforme, Gam-
ma, Weibull, Normal (continuas). Sse usan al principio de guı́a 2, los alumnos
deben buscarlas en la tabla de distribuciones.
27
6.2. Cuantiles
Definición 6.18 (a-cuantil). Sea a ∈ (0, 1), X una V.A., definimos un a-cuantil
de X a cualquier número real xa ∈ R tal que:
1. F (xa ) − P (X = xa ) ≤ a
2. a ≤ F (xa )
NOTA: La definición habitual es otra (equivalente), en clase se dará solo la
primera. *Definición equivalente:
1. P (X < xa ) ≤ a
2. a ≤ P (X ≤ xa )
P (X ∈ B ∩ X ≤ x)
FX|X∈B = P (X ≤ x|X ∈ B) =
P (X ∈ B)
28
fX (x)·1{x∈B}
(c) fX|X∈B (x) = P (X∈B)
Teorema 6.25 (F.P.T. para truncadas). Sea X una V.A. absolutamente con-
tinua (c) o discreta (d) sobre un espacio de probabilidad; {Bi ⊂ R, i ≥ 1}
medibles disjuntos tal que P (X ∈ Bi ) > 0 y P (X ∈ ∪i≥1 Bi ) = 1 vale que:
P
(d) pX (x) = i≥1 pX|X∈Bi (x)P (X ∈ Bi )
P
(c) fX (x) = i≥1 fX|X∈Bi (x)P (X ∈ Bi )
Ejemplo 6.26 (Ejemplos truncadas). Dar exponencial (ver pérdida de memo-
ria), uniforme, geométrica (ver pérdida de memoria), dado cargado.
29
7.2. *Números aleatorios
La mayorı́a de los lenguajes de programación traen incorporadas alguna fun-
ción para generar números pseudo-aletaorios, que en la precisión que la máquina
permite se comportan a nuestros fines como los números random ya presentados
en el ejemplo 3.17. Antiguamente, los libros de probabilidad traı́an como anexo
tablas con números seudo aleatorios de determinada precisión. Y si se quiere
números realmente aleatorios hay algunos sistemas que a partir de mediciones
fı́sicas generan mediante filtros y funciones números aleatorios con la precisión
que se desee, por ejemplo los que se ofrecen en www.random.org.
El generador más difundido actualmente es el mezclador de Mersenne (o
Mersenne Twister). Ver:
http://octave.sourceforge.net/octave/function/rand.html
http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.set_state.html
https://en.wikipedia.org/wiki/Mersenne_Twister
https://en.wikipedia.org/wiki/Pseudorandom_number_generator
https://en.wikipedia.org/wiki/Linear_congruential_generator
Algoritmo 7.5 (Generador casero). Una forma casera sencilla de generar núme-
ros pseudo-aleatorios es la siguiente. Se necesitan tres enteros a, b y m. Se arran-
ca en un número entero (llamado semilla) 0 ≤ X0 < m, y a partir de allı́ se
obtienen los siguientes números enteros Xi como función del paso anterior. Si
dividimos Xi /m obtendremos un número Ui ∈ [0, 1).
se repite tantas veces como sea necesario. El valor Xi puede ir pisando al anterior
para no consumir memoria. La calidad de los números generados depende de
los enteros elegidos, sugerencia: a = 16807 b = 0 m = 231 − 1
Tanto este generador sencillo como los mejores generadores tienen como
problema la periodicidad, después de una cantidad de simulaciones (grande) los
números comienzan a repetirse en exactamente la misma secuencia.
Tener control sobre los randoms (usar siempre la misma secuencia) puede
ser conveniente a la hora de revisar, depurar y optimizar código, ası́ en dife-
rentes corridas si uno no altera la parte estrictamente de simulación obtendrá
exactamente los mismos resultados.
30
los intervalos cae, diremos que en nuestra simulación ocurre el evento ωk si U
pertenece al k-ésimo intervalo.
Formalizando, primero encontramos los lı́mites de los intervalos:
k
X
L0 := 0 Lk := pi
i=1
Pm
(notar que Lm = i=1 pi = 1). Luego le pedimos un random U a la compu-
tadora y llamamos X al subı́ndice del evento resultado de nuestra simulación,
tendremos
Xm
X= k1{Lk−1 ≤ U < Lk }
k=1
1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-
3 """
4 Simulacion de variables aleatorias discretas
5 Version sencilla: sin busqueda binaria, sin modulos numericos
6 """
7 #Imports
8 from __future__ import division
9 import random
10
11 #Numero de simulaciones
12 n_sim = int(1e6)
13
18 #Cardinal de Omega
19 n_Omega = len(Omega)
20
21 #Inicializacion de listas
22 lims = [0] * (n_Omega+1)
31
23 frec = [0] * n_Omega
24 frel = [0] * n_Omega
25 delta = [0] * n_Omega
26 delta_r = [0] * n_Omega
27 uu = [0] * n_sim
28
Omega: [1, 2, 3, 4, 5, 6]
Frec.: [48052, 94916, 143122, 190068, 238114, 285728]
Frel.: [0.048052, 0.094916, 0.143122, 0.190068, 0.238114, 0.285728]
|p-f|: [0.000433, 0.000322, 0.000265, 0.000408, 1.9e-05, 1.4e-05]
Notar que con 106 simulaciones obtenemos unas 3 cifras correctas para todas
las probabilidades simuladas.
En el ejemplo vimos simplemente cómo hacer una simulación, y que para n
grande la frecuencia relativa se acercó a la probabilidad, pero como ya sabı́amos
la probabilidad no aprendimos nada sobre el experimento.
Lo más potente del método de simulación es modelar sistemas complejos y
calcular probabilidades que desconocemos.
Ejemplo 7.8 (Espacios equiprobables). Para simular extracciones con reposi-
ción de un bolillero (fórmula de Laplace) con n bolillas numeradas 0 . . . n − 1 se
procede:
Ni = bUi · nc
32
donde Ni es el número de la bolilla correspondiente al extracción i, y Ui es el
i-ésimo número random, y el sı́mbolo b·c significa redondear hacia abajo. Si las
bolillas están numeradas 1 . . . n simplemente se suma 1 al resultado anterior:
Ni = bUi · nc + 1
Ejercicio 7.9 (Jugando al rol con dados cargados). Lance 2 dados cargados
(los que venimos usando) y sume los resultados, luego lance 4 dados equilibrados
y sume los resultados; ¿qué probabilidad hay de que la primera suma sea mayor
a la segunda?
Ejercicio 7.10 (Paradoja de De Mere). Decida qué es más probable: (a) obtener
al menos un as en 4 tiros de un dado, (b) obtener al un doble as en 24 tiros de
dos dados.
33
8. Variables aleatorias n-dimensionales
Todo lo dado en este capı́tulo es un resumen de [1], Vectores aleatorios. Ahı́
hay más ejemplos y gráficos.
o equivalente Z
P (X ∈ S) = fX (t)dt ∀S ⊂ Rn
S
llamaremos función de densidad conjunta a fX (x). NOTA: las integrales
son n-dimensionales.
3. Diremos X mixta si no es continua ni discreta.
Ejemplo 8.5 (Continua bidimensional). Sea (X, Y ) una variable aleatoria con
densidad f(X,Y ) . Calcular la probabilidad de que (X, Y ) pertenezca al rectángulo
R = {0 < x < 2, 0 < y < 3} Respuesta
Z Z Z 3Z 2
P ((X, Y ) ∈ R) = f(X,Y ) (x, y)dxdy = f(X,Y ) (x, y)dxdy
R 0 0
34
8.2. Marginales
Las coordenadas Xi de un vector aleatorio X son variables aleatorias 1-
dimensionales, y como tales deben tener su propia distribución (sin importarme
lo que pase con las otras coordenadas Xj , j 6= i). A esas variables aleatorias, para
indicar o destacar que se trata de una coordenada de una variable n-dimensinal,
las llamaremos habitualmente variables aleatorias marginales.
Teorema 8.6 (Marginales, función de distribución). Sea X una V.A. n-dimensional
con función de distribución FX (x), vale que:
(d) X
pXi (t) = pX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )
x{1...n}\{i}
(c) Z
fXi (t) = fX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )dx{1...n}\{i}
Rn−1
Ejemplo 8.8 (Caso bidimensional). Sea (X, Y ) una V.A. 2-dimensional dis-
creta (d) o continua (c) con función de probabilidad p(X,Y ) (x, y) o función de
densidad f(X,Y ) (x, y), vale que:
(d) X
pX (s) = p(X,Y ) (s, y)
y
X
pY (t) = p(X,Y ) (x, t)
x
(c) Z
fX (s) = f(X,Y ) (s, y)dy
R
Z
fY (t) = f(X,Y ) (x, t)dx
R
35
8.3. Independencia
Definición 8.9 (Independencia de una cantidad finita de V.A.). Dada una
familia de V.A. (Xi : i ∈ I) con |I| = n < ∞ (I es una colección de ı́ndices finita,
tı́picamente 1 . . . n) definidas sobre un mismo espacio de probabilidad (Ω, A, P ).
Diremos que sus V.A. son conjuntamente independientessi se verifica para todo
x ∈ Rn : !
\ Y
FX (x) = P {Xi ≤ xi } = FXi (xi )
i∈I i∈I
donde p∗Xi : R → R+ ∗ +
0 , fXi : R → R0 , k > 0. Las funciones en que se fac-
∗ ∗
toriza la conjunta pXi o fXi son las funciones de probabilidad o densidad de
las variables aleatorias marginales Xi salvo por una Q constante multiplicativa,
pXi (xi ) = ki p∗Xi (xi ), fXi (xi ) = ki fX
∗
i
(x i ), ki > 0, ki = k.
NOTA Ojo, no olvidar las indicadoras al factorizar
NOTA A veces encontrar las marginales dada una conjunta es tan sencillo
como mirar fijo, factorizar, y repartir correctamente las constantes
36
NOTA: A veces se quiere demostrar la independencia de dos variables donde
una de ellas es Bernoulli (ejercicios de coloquio, ejercicio 4.14), bastará elegir la
más sencilla de las últimas 4 igualdades y demostrarla.
37
9. Momentos
En este capı́tulo simplemente se reordenan las definiciones y se resume [1],
Variables Aleatorias: Momentos. Remitirse a la fuente para muchos ejemplos y
demostraciones de los teoremas.
9.1. Esperanza
Definición 9.1 (Esperanza). Sea X una V.A. con función de distribución FX ,
definimos: Z ∞ Z 0
E[X] := [1 − FX (x)]dx − FX (x)dx
0 −∞
Teorema 9.2 (Definición clásica). Sea X una V.A. discreta (d), continua (c)
o mixta (m), vale:
P
(d) E[X] = x∈At(X) xP (X = x)
R∞
(c) E[X] = −∞ xfX (x)dx
P R∞ d
(m) E[X] = x∈At(X) xP (X = x) + −∞ x dx FX (x) dx
NOTA: La definición más frecuente de esperanza es esta, la cual se puede inter-
cambiar con la definición dada (que pasarı́a a ser teorema). Se consideró más
elegante una definición única que dividida según el caso.
Teorema 9.3 (Esperanza de funciones de V.A. n-D). Sea X una V.A. discreta
(d), continua (c) o mixta (m); y sea g : Rn → R tal que g(X) también es una
V.A., vale:
P
(d) E[g(X)] = x∈At(X) g(x)pX (x)
R∞
(c) E[g(X)] = −∞ g(x)fX (x)dx
P R∞ d
(m) E[g(X)] = x∈At(X) g(x)P (X = x) + −∞ g(x) dx FX (x) dx
NOTAS
Se restrigen las variables mixtas al caso 1-D por la desidia de entrar en
derivadas parciales. Se podrı́a generalizar fácilmente.
Para calcular la esperanza de una marginal Xi tomar g(X) = Xi y usar
el teorema, no es necesario calcular la densidad marginal de Xi .
Para calcular la esperanza de Y = g(X) no es necesario calcular la distri-
bución de Y , ni ninguna densidad marginal de X.
El último teorema incluye como caso particular a la definición clásica.
Teorema 9.4 (Propiedades). Vale que (para X o Xi con esperanza finita):
(1) Constantes: E[a] = a ∀a ∈ R
P P
(2) Linealidad: E[ ai Xi ] = ai E[Xi ]
Q Q
(3) Producto independiente: Si Xi son independientes, E[ Xi ] = E[Xi ]
38
(4) Truncada: E[X|X ∈ A] = E[X·1{X∈A}]
P (X∈A)
Pn
(5) F.P.T.: E[X] = i=1 E[X|X ∈ Ai ]P (X ∈ Ai ) si Ai es una partición de R
Pn
(6) F.P.T.: E[g(X)] = i=1 E[g(X)|X ∈ Ai ]P (X ∈ Ai ) si Ai es una partición
de R
Ejemplo 9.5 (Ejemplos de esperanza). Dar ejemplos de: función indicadora,
Bernoulli, dado común, dado cargado, uniforme, exponencial, Cauchy, ejercicio
2.2.
9.2. Varianza
Definición 9.6 (Varianza). Sea X una V.A. con esperanza finita, definimos la
varianza de X como
V (X) := E (X − E[X])2
llamaremos desvı́o de X a p
σX := V (X)
NOTA: para aplicaciones ingenieriles σX es más fácil de visualizar porque
tiene las mismas unidades que X.
Teorema 9.7 (Fórmula para calcular V). Sea X una V.A. con esperanza y
varianza finita:
V (X) = E[X 2 ] − E 2 [X]
Demostración. Basta con desarrollar el cuadrado del binomio y aplicar propie-
dades vistas
9.3. Covarianza
Definición 9.10 (Covarianza). Sean X e Y dos V.A. sobre el mismo espacio
de probabilidad (Ω, A, P ) con esperanza finita, llamaremos covarianza de X e
Y a:
Cov(X, Y ) := E [ (X − E[X]) · (Y − E[Y ]) ]
Teorema 9.11 (Fórmula para calcular Cov). Si X e Y cumplen además E[X 2 ]
y E[Y 2 ] finitas, vale:
39
Demostración. La demostración simplemente es distribuir el producto de bino-
mios de la definición. La hipótesis de esperanza de los cuadrados finita permite
demostrar que E[XY ] es finita mediante la desigualdad |xy| ≤ (x2 + y 2 )/2.
Definición 9.12 (Matriz de covarianzas). Sea X una V.A. n-dimensional sobre
(Ω, A, P ), definimos la matriz Cov por sus coordenadas:
Cov i,j := Cov(Xi , Xj )
40
9.4. Recta de regresión
Definición 9.17 (Recta de regresión). Sean X e Y dos V.A. sobre el mismo
espacio de probabilidad (Ω, A, P ) con covarianza, definimos la recta de regresión
de Y sobre X mediante su fórmula:
Cov(X, Y )
y(x) := (x − E[X]) + E[Y ]
V ar(X)
o, lo que es equivalente y más fácil de recordar:
x − E[X] y − E[Y ]
y ∗ := ρx∗ x∗ = , y∗ =
Des(X) Des(Y )
NOTA: en la fórmula aparecen la función y, la variable x, y algunos momen-
tos de las V.A., se trata de la expresión de una recta sin nada aleatorio.
41
Demostración. Por linearidad de esperanza y por tener todas las V.A. la misma
esperanza:
hX i 1X 1
E[Sn /n] = E Xi /n = E[Xi ] = nE[X1 ] = E[X1 ]
n n
Como las variables son I.I.D. se anulan las Cov y se tiene:
1 X 1 V [X1 ]
V [Sn /n] = V [Xi ] = 2 nV [X1 ] =
n2 n n
Aplicando Chebychev (pequeña):
Sn V (X1 )
P − E[X1 ] > ≤
n n · 2
tomar lı́mite y listo.
– CONSULTAR DIFERENCIA ENTRE > EN WLLN Y ≥ EN CHEBY-
CHEV –
ALTA NOTA: Con este teorema los axiomas ya no solo atrapan la idea
de frecuencia relativa en el sentido de que permiten modelarla, sino que además
se demuestra que (con ciertas hipótesis) la frecuencia relativa Sn /n tiende a la
probabilidad a medida que aumenta la cantidad de ensayos.
NOTA: Se llama ley débil porque hay una fuerte. La ley fuerte de los grandes
números implica la débil, pero es de más difı́cil comprensión y mucho más difı́cil
demostración. Ver [5].
{Y ≤ y} = {ω ∈ Ω : Y := g(X) ≤ y} ∈ A ∀y ∈ Rn
42
–Agregar bonitos gráficos–
Definición 10.3 (Inversa de una región). Sea g : D ∈ Rm → Rn , y S ⊂ Rn
una región (en el destino). Definimos su inversa o preimagen:
g −1 (S) := {x ∈ D : g(x) ∈ S}
P (Y ∈ S) = P (X ∈ g −1 (S))
Demostración. Evidente, pues el evento Y ∈ S refiere a los mismos ω ∈ Ω que
el evento X ∈ g −1 (S).
Teorema 10.5 (Caso particular - Fda de Y ). Tomemos como caso particular
S = {y 0 : y 0 ≤ y}, tendremos P (Y ∈ S) = P (Y ≤ y) = FY (y) lo que nos
permite calcular la función de distribución de Y aplicando el teorema:
FY (y) = P (X ∈ g −1 ({y 0 : y 0 ≤ y})
Teorema 10.6 (Caso particular - Discretas). Tomemos como caso particular
S = {y} (un conjunto con un único punto), X es una V.A. discreta, y exigimos g
inversible por regiones. Tendremos P (Y ∈ S) = P (Y = y) = P (X ∈ g −1 ({y}) lo
que nos permite calcular la función de probabilidades de Y aplicando el teorema:
X
pY (y) = P (Y = y) = P (X = x)
x:g(x)=y
X
pY (y) = P (Y = y) = P (X = x)|x=g−1 (y)
i
i
Donde (con cierto abuso de notación) i recorre las preimágenes que corres-
ponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas preimágenes
x como funciones gi−1 (y).
Teorema 10.7 (Caso particular lı́mite - Continuas). –Turbio– Tomemos X es
una V.A. continua con función de densidad fX (x) , y exigimos g inversible por
regiones. Llevando al lı́mite y con cierta complicidad del lector podemos escribir
P (Y ∼ y) = P (X ∼ g −1 ({y})), entonces si la transformación fuera biyectiva
fY (y)dy = fX (x)dx. Si la transformación es biyectiva por partes y el cambio
de variables no altera la dimensión (m = n), y considerando que la relación de
diferenciales la da el jacobiano de la transformación, tendremos
X fX (x)
fY (y) =
|Jg (x)|
x:g(x)=y
43
o también: X
fY (y) = fX (x) x=gi−1 (y)
|Jg−1 (y)|
i
i
Donde x = gi−1 (y) nos dice que se deben escribir las distintas preimágenes
x como funciones gi−1 (y). Las matrices jacobianas son Jg = dg(x)/dx, Jg−1 =
i
dgi−1 (y)/dy.
Ejemplo 10.8 (Box-Muller). Sean U1 , U2 variables aleatorias independientes
idénticamente distribuidas (VAIID) con distribución U [0, 1). Definimos las si-
guientes transformaciones:
p
R = −2 log(U1 ) Θ = 2πU2
fS (s) 1 2
fR (r) = = re− 2 r 1{r > 0}
|dg/ds| g −1 (r)
fU (u) 1
fΘ (t) = = 1{0 < t < 2π}
|dg/du| g −1 (t) 2π
44
Aplicando la regla del jacobiano:
f(R,Θ) (r, t)
f(Z1 ,Z2 ) (z1 , z2 ) =
|Jg(r,t) | g −1 (z1 ,z2 )
cos(t) −r sin(t)
Jg(r,t) = =r
sin(t) r cos(t)
volviendo...
1 2
!
re− 2 r
f(Z1 ,Z2 ) (z1 , z2 ) = 1{r > 0, 0 < t < 2π}
r2π
g −1 (z1 ,z2 )
11. Condicionales
En este capı́tulo se reordenan los conceptos de [1] Condicionales. Se intenta
minimizar la cantidad de definiciones para aprovechar los teoremas ya dados
en los capı́tulos anteriores. Para ejemplos y demostraciones leer el borrador
mencionado. Se dan todas las definiciones para V.A. en 2 dimensiones, se podrı́a
generalizar sin problema a n-dimensional, teniendo en cuenta que al condicionar
a Xi = xi se reduce la dimensión en 1.
Z y
fX,Y (x, z)dz
FY |X=x (y) := si (X, Y ) continua, fX (x) > 0
−∞ fX (x)
45
Teorema 11.2 (La Fda es una Fda). La función FY |X=x (y) como la definimos
es una función de distribución. Entonces, existe una V.A. sobre el espacio de
probabilidad (Ω, A, P ) que la tiene por función de distribución. La definiremos
a continuación.
Demostración. EJERCICIO: Verificar que se cumplen las tres propiedades que
debe cumplir
Definición 11.3 (V.A. Y condicional a X = x). Sean (X, Y ) una V.A. 2-
dimensional sobre un e.p. (Ω, A, P ), discreta (d) o continua (c). Sea x ∈ R un
número tal que P (X = x) > 0 o fX (x) > 0.
Definimos la variable aleatoria Y |X = x (se lee Y concionada a X = x,
o Y dado que X = x) sobre (Ω, A, P ) a partir de la función de distribución
FY |X=x (y).
NOTA: Si se cumplen las hipótesis la V.A. existe por teorema, si no no se
define.
NOTA TEOREMITA: Si (X, Y ) discreta Y |X = x será discreta, si con-
tinua continua.
Teorema 11.4 (Función de probabilidad o densidad). Sea Y |X = x discreta
(d) o continua (c) definida sobre (Ω, A, P ), su función de probabilidad puntual
o su función de densidad (fdp) vale:
fX,Y (x, y)
fY |X=x (y) =
fX (x)
Demostración. La segunda surge simplemente de derivar la función de distribu-
ción. La primera surge de analizar los saltos de la función de distribución.
NOTA: La división se puede hacer ya que para definir Y |X = x pedimos
que lo que está en el denominador no sea nulo.
Ejemplo 11.5 (Ejemplo condicionales). Hacer ejemplo con urna 3 verdes, 2 ro-
jas, 2 azules; extraer 2 sin reposición. Hacer ejemplo uniforme sobre un triángulo
o sobre una región como la del parcial.
Teorema 11.6 (Construcción de la conjunta). Sea Y |X = x discreta (d) o con-
tinua (c) definida sobre (Ω, A, P ), y dada la marginal de X, podemos reconstruir
la conjunta:
pX,Y (x, y) = pY |X=x (y)pX (x)
fX,Y (x, y) = fY |X=x (y)fX (x)
para completar, en los puntos donde la condicional no esté definida diremos que
la conjunta es nula.
Demostración. Pasar multiplicando y completar los huecos
46
Teorema 11.7 (Fórmula de probabilidad total ampliada). Sea Y |X = x discre-
ta (d) o continua (c) definida sobre (Ω, A, P ), y dada la marginal de X, podemos
reconstruir la marginal de Y :
X
pY (y) = pY |X=x (y)pX (x)
x∈Sop(X)
Z
fY (y) = fY |X=x (y)fX (x)dx
Sop(X)
Demostración.
X
FX (x) = P (XM ≤ x) = P (XM ≤ x|M = m)P (M = m) = . . .
m∈M
X X
... = P (Xm ≤ x|M = m)P (M = m) = FXm (x)P (M = m)
m∈M m∈M
47
Teorema 11.11 (fdp o fpp de variable mezcla). Sea X = XM variable mezcla
como la definimos, discreta o absolutamente continua, vale:
X
pX (x) = pXm (x)P (M = m)
m∈M
X
fX (x) = fXm (x)P (M = m)
m∈M
Z ∞
E[Y |X = x] = yfY |X=x (y)
−∞
y gran teorema:
X
E[g(Y |X = x)] = g(y)pY |X=x (y)
y∈At(Y |Xx )
Z ∞
E[g(Y |X = x)] = g(y)fY |X=x (y)
−∞
48
y para la varianza, si la esperanza del cuadrado es finita:
V (Y |X = x) = E[(Y |X = x)2 ] − E 2 [Y |X = x]
o, equivalente:
V (Y |X = x) = E[Y 2 |X = x] − E 2 [Y |X = x]
ϕ(x) := E[Y |X = x]
Definición 11.17 (Función *tridente). Sean (X, Y ) una V.A. 2-dimensional so-
bre un e.p. (Ω, A, P ), definimos la función *tridente de Y sobre X, ψ : Sop(X) →
R, de la siguiente manera:
ψ(x) := V [Y |X = x]
49
variable aleatoria ϕ(X) (transformada de X con ϕ : R → R medible) tal que
cumpla la siguiente ecuación funcional:
50
Definición 12.7 (V.A. varianza condicional). Con las mismas hipótesis que
definimos E[Y |X] y además E[Y 2 ] < ∞ definimos la varianza condicional de Y
dado X:
V (Y |X) := E[Y 2 |X] − (E[Y |X])2
Teorema 12.8 (Cálculo de la V.A. varianza condicional). Si está definida,
la varianza condicional se obtiene especificando la función *tridente ψ(x) =
V (Y |X = x) en la variable aleatoria X:
V (Y |X) = ψ(X)
51
Demostración. Demostraciones a cargo del lector, se asume que tiene co-
nocimientos básicos de álgebra lineal.
Teorema 12.12 (Predictor). Sean X, Y V.A. sobre un e.p. tales que E[Y 2 ] <
∞, y sea ϕ(X) = E[Y |X] la esperanza condicional de Y dado X. Vale que ϕ(X)
es la proyección ortogonal de Y sobre el subespacio HX .
Demostración. Vamos por partes
pasamos restando
E[(Y − ϕ(X))h(X)] = 0
hY − ϕ(X), h(X)i = 0 ∀h
52
Demostración. Por definición de varianza, y usando la norma en V que definimos
podemos escribir:
V (Y ) = E[(Y − E[Y ])2 ] = . . .
sumamos y restamos ϕ(X) y agregamos paréntesis convenientemente
abrimos el binomio
E[(ϕ(X)−E[Y ])2 = V (E[Y |X]) (este es casi inmediato, notar que E[ϕ(X)] =
E[Y ] y aplicar definición de varianza)
el tercer término se anula (de nuevo usar propiedades de esperanza condi-
cional)
Ejemplo 12.15 (Mezcla). Demostrar las fórmulas dadas para esperanza y va-
rianza de mezclas
53
Figura 1: Teorema de pitágoras
o equivalente:
pXn (0) = 1 − p pXn (1) = p
54
13.2. Distribuciones asociadas
Teorema 13.3 (Distribución binomial). Definamos Yn como la cantidad de
éxitos (1) observados en los primeros n (fijo) ensayos de Bernoulli
n
X
Yn := Xi
i=1
T1 = S1 Tk = Sk − Sk−1 k>1
55
Teorema 13.8 (Suma de geométricas IID). Sean {Ti , i ∈ Z+ } familia de
V.A.I.I.D. con distribución Geo(p), entonces:
k
X
Sk = Ti
i=1
λy e−λ
P (Yn = y) ≈
y!
es decir, podemos aproximar a la distribución Bi(n, p) por una P oi(λ = np)
(donde λ es la media).
Demostración. En la fórmula de la binomial expresar el combinatorio por facto-
riales, reemplazar n! y (n−k)! por la fórmula de Stirling, tomar lı́mite resolviendo
las indeterminaciones 0∞ y listo.
o equivalente:
56
Teorema 13.13 (Filtrar un P.B.G.). INFORMAL: Sea {Xn : n ∈ Z + } un
proceso Bernoulli generalizado a valores {1 . . . r} con probabilidades pi . Cons-
truimos el proceso {Yn : n ∈ Z + } a valores {1 . . . r} \ {j} a partir del proceso
original descartando todas las ocurrencias del resultado j. Vale que el nuevo
proceso es un proceso Bernoulli generalizado con probabilidades
py
P (Yn = y) = 1{y 6= j}
1 − pj
Demostración. Ver [10]. Los autores trabajan con lenguajes regulares y funcio-
nes generadoras (escapan los objetivos del curso y conocimiento del autor).
Ejemplo 13.15 (Aplicación de coleccionista). Para entender la fórmula, resol-
vamos para m = 1
E[Cm ] = 1
Para m = 2, por simplicidad p = (p1 , p2 ) = (a, b)
1 1
E[Cm ] = −1 + +
1−a 1−b
Para m = 3, por simplicidad p = (p1 , p2 , p3 ) = (a, b, c)
1 1 1 1 1 1
E[Cm ] = 1 − − − + + +
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
Para m genérico y pi = 1/m (resultados equiprobables):
m
q−1 m 1
X
E[Cm ] = m (−1)
q=1
q q
57
vez el resultado b, i.e. Nb = mı́n{n : Xn = b}. Definimos para i = 1, . . . , b − 1
PNb −1
el valor Mi = n=1 1{Xn = i} que cuenta la cantidad de veces que veo el
resultado i hasta ver por primera vez el resultado b. Vale que:
m
pb pb pb
Mi ∼ Ge −1 P (Mi = m) = 1−
pb + pi pb + pi pb + pi
(x − 1)(1 − px) 1
fn '
(r + 1 − rx)q xn+1
1 − px 1
qn ' n+1
(r + 1 − rx)q x
donde x es la menor solución a la ecuación s = 1 − qpr sr+1 , la misma se puede
encontrar de forma recursiva tomando g(s) = 1−qpr sr+1 , x0 = 1, xn+1 = g(xn ).
Demostración. Ver [3]. Trabaja con funciones generadoras (escapan los objetivos
del curso y conocimiento del autor).
Teorema 13.18 (Rachas - Competencia). Del Feller VIII.1: Sea A el evento
“un racha de α éxitos consecutivos ocurre antes que una racha de β fracasos
consecutivos” en un P.B. p, con q = 1 − p, vale que:
1 − qβ
P (A) = pα−1
pα−1 + q β−1 − pα−1 q β−1
58
1 − pα
P (B) = q β−1
pα−1 + q β−1
− pα−1 q β−1
P (A) + P (B) = 1
Demostración. Ver [3]. Esta se entiende fácil, hace algo parecido a lo que hicimos
en el problema de la rata.
Ejemplo 13.19 (Coleccionista con tres premios y vacı́os). Resolveremos el pro-
blema del coleccionista clásico pero agregándole la posibilidad de que vengan
chocolatines vacı́os. Sea {Xi : i ∈ Z+ } un proceso Bernoulli generalizado a va-
lores (0, 1, 2, 3) con probabilidades respectivas (z, a, b, c). El coleccionista quiere
juntar 1 a 3, y los 0 no le interesan, representan el chocolatı́n vacı́o.
Llamaremos N al tiempo de espera a completar la colección, NZ al tiem-
po que falta hasta completar la colección dado que ya acumulé Z ⊂ {1, 2, 3}
(subconjunto de la colección completa).
Condicionemos para empezar N al primer resultado. Si sale vacı́o el problema
vuelve a empezar, si sale 1 a 3 el coleccionista avanza:
N |X1 = 0 ∼ 1 + N
N |X1 = 1 ∼ 1 + N1
N |X1 = 2 ∼ 1 + N2
N |X1 = 3 ∼ 1 + N3
Para analizar N1 de forma similar, condicionemos al resultado i que será el
primero después de obtener el premio 1 (no necesariamente i = 2 pues podrı́an
salir unos vacı́os primero). De nuevo, si ya tenemos el 1 acumulado y nos sale
vacı́o o de nuevo 1 el coleccionista no avanza, si sale 2 o 3 sı́.
N1 |Xi = 0 ∼ 1 + N1
N1 |Xi = 1 ∼ 1 + N1
N1 |Xi = 2 ∼ 1 + N1,2
N1 |Xi = 3 ∼ 1 + N1,3
59
Análogamente
1 c a
E[N2 ] = 1+ +
c+a a c
1 a b
E[N3 ] = 1+ +
a+b b a
Planteamos ahora E[N ] por fórmula de probabilidades totales
1 1 1 1 1 1
E[N ] = 1 − − − + + + si z = 0
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
60
14. Proceso de Poisson
Seguiremos [1], Procesos de Poisson, 22 de abril de 2013. Se formaliza un
poco más la pérdida de memoria del proceso, y se agrega algún resultado sobre
el PPP mirado desde un t0 hacia atrás.
(a) S0 = 0
(b) S0 < S1 < S2 < · · ·
(c) lı́mn→∞ Sn = +∞
Diremos entonces que Sn es un proceso puntual aleatorio o P.P. sobre la semi-
rrecta positiva.
NOTA 1: Un P.P. es un proceso que (con probabilidad 1): su primer variable
es 0, sus variables están ordenadas y no tienen arribos simultáneos, y no explota
(no puedo ver infinitos arribos en una cantidad finita de tiempo).
NOTA 2: Interpretaremos a los P.P. como el tiempo de arribo o el tiempo
de llegada de una marca o evento (hacer gráfico).
NOTACIÓN: A los procesos puntuales los llamaremos habitualmente con
letras griegas mayúsculas, por ejemplo “Sea Π un proceso puntual de Poisson
de tasa...”
Definición 14.2 (Tiempos de espera). Al proceso {Tn : n ∈ Z+ } definido por:
Tn := Sn − Sn−1
61
Teorema 14.4 (Propiedades de procesos puntuales y de conteo). Con las Sn y
Nt recién definidas vale que:
(1) Nt ≥ n ⇔ Sn ≤ t
(2) Nt = n ⇔ Sn ≤ t < Sn+1
(3) Nt es una V.A. a valores enteros no negativos
(4) N0 = 0 y lı́mt→∞ Nt = ∞
Las condiciones 1 y la 2.a nos dicen que los incrementos son temporalmente
homogéneos (no importa donde nos paremos) e independientes, lo que implica
que si nos paramos en un tiempo arbitrario t y reiniciamos el proceso todo lo
que ocurra de ahı́ en adelante será independiente del pasado y se distribuirá de
la misma forma que el proceso original. Informalmente, diremos que le proceso
de Poisson no tiene memoria. La fiesta de Poisson empieza cuando llego.
62
Teorema 14.6 (Distribuciones asociadas). Sea Π = {Sn : n ∈ Z+ 0 } un PPP de
intensidad λ sobre la semirrecta positiva, y los tiempos de espera {Tn : n ∈ Z+ }
definidos:
Tn := Sn − Sn−1
Vale que:
(I) La densidad conjunta de los primeros n tiempos de arribo S1 , S2 , . . . , Sn
está dada por:
f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }
Sn ∼ Γ(n, λ)
(notar dependencia)
(III) Los tiempos de espera Tn son V.A.I.I.D. con distribución exponencial
Tn ∼ Exp(λ)
(notar independencia)
Demostración. Ver [1], Procesos de Poisson, teorema 1.5. No es tan larga y es
interesante. Arma la conjunta de las Gammas S1 . . . Sn a partir del proceso de
conteo tirando de galerazo unas integrales, y luego por jacobiano encuentra la
conjunta de las T1 . . . Tn .
Teorema 14.7 (Definiciones alternativas). Los enunciados (I) y (III) del teore-
ma anterior son caracterı́sticas únicas de los procesos de Poisson y sirven como
definiciones alternativas. Las propiedades sobre el proceso de conteo que usa-
mos como definición se pueden probar a partir de cualquiera de las definiciones
alternativas.
(I) Sea Π = {Sn : n ∈ Z+ 0 } un P.P. tal que la densidad conjunta de los
primeros n tiempos de arribo está dada por
f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }
n
X
S0 := 0 Sn := Ti n = 1, 2, . . .
i=1
63
Demostración. Ver [1], Procesos de Poisson, tı́tulo 1.3. Es larga, hay que de-
mostrar que lo que se arma al “apilar” exponenciales independientes de tasa
λ es un proceso puntual, y que cumple las dos condiciones necesarias para ser
PPP.
Teorema 14.8 (Aditividades). Por si alguno no se avivó todavı́a, va de refuerzo:
Pn
1. Sean Ti V.A.I.I.D. exponenciales de tasa λ, y sea Sn = i=1 Ti , entonces
Sn tiene distribución Gamma (o Erlang) de parámetros n y λ, i.e.
Sn ∼ Γ(n, λ) ∼ Erl(n, λ)
n
!
X
N ∼ P oi µi
i=1
64
Teorema 14.10 (Pérdida de memoria 2). Con las mismas hipótesis, pero T0
ahora es una V.A. a valores positivos independiente de Π (de todas las Sn )
Definimos:
So∗ := 0 i0 := mı́n{i : Si > To } − 1
Si∗ := Sio +i − T0 i≥i
∗
Π = {Sn∗ : n ∈ Z+
0
de donde
T1∗ ∼ Exp(λ)
Caso 2: T0 V.A. positiva discreta
la distribución de N(T0 ,T0 +t] no nos es conocida pues depende de T0 , ası́ que
condicionamos por FPT:
X
··· = P (N(T0 ,T0 +t] = 0|T0 = t0 )P (T0 = t0 ) = · · ·
t0 ∈A(T0 )
como T0 = t0 reemplazamos:
X
··· = P (N(t0 ,t0 +t] = 0|T0 = t0 )P (T0 = t0 ) = · · ·
t0 ∈A(T0 )
X X
··· = e−λt P (T0 = t0 ) = e−λt P (T0 = t0 ) = e−λt
t0 ∈A(T0 ) t0 ∈A(T0 )
de donde
T1∗ ∼ Exp(λ)
Caso 3: T0 V.A. positiva continua Es lo mismo sólo que en lugar de una
sumatoria debemos resolver una integral y en lugar de P (T0 = t0 ) debe ir
fT0 (t0 )dt0 .
65
Queda al final:
Z Z
··· = e−λt fT0 (t0 )dt0 = e−λt fT0 (t0 )dt0 = e−λt
R R
de donde
T1∗ ∼ Exp(λ)
(−) 1 − e−λt0
E[T1 ]=
λ
NOTA: Notar que si t0 grande, se trata de una V.A. exponencial. El resul-
tado se puede generalizar, para un proceso lo suficientemente viejo (en estado
estacionario), desde un t0 arbitrario se tiene un PPP(λ) tanto hacia adelante
como hacia atrás.
Teorema 14.13 (Poisson hacia atrás y adelante). Sea Π un PPP(λ), t0 ∈ R+
positivo. Definimos:
Demostración. Ver [4], I.4 Waiting time paradoxes, hace una mezcla entre las
exponenciales. O calcular la densidad de W como la suma entre la primera
exponencial desde t0 y el tiempo hacia atrás.
NOTA: Notar que para t0 grande se trata de una Γ(2, λ).
66
14.4. Más propiedades
Hipótesis en general: Sn , Tn y N (t) como se definieron.
Teorema 14.14 (Tiempos de arribo dada cantidad arribada). Sabiendo que
hasta t hubo un solo arribo, T1 se distribuye uniformemente entre 0 y t, i.e.
T1 |N (t) = 1 ∼ U (0, t)
o, equivalente:
s
P (T1 < s|N (t) = 1) = 1{0 < s < t} + 1{t ≤ s}
t
Demostración. Demostrar en clase, deberı́a salir fácil.
Si fijamos ahora la cantidad de arribos en un intervalo (a, d) y nos pregun-
tamos qué pasa en un sector del intervalor (b, c) ⊂ (a, d), obtenemos:
c−b
N (b, c]|N (a, b] = n ∼ Bi n, a≤b<c≤d
d−a
entonces,
n m c−b
P (N (b, c] = m|N (a, b] = n) = p (1 − p)n−m con p =
m d−a
Demostración. Demostrar en clase, deberı́a salir fácil. Tomar a = b = 0 sin
perder generalidad para que el subintervalo quede a la izquierda y el resto a
derecha ya evitar sumatorias.
Generalizando todavı́a más informalmente, podemos decir que si Π es un
proceso puntual de Poisson de intensidad λ sobre R+ . Condicional al evento
N (t) = n, los n arribos ocurridos en [0, t] tienen la misma distribución conjunta
que la de n puntos independientes elegidos al azar en [0, t].
Teorema 14.15 (Coloración). Sea Π un PPP sobre R+ de intensidad λ, y B
un PBG a valores {1 . . . r}. Colorearemos las marcas de r colores distintos de la
siguiente manera, a la marca n que ocurrió a tiempo Sn la pintamos del color
que nos indica la Xn (del PBG). Sean Πi los conjuntos de puntos (o tiempos de
arribo) pintados del color i, vale que Πi es un proceso de Poisson de intensidad
pi λ, y los Πi son procesos independientes.
Demostración. Demostraremos qué pasa con el proceso de conteo para t fijo y
dos colores nada más. Si para un t fijamos la cantidad n de arribos del proceso
original, y deseamos saber cuántos de ellos debemos colorear del primer colo y
cuántos del segundo, basta con ver las primeras n Bernoullis y contar cuántas
son éxito
n!
P (N1 (t) = n1 , N2 (t) = n2 |N (t) = n) = pn1 pn2
n1 !n2 ! 1 2
por lo tanto, teniendo en cuenta n = n1 + n2 la probabilidad no condicional
será:
n1 +n2
(n1 + n2 )! n1 n2 −λt (λt)
P (N1 (t) = n1 , N2 (t) = n2 ) = p p e
n1 !n2 ! 1 2 (n1 + n2)!
67
e−p1 λt (p1 λt)n1 e−p2 λt (p2 λt)n2
··· =
n1 ! n2 !
dos variables Poisson independientes de tasas p1 λ y p2 λ
Se generaliza a r colores fácilmente. Y la propiedad de homogeneidad del
proceso original Π se traslada a los procesos nuevos.
Teorema 14.16 (Competencia o superposición). Sean Πi con i = 1 . . . r pro-
cesos puntuales de Poisson independientes de tasa λi sobre R+ . ElPconjunto
r
Π = ∪ri=1 Πi es un proceso puntual de Poisson sobre R+ de tasa λ = i=1 λi .
Sea Xi la variable que toma el valor k en 1 . . . r si la marca i del proceso Π
vino dada por el proceso Πk , entonces las Xi son un P.B.G. con probabilidades
pi = λi /λ independiente del proceso Π.
NOTA: Los últimos dos teoremas se pueden pensar como recı́procos. Hacer
gráfico esclarecedor.
Teorema 14.17 (Primeros n − 1 arribos dado el tiempo n-ésimo). Sea Π un
PPP(λ), sn > 0, vale que:
(n − 1)!
fS1 ,...Sn−1 |Sn =sn (s1 , . . . sn−1 ) = 1{0 < s1 < · · · < sn−1 }
sn−1
n
Vale que:
68
15. Variable normal y TCL
15.1. La variable normal univariada
Definición 15.1 (Normal y normal estándar). Diremos X ∼ N (µ, σ 2 ) si
(x − µ)2
1
fX (x) = √ exp −
σ 2π 2σ 2
FZ (z) = Φ(z)
Φ(−x) = 1 − Φ(x)
P (X ≤ x) = Φ x−µ
σ
P (a < X ≤ b) = Φ b−µ − Φ a−µ
σ σ
c −c c
P (|X − µ| < c) = Φ σ −Φ σ = 2Φ σ −1
69
NOTA: Como aXi ∼ N (aµi , a2 σ 2 ), vale que
n n n
!
X X X
ai Xi ∼ N ai µi , a2i σi2
i=1 i=1 i=1
Demostración. Ver [3], capı́tulo VII - The normal aproximation to the binomial
distribution
Teorema 15.6 (Teorema central del lı́mite). Sea Xi : i ∈ Z+ una sucesión de
V.A.I.I.D., cada una con media µ y varianza σ 2 (finitas). Sea
Pn
∗ Xi − nµ
S := i=1√
nσ
Vale que:
lı́m P (S ∗ ≤ x) = Φ(x)
n→∞
Xi ∼∼ N (nµ, nσ 2 ) o S ∗ ∼∼
P
Aplicación: Para n grande diremos S :=
N (0, 1). Luego:
P (S ≤ x) ' Φ x−nµ
√
nσ
b−nµ a−nµ
P (a < S ≤ b) ' Φ √
nσ
−Φ √
nσ
S
P( n − µ ≤ a √σn ) ' 2Φ(a) − 1
70
NOTA: No es necesario que las variables sean idénticamente distribuidas,
ni que haya independencia entre todas, hay más generalizaciones del TCL que
no veremos en este curso.
(x1 − µ1 )2
1 −1
fX1 ,X2 (x1 , x2 ) = exp +
2(1 − ρ2 ) σ12
p
2πσ1 σ2 1 − ρ2
(x2 − µ2 )2
2ρ(x1 − µ1 )(x2 − µ2 )
−
σ22 σ1 σ2
donde los parámetros son el vector de medias y la matriz de covarianzas
σ12
µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
Teorema 15.8 (Marginales y condicionales). Sea (X1 , X2 ) ∼ N (µ, Σ) con:
σ12
µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
vale que:
X1 ∼ N (µ1 , σ12 )
X2 ∼ N (µ2 , σ22 )
X1 |X2 = x2 ∼ N µ1 + ρσ1 x2σ−µ
2
2
, (1 − ρ 2 2
)σ 1
X2 |X1 = x1 ∼ N µ2 + ρσ2 x1σ−µ
1
1
, (1 − ρ 2 2
)σ 2
71
Referencias
[1] Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], marzo a junio
de 2013.
[2] Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995.
[3] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
I. 2da ed. New York: John Wiley & Sons, 1957.
[4] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
II. 2da ed. New York: John Wiley & Sons, 1971.
[5] Grimmet, G., Stirzaker, D. Probability and Random Processes. 3ra. ed. Gran
Bretaña: Oxford University Press, 2001.
[6] DeGroot, M. H. Probability and Statistics. 2nd. ed. EE.UU.: Addison-
Wesley Publishing Company, 1989.
[9] Billingsley, P. Probability and Measure. 3rd. ed. EE.UU.: John Wiley &
Sons, 1995.
[10] Flajolet, P.; Gardy, D.; Thimonier, L. Birthday Paradox, coupon collectors,
caching algorithms and self-organizing search. Discrete Applied Mathema-
tics 39 (1992) 207-229
[11] Gentle, J. E. Random Number Generation and Monte Carlo Methods. 2nd.
ed. EE.UU.: Springer, 2005.
72