Probabilidad y Estadistica Inferencial Avila Blas

Probabilidad y Estadística Inferencial:
Teoría y Aplicaciones
Dr. Orlando José Avila Bias
Lic. María Cristina Ahumada
Prof. Gisselle Collivadino de Saldeño
Prof. Jorge Osear Roig Aranda
Primera Edición
Diciembre de 2002
I.S.B.N. en trámite
Depósito que marca la Ley 11.723
Salta, República Argentina
Prohibida su reproducción total o parcial, sin el consentimiento por escrito de los autores, por
cualquier medio o procedimiento, bajo las sanciones establecidas en la leyes vigentes en la
República Argentina.
Prefacio
Enseñar no significa hacer al otro a tu semejanza, sino guiarlo para sea él mismo ...
Para los autores este libro, cuya primera edición presentamos en una ceremonia
especial conmemorativa organizada por la Facultad de Ciencias Exactas, el 13 de
Diciembre de 2002, es una verdadera alegría y orgullo dar a luz a un proyecto que
comenzó hace más de diez años. Con la necesidad de poder contar con material
didáctico complementario para la. enseñanza de la asignatura Probabilidades y Es-
tadística, cuyo dictado fué y continúa. siendo de dictado común a. varias carreras
de esta Facultad, comenzamos a publicar una serie de cuadernillos con apuntes de
teoría. y con ejercicios explicativos de los conceptos involucrados.
No todos los temas se publicaron simultánea.mene, y fueron muchos años de puesta a
preuba de éstos, lo que permitió el enriquecimiento tanto de nosotros como docentes
como el de los estudiantes. Vimos pasar por nuestras clases a muchas generaciones
de alumnos, muchos de ellos profesionales ya, y hasta colegas nuestros, quienes en su
permanente afán por poder entender temas difíciles pero a la vez fascinantes como
los que trata. esta asignatura, supieron hacernos llegar sus críticas constructivas y,
en base a ellas, nosotros como profesores poder realizar las modificaciones necesarias
a fin de hacer óptimo el aprendizaje.
Hoy con mucho toda.vía. por a.prender, hacemos la presentación oficial de esta obra
titulada "Probabilidad y Estadística: Teoría y Aplicaciones" y, deseamos que
el lector sepa que hemos tratado de imaginar por mucho tiempo cómo nos sentiríamos
en un día como el de hoy, y realmente nos sentimos desbordantes de felicidad!. Así
que, a todos los que directa o indirectamente tuvieron que ver con que esta historia
llegara a tan buen fin, les decimos: Gracias por darle fin al suspenso!.
El libro está presentado en 15 capítulos en los que se abordan contenidos teóricos y
prácticos, comenzando con una reseña histórica sobre la Probabilidad en los siglos
XIX y XX, siguiendo con un tratamiento exhaustivo de los fenómenos aleatorios,
el cálculo de probabilidades y el estudio de la variables aleatorias más importantes
como una etapa previa al tratamiento de la Estadística Inferencia!: distribuciones
en el muestreo, estimación y análisis de regresión lineal y no lineal. Cada capítulo
contiene al final una sección especial con una gran variedad de ejercicios complemen-
tarios, y en particular, en el capítulo 15, se incluyen modelos de exámenes parciales
y finales que se han tomado a lo largo de tantos años.
Esperamos que esta obra puede llegar a. los lectores de una manera fácil, dinámica y
se vea reflejada en ella, nuestro amor por el trabajo en esta área de la Matemática,
que ha tomado en los últimos años, tanto auge por su relación con otras ciencias.
Queremos agradecer a nuestros padres biológicos y del corazón, ya que sin ellos hoy
no estaríamos aquí ni seríamos humana y profesionalmente, lo que hemos logrado
hasta el momento. Nos dieron la vida, que es un don que no t iene precio y nos
condujeron con sus enseñanzas para poder transitar el hermoso camino de la vida.
Pero también consideramos que no podemos dejar de agradecer a nuestros padres
académicos, ya que ellos nos educaron, nos formaron tanto huma.na como profesion-
almente y son también directos responsables de que este proyecto pudiera ser hoy
presentado. Nombrarlos a todos sería motivo de un capítulo aparte, pero nobleza
obliga y, queremos agradecer a nuestros profesores, investigadores, colegas y ami-
gos del Departamento de Matemática de esta Facultad, y de otros Departamentos
Docentes y Facultades de la UNSa; también a los docentes e investigadores de la
Facultad de Ciencias Exactas, y muy en especial a los del Instituto de Investiga-
ciones Estadísticas (INIE) de la Universidad Nacional de Tucumán, que tuvieron
mucho que ver en la formación de postgrado de dos de los autores de este libro.
Finalmente, y no por ello menos importante, este libro que hoy presentamos, es un
tributo nuestro en vida por la trayectoria de un querido Maestro, Colega y Amigo
de tantos años, que ya se ha retirado de la docencia y la investigación, con todo
el derecho que tenemos los seres humanos de disfrutar el descanso bien ganado
luego de tantos años de labor fructífera., nos referimos al Magister en Estadística
Matemática, Sr. Profesor José Horado Di Veltz: hoy estás viendo cómo
tus discípulos hemos continuado la labor que nos has enseñado con tanto amor y
respeto, y deseamos que sepas que aunque no estemos juntos físicamente todos los
días en nuestra tareas académicas, vos continúas guiándonos y tu presencia no pasó
en vano por esta Universidad.
Maestro: Mil Gracias por todo y por tanto!!.
Los autores.
• Orlando José Avila Blas

Profesor en Matemática y Física
Licenciado en Matemática
Doctor en Ciencias (Fac. Cs. Exactas. UNSa)
• María Cristina Ahumada

Licenciada en Matemática
• Gisselle Collivadino de Saldeño

Profesora en Matemática y Física
• Jorge Osear Roig Aranda

Profesor en Matemática y Física
Contenido
1 Desarrollo Prob abilístico y Estadístico en el siglo XIX 3

1.1 Introducción . . 3
1.2 Correlación . . . . . 4
1.3 El Mendelismo . . . 5
1.4 El papel de Quetelet 5
1.5 La Ley de los grandes números 6
1.6 Laplace y la Teoría de errores . 7
1.7 Convergencia Estocástica . . . 7
1.8 Pruebas de hipótesis estadísticas 8
l. 9 La Lógica de lo probable . . . . . 8
1.10 Mecánica estadística y Teoría cinética de la materia 10
l. 11 Entes aleatorios generales 13
1.12 Comentario Final . . . . . . . . . . . . . . . . . . . . 13
1
Capítulo 1
Desarrollo Probabilístico y
Estadístico en el siglo XIX
En el curso del rico y fecundo periodo reciente, la teoeria de las probabilidades ha revelado más que
nunca su potencia consquistadora, su poder de explicación y aplicación. Pero ya desde el comienzo
del sigo X IX, y hoy en día un vistazo al conjunto de lo realizado basta paro mostrar, con todas las
vinculaciones laterales y todos los problemas que presenta la Ciencia moderna, la posición central
y el carácter universal de la teoría de las probabilidades. Desde ese momento no hay prácticam ente
un dominio, en todo el inmenso conjunto de la investigación científica, en el que no aparezca, ante
'7a invasión de la aleatorio", el peligro de ignorar este nuevo espíritu.
l. 1 Introducción
El objetivo principal de este capítulo introductorio al presente libro, es relatar de una maner breve
y amena, el desarrollo de la hist oria de la Probabilidad y la Estadística en la Europa del siglo XIX
a partir de Karl Friedrich Gauss (1777-1855) y Pierre Sirnon de Laplace (1749-1827), éste ú ltimo
con su obra Théorie analytique des probabilités (Teoría analítica de las probabilidades), publicada
en París en 1812, introdujo a muchos otros matemáticos a evaluar la probabilidad de diversos
fenómenos naturales.
En un serie de memorias publicadas entre 1771 y 1818 y cuyos resultados se encuentran coord~nados
en su obra antes citada, Laplace aportó importantes contribuciones tanto a los principios y métodos
del cálculo de probabilidades como a sus diversas aplicaciones. El enunciado y demostración de cada
teorema, la resolución y aplicación de cada problema clásico, son materias examinadas nuevamente
por el matemático y presentadas en una síntesis que corona toda la obra del siglo en este dominio.
Los fundamentos psicológicos del cálculo de probabilidades vienen presentados de una manera
muy clara, y una nueva teoría, la de las funciones generatrices, se coloca como fundamento de
toda la exposición teórica. Laplace tiene también en cuenta la aplicación de la nueva ciencia a
los problemas demográficos, a cier tos problemas jurídicos y a cuestiones científicas diversas, como
la explicación de las desigualdades en los movimientos planetarios, la inclinación media de las
órbitas de los cometas, la distribución de las estrellas de la esfera celeste, la teoría de los errores.
En su Essai philosophique sur les probabilités (París, 1814), reeditado a menudo, Laplace da una
transposición elemental de ese Tratado. Las dos obras cierran de un modo magnífico este período,
en el que el cálculo de probabilidades se constituyó como disciplina autónoma.
La probabilidad que comenzó siendo una colección de observaciones sobre el juego de los dados,
se convirtió en una potentísima rama de la Matemática pura y aplicada. Inició su adolescencia
matemática en un intercambio de cartas ent re Pascal y Fermat en el siglo XVII, llegó a la edad
adulta en el siglo XIX con Laplace, y en siglo XX, gracias, especialmente a Kolgomorov, se convirtió
en un campo más de la matemática rigurosa con innumerables aplicaciones, incluso en las .ramas
más puras de la matemática.
3
4 CAPíTULO l. DESARROLLO PROBABILíSTICO Y ESTADíSTICO EN EL SIGLO XIX
La primera demostración del teorema de distribución de los números primos, problema clásico entre
los clásicos, fué realizada apelando a conceptos y métodos de la teoría de la probabilidad. Y hoy
en día muchos de los problemas de ecuaciones diferenciales determinísticas en las que intervienen
diversas variables difíciles de controlar, se tratan más fácilmente mediante su transformación en
problemas estocásticos, es decir, considerando tales variables como aleatorias (no determinísticas).
Por otra parte, la teoría de la probabilidad constituye el armazón que sostiene la estadística,
instrumento necesario y escencial de muchas disciplinas de las ciencias naturales y humanas.
A principio del siglo XIX se aportaron muchos conceptos nuevos y muchas de esas ideas aparecieron
como un brote natural en torno a los problemas planteados en Biología (especialmente los de la
herencia), juegos y problemas físicos, los que fueron estudiados con el máximo rigor posible por los
probabilistas.
De esta manera se originaron poderosos desarrollos de los métodos estadísticos analíticos que
permitieron enriquece.r las antiguas concepciones determinísticas; había surgido un nuevo elemento
a ser tenido en cuenta: el azar (del árabe, significa dado).
Aparecieron entonces y se desarrollaron una serie de conceptos nuevos y situaciones sobre los cuales
se expondrá a continuación.
1.2 Correlación
Conocida también como "vínculo de probabilidad" ó "vínculo estocástico" (ver Capítulos 13 y 14)
, si bien tenía una primera noción relacionada con el Teorema de la Probabilidad Compuesta, se
pensaba que con el tiempo la verdadera definición aparecería. Sin embargo no fué sino hasta casi
el final del siglo (1888-1889) que Sir Fracis Galton (1822-1911), primo de Charles Darwin y quien
sugirió el uso de las huellas digitales para la identificación de las personas, pudo definir lo que se
entiende por correlación como medida del grado de dependencia lineal de una variable con otra,
tomando como modelo la población de los hijos cuyos padres tienen una estattua fija.
Sus estudios estuvieron impulsados por el británico Charles Darwin (1809-1882) a través de su obra
fundamental On the Origin of Spieces by means of natural selection (Sobre el origen de las especies
mediante la selección natural) (Londres, 1859). Galton creó la Escuela Biométrica inglesa, cuyo
programa consiste en la aplicación de los métodos estadísticos a la Biología y fué el primero en
apreciar con claridad que en general , un investigador mide magnitudes que no son independientes,
este concepto fué tratado es sus dos obra:s Family likeness in stature (El parecido natural en la
estatura) (1887) y Natural inheritance (Herencia Natural) (1889); ni Laplace ni posteriormente
Gauss, pensaron en esta realidad científica.
Bravais en su obra Analyse mathématique sur le probabilités des erreurs de situation d'un point
(Análisis matemáticos de las probabilidades de errores de situación en un punto)(l846) generaliza
la Ley de errores de Laplace-Gauss pero trabaja con variables independientes y no queda ningún
registro de que haya utilizado vínculos de probabilidad entre las variables medidas. En cambio,
Galton en 1877 en su libro Typical laws of heredity in man (Las leyes típicas de la herencia en el
hombre) introduce la noción de media condicionada que hoy llamamos esperanza (o expectativa)
condicional E(Y/x) de la variable aleatoria Y cuando se da a la variable aletoria X un valor par-
ticular x (ver Capítulo 7) . En este texto se utiliza por primera vez la palabra reversión y luego
regresión para caracterizar en el caso de la herencia de estaturas, la vuelta de los hijos a la estatura
de la raza.
Otros matemáticos que aportaron mucho a la Escuela Biométrica fueron Welton y Karl Pear-
son (1857-1936) (quien fundó en 1901 la revista Biométrica que actualmente se sigue editando).
Podríamos resumir q1,1e tanto Galton como Pearson estudiaron las variaciones presentadas por los
miembros de un misma familia en el curso de sucesivas genereaciones poniendo de manifiesto a la
Biometría como el estudio estadístico de la variación individual.
1.3. EL MENDELISMO 5
1.3 El Mendelismo
Notables trabajos que no tuvieron eco en el momento de su aparición, en el curso del siglo XIX,
cobraron toda su significación a comienzos del siglo XX y constituyeron las bases de toda una disci-
plina nueva, la cual adquirió una amplitud y una importancia considerables: la Genética, o ciencia
de la herencia. Conviene recordar aquí que esos t rabajos, que se han referido escencialmente a la
Estadística (Biometría) y al estudio de los cruzamientos entre variedades de una misma especie.
El siglo XVIII había conocido ya una serie de trabajos sobre la hibridación de las plantas, espe-
cialmente los de Kolreuter, W . Herbert, C. C. Sprengel y A. Knight. En el siglo XIX, Gii.rtner
estudió numerosos cruzamientos. En 1825, Sagaret, en Francia, realizó múltiples cruzamientos
entre especies de melones catalupo y chaté, y estudió las combinaciones de los caracteres de Los dos
tipos de en los híbridos. Además de los experimentadores premendelianos clásicos, conviene citar
a un precursor poco conocido: el farmacéutico suizo J. A. Colladon ( 1755-1830), que al parecer
realizó antes de 1829, cruzamientos de ratones blancos y grises, obteniendo resultados notables
para la época. Pero las investigaciones de este tipo adquirirían especial importancia con los tra-
bajos simultáneos del francés Charles Naudin (1815-1899) y el monje naturista austríaco G regor
Mendel (1822-1884), quien publicó en 1865, en Bruno (Moravia) , su memorable obra Versuche
über Pftanzenhybriden (Ensayos sobro híbridos vegetales) conteniendo experiencias realizadas con
guisantes en el jardín de su monasterio, dando a sus leyes una expresión rigurosa y definitiva. Esta
obra constituye la memoria fundamental de Mendel, fué publicada en alemán en Naturforscheden
Vereins in Brünn (la revista de la Sociedad de Historia natural de Bruno, vol. IV , pág. 3-47,
1865). Este texto era en principio accesible aunque la difusión de la revista fuera limitadla. Su
teoría no fué tenida en cuenta en ese momento sino que fué recién redescubierta hacia 1900 por el
biólogo austríaco Eric Von Tschermak, Correos y el botánico holandés De Vries (1848-1935, quien
realizó aportes a la teoría de la evolución y fisiología vegetal).
Fué entonces que la escuela de estadísticos y biómetras que también estudiaban el problema de las
leyes de la herencia se opuso fuertemente a las leyes de Mendel dado que les parecían demasiado
sencillas en comparación a los trabajos realizados por ellos. Pero posteriormente, por el contrario,
resultarían que las mediciones realizadas por los biómetras estaban en perfecto acuerdo con las
leyes de Mendel y que éstas últimas suministraban una explicación completa de la leyes empíricas
descubiertas.
Mendel conoció las leyes de Naudin, como resulta de una serie de cartas a Naegeli. Naudin, muy
aislado, por una sorder casi completa, no parece que supiera nada de Mendel. Toda una serie de
grandes naturistas que se intersaban por los problemas de la herencia, como Darwin, Weismaon,
Delage, etc., ignoraron completamente la obra de Mendel, trabajo fundamental que no saldría a la
luz hasta 1900, fecha a partir de la cual conseguirían un éxito y una difusión extraordinarios.
Estas mediciones pueden considerarse como la resultante de la adición de una gran cantidlad de
factores mendelianos, dando origen a lo que hoy conocemos como Análisis Factorial (método es-
pecífico en el Diseño Experimental) .
Estos t rabajos iniciados por Karl Pearson en 1903 y continuados en profundidad por R. A. Fi.scher,
todavía siguen siendo muy fencundos.
1.4 El papel de Quetelet

En la temática de los fenómenos aletorios no podemos dejar de lado a.l belga Lambert Adolphe
Quetelet (1796-1874) quien llegó a París en 1823 donde conoció a los franceses Jean Baptiste Fourier
{1768-1830), Simeón Denis Poisson (1781- 1840), Lacroix, y se familiarizó con la teoría de Laplace.
Su tema central fué el estudio estadístico de las variaciones en grupos de individuos, o poblaciones,
en el interior de la especie. Estudió, por ejemplo, las variaciones de estatura en un conjunto de
individuos de la especie humana (Anthropométrie ... París, 1971) y representaba esas variaciones
por una curva, el polígono de frecuencias. Las abscisas de esas curvas corresponden a los valores
numéricos de las diversas estaturas, y las ordenada.s, !ll número de individuos o, como suele decirse,
a las frecuencias de cada estatura. Esta curva, de aspecto regular, presenta un pico, que se
sitúa en la abscisa de frecuencia máxima. Vuelve a encontrarse una curva semejante en todas
6 CAPíTULO l. DESARROLLO PROBABILíSTICO Y ESTADíSTICO EN EL SIGLO XIX
las estadísticas referentes, para caracteres diversos, a poblaciones homogéneas, en los más diversos
tipos de animales o plantas. Este polígono de frecuencias, ampliado a grupos cada vez más grandes,
hasta el infinito, tiende hacia una curva continua límite, llamada curva normal, ó curva de Gauss,
cuya fórmula es:
y= ~e1;7, v'xE R , ueR+
uv21r
u se conoce como la desviación estándar o tipo (standar deviation) (ver más detalles en Capítulo
9).
Quetelet tuvo a su regreso una influencia extraordinaria en la formación de sociedades interna-
cionales de Estadística basando su éxito en el estudio de las observaciones de poblaciones que
revelan frecuentemente regularidades estadísticas. Célebre es su frase "La urna a la que interroga-
mos es la Naturaleza".
1.5 La Ley de los grandes números

Llamada también Ley del azar, fué demostrada por primera vez al parecer por el suizo Jacques
Bernouiili (1654-1705) quien trabajó analizando fenómenos que aparecen en los acontecimientos de
repetición frecuente y en poblaciones muy grandes.
En nuestros días conocemos la mencionada ley formulada como sigue:
Sea E el experimento aleatorio de extraer un elemento de una población dicotómica (clasificación
a dos categorías: A y su complemento) y observar si el mismo satisface el atributo A (éxito). Si
además se realizan n repeticiones independientes de este experimento y p = P(A) es constante,
definimos entonces la variable aleatoria:
nA: "número de veces que ocurre A en las n pruebas"
En base a nA podemos definir otra variable denominada frecuencia relativa de aparición de

A, por medio de ÍA =~ -
Entonces, setiene que:
p(l - p)
v'f > O, P (lfA - PI< f) 2'. 1-
nf 2
y entonces, fijados f > O y O < ó < 1, bastará repetir el experimento E una cantidad mínima de
n > p(l -2 p) veces para asegurar que:
- Óf
P (lfA - PI < f) 2'. 1 - ó

siempre que el valor de p sea conocido (ver más detalles en Capítulo 10).
Hablar de Bernouilli en matemática es como hablar de Bach en música. Los Bernouilli consti-
tuyeron una numerosa familia de científicos de los que al menos tres fueron matemáticos eminentes.
Con él además surgió Jo que hoy conocemos con el nombre de Teoría de las Decisiones, tal como
aparece documentado en su obra Ars Conjectandi (El Arte de la Conjetura) (de aparición póstuma
en 1713), publicada en Basilea; en ella fueron tomando forma perfeccionadas ideas apuntadas ya
en el intercambio de cartas entre Fermat y Pascal y, además de una reedición comentada del De
Ratiociniis in ludo alea de Huygens y de un tratado de análisis combinatorio, cont enía importtantes
contribuciones a todos los dominios de la teoría de las probabilidades.
Este teorema matemático se pone en contacto con lo concreto por ciertos fenómenos naturales.
Fué Abraham De Moivre (1667-1764) quien había comenzado a escribir sobre este tema en 1711,
demostró (en 1733) con más elegancia que la ley de Bernouilli era una forma simplificada de lo que
conocemos con el nombre de Ley de Gauss-La.place. Fué la primera ley de gra ndes números que se
conoció aunque este nombre fué introducido recién en 1837 por Poisson en su libro Recherches sur
la probabilité de.s jugements en matiere criminelle et en matiere civile, précédés des regles géneroles
du Calcul de probabilités (Investigaciones sobre la probabilidad de los juicios en materia criminal
y en materia civil, precedidas por reglas de Cálculo de probabilidades).
1.6. LAPLACE Y LA TEORíA DE ERRORES 7
El título de este libro muestra sin dudas las materias hacia donde estaban enfocados los estudios
de Laplace, Poisson, Lacroix y Cournot, todos ellos orientados por el filósofo Marie Jean Antoine
Nicolas de Caritat marqués de Condorcet (1743-1794).
De Moivre, protestante francés refugiado en Londres, concibió una obra más importante aún. En
distintas memorias, pero principalmente en su Doctrine o/ chances: or a method o/ calculating the
probability of events in play (Londres, 1718), en sus Annuities upon lives (1725) y en sus Miscel-
lanea analytica ( 1730), precisó los principios del cálculo de probabilidades y desarrolló numerosos
problemas de aplicación. Así enunció la regla de probabilidades compuestas y esbozó el uso de
ecuaciones diferenciales finitas, que se generalizarían durante el siglo XX.
Poisson llamó a una generalización de los resultados de De Moivre, Bernouilli y Laplace, Ley de
grandes números y realizó una muy buena demostración trabajando con ecuaciones. Sostenía que
muy pocos fenómenos de la naturaleza escapan a esta ley: "Las cosas de toda la Naturaleza están
sometidas a una ley universal, que puede llamarse Ley de grandes números, y de esos ejemplos
tomados de toda la Naturaleza resulta que la ley universal de los grandes números es para nosotros
un hecho general e indiscutible, inferido de experiencias que no se contradicen nunca" (Recherches,
págs. 12-246 y ss.)
Pero no todo parecía perfecto, había motivos de vez en cuando para desconfiar, el agudo y temible
Poinsot declaraba sobre el cálculo de probabilidades: "Luego de haber calculado la probabilidad de
un error, habría que calcular la probabilidad de cometer un error en el cálculo de la probabilidad
de un error".
Pero gracias a la introducción por porte de De Moivre, de la integral:
la ley de los grandes números salió victoriosa de toda sospecha.
1.6 Laplace y la Teoría de errores

Laplace generalizaría aún más esta ley en 1783, proponiendo tablas de la integral (función de
distribución acumulativa)
00
_l_ ¡+ e-4du
..;;¡;Jr
La gran idea de Laplace fué considerar que los fenómenos colectivos aleatorios pueden estar sujetos
a medición (medición topográfica o geodésica, radiación de un astro, etc.). Esta medición total está
sujeta en cada una de sus mediciones a un fenómeno muy complejo de deformación de tal modo que
cada lectura trabaja sobre un ente que pertenece a una inmensa población de imágenes posibles.
Estas imágenes están muy cerca unas de otras pero afectadas por ligeras diferencias que Laplace
llama errores elementales. Este fué el punto de partida de un nuevo pensamiento de Laplace, esta
superposición de errores elementales podía dar origen a una ley universal válida para el resultado
de la adición de un gran número de magnitudes aleatorias.
La ley de los mínimos cuadrados enunciada por Legendre en 1806 fué demostrada en 1809 por
Gauss, el cual edificó una verdadera teoría de los errores de observación y enunció el célebre ley
que lleva su nombre.
Comenzaba así a abrirse una fecunda vía, la de las leyes límites de una ley de probabilidlad de
variable, que fué posteriormente continuada por Chevychev (1821-1894), Markov (quien hiz:o una
demostración muy rigurosa en 1912), Liapunov y otros.
1. 7 Convergencia Estocástica
La ley de grandes números de Bernouilli introduce un concepto nuevo en la teoría de la convergencia,
que difiere profundamente de la convergencia ordinaria de un sucesión hacia un límite, es el de
la convergencia en probabilidad. Se trabaja fundamentalmente con tres t ipos de convergencia
8 CAPfTULO l. DESARROLLO PROBABILíSTICO Y ESTADíSTICO EN EL SIGLO XIX
en probabilidad: débil, fuerte y en media (siendo la convergencia en media cuadrática, la más

empleada en las aplicaciones a la Física). Las propiedades de convergencia en probabilidad son
realmente preciosas. Cbevychev extendió la ley de Bernouilli al promedio aritmético de n valores:
X¡+ X2
x=-------
+ ... + Xn
n
Este promedio converge en probabilidad al valor esperado de X (más conocido como esperanza o
expectativa de X): E(X) =¿ x.p(x) , donde p(x) es la función de masa de probabilidad de X .
.-eR
Hoy, expresamos este fenómeno como sigue:
\:/{>o, lim P(IX - E(X)I < {) = 1

n ➔ oo
Más detalles ver en Capítulos 7 y 12.
1.8 Pruebas de hipótesis estadísticas

El modo en que se han construído y siguen construyéndose ciencias tales como la Matemática,
Física, Mecánica, Astronomía, Química, Economía, etc., han perseguido objetivos tales como la
observación, la reflexión, la creación de conceptos nuevos a fin de comprender cada vez mejor el
mundo que nos rodea. Es decir, se observa y luego se experimenta. Luego se ponen a prueba,
se costrastan las ideas, y se conservan más o menos tiempo (testear). Esos ensayos son los tests
o pruebas por los cuales se asegura el progreso del conocimiento científico. Si la teoría tiene
como consecuencia que un hecho es imposible, la observación de ese hecho impone el abandono
de la teoría, así algunas leyes van quedando sin efecto a medida que aumenta la precisión en las
mediciones.
Cuando se trabaja con magnitudes influenciadas por el azar, ante la aparición seguida de un
fenómeno considerado poco probable, surgió la duda acerca de si el experimento aleatorio estaba
bien diseñado o no. Los científicos se cuestionaban lo siguiente: ¿Puede el azar hacer lo que estamos
observando?. He aquí sobre este tema, una anécdota de Diderot repetida por Joseph Bertra.nd:
"Un día en Nápoles, un hombre de la Basílica agitó en presencia del abate tres dados en un cubilete
y apostó que sacaría todos seis; los sacó. No tiene nada de raro, dijeron. Pero el hombre lo consiguió
por segunda vez. Tampoco nadie se extrañó; volvió a meter los dados en el cubilete y sacó tres seis,
por tercera, cuarta, quita vez más. Sangue di Bacco, exclamó el abate, esos dados están trucados".
Como podemos ver entonces en este relato, la aparición de un fenómeno con una baja probabilidad
de ocurrencia (5- 3 n , en la n-ésima prueba) , no vuelve verdadera la opinión del abate, ya que aún
siendo "cercana a cero" esta probabilidad, no hace al suceso imposible (ver más detalles en los
Capítulos 3 y 4).
Al no tener una confirmación de que el experimento fuera determinístico (no aleatorio). surgió la
necesidad de construir una teoría basada en reglas de probabilidad para poder tomar una desición
al respecto. Fué Karl Pearson quien trabajó con una gran cantidad de aplicaciones, llegando a
confirmar lo que ya había hallado Helmert en 1876, respecto de lo que hoy se conoce como la
prueba chi-cuadrado x2 en el contraste de hipótesis. Más adelante, en 1915, R. A. Fisher continuó
estos trabajos, definiendo la ley de distribución de probabilidades del denominada coeficiente de
correlación r, empleado en el análisis de la correlación (ver Capítulos 13 y 14).
1. 9 La Lógica de lo probable
La Lógica no escapó al empleo de la probabil1dad para estudiar los razonamientos. Veamos cómo
el uso del razonamiento plausible probabilista que fué hecho por los marinos de Cristobal Colón
(Pattern of plausible inference, de G. Polya): "Si el barco está cerca de tierra, se ven a menudo
pájaros. Si está lejos de tierra, se ven pájaro.s menos a menudo. Estamos viendo pájaros en este
momento. Es más probable que estemos cerca de tierrci' . No faltaron decepciones. Pero la víspera
del 12 de Octubre de 1492, se había visto efectivamente pájaros.
1.9. LA LÓGICA DE LO PROBABLE 9
Otro ejemplo que podemos citar a manera de ilustración es el de la "aventura de los bailarines",
presentado a Mr. Sherlock Holmes; consiste en tratar de descifrar el siguiente criptograma, medi-
ante un razonamiento por probable inferencia, que aunque parecido al proceso formal de silogismo,
es de conexión más libre y menos aprisionado a un armazón exacto.
Holmes llegó por este procedimiento a deducir que el mensaje del criptograma enunciaba: AM
HERE, ABE SLANEY (estoy aquí, Abelardo Slaney).
- -----
,. Xt'rX1-tx¿t~J;.J;tX~
~!6t .Y~X /2 -F:r YX~
ªn i f ;i;- AXJS ~-{ X
4
º t'X --I X~F
5º X~~~ {J(--I} X,I 't'FX
Y~<ÍX1i XXT ~y~y
Desde sus primeras publicaciones, Laplace consideraba la toería de las probabilidades como
una rama de la Lógica. En la. conclusión de su libro Essai philosophique sur la probabilité (París,
1814) aparece escrito: "Por este ensayo se ve que la teoría de probabilidades no es, en el fondo,
más que el sentido común reducido al cálculo. Se observ¡1 ¡1demás que, en las cosas mismas que no
pueden someterse al cálculo, la teoría de las probabilidades de las visiones más seguras que pueden
guiarnos en nuestro juicio".
El cálculo de probabilidades encuentra éxito en el estudio de la ordenación de los fenómenos colec-

tivos en los que está presente la incertidumbre individual. Podría entonces uno esperar que puede
imponerse un orden en un dominio tan diferente?. Polya observa al respecto, que no hay no hay
ninguna dificultad a priori, pues la Matemática ütiliza muy a menudo ideas semejantes, métodos
y ecuaciones que pueden llegar a ser muy pairecidos, 'para la resolución de problemas en principio
muy diferentes.
Agustín Cournot en su trabajo Exposition de la théorie des chances et des probabilités (Exposición
de la teoría de las expectativas y las probabilidades)(parte IV, 1843) habla al respecto del doble
sentido de la palabra probabilidad que a veces se refiere a cierta medida de nuestros conocimientos
y otras, a una medida de la posibilidad de las cosas, independientemente del conocimiento que
tengamos de ellas.
El francés Jules Henri Poincaré (1854-1912) en La science et l'hypothese (La ciencia y la hipótesis)
emplea fórmulas del cálculo de probabilidades a un problema psicológico: el de tratar de saber si
un jugador que logra una jugada especialmen.te afortunada es o no un tramposo.
Luego, Felix Emil Borel (1871-1956) demuestra en Le hazard (El azar) que con hipótesis más razon-
ables, los resultados numéricos con coherentes con el sentido común. Esto quería decir que aunque
era posible poner en duda la aplicabilidad de la teoría de probabilidades, la condición de cualquier
juicio es de la de que no se de excesiva importancia a los valores numéricos muy categóricos: esto
es, la teoría de probabilidades puede resultar una buena guia para el éxito de ciertos procesos
lógicos y ciertos juicios y la teoría de las causas pueden considerarse razonables en aplicaciones
incluso a cosas distintas por completo de los fenómenos colectivos aleatorios.
Bayes (obra póstuma publicada en 1764), seguido por los desarrollos de Laplace (en una memoria
de 1774), apunta al progreso del conocimiento y no al cálculo numérico de ciertas probabilidades.
Combinada con los teoremas de la probabilidad total y de la probabilidad compuesta (ver más
detalles en el Capítulo 4), dicha regla permitió a Laplace y a Condorcet, calcular la probabilidad
de numerosos fenómenos basándose en observaciones anteriores. En la actualidad la conocemos
enunciada como sigue:
Teorema de Bayes ó "de las causas"

Sea un experimento aleatorio é y un espacio muestra S (un conjunto de caracterizaciones de todos
los posibles resultados del experimento) asociado a él. Sea {A1,A2, ... ,An} una partición de S
y B un suceso de S, cualquiera con P(B) f O, entonces dado que B ocurrió (consecuencia), la
probabilidad de que la "causa" de ello haya sido la ocurrencia del suceso A; puede ser calculada
como:
P(A;/B)= nP(A;).P(B/A;) , 'rli=l,2, ... ,n
¿ P(Ak).P(B/Ak)
k=:l
Algo similar sucede con los trabajos de Boole, en especial Boole's challenge problem (El pro-
blema del desafío booleano) (1851), donde propone de nuevo el problema de Bayes pero olvidando
que las dos causas pueden estar presentes a la vez, y por eso, es imposible la solución y al no tener
el concepto de independencia en forma precisa, llega a una interpretación falsa.
1.10 Mecánica estadística y Teoría cinética de la materia

Los grandes logros de la Física matemática clásica en las áreas de hidrodinámica, elasticidad, etc.,
no habían hecho olvidar la concepción atomística de la materia.
Aparte de los intentos de Daniel Bernouilli, la noción de átomo siguió siendo durante mucho
tiempo ajena a la Física. Fué la Química la que elaboró las concepciones modernas del átomo y
de la molécula que la Física tomó posteriormente. Pero a fines de 1850, cuando quedó establecida
la conservación de la energía, se empezó a pensar que el calor no debía ser sino la manifestación
de la agitación molecular.
Pero, en 1858, Clausius explicaba que a causa de los numerosísimos choques de las moléculas
entre ellas, su trayectoria, compuesta de segmentos rectilíneos, es muy complicada y que, aunque
1.10. MECÁNICA ESTADíSTICA Y TEORJA CINÉTICA DE LA MATERIA 11
su velocidad sea grande, la distancia entre dos puntos ocupados por una misma molécula en un
intervalo de segundo pudo ser pequeña: el el.emento escencial (en los fenómenos de difusión, por
ejemplo) es la distancia entre dos choques, el recorrido libre medio. Fué el británico James C.
Maxwell (1831-1879) quien, en 1859, trabajando con la discontinuidad de la materia, y con el
cálculo de las probabilidades, y siguiendo métodos no estrictamente rigurosos consiguió expresar
numéricamente la "viscosidad de los gases" en función de ese recorrido libre medio y, en el mismo
trabajo se libera de la hipótesis de la constancia de la velocidad para todas las moléculas y formula
la función de distribución de partículas en el estado de equilibrio térmico, más conocida como la
ley de distribución de las velocidades.
De a.cuerdo con esta ley de distribuciones de velocidades de Maxwell, el número de moléculas que
tienen velocidad cuyos componentes son iguales a Vr , Vy y v, con aproximación de dvr, dvy y dv,
es proporcional a:
siendo µ una constante que depende de la naturaleza de las moléculas y de la temperatura. Hoy
en día se expresa la función de partición de un gas ideal monoatómico como
z = foco e - E/KT g(E)dE

en la cual el integrando representa el número de estados moleculares en el intervalo de energía
(E, E+ dE] y toma la forma
siendo V el volúmen ocupado por el gas y m la masa molecular. Una expresión más específica es:
dm = 41rN(____!!!__¡2/3 _v2.emv /2KT

2
dv 21rKT
siendo N el número de moles de gas. Una representación gráfica de esta derivada se muestra en el
siguiente gráfico:
'r•BO K
D istribución de velocidad
molecular en el oxigeno a dos tempe-
raturas (80 K y 800 K).
12 16
12 CAPíTULO J. DESARROLLO PROBA BILíSTICO Y ESTADíSTICO EN EL SIG LO X IX
La demostración de Maxwell no es del todo satisfactoria, ni siquiera con el perfeccionamiento

que introdujo posteriormente. Fué el físico austríaco Ludwig Boltzman {1844-1906) quien se in-
teresó por la teoría de los gases y desarrolló las demostraciones relativas a las teorías de Maxwell
en 1868, empleando el cálculo de probabilidades y mostrando que el exponente debe tomarse como
igual a -µw, siendoµ una constante distinta a la anterior y w la energía total de la molécula. La
introducción de esta. ley en la interpretación de las leyes de Boyle-Mariotte y Gay-Lussac muestra
que la constanteµ debe tomarse igual a 1/kT siendo T la temperatura absoluta y k la constante
de Boltzman.
Aparentemente habría dudas respecto a la utilización de las probabilidades, pero los físicos de
esa época opinaban que al observar el cumplimiento de las leyes en una gran cantidad de casos
particulares, no discutían su aplicación a los fenómenos naturales más generales. El físico tenía
sus problemas propios y ante ellos intentaba progresar en su propia temática con la ayuda de las
Matemáticas pero no renovar éstas. Para Maxwell, el cálculo de probabilidades no se presenta
como nacido de la incertidumbre, sino que llega más bien como obedeciendo al deseo de ordenar
una cuestión determinística muy compleja, con la ayuda de los conceptos de media, dispersión
y leyes de distribución. Por otro lado, R. Brown comenzó a estudiar en 1827 el movimiento de
partículas llamado browniano, pero se necesitaron por lo menos 50 años para que P. Carbonelle
lo atribuyera a la agitación térmica y mucho después Smoluchowsky, Albert Einstein ( 1879-1955),
y el francés Jean Baptiste Perrin (1879-1942) consiguieran formu lar con mucha más precisión la
teoría al respecto.
Es muy notable que todos los éxitos de la teoría cinética se daban, en definitiva, al hecho de que no
se intenta seguir el movimiento individual de las moléculas en el tiempo, sino que se identifican con
medias todos los valores medibles (como la presión y la temperatura); esas medias pueden tomarse
en las diferentes posiciones ocupadas en el curso del tiempo por una sola molécula, o en un gran
número de moléculas en un instante dado. La identidad de las medias así calculada constituye lo
que se llama el teorema ergódico. El punto escencial que vale la pena notar es que esos cálculos de
medias introducen automáticamente la noción de probabilidad.
Casi al final del siglo, Josiah Willard Gibbs (1839-1903} comenzó a formular las leyes de distr ibución
del conjunto de sistemas mecánicos más generales. Las fórmulas se aplicaban a partículas que se
encontraban en diversos estados, pero no se decía nada acerca de qué son estas partículas ni por qué
se encontraban en todos esos estados. La mecánica estadística construída por Gibbs, acaso menos
atractiva que el método de Boltzman, estaba dotada indiscutiblemente de la ventaja de no aplicarse
de un modo exclusivo a los gases. Con los trabajos de Boltzman y Gibbs, el atomismo presentaba
ya todos los caracteres de una "gran teoría", que parecía contraponerse a la Termodinámica. De
aquí la larga disputa entre "atomistas" y "energistas", entre los cuales debemos citar a W . Ostwald
con su derrota al atomismo. Si se admite que puede definirse la "la probabilidad del estado de un
sistema", no sorprenderá descubrir que, en su evolución, un sistema aislado t iene generalmente a
estados cada vez más probables. Si se compara este resultado con el teorema de Clausius sobre el
aumento de la ent ropía, se ve que tiene que ex.istir un vínculo entre estas dos nociones. Ese vínculo
fué establecido por Boltzman en 1877: para describir la tendencia natural hacia el equilibrio es-
tadístico por evolución hacia la partición de máxima probabilidad, se crea el impor tante concepto
de entropía S la cual se define por medio de la relación S = k . In P, siendo k la constante de
Boltzman, de modo que la entropía de un sistema es proporcional aJ logaritmo de la probabilidad
P de la partición correspondiente al estado del sistema.
Por lo demás resulta fácil comprobar que ese vínculo no puede ser sino logarítmico, puesto ,q ue si
se considera un sistema formado por la yuxtaposición de otros dos, su entropía es la suma de las
entropías de los sistemas constituyentes, y su probabilidad es el producto de las probabilidades de
esos sistemas.
Este vínculo entre la probabilidad y entropía es, en el fondo, lo que permitió a Lord Rayleigh en-
frentarse con el problema de la distribución espectral de la radiación de un cuerpo negro. También
está la base de los razonamientos de Plank que introdujeron la noción de quantum de energía. En el
curso del siglo XX, por una especie de carambola imprevisible, la teoría de los quanta repercutiría,
a su vez, profundamente en el desarrollo de la Mecánica estadística, abriéndole insospechables
horizontes.
1.11. ENTES ALEATORIOS GENERALES 13
"Lo verdaderamente prodigioso es que todo el vértigo matemático llegue finalmente a dar razón a
las propiedades del músculo y del caucho". (de La science de l'incentitude(La ciencia de la incer-
tidumbre) , 1959).
Los modelos de distribuciones son más claramente expuestos por Gibbs que por Maxwell y Boltz-
man.
1.11 Entes aleatorios generales

El desarrollo de la estadística movió a introducir entes aleatorios muy complicados. Si se distingue
un solo carácter para cada individuo bajo estudio, se tiene el caso más simple de variable aleatoria.
Pero un individuo está compuesto por diversos caracteres, con lo cual, al elegirlo quedan determi-
nados varios caracteres.
Se piensa en el individuo como un conjunto de funciones de una variable aleatoria fundamental, que
es él mismo. Esas funciones no están relacionadas necesariamente unas con otras y es un problema
fundamental saber si son o no independientes y hasta qué punto los valores fijos de algunas de ellas
pueden ampliar el conocimiento estocástico de las variables que quedan libres.
Surgen en el estudio, problemas típicos relacionados con el tiempo, como ser: el problema de la
ruina de los j ugadores, el problema de la extinción de los apellidos.
Nos referimos por úJtimo a los problemas planteados y resueltos por Henri Poincaré, expuestos en
su mayoría en su obra Ler;ons sur le calcul des probabilités (Lecciones sobre el cálculo de probabili-
dades) (1895 y ampliada en 1912), entre ellos el de barajar las cartas: Por qué puede admitirse que,
una vez barajadas las cartas de un mazo durante mucho tiempo, son igualmente probables todas las
permutaciones?.
Otra cuestión es la de la mezcla de líquidos. Si disponernos arbitrariamente las moléculas de
un conjunto en el t iempo t = O, la experiencia demuestra que al cabo de algún t iempo estarán
uniformemente distribuidas (Postulado del Pricipio Ergódico)
1.12 Comentario Final

Estas cuestiones, sobre las cuales medio siglo de esfuerzos ha aportado muchos resultados nuevos,
están muy distantes de agotarse. Lo expuesto nos sirve para apreciar que las nociones de proceso
est ocástico, de evolución aleatoria , de nivelación de probabilidades debida a la repetición de
operaciones, de funciones aleatorias, aunque no estuvieron juntas en su camino inicial, hoy lo están
y gracias a muchos problemas planteados por la Física del mundo concreto. Lo que faltaba m uchas
veces eran hombres capaces de enfrentarlos.
l'iffre Stmc" de Laplac&

Bibliografía
(1) René Taton. Historia General de las Ciencias, Vol. III, La ciencia contemporánea, El siglo
XIX, Editorial Destino, Barcelona, 1973.
(2] Edward Kasner y James Newman. Matemáticas e Imaginación, Librería Hachette S.A., 1944.
(3) Miguel de Guzman y José Colera. Matemáticas II, Editorial Anaya, 1989.
[4) Autores varios. Diccionario Enciclopédico Hispano UNIVERSAL, Editorial Jackson, México
D.F. , 1966.
[5] Marcelo Alonso y Edward Finn. Física, Vol. III. Fundamentos cuánticos y estadísticos, Fondo
Educativo Interamericano, Barcelona, 1971.
15
Contenido
2 Combinatoria 3
2.1 Introducción. 3
2.2 El Principio Fundamental del Conteo . 4
2.3 El Principio de la Adición . . . . . . . 7
2.4 Permutaciones de elementos distintos . 7
2.4.1 Subpermutaciones de elementos distintos o Variaciones . 9
2.5 Permutaciones Circulares . . . . . . . . . . . 10
2.6 Permutaciones con elementos indistinguibles . 12
2.6.1 Factoriales de números grandes . . . . 13
2.7 Combinaciones . . . . . . . . . . . . . . . . . 14
2.7.1 Propiedades de los números combinatorios. 17
2.7.2 El Triángulo de Pascal . . . 19
2.8 El Principio de Inclusión-Exclusión 22
2.9 Ejercicios Complementarios . . . . 24
1
Capítulo 2
Combinatoria
2.1 Introducción
El objetivo principal de este capítulo es el de aprender las técnicas para determinar el cardinal de
un conjunto finito, es decir el número de elementos del mismo.
Ennumerar o contar puede parecer de entrada un procedimiento muy fácil y hasta obvio, pero a
medida que un estudiante avanza en su estudio de las distintas ramas de la Matemática suelen
aparecer situaciones muy variadas en las que el conteo adquiere importancia y nos vemos frente a
situaciones simples de enunciar pero difíciles de resolver.
Algo fundamental a tener en cuenta es que en la mayoría de las veces el conocimiento de una
fórmula no es suficiente para resolver un problema dado, sino más bien no debemos dejar de lado
que nuestro razonamiento es mucho más importante para salir airosos.
Algunas situaciones bien concretas nos llevan a forularnos cuestiones tales como:
• De cuántas formas distintas pueden 7 alumnos anotarse en una lista para rendir un determi-
nado examen final?.
• Cuántas diagonales tiene un polígono de 15 lados?.
• Cuántos subconjuntos no vacíos podemos formar a partir de un conjunto que tiene 100
elementos?.
• A partir de una baraja francesa, de cuántos modos podemos repartir todas las cartas entre
4 personas de modo que cada una reciba exactamente 13 cartas y una de ellas tenga todos
los ases?.
• Al lanzar 5 dados legales de 6 caras cada uno, en cuántos resultados posibles aparecen por
lo menos dos "4"?.
Si bien en este capítulo nos referimos al estudio de conjuntos finitos, el análisis de los conjuntos
infinitos y sus cardinales fué materia de estudio de grandes mat~máticos y filósofos a través de los
tiempos. El concepto de conjunto estuvo cubierto de un manto de intuición hasta la formulación
de la definición que Georg Cantor (1845-1918) realizó en 1895.
Entre 1870 y 1880 Cantor diseñó un método para poder comparar los tamaños de conjuntos infini-
tos, causando una ve.r dadera revolución en la Matemática. Siendo rechazado al comienzo, su teoría
cobró real importancia hacia fines de 1890. A principios de 1900 apareció la llamada paradoja de
Russell que demostró que la teoría de Cantor carecía de consistencia, pero esta paradoja fúe pos-
teriormente eliminada por un trabajo posterior del mismo Bertrand Russell (1872-1970) y Alfred
North Whitehead (1861-1947), Principia Mathematica, que presentaba una teoría axiomátia de los
conjuntos denominada Teoría de los tipos.
El concepto de permutación aparece por primera vez en el texto hebreo místico Sefer Yetzirah (El
libro de la creación), que fuera redactado entre los años 200 y 600 D.C.
Pero el primer libro en el que se t rató el tema de este capítulo fué Ars Conjectandi (El arte de la
3
4 CAPfTULO 2. COMBINATORIA
conjetura), escrito por Jacob Bernouilli (1654-1705). Este texto fué publicado luego de la m uerte
de Bernouilli, en 1731 e incluye una reimpresión del primer tratado formal de probabilidad, redac-
tado por Christiaan Huygens en 1657.
El célebre Teorema del Binomio, para n = 2 hace su aparición en un trabajo de Euclides (300
A.C.), pero recién en el siglo XVI, el matemático Micbel Stifel (1486-1567) empleó por primera vez
la expresión coeficiente binomial.
Stifel, en su obra Arithmetica Integra (1544), presenta los coeficientes binomiales asociados hasta
=
orden n 17. En nuestro estudio analizaremos el llamado Triágulo de Pascal y sus propiedades,
en realidad este triángulo aparece por primera vez en un trabajo del matemático chino Chu Shie-
Kie (1303). Esta teoría fué presentada en Europa en el siglo XVI en un texto de Petrus Apianus
(1495-1552) y fué empleada por Niccolo Tartaglia (1499-1554) para calcular potencias enteras del
binomio (:r + y). Pero fué realmente el matemático francés Blaise Pascal (1623-1662) quien , en su
obra publicada en París en 1665: Traité du triangle arithmétique, avec quelques autres petits traités
sur la meme maniere, realizó un tratamiento integral acerca de las relaciones entre coeficientes bi-
nomiales, combinaciones y polinomios. Debido a este trabajo, Pascal atrapó el bouquet.
Es importante destacar que en el trabajo de Pascal figura el primer enunciado aceptable del Prin-
cipio de Inducción Completa 1 . Bernouilli empleó estos resultados para probar una forma general
del teorema del binomio, y no fué sino hasta principios del siglo XIX que el matemático Andreas
Ettingshausen (1796-1878) introdujo el símbolo ( ~ ) .
Ya en el siglo XX, con la aparición de las computadoras, se comenzó a realizar un análisis sis-
temático de procesos y algoritmos de generación de permutaciones y combinaciones.
Los contenidos relacionados al conteo de los elementos de un conjunto finito están agrupados en una
rama de la matemática denominada Combina toria y son empleados en muchas áreas específicas
tales como Matemática Discreta, Topología Combinatoria y la Teoría de Grafos. Las aplicaciones
abarcan ramas muy particulares de la Física, tales como Mecánica y Termodinámica Est adísticas.
La teoría se basa en dos principios fundamentales que enunciaremos a continuación.
2.2 El Principio Fundamental del Conteo

Este principio llamado también Principio de E nnumeración ó multiplicación, enuncia lo siguiente:
"Sea un procedimiento que consta de k etapas E 1 , E2, ... , E1c" de modo que la etapa E 2 se hace
a continuación de E 1 , E 3 a continuación de E2-., ... , E1c a continuación de E,.. Si E 1 puede hacerse de
n 1 formas distintas posibles, E2 de n2 1 ••• , E1c de n1c formas diferentes posibles, entonces el número
de formas de realizar el procedimiento completo viene dado por:
k
N = n1 ·n2· · ·n1c = I1 n;
i:I
Resulta útil muchas veces, fundamentalmente s i se tienen pocos caminos, representar esquemáticamente
las situaciones empleando los denominados diagramas de árbol, dibujando a partir de un tronco o
columna vertebral, las n 1 ramas asociadas a la etapa E1, y por cada una de ellas, se dibujan las n2
ramas correspondientes a la etapa E2, y así sucesivamente hasta cubrir la etapa E1c. Claramente
el número de ramas de este árbol es el producto n1 x n2 x · · · x n1c.
1 "Zur Ge•chichte der uolbtiindingen fnduktion •, A rchives Internationalcs des Sciences 22, p p 17-37, 1953
2.2. EL PRINCIPIO FUNDAMENTAL DEL CONTEO 5
·~
* Ejemplo 1
De cuántas formas pueden ubicarse en una repisa 7 CD distintos, uno al lado del otro?.
Solución:
Podemos pensar en que tenemos 7 "cajas" numeradas del 1 al 7, ubicadas una a1 lado de la otra y
debemos colocar exactamente 1 CD en cada una de ellas.
El procedimiento completo se puede describir como
donde E; se define como "colocar un CD en la caja i-ésima, (i=l,2, ... ,7)", y cada uno de ellos
puede hacerse en la cantidad de formas distintas que figuran en el esquema siguiente:
o
oº<>
\ ~ ""
7 6 5 4 3 2 1
1 1 1 1 1
nI n2 n3 n,i ns n5 n1
Por lo que el número de formas de hacer el proceso es:

7
N = n1 · n2 · · · n1 = IJ ní = 7 x 6 x 5 x · · • x 2 x 1
i= 1
* Ejemplo 2
Con las letras de la palabra MURCIELAGO, cuántos anagramas pueden formarse?. Se llama
anagrama a cualquier palabra, con sentido 6 no, que se obtiene permutando las letras de dicha
palabra. Por otro lado, cuántos de esos anagramas terminan en vocal?, cuántos comienzan con L
6 M?.
Solución:
Para contestar la primera pregunta pensamos en distribuir las letras de la palabra MURCIELAGO
en 10 cajas, de modo que cada caja contenga exactamente una letra:
6 CAPITULO 2. COMBINATORIA
R
A U
E L
M
10 9 5 4 21
n2 n3 10
Claramento el número de formas de hacer esta distribución (número de anagramas pedido) es:
N=mi n2 "n10 = 10 x 9 x 8 x x2 x 1
En el caso de querer contar el número de anagramas que terminan en vocal, podemos pensar en
llenar primero la última caja con una cualquiera de las 5 vocales disponibles (E1), esto es, nË = 5
y luego seguir llenando hacia la izquierda las restantes cajas, esto se puede hacer de
N=nË n210=5x9 x 8 x x 2x 1
formas distintas posibles.

Por último, si un anagrama debe comenzar con Ló M, comenzamos llenando primera caja con
una de las consonantes en cuestión (L óM) (E1), que puede hacerse de nË =2 formas posibles, y
luego seguimos llenando las 9 cajas restantes con las demás letras, esto puede hacerse de
N=nËngn10 =2x9x 8 x x2x 1
formas diferentes posibles.
* Ejemplo 3
Sea n un número natural, denotaremos con [1, n] al conjunto formado por los n primeros números
naturales, esto es, el conjunto {1,2, .., n}. Dicho conjunto recibe el nombre de intervalo natural
de amplitud n. Determinaremos el número total de funciones de la forma f : [[1, k]] ’ [1, nl],
donde k EN.
Solución:
Debemos asignarle una imagen a cada natural del intervalo dominio, es decir j ’ fG), j =
1,2, .., k. Pensando nuevamente en un esquema de cajas, tenemos
n n
n
S(1) f(2) f(k 2) f(k - 1) f(k)
es decir, al 1 le podemos asignar una de las nË = n imágenes posibles f(1), al 2 le podemos asignar
una de las ng = n imágenes posibles f(2),.., a k, una de las ng =n imágenes posibles f(k).
Entonces el número total de funciones que podemos pensar es:
N = n1 n2ng =n X n x X n X n=n*
k-factores
Veremos enseguida que resulta de gran interés contar el número de funciones de este grupo que
son además: inyectivas, sobreyectivas, biyectivas, crecientes, etc.
2.3. EL PRINCIPIO DE LA ADICIÓN 7
2.3 El Principiode la Adición

Este principio complementa al anterior y enuncia lo siguiente:
"Sea un procedimiento que puede hacerse eligiendo una de las k etapas E1, E2, .., E; distintas,
mutuamente excluyentes dos a dos; esto es que puede hacerse tomando E 6 E, 6 ... ó Ek, pero
sólo una de ellas. Entonces, si Ei puede hacerse de n formas distintas posibles, E, de na formas
distintas,.., Ek de ny formas diferentes posibles, el número de formas de realizar el procedimiento
viene dado por:
N = n1 +n2t +ny = ) nË
i=1
* Ejemplo 4
Para ir de Salta a Tucumán, una persona puede elegir entre tres medios distintos: auto personal,
en omnibus ó por via aérea. Si posee un solo auto, ezisten 5 empresas de micros y 4 lineas aéreas
que cubren el trayecto Salta-Tucumán, cuántas formas distintas tiene esta persona para realizar su
viaje?.
Solución:
Si llamamos Ej: "Viajar en el auto privado", Ez: Viajar en micro" y Es: "Viajar en avión",
entonces el número de formas que la persona tiene de viajar de Salta a Tucumám es:
3
N=n1 + n2++n3 >nË = 1+5+4 =10

i=l
Los dos principios recién enunciados muy a menudo suelen combinarse para resolver casos más
completos como el siguiente.
* Ejemplo 5
Cuántos números de a lo sumo 5 cifras pueden formarse con los dígitos 0, 1,2, .., 9?.
Solución:
Siguiendo el Principio de la multiplicación y teniendo en cuenta que los dígitos pueden repetirse,
la cantidad de números que podemos formar es:
" de 1 cifra: NË = 10
" de 2 cifras: N2 =9 x 10 (el número no puede comenzar con cero)
" de 3 cifras: N3 =9x 10 x 10
" de 4 cifras: N4 =9x 10 x 10 x 10
" de 5 cifras: Ns =9x 10 x 10 x 10 x 10
Luego, en virtud del Principio de la adición, puesto que los casos contados recién son mutuamente
excluyentes, se tiene que la cantidad de números que podemos formar con no más de 5 cifras es:
N= N +M, +N, +N¡ +N, =10+ 9-(10' +10²+ 10° +10")
2.4 Permutaciones de elementos distintos
Damos la siguiente:
Definición 1
Se denomina permutación de los elementos del conjunto {1,2, ., n)atoda función biyectiva
f: ([1, al] + ([1, n).
CAPÍTULO 2. COMBINATORIA
Se emplea muy a menudo el esquema matricial siguiente

3 i
f(1) f(2) f(3) f(i) ... f(n)
en el que se coloca en la segunda fila el elemento imagen correspondiente al que figura en la primera
fila, es decir i f(i).
Podemos entonces pensar en una permutación como una sucesión formada por las imágenes:
{s()}eN
Cuando n= 1, hay lpermutación posible, la función identidad f: {1} {1), ó(11), es decir:
()
Cuando n= 2, hay dos permutaciones posibles, la identidad (12) y la trasposición (21), es decir:
(i) (?)
Si n=3 tenemos 6 permutaciones a definir: (123), (132), (213), (231), (312) y (321), esto es:
1 2 3
1 2 ) (13:) (13) ( : )(1:) (3)
Aplicando el Principio fundamental del conteo, para un n general, tenemos que el número total
de funciones biyectivas que podemos definir, es:
N=nx (n-1) x (n 2) x x 2x 1
ya que la función debe ser inyectiva, es decir, elementos distintos del dominio deben tener imágenes
distintas, y cada elemento de la imagen debe tener asociado por lo menos un elemento del dominio.
Entonces, al elemento 1 le podemos asignar una de las n imágenes f(1) posibles, al elemento 2 le
podemos asignar una de las n -limágenes f(2) posibles,.., al elemento n-l le podemos asignar
una cualquiera de las 2 imágenes f(n 1) posibles y por último, el elemeno n tiene una única
imagen posible f(n).
La cantidad n x (n -1) x (n2) x x 2 x 1se denota con el símbolo n!, que se lee factorial de
n. Entonces, el número de permutaciones de elementos distintos es N = n!.
Por definición tenemos 0! =1, lo cual tiene sentido ya que si no tenemos ningún elemento, hay una
sola posibilidad a considerar, que es la de no hacer nada.
* Ejemplo 6
De cuántas formas distintas pueden fotografiarse 6 amigos (3 varones y 3 mujeres) uno al lado del
otro?, de cuántas si los varones no pueden separse entre sí ni tampoco las mujeres?.
Solución:
Para el primer caso, dado que no se imponen condiciones sobre las 6 personas, el número buscado
es N = 6! ya que en el primer lugar podemos colocar uno cualquiera de los 6 amigos, en el segundo
una cualquiera de los 5 restantes y así sucesivamente hasta cubrir el último lugar con el último
amigo disponible; esto es, según el Principio fundamental del conteo:
N= n1 n2 n6 =6 x 5 x 4 x 3 x 2x 1=6!
Para la segunda cuestión, si los varones no pueden separarse entre sí podemos pensar al grupo
como un "elemento triple", ídem para las mujeres. Luego, podemos permutar estos dos elementos
compuestos (E1)yesto se puede hacer de nË = 2! formas distintas. Asu vez, por cada uno de estos
arreglos podemos permutar los varones entre sí sin separarlos (Ez) de nz = 3! formas posibles, y
de manera análoga, permutar las mujeres entre sí sin separarlas (Es) de ng = 3! formas posibles.
Luego, en virtud del Principio fundamental del conteo, el número total de arreglos posibles teniendo
en cuenta estas consideraciones es:
N=n1 n2 n3 =2! x 3!x 3! = 2! x (3!)*
2.4. PERMUTACIONES DE ELEMENTOS DISTINTOS
* Ejemplo 7
20 matrimonios compiten en un concurso de preguntas y respuestas. De cuántas maneras posibles
pueden ubicarse a lo largo de una mesada recta si las parejas no pueden separse?.
solución:
Primero podemos pensar en cada matrimonio como un elemento doble y entonces el número de
formas de disponerlos a lo largo de la mesada (E1) es n1 = 20!. Luego, tenemos que tener en cuenta
que en cada pareja podemos cambiar el orden relativo del esposo con la señora (E, i= 1,2,.., 20),
y esto puede hacerse de n, = 2! formas distintas. Finalmente el número total de disposiciones de
matrimonios para participar en el concurso es, en virtud del Principio fundamental del conteo:
N= nË n, nn0 = 20! x 2! x 2! x. x 2! =20! x (2!)20
20-factores
A menudo el cálculo directo de una cierta cantidad no es sencillo, pero el cálculo por el com
plemento sí lo es, con lo que conviene hacerlo de esta forma hallando el número de elementos del
conjunto complementario y restando luego del número total de casos como se ve en el siguiente
ejemplo:
* Ejemplo 8
En el caso visto antes de los anagramas de la palabra MURCIELAG0, cuántos de ellos no contienen
todas las vocales juntas?.
Solución:
Si consideramos a todas las vocales juntas como una "letra compuesta", tenemos en total 6 letras
(5 consonantes y una compuesta) para permutar (Ei) y esto se puede hacer de n1 = 6! formas
distintas. Por cada una de ellas, podemos permutar las vocales entre sí sin separarlas (E2) y esto
se puede hacer de n2=5! formas posibles. Luego, dado que el número total de permutaciones es
10!, el númer de permutaciones que no contienen todas las vocales juntas es:
N= 10!- nË n2 = 10! 6! x 5!
2.4.1 Subpermutaciones de elementos distintos o Variaciones

Dados k, ne N,k < n, se llama variación ó subpermutación de orden k a toda sucesión de k
elementos distintos del intervalo natural [1, nl], es decir toda función inyectiva f: ([1, k]] + [1, n]].
Para contar el número de estas funciones, tenemos que tener en cuenta que al 1 le podemos asignar
una de las nË = n imágenes posibles f(1), al 2 le podemos asignar una de las n2 = 1l imágenes
posibles f(2) (las imágenes no pueden repetirse debido a la inyectividad),.., al elemento k podemos
asignarle una de las n-(k-1) imágenes posibles f(k). Luego, por el Principio del conteo, el número
buscado, que se simboliza con V es:
n!
N= V=nx (n- 1) x(n 2) x x(n-k+)=n
* Ejemplo 9
De cuántas formas se pueden distribuir 7 palomas (distintas) en 10 jaulas, cada jaula debe tener
a lo sumo una paloma?.
Solución:
Pensamos en distribuir "jaulas a las palomas " y entonces la situación se puede esquematizar como
sigue:
10 CAPÍTULO 2. COMBINATORIA
J J10
J J
Js J2
10 8 6 5 4
P P P P4 P Pe P,
y entonces el número de asignaciones posibles se obtiene asignando a la primera paloma (E1)

una de las nË = 10 jaulas posibles, a la segunda paloma le podemos asignar (Ez) una de las
n2 =9 jaulas restantes y así sucesivamente hasta que a la séptima paloma le podemos asignar
una cualquiera de las n = 4jaulas disponibles. Entonces, debido al Principio de ennumeración el
número total de asignaciones posibles es:
10!
N= V0 = 10 x 9x 8x ..x 4=
(10 7)!
* Ejemplo 10
Cuántos equipos de futbol pueden formarse con 25 jugadores, sabiendo que tres de ellos en particular
sólo pueden ser argqueros y los otros ocupar cualquier posición?.
Solución:
Tenemos que tener en cuenta que en un equipo de futbol tenemos a los jugadores ordenados con
el número que figura en la camiseta. Primero elegimos al arquero (E1) y esto puede hacerse de
nË =3 formas posibles. Luego, entre los 22 jugadores restantes debemos elegir a cada uno de los
10 titulares (Ez), y esta etapas se puede hacer de n2 = 22 x 21 x .x 13 = V formas posibles.
Entonces, el número de equipos que podemos formar es:
N=3x v
* Ejemplo 11
Ejercicio para el lector: demostrar la siguiente fórmula recursiva para las variaciones.
Vk,neN, k<n, V+1 =
2.5 Permutaciones Circulares

Si tenemos n elementos dispuestos en forma circular, de cuántas maneras distintas podemos per
mutarlos?. La respuesta se consigue dejando fijo uno de ellos y permutando los restantes, debido
a que este tipo de permutaciones no altera la ubicación relativa de los elementos.
Si n = 1,tenemos unasola forma de hacerla, esto es PO =1= (1-1)!. Si tenemos dos elementos,
este número es PC; = l= (2- 1)! ya que si dejamos fijo uno de los elementos y permutamos el
otro, exite una única forma de hacerlo.
Se demuestra que para un n natural cualquiera, la cantidad de permutaciones circulares que pode
mos hacer es PCn = (n- 1)!. Gráficamente la situación es la siguiente:
2.5. PERMUTACIONES CIRCULARES 11
n =3 3
n=2
Por ejemplo, para n = 3,hay 2 permutaciones circulares distintas, (123) y (132), cualquier otra
es equivalente a alguna de ellas, esto se ve claramente como sigue. Al comienzo uno pensaría tener
6 casos distintos:
3 2 3
2 3 1
2 3
3 1
Tenemos que girar parados en el centro de círculo en un sentido que establezcamos previa
mente, por ejemplo el sentido antihorario. En cualquiera de los casos 1,4 ó 6 sin importar por
dónde comencemos a girar,en algún momento encontraremos la sucesión 123" como se ve en este
esquema:
" comenzando con el 1: 1231213123123.
" comenzando con el 2: 23123123123123...

De manera análoga para los casos restantes, sin importar por dónde se comience a girar, encon
traremos en algún momento la sucesión "132":
" comenzando con el 3: 32132132132132..
" comenzando con el 2: 2132132132132...
Una generalización de este esquema para un n cualquiera permite verificar la expresión general
PC, = (n- 1)!, esta comprobación queda como ejercicio para el lector.
* Ejemplo 12
De cuántas formas pueden sentar 10 matrimonios cada uno con un hijo, alrededor de una mesa
circular?, de cuántas si los miembros de una misma familia no pueden separarse?.
Solución:
En el primer caso, dado que no se imponen condiciones para la ubicación de las personas, tenemos
que permutar en forma circular 30 personas y esto se consigue calculando PC20 = 29!.
En el segundo caso, consideramos a las familias como elementos triples y procedemos primero a
permutarlos a éstos (E1), se puede hacer de nË = PC1o 9! formas distintas. Luego, tenemos
que permutar los componentes dentro de cada familia (E;, i=1,2, ..,10), esto se puede hacer de
n; =3! formas. En consecuencia, el número total de disposiciones posibles es:
N=nËnË n,no =9! x 3! x 3! x x 3! =9! x (3!)10
10-f actores
* Ejemplo 13
Ejercicio para el lector:
Contestar a las cuestiones del ejemplo anterior pero ahora, cada familia se encuentra sentada a
una mesa y todas las mesas están ubicadas alrededor de una pista circular. Suponer primero que
las mesas son cuadradas y luego que son circulares.
2.6 Permutaciones con elementos indistinguibles

Consideremos tener un conjunto de n objetos entre los cuales hay nj iguales entre sí, n2 iguales
entre sí,.., n7 iguales entre sí; entonces el número total de permutaciones que podemos hacer con
ellos viene dado por la expresión:
n!
con n1+ n2 + + nk =n
n1!n2! .. . n!
Para justifica esta expresión, analicemos primero un caso particular:
por ejemplo, se trata de determinar el número total de anagramas de la palabra ANANA. Para
ello llamemos z al número total de anagramas que se pueden formar con estas letras, buscaremos
de determinar el número de anagramas que se pueden formar si todas las letras fueran distinguibles
partiendo de una permutación con elementos indistinguibles. En una primera etapa para hacer
distinguibles a las letras A, podemos ponerles un subíndice, por ejemplo:
A, NAzNAs
y el número de formas distintas de distribuir los tres índices es 3!.
Por cada una de estas formas posibles, pensamos ahora en hacer distinguibles las letras N poniéndoles
también un índice, por ejemplo si partimos del caso anterior, una forma posible es y esto se puede
hacer de
A, NiAz NgA3
y en general, tenemos 2! formas de distinguir a las N entre sí; luego, el número total de arreglos
posibles N=z3!2!, pero si todas las letras hubieran sido de entrada todas distintas, el número
N sería igual a 5!y en consecuencia para determinar el valor de z hacemos
5!
5!= r2! 3! z=131
La expresión general puede justificarse extendiendo este procedimiento de la siguiente manera:
Si todos los elementos fueran distinguibles, el número de permutaciones entre ellos sería N= n!.
Si llamamos z al número de permutaciones con elementos indistinguibles, por cada una de ellas,
para hacer distinguibles los nË elementos del primer tipo distribuímos indices a estos elementos y
2.6. PERMUTACIONES CON ELEMENTOS INDISTINGUIBLES 13
eso lo podemos hacer de nj! formas posibles. Por cada una de estos nuevos arreglos hacemos ahora
distinguibles a los n2 elementos del segundo grupo, lo cual puede hacerse de n2! formas posibles y
así sucesivamente hasta el volver distinguibles a los ng elementos del último grupo; esto se puede
hacer de n¡! formas distintas posibles. Luego, aplicando el Principio de la multiplicación, se llega
a que el número de arreglos posibles es
N=n! ng! n¡!
pero este número debe coincidir con n!, por lo que a partir de esta observación podemos averiguar
el valor de z:
n!
z· n1! n2!n!= n!’ =
n1! n2! ..n!
* Ejemplo 14
Calcular la cantidad de números que pueden formarse permutando los dígitos del número 123324556663.
dem pero con número 11122333450.
Solución:
Para el primer número, observemos que hay un 1, dos 2, tres 3, un 4, dos 5 y tres 6, luego el
número de permutaciones posibles es:
n! 12!
N=
n1!·ng!.-n6! 1!2!3! 1!2!3!
En el segundo caso, los números no pueden comenzar con cero y eso se consigue restándole al total,
la cantidad de números que comienzan con cero. El resultado es:
11! 10!
N=
n1! n2!..n6! 3!2!3! 1! 1! 1! 3!2!3! 1! 1!
* Ejemplo 15
Demostrar la validez de las siguientes proposiciones:
Vn, ke N, n = 2k ’2* divide a n!
Vn, kE N, n = 3k (31)* divide a n!
Solución:
Para la primera proposición, consideramos los n = 2k elementos Z1,T1,T2, T2, ..,Tk, Tk, el
número de permutaciones posibles entre ellos (que es un número entero) viene dado por la expresión:
n! n!
N=
2!2!...2!
k-factores
por lo tanto, 2* divide a n!.

La demostración de la segunda proposición se deja para el lector.
2.6.1 Factoriales de números grandes
Frecuentemente en el cálculo combinatorio, suelen aparecer factoriales de números grandes, como
por ejemplo 100! cuyo cálculo muy extenso. Esto debe a que la función f(n) = n! crece muy
rápidamente al crecer el valor de n.
Afortunadamente este problema cs solucionable empleando la conocida fórmula de James Stirling
(1692-1770):
1
n!= ()V2rnen/12, Con
0<on <1 ^ 12n +1 <12n 12n
la que se puede demostrar usando la fórmula de Wallis como aplicación de la integral:

(k- 1)!! para k = 2n +1, n¬N
k!
T (k-1)!!
k!!
para k = 2n, n ¬N
donde k!! indica un producto de factores decrecientes de a dos unidades.
Mediante la acotación de integrales de funciones impares, se consigue:
lim (2*)!
k+00O
la que luego de algunas consideraciones acerca de la existencia del límite:

(2k)! e2k
lim
k+o L(2k) 2k y2kJ
conduce a la expresión de Stirling, a menos de un factor de precisión Tn = On/12n.
El lector puede fácilmente demostrar que también se puede escribir:
n 1
n!=) V2rn ea(a) Con
a(n) 12n 360n3
En la práctica se emplea la estimación n! ) V2rn y el error que se comete en esta estimación

es de alrededor de 100/12n, como se muestra en la siguiente tabla
n! n! estimado ¬%
1 0.9221 8.3
|2 2 1.9190 4.2
6 720 710.0781 14
10 3628800 3598695.618 0.8
18 6402373705 x 1015|6372804623 x 1045 0.5
Por último, si tenemos que trabajar con números muy grandes al calcular variaciones, se puede
emplear la siguiente aproximación para ahorrar tiempo:
n! (2)" V2Tn
V"=
(2)"-* /2r(n - k)
Vne-k
=
(nk)
2.7 Combinaciones
Dados k, neN, se llama combinación de orden k en n a todo subconjunto del intervalo natural
([1, n] formado por k elementos.
Tenemos aquí una situación en la que no importa el orden de los elementos puesto que se trata
de formar conjuntos.
En este sentido, destacamos que cada variación de n elementos tomados de a k, determina una
única combinación, pero distintas variaciones pueden definir una misna combinación. Por ejem
plo las siguientes variaciones se 3 elementos tomados del intervalo natural [1, 10]] determinar la
combinación {5,6,7}:
(5,6,7), (5, 7, 6), (6, 5, 7), (6,7, 5), (7, 5,6), (7, 6, 5)
2.7. COMBINACIONES 15
Para determinar el número de subconjuntos de k elementos que podemos formar a partir de un

conjunto de n elementos (k< n), podemos pensar en que al formar un subconjunto en particular,
cada elemento tiene dos posibilidades: pertencer (E) o no pertener () al mismo. Entonces por cada
subconjunto posible de k elementos, tenemos asociada un tira de n caracteres con exactamente k
caracteres iguales a "e" yn-k caracteres iguales a "". Luego, contar el número de subconjuntos
de k elementos equivale a contar el número de permutaciones de n elementos entre los cuales
hay k iguales entre sí y otros n - k también iguales entre sí, esta cantidad llamada número
n
combinatorio, se representa con el símbolo )ó bien con C, de modo que:
GR =
()-;k! (n - )!
además podemos expresar a partir de la definición del número variacional V:
* Ejemplo 16
Para formar un comité de admisión a una Facultad, se debe elegir un grupo de 7 profesores de
entre 15 candidatos. De cuántos modos se puede realizar la elección?.
Solución:
Tenemos que calcular el número de subconjuntos de 7 elementos que se puede formar a partir de
un conjunto de 15 elementos y ese número es N =
* Ejemplo 17
Cuántas diagonales tiene un polígono de 18 lados?
Solución:
La figura tiene 18 vértices (puntos no alineados dos a dos), entonces el número de rectas que se
pueden trazar uniendo estos puntos es C}8. Luego, para calcular el número de diagonales, a la
cantidad de rectas posibles le tenemos que restar el número de lados del polígono. Es decir, el
número de diagonales es:
N=()-8
* Ejemplo 18
Dados n puntos no alineados dos a dos, cuántos polígonos de no más 5 lados podemos dibujar?.
Se supone n> 5.
Solución:
Podemos elegir 3 puntos cualesquiera para formar un triángulo ó4 puntos para un cuadrilátero ó
5para un polígono de 5 lados. Entonces el número pedido es:
w-(:)+(:)+(6)
* Ejemplo 19
Una urna contiene 6 bolillas blancas y 5 negras. De cuántos modos pueden eztraerse grupos de 4
bolillas si: a) no interesa el color, b) ezactamente dos deben ser blancas, c) las 4 deben ser del
m1sm0 color.
Solución:
a) Tenemos que formar un subgrupo de 4 bolillas a partir de un grupo de 11, esto puede hacerse
de N
w=( formas posibles.
b) Primero elegimos las blancas, esto puede hacerse de nË = formas distintas; y luego
elegimos las negras, lo que puede hacerse de n = formas posibles. Luego el número de
casos totales es:
N= nË n2
-(1)(:)
c) Si las 4 bolillas deben ser del mismo color, tenemos dos posibilidades, que sean todas blancas ó
todas negras y esto se puede hacer de
w-()+()
formas distintas.
* Ejemplo 20
Para promocionar un nuevo producto de la conocida marca ZZ2, el gerente de promoción dispone
de 36 empleados y debe formar grupos de 9, para realizar tal actividad en barrios en particular
de la ciudad de Salta. De cuántos modos distintos puede realizar tal agrupamiento?.
Solución:
Podermos seguir dos caminos:
39
1) Elige el primer grupo de 9 empleados (E1) y puede hacer esto de n1 = luego elige el
27
segundo grupo (E2), lo que puede hacer de n2 = formas distintas. De manera análoga
elige el tercer (E3) y cuarto grupo (E4), lo que puede hacer de ng =

():
maneras distintas respectivamente. Luego, el número total de arreglos que puede efectuar es:
(?)
36! = 2145 x 1019
N=nyng ng.ny =(
2) Podemos poner en fila a los 36 empleados y istribuirles a cada uno de ellos un cartel con el
nombre del grupo al que pertenecerán : G1, G2, G3 y G4. El resultado final será una sucesión
de 36 carteles entre los que hay 9 impresos con letras GË indistinguibles entre sí, 9 letras Gz
indistinguibles entre sí, 9 letras Gindistinguibles entre sí, 9 letras Ga indistinguibles entre sí. EI
número total de grupos que podrá formar el gerente viene dado por el número de permutaciones
posibles de estas letras, es decir:
36! = 2145 x 1019
N=
9!9!9!9!
Una forma interesante de interpretar las combinaciones de n elementos tomados de a k, viene

dada por el siguiente ejemplo, cuyo análisis se deja al lector.
* Ejemplo 21
Determinar el número de funciones f: [1, k] ’ [[1, n] estrictamente crecientes, esto es, i<j’
f(i) < fO).
* Ejemplo 22
Demostrar la siguiente proposición:
Vn, mE N,n > l= (m!)" divide a (nm)!
Solución:
Consideramos n - 1 conjuntos que contienen respectivamente 2rn, 3m, ..,nm elementos. Contermos
el número de formas de extraer de cada conjunto, m elementos: del primero podemos extraer
2rm 3m
n1 = m.
subconjuntos con m elementos; del segundo: n2= . . , del último: n,-1 =
m
Luego, por el Principio del conteo, el número de formas de hacer esta operación (que es
un número entero) es:
N=
2m 37
)(m (2n)! (3m)!
(ml)? (2rm)! m!
(nm)!
m! [m(n- 1)]!
(nm)!
(m!)n
lo que demuestra la proposición.
Cuando tenemos que trabajar con combinaciones en las que aparecen cantidades grandes, pode
mos expresar, haciendo uso de la aproximación de Stirling:
n! (2)" V2rn
C7 =
!(2 k)! (* V2nk (2)"-k
n 2m ynee-kek
n
(n# k)
V2rk (n - k)'
y de esta manera, con un error mínimo de estimación, se evitan largos cálculos.
2.7.1 Propiedades de los números combinatorios

Primero hacemos algunas observaciones respecto a los valores posibles de estos números:
" Cf =o=
0 =1, esto representa al caso de no tomar ningúnelemento para formar
un subconjunto y hay una sola posibilidad, formar el conjunto vacío 0.
n! (n -n)! = 1, esto representa al caso de tomar todos los elementos para

formar un subconjunto y tenemos una única alternativa, formar el conjunto total.
" Si k> n, entonces C =0 puesto que no hay ninguna posibilidad de formar un subconjunto
que tenga más elementos que el conjunto total.
Los números combinatorios complementarios son iguales, esto es Para
- k
demostrarlo podemos desarrollar los dos números y verificar la igualdad ó bien razonar del
siguiente modo: por cada uno de los subconjuntos de k elementos que formamos, queda
formado (por defecto) un subconjunto de n - k elementos y la correspondencia entre los
casos es biyectiva. Luego, los números combinatorios asociados a cada caso son iguales.
" Propiedad del intercambio:
Vn,k, meNU(0).(n)()=()(
" Fórmula de recurrencia: Cp = C

" Teorema del Binomio: Si zey son dos variables y n es un entero positivo, entonces:
(z+ y)" = k=0

)y-t
Para la demostración se debe observar que en el producto de n factores
(z + v).(z+y) (+ y)
el coeficiente que acompaña al término general .y*, 0 <k<n, es el número de formas
en que podemos disponer en una fila las k letras y las n -k letras y, sabiendo que por
propiedad conmutativa de la multiplicación en R, todos estos productos generan términos
en la suma que son iguales. Luego, aplicando el principio de la adición (para distintos k, los
casos son mutuamente excluyentes) se obtiene el resultado enunciado.
" Consecuencias del Teorema anterior son:
(:)+(1)+(#)*- *)-*
(6)-(1)-()-*r(:)-0
expresiones que se obtienen al hacer z =y=ly z= -1,y =1l respectivamente.
* Ejemplo 23
Un conjunto S tiene n elementos, cuántos subconjuntos podemos formar a partir de él?. Esta
pregunta es equivalente a, cuál es el cardinal del conjunto de partes de S, P(S)?.
Solución:
Tenemos dos caminos posibles:
(
1) Contamos primero los conjuntos de 0 elementos: no = (=1(el conjunto vacio 0),
luego los subconjuntos unitarios: nË = los de dos elementos: n2 =
(). así
hasta contar los que tienen n elementos: n, = *)=1(el mismo S). Dado que estos
casos son mutuamente excluyentes, en virtud del Principio de adición se tiene:
N=P(5)| =(8)+()+()+()-r
como consecuencia del Teorema del binomio.
2) Podemos poner en fila a los elementos de S, digamos a1, a2, .., an; cada uno de ellos tiene
dos posibilidades: pertenecer (1) ó no (0) al subconjunto que estamos formando. De este
modo cada subconjunto de k elementos factible, tiene asociado en forma biunívoca una tira
de k unos y n -k ceros. El número de tiras posibles es, empleando el Principio del conteo:
N =2x2 x 2.- x 2=2"
n-fact ores
Ejemplos de esta correspondencia son: (todas las tiras tienen n dígitos)

000000..0 ’0, 100000...0 ’ {a1), 001010...0 ’ {a3, as)}, 111111...1 S
nl n x (n-1) x x(n -k+1)

Podemos expresar C= ) = k! (n- k)! k!
con lo
que podemos hacer la valuación de esta fórmula si n es cualquier número realy si k es un

entero negativo. Esta extensión del cálculo de un número combinatorio se denomina versión
eztendida de un número combinatorio. Así por ejemplo:
7=E9-9(-0)(-7)
5!
Estas consideraciones permiten hacer las llamadas extensiones del Teorema del Binomio:
Serie binómica:
Vz, aER, Jz|< 1, (1+ z)° = 2()*

sustituyendo en esta última expresión z por -z y a por -n se obtiene:
k=0
la que para el caso n = 1 nos brinda la serie geométrica:
k=0
=1+z+..+g" +..= el<1
-(";)-(2)+{*) esto se debe a que el proceso de formar subconjuntos

de k elementos a partir de un conjunto de n elementos puede hacerse formando primero los
subconjuntos de k elementos que contienen a uno de ellos en particular, por ejemplo al 1,
y los que no lo contienen. Es claro que las cantidades respectivas son
()(1)
con lo que la suma de ellas debe ser igual a
(":")
2.7.2 El Triángulo de Pascal
A partir de la última igualdad expresada en las propiedades de los números combinatorios, dando
diferentes valores a k se obtiene el llamado Triángulo Pascal, en el que los elementos de la fila
j-ésima son los coeficientes binomiales de (z+ y)-l:
1
1 1
1 2 1
1 3 3
4 6 4
5 5 1
6 15 20 15 6
Notemos que los lados del triángulo que no son base, están formados por unos y, a patir de j = 3,
para cada fila, los elementos 2do, 3r°,..,.(k- 1)mo se obtienen mediante la fórmula:
ekj = ek-1,j-1 + ek,j-l; k = 2,3,..., j- 1; j=3,4,..., n - 1
Podemos visualizar este proceso mediante el siguiente esquema:

ek-1,j-1 ek,j-1
Ck,j
Así por ejemplo, e4,7 = e3,6 + e4,6=10+10=20
A partir de sumas con elementos de este triángulo, podemos comprobar una serie de propiedades
de números naturales:
" El cardinal del conjunto partes de un conjunto S finito, que se encontró anteriormente, se
obtiene también sumando los elementos de la fila n del triángulo de Pascal.
" Identidad de Van der Monde: Para n, m, kEN, 0 < k<n + m,
("*m
t") - (%)-(?)·()()*() ()
-2()()
=
la que tiene sentido aún cuando m < k, ya que en este caso k

=0. Para probar esta
igualdad tenemos que tener en cuenta que al conjunto que tiene n+m elementos lo podemos
escribir como la unión de dos conjuntos:
{1, 2, ., n +m} = {1, 2, .., n} Ufn+1,n+2,..,n +m}
y entonces podemos formar los subconjuntos tomando i elementos del primero y k - iele
mentos del segundo, que puede hacerse (para cada i) de n,= ) * - i ) formas
posibles. Luego, por el Principio de la adición (dado que los casos son mutuamente ex
cluyentes) se concluye la fórmula.
A partir de la propiedad anterior obtenemos otras dos expresions importantes:
)am(1)-(%)-(:)·(;)()()(0)
)n=m=k()-(8)+()*()
usando la propiedad de los números combinatorios complementarios.
" También, a partir del triángulo, si sumamos los elementos de las diagonales descendentes
hacia la izquierda, obtenemos:
»(1)-(1)+(1)*(1)-l*2*34.*n= ("") =
(?)·()-(1)*--(1)=i43+d++(1)-("")
y en general
3) Identidad de Chu Shih-Chieh:

(:)"(":")(*)-(*:i)
k=0
Esta propiedad se puede demostrar por dos caminos: primero derivando miembro a
miembro el desarrollo de (1 + z)" y reemplazando z por 1. El otro camino es una
justificación combinatoria y consiste en contar el número de subconjuntos de k elementos
que podemos formar y luego "rotular" uno de ellos. Los respectivos desarrollos se dejan a
cargo del lector.
" La siguientes propiedades se dejan como ejercicio para el lector:
1) Si n es un natural
()*(*) 2n + 2
n+1
2) Para cualquier n natural,

(6)+2(?)**(:)+*.*(:)-G)
3)
Para cualquier n natural,
(:)-(:)-(:) -(1)-(:)+(:)*
4) Si z ¬ R, nEN,
a+*)"-(1) z(1+*)n- +(2)a+*)n-3-.. -y()=1

5) Para cualquier n, k naturales
(:)()+(1) (11)*(i)("*)-* (:)

" Coeficiente multinomial Siendo n, nË, n2, ..., ng, t enteros no negativos tales que nË + n +
. + n= n, el coeficiente del término z'z?z . z en el desarrollo de (1 + 2 + 3+
. + ¢) es:
n!
nË!ng! ng! n!
De manera similar al caso del teorema binomial, el coeficiente de ' ? t . es el
número de maneras distintas en que podemos seleccionar nË símbolos T1 entre n posibles, n2
símbolos T2 entre los n - n1 restantes, ng símbolos t3 entre los n - nË - n2 restantes,..., n
símbolos t: entre los n - n1 - n2 n-1 restantes. En consencuencia, mediante el uso
del Principio del conteo, tenemos que el proceso se puede hacer de:
N =
(:)("")("
n!(n- n)!
ng
(n-n1 - n2 .-
n
n-1)! n!
=
n1! (n - n1)! n2! (n - nË - ng)! n!(n- n1- n2 -..-n,)! n,!ng!ng! n!

Este número también se suele simbolizar como

n1, n2, n3, , nt
yse denomina coefi
ciente multinomial y con él podemos enunciar el
" Teorema Multinomial:
Vz1, T2,.., z; ER,n EN, (*1+ a2+ + )" =
donde la suma está extendida sobre todas las t-uplas (n1, n2,., n) tales que >
i=l
2.8 El Principio de Inclusión-Exclusión

Sea U un conjunto con cardinal finitoy A un subconjunto de U, de cardinal (finito) |A|. Suponga
mos que se definen algunas propiedades que llamaremos P1, P2, ., p, y denotamos con A1, A2,...,An
a los subconjuntos de U que satisfacen respectivamente las propiedades mencionadas. Cómo de
terminamos el número de elementos de U que no cumplen ninguna de esas propiedades?.
Para n = 2, tenemos empleando el álgebra de los conjuntos que:
|A, U
Az| = |Ai| + |Azl - |A; n Azl
Para n=3:
|A, UAz UAs|= |A1|+ |Az|+ |Asl- |Ajn Aal-|lA1n As| -|A, nAs| +|A, nAzn Asl
y en general tenemos la expresión:
i=l isi<isn
Este principio nos permite determinar el número de elementos de U que no cumplen ninguna de
las propiedades definidas, esto es equivalente a determinar el número de elementos que pertenecen
al complemento de la unión de los A;. Es decir:
i=l
- |A,n A,n.-nA,] = lU|-(-)
* Ejemplo 24
Determinar la cantidad de enteros positivos n comprendidos entre 1 y 100 y que no son divisibles
ni por 2, ni por 3, no por 5.
Solución:
Llamemos U al intervalo natural ([1, 100]] y definamos las siguientes propiedades:
" p1: "el número es divisible por 2"

Sean A1, Az y A_ los subconjuntos de U formados por los elementos que cumplen las propiedades
Pl P2 y P3 respectivamente. Tenemnos que |A1| = 50, |A2| = 33, |A3| = 20, |A, n As| = 16,
|A, n As| = 10, |A2 n As| =6, |A, n A, n As| = 3.
Luego, la cantidad de números comprendidos entre 1 y 100 que no son divisibles ni por 2, ni por
2.8. EL PRINCIPIO DE INCLUSIÓN-EXCLUSIÓN 23
3, ni por 5, es la cantidad de aquellos que no cumplen por lo menos una de las propiedades pi,
i=1,2, 3y viene dada por:
3
i=1
= |AjnA, nAs| = |U|- |4, UAz UAs|
|U-|A1|-|A2|- |As| + |A1 nAz|+ |A1n As| + |A2n As| - |A1 n Az n As|
100 50 33 20 + 16 + 10 +6-3 = 26
Los números en cuestión son: 1,7,11,13,17,19,23,29,31,37,41,43,47,49,53, 59,61,67,71,73,77,79,83,89,97,97.

* Ejemplo 25
ElProblema de los Sombreros:
n asistentes a la función de gala de un teatro, dejan sus respectivos sombreros en el guardarropas.
Al término de la función el cuidador se queda dormido y los hombres retiran los sombreros al azar
(cada uno se lleva un solo sombrero). De cuántas formas diferentes puede suceder que todos se
lleven un sombrero que no le pertenece?.
Solución:
Si llamamos U a nuestro conjunto universal (contiene todas las n-uplas posibles), es claro que su
cardinal es |U|= n!. Designemos con A; al conjunto de todos los elementos de U que cumplen
con la propiedad p;: "la persona i escoge su sombrero", entonces |A|| = (n- 1)! puesto que si la
persona i escoge su sombrero, las otras no pueden hacerlo. Para todo i # j, los elementos que
viven en A;nA; representan todos los casos posibles para los cuales las personas i y j toman sus
respectivos sombreros, y entonces |A; n A}|= (n2)!.
Se puede generalizar estos casos para k personas, de modo que |A,, nA,n..nA,|= (n - *)!; y
luego, aplicando el Principio de Exclusión-Inclusión se tiene que el número de casos en que ninguna
de las personas tomósu respectivo sombrero es:
i=1
= U|-I4.| +1gi<i<n 4,n A,1+-(-1)-1

$=1
k=0
L-(#)a-!=(-i k=0 k=0
2.9 Ejercicios Complementarios

o Ejercicio 1
Juan debe viajar de Salta a Bs. As. haciendo escala en Córdoba. De cuántas maneras diferentes
puede realizar el viaje, si de Salta a Córdoba puede trasladarse en avión, tren, ómnibus o auto,
mientras que de Córdoba a Bs. As. sólo puede hacerlo en avión u ómnibus?.
De cuántas maneras puede hacer el viaje ida y vuelta si sólo puede repetir el transporte en una
sola etapa?.
o Ejercicio 2
Doce personas son condenadas a muerte. Antes de morir se les permite pedir una última gracia.
Uno de ellos, estudioso de las matemáticas, pide que se prorrogue la ejecución por el tiempo nece
sario para colocarse en una fila contra la pared en todos los órdenes posibles, realizando un
cambio por minuto. juez, eztrañado, acepta el pedido sin pensarlo demasiado.
Por cuánto tiempo debió postergar la ejecución?.
o Ejercicio 3
Se desea ordenar 10 videocasettes en un estante.
a) De cuántas maneras se puede hacer dicha ordenación?.
b) De cuántas maneras si 3 de ellos deben estar juntos ?.
c) De cuántas maneras si 4 de ellos son de filmes de acción, 3 de filmes de terror y 3 de filmes
románticos, y además los videocasettes del mismo género no pueden separarse?.
d) De cuántas maneras si 5 de los videcasettes pertenecen a una colección numerada y han de ir
juntos y en orden?.
e) De cuántas formas si de los videocasettes, elegidos previamente, no pueden estar juntos?.
o Ejercicio 4
Cuántos números de cuatro cifras pueden formarse con los 10 digitos 0,1,2,... 9 si:
a) los dígitos pueden repetirse?.
b) los digitos no pueden repetirse?.
c) el último dígito ha de ser 0 y los otros no pueden repetirse?.
d) el número formado es impar?.
o Ejercicio 5
Cuántas señales se pueden hacer izando cuatro banderas diferentes, una sobre otra, si puede enar
bolarse simultáneamente cualquier número de ellas?. Luego, repetir los cálculos trabajando con
cinco banderas.
" Ejercicio 6
1)Cuántos anagramas pueden formarse con las letras de la palabra PERMUTACION?.
2) Cuántos de ellos comienzan con Ny terminan con A?.
3) En cuántos de ellos no aparecen todas las vocales juntas?.
4) En cuántos de ellos las vocales ocupan solamente los lugares impares?.
o Ejercicio 7
Simplificar las siguientes erpresiones:
nl(3n +n?+2) (m + 1)!(n- 1)! c)7+1)!-n!
a) om²n2- mn - m?n + mn? n2
(n+ 2)!
o Ejercicio 8
Calcular la suma de todos los números representados por las permutaciones que se pueden formar
con las cifras 1,2,3,4 y 5, sin que se repitan los dígitos en ningún número.
(Sugerencia: calcular el prinero el número de ordenaciones de la forma ABCDE y ED CBA, como
por ejemplo 12345 y 54921, cuya suma es 66666; dichas ordenaciones se llaman "complemen
tarias".)
2.9. EJERCICIOS COMPLEMENTARIOS 25
o Ejercicio 9
1) De cuántas formas se pueden distribuir n objetos entre p personas si no eriste restricción
alguna con respecto al número de objetos que puede recibir cada una?.
2) Se tienen n libros distintos yp ejemplares de cada uno. Hallar el número de selecciones que se
pueden hacer con los mismos.
o Ejercicio 10
Sea S un conjunto no vacío, finito, de n elementos.
a) Determinar cuántos subconjuntos pueden formarse con sus elementos (esto es, hallar el cardinal
de P(S).
b) Cuántas operaciones binarias pueden definirse en S?.
c) Cuántas relaciones pueden definirse en S?.
" Ejercicio 11
De cuántas maneras se puede sacar una cantidad de dinero de un portamonedas que contiene una
moneda de 1 peso, una de 50 centavos, una de 25 centavos, una de 10 centavos, una de 5 centavos
y una de 1 centavo?.
o Ejercicio 12
Sean n, kEN,y k< n.
a) Cuál es el número de funciones de tipo f: [[1, k]] ’ [1, n]]?.
b) Cuántas de ellas son inyectivas?.
c) Si k = n, cuántas son biyectivas?.
o Ejercicio 13
a) Comprobar con esquemas que en una permutación circular, el número de disposiciones de 3
elementos (PC3) distintos es igual a 2.
b) Para una cena, 10 matrimonios se sientan alrededor de una mesa circular. De cuántas
maneras pueden hacerlo si:
1) no se imponen condiciones sobre la distribución?.
2) las parejas no se pueden separar?.
3) tres personas en particular no pueden sentarse juntas?.
o Ejercicio 14
1) Calcular el número de anagramas que pueden formarse con las letras de la palabra
PROBABILIDADES.
2) En cuántos de ellos todas las consonantes están juntas?.
3) Cuántos de ellos comienzan con P?.
4) Con respecto al ejercicio 6, en cuántos anagramas se conserva el orden relativo de las vocales?.
o Ejercicio 15
Hallar el número de maneras en que pueden dividirse en dos grupos, (m +n) objetos, conteniendo
m yn objetos respectivamente. Distinguir los casos m#nym =n.
" Ejercicio 16
Un representantes de ventas debe visitar seis ciudades en un viaje.
Si eristen 10 ciudades en el área geográfica que va a visitar,
a) cuántas agrupaciones distintas de 6 ciudades puede visitar!.
b) cuántas agrupaciones distintas de 6 ciudades puede visitar si importa la secuencia en la que
tiene programado hacer las visitas?
c) Si se han designado las 6 ciudades que se visitarán, cuántas secuencias distintas son posibles
para hacer las visitas?.
Contenido
3 Espacio muestra y Probabilidad 3

3.1 Modelos matemáticos
3.2 Espacio muestra o muestral
3.3 Clasificación de los espacios muestra 6
3.3.1 Espacios finitos 6
3.3.2 Espacios infinitos numerables

3.3.3 Espacios infinitos no numerables
3.3.4 Breves comentarios sobre cardinales
3.4 Sucesos 10
3.5 Probabilidad
3.5.1 Probabilidad Clásica ó "a priori" 12
3.5.2 Probabilidad Frecuencial ó "a posteriori" 14
3.5.3 Probabilidad Axiomática ó Matemática 16
3.6 Ejercicios Complementarios 22
1
Capítulo 3
Espacio muestra y Probabilidad

3.1 ModelOs matemáticos
En este capítulo comenzaremos a estudiar algunos modelos matemáticos que nos servirán para
describir la naturaleza que nos rodea.. Ellos serán considerados válidos si:
" hacen una simplificación útil de la realidad que vivimos.
" nos proporcionan información verosímil y útil sobre el fenómeno que deseamos estudiar.
" conducen a formular hipótesis cuya validación nos permita hacer inferencias sobre el problema
en cuestión.
Básicamente se nos presentan en la naturaleza dos tipos de modelos:

" Determinísticos: son aquellos en los cuales las condiciones bajo las cuales se los realiza,
determinan el resultado del mismo. Por ejemplo, observemos un cuerpo de masa m que se mueve
con una velocidad v a lo largo de una circunferencia de radio r; sobre el mismo actuará siempre
una fuerza constante dirigida hacia el centro de la circunferencia. Esta fuerza llamada centrípeta,
mv²
tiene una magnitud que está dada por F=
" Probabilísticos, aleatorios o azarosos: son aquellos en los cuales el conjunto de reglas bajo
los que se los realiza, no permiten predecir con certeza el resultado que se obtendrá.
Por ejemplo: Al arrojar 100 veces un dado legal, la persona que realiza la experiencia no puede
saber a ciencia cierta el número de ases que se obtendrá", "Un comprador de un aparato
electrónico, no dispone de un conjunto de leyes que le permitan determinar con certeza el tiempo
que el aparato durará hasta que se registre la primera avería".
El término azaroso (equivalente a aleatorio, estocástico óprobabilístico) proviene de la pa
labra árabe azar que significa dado, y este elemento tiene un papel destacado en el estudio de las
probabilidades ya que la Probabilidad como potente rama de la Matemática comenzó siendo una
colección de observaciones sobre juegos de dados.
Los primeros estudios matemáticos sobre el tema se deben al célebre Pierre Simon de Laplace (1749
1827) quien con su obra Théorie analytique des probabilités (Teoría analítica de las probabilidades),
publicada en el año 1812, invitó a varios matemáticos a realizar una exhaustivo estudio de la
fenomenología azarosa de varios problemas: demográficos, psicológicos, jurídicos y de la naturaleza.
Sus estudios complementaron los de otros matemáticos destacados, entre ellos Pascal y Fermat
(siglo XVII) y fueron brillantemente resaltados en el siglo actual por Kolgomorov.
Un tratamiento más específico sobre la importancia de la Probabilidad y la Estadística puede ser
consultada en [1].
Actualmente, en la mayoría de las ciencias se trabaja con fenómenos aleatorios: en Economía
3
4 CAPÍTULO 3. ESPACIO MUESTRA Y PROBABILIDAD
intereza estudiar el comportamiento del índice de precios al consumidor en un cierto período;

en Física Solar es importante analizar el comportamiento de ciertas variables de clima, a lo largo
del tiempo, a fin de poder optimizar la construcción de edificios solares; en Educación es de fun
damental importancia decidir si un método de enseñanza particular es efectivo o no; en Medicina
es de importancia clave poder contar con elementos que validen el uso de una vacuna para evitar
la aparición de una enfermedad, etc.
A los fines de este capítulo formularemos la siguiente:
Definición 1Experimento aleatorio

Un erperimento [ aleatorio es un proceso que cumple con las siguientes condiciones:
1) se realiza bajo un conjunto de reglas bien definidas.
2) puede repetirse o concebirse su repetición bajo el mismo conjunto de reglas definidas en el punto
anterior.
3) si bien no puede predecirse el resultado que se obtendrá, se puede dar a conocer el conjunto
de resultados posibles del mismo.
El hecho de que uno no pueda predecir cuál es el resultado que se obtendrá en particular, se
debe a que existen causas que quien realiza el experimento no puede controlar.
Un experimento que no cumple el punto 3) de la definición anterior, evidentemente será un exper
imento no aleatorio o determinístico, o experimento "a secas".
En un experimento aleatorio, cada una de las repeticiones se llama prueba, y el conjunto de todas
las pruebas constituye el experimento.
3.2 Espacio muestra o muestral

Observemos que en el punto 3) de la definición 1, que cuando realizarmos un experimento aleatorio
podemos indicar el conjunto de posibles resultados del mismo. Este conjunto no es siermpre fácil
de ser expresado mediante el uso de nuestro lenguaje común, sin embargo, podemos dar una
caracterización del mismo mediante el empleo de simbología matemática específica (en particular,
la Teoría de Conjuntos).
Esto nos lleva a la definición siguiente:
Definición 2 Espacio muestra
Sea [ un ezperimento aleatorio y sea M el conjunto formado por todos los resultados posibles del
mismo. Llamaremos espacio muestra asociado a E al par ordenado (S, ), donde f es una función
f: M’Syfes sobreyectiva.
Podemos expresar esta definición en palabras diciendo que un espacio muestra es un conjunto
S tal que, a cada elemento del conjunto M de resultados posibles del experimento aleatorio, le
corresponde un único elemento de S y cada elemento de S está asociado con por lo menos un
elemento de M (esto garantiza que f sea sobreyectiva).
Cada elemento del conjunto S se denomina punto muestra y lo denotaremos como s.
" Ejemplos
1) Sea el experimento aleatorio [: «Lanzar un dado bien construído, una vez". En este caso el
conjunto M de resultados posibles puede verse como sigue:
M =
Podemos fácilmente establecer una correspondencia f entre M y el conjunto de los 6 primeros

números naturales; la misma quedará definida naturalmente por el valor del puntaje obtenido al
lanzar el dado:
3.2. ESPACIO MUESTRA O MUESTRAL 5
M=
S= {1,2, 3,4, 5, 6}
En este caso la función f es además biyectiva.
Denotaremos con |S] al cardinal del conjunto S, es este ejemmplo |S]=6.
Otro posible conjunto que nos sirve como espacio muestra es S = {P, I}, aquí la letra P está
asociada a los resultados pares y la letra I a los impares según se muestra en el siguiente
diagrama:
w-{E
Además, en este ejemplo, la aplicación f no es inyectiva.

Aquí |S*|=2y, en general se verifica la propiedad |S| < |M| según veremos a lo largo del
capítulo.
Estos casos muestran que el espacio muestra asociado a un experimento aleatorio en general no
es único.
2) Sea el experimento aleatorio [: «Lanzar dos dados bien construídos y anotar los puntos
obtenidos". Posible espacios muestra pueden ser los conjuntos:
S= {(e,y) /z,y= 1,2,3,4, 5, 6}con |S| = 6x 6 = 36
y S = {0, 1, 2} con |S| = 3
En el segundo, la función f viene dada, por ejemplo, por el número de ases obtenidos en el
lanzamiento.
3) Consideremos el experimento aleatorio [: "Lanzar dos monedas y un dado, todos bien
construídos, y anotar el resultado obtenido".
La pregunta normal que nos haremos será: qué leemos primero, las monedas o el dado?. La
respuesta viene dada por la forma que el experimentador defina para hacer su lectura, por
ejemplo puede leer las caras de las monedas primero y luego el número que muestra el dado. Pero
lo importante no es este orden sino que, una vez definido el orden de lectura, se lo conserve cada
vez que repita el experimento. Un posible espacio muestra es:
S= (z, y, z) / z, y = C, X ^ z= 1,2, 3,4, 5, 6}

con S =2x 2 x 6= 24
4) Sea el experimento [: "Lanzar 10 veces una moneda no trucada y anotar el resultado
obtenido". En este caso un espacio muestra adecuado es:
S= {(*1, T2, .., Z1o) /Z; = C, X ,Vi= 1, 2, .., 10)

10
así |S] =2x 2 x ...x2=||2=20

10-fact or es i=1
5) Por último consideremos el experimento aleatorio [: "Lanzar 10 monedas legales idénticas".

Un espacio muestral adecuado puede ser el mismo que el definido en el item anterior, lo cual no
significa que los experimentos sean iguales, pero son equivalentes desde el punto de vista de medir
chances en lo que respecta a la posibilidad de ocurrencia de 5 ases, por ejemplo.
Este tratamiento quedará bien conceptualizado cuando definamos el concepto de probabilidad.
3.3 Clasificación de los espacios muestra

Los ejemplos precedentes son relativamnente sencillos de describir con la teoría básica de los con
juntos, pero existen otros tipos de espacios muestra que para su descripción requieren elementos
de la teoría de conjuntos infinitos.
Según el cardinal que los espacio muestra S posean se los puede clasificar como se detalla a con
tinuación:
3.3.1 Espacios finitos

Son aquellos en los que podemos decir mediante una cantidad concreta, cuántos elementos tienen.
Este es el caso de los ejemplos citados en la sección precedente.
En general podemos dar la siguiente:
Definición 3
Un espacio muestral S se dice finito si es posible poner en correspondencia biyectiva sus elementos
con el subconjunto de los números naturales [0, k], para algún k EN.
En símbolos:
S es finito f biyectiva, f :S ’ [0, &]] para algún k ¬ N

En este caso escribimos |S| = n(S) = k, indicando con la expresión n(S), el número de elementos
del espacio S.
En este tipo de espacios muestra, el cardinal en cuestión se puede hallar haciendo uso de los
elementos de Combinatoria dados en el capítulo anterior.
Otros ejemplos de experimentos asociados con espacios muestra finitos se dan a continuación:
1) ¬: De una baraja francesa se extrae una carta al azar.
S= {z/z= 1,.., ..., 13, l , ..., O13, 1,.., O13} con |S] = 52
2) ¬: De una baraja francesa se extraen al azar, 5 cartas en sucesión y con reposición.
S= {(*1,zy, z3, T4, T5) /z; = A1,.., Qis, oi, .,1s, O1, , O13, i, , Oi3, Vie [1, 5]|) con |S] = 52
3) e: De una baraja francesa se extraen al azar, 5 cartas en sucesión y sin reposición.
S= {(z1, I2, T3, T4, Ts) /z; = 1, ,a1s, 41, . 13, O1,.., O13, O1,..,.913, Vi E([1, 5]] Az; #z;, Vi# i}
En este caso, |S] = 52.51.50.49.48 = V2.
4) ¬: Se arrojan al aire 4 dados y 3 monedas, todos legales.
S= {(31,#2, #3, t4, T$, Tg, za) /2;= 1, 2, 3, 4, 5, 6, i = 1,2,3,4, ^z; =C,X,1= 5, 6, 7} con |1S| = 6123
5) ¬: Se lanzan 2 dados regulares 3 veces y se anotan los números obtenidos. ¿Es lo mismo que
lanzar 6 dados regulares al mismo tiempo?. Por qué?.
3.3. CLASIFICACIÓN DE LOS ESPACIOS MUESTRA 7
En la primera situación, tenemos:
S= {(z1, y1), (z2, y), (3, V)) /zi, = 1, 2, 3, 4, 5, 6, Vi = 1,2,3) con |S| =6'.67.6² = 65
En la segunda situación, tenemos:
S = {(z1, Z2, T3, T4, t5, Ze) /z; =1,2,3,4, 5, 6, i E [[1, 6]]} con |s|= 6°
Si bien los respectivos cardinales son iguales, los experimentos se realizan bajo sendos conjuntos
de reglas que son diferentes en cada caso. Veremos más adelante que podemos encontrar sucesos
equivalentes en S y S° que tienen las mismas posibilidades de ocurrir.
6) ¬: Se extraen grupos de 5 bolillas, de una urna que contiene 4 verdes, 9 rojas y 8 blancas
(todas distinguibles).
S= {{21,z2, I3, T4, Zs}/ z; = V, .., V4, R1,..,.Rg, Bi,.., Bs Vi E([1, 5]) con Is=()
3.3.2 Espacios infinitos numerables
Consideremos el siguiente experimento aleatorio [: "Se lanza una moneda legal hasta que aparece
cara".
El experimento finalizarácuando se obtenga cara, esto puede suceder en el primer lanzamiento;
pero si no es así, el experimentador deberá lanzarla de nuevo pudiendo obtener o no el resultado
deseado. Es decir, se pueden precisar 1 ó 2 6 3 6...6 k (k E N) ó ..... lanzamientos para que el
experimento se dé por concluído.
Para este caso, una descripción aceptable de los posibles resultados es:
S= {C, XC, XXC, XXXC, .., XX..X C,.)

(k-1)-veces
Observemos que no podemos decir cuántos elementos tiene S, como en el caso anterior. Sin
embargo, podemos poner en correspodencia los elementos de S con el conjunto de los números
naturaleas N como se propone a continuación:
f S
XX...X, C
(k-1)-veces
Esquemáticamente tenemos la situación:

(k-1)-veces
S= (G, XG XXC, XXXC,.., XX..X C,..)
N=1;2, 3,4, .., k, ..}

o Ejercicio 1
Demostrar que la función f está bien definida y es biyectiva.
En base a estas observaciones podemos dar la siguiente:
Definición 4
Un espacio muestra S asociado a un erperimento e se dice infinito numerable si es posible
establecer una correspondencia biyectiva entre sus elementos yel conjunto de los números naturales
N
Cuando ocurre esto, decimos que el cardinal de S es infinito numerable y escribimos simbólicamente
|S| = |N|= No.
Otros ejemplos de este tipo de espacios muestra son los asociados a los siguientes experimentos:
1) e: De una urna con 5 cartones rotulados con los números 1, 2, 3, 4, 5, se extrae un cartón con
reposición hasta obtener un número par.
Sillamamos E al conjunto {2,4), un espacio muestra apropiado para este experimento es:
S= {E, EE, EEE, .., EE..5E, ..}
k-veces
2) ¬: Se extrae al azar una ficha de dominó hasta que la suma de los puntos de la misma es
mayor o igual que 10.
3) ¬: Se lanza una moneda legal hasta que aparece por primera vez en las dos últimas tiradas
distintos resultados.
o Ejercicio 2
Escribir en cada uno de los casos restantes anteriores, un espacio muestra apropiado.
3.3.3 Espacios infinitos no numerables

Sea el experimento aleatorio [: "Partir en dos pedazos una varilla de longitud finita L y anotar
las coordenadas del punto de corte". Para hacer una mejor descripción del caso, podemos fijar el
origen de coordenadas en el extremo izquierdo de la varilla y llamar zo al punto de corte, como se
muestra en la siguiente figura:
0 L
De este modo, el experimento puede ser también presentado como "Seleccionar al azar un punto
del intervalo real finito [0, L]"; luego, un espacio muestra adecuado al experimento es S = [0, L] C
R
Observemos que en este caso es imposible numerar los elementos de S, es decir, no podemos
hallar una función f biyectiva de S en los naturales N tal como en el caso anterior. Esto nos lleva
a enunciar la siguiente:
Definición 5
Si dado un erperimento aleatorio e y un espacio muestra S asociado a él, resulta que no podemos
establecer una correspondencia f biyectiva entre sus elementos y el conjunto de los naturales, se
dice queS es un espacio infinito no numerable.
En este tipo de casos, se dice que el cardinal de S es infinito no numerable y escribimos

|S = |R|= N1. En cursos superiores de matemática se demuestra que No < Ni partiendo del
hecho que R= P(N).
Otros ejemplos de experimentos aleatorios asociados con espacios muestrales infinitos no numer
anbles se dan a continuación:
1) e: Se mide el tiempo que un foco está encendido hasta que se quema (ésta es la llamada "vida
útil" del foco).
En este caso un S adecuado sería: S= {t/te R¢} = [0, +oo).
2) e: Luis lanza una moneda en dirección a una fuente circular de radio r, como se describe en la
figura:
3.3. CLASIFICACIÓN DE LOS ESPACIOS MUESTRA 9
y se anotan las coordenadas del punto de impacto.

Suponiendo que la moneda cae en el agua, el punto de impacto es cualquiera que pertenezca al
círculo de radio r esquematizado; en consecuencia:
S= {(e,y) e R²/z +y<rreRt}

3.3.4 Breves comentarios sobre cardinales
Los conceptos que dimos en los items anteriores están intimamente relacionados con los tipos de
cardinales de los conjuntos numéricOs que se han estudiado en los cursos previos de Matemática.
En primer término, tenemos ejemplos de conjuntos numéricos que son infinitos numerables: N,
{ EN/z = 2k, kEN}{r EN/z=2k -1, k EN), Z, Q.
Y por otro lado, tenemos los conjuntos numéricos de cardinal infinito: R-Q, R., (a, b) con a, b E R
y tantos otros.
Con los conocimientos elementales de funciones biyectivas podemos probar que todos los conjuntos
del primer grupo tienen el mismo cardinal que el conjunto N, y todos los del segundo grupo, tienen
el mismo cardinal que el conjunto R.
En todos los casos, la idea es conseguir una función biyectiva entre el par de conjuntos involucrados.
Por ejemplo, si queremos probar que el conjunto de los naturales y el de los naturales pares tienen
el mismo cardinal, basta con tomar la función:
f: N {zEN/ = 2k, k E N}
f(n)=2n
la cual es claramente biyectiva, por lo tanto: |N|= |{z ¬ N/z = 2k, kEN}I.
Si deseamos demostrar la igualdad |(-7)|= \(a,b)| = |R|, con a, bE R podemos plantear las
funciones:
f: (a, b) ’ (-)
f(z) =a (z- b) +
y
g (-) ’ R
f(z) = tgz
Ambas funciones son biyectivas y, en consecuencia, la composición:
gof : (a, b) R
f(*) = tgz
también es biyectiva. Esto demuestra la igualdad de los cardinales.
3.4 Sucesos
Definición 6
Sea S un espacio muestra asociado a un erperimento aleatorio [, llamaremos suceso (6evento) a
cualquier subconjunto de S.
En este contexto, S es nuestro conjunto universal y el conjunto formado por todos los sucesos
asociados a él será denotado por W. Esto es, W = {A/A C S) = P(S).
Diremos además que un suceso A ocurre si al realizar el experimento en cuestión se observa como
resultado un elemento de A.
Podemos dar una clasificación especial de los sucesos en función de que posteriormente podamos
medir las chances de ocurrencia de cada uno de ellos:
1) Suceso seguro: es aquel que siempre ocurre. Es decir, el espacio muestra S completo.
2) Suceso imposible: es aquel que nunca puede suceder, esto es, no tiene ningún punto muestra
favorable a él. Claramente, lo asociamos al conjunto vacío 0.
3) Suceso elemental: es aquel subconjunto de S que tiene un solo punto muestra. Simbólicamente
lo expresamos como A= {s}seS. En consecuencia, podemos expresar a S como unión disjunta de
sus sucesos elementales:
S=J{s)
sES
La interpretación de las operaciones básicas de la Teoría de Conjuntos, en el marco de un espacio

muestra como universo, se hace de un modo especial como se muestra a continuación:
1) A: El suceso A no ocurre".
2) AU B: "Ocurre al menos uno de los sucesos Ao B".
3) An B: "Ocurren simultáneamente A y B".
4) A B: "Ocurre A pero no B".
5) AUB: "No ocurren ni A ni B".
6) An B: "Almenos uno de los sucesos A o B no ocurre".
Estas operaciones con sucesos se muestran gráficamente en las siguientes figuras:
1) 21 3)
A
B
4) 61
Otras expresiones pueden ser construídas a partir de aquellas básicas.

3.5. PROBABILIDAD 11
Definición 7
Dos sucesos A, B¬ W se llaman mutuamente excluyentes si AnB=0
Un ejemplo que sirve para ilustrar los sucesos especiales es el siguiente. Sea el experimento e:
"Extraer de una baraja francesa, tres cartas de una en una y con reemplazamiento". Un espacio
muestra adecuado puede ser:
S= {(2,y, z) /z,y, z= 1,..., A13, 1,.., @13,O1,.., O13, i,.., O13}con |S| = 52
Sean los sucesos:
a) A: "Se obtienen tres cartas de la baraja".
b) B: "Se obtienen tres espadas"
c) C: "Se obtiene una pierna de ases de trebol
se ve fácilmente que A es un suceso seguro puesto que al realizar el experimento siempre se ob
tendrán tres cartas de la baraja; B es un suceso imposible ya que la baraja no es española (la
que se usa para jugar al "truco") y en consecuencia nunca podremos obtener espadas; C es un
suceso elemental puesto que hay un único punto muestra que lo favorece. Simbólicamente tenemos:
A = S, B=, C={(o1, 1, 1)}

Otro ejemplo para familiarizarse con operaciones con sucesos es el siguiente:
Una urna contiene 2 bolillas blancas y 3 negras. Un experimento [ consiste en extraer 2 bolillas
con reemplazamiento. Sean los sucesos:
A: la primera bolilla extraída es blanca.
B: la segunda bolilla extraída es blanca.
a) Escribir un S adecuado al experimento y los sucesos A y Bcomo subconjuntos de S.
b) Expresar los siguientes sucesos mediante operaciones entre los sucesos A y B.
FË: se extrae por lo menos una bolilla blanca.
Fz: ninguna bolilla extraída es blanca.
F3: la primera bolilla extraída es blanca y la segunda negra.
FA: las dos bolillas son del mismo color.
F5: se obtuvo exactamente una bolilla blanca.
Un espacio muestra apropiado al experimento es:
S= {(,y) /z,y= B1, B,, N1, N2, Ng} con |S] = 5
en base a él, podemos expresar los sucesos A y B como sigue:
A= {(z,y) /z = B1, B, ^y = BË, B, NË, N2, Na} B= {(e, v)/z = B1, B2, Ni, N2, N¡ Ay= B1, Ba}
y con ellos podemos expresar los restantes sucesos como:
i) F = AUB ii) F; =AnB iii) Fs = AnB
iv) F, = (An B) U
(An B) v) Fs = (An B)u(AnB)
3.5 Probabilidad
Concepto de probabilidad:
Es bastante usual escuchar frases como las siguientes:
"Se pronostica para mañana probabilid ades de chaparrones".
"Es posible que el domingo próximo vaya a visitarte."
"Casi seguro que les cuento a mis amigos sobre mis planes futuros."
¿Qué tienen de común todas ellas?. Todas están expresad as en función de las "chances" que existen
de que el suceso ocurra efectivamente.
12 CAPITULO3. ESPACIO MUESTRA Y PROBABILIDAD
Cuando de evaluar las chaces de ocurrencia de un suceso se trata, debemos conseguir una can
tidad que exprese numéricamente las posibilidades a favor o en contra. Es por eso que definiremos
una medida del grado de incertidumbre en lo que respecta a la ocurrencia o no de un suceso
asociado a un experimento aleatorio.
Esta medida es lo que conocemos como probabilidad y encararemnos el estudio de ella dando a
conocer tres definiciones distintas. Estas tienen como base distintos aspectos en la hipótesis, pero
todas tienen el mismo objetivo común : medir las posibilidades de un evento.
3.5.1 Probabilidad Clásica 6 "a priori"

Esta definición también llamada de Laplace es la más elemental de las tres definiciones que tratamos
en este capítulo. El calificativo de "a priori" se debe a que antes de realizar el experimento, se
debe conocer la posibilidad de que cada resultado del mismo ocurra. La enunciamos como sigue:
Definición 8
Sea e un ezperimento aleatorio cuyos resultados posibles son mutuamente ercluyentes, igualmente
verosímiles (probables) y ezhaustivos. Si el erperimento tiene n resultados posibles yE es un suceso
que tiene tiene m resultados favorables a él, se llama probabilidad de E al número real definido
Como.:
"número de casos favorables a E"

P(E) = " n
"número de casos posibles"
Observemos que el experimento debe tener una cantidad finita de resultados posibles, caso
contrario no podemos aplicar esta definición.
Que los resultados deben sean igualmente verosímiles significa que todos deben tener las mismas
"chances" o posibilidades de ocurrir, esto significa que las tenemos que conocer de antemano. Por
ejemplo, en el caso de lanzar un dado, tenemos que tener como hipótesis que el mismo es legal,
es decir que no hay preferencia por ninguna de las caras en particular. Que los resultados son
mutuamente excluyentes significa que no pueden ocurrir dos simultánemente al realizar el
experimento; exhaustivos significa que el conjunto de ellos es el conjunto de todos los posibles
resultados del experimento.
" Ejemplos:
1) Para el experimento ¬: " lanzar un dado legal" un espacio muestra apropiado es
S={1,2,3, 4, 5,6}. En el mismo los puntos son igualmente probables, mutuamente excluyentes y
exhaustivos. Si deseamos calcular la probabilidad del suceso A:"Aparece un número par"
tenemos en cuenta que n(A) = |A| =3ya que A = {2,4, 6} y entonces:
1
P(A) = n(4) 62
n(S)
2) Para el mismo experimentoconsideramos el espacio muestra S ={<3, >3} donde el primer
punto está asociado con aquellos resultados del experimento que son menores que 3 (1 y 2), y el
segundo con los restantes. Este espacio no tiene sus puntos igualmente probables, pues el primero
tiene asociado una probabilidad de y el segundo. Por lo tanto no podemos aplicar la
definición de Laplace para calcular probabilidades.
3) Para el experimento [: "lanzar dos dados legales y anotar los puntos obtenidos", tenemos
como espacio muestra propuesto a:
S= {(*,v) /z, y= 1, 2, 3,4, 5,6}
en el que podemos aplicar la definición en cuestión ya que cada punto tiene una probabilidad
constante de
Así, por ejemplo para calcular la probabilidad del suceso A: "la suma de los puntos obtenidos es
mayor o igual que 10", tenemos en cuenta que A= {(4,6), (6,4), (5, 5), (6, 5), (5,6). (6,6)} y por
lo tanto:
n(A) 6
P(A) = n(S) 366
4) Sea el experimento aleatorio ¬: "De una urna con bolillas numeradas con 1,2,3,4,5, se extraen
n bolillas con reposición, anotando el número obtenido en cada extracción"
Un espacio muestra adecuado es:
S= {(*1, T2, .., n) /z; = 1,2, 3, 4, 5, Vi =1,2,.., n}

en el cual podemos aplicar la definición clásica puesto que en cada extracción, cada una de las
bolillas de la urna tiene las mismas posibilidades de ser tomada que cualquiera de las otras,
debido a la reposición.
El número de elementos de S en este ejemplo es n(S) = |S| = 5 x 5x ... x 5=||5= 5° < oo.
i=1
n-factor
Nuestra tarea consiste en calcular, empleando la definición clásica, las ehl;dades respectivas
de los siguientes sucesos:
1) A: "No aparece ningún 4"

2) B: Aparece eractamente un 4".
3) C: "Se obtiene al menos un 4".
En primer lugar, el suceso A puede expresarse como:
A= {(*1, T2,.., z,)¬S/z; = 1,2, 3,5, Vi=1,2, .., n}

4) 4n
con lo cual, n(A) = |A| = 4" y por lo tanto: P(A) = n(S) 5n
Queda como ejercicio para el lector, expresar al suceso B por comprensión. Para hallar su
cardinal, sabiendo que este suceso está formado por todas las n-uplas que contienen uno y sólo un
4, empleamos los elementos de Combinatoria antes estudiados. Podemos primero elegir el lugar
donde ubicaremos el 4, esto se puede hacer deformas posibles. Una vez ubicado el 4 en
esa posición (1 sola forma), por cada una de estas elecciones tenemos 4n- maneras de ubicar los
elementos distintos de 4, en las n - 1 componentes restantes de la n-upla. Por lo tanto
n(B)
n(B) = |B|=()14n-l yen consecuencia, P(B) =n(S) 5n
Por último, para hallar la probabilidad de C tenermos dos caminos que, desde luego, conducen al
mismo resultado. Uno de ellos consiste en contar por el complemento puesto que los casos
complementarios a los que pertenecen a este suceso, son las n-uplas que no contienen ningún 4; es
n(C) 5n 4n 4
decir, los casos favorables al suceso A. Por lo tanto P(C) = n(S) =1
5
La otra forma consiste en hacerlo por el camino directo. Tenemos que tener en cuenta que en los
casos favorables están las uplas que contienen eractamente un 4, eractamente dos 4.,...,
eractamente k 4, ...,ezactamente n 4. Como estos casos son mutuamente excluyentes, para
computar el número de casos favorables a C tenemos que sumar los números de casos favorables
a cada subconjunto. Esto se hace contando el caso genérico cuando tenemos exactamente k
componentes 4, y sumando luego con k= 1,2, .., n. El número de formas de tener exactamente k
componentes 4, se consigue eligiendo primero los k lugares de entre los n posibles, esto se puede
n
hacer de formas distintas; en cada uno de ellos tenemos que ubicar los 4, esto se puede
hacer de 1k formas; y por último en los n -k lugares restantes ubicamos los números distintos de
4, esto se puede hacer de 4-* formas. Por lo tanto,
14 CAPITULO 3. ESPACIO MUESTRA Y PROBABILIDAD
n(C) k=1
P(C) =
n(5) 5n
Por otro lado, haciendo uso del binomio de Newton, tenernos que:
Z)nt=(1+4)" =sn
k-0
lo que permite verificar que los valores para P(C) obtenidos por ambos caminos son iguales, ya
que:
5 4n 4"
5n 5
=l 5n
3.5.2 Probabilidad Frecuencial ó "a posteriori"

Supongamos que no sabemos si un dado, que deseamos lanzar para hacer un experimento, está
"cargado' óno. Existe una forma erperimental de calcular, por ejemplo, la probabilidad de que
en un lanzamiento de este dado se obtenga un número mayor que 4. Si el valor obtenido de este
modo fuera podríamos decir que el dado es legal (bajo un cierto grado de "confiabilidad", según
veremos más adelante).
Esta definición recibe el nombre de "a posteriori" puesto que la probabilidad del suceso en cuestión
se determinará con posterioridad a la realización de una serie de pruebas experimentales.
Supongamos que se toma el dado y se lo lanza n veces. Si el suceso en cuestión es A: "sale un
número", llamaremos n al número de veces que A aparece en los n lanzamientos; este número
se llama también frecuencia absoluta de ocurrencia de A. Denotaremos con fa a la frecuencia
relativa de ocurrencia de A, que se calcula como " . Para una serie de 100 lanzamientos, la tabla
siguiente muestra los valores definidos cuando las pruebas se hacen en l0 grupos de 10 tiros cada
uno (llamaremos n al número de veces que ocurre A en cada grupo):
No de grupo n nA
1 4 =0.4
2 5 =0.25
3 11 30 :0.36
4 2 13 0.325
5 17 =0.34
6 3 20 6
=0.33
7 4 24 60.342
8
9 5
25
30
25-0.312
an0.33
10 2 32 =0.32
Podemos representar gráficamente los valores obtenidos de fa en función de los valores de n,

como sigue:
fAn
0.4
0.2
10 20 30 40 50 60 70 1Ð0 n
0
En este gráfico podemos observar que para valores pequeños de n, la poligonal fluctúa consid
erablemente alrededor del valor teórico ; pero se hace más estable a medida que n crece (n + o)
y converge al valor téorico de probabilidad en el sentido:
ve>0, 3N:Ya> M. \a-<e

Es decir, para valores grandes de , los valores de la frecuencia fA están tan cerca del valor teórico
de probabidad como uno desee, basta tomar un radio de entorno e pequeño para garantizar la
existencia de un número de pruebas N que asegure la aproximación buscada.
Este fenómeno se conoce con el nombre de regularidad estadistica. En base a estas consideraciones
podemos dar la siguiente:
Definición 9
Dado un erperimento [ y un suceso A asociado a él, podemos asignar a este suceso un número real
P(A) llamado probabilidad de A de la siguiente manera: si el erperimento se realiza n veces
bajo las mismas condiciones y hay nA resultados favorables a A, entonces una "estimación" de la
probabilidad de A viene dada por el cociente , llamado frecuencia relativa de A, y este cociente
se aprorima al vendadero valor de probabilidad de A cuando el número de pruebas crece (n ’ o)
En símbolos:
P(A)= n+oo
im n
es decir:
Ve> 0, BN: Vn> N, |"A- P(A) <e

n
En nuestro ejemplo, podemos concluir que el dado en cuestión es legal, pero más adelante, en
el capítulo de estimación por intervalos de confianza, podremos reforzar nuestra afirmación con un
cierto nivel de confiabilidad que definiremos entonces.
En general la afirmación de que en un experimento aleatorio, un suceso A tenga una probabil
idad P(A) = p de ocurrir, puede interpretarse que, si repetimos una gran cantidad de veces el
experimento, se observaría el suceso A aproximadamente el 100-% de las veces.
3.5.3 Probabilidad Axiomática óMatemática

Las dos definiciones anteriores no pueden ser aplicadas en todos los casos posibles de experimentos
aleatorios. Por ejemplo, si el experimento no tiene una cantidad finita de resultados posibles ósi
los resultados posibles no son igualmente verosímiles, la definición clásica no puede ser empleada.
Para abarcar todas estas posibilidades y muchas otras, necesitamos formular una definición de pro
babilidad que no dependa de esas circunstancias. Afortunadamente, podemos hacerlo definiendo
a la probabilidad como una función que satisface ciertos axiomas, como sigue:
Definición 10
Dado un erperimento aleatorio e, un espacio muestra S asociado a él y sea W=P(S) el conjunto
de todos los sucesos de S, llamarenos probabilidad a la función:
P: W= P(S) R
A P(A)
que satisface los siquientes aziomas:
" 1) VA E W, P(A) >0

" 2) P(S) =1
" 3) A, BE WA AnB=0 ’ P(AU B) = P(A) + P(B)
Algunos autores sustituyen el tercer axioma por el siguiente:
" 3) A1, Az, .., Ak,...E WA A; n Aj =0, Vitj’
(Ün)-na
el cual, evidentemente, contiene a los casos con cantidad finita de sucesos.
Estos axiomas consideran a la probabilidad de un suceso como una abstracción de la frecuencia
relativa de éste cuando el experimento se realiza una gran cantidad de veces (n ’ oo). El primer
axioma establece que la función probabilidad toma siempre valores no negativos; el segundo, que
tenemos la certeza de que el suceso seguro ocurra. El tercer axioma permite calcular la probabil
idad de dos sucesos mutuamente ezcluyentes comno la suma de sus respectivas probabilidades (es
decir, la funciónPes aditiva), y se generaliza para una cantidad infinita numerables de sucesos
disjuntos dos a dos, en el axioma 3' ).
Esta formulación nos permite demostrar una serie de teoremas importantes en el cálculo de pro
babilidades como veremos a continuación.
& Teorema 1
El suceso imposible tiene probabilidad nula de ocurrir, esto es:
AE W A A=0 P(A)=0
Demostración:
Sabemos que VAE W, AUØ=A yen consecuencia, P(AU0)= P(A) puesto que la probabilidad
P es una función (esto es, un elemento del dominio no puede tener dos imágenes distintas). Luego,
por aplicación del Axioma 3), dado que AnO=0, tenemos que:
P(AU0) = P(A) + P(0) = P(A)
de lo cual se concluye que P(0) =0 empleando la propiedad del neutro aditivo de la suma en R.
Observación: la proposición recíproca del teorema anterior no es siempre cierta. Existen infinitos
ejemplos de sucesos que tienen probabilidad nula de ocurrir y sin embargo no son sucesos imposi
bles. Veremos estos casos cuando hablemos de espacios de probabilidad infinitos no numerables,
en la sección próxima.
Teorema 2
La probabilidad del suceso complementario de un suceso A, es igual a la diferencia entre la unidad
y la probabilidad de este último. En símbolos:
VAE W, P(A) = 1- P(A)

Demostración:
Dado que AUA= S y AnA= 0, al ser P una función y válidos los axiomas 2) y 3) se obtiene:
P(AUA) = P(A) + P(A) = P(S) =1
expresión de la que se consigue inmediatamente la tesis.
Este teorema permite calcular la probabilidad de un suceso mediante la probabilidad de su com
plementoy es de gran utilidad cuando el cálculo de la probabilidad directa es complicada pero es
relativamente fácil el cálculo por el complemento.
A manera de ejemplo, recordemos el ejemplo 4) de la sección correspondiente al cálculo de proba
bilidades con la definición de Laplace.
En ese ejemplo el complemento del suceso C: "Se obtiene al menos un 4" es el suceso A: "No
aparece ningún 4", con lo que:
P(C) = P(A) =1-P(A) = 1 5n

Teorema 3
Si un suceso es subconjunto de otro, la probabilidad del primero no puede superar en valor a la

probabilidad del segundo. Simbólicamente:
VA, BEW, AÇ B = P(A)< P(B)

Demostración:
Como ACB podemos escribir B = AU(B - A), sabiendo que An(B - A) = 0. Por otro lado,
aplicando el axioma 3) y la definición de probabilidad se tiene que:
P(B) = P(A) +P(B - A)

>0 >0
entonces, corno a P(A) le estamos sumando una cantidad no negativa para igualar al valor de
P(B), concluímos que P(A) < P(B).
Observación: la proposición recíproca no es válida, esto es ~ (P(A) < P(B) + AÇ B). Lo
podemos comprobar con el siguiente contraejemplo: en el experimento aleatorio de lanzar un dado
legal una vez, sean los sucesos A= {1,2) y B= {3,4, 5}, se verifica que P(A) =s= P(B) y
sin embargo no se cumple que A C B.
Otra observación:
Una consecuencia importante de los teoremas 1 y 3 es que la función probabilidad no tiene como
imagen a todo el conjunto R sino al intervalo [0, 1] C R. Eso se ve claramente observando que:
0EAC S, VAE W, P(0)< P(A) < P(S)

y en consecuencia VA E W, 0 < P(A) < 1.
Así, podemos redefinir la función probabilidad expresando: P: W ’ [0, 1] C R.
Veamos ahora una generalización del axioma 3).
& Teorema 4
Aj, Az, . A, EWAA;nAj =0, Vi#j P(AN)
Dermostración:
Se puede hacer con Inducción Matemática Completa. Para n = 2, es la proposición es verdadera
por axioma 3). Suponemos que es válida para n = m:
Aj, Az, . Am EWAA;nA; = 0, Vi#j

(Ua)-Sra)
y veamos que vale también para n = m+ 1: VAj, Az, ., Am, Am+1 ¬ W AA;nA; =0, Vi# j:
m+1 m m+1
k=1 \k=1 k=1 k=1
usando la validez para n=2.
& Teorema 5
La siguiente erpresión nos permite calcular probabilidad de la unión (no necesariamente dis
junta) de dos sucesos cualesquiera.
VA, BE VW, P(AUB) = P(A) + P(B) - P(An B)

Demostración:
S
Observemos que, en particular cuando A y B son mutuamente excluyentes, el tercer término del
segundo miembro de la igualdad es nulo y se verifica el axioma 3) de la definición.
En el caso general de unión no disjunta, buscamos escribir a los sucesos AU By B como unión
disjunta de sucesos en los que aparezca el suceso B- A. Apartir del diagrama podemos expresar:
AUB= AU(B- A) A B= (B- A)U (AnB)
con lo que se tiene:
P(AU B) = P(A) + P(B - A) A P(B) = P(B A) + P(ANB)

Despejando de la segunda igualdad el término P(B A)ysustituyendo en la primera igualdad, se
obtiene la fórmula deseada.
Teorema 6
Desigualdad de Boole:
A1, Az,.., A, E W
o Ejercicio 3
Demostrar esta desiqualdad. (Sugerencia: usar Inducción Matemática Completa).
Podemos extender la fórmula de cálculo del Teorema 5 al caso de tener tres sucesos, como sigue.
Teorema 7
VA,B,Ce W, P(AUBUC) = P(A) +P(B) +P(C)-P(AnB)P(AnC)-P(BnC)+P(ANBAnc)

o Ejercicio 4
Demostrar el teorema anterior. (Sugerencia: hacer BUC= H yaplicar el teorema 5).
4 Teorema 8
Se puede generalizar el teorema 5 al caso de una cantidad finita n de sucesos A1, A2, ..., A, E W,
COmo Sigue:
1=1 i<j<k
" Ejercicio 5
Demostrar el teorema precedente. (Sugerencia: usar Inducción Matemática Completa).
Damos a continuación otros ejemplos de aplicación:
Problema 1: Pequeño Festival de problemas.

a) Sean A y B dos sucesos tales que P(A) = 0.4 y P(B) = 0.7. Hallar el valor máximo y el
mínimo posible para P(An B) y las condiiones bajo las cuales estos valores ocurren.
b) Sean A,B y C tres sucesos asociados un espacio muestral S tales que P(A) = 0.30,
P(B) = 0.70 y P(C) = 0.50. Es cierto que A, By C son disjuntos dos a dos?. y
P(AnB) = 0.40?.
c) Sean A, By C sucesos tales que P(A) = P(B) = P(C)= P(An B) = P(CnB) =0 y

P(AnC) = Calcular la probabilidad de que al menos uno de los sucesos A, BóC ocurra.
d) Sean A y B dos sucesos tales que P(A) = y P(B) = . Hallar el valor de P(An B) cuando:
i) A y B son mutuamente excluyentes.
ii) Ac B
i) P(AUB) =
Vayamos por partes, para el item a) observamos que AnBCA y también An BCB. Aplicando
el Teorema 3obtenemos 0< P(AnB) < P(A) = 0.4 y 0< P(ANB) < P(B) = 0.7, intersectando
ambas condiciones concluímos que 0 < P(AN B) < 0.4.
Para el item b) Si fueran mutuamente excluyentes dos a dos, por ejemplo debería suceder que
BCC, es decir P(B) <1- P(C). Pero esta última proposición no se cumple. Por lo tanto A, B
yC no pueden ser mutuamente excluyentes.
Por otro lado, razonando como en el item a), P(An B) debe ser menor o igual que P(A), lo que
no se verifica en este caso.
c) Observamos en primer lugar que como (AnBnC)C AnB resulta que P(AnBnc) = 0.
Aplicando el Teorema 7obtenemos P(AU BUC) = ++}-=
d) i)Si los sucesos son mutuamente excluyentes se cumple que P(An B) = 0.
ii) Si A es subconjunto de B, se cumple que P(An B) = P(A) =.
ii) Empleando el Teorema 5 obtenemos:
17
P(AnB) = P(A) + P(B) P(AUB) 24
Problema 2: El problema de los cumpleaños.

A una reunión asisten n < 365 personas. ¿Cuál es la probabilidad de que en el grupo haya por lo
menos dos personas que hayan nacido el mismo día?.
Un espacio muestra razonable puede ser el siguiente (suponiendo un año normal de 365 días):
S={(*1, #2, .., zn) /z; = 1,2, 3..., 365 Vi = 1,2,., n}
claramente |S] =365" y podemos hallar la probabilidad solicitada trabajando por el complemento.
Si llamamos A al suceso de estudio, tendremos que A: "Todas la personas nacieron en días difer
entes. Este suceso tiene una probabilidad:
365.364.363....(365 n+1)
P(A) = 365n
por lo que:
P(A) = 1 365.364.363....(365 n + 1)
365n
Como dato curioso, se comprueba numéricamente que para n> 56, la probabilidad de A es mayor
o igual que 0.99 (casi 1).
Problema 3: Pascal versus Meré.

En una mesa de juego, en 1654, el matemático Meré le propuso al célebre Pascal la siguiente
afirmación: Es más probable obtener al menos un as con cuatro dados que al menos un doble as
en veinticuatro tiradas de dos dados. ¿Tenía Meré razón?.
El primero de los cálculos está relacionado con el experimento de lanzar 4 dados legales, luego un
S adecuado es:
S= {(*1, z), T3, Za) / z;= 1,2, ..,6 Vi= 1,2,3,4) con |S| = 6
Nos conviene hacer el cálculo del suceso A: "Se obtiene al menos un as" por el complemento. Como
A: "No se obtiene ningún as", tenemos que:
5.5.5.5
P(A) = 1- P(A) =1 64 =1-() = 0.5177
La segunda probabilidad está relacionada con el experimento de lanzar 24 veces un par de dados
legales, por lo que un S adecuado es:
S= {(*1 U1),(*2,V2), .., (T24, y24)) /zi, ; = 1,2,..,6 Vi= 1,2,..,24)
El cardinal de S es |S| = 364 y si llamamos B al suceso "se obtiene por lo menos un doble as", nos
es más fácil el cálculo si trabajamos por el complemento. Como B: "no se obtiene ningún doble
as", resulta:
24-fact ores
24
35.35...3 =1-(85
P(B) = 1- P(B) = 1 3624 36
= 0.4914
Así, los resultados obtenidos le dan la razón a Meré.

Problema El problema de las bolillas y las cajas.
2
1
3 n-1
C1 C
Se distribuyen n bolillas (distinguibles) en 3 cajas Ci, C2, C3, se supone que no hay preferencias
en cuanto a la posibilidad de que una bolilla ocupe una caja en particular. Se desea calcular las
probabilidades respectivas de los siguientes sucesos:
a) A: "Unicamente la caja C1 está ocupada"
b) B: "Exactamente dos cajas están vacías"
c) C: "Una de las tres cajas está vacía".
d) D: Las tres cajas están ocupadas".
e) E: "Dos cajas están ocupadas"
f) F: "La caja C2 6 la caja C3 están vacías".
Para ello pensamos en un espacio muestra que nos facilite el cómputo de las probabilidades pedidas.
Tenemos dos alternativas: podemos asignar objetos a las cajas ó cajas a los objetos. La primera
alternativa es la más difícil ya que físicamente hablando, una bolilla no puede ocupar dos cajas
simultáneamente y en consecuencia, si bien podemos escribir un S adecuado al experimento:
S= {(2,y, z) /2, y, z = 0, 1,2,.., nA z +y+z=n}
resulta complejo encontrar |Sl y contar el número de casos favorables a cada suceso (más adelante,
con la teoría de distribuciones multidimensionales, podremos hacerlo).
La segunda alternativa permite la posibilidad que una caja sea asignada simultáneamente a dos o
más bolillas; en este sentido podemos expresar un espacio muestra apropiado como:
S= {(1,z), .., zn) / z;= C,,Ca, Cs Vi= 1,2,.., n) con |S] = 3

Este es un espacio donde podemos aplicar la definición clásica y la axiomática como sigue:
a) Si sólo la caja C1 está ocupada, esto significa que todas la bolillas están asignadas a ésta. Esto
puede ocurrir de una única manera posible, esto es |A| = n(A) = 1 y en consecuencia P(A) =.
3
b) Debemos elegir cuáles serán esas dos cajas que estén vacías, tenemos 2 formas de
hacerlo. La caja restante deberá contener a las n bolillas y tiene una sóla forma de hacerlo. Por
3
lo tanto, |B| =n(B)=( )1=3yluego, P(B) =
c) Esto indica que por lo menos una de las tres cajas está vacía, así que tenemos dos casos
mutuamente excluyentes: exactamente una vacía ó exactamente dos vacías. La alternativa de
tener las tres cajas vacías no cabe ya que debemos efectivamente hacer la distribución de todas
las bolillas.
Para el primer caso debermos elegir la caja que estará vacía, esto se puede hacer de 1 formas
posibles; las dos cajas restantes deben ser distribuídas entre las n bolillas de modo que ambas
queden ocupadas. Esto se puede hacer de 2 - 2 formas distintas (quitamos los dos casos en que
la n-upla tiene asignada en cada componente la misma caja). El segundo caso corresponde al
suceso B, luego, P(C) = 24=e"-1)
3
d) En este caso nos conviene hacer el cálculo por el complemento ya que D: "Por lo menos una
caja está vacía", y esto ya fué computado en el ítem anterior.
Luego, P(D) = 1- P(D) = 1- (2"
e) Esto significa que por lo menos dos cajas están ocupadas. Tenemos entonces dos casos
mutuamente excluyentes: exactamente dos cajas están ocupadas ó todas las cajas están
ocupadas. El primer caso es equivalente a "exactamente una caja está vacía", que se computó en
la primera parte del item c); el segundo caso corresponde al suceso D.
Entonces, P(E) = 2-2 41-32")=
3n 1
f) Llamemos F: "La caja Cz está vacía" y F2: "La caja Cs está vacía". Tenemos que calcular
P(EUF), para ello tenemos en cuenta el Teorema 5:
P(F)= P(FU F) = P(Ei) + P(F.) P(Fn F)

pero P(F)= P(F) = P(C) y P(FNF) =}P(B), por lo que
2(2" 1) 2.2n - 3
P(F) = 3n 3r

o Ejercicio 6
Se efectuó un muestreo en una plantación de trigo. Se observó que de 900 plantas, 300 tienen una
altura mayor que h metros (cualidad A), 300 tienen más de m espigas (cualidad B) y 100 tienen
las cualidades A y B.
Encuentre el número de plantas que tienen:
i) eractamente k de las cualidades A u B.
ii)al menos k de la cualidades A y B.
En ambos casos considerar k=0,1,2
o Ejercicio 7
En un depósito de fideos hay una cantidad (suficientemente grande) de paquetes con pesos 2,4,..., 16
Kg. SeaE: eztraer 2 paquetes al azar y anotar sus pesos.
a) Sea S = {(2, y) e Zx Z/z = 2k con k e [[1, 7)]}.
Es este S un espacio muestral adecuado al erperimento?. Si no fuera así, redefinirlo. Cuántos
elementos tiene?, es finito?.
b) Para el S adecuado encontrado en el ítem anterior, definir por comprensión los siguientes suce
SOS:
A: ambos paquetes pesan lo mismo.

B: el primero pesa a lo sumo lo que el segundo.
C: el segundo pesa el doble que el primero.
D: el primero tiene un peso igual al del segundo más 3 Kg.
E: el segundo peso por lo menos 6 Kg.
F: el promedio de los pesos es menor que 4 Kg.
Representarlos gráficamente teniendo en cuenta S.
o Ejercicio 8
Sea el erperimento aleatorio [: observar el movimiento de la aquja que marca la hora en un
reloj circular de radio r, hasta que se detiene (por ejemplo, se agotó la pila). (Puede llevar mucho
tiempo!). Suponer además que, la aguja tiene un movimiento continuo.
a) Escribir un espacio muestral adecuado al ezperimento.
b) Escribir simbólicamente y representar los siguientes sucesos:
La aguja se detiene:
A: entre las 12 y las 3 hs..
B: entre las 2 y las 8 hs..
C: entre las cuatro y las 5 hs..
D: justo a las 6 hs.
c) Suponer que ahora el erperimento (lo llamemos e*) consiste en realizar una vez más el ezperi
mento [. Hallar un espacio muestral apropiado para [. Cuántos elementos tiene?.
Escribir simbólicamente y representar los sucesos siguientes:
1) H: las agujas se detienen en el mismo punto.
2) &
3) G: la primera aguja se detiene antes que la segunda.
4) J: la suma de los cuadrados de los valores de los puntos de detenimiento es menor o igual que
4m2p2,
o Ejercicio 9
Se eztraen de una baraja francesa (la que se usa para jugar al "poker") con reposición, 3 cartas y
se consideran los siguientes sucesos:
H: aparece al menos un .
G: aparecen eractamente dos .
Hallar: P(H),P(G), P(HNG), P(HUG), P(HNG) y describir con palabras los sucesos detallados.
o Ejercicio 10
En una comisión hay 40 estudiantes de Ciencias Ezactas que cursan Probabilidades y Estadística.
Se considera un grupo prefjado de 6 de ellos. Si se parte del hecho de que cada estudiante cursa
solamente una carrera, hallar la probabilidad de que esos 6 pertenezcan a carreras distintas pero
de a 3 coincidentes (ejemplo: 3 pertenecen a L.M. y 3 a L.A.S.).
o Ejercicio 11
En una repisa hay 5 cassettes de música clásica y 7 de música folclórica. Se selecciona un cassette
al azar y con reposición, n veces. Cuál es la probabilidad de eztraer eractamente k cassettes de
música clásica?. Cuál es la probabilidad de ertraer al menos 3 cassettes de música clásica?.
o Ejercicio 12
a) Un dado reqular tiene dos caras pintadas de rojo, dos de negro y dos de amarillo.
Sea e: se arroja el dado 3 veces ysea el suceso M: en las 9 tiradas salió el mismo color. Calcular
P(M) y P(M).
b) Una guía telefónica contiene números cuyos 4 últimos dígitos toman valores del 0 al 9. Ses
e: se selecciona al azar un número telefónico de la guía y se observan los 4 últimos dígitos.
Calcular la probabilidad de que:
i) Los cuatro digitos sean iguales.

ii) De los cuatro dígitos observados solamente el primero y el segundo son iguales.
iii) De los cuatro dígitos observados por lo menos dos sean iguales.
o Ejercicio 13
Un lote contiene n artículos. Se sabe que r de ellos son defectuosos, y se inspecciona el lote
completo en orden aleatorio. Se desea averiguar la probabilidad de que el k-ésimo artículo (k > r)
sea el último defectuoso.
a) iQué valor puede tomar k?.
b) Calcular la probabilidad en cuestión.
Bibliografía
[1] Avila Blas, Orlando J. y Collivadino, Gisselle. Estudio del desarrollo probabilístico y estadístico
en el siglo XIX, Curso de Postgrado Historia de Matemática, U.N.Sa, 1996.
[2] Mood y Graybill, Introducción a la Teoría de la Estadística, Ed. Aguilar, 1970.
[3] Paul L. Meyer, Probabilidades y Aplicaciones Estadísticas, Fondo Educativo Interamericano,
1986.
[4] William Mendenhall-Richard L. Scheaffer-Denis D. Wackerly, Estadística Matemática con Apli

caciones, Grupo Editorial Iberoamericana, 1986.
25
o Ejercicio 17
De un mazo de cartas francesas (las que se usan para jugar al poker), de cuántas maneras diferentes
se puede tomar un grupo de 5 cartas, tal que en el mismo:
a) haya piques solamente?.
b) haya cartas negras solamente?.
c) contenga 4 ases?.
d) conste de 3 cartas de un palo y dos de otro?.
e) contenga 3 reyes y un par?.
) tenga 3 cartas de un mismo valor y dos de otro?.
o Ejercicio 18
Para realizar las quardias correspondientes a una semana, el cuartel de bomberos cuenta con 30
personas. Encontrar el número de guardias dierentes de 5 bomberos que pueden planearse, enten
diendo que dos guardias son distintas cuando difieren en al menos una persona.
o Ejercicio 19
De una urna que contiene tarjetas con los números 0, 1,2,.,9 se eztraen tres de ellas en sucesión
con reposición. Cuál es el número de ertracciones (a, b, c) tales que a + b+c sea impar?.
o Ejercicio 20
En un laboratorio, un científco cuenta con cepas de virus conservadas en recipientes especiales
y rotuladas con P (peligroso) y MP (muy peligroso). Realiza una selección de n envases con
reposición, de cuántas formas distintas puede obtener ezactamernte k recipientes (0 < k < n)
rotulados con P?.
o Ejercicio 21
1) Cuántas matrices de n xny con elementos 0,1,2 se pueden escribir?.
2) Cuántas de ellas no son simétricas?.
3) Cuántas tienen traza menor que 2n?.
Bibliografía
[1] Enzo Gentile, Análisis Combinatorio I y II, Revista de Educación Matemática, Vol. 2.3 (1986)
y 3.1 (1987), Fa.M.A.F., Córdoba.
(2] William Feller, Introducción a la Teoría de las Probabilidades y sus Aplicaciones. Ed. Limusa
Wiley, 1978.
(3] Ralph P. Grimaldi, Matemáticas discreta y combinatoria, Addison-Wesley Iberoamericana,
1989.
[4] Moody Graybill, Introducción a la Teoría de la Estadistica, Ed. Aguilar, 1970.

[5] Paul L. Meyer, Probabilidades y Aplicaciones Estadisticas, Fondo Educativo Interamericano,
1986.
[6] William Mendenhall-Richard L. Scheaffer-Denis D. Wackerly, Estadistica Matemática con Apli

[7] Ricardo Maronna, Probabilidad y Estadística Elementales para estudiantes de Ciencias, Edito
rial Exacta, 1995.
27
Contenido
4 Espacios de probabilidad. Probabilidad condicional e Independencia 3

4.1 Espacios de probabilidad 3
4.1.1 Espacios de probabilidad finitos
4.1.2 Espacios de probabilidad infinitos numerables 5
4.1.3 Espacios de probabilidad infinitos no numerables
4.1.4 Ejercicios Complementarios 13
4.2 Probabilidad condicional 16
4.2.1 Distribución bivariada de frecuencias 16
4.2.2 Probabilidad condicional axiomática 19
4.3 Independencia de sucesos 20
1
Capítulo 4
Espacios de probabilidad.
Probabilidad condicional e
Independencia
En la vida, única constante es el cambio..
4.1 Espacios de probabilidad

En el capítulo anterior, nos dedicamos a definir una medida de la incertidumbre de la ocurrencia
de un fenómeno. Habíamos definido antes una caracterización de los posibles resultados de un
experimento aleatorio [, el espacio muestra S. También establecimos relaciones entre estos dos
conceptos, ahora estrecharemos aún más sus lazos, en especial cuando el espacio muestra tenga
cardinal infinito.
En primer lugar dirijamos nuestra atención a los espacios con cardinal finito.
4.1.1 Espacios de probabilidad finitos

Definición 1
Sea S un espacio muestra finito, esto es S = {aj, a2, .., an). Un espacio de probabilidad
finito se consigue asignando a cada suceso elemental {a;}, i=1, 2,.., nun número real llamado
"probabilidad de a," que se define por medio la igualdad:
p(a;) = P({a:}), Vi = 1,2, .., n

Estos números satisfacen las siguientes condiciones:
1) p(a:) >0, Vi=1,2, .., n

) Lla:) =1
i=1
3) YAÇ S, P(A) = plai)

a,¬A
Llamaremos entonces espacio de probabilidad finito al par ordenado (S, p) construído de

esta manera. Las condiciones 1) a 3) están bien planteadas ya que:
1) Por definición p(a;) = P({a;}), Vi= 1,2,.., ny el segundo miembro es >0 por arioma 1) en
la definición ariomática de P.
3
4CAPITULO4. ESPACIOS DE PROBABILIDAD. PROBABILIDAD CONDICIONALEINDEPENDENCIA
2) Esta propiedad se cumple inmediatamente debido a la validez de los ariomas 2) y 3) de la
definición matemática de la función P y recordando que todo espacio muestra (finito en
particular) es la unión disjunta de sus sucesos elementales:
s=Uis)=Uia)
SES i=1
por lo que:
n
:P(S) = 1
3) Esta condición se demuestra de manera análoga a la segunda ya que todo suceso A de un

espacio muestra es la unión de los sucesos elementales que están contenidos en él:
P(A) =
a;A \aiEA
* Ejemplo 1
1) Sea p la asignación de probabilidades siguiente:
2 38 38
todos los pla;) asignados son números no negativos y la suma de ellos es la unidad.
2) La asignación p siguiente hace que el par (S,p) no sea un espacio de probabilidad finito:
S= fa, a2, ..., an}
1
-1
ya que el primer los valores asignados es negativo y la suma de ellos no es igual a la unidad.
3) Si hacemos la asignación de probabilidades p(a;) =, Vi, el espacio de probabilidad obtenido
se denomina uniforme. Son aquellos asociados a erperimentos aleatorios donde podemos aplicar
la definición clásica de probabilidad. Claramente, esta asignación cumple con las condiciones de
la definición 1, puesto que las probabilidades asignadas a los sucuesos elementales son no
negati
vas y su suma es igual a la unidad. Además si un suceso A es tal que |A|= m<n entonces,
P(A) = pla) = : m |A|

n
a,¬A i=l
lo cual condice con la definición de Laplace.

Para afirmar estos conceptos, se sugiere hacer los siguientes:
o Ejercicio 1
Sea S = {aj, a2, .., aa) (n > 3) un espacio muestral finito de n elementos yP una función de prob
abilidad definida sobre W= P(S) (por notación será P({a;}) = pla:)). Decidir si las siguientes
funciones p de asignación de probabilidades hacen que el par (S, p) sea un espacio de probabilidad
finito. Justificar la respuesta.
4.1. ESPACIOS DE PROBABILIDAD 5
i) p(a:) = Vi=1,2,.., n.
ii) p(a1),p(a2) = p(a) = 0, Vi>3.
ii) p(a1) =-1,p(a2) = 0.8,p(43) = 0.4,p(a;) =0, Vi> 3.
En los casos de mala asignación, proponer una distribución de probabilidades apropiadas y decir
si el S resultante es de Laplace ó no.
o Ejercicio 2
Sea S = {a1, az, d3, a4}. Encontrar:
i) p(a1) vp(a2), si p(a3) = p(a4)=}yp(a1) = 2p(az).
ii) p(a1), si p(ag ó ag)= p(ag ó a4) = Vp(a2) =.
o Ejercicio 3
Un dado está cargado de tal manera que la probabilidad de obtener un número par es tres veces
mayor que la de obtener un impar. Hallar la probabilidad de los sucesos:
A: se obtiene un 4 ó un 2, en un lanzamiento.
B: se obtiene un número mayor que 3 en un lanzamiento.
o Ejercicio 4
i) A juega 3 billetes en una lotería de 12 números, que tiene 3 premios. B juega 2 billetes en otra
de 8 números, que tiene 2 premios. Cuál tiene mayor probabilidad de ganar?.
ii) Se escogen al azar 3 cuadros de un tablero de ajedrez. Demostrar que la probabilidad de que 2
sean de un colory el tercero de otro, 0.7619.
o Ejercicio 5
Se reparten al azar, 4 cubos distintos entre 3 personas, hallar la probabilidad de que a lo sumo 1
persona se quede con las manos vacías. Hacerlo de dos modos distintos (esto es, empleando dos
espacios muestrales diferentes) y comparar los resultados obtenidos.
4.1.2 Espacios de probabilidad infinitos numerables

Definición 2
Sea S un espacio muestra infinito con cardinal numerable |S| = |N|=No , esto es S= {a1, a2, ..,an,..}.
Un espacio de probabilidad infinito numerable se consigue asignando a cada suceso elemental
fa;} ieN un número real lamado "probabilidad de a " que se define por medio de la igualdad:
p(a:) = P{a;}), Vi eN
Estos números satisfacen las siguientes condiciones:
1) p(a) >0, Vi=1,2,.., +oo
2) p(a;) =1
i=1
3) VACS, P(A) =a,¬A P(a:)

Llamaremos entonces espacio de probabilidad infinito numerable al par ordenado (S, p)
construido de esta manera.
Las condiciones 1) a 3) están bien planteadas ya que:

1) Por definición p(a;) = P({a;}),Vi= 1,2, .., ooy el segundo miembro es >0 por axioma 1) en
la definición axiomática de P.
2) Esta propiedad se cumple inmediatamente debido a la validez del axiomas 2) y una extensión
del axioma 3) (cantidad numerable de sucesos disjuntos dos a dos) de la definición matemática de
6CAPÍTULO 4. ESPACIOS DE PROBABILIDAD. PROBABILIDAD CONDICIONALEINDEPENDENCIA
la funciónP. Debemos recordar también que todo espacio muestra (en particular los infnitos
numerables) es la unión disjunta de sus sucesos elementales:
s=Uu) =Ule)
sES i=1
por lo que:
P(S) = 1
i-1 i=1
3) Esta condición se demuestra de manera análoga a la segunda ya que todo suceso A de un

espacio muestra es la unión de los sucesos elementales que están contenidos él:
P4)= pa) =P{Uta)))=PA)

a¬A \aEA
Veamos ahora algunos ejemplos de aplicación:

* Ejemplo 2
Consideremos el erperimento [ "Lanzar una moneda legal hasta que se obtiene cara". Vimos en
el capítulo anterior que un espacio muestra apropiado es:
S= {C,XC, XXC, XXXC, .., XX..X C,..)
(k-1)-veces
Se trata ahora de asignar probabilidades razonables a cada acontecimiento elemental. Tomemos el

caso general del suceso elemental asociado a k intentos, lo llamaremos Ag. Este suceso está
formado por la "tira" de k 1 cruces y la cara al final, es decir:
A ={ XX..X C}
(k-1)-veces
Como la moneda es legal, la probabilidad de este suceso es:

(k-1)-fact ores
Pk= P(Ak) = P({ XX..X C}) =

(k-1)-veces .-C)
2.2..2
k-fact or es
ya que el único caso favorable es el de obtener la sucesión de letras XX...X, C sobre un total de
(k-1)-veces
2* posibles tiras dek componentes C ó X.
Probemos que estas probabilidades están bien asignadas:
a) pla) = ()>0, Vi = 1,2, .., +oo
k=1 k=1
Estamos en presencia de una serie geométrica de razón q = la es convergente al valor 1.
En general, la serie geométrica de razón qconverge al valor si |lgl <1. En símbolos:
lal <1 k=1

=,
y la suma desde un valor j EN, j> 0:
Igl <1 =
k=j
* Ejemplo 3
Sea el ezperimento aleatorio E: "De una urna que contiene 5 cartones rotulados con los números
1, 2, 9, 4, 5, se ertrae un cartón con reposición hasta que se obtiene un número par". Se desea
hallar la probabilidad de que se requiera un número impar de intentos.
Si llamamos E al conjunto {2,4} (que será nuestro "erito"), un espacio muestra apropiado al
ezperimento es:
S= {E,EE, EEE, .., BE..E E,...)
(k-1)-veces
Primero debemos asignar probabilidades razonables a los sucesos elementales. Para ellos
consideraremos un suceso elemental genérico, el formado por la tira de k - 1 caracteres E seguido
de un caracter E, lo llamaremos Ak. Su probabilidad es:
(k-1)-factores
3.3.3 2
PA = P( EE..E E) =
(k-1)-veces 5.5..5
k-fact ores
De manera similar a lo probado en el ejemplo 1), tenemos que:

a) p(a:) = ) >0, Vi= 1,2,.., +oo
)atea)
k=1
= k=1
) 53
Con lo cual, las probabilidades asignadas son razonables. llamamos al suceso en cuestión,
su probabilidad se calculará como:
P) = i=2j, j¬N
G)-20-i2) j=1
* Ejemplo 4
Demostremos que un espacio de probabilidad infinito numerable no puede ser uniforme. Si ase
fuera, tendríamos que p(a;)=cdonde c es una constante no negativa y no superior ala unidad
(0<c< 1). Debería cumplirse que p(a;) =1 , pero esto no se verifica ya que:
i=1
c= +oo
i=l
Queda para el lector, realizar los siguientes ejercicios:

o Ejercicio 6
Seis personas hacen una apuesta la que será ganada por la primera que obtenga cara al tirar al
aire una moneda legal. Cada persona hace un tiro por turno, cuál es la probabilidad de que sea la
cuarta persona la que gane.
o Ejercicio 7
Tres jugadores A, B y C tiran, uno tras otro, un dardo en dirección a un blanco. El juego lo gana
aquél que dé primero en el centro del blanco. En cada lanzamiento, la probabilidad de que Agane
es i la que B gane, &: y la de que gane C, Demostrar que los tres jugadores tienen la
misma probabilidad de ganar.
8CAPITULO 4. ESPACIOS DE PROBABILIDAD. PROBABILIDA DCONDICIONAL E INDEPENDENCIA
4.1.3 Espacios de probabilidad infinitos no numerables

Definición 3
Son aquellos espacios muestrales S de cardinal infinito no numerable |S] = |R| = NË que tienen
medida geométrica 0 < m(S) < too (longitud, área, volúmen, etc.), y de los cuales se eztrae un
punto al azar ).
Si A es un suceso de S, entonces definimos la probabilidad de A como sigue:
m(A)
P(A) = m(S)
La medida m involucrada en esta definición es una función:
m
P(S) R
A m(A)
que cumple con las siguientes propiedades:
a) VAC S, m(A) > 0

b) m(0) =0
c) VA, BCSAANB= 0, m(AUB) = m(A) + m(B)
o Ejercicio 8 4/
Probar que la definición de probabilidad recién dada está bien planteada. Emplear las propiedades
de la medida m.
Veamos algunos ejemplos de aplicación:

* Ejemplo 5
Recordemos el caso planteado en la sección 3.3.3 del capítulo anterior. El erperimento aleatorio [
consiste en partir al azar una varilla de longitud L < +oo. Habíamos llamado z, al punto de
corte medido en un sistema de coordenadas lineal con origen en el ertremo izquierdo de la varilla.
En este caso el espacio muestra S = [0, L] tiene medida geométrica m(S) = long(S) = L < to.
Si pensamos en el suceso A: "El punto de corte está a la derecha de ", su probabilidad es:
P(A) =
m(4)
m(S)
long(A)
long(S) longk,5) -
En la definición ariomática de probabilidad, hicimos la observación que si un suceso tiene
probabilidad nula no implica que él sea un suceso imposible. Esto es, no es siempre cierta la
proposición:
P(B) = 0 B=0
Este es el momento para ver un contraejemplo, sea el suceso B: "El punto de corte coincide con
el punto medio"; la probabilidad del mismo es:
P(B) = MB)_ long(B) _ long((4)) Z0

m(S) L L
puesto que la longitud de un punto es cero (puede considerar como un intervalo cerrado con sus
eztremos iguales).
Por lo tanto, la probabilidad nula no implica la imposibilidad de ocurrencia de un suceso.
' Esto signifca que S debe ser uniforme, es decir si tomamos dos puntos cualesquiera de S, z1 # z? y sendos
entornos de igual radio Ne(z1), N(z2), se debe cumplir que P (N. (z1)) = P (N. (r2))
4.1. ESPACIOS DE PROBABILIDAD
* Ejemplo 6
Sea el eperimento aleatorio e también de la sección 3.3.3; en él, Luis arroja al azar un moneda
en una fuente circular de radio R. Suponiendo que efectivamente la moneda cae en la fuente, se
anotan las coordenadas del punto de impacto. Vimos que un S adecuado al erperimento es:
S= {(z,y) e R'/a+ysR}
La medida geométrica de este espacio es m(S) = Area(S) = TR?<+oo. Sean los sucesos:
A: "El punto de impacto está respecto al centro de la fuente, a una distancia menor ó igual que
".
B: "La moneda queda en el borde de la fuente".

Los mismos se muestran en la figua siguiente:
B
1 R
A
Estos sucesos, definidos por eztensión, son:
A= {(z,y) eS/ Vr+ys R.2 A B= {(2,y) ¬S/+y = R²}

Por lo que sus respectivas probabilidades son:
P(A) = Area(4)_ A P(B) =

Area(B) 0
Area(S) TR2 Area(S) R2
Tenemos aquí otro ejemplo de suceso que sin ser imposible, tiene probabilidad cero de ocurrir.
* Ejemplo 7
Sea ahora el erperimento ¬: "Extraer al azar un punto del intervalo real [0,1], otro del intervalo
(1,31 y anotar los valores obtenidos". Un espacio muestra adecuado al erperimento es:
S= {(z,y) e R² /0<sl, 1<y<3} A m(S) = Area(S) = 2
Consideremos los sucesos:
A: "El primer valor obtenido no supera al segundo".
B: "El producto de los valores obtenidos es mayor que 1".
C: "Elsegundo valor obtenido es el duplo del primero".
B
3
10CAPITULO 4. ESPACIOS DE PROBABILIDAD. PROBABILIDAD CONDICIONAL E INDEPENDENC
Como puede verse en el gráfico, los sucesos definidos por ertensión son:
A= {(2,y) e S/z >y-1) A B= {(z, y)¬ S/z.y >1} A C={(z,) ES/y=2z}

Por lo que sus respectivas probabilidades son:
Area(A)
P(A) = Area(S) -4-4
Area(B)
P(B) = =0.45
Area(S) 2
Area(C)
P(C)= Area(S) ,=0
Veamos a continuación algunos problemas clásicos en el manejo de espacios de probabilidad
infinitos no numerables.
" Problema 1: La paradoja de Bertrand

Se debe dibujar "al azar" una cuerda en un círculo D de radio Ry centro O. ¿Cuál es la proba
bilidad de que la longitud de ésta (L) sea mayor que la longitud del lado del triángulo inscripto en
el círculo (l= RV3)?.
Elconjunto de valores favorables de L será denotado por C, esto es:
C= {L/L> RV3}
Es de fundamental importancia dar sentido a la expresión cuerda dibujada al azar. Tenemos que
tener presente en primer lugar que, la distancia del lado del triángulo inscripto al centro del círculo
R
es . Analizando las figuras siguientes
M M
d
d
d=
tenemos que la longitud L puede determinarse por cada uno de las siguientes cantidades:
a) la distancia d de la cuerda al centro 0 del círculo D (d < R).
b) la posición de M, el punto medio de la cuerda. Podemos establecer que la longitud de una
cuerda pertenece al conjunto C si y sólo si su punto medio pertenece al círculo D' de centro O y
radio
c) el ángulo determinado por dos radios(<O<).
Sisuponemos que cualquier elección de estos tres caminos no implica que algunos valores tengan
preferencia frente a otros, los cálculos respectivos de probabilidad son:
a) P(C) = P(d< ) (4) 1
TR?
Area(D)_(4)*
b) P(C) = P(MED') = Area(D) TR?
c) P(C) = P(m<0<n) = - 1
Se observa que, según las condiciones planteadas en la hipótesis de cada camino, la solución al
problema cambia. La situación aparentemente paradójica se debe sólo al hecho que el problema
no está bien planteado, al no especificarse la naturaleza subyacente de la aleatoriedad.
" Problema 2: La experiencia del conde Buffon
Se dibujan en el plano R² líneas paralelas, distanciadas la cantidad 2u una de otra. Se deja caer
sobre este plano, una aguja de longitud 22 (e < d). Se desea calcular la probabilidad del suceso
E: "La aguja intersecta a una de las líneas dibujadas". La situación se esquematiza en el dibujo
adjunto:
2u
2u
Si llamamos d a la distancia entre el punto medio de la aguja y la línea paralela más cercana, y
8 al ángulo entre la dirección de la aguja y la dirección de la línea paralela, se tiene que estas
cantidades pueden tomar los valores 0 < <uy 0<o<m.
En base a estas observaciones podemos escribir el "conjunto favorable" y el "conjunto posible"
Como:
S= {(z,0) /0< <u A0<0<} y E={(2,0) /l sen}

según se puede ver en la siguiente figura:
l sen
Por lo tanto, la probabilid ad pedida es:
sen d
Area(E) 2
P(E) =
Area(S) TU
Como dato histórico, tenemos que el matemático Wolf, en 1850, hizo la experiencia 5000 veces
tomando 2u =45mmy 2l = 36mm, obteniendo la aproximación para el número = 3.159
" Problema 2: La experiencia del conde Buffon (generalizada)
En lugar de dejar caer la aguja, se deja caer un polígono convexo de n lados. Partiendo del supuesto
que el diámetro del polígono es menor que 2u, se desea calcular la probabilidad que el polígono
corte a una de las líneas paralelas.
2u
n
Llamemos 2l; a la longitud del lado i, el perímetro del polígono será 2L =)`2;. suceso en
i=l
cuestión es:
E: "Elpolígono intersecta a una línea paralela"

Entonces, denotando por E; al suceso El lado i-ésimo corta a una de las líneas paralelas", se
observa que si un lado intersecta a una paralela entonces otro lado también la intersecta, por lo
que E; =UE;U E,), y por lo tanto:
i#j
n 1 n
1
P(A) = P|JsnE)] -PBnE,)=PE; UE) =LP(EUE) = P(E)

i<j i#j i=1 j#i i=1
Por lo gue, usando el resultado del Problema anterior, se obtiene:
P(E)=24
2 Tu TTU
Es importante observar que el resultado no depende del número de lados n del polígono.
Para reforzar los conceptos involucrados en esta sección, se deja para el lector la resolución de
los siguientes ejercicios:
o Ejercicio 9
Considerar un segmento AB de longitud L < +oo. Se elige al azar un punto X del mismo. Hallar
la probabilidad de que el producto de la longitud de los segmentos AX y XB sea mayor que .
o Ejercicio 10
Sobre un segnento de longitud L< +oo se toman dos puntos al azar. Hallar la probabilidad de
que la distancia entre ellos sea mayor que -
o Ejercicio 11
Sobre una circunferencia de centro O, se dan al azar 3 puntos: X, Y, Z. Cuál es la probabilidad
de que el triángulo XYZ contenga el centro?.
4.1.4 Ejercicios Complementarios

o Ejercicio 12
Considerar conjunto A(nxn) formado por todas las matrices cuadradas de (n x n) (n fijo) y de
elementos 0,1,2,3. Sea el erperimento aleatorio e.: "Elegir al azar una matriz de este conjunto".
a) Escribir un espacio muestra apropiado al ezperimento y calcular su cardinal |S].
b) Calcular la probabilidad de los siguientes sucesos:
A: "La matriz elegida es triangular superior".
B: "La matriz seleccionada es simétrica".
C: "La matriz elegida tiene por lo menos dos elementos nulos.
D: "La matriz seleccionada tiene traza menor que 3n".
o Ejercicio 13
Una urna contiene 2 bolillas blancas y 3 negras. Un erperimento [ consiste en eztraer 2 bolillas
con reemplazamiento. Sean los sucesos:
A: la primera bolilla eztraída es blanca.
B: la segunda bolilla eztraída es blanca.
a) Escribir un S adecuado al erperimento y los sucesos A y B como subconjuntos de S.
b) Calcular P(A) y P(B).
c) Hallar la P(F) para i= 1, 2, .., 5 en función de P(A) y de P(B), para los siguientes sucesos:
F: se eztrae por lo menos una bolilla blanca.
Fz: ninguna bolilla eztraída es blanca.
F3: la primera bolilla eztraída es blanca y la segunda es negra.
F4: las dos bolillas son del mismo color.
Fs: se obtuvo eractamente una bolilla blanca.
o Ejercicio 14
Sean dos conjuntos finitos A y B tales que |A| = m, |B|= n. Se elige al azar un elemento del
conjunto de todas las funciones de A en B.
Calcular, agregando condiciones necesarias y suficientes sobre myn, la probabilidad de los sigu
ientes sucesos:
1) A ={f/f :A ’ B)
2) B = {SIf :A’ BA es inyectiva }
3)C= {fIf : A’ BA es biyectiva }
4) D= {SIf :A’ BA es sobreyectiva }, si |B| = 2
Nota: Se puede demostrar gue en general, la probabilidad pedida en 4), es:
P= k=1
nm
pero la demostración no es tan sencilla y no se pide hacerla aquí.

o Ejercicio 15
De una urna que contiene tarjetas con los números 0,1,2,9,4, 5, 6, 7,8,9 se ertraen tres de ellas de
una en una y con reposición. ¿Cuál es la probabilidad de que la terna eztraída (a, b, e) cumpla con
la condición que a +b+c sea un número impar?.
o Ejercicio 16
Una urna contienea bolillas blancas y b bolillas rojas. Si se sacan de esta urna m bolillas, encontrar
la probabilidad de que entre ellas haya eractamente r blancas y s rojas. Discutir los casos en que
las bolillas son eztraidas: de una en una, con reposición; de una en una sin reposición; las m
forman un grupo.
o Ejercicio 17
Un bebé distribuye un cierto número n de cubos en N cajas. Hallar la probabilidad de que una
determinada caja contenga eractamente h cubos. Escribir primero un espacio muestra adecuado y
asignar probabilidades razonables a los sucesos elementales.
o Ejercicio 18
Sea el plarno reticulado mostrado en la figura adjunta. Una persona parte del origen de coordenadas
(0, 0) y debe llegar al punto de coordenadas (m, n) avanzando una unidad hacia la derecha o unidad
a hacia arriba (no puede retroceder). Calcular la probabilidad de tiene de elegir el camino que pasa
por (0, n) ó el que pasa por (m, 0).
(0, n (m, n)
(0, 0 (m, 0)
o Ejercicio 19
En un depósito hay una gran cantidad de artículos, cada uno de ellos puede ser defectuoso (D) ó
no defectuoso (D).
Se sabe que la probabilidad de que un artículo elegido al azar sea defectuoso es p, con 0 <Kp<1.
Sea el erperimento aleatorio ¬: "elegir al azar y con sustitución n (n> 1) artículos del depósito y
observar su condición".
a) Escribir un muestra S adecuado al erperimento y calcular |S|.
b) Asignar una kak:lidod onahlea cada acontecimiento elementaly justificar que en general
S no es un espacio de probabilidad uniforme.
c) Calcular la probabilidad de que en las n ertracciones se observen por lo menos 2 artículos
defectuosos. Hacerlo por el modo directoy por el complemento, verificando que ambos resultados
coinciden.
o Ejercicio 20
Sea el erperimento aleatorio [: "lanzar al azar 2 monedas legales hasta que se obtienen dos caras".
a) Escribir un espacio muestral S adecuado al erperimento e indicar el |S|.
b) Asignar una probabilidad razonable a cada acontecimiento elemental.
c) Calcular probabilidad de que se precisen no más de cuatro intentos.
o Ejercicio 21
Se tienen 3 dados. Uno está cargado de manera que la probabilidad de que salga 5 es el doble de la
que salga cualquiera de los otros números. El segundo dado tiene tres caras con el número 5y tres
con el número 2. El tercer dado es legal. Se lanzan los tres dados a la vez, hasta que se obliene
una "pierna" de 5.
a) Escribir un espacio muestra S adecuado al ezperimento y hallar su cardinal.
b) Asignar una probabilidad razonable a cada acontecimiento elemental. Es un espacio de proba
bilidad uniforme?.
c) Calcular la probabilidad de que se necesiten ezactamente 4 tiros.
d) Hallar la probabilidad de gue se necesiten al menos 3 tiros.
e) Calcular la probabilidad de que se necesite un número par de intentos.
o Ejercicio 22
Supongamos tener un mazo de cartas francesas (52 cartas en total, 13 cartas distintas de cada uno
de los palos , &, , 9).
Sea el erperimento aleatorio [: "eztraer tres cartas de una en una y sin reposición, observando
si salió la sucesión l4, 2, 9. Si no es así, se devuelven las cartas al mazo, repitiendo el
ezperimento tantas veces como sea necesario hasta que la mencionada sucesión se observe".
a) Escribir un espacio muestra S adecuado al erperimento y justificar que es infinito numerable.
b) Asignar una probabilidad razonable a cada suceso elemental de S.
c) Hallar la probabilidad de tener érito a lo sumo en la cuarta prueba.
o Ejercicio 23
Un móvil se desplaza sobre una circunferencia de radio r con centro en el origen de coordenadas
(X,Y), pudiéndose detener en cualquier punto de ésta. El sentido de giro es el contrario al de las
agujas de un reloj. Sea el ezperimento aleatorio [ consistente en observar el punto de detenimiento
del móvil.
a) Escribir un espacio muestra S adecuado al erperimento e indicar |S].
b) Cuál es la probabilidad de que el movil se detenga en el primer cuadrante?.
c) Cuál es la probabilidad de gue se detenga en algún punto del arco AB de ángulo central a ?.
o Ejercicio 24
Considerar en el plano el reticulado con puntos de coordenadas pares. Se arroja una moneda de
diámetro 1. Hallar la probabilidad de que ésta cubra a un punto.
o Ejercicio 25
Calificar a las siguientes proposiciones como verdadera ó flsa. Justificar el calificativo dado.
Sea S = [o, 10]el espacio muestral asociado al eperimento de generar aleatoriamente un número
real entre 0 y 10.
i) P(QnS) < P(S). ii) P(ZnS) = m) P((0, 10]/{5})) = 1.

16CAPITULO 4. ESPACIOS DE PROBABILIDAD. PROBABILIDAD CONDICIONAL EINDEPENDENC
4.2 Probabilidad condicional

Extraído del baúl de los gratos recuerdos: Los caprichosos rituales de aquella tribu sacri
ficarian a los dioses, a dos de los tres prisioneros. El más ansioso de los cautivos, por no decir el
más cobarde, tras ruegos y sobornos logró sonsacar al centinela, que uno de sus compañeros sería
sacrificado. Su alegría por la noticia ertrañó al quardia: "Por qué tan contento, si tu chance de
morir mañana no ha cambiado por lo que te dije?". "De ningún modo, contestó el hombrecillo,
antes mi probabilidad de morir era de 0.66 y ahora es 0.50". (Este ejemplo nos muestra cómo en
ciertos momentos difíciles, la reducción del espacio muestral puede hacernos felices).
4.2.1 Distribución bivariada de frecuencias

Definición 4 Partición de un conjunto
Sea S un conjunto no vací, la familia de subconjuntos de S, {A1, A2, ..., A,} constituye una
partición de S si y sólo si:
1) A; #0 Vi=1,2, ., n
2) A, n Aj =0 Vij
9)U4, =S
Esto es, tenemos un sistema de sucesos no vacíos (condición 1), mutuamente ercluyentes (condición
2) y ezhaustivo (condición 3).
Consideremos un experimento aleatorioEy Sun espacio muestra finito uniforme S asociado
a él, de este espacio se extrae un elemento al azar; sean {A;} y {B;}:-1dos particiones de este
espacio. Estas particiones están asociadas a dos características medidas sobre los elementos de
S, por ejemplo altura y peso de un grupo de personas del cual se selecciona una persona al azar.
Entonces, podemos representar al S particionado como:
B
A
A2
B
A3
B,
B
Ar
B,
La cantidad de puntos muestra s E S que satisfacen los atributos A, y B; simultáneamente será

denotada por nij = n(A; n B;). Así, podemos representar la situación de doble partición de S en
una tabla de doble entrada como la siguiente:
4.2. PROBABILIDAD CONDICIONAL 17
B B1 B2 B; B,
A
Aj n12 n1j
A2 n22
A nË1 nËs
A, n2
Esta tabla es la representación matricial de la doble partición a la que hemos sometido al espacio
muestra S.
El número de elementos que cumplen el atributo A; es n(A;) = ) j = ni, Vi= 1,..,.

j=1
El número de elermentos que cumplen el atributo B, es n(B;) =) nij = nj, j=1,..,.s.

i=1
Por lo que : n i j =n=n(S)

i=1 j=1
Damos a continuación las siguientes definiciones:
Definición 5 Probabilidad conjunta

Es la probabilidad de que el elemento elegido al azar cumpla con el atributo A; y el B;, y se calcula
como:
P(A;n B,) = 4;n B}) hij

n(S)
Definición 6 Probabilidad marginal
Es la probabilidad de que, al eztraer un elemento al azar de S, éste cumpla con un atributo en
particular. Tenemos dos posibilidades, que cumpla el atributo A; ó el atributo B;, y las respectivas
probabilidades son:
P(4,) = (A) j=1

Vi=1,2, .., r
n(S) n
n(B;) i=l
P(B;) =n(S) = " , j = 1,2, ...s
18CAPÍTULO 4. ESPACIOS DE PROBABILIDAD. PROBABILIDAD CONDICIONAL E INDEPENDENC
Definición 7 Probabilidad condicional

Es la probabilidad de que un elemento ertraído al azar de S, cumpla uno de los atributos de una de
las particiones dado que cumple primero un atributo de la otra partición. Se presentan dos casos:
nij P(A; n B,)

P(A;/B})= nej
P(B})
n
nË
P(A; n B,)
P(B}/A:)= ij nie
P(A;)
n
La primera de estas probabilidades se lee "probabilidad de A; dado B," y la segunda, "proba

bilidad de B; dado A;"; y están bien definidas ya que en ambos casos el denominador no nulo
puesto que A, #0y B, #9 según la definición de partición.
La primera igualdad se conoce con el nombre de cálculo de la probabilidad condicional "por re
ducción del espacio muestra", dado que limitamos los n elementos totales a los que pertenecen a
B; 6 a A; según corresponda. La parte final de la igualdad nos presenta el cálculo de esta proba
bilidad como cociente entre dos probabilidades calculadas en base al espacio muestra S completo
(sin reducir).
Veamos ahora un ejemplo de aplicación:
* Ejemplo 8
En una comisión de trabajo, de una sociedad salteña de ayuda al discapacitado, formada por 60
personas se ha procedido a agruparlas por sero y según el número de cuadras de sus respectivas
casas a la sede central. Se supone que esto permitirá una mejor distribución de tareas entre sus
miembros. Por sezo, tenemos dos grupos: Masculino (M) y Femenino (F); según la distancia en
cuadras, se tienen 5 grupos: hasta 10 (D), más de 10 y hasta 20 (D2), más de 20 y hasta 30
(D3), más de 30 y hasta 50 (D4), y más de 50 (Ds). El resultado se muestra en la siguiente tabla:
DË D2 Da D4 D5
F 10 5 13 8
M 7 4 2 3
Si se elige un miembro al azar de esta comisión, cuál es la probabilidad que éste:

a) sea de sero femenino?.
b) sea de sero masculino y viva en un radio de más 20 y hasta 30 cuadras, de la sede central?.
c) dado que es de sero femenino, viva a más de 20 cuadras y hasta 30 de la sede ?.
d) dado que es de sezo masculino, viva a más de 30 cuadras?.
Solución:
a) es la probabilidad marginal P(F) = 10+5+4+13+8 =.
b) es la probabilidad conjunta P(Mn D3) = Ñ =

P(D3 nF) 4
c) es la probabilidad condicional P(Ds/F) = P(E) 4010
d) es la probabilidad condicional P[(D4 UDs)/M], y como los D; son mutuamente ercluyentes,
tenemos que:
P[(D4 UDs)/M] = P(D4/M) + P(Ds/M) = P(Dn M), P(Ds nM)

2 3
P(M) P(M) 20 20
Notar que en c) y d), podemos hacer el cálculo tanto con el espacio muestra original como en el
espacio muestra reducido.
4.2. PROBABILIDAD CONDICIONAL 19
4.2.2 Probabilidad condicional axiomática

Definición 8
Sea un erperimento aleatorio ¬ y un espacio muestra S asociado a él. Sean A, BE W = P(S)

tales que P(A) #0, definimos probabilidad de B condicionada a A ó probabilidad de B dado que
A ocurrió, al número real:
P(AN B)
P(BJA) =
P(A)
La probabilidad así definida está midiendo la proporción de veces que ocurre B entre las que ocurrió
el suceso A.
* Ejemplo 9
Sea el erperimento aleatorio ¬: "lanzar un dado legal dos veces". Calcular las sigquientes probabil
idades:
a) que la suma de los puntos obtenidos sea 5 dado que se obtuvo eractamente un as.
b) que la suma de los puntos obtenidos sea par dado que sale por lo menos un 4.
Primero escribimos un espacio muestral adecuado al erperimento, por ejemplo:
S= {(1,)/z, y= 1, 2, 3, 4, 5, 6}, con |S| = 36

Si definimos los sucesOs:
A: "aparece eractamente un as
B: la suma de los puntos es 5"
C: "aparece por lo menos un 4"
D: la suma de los puntos es par
se tiene que: P(A) = P(An B) = , P(C) = y P(Cn D) = Vpor lo tanto las
probabilidades pedidas son:
a) P(BJA) P(AN B) 36 2
A 6) P(D/C) =
P(CA D) 36
5
11
P(A) 10
3
10 P(C)
Notemos que también pudimos haberlas calculado reduciendo convenientemente el espacio muestra,
por ejemplo en a) si condicionamos los pares posibles a aquellos que contienen eractamente un as,
nos quedan sólo 10 que cumplen esta condición; y de ellos hay dos que cumplen la propiedad de
que la suma de las componentes es 5 (los pares (1,4) y (4,1)). De manera análoga para el caso b).
La probabilidad condicional así definida satisface todos los axiomas de la definición axiomática
de probabilidad, esto es:
"1) VA, BEW| P(A) #0, P(B|A) >0

"2) VA E W /P(A) #0, P(S/A) = 1
"3) VA, B, CE W| P(A) #0 A BnC=0 P[(BU C)/A] = P(B/A) + P(C/A)
También se verifica la extensión del axioma 3):
" 3') A, B1, B2,.., Bk,... E W A B;n B; =0, Vi#j A P(A)#0 ’
La demostración de estas proposiciones queda como ejercicio para el lector.

En la definición de probabilidad condicional es interesante comparar numéricamente las probabil
idades P(B/A) y P(B) mediante el análisis siguiente:
20CAPrTULO 4. ESPACIOS DE PROBABILIDAD. PROBABILIDAD CONDICIONAL E INDEPENDENC
B
B
1) 2) 3) 4)
En 1) tenemos que: P(B/A) = 0< P(B), dado que es imposible que el suceso B ocurra si A
sucedió (son mutuamente excluyentes).
En 2) se cumple que: P(BJA) = = BA =1> P(B), dado que si ocurrió Aes seguro que
ocurre (todo elemento de A es un elemento de B).
En 3) se tiene que: P(BJA) = P(A) = P(A) > P(B), ya que 0< P(A) < 1.
En 4) es imposible hacer cualquier comparación, dependerá de cada caso en particular.
4.3 Independencia de sucesos

Estuvimos manejando hasta ahora el concepto de sucesos mutuamente excluyentes en el sentido
que no pueden suceder simultáneamente. Este es un concepto puramente conjuntista.
Introduciremos alhora un nuevo concepto formulado desde un punto de vista probabilístico que es
muy útil en muchas situaciones concretas.
Definición 9
Sucesos Independientes
Dos sucesos A y B de un espacio muestra S se llaman independientes si y sólo si se verifica
que: P(AN B) = P(A).P(B)
* Ejemplo 10
Sea el erperimento aleatorio [ de lanzar dos dados legales una vez y anotar los números obtenidos.
Se consideran los sucesos:
A: "Sale un as en el primer dado" B:"Sale un as en el segundo dado"

G: "Sale exactamente un 6 D: "Sale un 3 en el segundo dado
Luego,
A y Bson independientes ya que: P(An B) ===P(A).P(B)

CyD no son independientes ya que: P(Cn D) = * = P(C).P(D)
Conceptualmente, el hecho que dos sucesos sean independientes significa que la ocurrencia de
uno de ellos no condiciona la ocurrencia del otro, y en consecuencia podría suceder sólo uno de
ellos, los dos simultáneamente o ninguno de los dos.
Se desprende de esto que si dos sucesos A y B son independientes, también lo son sus complementos
Ay B, y un directo con el complemento del otro. En base a ello, podemos formular los siguientes:
Teorema 1
Si dos sucesos A y B son independientes, P(A) >0y P(B) > 0, entonces:
P(A/B) = P(A) A P(B/A) = P(B)
4.3. INDEPENDENCIA DE SUCESOS 21
Demostración:
Si P(B) >0y Ay Bson independientes, entonces P(AJB) = P(AN B) P(A),P(B) = P(A).
P(B) P(B)
La otra igualdad es análoga.
Teorema 2
Si dos sucesos A y B son independientes, entonces se verifica que:
1) A y B son independientes.
2) Ay B son independientes.
3) A yB son independientes.
Demostración:
Veamos el item 1); escribiendo la unión disjunta A= (AnB) U(AN B), se tiene:
P(AnB) = P(A) P(AN B) = P(A) P(A).P(B) = P(A).(1 P(B)) = P(A).P(B)
los dos ítems restantes se dejan como ejercicio para el lector.
Podemos extender la definición de independencia para el caso de 3 sucesos, como sigue:
Definición 10
Tres sucesos A, B yC de un espacio muestra S son independientes si y sólo si se cumplen:
1) P(An B) = P(A).P(B)
2) P(AnC) = P(A).P(C)
9) P(BnC) = P(B).P(C)
4) P(AnBnC) = P(A).P(B). P(C)
Notemos que una condición necesaria es que los sucesos deben ser independientes de a pares.
Esta condición no siempre es suficiente para garantizar independencia de los 3 sucesos, esto se
demuestra mediante el siguiente contraejemplo:
* Ejemplo 11
Una caja contiene 4 banderas: 1 roja, 1 amarilla, 1 verde y 1 de Bolivia. Se considera el erperi
mento aleatorio [ de elegir al azar una bandera de dicha caja, y se definen los siguientes sucesos:
R: "Sale una bandera roja" , A: "Sale una bandera amarilla"

V: "Sale una bandera verde", B:"Sale la bandera de Bolivia"
Veamos que los sucesos R, A y V no son independientes aunque sí lo son de a pares:
P(RNA)= ! 1 P(R).P(A)
1 1
P(RAV) = =;=P(R). P(V)
1
P(VOA) =i-;;=P().P(A)
sin embargo:
1
P(RN AnV) =;#;;=
22 2 P(R),P(A).P(V)
lo cual demuestra nuestra afirmación.
La definición de independencia para una colección de n sucesos {A,} de un espacio muestra
S se enuncia como sigue:
Definición 11
Los sucesos A1, A2,..,A, son independientes si y sólo si:
1) P(Ai,nAi,..nAi)= P(Ai,).P(Ai,)..P(Ai), V{i, i2,i} c {1,2,.., n} At=2, 3, ., n.
n
2)
o Ejercicio 26
Demostrar que las siguientes ezpresiones son verdaderas, siendo A1, Az,.., A, sucesos indepen
dientes de un espacio muestra S:
1) P(AjA Ag) = P(A|) + P(A2) - 2P(A1).P(Az)
or@)--(a)
que resulta ser muy conveniente para el cálculo en el caso particular en que P(A;) = p,
Vi=1,..., n, tomando la forma particular:
P(A; UAg UAn) = 1- (1-p)"
9) )La desigualdad de Bonjerroni toma la forma: I|P(4:) >1-(EP (A)) i=l
Una consecuencia inmediata de la definición de probabilidad condicional es:

& Teorema 3: Teorema de la multiplicación
Si A y B son sucesos de S tales que P(A)#0, entonces:
P(ANB)= P(A).P(B/A)
Demostración:
Si P(A) 0, entonces por definición P(B|A) = , Luego, despejando de esta igualdad la
P(A)
probabilidad de la intersección de A con B, se tiene la tesis.
El teorema puede generalizarse a una colección finita de sucesos A1, A2, ..., A, de sucesos de S,
Como:
PA).PUAs/A,) PAs/A, n4)..P4a) k=l
siempre y cuando las respectivas probabilidades condicionales existan. La demostración puede

hacerse por Inducción Matemática completa.
* Ejemplo 12
Una urna contiene 7 bolas blancas, 9 negras y 5 verdes (distinguibles). Se ertrae una bola al azar
y se la deja de lado, y luego se extrae otra. Cuál es la probabilidad que:
a) la primera sea verde y la segunda blanca?.
b) ambas sean negras?.
c) si se ertrae una tercera bola, sin reponer la segunda, las dos últimas sean verdes?.
Solución:
Si denotamos con V, B y NË los sucesos que identifican la aparición de una bola verde, blanca y
negra respectivamente en la eztracción i-ésima, tenemnos que:
a) P(Vn B2) =P(i).P(Ba/V)=i:6.

b) P(N n N2) = P(Ni).P(N2/N1) = o
c) la primera bola extraída puede ser de cualquier color, entonces si llamam0s H al suceso en
cuestión, tenemos:
P(H) = P(V).P(Va/V).P(Vs/Vn)+ PM).P(V./N).P(V,/N, n V)

+P(B1).P(Va/Bi).P(Vs/B, n Va)
5 4 3 9 5 4, 7 5 4
21 20 19 T 21 20 19 21 20 19
Observación:
Cuando los sucesos A1, A2,.., A, son independientes, el teorema de la multiplicación toma clara
mente la forma:
P(na)-PA PAJA), P(A/A, nAj)..a(

a)-[P4) k=l i=1
* Ejemplo 13
Un dado trucado es tal que, la probabilidad de obtener un as es 0.4: y otro, también trucado,
tiene probabilidad de obtener de mostrar as de 0.3. Si se lanzan los dos dados al azar, calcular la
probabilidad de obtener dos ases, dado que por lo menos uno de ellos mostró un as.
Solución:
Definimos los sucesos:
Aj : "El 1° dado muestra un as" A2 : "El 2° dado muestra un as"
Estos son independientes, entonces la probabilidad pedida se calcula como:
P[(A1nA2)/(A UAz)] = P[(A, N A,) n(A, UA)) P(A,

P(ANAz)
UA2)
P(A; UAz)
P(A).P(Az) 0.4 x 0.3
0.4+0.3-0.4 x03U.15
P(A1) + P(A2) - P(Ai).P(A2)
* Ejemplo 14
Dos ciudades, C1 y C2, están unidas por dos caminos como se muestra en la siguiente figura:
B B
C Cz
B3 B
cada camino tiene dos puentes que pueden estar o no levantados independientemente unos de
otros. La probabilidad de que cada uno de ellos está levantado 10-3, Calcular la probabilidad
que tiene un automovilista, que parte de C1, de legar a C si elige al azar uno de los caminos
disponibles.
Solución: Definimos los sucesos Bib : "El puente i-ésimo está bajado", entonces la probabilidad
pedida se calcula como:
P(B16 n B28) + P(Bso nBAb) = P(Bb).P(Bas) + P(Bsb) .P (Bab) = 2. (1- 10-3)

* Ejemplo 15
Una urna contiene 5 bolas azules y 6 verdes. Una persona realiza el erperimento aleatorio [ de
ertraer de esta urna, un grupo 4 bolas; y luego realiza 100 repeticiones independientes de este
ezperimento. Se desea calcular la probabilidad que tiene persona de haber obtenido un grupo con
eractamente 2 bolas azules (lo llamaremos "ézito") en por lo menos 60 de las repeticiones de [.
Solución:
Primero calculamos probabilidad de obtener un grupo con eractamente 2 bolas azules en una
realización del erperimento ¬, ella es:
p= ()0) 11
4 )
Si definimos ahora el suceso A;: "se observa i veces un grupo con eractamente 2 bolas azules",
con i= 0, 1,..,100, la probabilidad del mismo es:
P(A:) =()4-0-4
ya que, por ejemplo si el "érito" se observara en las primeras i repeticiones de E, debido a la
independencia entre prueba y prueba la probabilidad de este fenómeno sería p.(1-p)100-i, Pero los
iéritos podrían haberse obseruado en cualquier orden, por ello debemos multiplicar esta probabilidad
por el número de formas de elegir los i lugares entre los 100 disponibles, yeste número es
Por último, si llamamos H al suceso del problema, la probabilidad del mismo es:
100 100
100
P(H) = P(A:) = i p'.(1- p)l00 -
i=60 i=60
Este tipo de erperimento, donde se presentan dos posibilidades en cada repetición: "érito" ó "fra
caso", recibe el nombre de dicotómico ó experiencia binomial y una formalización más pro
funda será expuesta en el capítulo correspondiente a variables aleatorias discretas especiales.
* Ejemplo 16
En un gran depósito de vigas de una misma especie, se sabe que el 2% de las mismas tienen algún
defecto. Se desea averiguar el número mínimo de vigas que un operario debe seleccionar a fin de
tener una probabilidad de al menos 0.95, de observar una viga sin defectos.
Solución:
Si definimos los sucesos:
H:"Hay por lo menos 1 viga buena entre las n" , G: "No hay ninguna viga buena entre las n"
Entonces, dado que G el complemento de H, se tiene que P(H) = 1- P(G). Además como el
depósito contiene un gran número de vigas, cuando se inspeccionan las n vigas, queda garantizada
la independencia entre observaciones aunque no haya reemplazamiento.
Definimos además los sucesos:
VB,: a viga inspeccionada en la eztracción i-ésima es buena"

y con ellos podemos erpresar la igualdad probabilistica anterior como:
P(VB, U
VB, U...U VB,) = 1- P(VB,n VB,n...n VB,)
= 1- P(VB,).P(V8)..P(VE,) =1-(PVB:)
= 1-(0.02)" > 0.95 ’n > log0.05
log 0.02
0.764
Con lo cual tiene sentido lógico que el operario seleccione un número mínimo de I viga para estar
dentro de la probabilidad pedida (podria Ud. erplicar por qué?).
Un hecho importante hasta aquí es que dado un experimento aleatorio ¬ y un espacio de prob
abilidad asociado a él: (S,p), podemos, bajo ciertas condiciones, calcular probabilidades condi
cionales conociendo las probabilidades de los sucesos de S. Resulta muchas veces interesante
calcular la probabilidad de un suceso B de S, teniendo como datos ciertas probabilidades condi
cionales asociadas con B. Este procedimiento se formaliza en el siguiente:
A Teorema 4
Teorema de la Probabilidad Total
Sea un etperimento aleatorio [ y un espacio muestra S asociado a él. Sea {A1, A2, ..., A,} una
partición de S, esto es:
1) A; #0 Vi=1,2,.., n
2) A, n A, = 0 Vij
9) JA, =s
i=1
Consideremos además un suceso B de S, cualquiera con P(B) #0, entonces la probabilidad de
éste puede ser calculada como:
P(B) = k=l
P(A:).P(B/A.)
Demostración:
Podemos visualizar la situación en el siguiente diagrama:
A, An
A2 A4
S
Notemos que B puede no tener intersección con algún miembro de la partición.

Este dibujo nos habilita a pensar en B particionado en tantos subconjuntos disjuntos como miem
bros de la partición que tengan intersección no vacía con él (podemos "armar" a B uniendo estas
piezas, a manera de un rompecabezas). Con esta idea podemos expresar:
n
D=sn8-(Üa)na= Uun)
resultando ésta una unión disjunta, dado que los miembros de la partición son disjuntos dos a dos,
esto es: (A; n B) n(A; n B) = 0, Vi#j.
Luego,
P(B) =
(Üuna)- PAna)
pero, por otro lado,Vk =1,..,n, P(ANB) = P(A7).P(B/Ak) por el teorema de la multiplicación.
De ésta última observación concluímos la tesis:
P(B)=TP(A:).P(B/A)
k=l
* Ejemplo 17
Para trasladarse al centro, un estudiante de la Universidad Nacional de Salta que vive en la zona
Sur de la ciudad puede tomar cualquiera de las 5 lineas de colectivos que pasan por la avenida
principal de su barrio. De allí deberá tomar una segunda línea, entre 2 posibles, hasta el campus
universitario (pero esta etapa no representa dificultad para él, debido a que no eristen problemas
con las frecuencias de éstas). Llamemos L1,L2, L3, L4 y Ls a las líneas de la primera etapa. Se
sabe que tomando cada una de ellas tiene probabilidades de llegar atrasado al centro de: 0.2, 0.1,
0.13, 0.15 y 0.35 respectivamente y probabilidades: 0.1, 0.2, 0.3, 0.25 y 0.25 respectivamente, de
tomar cada una de las líneas. Si elige una línea al azar, cuál es la probabilidad que tiene de llegar
a tiempo (B) al centro de la ciudad?.
La situación puede esquematizarse mediante un diagrama de Venn como:
L
La
B
L2 Ls
Entonces, mediante la aplicación del Teorema de la probabilidad total tenemos que:
P(B) = )P(LA).P(B|L&) = 0.1 x 0.8+0.2 x 0.9+0.3 x 0.87 + 0.25 x 0.85 +0.25 x 0.65 = 0.896
k=l
Es de mucha utilidad cuando se ha obervado un fenómeno en particular, poder medir la prob
abilidad que tiene otro fenómeno de haberlo provocado. Por ejemplo, si se sabe que como posibles
"causas" de un descenso brusco de temperatura están: aumento de humedad relativa ambiente,
incremento en la velocidad de los vientos y cambios en los centro de presión, habiendo observado el
fenómeno de descenso brusco de temperatura, cuál será la probabilidad de que lo haya provocado
un incremento en la velocidad de los vientos?. La constestación a esta pregunta puede hacerse
mediante la siguiente formulación matemática:
& Teorema 5
Teorema de Bayes ó de las causas"
Sea un erperimento aleatorio e y un espacio muestra S asociado a él. Sea {A1, Az, ., An} una
partición de S y B un suceso de S, cualquiera con P(B) # 0, entonces dado que B ocurrió
(consecuencia), la probabilidad de que la "causa" de ello haya sido la ocurrencia del suceso A,
puede ser calculada como:
P(A;/B) = P(A:). P(B/A:) , Vi=1,2, .., n

P(AR).P(B/Ak)
k=1
Demostración:
Se hace muy fácilmente basándonos en la definción de probabilidad condicional, el teorema de la
multiplicación y el de la probabilidad total como sigue:
P(A;/B) =Ah).PA).P(B/A:)_ P(A).P(B/A;) Vi=1,2, .., n
P(B) P(B)
Z P(A).P(B|A.)
k=1
Esta probabilidad mide la proporción de casos favorables a que A; haya sido la causa de la
ocurrencia de B frente a los casos posibles teniendo en cuenta todas las posibles causas.
Es muy útil en la mayoría de los casos prácticos, guiarse mediante la utilización de un diagrama
de árbol, tal como se muestra en el siguiente:
* Ejemplo 18
A la orilla del camino principal del viejo pueblo, Penélope espera que su amado regrese. En vez de
tejer ilusiones en vano, decide poner punto final a su larga espera. Pare ello, coloca en una bolsa 4
dados, uno de ellos es legal y, en cada uno de los otros tres, la probabilidad de obtener un número
primo en un lanzamiento es el doble de la de obtener cada uno de los otros números. Acto seguido,
eleqie un dado al azar de la bolsa y lo lanza tres veces; si obtiene tres ases, entonces esperará a su
amado un año más, de lo contrario se casará a la brevedad con otro joven.
a) Cuál es la probabilidad de que en casa de Penélope los invitados coman torta a la brevedad!.
b) Dado que Penélope tiene que esperar un año más a su amado, cuál es la probabilidad de que
haya elegido el dado legal?.
Solución:
Primero tengamos en cuenta que al elegir un dado al azar de la bolsa, tiene una probabilidad de
de que sea el legal (L) y una probabilidad de de que sea un dado cargado (C). Por otro lado, en
cada uno de los dados cargados, los números 2, 3 y 5 tiene el doble de probabilidad de salir que los
otros tres; esto significa que cada uno de los primos tiene probabilidad .
Cuando el dado fué elegido y Penélope lo lanza tres veces, se tiene que:
3
P({(U,1, 1))/2) =() AP{U,1)}/) =()

Para constestar a las preguntas formuladas nos podemos guiar con el siguiente diagrama de árbol:
(4)* ol(1, 1, 1)}
L
1- (4) (1,1, 1))

(1,1, 1))
1- (4) 1,1, 1))

Entonces, la probabilidad pedida en a) es:
P(l0.1:3) =PM,Pl0.1.9/)+PC) rU1IY/O- - ( - )

siguiendo los dos caminos que conducen al suceso {(1, 1, 1)}.
Para la pregunta b) utilizamos el Teorema de Bayes, erpresando:
P(L/{(1, 1, 1)}) = P(L).P({(1, 1, 1)}/L)

P(L).P({(1, 1,1)}/L) +P(C).P({(1, 1, 1)}/C) .()°+()
siguiendo los dos caminos que terminan en el suceso {(1, 1, 1)}.

o Ejercicio 27
Se formuló a una muestra de 500 salteños (según sus edades) la siguiente pregunta: A quién votará
Ud. para Presidente de la Argentina en las elecciones del prórimo mes de Mayo de 19959; las res
puestas se clasificaron en la siguiente tabla de doble entrada:
Bordón Menem Massacceci Otros No sabe

18-20 100 30 35 5 30
21-25 55 20 12 10
26-35 16 28 10
36 6 mmás 47 29 15 7 8
Se pide calcular la probabilidad de que al seleccionar un individuo al azar:

i) tenga entre 26 y 35 años, y vaya a votar a Bordón.
ii) tenga preferencia por el actual presidente.
iii) no sepa aún por quién votar ótenga 36 ómás años.
iv) dado que tiene entre 21 y 25 años, vaya a votar a Massacceci. (hacerlo de dos formas distintas).
" Ejercicio 28
Sea el erperimento aleatorio [ de eztraer de una baraja francesa sin reposición y al azar, 4 cartas.
Se pide encontrar la probabilidad de que:
i) las 4 cartas sean del mismo palo.
iü) la Ira. y la 3ra. sean del mismo palo.
iii) dado que todas son del mismo palo, la 1ra. y la 2da. sean un 5y un 7 respectivamente.
iv) Repetir los incisos anteriores pero haciendo eztracciones con reposición.
o Ejercicio 29
Para el erperimento aleatorio e, de lanzar 4 dados y 3 monedas legales, se pide hallar:
i) la probabilidad de que aparezcan eractamente dos ases y a lo sumo dos caras.
ii) la probabilidad de que, dado que aparecen eractamente dos ases y ya lo sumo dos caras, la
suma de los puntos obtenidos en los dados sea menor que 6 y haya eractamente una cara.
" Ejercicio 30
a) Sean A y B dos sucesos de un espacio muestralS tales que P(A) = 0.4, P(AU B) = 0.7. Si
P(B) = p,
" i) para qué valor de p, A y B son mutuamente ercluyentes?.
" ii)para qué valor de p, A y B son independientes ?.
b) Sean A y Bdos sucesos de un espacio muestral S tales que: P(A/B) = }, P(B|A) = y

P(An B) =
Determinar si las siguientes proposiciones son verdaderas ó falsas, justificando el calificativo:
"i) A y B son mutuamente ercluyentes.
" ii)A y B son independientes.
" iii) A CB
" iv) P(A) + P(B) = .
o Ejercicio 31
Se tienen dos sucesos A y B independientes tales que la probabilidad de que ambos ocurran
y la de que no ocurra ninguno de los dos,. Cuál es el valor de P(A) y de P(B) ?.
o Ejercicio 32
Los boletos de ómnibus de una ciudad tienen cuatro números: u, v, w, z. Es igualmente probable
que cada uno de estos números sea cualquiera de los digitos 0,1,2,...,9 y los cuatro números se
seleccionan independientemente. Se dará un premio a los pasajeros cuyos boletos cumplan con la
condición u + v= w+ z. Qué probabilidad tiene un pasajero que usa esa línea de obtener un
premio?.
o Ejercicio 33
Considerar el siguiente erperimento aleatorio [: "una persona distribuye al azar n estampillas
distintas entre niños".
a) Escribir un espacio muestra S en el que se asignen "niños a las estampillas" y calcular el
cardinal |S.
b) Hallar la probabilidad de que el último niño tenga ezactamente r estampilllas (0 <r< n).
c) Definimos los sucesos:
A: "el último niño tiene exactamente 2 estampillas" y B: "el primer niño tiene eractamente 2
estampillas".
Demostrar que:
n-2
(2).2r-)
P(B/A) = 3(n-2)
o Ejercicio 34
Analizar las siguientes proposiciones y decir si son verdaderas ó falsas, siendo A yB sucesos de
un espacio muestral S:
i) P(A/B) = P(A) #AyBson independientes.
ii) A, B yC son independientes A, By Cson independientes de a pares.
iii) A =0ABCS+Ay B son independientes.
iv) AnB = 0+ Ay B no son independientes.
u) P(A/B) =1BCA.
o Ejercicio 35
Sea el ezperimento aleatorio [: eztraer al azar n puntos del intervalo real [0, 1].
i) Sin = 5, hallar la probabilidad de que a lo sumo cuatro de ellos queden a derecha de
iü) Cuánto debe valer n de modo que la probabilidad de que por lo menos uno de ellos tenga un
valor superior a , sea por lo menos del 85%?.
" Ejercicio 36
a) Alrepartir al azar 4 objetos distintos entre 3 personas, hallar la probabilidad de que, dado que
hay una persona sin objetos, otra los tenga a todos.
b) Una urna contienea bolas blarncas yb rojas. Se eligern al azar m bolas, calcular la probabilidad
de obtener eractamente r blancas y s rojas para los casos de ertracciones en sucesión con y sin
reposición respectivamente. Utilizar el Teorema de la Multiplicación.
o Ejercicio 37
El problema del sorte0: Durante una reunión de n amigos (todos ellos son muy malos perdedores)
se procede a sortear entre los asistentes, un viaje a las Islas Griegas. Para ello, se introducen en un
urna 365 papeles cada uno de los cuales está impreso con un día del año (todos son distintos). Se
eztrae al azar uno de los papeles y gana la persona que haya nacido en la fecha impresa en el papel.
Hallar la probabilidad de que salga el fechado con el 16 de Abril y en la sala haya dos personas
con esa fecha de nacimiento (originándose de este modo uno de los conflictos más grandes en la
historia de la Humanidad).
o Ejercicio 38
Se repite el erperimento [ de partir al azar y en dos pedazos una varilla de longitud L, 20 veces
en forma independiente (suponer que L < o). En cada repetición, se consideran tres tipos de
"cortes",
tipo H: el punto de corte está a la izquierda del 1er. cuarto de la longitud total.
tipo J: el punto de corte está entre el ler cuarto de L y el punto medio.
tipo K: el punto de corte está a la derecha del punto medio.
i) Hallar la probabilidad de hacer 12 cortes de tipo H, 2 de tipo J y 6 de tipo K.
ii) Hallar la probabilidad de hacer al menos un corte de tipo J.
o Ejercicio 39
Se escogen al azar 2 puntos del intervalo real [0, 1] C R.. Se define el espacio muestra
S= {(,v) ER/0< z,y< 1} = [0, 1] x (0, 1]

y se consideran los sucesos:
Aj ={(z,v) ES/y > z+}} A, = {(z, y) ¬ S|z² +y<}

Ag ={(2,v) ES/z >} A, = {(z, v) e S/y<z?+1
A_ = {(z, v) ¬ S/z = )
Se pide hallar:
i) P(A1/A,) ü) P(As/A4)
i) P(As/A1) iv) P(Aa/As)
o Ejercicio 40
En una muy fría noche de invierno, 3 parejas de amigos A, B y C, se encuentran reunidos alrededor
de una fogata. Para pasarla mejor, deciden jugar al siguiente pasatiempo: por turno y por pareja,
cada uno de los miembros elige un punto al azar del intervalo real [0, m]. El juego es ganado por
aquella pareja que saque primero por lo menos un número mayor que 5.
a) Demostrar que la probabilidad de que gane una pareja cualquiera en la primera ronda es .
b) Calcular la probabilidad de que la pareja B gane el juego completo.
o Ejercicio 41
Tres jugadores Ji, J, y Js participan del siguiente juego: en el orden mencionado seleccionan al
azar dos puntos z ey tales que 0<r<3y-2sy<0. Gana el juego el primero que obtenga los
puntos z, y tales que distancia entre ellos es mayor que 3. Cuál es la probabilidad que tiene Jz
de ganar?.
o Ejercicio 42
(El Dilema de Perseo). Perseo debe rescatar la bella Andrómeda, prisionera en una caverna
cuyo acceso se encuentra bloqueado con rocas. El problema es que hay tres cavernas idénticas:
una de ellas aloja a Andrómeda y en cada una de las otras dos se oculta una gorgona, monstruo
legendario con poder para petrificar a los intrusos con sólo una mirada. Perseo consulta a Pegasa
(la urraca mítica) quien manifesta saber en cuál caverna se encuentra Andrómeda, pero no le es
permitido revelar el secreto so pena de terrible castigo por parte de los dioses; sin embargo, puede
ayudar a Perseo. Este dice que, a su parecer, Andrómeda está en la cueva del centro. Pegasa
informa entonces que en la de la izquierda hay una gorgona. Aquí se presenta el dilema: aumentan
las posibilidades de Perseo de acertar con la caverna correcta si toma en cuenta la revelación de
Pegasa y modifica su apreciación inicial?.
o Ejercicio 43
a) Un suceso A tiene probabilidad de ocurrirp. Cuál es la probabilidad de que el suceso mencionado
ocurra al menos una vez en n repeticiones independientes del erperimento?.
b) Mostrar que si p= yn es suficientemente gande (es decir, n -’ o), esta probabilidad es
aprorimadamente 0.692
o Ejercicio 44
Un analista de una empresa manufacturera estima que la probabilidad de que una empresa competi
dora tenga planes para comenzar a fabricar equipo nuevo en los prórimos tres meses es del 30%. Si
la empresa de la competencia sí tiene esos planes, definitivamente se construirá una nueva insta
lación fabril. Si la empresa de la competencia no tiene esos planes, eriste aún una probabilidad del
60% de que se construya la nueva instalación fabril por otras razones. Suponga que se observa que
la empresa de la competencia ha comenzado a trabajar en la nueva fábrica. Con esta información,
cuál es la probabilidad de que la empresa haya decidido ingresar al campo del nuevo equipo?.
o Ejercicio 45
Un dado ilegal está cargado de modo que la probabilidad de obtener un número par es el doble de
la de obtener un impar. Se lanza este dado una vez; si sale un número par, de una urna con 3
bolillas rojas y 2 verdes, se ertrae una bolilla al azar y se anota su color; si sale un número impar,
de otra urna con 2 bolillas rojas y 5 verdes, se ertrae una al azar y se observa su color.
i) Cuál es la probabilidad de que la bolilla eztraída sea verde?.
ii) Dado que la bolilla eztraida es verde, cuál es la probabilidad de haber obtenido con el dado un
número impar?.
o Ejercicio 46
En la Universidad de Marte, el 50% de los estudiantes graduados tiene su propio vehículo espacial,
mientras que sólo es propietario el 30% de los estudiantes de los cursos superiores y el 15% de los
de los cursos inferiores. Si la Universidad tiene 4321 graduados, 545 alumnos de cursos superiores
y 549 marcianos en cursos inferiores. Hallar la probabilidad:
i)de que un estudiante elegido al azar tenga vehículo espacial.
i) de que un estudiante propietario de un vehículo espacial, elegido al azar, sea graduado.
o Ejercicio 47
Juan es conocido como un hombre no muy honesto, de hecho, el 10% de las veces utiliza una
moneda con dos caras ( en el 90% restante utiliza una moneda correcta). En una oportunidad, al
hacer 10 lanzamientos, todos resultaron cara. Cuál es la probabilidad de que Juan estuviera usando
la moneda ilegal?.
o Ejercicio 48
Un análisis tiene efectividad del 95% para detectar el Mal de Chagas (con lo cual se quiere decir
que la probabilidad de que de positivo si hay Mal de Chagas, vale 0.95), y la probabilidad de que
de un resultado negativo cuando no hay Chagas es también 0.95. Se sabe que aprozimadamente el
10% de la población de Argentina padece del mencionado mal. Cuál es la probabilidad de que un
individuo de la población, seleccionado al azar, tenga Mal de Chagas si el resultado del análisis dió
negativo ?.
32CAPÍTULO 4. ESPACIOS DE PROBABILIDAD. PROBABILIDAD CONDICIONAL E INDEPENDENC
o Ejercicio 49
Una persona puede, en su sistema de T. V por cable, sintonizar 15 canales. Se sabe que, entre ellos
hay 3 de deportes, 7 de información general y 5 de películas. Se sabe también que, cuando sintoniza
un canal de deportes, la probabilidad de quedarse dormido es un tercio de la probabilidad de quedarse
dormido cuando mira un canal de información general y, la mitad de la correspondiente al caso de
mirar un canal de películas. Molesto por no poder dormirse, se levanta en la mitad de la noche,
enciende el televisor, sintoniza al azar un canal y observa el programa que se está transmitiendo,
instantes después se queda dormido. Cuál es la probabilidad de que haya sintonizado un canal de
películas ?.
o Ejercicio 50
Una caja A contiene 9 cartas numeradas de 1 a 9, y otra caja B contiene 5 cartas numeradas de
I a 5. Se toma una caja al azar y se saca una carta; si la carta indica número par, se saca otra
carta de la mismna caja; si la carta es de número impar, se saca una carta de la otra caja.
i) Cuál es la probabilidad de que ambas cartas muestren números pares?.
iü) Siambas cartas muestran números pares, cuál es la probabilidad de que procedan de la caja A?.
o Ejercicio 51
Se tienen n +l urnas numeradas con 0,1,..., Tn, cada una con n bolillas. En la i-ésima urna, ide
las bolillas son blancas y las restantes n-i son azules. Se elige una urna al azar y de ella se eztrae
una bolilla al azar.
i)Cuál es la probabilidad de que la bolilla eztraida sea blanca?.
ii) Dado que es blanca, cuál es la probabilidad de que haya sido eztraida de la i-ésima urna?.
o Ejercicio 52
Una máquina produce en serie cierto tipo de piezas que son ubicadas al azar en cajas que contienen
1200 unidades. La erperiencia ha anotado los siguientes resultados: (X indica el porcentaje de
piezas defectuosas en la caja e Y la proporción de cajas que contienen este porcentaje)
X 2 5 6
Y 0.780 0.170 0.034 0.009 0.005 0.002 | 0.000
Se considera aceptable una caja que contiene el 2% o menos de piezas defectuosas. El objeto de
la inspección es rechazar aquellas que tienen un porcentaje de defectuosas mayor que el 2%. La
inspección normal consiste en el ezamen de 50 piezas de cada caja. Una caja inspeccionada dió 6
piezas defectuosas. Demostrar que la probabilidad de que esta caja contenga 2% de defectuosas y
sea rechazable se puede erpresar mediante:
5
5 LP(AN).P(B|A*)
k=3
5
k=3
P(AN).P(B|A:)
k=0
donde:
A: "una caja contiene ezactamente i% de defectuosas".
B: "al inspeccionar 50 piezas de una caja, resultan 6 defectuosas"
y además:
1200- 12i
44
P(B|A;) = 1200
50
Bibliografia
[1] Enzo Gentile, Análisis Combinatorio ly II, Revista de Educación Matemática, Vol. 2.3 (1986)
y 3.1 (1987), Fa.M.A.F., Córdoba.
[2] Orlando J. Avila Blas, Combinatoria , Notas de teoría, Probabilidades y Estadística. Departa
mento de Matemática. Facultad Cs. Exactas. U.N.Sa, 1998.
[3] Orlando J. Avila Blas, Espacio muestra y Probabilidad , Notas de teoría, Probabilidades y
Estadística. Departamento de Matemática. Facultad Cs. Exactas. U.N.Sa, 1997.
(5] Paul L. Meyer, Probabilidades y Aplicaciones Estadisticas, Fondo Educativo Interamericano,
1986.
[6] William Mendenhall-Richard L. Scheaffer-Denis D. Wackerly, Estadística Matemática con Apli

[7 Ralph P. Grimaldi, Matemáticas discreta combinatoria, Addison-Wesley Iberoamericana,
1989.
[8] Ricardo Maronna, Probabilidad y Estadística Elementales para estudiantes de Ciencias, Edito
rial Exacta, 1995.
33
Contenido
5 Variables Aleatorias Undimensionales 3

5.1 Introducción
5.2 Variable aleatoria unidimensional 3
5.2.1 Clasificación de las variables aleatorias 5
5.3 Variable aleatoria unidimensional discreta 6
5.4 Variable aleatoria unidimensional continua 14
1
Capítulo 5
Variables Aleatorias
Undimensionales
5.1 Introducción
Hemos visto en los dos capítulos anteriores que al realizar un experimento aleatorio [ en general
podemos obtener resultados que no son numéricos; por ejemplo si lanzamos una moneda legal una
vez, un posible espacio muestra es el conjunto S= {c, z}.
Nosotros hemos sido entrenados en las materias previas para trabajar con formulaciones numéricas
(recordar que hemos estudiados límites, derivadas, integrales, espacios vectoriales, transformaciones
lineales, y mucho más), por lo que nos resultaría más fácil poder describir los fenómenos aleatorios
mediante estructuras matemáticas. En este sentido, poder definir una estructura como la que
estudiaremos a continuación nos permitirá conectar el experimento aleatorio en sí con un mundo
lógico formal.
5.2 Variable aleatoria unidimensional

Definición 1
Sea un ezperimento aleatorio [ y un espacio muestra S asociado a él. Se llana variable aleatoria
unidimensional a toda función X con dominio el espacio muestra Se imagen el conjunto R tal
que la preimagen de cualquier subconjunto de R es un suceso de S. En símbolos erpresamos:
X : S R | YAÇR, X-'(A) EP(S)
X(s)
Recordar que el conjunto preimagen de A se define en este contexto como:
X-(A) = {sE S/ X(9) ¬A}

Una generalización de la definición anterior considera poder tomar como imagen el espacio euclídeo
R",en tal situación la función X recibe el nombre de variable aleatoria n-dimensional. En
símbolos:
X: S R" = Rx Rx....x R / VAC R", X-(A) E P(S)
n-factores
X(s)
En esta situación, X(s) es una n-upla de valores reales (*1,2, ..., In), por lo que la variable en
cuestión puede ser pensada como un vector aleatorio de n componentes (X1, X2, .., Xn)de modo
que:
VsES, X(s) = (X1(s), X2(s), ..., Xa(s)) = (z1,2, ., )
3
4 CAPITULO 5. VARIABLES ALEATORIAS UNDIMENSIONALES
Notación:
Para un rE R fijo, emplearemos la simbologia "X =' a fin de representar el suceso

S. = {s E S/X($) = ), es decir el conjunto formado por todos los puntos muestra de S que
tiene por imagen al valor z. En palabras X = " se lee "la variable aleatoria X toma el valor
particular r". A los fines prácticos usaremos la notación S, para indicar el conjunto X =r"
Gráficamente podemos representar la situación como sigue:
S
X
z= X(s)
De este modo "vivimos" en dos mundos paralelos: S y Ry tratamos de hallar el fenómenos

equivalente en a un fenómeno observado en S. El modo de "transportarnos" entre los dos
mundos es la función variable aleatoria.
Definición 2 Recorrido de una variable aleatoria
Si X es una variable aleatoria, se llama recorrido de la misma al conjunto de valores posibles
que ella puede tomar. En este sentido el recorrido es la imagen de X como función de S en R y
será denotado como Rec(X).
Posteriormente clasificaremos a las variables aleatorias de acuerdo al cardinal de su recorrido.
* Ejemplo 1
Sea el erperimento aleatorio e de lanzar dos dados legales una vez. Definimos la variable aleatoria:
X: "Número de ases obtenidos"
Definir un espacio muestra S apropiado al erperimento y estudiar esta variable como una función
de S en R especificando el recorrido de la misma.
Solución:
Podemos tomar como espacio muestra al conjunto:
S= {(z,v) /z,y = 1,2,3,4, 5,6} con S =36
Podemos definir los siguientes sucesos de S:
Ao = {(z,y) E S/z#1 ^y#1} ("no sale ningún as")

A, = {(,v) ¬ S/(z =1^y# 1) v (z #1Ay= 1)}("sale exactamente un as")
Az = {(z,y) ¬ S/z= 1Ay= 1} ("salen dos ases")
Entonces, claramente se tiene que:
,y) EAo, X((z, v)) = 0
Vo,y)E A1, X((*,y)) = 1
V(z,y) ¬ Ag, X((*,v)) = 2
y con ello quedan cubiertas todas las asignaciones posibles puesto que A, UA1U Ag = S, con
lo que el conjunto de valores posibles de X es Rec(X) = {0, 1, 2}.
5.2. VARIABLE ALEATORIA UNIDIMENSIONAL 5
Esquemáticamente podemos representar esta situación como sigue:
S
X
0
Ag (z, y) "
A, 1
(z,y) -
+2
A2 (z,y
R
por otro lado, se verifican también las siguientes proposiciones referidas a preimágenes de subcon
juntos de R.:
X-({0}) = {(z,y) ¬ S/X(2, y)) = 0} = Ao ES

X-({1}) = {(z,y) ¬ S| X(4, y)) = 1} = A, ÇS
X-({2}) = {(z, y) ¬ S| X( ,y)) = 2} = A, CS
X-(4}}) = {(z, y) ¬S/ X((z,y)) = } =0cs
X-({r) ={(z,y) ¬ S| X(z, v))=n}=0cs
X-((-oo, -1)) = {(*, v) E S/ X(z, v))¬ (-o, -1)} = 0cS
X-((0,2)= {(2, y) ES/ X((2, v)) ¬(0,2|} =SCs
X-(R) = {(z,y) ES/ X( , v))¬R} = S ÇS
Observamos que al calcular preimágenes asociadas a valores del recorrido de X, inducimos sobre
el espacio muestra una partición; en este ejemplo, formada por Ao, A1 y Az
5.2.1 Clasificación de las variables aleatorias

En función del cardinal del conjunto Rec(X) podemos dar la siguiente clasificación:
Si (Rec(Xx)|=n< o, decimos que X es discreta finita.
Si JRec(Xx)| = |N|= No, decimos que X es discreta infinita ó infinita numerable.
" Si |Rec(X)| = |R| = N1, decimos que X es continua.
Cuando una variable cumple alguno de los dos primneros casos, se dice que es una variable aleatoria
discreta, esto es, toma un número finito ó infinito numerable de valores posibles.
Una cuarta clasificación contempla el caso en que una variable sea discreta en un subconjunto de
puntos de su recorrido y continua en el complemento de este conjunto, en tal caso se habla de
una variable aleatoria mixta. Nosotros no las estudiaremos en este curso pero es un interesante
complemento leer al respecto en la bibliografia recomendada, puesto que en muchos casos prácticos
de la vida real se presenta esta situación.
5.3 Variable aleatoria unidimensional discreta

Para este tipo de variables podemos definir una función muy importante relacionada con el cálculo
de probabilidades en el espacio muestra asociado:
Definición 3 Función de masa de probabilidad ó cuantía
Sea X una variable aleatoria unidimensional discreta, entonces la función de masa de probabilidad
ó cuantía de la misma es una función con dominio e imagen iguales al conjunto R definida por el
siguiente esquema:
p : R R
p() = P(X = z) = P({s E S/X(s) = })
la cual satisface la siguientes propiedades:
1) p() >0, VrER
2) > p(z) = 1, donde T = (z E Rec(X) /p() > 0} (Notar gue no siempre T= Rec(X)).
3) VACR, P(A) = ) p()

zE(AnT)
Podemos comprobar que las propiedades que cumple la función de cuantía p() tienen sentido,
de la siguiente manera:
1) Claramente, p(z) = P(X = z) >0, VzER por la definición misma de la función probabilidad
2) En este punto tenemos que pensar al espacio muestra S como una unión disjunta de sucesos
S. = X-(z), uno por cada z E R; muchos de ellos tendrán probabilidad cero de ocurrir por
ser iguales a Ø. Además estos sucesos son disjuntos dos a dos debido a que p es una función y
elementos iguales del donimio no pueden tener imágenes distintas. Esto nos permite escribir:
z¬T
ae)- Px =)= P(S) =P(U&) -P(Us) = P(S) =1
r¬T \z T \zeR
3) Consideraciones análogas al punto anterior nos permiten escribir:
vAÇR, P4) =pe) = z¬(AnT) z¬(ANT)

PS) =P\ze(AnT)Us)=P(Us) =P4)\zEA
Notación: Es frecuente emplear los símbolos X~ p(z)para indicar que la variable aleatoria X
"se distribuye" con función de cuantía p(z). Se empleará esta notación a lo largo del curso.
* Ejemplo 2
En el ejemplo recién estudiado de lanzar dos dados legales y contar el número de ases obtenido,
calcular la función de cuantía de la variable aleatoria X y representar gráfcamente la situación.
Solución:
Teniendo en cuenta que Rec(X) = {0,1,2), la función de cuantía p(z) puede tomar los sigu
ientes valores:
p(0) = P(X = 0) = P({(2,y) ¬ S/X(2, y)) = 0}) = P(Ao) =

p(1) = P(X = 1)= P({, y) ¬ S/X(=, y))= 1}) = P(A1) =
p(2) = P(X =2) = P({(2, y) ¬ S/X(=, y)) = 2}) = P(A2) =
Vre (R-Rec(X)),p(r) = P(X = r) = P({(e,y) ¬S/ X(=, )) =r}) = P(0) =0
5.3. VARIABLE ALEATORIA UNIDIMENSIONAL DISCRETA 7
por lo que la cuantía de X puede expresarse como:
6 para z = 0
6 para z = 1
p(z) =
para z=2
0 en C.o0.C
Las siglas "c.o.c" significan "en cualquier otro caso" y hace referencia a cualquier valor de X
que no pertenezca al conjunto Rec(X). Desde luego que, los valores de p(z) son no negativos y
suman la unidad. Notemos además que el conjunto de valores de la variable donde la cuantía es
estrictamente positiva es T = {0, 1,2) = Rec(X).
Gráficamente podemos representar la cuantía de X en un esquema como el siguiente:
S
X
0
Ao (z,y) "
10
A, 36
(z, y)
An (,y)
36
R. R.
La función de cuantía p(¢) también puede ser representada en un sistema de ejes cartesianos
mediante el llamado "diagrama de bastones", que consiste en dibujar en el punto z un segmento
verticar de altura igual a p(z). Para nuestro ejemplo, obtenemos:
P(=)
1 2
Podemos calcular además, la probabilidad de subconjuntos de R tales como:

RË = {r,2/3, 2) , R, = (-0, -0.003) Ra = (0, +oo)
para los que se tiene:

1
P(R)) = P({r, .2) = ple) =p(2) = 36 donde H = {r, 2/3, 2) nT = {2}
P(R2) = P((-o, -0.003]) = P(0) =0

P(Rs) = P(j0, +oo)) = P(S) = 1
En muchos de los casos de variables aleatorias que estudiaremos a lo largo del curso se puede
expresar la función p(z) por medio de una fórmula, como por ejemplo en el siguiente.
* Ejemplo 3
Consideremos el ejemplo 4) de la sección 3.5.1:
Sea el erperimento aleatorio ¬: "De una urna con bolillas numeradas con 1, 2, 3, 4, 5, se eztraen n
bolillas con reposición, anotando el número obtenido en cada extracción".
Se define la variable aleatoria
X: número de 4" que aparecen en las n ertracciones
a) Determinar la función de cuantía de X y representarla gráficamente.
b) Calcular la probabilidad de que X > 2.
Solución:
a) Un espacio muestra adecuado al experimento es:
S= {(z1, T2, .., In) /z; = 1,2, 3, 4, 5,Vi =1,2,..,n}

El número de elementos de S en este ejemplo es n(S) = |S =5x 5 x... x 5=|5=5" < o.
n-fact ores i=1
Se ve fácilmente que X puede tomar cualquier valor entero comprendido entre 0 y n ambos inclusive,
por lo que Rec(X) = {0,1,2,.., n}.
Para un zE R fijo, definimos el suceso:
S,: "Aparecen ezactamente z números 4 en las n extracciones"
Entonces, se verifica que:
S, = {(zi, T2, .., Zn) ¬ S/la n-upla contiene exactamente r componentes "4"}, si z ¬ Rec(X)
S, =0, si z E (R- Rec(X))
Debermos entonces que hallar P(S,) para los valores posibles de X, para ello procedemos como
sigue:
Elnúmero de formas de tener exactamente z componentes 4, se consigue eligiendo primero los z
lugares de entre los n posibles, esto se puede hacer de formas distintas; en cada uno de
ellos tenemos que ubicar los 4, esto se puede hacer de 1 formas; y por último en los n - z lugares
restantes ubicamos los números distintos de 4, esto se puede hacer de 4n- formas. Por lo tanto,
PS)-(:)())
Para los z que no pertenezcan al recorrido de X, S, =0 por lo que la cuantía en dichos puntos es
nula. Podemos entonces expresar la función p(z) como:
para z =0,1,2, ..., n

p(¢) =
en C.0.C
5.3. VARIABLE ALEATORIAUNIDIMENSIONAL DISCRETA 9
Podemos verificar que esta función cumple con las propiedades de una cuantía:
1) zE R, p(z) >0 es cierto ya que:
>0 A Vee (R- Rec(X)), p(z) =0

2)
r¬T t=0
La gráfica de la función depende del valor de n, por ejemplo si tomamos n=5 la misma tiene la
forma:
P(z)
0.41
0.33
0.204
0.05
0 1 2 3 4 5
b) Haciendo uso de la función de cuantía hallada podemos calcular probabilidad pedida

COmo:
P(X > 2) =l-P(X <1) =1-p(0) -p(1) = 1-() ) )-() n.4n-1

O
=
1-(9) 5
* Ejemplo 4
Supongamos que el mismo ejemplo recién tratado es modificado como sigue: [: "De una urna con
bolillas numeradas con 1,2,3, 4, 5, se eztraen bolillas con reposición, anotando el número obtenido
en cada eztracción, hasta que sale por primera vez el número 4".
Definimos ahora la variable aleatoria
X:número de intentos hasta que sale el "
a) Determinar la función de cuantía de X y representarla gráficamente.
b) Calcular la probabilidad de que se necesiten más de 3 intentos.
Solución:
a) Si denotamos con A al hecho de salir un 4 en un intento (érito), un espacio muestra adecuado
al experimento es:
S= {A, AA, AAA, AAAA,.., AA4A,..}

k-fracas os
Podemos poner cada elemento de S en correspondencia biunívoca con los números naturales, por
lo que escribimos |S] = |N| = No.
De este modo, X puede tomar cualquier valor natural por lo que Rec(X) = {1, 2,.., k,.}=N.
Ahora, para un z E R fijo, definimos el suceso:
S-: "Se requiere eractamente z intentos para obtener un 4"

S, ={s E S/las primeras z -lcomponentes de la tira son "A}, si z ¬ Rec(X)
S, =0, si z ¬ (R- Rec(X))
Tenemos ahora que hallar P(S.) para los valores posibles de X, para ello procedemos teniendo en
cuenta que, dado que las extracciones son independientes podemos escribir:
P(S.) = P{ 43A = P( P(A) =

\(z-1)-fracas o (z-1)-fact or es
Para los z que no pertenezcan al recorrido de X,S, =0por lo que la cuantíaen dichos puntos es
nula. Podemos entonces expresar la función p(z) como:
para z =1,2, ..., k, ...
p(*) =
0 en c.O.C
1) VrE R, p(*) >0 es cierto ya que:
VzE Rec(X), p(=) = A VzE (R- Rec(X), p(z) =0
2)
r=l
La gráfica de la función tiene un comportamiento decreciente como se muestra a continuación:

4P(¢)
0.2
0.16
0.13|
0.1
0.08
0 2 3 4 5
b) Haciendo uso de la función de cuantía hallada podemos calcular la probabilidad pedida como
()° 16
PX 23) = () )-¿E) r=3 r=3
En muchas ocasiones resulta necesario calcular probabilidades de la forma P(a < X<b),
P(asX<b), P(a< X<b), P(a<X <b) ó P(X<0), con a, beR. Este cálculo involucra una
función que tiene un papel muy importante en Teoría de las distribuciones y es la que se define a
continuación:
5.3. VARIABLE ALEATORIAUNIDIMENSIONAL DISCRETA 11
Definición 4 Función de Distribución acumulativa

Sea X una variable aleatoria unidimensional discreta, se llama función de distribución acumulativa
de X a la caracterizada por el siguiente esquema:
F: R R
F(z) =P(X <=) = P({s ES/X(9) <*) = p(u)

El nombre de "acumulativa" proviene del hecho que, fjado z debemos sumar (o acumular) todos
los valores de cuantía asociados a valores de X menores o iguales a z.
Queda claro, a partir de esta definición, que:
Vze R, P(X > z) = 1 - P(X < z) = 1- F() A P(X > z) = 1-F(r) +p()
Esta función cumple con algunas propiedades interesantes, muchas de las cuales son comunes con
el caso continuo que veremos enseguida.
Teorema 1
Si X es una variable aleatoria discreta con función de distribución acumulativa F(), entonces:
F es no decreciente (crecienteo constante): Va1, ¬R, z1 < I2, ’ F(z1) < F(*2)
2) F es continua por derecha: lim F(z) = F(.)
3) Va, bER, P(a< X<b) = F(6) F(a)
4) lim_ F(*) = F(-oo) =0 A lim F(¢) = F(too) =1
5) Ve, E R, P(X < zo) = lim F(2)
6) Vz, E R, P(X = zo) = F(z.) - lim F(z)
Demostración: queda como ejercicio para el lector. Para 4) y 5), ver sugerencia al final de la
sección.
Corolario 1
Si X es una variable aleatoria discreta con función de cuantia p(z) y función de distribución
acumulativa F(), entonces:
1) Va, bE R, P(a<X< b) = F(b) F(a) +p(a)
2) Va, be R, P(a < X<b) = F(6) F(a) + p(a) -p(b)
3) Va, bE R, P(a< X<i) = F(6) F(a) - p(b)
Demostración:
1) Pensamos al conjunto en cuestión como la unión disjunta siguiente:

{asX<b) = {a< X<6}U{X =a), con que se verifica
P({as X b})= P({a<X<b}) +P({X = «})= F(6) F(a) +p(a)
2) Escribimos fa < X < b}u{X = b} = {a < X< b) y dado que esta unión es disjunta y
usando lo probado en 1), tenemos:
P({as X <6}) +P({X = b}) = P({a< X < B}) = F(0) - F(a) +p(a) y por lo tanto
P({a< X < 6}) = F(6) F(a) +p(a) - p(B)
3) Escribimos {a < X < 6}U{X = a}u{X = b} = {a <X<b}, como esta unión también es
disjunta se obtiene:
P{a< X<b}) +P({X =a}) +P({X = b}) = P({as X<0}) = F(0) - F(a) +pla) y
entonces:
P({a< X<}) = F(0) - F(a) +p(a) - pla) - p()= F(b) F(a) - p(0)
* Ejemplo 5
Habíamos calculado para la situación planteada en el Ejemplo 1, la función de cuantía de la variable
aletoria X: "número de ases obtenidos". Se pide calcular la función de distribución acumulativa
de X y graficarla. Luego, calcular las probabilidades siguientes:
) P(X< ) ii) P(0 <X<1) ii) P(0< X<1)
iu) P(0sX< 1) v) P(0 <X<1) vi) P(X > 1)
Solución:
Recorriendo el eje real de izquierda a derecha, podemos expresar:
Ve<0, P(X<z) = p(u)=0=0
25
Va/0<z<l, P(X s)=p(u) =p(0) =8
35
Yz/1<z<2, P(X < z) = p(u) =p(0) + p(1) =6
Ve>2, P(X<=) = } p(u) = p(0) +p(1) +p(2) = 1
por lo que la función de distribución acumulativa se puede escribir como:
para z <0
para 0 <z <1

F(z) = P(X< z) = para 1 <z<2
para z > 2
y la representación gráfica de la misma es:

F(z)
1
35
36
0 1 2
por otro lado, las probabilidades pedidas se computan como sigue:

P(X<) = F(}) =
P(0< XS1) =F(1) -F(0) =-=
P(0< X <1)= F(1) - F(0) +p(0) =+
5.3. VARIABLE ALEATORIA UNIDIMENSIONAL DISCRETA 13
P(0< X< 1) = F(1) - F(0) +p(0) - p(1) = +- =

P(0< X<1) =F(1) - F(0) P(1)= -=0
P(X > 1) =1- P(X<1) =1- F(0) = 1-=
" Sugerencia para la demostración de los items 4) y 5) del Teorema 1: se debe tener en cuenta
las siguientes propiedades:
Sea A1, A2,... una sucesión infinita de sucesos tales que A, C Az C , Entonces se demuestra
que
= lim P(An)
n+oo
para ello se considera la sucesión BË = A1, B, = AfA2, B3= A{A^As, ... y se comprueba que
PUa)-P(B), para n=1,2..

1=1
y tambié¿n que
-(Üa)-a)
Además es cierta la siguiente cadena de igualdades
= lim. = lim P(An)

\i=1
Para un z ER fjo, estas propiedades nos permiten demostrar los citados items considerando una
sucesión creciente zË <z2 < .. de números tales que lim In =yteniendo en cuenta que
n’oo
{x<a)=J{x <en)
i=1
5.4 Variable aleatoria unidimensional continua

La definición formal de este tipo de variable depende de la existencia una función a valores reales
muy particular que nos permitirácalcular probabilidades asociadas a X.
Definición 5
Una variable aleatoria unidimensional X se llama continua si eriste una función f : R’ R,
denominada función de densidad de probabilidad que satisface las siguientes condiciones:
1)f() > 0, VzER
f(z) dz =l
) YAÇ R, PA) =|, 1)da A
En particular si A= fa<X<6}, P(A) = f(r) dz

La condición 2) indica que el área total limitada por la curva de la función f y el eje real debe
ser igual a la unidad.
La condición 3) expresa que la probabilidad de un suceso A de la recta real, es numéricamente
igual al área bajo la curva de la densidad f limitada a la región A. Estas situaciones se muestran
en el siguiente gráfico correspondiente a una función de densidad genérica:
+f(z)
Area total=1
P(A)=Area rayada
0 A
Notación: Es frecuente emplear los símbolos X ~ f(z) para indicar que la variable aleatoria X
"'se distribuye" con función de densidad f(z). Nosotros emplearemos esta notación a lo largo del
presente curso.
Nota: la función de densidad f no necesariamente debe ser una función continua. En el caso
de ser discontinua, podrá tener a lo sumo un número finito de discontinuidades. (') En este
sentido por ejemplo, la siguiente función no podrá ser una densidad (I representa el conjnto de
los números irracionales):
f(z) = 0
para z ¬[0,1] nI
para z E 0, 1]n Q
ya que resulta discontinua en una cantidad numerable de valores de z (Se puede demostrar que
[0, 1] n Q es un conjunto numerable).
Por otro lado, en nuestro curso no siempre será posible deducir la función f para una variable
X continua dada. Muchas veces será un dato inherente al problema.
l En la densidad genérica representada arriba, f presenta una discontinuidad en el punto zo.
5.4. VARIABLE ALEATORIA UNIDIMENSIONAL CONTINUA 15
* Ejemplo 6
El tiempo total medido en unidades de 100 horas, que una persona mira televisión en el periodo de
1año es una variable aleatoria continua X cuya función de densidad viene dada por:
para 0 <I<1
para 1 <z<a
0 en c.0.C.
a) Determinar el valor de la constante a.

b) Calcular la probabilidad de que la persona mire por lo menos 150 horas de televisión en un año
e interpretar este número en la gráfica de la función f.
Solución:
a) A partir de la definición def,se tiene que f(æ) >0, VzER ya que:
1) VzE (-oo, 0] U[a, +oo), f(z)=0’f() >0
2) Vze (0, a), f(z) >0+fz) >0, esto tiene sentido sólo si a> 1.
Por otro lado, el área total bajo la curva de f (en particular limitada a los valores de z entre
0 y a) debe ser igual a la unidad. Esto significa que:
f(z) dz = 0 dz
=;+e--a+;=1
de lo que se concluye que:
a(;-1) =0’a=0va=2
y tomamos finalmente el valor a = 2 ya que a debe ser positiva.
b) definimos el conjunto A = {z¬ R/z > 1.5}, la probabilidad solicitada se expresa como:
P(A) =P(X> 1.5) = rto sa) dz =J1.5 (2-z)dr =;

1.5
y representa el área bajo la curva de f limitada a los valores z > 1.5, esto puede verse en la gráfica
de la densidad que se muestra a continuación:
f(z)
P(X > 1.5) =
0 1 1.5 2
Observaciones respecto a la función de densidad

" La función de densidad de una variable aleatoria continua no representa una probabili
dad (podría incluso ser mayor que 1). Si esto fuera así, se tendría:
f(e) = P(X = z) = P( < X<a) = f)dt =0

lo cual implicaría que la función de densidad es constantemente nula y en consecuencia
f(z)dz =0, que viola la condición 2) en la definición de densidad. (Absurdo 9.
" La probabilidad de un suceso unitario de la recta real es siempre nula. Esto es, si A = {a} c R
entonces:
P(4) =P(X =) =P(a sXsa) = | f()dt =0

" Como consecuencia de lo anterior, se concluye que vale la cadena de igualdades:
P(a< X <b)= P(a <X<B) = P(a< X <b) = P(a <X< b)
esto se ve fácilmente a partir del corolario 1 del Teorema 1.
De igual manera a como se hizo para variables aleatorias discretas, en el caso continuo podemos
también definir la:
Definición 6 Función de Distribución acumulativa

Sea X una variable aleatoria unidimensional continua, se llama función de distribución acumula
tiva de X i la caracterizada por el siguiente esquema:
F : R. R
F(2) = P(X<a) =P({s e S/X(s) < }) = | f() dt

A partir de esta definición, se observa que:
VzER, P(X > ) =1- P(X<z) =1- F(z) ^ P(X > )=1- F(¢)
Esta función cumple con las siguientes propiedades, algunas de ellas son comunes con el caso
discreto.
Teorema 2
Si X es una variable aleatoria continua con función de distribución acumulativa F(z), entonces:
1) F es no decreciente (creciente o constante): I1, T2 ¬ R, zË < 2, + F(1) < F(*2)
2) F es continua en todo punto z, E R: lim F(z) = F(z.)
3) Va, bER, P(a< X< b) = F(6) F(a)

4) lim_ F(z) = F(-oo) = 0 lim F(¢) = F(+o) = 1
Demostración: queda como ejercicio para el lector.
Otro propiedad importante de esta función es la siguiente:
Teorema 3
Si X es una variable aleatoria continua con función de densidad f(z) y función de distribución
acumulativa F(z), entonces se verifica que f(z) = dz , en los puntos donde esta derivada
erista.

* Ejemplo 7
El tiempo de vida útil de ciertos componentes electrónicos (X), erpresado en horas, es una v.a.
continua con función de densidad dada por:
ae-D para z> 0, B> 0, a>0

en c.o.C
(La variable así definida recibe el nombre de exponencial y será estudiada más en detalle en
capítulos posteriores).
a) Determinar la relación eristente entre los parámetros a y B.
b) Calcular la probabilidad P(X> ).
c) Determinar la función de distribución acumulativa F() e interpretar la probabilidad anterior
en las gráficas de f yF.
d) Hallar el valor mediano de la distribución.
e) Comprobar que la función F cumple con las propiedades enunciadas anteriormente.
Solución:
a) Dado que la constante a es positiva, la condición de no negatividad de la función de densidad
se cumple.
Además la condición de área total igual a la unidad nos permite escribir:
e+oo
Qe-ß dz =
y entonces podemos reescribir la densidad como:
f(z) = e para z> 0, a > 0

en C.0.C
b) La probabilidad solicitada se calcula como:
PX2 )= ae-a dz= -ear | = -
c) La función F se calcula teniendo en cuenta que:
1) Ve<0, F() = P(X sz)=|J-o0 Odz = 0

2) Va>0, F(2) =P(XS e) = | f)dt =1- e-a*
y por lo tanto escribimos:
para z<0
para z >0, a >0
La probabilidad calculada en el item b) coincide numéricamente con el área bajo la curva de f que
queda a la derecha del valor y con la longitud del segmento paralelo al eje de las ordenadas, de
extremo inferior en el punto z = y extremo superior el punto de corte de la recta z = y la
curva de la función F. Estas situaciones se muestran en el siguiente par de gráficas:
18 CAPÍTULO 5. VARIABLES ALEATORIAS UNDIMENSIONALES
f) F(z)
P(X > ) =e P(X > )
P(X < )
0 0
Notar que la probabilidad en cuestión se calcula usando la función F como:
P(x2) =1-P(x<)=1-F($) =1- (1-) =*

d) El valor mediano de la distribución Mex es el valor que deja a la derecha y al izquierda de él, a
lo sumo el 50% de la distribución. En el caso de variables aleatorias continuas esto significa pensar
en el valor de X que deja a su derecha (y en consecuen cia, a su izquierda) el valor de área igual a
. Entonces podemos escribir:
In 2
P(X< Mex) = F(Mex) = 1 -e-a Mex =; Mex :
e) Verifiquemos ahora que la función F cumple con las propiedades enunciadas en el Teorema 2:
1) F es no decreciente (creciente o constante):
Vzl, T2¬ R, zË < z2 <0, ’ F(z1) = F(*2) = 0, es decir, es una función constante.
Si zË <0, z; > 0+0= F(¢1) < F(2) =1-e-aza
Si z1, 2>0’ F(zi) = 1-e-azi <1-e-a Ea = F(z2), en estos dos últimos casos la
función es estrictamente creciente.
2) F es continua en todo punto T, E R:

0= F(zo) para zo <0
lim P() ={ 1e-at = F(to) para z, > 0, a >0
3) Va,be R, P(a< Xsb) = f() dz = F(6) - P(a), por Regla de Barrow.

4) lim F(e) = F(-o) = 0, (por def.) lim_ F()= F(+oo) =lim_ (1-ear) = 1
Veamos ahora un caso particular de variable continua para la que podemos deducir su función
de densidad a partir de los datos del problema.
* Ejemplo 8
Un atleta, al realizar un salta en largo, puede caer en cualquiera de los puntos comprendidos entre
dos puntos fijos a y b (a < b). Se define la variable aleatoria X: "coordenada del punto de caída".
a) Qué valores puede tomar la variable así definida?.
b) Determinar la función de distribución acumulativa F(æ).
c) Deducir a partir de F, la densidad de X y dibujar ambas funciones.
La variable definida de este modo recibe el nombre de uniforme continua y será estudiada con
más detalles más adelante).
Solución:
a) El atleta puede caer en cualquiera de los puntos del intervalo real (a, b), por lo tanto: Rec(X) =
(a, b).
b) La variable aleatoria X tiene asociado un espacio muestra que es infinito no numerable uniforme,
que es S = (a, b) (así, X es la función identidad). Entonces podemos escribir:
1) Vz<a, F(z) = P(X < ) = P(0) =0
2) Va<a <b, F(z) = P(X <z) = P(a< X<z) = long(a, z)
long(a, b)
3) Ve>6, F(e) = P(X < ) = P(S) = 1
Entonces, la función F adopta la forma:
0 para z Sa
F(z) = para a<z<b
b-a
1 para z >b
c) Observamos que la función F es derivable en todo punto z# a,by entonces la función derivada
(la función de densidad de X) toma la forma:
f(z) = dF()
de -{ para a <<b
en c.0.C.
En base a las formas explícitas halladas, las respectivas gráficas de la función de densidad y de
distribución acumulativa son (por ejemplo, tomando a, b> 0):
f() F(¢)
b-a
0 a
* Ejemplo 9
Una variable aleatoria continua tiene función de densidad f(z), dada por la siguiente gráfica:
f()
1 2
a) Escribir ezplícitamente la función f(z).

b) Calcular la función de distribución acumulativa F(¢) y graficarla.
c) Calcular la probabilidad del suceso A= {-1,0,}.} u (,+oo) e interpretar este resultado en
las gráficas de f y de F.
Solución:
a) Claramente, a partir de la gráfica dada, se tiene que:
para 0 <e<l
X~ f(z) = - 1 para 1 <<2
0 para z>2
b) Elcálculo de la función F se hace por partes:
1) Vz<0, F(*) = P(Xsz) =| 0dt =0

2) V=/0<z<l, F(2)=P(X <=) = | f) dt= (1-) dt =
3) Y=/1ges2, F(2) =P(xs2)= ) d =F(1) + -)d=
4) Yz> 2, F(*) =P(X<) = f() dt = s() dt =F(2) - F(0) =1
Y entonces podemos escribir:
0 para z <0
Fie) = - para 0 <z<l

-z+1 para 1<z S2
para z> 2
Con lo que la gráfica de esta función es:

4F(z)
1
0 2
c)
P(A) =
{o;}u(-))
=
=0 =0
=
P() - P()=1-+
Esta probabilidad es numéricamente igual al área bajo la curva de f que queda a la derecha de .
como se ve a continuación:
f(z)
y igual a la diferencia de las longitudes de los segmentos paralelos al eje de las ordenadas
ubicados sobre los puntos z = 2 y z= respectivamente, como se muestra en el siguiente gráfico:
4F(*)
l= F(2)
F(2) F(1/2)
F(1/2)

A.- primer grupo
o Ejercicio 1
Supongamos que una variable aletoria X discreta tiene una función de cuantía dada por
para z =1,2, 3,4, 5
en c.oO.C
Determinar valor de la constante c.
o Ejercicio 2
Demostrar que no eriste una constante real c tal que la siguiente función sea una cuantía
para z =1,2,.
pte) = en c.o.C
o Ejercicio 3
Sea el ezperimento aleatorioE: lanzar dos dados regulares de 6 caras cada uno. Escribir un espacio
muestral S adecuadoy considerar la variable aleatoria X: "suma de los puntos obtenidos". Cuál
es el Rec(x)?. Deducir la función de cuantía p() y la función de distribución acumulativa F(z).
Graficar ambas.
o Ejercicio 4
Una caja contiene cinco cubos numerados de 1 a 5. Se eztraen 2 de ellos: i) sin sustitución, ii)
con sustitución. Sea la v.a. X: "producto de los puntos obtenidos". Derivar en ambos casos la
función de cuantía p(z), la función de distribución acumulativa F(r) y graficar ambas.
o Ejercicio 5
Sea X una v.a. discreta, determinar el valor de k para que la función
para z =1,2,.
pe) = en C.0.C
sea una cuantía. Luego, determinar P(1 < X < 3).

o Ejercicio 6
La probabilidad de que un satélite, después de colocarlo en órbita, funcione de manera adecuada
es 0.9. Suponer que 5 de estos satélites se colocan en órbita y operan de manera de manera
independiente. Sea X: "número de satélites entre los 5 que tienen alquna falla'
i) deducir la función de cuantía p(z) y la función de distribución acumulativa F().
iü) Cuál es la probabilidad de que por lo menos el 80% de ellos funcione adecuamente?. Usar para
este clculo, la función F().
o Ejercicio 7
Supongamos que se tienen 50 representantes de cierto estado que asisten a una convención política
nacional, de los cuales 30 apoyan al candidato A y 20 al candidato B. Se seleccionan al azar un
grupo de 5 de ellos y se define la v.a. X: "número de representantes en el grupo escogido que
apoyan al candidato A".
i) Deducir la función de cuantía p(z).
ii) Calcular la probabilidad de que en el grupo elegido haya a lo sumo 3 representantes que apoyen
al candidato A.
o Ejercicio 8
Se distribuyen 10 bolillas distintas en 5 urnas diferentes y se define la v.a. X: "número de bolillas
que contiene la primer urna". Deducir la función de cuantía de X.
o Ejercicio 9
Se lanzan 1 dado legal hasta que aparece por primera vez un número no mayor que 4.
i) Deducir la función de cuantia de la v.a. X: "número de lanzamientos necesarios" y con ella
hallar la probabilidad de que se necesiten al menos 3 intentos (hacerlo de dos modos diferentes).
ii) Hallar función de cuantía de la v.a. Z: "número de intentos fallidos".
ii) con respecto al item ii), demostrar que
a, bE Z P(Z< b) = 1- P(Z >a+b/Z > a)
o Ejercicio 10
Sea X una v.a. continua.
i) Determinar el valor de la constante k, de manera tal que la función:
f(z)=kz para en-17z<1

c.o.c
sea la función de densidad de X. Luego, graficar flr).

i1) Determinar la función de distribución acumulativa de X y graficarla.
i) Calcular P(X > ) yP(#< X<)e interpretar estos números sobre las gráficas de f(r) y
de F(r).
o Ejercicio 11
Sea X una v.a. continua.
i) Determinar el valor de la constante k para que la función:
ke- para r > 0
f(z) = 0 en c.o.C
sea la función de densidad de X. Luego, graficar f(z).

i) Deducir la función F(2) ygraficarla.
iii) Calcular P(X< 5) y P(0 < X< 8).
o Ejercicio 12
La duración en horas de un componente electrónico es una v.a. cuya función de distribución
acumulativa es:
F(z) = 1-e60 para z>0
en c.0.C
i) Determinar la función de densidad f(r).

ii) Determinar la probabilidad de que el componente trabaje más de 200 horas.
o Ejercicio 13
Un atleta que salta en largo puede, en una prueba, caer en cualquiera de las marcas posibles entre
Im. y 8 m.. Sea X la v.a.: "marca obtenida en un salto".
i) Deducir la función de densidad de X y la función de distribución acumulativa. Graficar ambas.
ii) Hallar la probabilidad de que en una prueba, el atleta salte una distancia superior a la marca
media.
o Ejercicio 14
Una urna contiene 6 bolilla blancas, 5 bolillas azules y 4 amarillas. Considere los ezperimentos:
61: "se ertrae una bolilla de la urna".
¬2: "se estraen dos bolillas con sustitución".
¬3: "se eztraen dos bolillas sin sustitución".
E4: "se eztraen tres bolillas de una vez".
E5: "se ertrae una bolilla hasta que sale una blanca".
Defina para cada erperimento dos variables aleatorias diferentes, indicando su recorrido y su
función de cuantía p(z).
o Ejercicio 15
Una familia argentina tipo tiene tres hijos. La probabilidad de que nazca un varón es 0.52. Con
sidere la variable aleatoria X: "número de hijos varones". Indique:
a) Recorrido de X
b) Función de cuantía p(z).
c) Función de distribución acumulativa F(z).
d) Graficar ambas funciones.
o Ejercicio 16
Se lanzan dos dados requlares. Sean i yj los números resultantes. Escribir un espacio muestral
adecuado al erperimento. Considerar las variables aleatorias: X = i+j eY = m.c.d(i, j). Deducir
las respectivas funciones de cuantía y las funciones de distribución acumulativa y graficar en cada
Caso.
o Ejercicio 17
Una caja contiene cinco tubos numerados de l a 5. Se eztraen 2 de ellos:
i) con sustitución
ii) sin sustitución
Sea la variable aleatoria X: "producto de los puntos obtenidos". Derivar en ambos casos la función
de cuantía p(z), la función de distribución acumulativa F(z) y graficar ambas.
o Ejercicio 18
En cierta región, la probabilidad de que un hombre de 30 años viva un año 0.992. Un hombre
debe pagar 10 pesos a una compañía por un seguro de vida de 1000 pesos, con validez por un año.
Considere la variable aleatoria X: "ganancia de la compañía". Deducir la función de cuantía yla
de distribución acumulativa.
o Ejercicio 19
Sea X una variable aleatoria discreta. Determinar el valor de la constante k para que la función
p(z) = , con z = 1,2, 3,4 sea la función de masa de probabilidad de X. Luego determinar el
valor de P(1 < X < 3).
o Ejercicio 20
Un embarque de 7 automóviles eztranjeros incluye 3 que tienen ligeras manchas de pintura. Una
agencia recibe de esos vehículos aleatoriamente. Considere la variable aleatoria que cuenta el
número de automóviles con manchas comprados por la agencia. Encuentre p(z) y F(¢). Cuál es
la probabilidad de que a lo sumo uno tenga manchas?.
" Ejercicio 21
El60% de los estudiantes de la universidad se oponen a pagar arancel. En un curso de Probabili
dades y Estadística hay 45 alumnos. Considere la variable aleatoria X: "número de alumnos que
se oponen al arancel en el curso citado".
i) Deducir las funciones p(z) y F(¢).
iü) Calcular la probabilidad de que por lo menos el 80% de los alumnos se opongan al arancel.
o Ejercicio 22
Sea X una variable aleatoria con función F(z) dada por:
si r < 1
0.3 si1<<3
F(¢) = 0.4 si 3 <z <6
0.6 si 6 < z< 12
1 si z > 12
1)Hallar la función de cuantía p(z).
2) Calcular P(3 < X <6), P(X >4), P(3< X< 6/X > 4)
o Ejercicio 23
Se lanza un dado legal hasta que aparece por primera vez un número no mayor que 4.
1) Deducir la función de cuantía de la variable aleatoria X: "número de lanzamientos necesarios"
y con ella hallar la probabilidad de que se necesiten al menos 3 intentos (hacerlos de dos modos
diferentes).
2) Hallar la función de cuantía de la variable aleatoria Z: "número de intentos fallidos".
3)Con respecto al ftem ii) demostrar que si a y bE Zt entonces:
P(Z < b) =1- P(2>a+b/Z > a)
o Ejercicio 24
Considere la siguiente función de densidad:
kz para )< < l
en c.0.C
i) Determinar el valor de la constante k.

ii) Encontrar la función F(z).
ii) Evaluar la probabilidad P(0.3 <X< 0.6)
o Ejercicio 25
El tiempo de espera en horas que tarda un radar en detectar dos conductores sucesivos a alta
velocidad es una variable aleatoria continua con una F() dada por:
P(e)=-ele
0
para z>0
en c.o.c
a) Qué valor puede tomar la constante B?.

b) Encontrar probabilidad de esperar menos de 12 minutos entre dos conductores sucesivOS: i)
usando F(z) y i) usando f(z).
o Ejercicio 26
Un paracaidista puede caer en una pista rectilínea con marcas de 10 a 70metros. La marca obtenida
al caer será su puntaje en el salto. a) Calcular la función de densidad del puntaje obtenido.
b) Calcular la probabilidad de que caiga en el primer tercio de la recta.
c) Si el paracaidista hace 10 saltos independientes, hallar la probabilidad de que en por lo menos 3
saltos haya caído en la mitad superior del intervalo.
B.-Segundo grupo
o Ejercicio 27
Una urna contiene 6 bolilla blancas, 5 bolillas azules y 4 amarillas. Considere los erperimentos:
E1: "se eztrae una bolilla de urna"
E2: "se ertraen dos bolillas con sustitución".
E3: "se eztraen dos bolillas sin sustitución".
E4: "se eztraen tres bolillas de una vez".
¬5: "se ertrae una bolilla hasta que sale una blanca".
Defina para cada ezperimento dos variables aleatorias diferentes, indicando su recorrido y su
función de cuantía p().
o Ejercicio 28
Una familia argentina tipo tiene tres hijos. La probabilidad de que nazca un varón es 0.52. Con
sidere la variable aleatoria X: "número de hijos varones". Indique:
a) Recorrido de X
b) Función de cuantía p(z).
c) Función de distribución acumulativa F(¢).
d) Graficar ambas funciones.
o Ejercicio 29
Se lanzan dos dados regulares. Sean iyj los números resultantes. Escribir un espacio muestral
adecuado al erperimento. Considerar las variables aleatorias: X = i+j eY = m.c.d(i, j). Deducir
las respectivas funciones de cuantia y las funciones de distribución acumulativa y graficar en cada
Caso.
o Ejercicio 30
Una persona marca un número telefónico hasta que es atendido del otro lado de la línea. Se sabe
que la probabilidad de que en cada intento, obtenga respuesta es del 86%
1) Deducir la función de cuantía de la variable aleatoria X: "número de intentos necesarios " y
con ella hallar la probabilidad de que se necesiten al menos 5 intentos (hacerlos de dos modos
diferentes).
2) Hallar la función de cuantía de la variable aleatoria Z: "número de intentos fallidos".
3) Con respecto al ítem ii) ¿es cierto que si a y be Zt entonces:
P(Z< 0) =1- P(Z>a+b/Z> a)?
26 CAPITULO 5. VARIABLES ALEATORIASs UNDIMENSIONALES
o Ejercicio 31
Considere la siguiente función de densidad:
kz para 0 <z<1
en c.o.C
i) Determinar el valor de la constante k.

ii) Encontrar la función F(2).
ii) Evaluar la probabilidad P(0.3 < X < 0.6)
o Ejercicio 32
El tiempo de (en minutos) que debe esperar una persona en ser atendida en la ventanilla de un
banco es una variable aleatoria continua con una F(z) dada por:
l- er para z >0
P(e) = en c.o.C
a) Puede tomar la constante a un valor negativo?.

b) Encontrar la probabilidad de una persona deba esperar al menos de 20 minutos en ser atendido:
i) usando F(¢) y i) usando f(z).
" Ejercicio 33
En una fábrica de componentes electrónicos se ha producido este mes una gran cantidad de unidades
(suficientemente grande como para considerarla infinita desde el punto de vista teórico). Un oper
ario calificado realiza el erperimento aleatorio [ de inspeccionar uno a uno y sin reposición, una
serie de artículos hasta que se observa por primera vez un defectuoso (D). Se sabe además que de
estudios estadísticos previos, la fábrica produce un 2% de artículos defectuosos.
a) Escribir un espacio muestra S adecuado al erperimento e indicar su cardinal.
b) Sea X la v.a. que cuenta el número de intentos realizados hasta encontrar el primer artículo
defectuoso. Determinar la función de cuantía p() de esta variable.
c) Probar, usando la función del punto b), que la probabilidad de que el operario necesite al menos
4 pruebas es p= (0.98)°.
o Ejercicio 34
N particulas distinguibles se distribuyen al azar en n niveles de energía E1, E2,..., En. Una
situación particular se muestra en la figura adjunta, se supone N>n> 3.
1
3
N-1
En
E
E1
Se define la v.a. X: "Número de partículas que están en el nivel En".

a) Cómo es X, discreta o continua?. Determinar su función de distribución, indicando el conjunto
Rec(X).
b) Cuál es la probabilidad de que el nivel En contenga ezactamente 3 particulas?.
Bibliografía
[1] Harold Cramer, Métodos Matemáticos de Estadística, Ed. Aguilar, 1963.
[2] Mood y Graybill, Introducción a la Teoria de la Estadística, Ed. Aguilar, 1970.
(3] William Feller, Introducción a la Teoría de las Probabilidades y sus Aplicaciones, Ed. Limusa
Wiley, 1978.
1986.
[5] William Mendenhall, Introducción a la Probabilidad y la Estadística, Ed. Grupo Editorial

Iberoamerica, 1987.
[6] Ricardo A. Maronna, Probabilidad y Estadística Elementales para estudiantes de Ciencias,
Editorial Exacta, 1995.
[7] Morris de Groot, Probabilidad y Estadística, Ed. Addison-Wesley Iberoamericana, 1988.
[8] George C. Canavos, Probabilidad y Estadística, Aplicaciones y Métodos, Ed. MeGraw-Hill, 1993.
[9] Ronald E. Walpole, Raymond H. Myers, Probabilidad y Estadística, Ed. McGraw-Hill, 1996.
[10] Orlando J. Avila Blas, Espacios de Probabilidad. Probabilidad Condicional e Independencia,
Apuntes de Teoría de Probabilidades y Estadística. Departamento de Matemática-Facultad de
Ciencias Exactas-U.N.Sa, 1997, 1998, 1999, 2000 y 2001.
27
Contenido
6 Variables Aleatorias Multidimensionales 3

6.1 Variables aleatorias k-dimensionales 3
6.1.1 Clasificación de las variables aleatorias k-dimensionales 4
6.2 Variable aleatoria k-dimensional discreta 4
6.3 Distribuciones discretas marginales 10
6.3.1 Función de distribución acumulativa marginal 13
6.4 Variables aleatorias discretas independientes 13
6.5 Distribuciones discretas condicionales 14
6.6 Variable aleatoria k-dimensional continua 17
6.7 Distribuciones continuas marginales 24
6.7.1 Función de distribución acumulativa marginal 26
6.8 Variables aleatorias continuas independientes 27
6.9 Distribuciones continuas condicionales 28
6.10 Distibuciones deducidas a partir de una dada 30
6.10.1 Introducción 30
6.10.2 Caso unidimensional 30
6.10.3 Caso multidimensional 34
1
Capítulo 6
Variables Aleatorias
Multidimensionales
6.1 Variables aleatorias k-dimensionales

Tal como le hemos visto previamente en la sección 5.2, podemos generalizar la definición de variable
aleatoria unidimensional al caso de dimensión k> 2 tomando como imagen de la función X, al
espacio euclídeo R*. En este caso la función X recibe el nombre de variable aleatoria k
dimensional. En símbolos:
X : S R = RxRx.... x R / VAC R*, X-(A) ¬ P(S)

k-factor es
X(s)
Se tiene ahora que X(s) es una k-upla de valores reales (1, T2, ., zk), por lo que la variable en
cuestión puede ser pensada como un vector aleatorio de k componentes aleatorias (X1, X2, ..., Xk)
de modo que:
VsES, X(s) = (X1(s), X2(s), .., X(s))= (21,T3, -.,za)
Notación:
Para un i= (z1, T2, ..., zk) E R* fijo, emplearemos la simbología "X1 = T1, X¡ = z2, .., Xk =
z7" para representar el suceso S = {s E S/ (X1(3), X2(s), .., X(9)) = (z|, T2, ., zh) = ), es
decir el conjunto formado por todos los puntos muestra de S que tiene por imagen al punto z.
En palabras "X1 = t1, X = T2, ..., X* = 7" se lee "la variable aleatoria (X1, X2, ..., X*) toma
el valor particular (z1,2, ...zk)". A los fines prácticos usaremos la notación S: para indicar el
conjunto "X1 = 1, X2 = 2, .., X7 = z;"
Gráficamente podemos representar la situación como sigue:
R
X
(z1, 22, ...za) = X(s]
3
CAPITULO6. VARIABLES ALEATORIAS MULTIDIMENSIONALES
6.1.1 Clasificación de las variables aleatorias k-dimensionales
Si X = (X1, X2,.., X*) es una variable aleatoria k-dimensional, entonces decimos que:
" X es discreta si y sólo si Vi= 1,2,.., k, X; es una variable aleatoria (unidimensional)
discreta.
" X es continua si y sólo si Vi = 1, 2, .., k, X; es una variable aleatoria (unidimensional)

continua.
" X es mixta si y sólo si i,j= 1,2,.., k, i#j/ X; es una variable aleatoria (unidimensional)
discreta y X; es una variable aleatoria (unidimensional) continua.
La misma definición dada para una v.a. X unidimensional, de Rec(X) sirve para el caso de di
mensión mayor que 1. Queda como ejercicio para el lector demostrar que con estas consideraciones,
una v.a. de dimensión k discreta puede tomar una cantidad finita o infinita numerable de valores
posibles;y una v.a. continua toma siempre una cantidad infinita no numerable de valores posibles.
La demostración se basa en el hecho que, si A C R, entonces:
1) |A|= m<o = Ax A x ...x A=|A|' < o

t-factores
2) |A|= |N| = R, ’ 4xAx... xA = |N|=No

t-fact ores
3) |4|= |R| = ’Ax Ax... x A=|R'| =|R|=N

t-factores
En este curso, trabajaremos sólo con los dos primeros tipos de variables, aunque en la vida real las
variables mixtas puedan aparecer en casos muy interesantes, que seguramente podremos entender
aprendiendo bien los primeros.
6.2 Variable aleatoria k-dimensional discreta

Al igual que lo hicimos para el caso unidimensional, podemos definir una función muy importante
relacionada con el cálculo de probabilidades en el espacio muestra asociado:
Definición 1 Función de masa de probabilidad ó cuantía conjunta

Sea X = (X1, X2, ..., X*) una variable aleatoria k-dimensional discreta, entonces la función de
masa de probabilidad ó cuantía conjunta de la misma es una función con dominio igual al conjunto
R* e imagen el conjunto R definida por el siguiente esquema:
R* R
(Z1,Z2, ., zk) p(*1,2, ., z*) = P(X, = 1, X;= 2,.., Xk = **)
= P({sE S| Xi(s) = 1, X(s) = 2,.., Xk(s) = z*})
la cual satisface la siguientes propiedades:
1) p(z1, , , zk) >0, V(1, T2, .., zk) ¬ R*
2) p(z1,#2,.,zA) =1
donde (z1,22,..z) ET= {(1, Z2, ..., za) ERec(X) /p(z1, E2, .., za) > 0}
6.2. VARIABLE ALEATORIAK-DIMENSIONAL DISCRETA 5
9) VAÇ R*,P(A) = L p(zi, *2, ,24)

con la suma ertendida a los (z1, I2, ...za) E (AnT)
Veamos cómo proceder al tratamiento de una variable de este tipo y el cálculo de su función de
cuantía conjunta, en el siguiente ejemplo (en la mayoría de los casos analizaremos casos bidimen
sionales por ser éstos representables gráficamente en R).
* Ejemplo 1
En un pueblo, se sabe que eriste iqual probabilidad de que un recién nacido sea varón o mujer. Sea
el eaperimento aleatorio e de entrevistar a 3 madres que acaban de dar a luz en dicho pueblo, y
definamos la variable aleatoria bidimensional (X, Y) definida por:
X: "Número de bebés varones registrados entre los 2 primeros nacidos"
Y: "Número de bebés varones registrados entre los 2 últimos nacidos"
1) Escribir un espacio muestra S adecuado al erperimento ase definido.
2) ¿Cuál es el Rec(X, Y)?. ¿Es la v.a. (X, Y) discreta ó continua?.
3) Representar gráficamente la función (X, Y) :S ’ R?
4) Calcular la función de cuantia conjunta p(z, y) ygraficarla. Comprobar que T # Rec(X, Y).
5) Calcular las probabilidades: P(X > 1, Y> 1), P(X?+ Y2 <1) yP(X #2 v Y 2).
Solución:
1) Podemos tomar S = {(a, 6, c) /a, b, c= V, M}, con |S] = 2 = .
2) Tanto X como Y pueden tomar en principio los valores 0, 1 y 2, con lo que:
Rec(X, Y) = Rec(X) x Rec(Y) = {(2,v) ¬ R'/2,y = 0, 1,2} A Rec(X, Y)l=9

y entonces como el cardinal de conjunto recorrido es finito, la variable resulta ser discreta finita
(es equivalente a decir ésto debido a que tanto X como Y son v.a. discretas finitas).
3) Se puede representar la función (X, Y) como sigue:
(X, Y)
R?
S
(M, V, V)
(0,2)
(V,v.yX (1,2) (2, 2)
K(M, M, V) (M, V, M) (0, 1)

(V, M, V) (V, V, MY 1,1) (2, 1)
\M, M, M)/
(0,0) (1, 0) (2, 0)
(V, M, M)
4) Empleando la notación X = (X,Y) y la definición de función de cuantía conjunta tenemos que:

p(0,0) = P(X = 0,Y = 0) = P({(a, 6, c)e S/X(a, b, c) = (0, 0)}) = P({(M, M, M)}) =
6 CAPITULO6. VARIABLES ALEATORIAS MULTIDIMENSIONALES
p(1,0) =P(X =1,Y= 0) =P({(a,6,c) eS/X(a,b, c) =(1,0))) = P{(V, M, M)})=

p(2,0) = P(X = 2, Y= 0) = P({(a, b, c) ¬ S/X(a,b, c) = (2,0)}) = P(0) = 0
P(0, 1) = P(X = 0,Y = 1) = P({(a, b, c) ¬S/X(4, b, c) = (0, 1)}) = P{(M, M, V))) =
p(1, 1) = P(X = 1,Y= 1) = P({(a, 6, c) e S/}(a, b, c) = (1, 1)})
= P({(M, V, M), (V, M, V)}) =
P(2, 1) = P(X = 2,Y = 1)= P({(a,b, c) e S/X(a, b, c) = (2, 1)}) = P{(V,V, M)}) =
p(0, 2) = P(X = 0,Y =2) = P({(a, b, c) ¬ S/X(a, b, c) = (0, 2)}) = P(0) = 0
p(1,2) = P(X = 1, Y=2) = P({(a, b,c) e S/X(a, b, c) = (1,2)}) = P{(M, V, V)}) =
p(2,2) = P(X = 2,Y = 2) = P({(a,b,c) e S/X(a, b,c) = (2,2)}) = P{(V, V, V))) =
Vz,) Rec(X, Y), p(z, y) = P(X = z,Y = y) = P({(4,6,c) ¬S/ X(a, b, c) = (z,y)})
= P(0) =0
La función de cuantía conjunta así calculada se puede también presentar en una tabla de doble
entrada como la siguiente:
1
X
0 0
y la gráfica de esta función se construye trabajando con bastones de altura igual al valor de la
cuantía conjunta en el correspondiente punto del plano R²:
z= p(z,y)
De la observación de la tabla de doble entrada que define a p(, y) se concluye que:

T= {(0,0), (1, 0), (0, 1),.(1, 1), (2, 1), (1,2), (2, 2)} Rec(X, Y)
6.2. VARIABLE ALEATORIA K-DIMENSIONAL DISCRETA 7
5) La primera probabilidad se computa definiendo el suceso A= {(z, y) e R?/z>1 A y> 1} c

R' y seguiendo el punto 3) de la definición de cuantía conjunta:
P(X > 1,Y> 1) = P(A) = P(z, y) = p(1,2) +p(2, 2) = 2

r>ly>1
Para la segunda probabilidad, definimos el suceso B= {(z,y) ¬ R'/? +y²< 1} c R?, con lo
cual:
P(X?+Y2 <1) = P(B) = p(z,y) = p(0, 0) + p(0, 1) + p(1, 0) =

doble suma sobre B
Para la tercera probabilidad, tomamos el suceso C = {(z, y) ¬ R?|z #2 V y 2) c R2, y

entonces, por el complemento se tiene:
7
P(X #2 v Y#2) P(C) = 1- P(C) = 1 - P(X = 2, Y=2) = l-p(2,2) =;8
También podemos definir en el caso multidimensional, la función de distribución acumulativa,
que nos servirápara el cálculo de probabilidades acumuladas usando la correspondiente función de
cuantía conjunta.
Definición 2 Función de distribución acumulativa conjunta
Sea X = (X1, X2,..., X*) una variable aleatoria k-dimensional discreta, se llama función de dis
tribución acumulativa de X a la caracterizada por el siguiente esquema:
R R
(Z1, T2, ., zk) F(z1, T2, .., a) = P(X1< z1, X2 S r2, . X* < z*) =
P({s ES/X1(s) < z, X2(s) < *2, -., X(s)<ak,})=
* Ejemplo 2
Calcular la función de distribución acumulativa F(z,y) para el ejemplo estudiado anteriormente
sobre los nacimientos.
Solución:
Nos conviene dividir al plano R' en las diez regiones siguientes:
i) R,= {(z, y) ER?]z < 0 V y<0}
ii) R1r = {(,v) E R? /0< z,y <1}
ii)R1n = {(z, y) ¬R? /1 6z< 2, 0<y<1}
iv) Rrv = {(*,y)E R? /z > 2, 0sy<1)
v) Rv = {(z, y) ER? /0<z< 1, 1<y<2)
vi)RvI = {(,v) ER?/1<z,y< 2)
vi) Rvir = ((z,y) ER? /z > 2, 1<y<2)
vii) Rvn = {(z, v) ¬ R?/0<z <l, v> 2}
8 CAPITULO 6. VARIABLES ALEATORIAS MULTIDIMENSIONALES
ix) RIx = {(2, y) ¬ R'/1<z<2, v> 2}

x) Rx = {(z, y) E R² / > 2, v> 2)
Gráficamente se tiene la siguiente situación:
2
RviI RIX Rx
2
RI Ry RvI RvII
RI
Ril RÊV
0
RÊ RÊ RÊ RI
y entonces, recorremos el plano R² parándonos en un punto genérico de coordenadas (z, y) y

sumando valores de cuantía acumulados de -oo hasta z (dirección paralela al eje de las abscisas)
y de -oo hasta y (dirección paralela al eje de las ordenadas) según el siguiente esquema:
(2, y)
(0,0)
según el punto (z, y) se encuentre en las diferentes regiones en que hemos dividido el plano, se
obtienen los siguientes cálculos:
V(z,) ERI, F(2,y) = p(u, v) = 0
V(e.y) e RIu, F(2,y) = p(4, ) =p(0,0) =

usrvsy
2
V(z, y) ERiil, F(z,y) = )p(u, v) = p(0, 0) +p(1, 0) =
urvgy
2
V(z, v) ¬RIv, F(a,y)
= p ( u , v) = p(0, 0) +p(1,0) =
u7rugy
V(a.y) e Rv, F(z,y) = S p(u, o) =p(0,0) +p(0, 1) =

u<ru<y
6.2. VARIABLE ALEATORIA K-DIMENSIONAL DISCRETA 9
5
V(z, y) ERv1, F(z,y) =usrusy
Lp(u, v) =p(0,0) +p(1, 0) +p(0, 1) +p(1, 1) =
V(z,y) ERv1t, F(z,y) = usrusy P(u, u) = p(0,0) + p(1,0) +p(2, 0) +p(0, 1) +p(1,1) +
6
P(2, 1) =
2
V(z,v) ERviit, F(z, y) = p(u, v) = p(0, 0)+p(0, 1) +p(0,2) =
ussusy
V(z, y) ¬ RIx, F(*, y) = p(u, v) = P(0,0) + p(1, 0) + p(2,0) + p(0, 1) + p(1, 1)+
usrvsy
6
p(0,2) + p(1,2) =
V(z,y)¬Rx, F(2,y)=) p(u, v) = p(0, 0) +p(1, 0) +p(2, 0) +p(0, 1) +p(1, 1)+

uCzuSy
p(2, 1) + p(0, 2) + p(1,2) + p(2,2) = 1

Podemos resumnir estos valores como:
para (z, y) E RÊ
para (z, y) ¬ RiI
para (z, y) E R1I, RIv, Rv, Rvii

F(e,y) =
para (z, y) E RvI
para (z, y) E RvIi, RÊx

1 para (z, y) ¬ Rx
y la función obtenida tiene como representación gráfica a:
8
2
1 1
0
La función de distribución acumulativa conjunta satisface una serie de propiedades que se

enuncian en el siguiente teorema (caso bidimensional):
Teorema 1
Si (X, Y)es una variable aleatoria bidimensional discreta con función de distribución acumulativa
F(z,y), entonces:
Vz1, 2, y1,y2 E R, a1 < I2,3y1 < V2 F(z1,y) < F(*2, y2)
2) F es continua por derecha en cada componente:
lim F(z,v) = F(o, y) A lim, F(z, y) = F(2, y.)
yy
3) Va1,a2, b1, b2 E R,
P(a1 < X <ag, bË < Y< ba) = F(a2, bz) + F(a,, bi) F(az, bi) F(aj, ba)
4) lim F(z, y) = F(-oo, y) = y-0oo
lim F(z, y) = F(, -oo) =
lim F(z, y) = F(-o0, -oo) = 0
5) Zy++o0
lim F(z,y) = F(+oo, +oo) =1
Demostración: queda como ejercicio para el lector. Como aplicación de este teorema veamos
el siguiente:
* Ejemplo 3
En el ejemplo de las madres que dieron a luz, calcular las siguientes probabilidades:
i) P(0< X<1,1<Y<2) ii) P(-o<X<2,-oo<Y<1)

in) P(1<X<2, -oo<Y<1)
Solución:
i) P(0< X<1,1<Y<2) = F(1,2) +F(0, 1) - F(1,1) F(0,2) =

i) P(-o <X<2, -oo <Y<1)= F(2, 1)+ F(-oo, -oo) - F(2, -oo)-F(-oo, 1) =
ii) P(1< X<2, -o0<Y<l) = F(2, 1) + F(1, -oo) - F(2, -oo) - F(1, 1) =
6.3 Distribuciones discretas marginales

Conociendo función de cuantía conjunta p(z1, T2, .., zk) de una variable aleatoria k-dimensional
(X1, X2,.., X*), podemos obtener la función de cuantía de una de sus componentes ó de un grupo
de ellas. La función resultante se conoce con el nombre de función de cuantía marginal y se
obtiene mediante la siguiente:
Definición 3
Dada una variable aleatoria k-dimensional discreta (X1, X2,.., X*), a partir del conjunto {X1, X2, .., X*}
seleccionamos el conjunto de t variables (Xi, , Xig) ., Xi,}, con 1< t<k-1. Entonces la función
de cuantía marginal de la variable aleatoria (Xi,, Xia) .., Xi) se calcula como:
p(zi,, ig1 ., Zi,) = p(1, ), ..,zk)

,E{iigFi}
6.3. DISTRIBUCIONES DISCRETAS MARGINALES 11
Observaciones:
El doble subíndice empleado para denotar las variables del conjunto {Xi,, Xip) -., Xi,), indica el
orden de la elección. Por ejemplo, X;, representa a la primera variable elegida a partir del conjunto
original (X1, X2, .. X*}, y entonces podría ser X,= X2.
El signo de sumatoria de esta última definición representa a un total de k-t sumas, es decir una
suma por cada una de las k-t variables que no fueron tomadas en el conjunto {Xi,,Xi, .., Xi}.
Un buen ejercicio para el lector consiste en demostrar que el númnero total de funciones de
cuantía marginal que podemos hallar es 2*-2, (sugerencia: contar el número total de subconjuntos
{Xi,, Xi¡, .., X,} que podemos construir descontando el vacío y el total).
* Ejemplo 4
Calcular las funciones de cuantia marginales de X e Y en el ejemplo de los nacimientos.
Solución:
Habíamos definido la variable aleatoria bidimensional (X, Y) con:
X: "Número de bebés varones registrados entre los 2 primeros nacidos"
Y: "Número de bebés varones registrados entre los 2 últimos nacidos"
cuya función de cuantía conjunta se explicitaba mediante la tabla de doble entrada:
0 1 2
|X
0 8
Estáclaro que Rec(X) = Rec(Y) = {0,1, 2}, luego para hallar las cuantías marginales respectivas
tenemOs que hacer:
Px(=) = p(z, ) py (u) = plz, v)
Esto significa que, para hallar los valores de px (*), fijado el valor de z (fijada la fila de la tabla
para el valor z), debemos sumar los valores de la cuantía conjunta abarcando todas las columnas.
De manera análoga se procede para obtener los valores de la función py (y), pero sumando por
flas, para una columna fija. Los resultados se muestran en la siguiente tabla ampliada:
X
0 1 2 Px(*)
2 0 8
py (y) 1
12 CAPITULO 6. VARIABLES ALEATORIAS MULTIDIMENSIONALEs
Veamos otro caso:
* Ejemplo 5
Sea el experimento aleatorio e: "elegir al azar un grupo de 10 profesionales, de un grupo mayor
formado por 10 licenciados en Matemática, 15 ingenieros y 12 licenciados en Física". Se define la
variable aleatoria (X, Y, Z) por medio de:
X: "Número de licenciados en Matemática en el grupo elegido".
Y: "Número de ingenieros en el grupo elegido".
Z: "Número de licenciados en Física en el grupo elegido".
a) Determinar la función de cuantía conjunta de la variable (X, Y, Z).
b) Deducir la función de cuantía marginal de la variable Z.
Solución:
a) Los valores posibles de las variables X, Y, Z son 0, 1, 2, ..., 10 sujetos a la condición X+Y +Z=
10, por lo que podemos expresar:
Rec(X, Y,Z) = ((z, y, z) ¬ R/z, y, z =0, 1, 2,..,10 A z+y+= 10}
En el grupo seleccionado de 10 profesionales tendremos exactamente z licenciados en Matemática
elegidos entre los 10 posibles, exactamente y ingenieros elegidos entre los 15 posibles y exactamente
z licenciados en Física entre los 12 candidatos. El número total de grupos de 10 profesionales
37
que podemos escoger entre los 37 es . Cualquier otra situación fuera de este esquema es
imposible de obtener (tiene cuantía conjunta asociada igual a cero), por lo que podemos escribir:
37
para z, y, z = 0,1, 2,..., 10 A z+y+z= 10
(X,Y, Z) ~p(z, y, z) = 10
en c.O.c
b) Para determinar la cuantía marginal de la variable X en los puntos de Recx(X) = {0, 1, 2, .., 10}
hacemos: ()
Px(*) =
10 10-y-z
y=0 z=0
(")C) 37
10
12 27
=
37
10 ,) ()10-)
-y
37
y=0
10
cualquier otra situación es imposible de obtener, por lo tanto:
X ~ p(z) =
(?)(-: 37
10
para z =0, 1,2,..., 10
en C.0.C
'uamos la prapicdad (?)()-(t)

6.4. VARIABLES ALEATORIAS DISCRETAS INDEPENDIENTES 13
6.3.1 Función de distribución acumulativa marginal

Si (X, Y) es una v.a. bidimensional discreta, a partir del conocimiento de la función de distribución
acumulada conjunta, podemos hallar las respectivas distribuciones acumuladas marginales como
sigue:
VaER, Fx (z) = lim F(z,y) = lim

y++oo
p(u, v) = lim
y’+00
uerusy U<y
VyeR, Py(o) = lim P(e,) = im ucruy

p(u, v) = i , p(u, v) =Lrte)
* Ejemplo 6
Una variables aleatoria bidimensional (X, Y) tiene función de distribución acumulativa dada por:
para z<0Vy<0
F(z, v) = P(X < z, Y s v) =
para z >> 0, y > 0, A >0
u!v!
u=0v=0
Determinar las funciones de distribución acumuladas marginales a partir de esta F(z, y).
Solución: para calcular Fx (z) tenemos que hacer:
1) Vz<0, Fx(z) =y’+0o
lim F(z,y) = 0
lim F(z, v) = lim S e Tu!U
2) Vz> 0, Fx(z)= y’+oo v!
uKrusy
e-2 jutu
lim
u!u! u!
v<y
+oo
Para este último resultado, se tiene en cuenta que =1.

u!
Claramente, la función Fy (y) se obtiene de manera similar intercambiando z por y, y u por v.
6.4 Variables aleatorias discretas independientes

Damos la siguiente:
Definición 4
Las variables aleatorias discretas X1, X2, .., X* son independientes si y sólo si la función de cuantía
conjunta es igual al producto de las respectivas funciones de cuantía marginales, es decir:
k
p(z1,2, z) = ][x(zi)
i=l
* Ejemplo 7
Supongamos que un curso hay estudiantes cuyas edades oscilan entre los 18 y los 22 años. Se pre
gunta a dos alumnos (elegidos previamente) sus respectivas edades y se las anota. Si X representa
la edad del primero de ellos e Y la edad del segundo, dado que no hay motivos para que la edad
de uno condicione la edad del otro, podemos concluir que X e Y son independientes. Para com
probarlo matemáticamente tendremos que saber la probabilidad de salir de cada una de las edades
(depende de la distribución de frecuencias).
14 CAPITULO 6. VARIABLES ALEATORIAS MULTIDIMENSIONALEs
* Ejemplo 8
Justificar que las variables X e Y en el problema de los nacimientos no son independientes.
Solución:
De la tabla que define la función de cuantía conjunta p(z, y) observamos que
2 2
p(0,0) = #Px (0) · pr (0) =
es decir, existe un punto del recorrido de (X, Y) donde no se cumple la condición que la cuantía
conjunta sea igual al producto de las cuantías marginales, por lo tanto concluímos que Xe Y no
son independientes.
* Ejemplo 9
En el ejemplo de los profesionales, se ve claramente que las variables X, Y y Z no son independien
tes dado que sobre ellas está impuesta la condición X +Y +Z= 10. Pero son independientes de a
pares, dado que al haber una ecuación con tres variables, hay dos variables libres (independientes)
y una tercera dependiente. Ast, podemos tomar a X e Y como libres y Z queda condicionada por
la relación Z = 10 X-Y.
Un resultado interesante se enuncia en el siguiente:

Teorema 2
Si (X, Y) es una u.a. bidimensional con función de distribución acumulativa conjunta F(z, y), dis
tribuciones acumulativas marginales Fx (z) y Fy (y) respectivamente, yX e Y son independientes,
entonces se verifica la iqualdad:
F(z, v) = Fx(2)·Fy(y), V(=,y) e R?

Demostración:
En cada punto (z, y)de R? se verifica la siguiente cadena de igualdades:
F(,y) = P(X<z,Y Su) = p(u,v) = Px(u) r(v) = Px(u) Py (v)

vsy
Fx(*)· Fy (y)
lo que prueba la tesis.
6.5 Distribuciones discretas condicionales

A partir de una variable aleatoria k-dimensional discreta (X1, X2, .., X&), podemos estudiar cómo
se comportan algunas de las componentes en función de otras. La función de cuantía que brinda
este comportamiento se denomina función de cuantía condicional y viene dada por la siguiente:
Definición 5
Dada una variable aleatoria k-dimensional (X1, X2, .., X*), a partir del conjunto {X1, X2, .., Xk}
seleccionamos los conjuntos {Xi,,Xi,, ., Xi,} u {X},, Xj,, , Xj,}, con 2 <rts<k. Entonces
la función de cuantía de la variable aleatoria (Xi,, XiF .., Xi,) condicionada a la variable aleatoria
(Xj, Xjg, .., Xj.) se calcula como:
*ijn Tig oi,jy ja , Zj.) P(i i) *, Zi,, zj,, zj, .., z;.)
P(ij, ti,) .., i,/z,, zj,, .., z;.) =
p(z1, z2, ..., ze)
zi{jEjj,}
La definición tiene sentido en los puntos donde p(j, Tja) *., 2j,) #0
6.5. DISTRIBUCIONES DISCRETAS CONDICIONALES 15
* Ejemplo 10
En el ejemplo de los profesionales, determinar las función de cuantía condicionales p(u, z/z) y
p(y/2)
Solución:
La primera cuantia condicional se calcula como sigue:
12
10 15 z
P(u, z/e) = p(z, y, z)

37
10 D()-, (z,y, z) ERec(X, Y, Z)
Px(z) 10 27 27
10 z 10 z
37
10
cualquier otra situación de valores de las tres variables es imposible, por lo tanto tenemOs:
15
27
para z, y, z= 0, 1, 2, .., 10 z+y+z=10
p(y, z/z) = 10 -z)
0 en c.0.C
La otra cuantía condicional se encuentra haciendo:
10 y-:
10
-)()(P) 10
P(y/:) = y,z(y =)
37
10 10--:)() y+z<10
Pz(2)
("). 25
10 - z
37
10)
y entonces podemos expresar:
10
10-y-:)() para y,z=0,1,2,..,10 A y+z< 10
25
p(y/z) = 10 -z
en c.0.c
* Ejemplo 11
Sean X eY dos variables aleatorias independientes, con cuantía conjunta p(z, y) y cuantías
marginales, px (¢) y py (y) respectivamente. Demostrar que se verifican las siguientes igualdades:
h(æ/y) = Px () g(y/z) = py (u)
La resolución se deja como ejercicio para el lector.
16 CAPÍTULO 6. VARIABLES ALEATORIAS MULTIDIMENSIONALES
Observación: con respecto a la gráfica de una cuantía marginal a partir de la gráfica de la

cuantía conjunta.
Sea yo un valor particular de la variable aleatoria Y, entonces de cumple que:
h(e/yo) = p(z, yo) p(z, yY) = py (yo) h(z/y)

py (yo)
a=cte.
esto nos dice que la cuantía condicional h(z/yo) es directamente proporcional a la cuantía conjunta
p(a, yo). Entonces, la proyección de la función p(æ, y) en el plano z| no necesariamente nos permite
obtener la gráfica de la función h. Sólo se verificará esto si a, = 1, es decir, si X e Y son
independientes. En el caso del ejemplo de los nacimientos se ve claro que las proyecciones de la
cuantía conjunta sobre los planos zà y zy no coinciden con las respectivas funciones de cuantía
marginales, para ello recordar el gráfico de la función p(z, y):
z= p(z,y)
6.6. VARIABLE ALEATORIA K-DIMENSIONAL CONTINUA 17
6.6 Variable aleatoria k-dimensional continua

La definición formal de este tipo de variable depende, al igual que en caso unidimensional, de la
existencia una función a valores reales muy particular que nos permitirácalcular probabilidades
asociadas a la variable de estudio.
Definición 6
Una variable aleatoria k-dimensional X se llama continua eriste una función f : R* ’ R,
denominada función de densidad (de probabilidad) conjunta que satisface las siguientes
condiciones:
1) f(z1,2, ., z*) > 0, (1,22, ., z*) ER

f(a1,2, .., aR) ||dz; = 1
i-1
k-integrales
9) YAÇR, P() = fe1,z,..) I[ dz i=1
k-integr ales sobre A
En particular si A es el paralelepípedo A= {aj < X1 < bi, a2 < X2 < b2, . , ak < X* < bk},
k
b
P)= f(z1,*2,..., z) || dz;
i=1
La condición 2) expresa que el hipervolúmen total limitado por la hipersuperficie de la función

fy R* debe ser igual a la unidad.
La condición 3) expresa que la probabilidad de un suceso Adel espacio euclídeo R*, es numéricamente
igual al hipervolúmen bajo la hipersuperficie de la densidad f limitada a la región A. Estas situa
ciones se muestran en el siguiente gráfico correspondiente a una función de densidad conjunta
genérica (caso bidimensional):
z= f(z, y)
Vol. total= 1 P(A)=Volumen sombreado
ACR?
Notación: Es frecuente emplear los símbolos X ~ f(e1,d2, .., zh) para indicar que la variable
aleatoria X = (X1, X2, , ,,X*) "se distribuye" con función de densidad conjunta f(z1, #2, .., zk).
Esta notación será empleada en lo que sigue del curso.
Nota: De igual modo que en el caso unidimensional, la función de densidad f no necesariamente
debe ser una función continua. En el caso de ser discontinua, podrá tener a lo sumo un número
finito de discontinuidades.
Observaciones respecto a la función de densidad conjunta

" Como extensión del caso unidimensional, la función de densidad conjunta de una variable
aleatoria continua (X, Y) no representa una probabilidad (podría incluso ser mayor que
1). Si esto fuera así, se tendría:
f(z,y) =P(X = a, Y= y)=P(rsX S z, ySYSy)= |f(u, ) dudv =0

lo cual implicaría que la función de densidad es constantemente nula y en consecuencia
f(z,y) dzdy = 0, que viola la condición 2) en la definición de densidad.
" La probabilidad de un suceso unitario del plano R es siempre nula. Esto es, si A = {(a, b)} C
R? entonces:
P(A) = P(X =a,Y =i) =P(a< X<a,bsY<0)= u, u) dudv =0

" Como consecuencia de lo anterior, se concluye que vale la cadena de igualdades:
P(a1 < X< az, b1 < Y< b2) P(a1 <X< az, bË <Y< bg) = P(aj < X < az, bË < Y< bz)
P(aj <X< az, bË <Y< b)
y las 12 combinaciones posibles restantes.
Veamos dos ejemplos de variables continuas bidimensionales:
* Ejemplo 12
En un sistema electrónico operan conjuntamente dos componentes de distinta naturaleza. Lla
mamos X al tiempo de vida útil (en miles de hs. ) del primero de ellos, e Y a tiempo de vida útil
(en miles de hs.) del segundo. Se sabe de datos erperimentales que:
(X,Y) ~ f(z, y) = *ee+) para z > 0, y >0

en c.o.C
1) Determinar el valor de la constante K.

2) Calcular la probabilidad que ambos componentes duren al menos 1000 horas e interpretar esta
probabilidad en la gráfica de la función f.
Solución:
1) Para hallar el valor de la constante K, usamos las condiciones impuestas sobre la función de
densidad conjunta, esto es:
1) f(z,y) > 0, (2, y) ¬ R². Tenemos que f(z, y) = 0, Vz, y) /z < 0 Vys0, pero si
z> 0,y> 0 resulta f(z, y) =e-(zty) > 0, con lo que debe ser K >0.
too to 1
fle, y) =
de dy e t e t ) dz dy==lK=4
Jo
Luego, podemos escribir:
(x,Y) ~f(e, y)= tee+y)

para z > 0, y> 0
0 en C.o.C
2) La probabilidad pedida se expresa simbólicamente como P(X > 1,Y > 1) y se calcula así:
rtoo 1
P(X>1,Y2)= e+) de dy =e-l a0.37
Numéicamente esta probabilidad coincide con el volúmen limitado por la superficie z = f(z, y) y
la región del plano: > 1,y> 1. Esto se muestra en la siguiente gráfica:
4 f(z,y)
volumen = P(X > 1, Y > 1)
* Ejemplo 13
Se ertraen al azar un punto (z, y) del cuadrado unitario [0, 1] [0, 1] contenido en el plano R?. Se
define variable aleatoria bidimensional (X, Y) por medio de:
X: "valor correspondiente a la primera coordenada"
Y: "valor correspondiente a la segunda coordenada"
1) Demostrar que tiene sentido proponer como función de densidad conjunta de (X, Y) a:
f(z,y) = 0
para 0 <zs1,0<ys1
en C.o.C
2) Calcular las probabilidades P(X<,Y<)yP (X +Y >)einterpretarlas geométricamente

en la gráfica de la función f.
Solución:
1)Tiene sentido suponer que todos los puntos del cuadrado unitario [0, 1] x [0, 1] tienen las mismas
probabilidades de ser elegidos (es decir, está presente la condición de uniformidad). Esto significa
que si tomamos dos puntos distintos (z1, v) y (2,ya) de dicho cuadrado y definimos sendos
entornos de radio ¬, el vólumen de los respectivos cilindros (v1 y v2) de base cada entorno y techo
la superficie de la densidad conjunta f, deben ser iguales. Gráficamente tenemos la situación
primera:
z= f(z, y)
(z1, U1)
(z2, y2)
Y la igualdad de los respectivos volúmenes se dará si y sólo si el techo es un plano, es decir,

sólo si f(z, y) = K (K constante real) para todo los (z,y) E [0, 1] x [0, 1]. Claramente, fuera del
cuadrado unitario, la densidad conjunta debe ser nula puesto que no se extrae ningún punto de
esta región del plano. Luego, para determinar la forma explícita de la función f debemos verificar
las condiciones en la definición de densidad conjunta:
1) f(,y) >0, V(2,y) ER?. Como f(z, y) =0, V(2,v) [0, 1] x [0, 1], debe ser K> 0
2) f(z, y) dz dy- | Kdz dy =1’ K=1
y esto demuestra que tiene sentido escribir:
1 para 0<<l, 0 <y<l

(X,Y) ~fe, y) = 0 en C.0.C
2) Según el punto 3) de la definición de densidad conjunta, las probabilidades solicitadas se calculan

Como:
P(KS}YS)=1de
Jo Jo dy =
9
P(X +Y> ) =1-P(X+Y<) =1 Jo Jo
1 dz dy =
32
Estas probabilidades coinciden numéricamente con los volúmenes de los cuerpos dibujados a con
tinuación:
volumen = P(X<}, Y<) volumen = P (X +Y<)
Como en el caso discreto, podemos también definir la función de distribución acumulativa F

como sigue:
Definición 7 Función de distribución acumulativa conjunta
Sea X = (X1, X2,..., XA) una variable aleatoria k-dimensional continua, se llama función de dis
tribución acumulativa de X a la caracterizada por el siguiente esquema:
F R R
F(z1, Z2,..., zk) = P(X1< *1, X2< T2,.., X* < a) =
P({s E S|Xi(s) < zi, X2(s) < z2, ..., Xk(s) < Tk,}) =
f(u1, ug,.., ua) ||du;

La función de distribución acumulativa conjunta, en el caso continuo, cumple similares propiedades
a las del caso discreto, las mismas se enuncian en el siguiente teorema (caso bidimensional):
Teorema 3
Si (X,Y) es una variable aleatoria bidimensional continua con función de distribución acumulativa
F(, y), entonces:
Va1,2, y, y2 ¬ R, z1 <I2, V| <y2 ’ F(*1, V) s F(z2, y2)
2) F es continua en todo punto (zo, Ho) E R':
lim
z+ro,y+yo
F(z, y) = F(To, Vo)
3) Vaj, a2, b1, bz E R,
P(a1 < X saz, bË < Y< ba) = F(az, ba) + F(a1,b1) - F(a2, bi) - F(a1,ba)
4) lim_ F(z, y) = F(-0, y) =lim_ F(z,y) = F(z, -o) =
lim F(z, y) = F(-o0, -oo) =0
Iy+-00
5) lim F(z, y) = F(+too, +oo) =1

22 CAPITULO 6. VARIABLES ALEATORIAS MULTIDIMENSIONALESs
Dermostración: queda como ejercicio para el lector.
Otro propiedad importante de esta función es la siguiente:

Teorema 4
Si (X, Y) es una variable aleatoria continua con función de densidad conjunta f(z,y) y función
8F(z, y)
de distribución acumulativa F(, y), entonces se verifica que f(z, y) = r ôy en los puntos
(z,y) ¬ R' donde esta derivada mizta erista.
* Ejemplo 14
a) Determinar erplícitamente la función de distribución acumulativa de la variable aleatoria bidi
mensional (X, Y) dl ejemplo 12 y con ella calcular la probabilidad P(X <2, Y < 2).
b) Verificar la propiedad enunciada en el Teorema 4.
Solución:
a) De acuerdo a la definición de la función F,tenemos:
1) V(z,)/zS0Vy S 0, F(2, y) = P(X< z,Y S ) = f(u,v) du du = 0, por ser

f(u, v) = 0 en esta región.
2) v(e, u) /z>0^y>0, F(z, y) =P(X<z,Y <y) =| |fu, o)du du =
J-oJ-oo ew du dv =(1--)(1--)
Entonces, podemos escribir:
para z <0Vy<0
Fe.)=(-c)(-)
b) La probabilidad indicada se calcula como sigue:
para z >0 ^ y>0
PX S2,Ys) =P(9,) =(1-ct) (1-e) =(1-e)'

b) Para verificar el cumplimiento del Teorema 4, hacemos:
1) f(z, y) = 8F(2, y) = 0, para los (z, y) /z <0 V ys0
2) f(, y) = -etrty), para los

(z,y)/z >0Ay>0
* Ejemplo 15
a) Determinar ezplícitamente la función de distribución acumulativa de la variable aleatoria bidi
mensional (X, Y) del ejemplo 13 yempleando esta función, calcular la probabilidad P (X<,Y s).
b) Verificar el cumplimiento de la propiedad enunciada en el Teorema 4.
Solución:
Es conveniente dividir al plano R² en las cinco regiones siguientes:
i)RÊ = {(z, y) ¬ R?/a <0,y <0} ii) R = {(z,y) ¬ R? /0<z,y<1}
iii) Rin = {(z, y) E R? /r > 1,0 <y<1) iv) Rrv = {(z, y) E R? /0 < z < 1, y > 1}
v) Ry = {(z, y) E R² /z> 1,v> 1}
Gráficamente se tiene la siguiente situación:
RÊv Ry
1
RI RI RIII
(0,0)| RI
1
y entonces, recorremos el plano R? parándonos en un punto genérico de coordenadas (z, y)

e integrando la función de densidad conjunta desde -oo hasta z (dirección paralela al eje de
las abscisas) y desde -oo hasta y (dirección paralela al eje de las ordenadas) según el siguiente
esquema:
(I,y)
(0,0)
según el punto (z, y) se encuentre en las diferentes regiones en que hemos dividido el plano, se
obtienen los siguientes cálculos:
Y(z,y) ¬R, F(z,y)

=f J-o( u , v) du du =0
-00
fu, v) du dv = 1 du du =.y
f(u, v) du du= | 1du du =y
V(e.y) ERiv, P(z,y) = f(u, v) du du ldu du =
Jo Jo
con lo que podemos expresar:
0 para z < 0Vy<0

Z.y para 0 <z<1,0<y<1
F(2, y) = para z > 1,0 <y<1
para 0 <z<1,y> 1
1 para z > l,y >1
24 CAPITULO 6. VARIABLES ALEATORIAS MULTIDIMENsIONALESs
y la función obtenida tiene como representación gráfica a:

La probabilidad solicitada se calcula como:
P(*srs)-()-=!
b) Verificamos la propiedad enunciada en el teorema 4, haciendo:
1) f(2, v) =
aP F(2, v)
=0, para los (z, y) /z <0 Vy<0
2) f(z,y)= aP F(*,) 8(2y) = 1,

Gzôy para 0 <z<1,0<y<1
3) f(z,y)= PF(z,v) __ 8P(u) =0, para z> 1,0<y<1

az ôy Ozôy
4) f(z,y)= 'F(a,y) _ 8(z) = 0, para 0 <z < 1l,y > 1
az ôy aroy
5) f(z,y)= 8F(, y) aP(1) =0, para z > 1,y>1
8zoy
6.7 Distribuciones continuas marginales
Al igual que en el caso discreto, conociendo la función de densidad conjunta f(z1, T2, .., zk) de
una variable aleatoria k-dimensional (X1, X2, .., X*), podemos obtener la función de densidad de
una de sus componentes ó de un grupo de ellas. La función resultante se conoce con el nombre de
función de densidad marginal y se calcula mediante la siguiente:
Definición 8
Dada una variable aleatoria k-dimensional continua (X1, X2, .., Xk), a partir del conjunto {X1, X2, .., Xk}
seleccionamos el conjunto de t variables {Xi,, Xi,,..., Xi}, con 1<t<k-1. Entonces la función
de densidad marginal de la variable aleatoria (Xi,, Xi,,..., X;,) se calcula como:
Js,d{si,iq.*)
Observaciones:
El doble subíndice empleado para denotar las variables del conjunto {Xi,, Xi,, .. Xi}, indica el
orden de la elección. Por ejemplo, Xi, representa a la primera variable elegida a partir del conjunto
original {X1, X2,..,X*}, y entonces podría ser Xi, = Xk.
El signo de integral de esta última definición representa a un total de k -t integrales, es decir una
por cada una de lask-t variables que no fueron tomadas en el conjunto {Xi,, Xi,, ., Xi}.
También podemos demostrar que el número total de funciones de densidad marginales que
podemos hallar es 2*2, tal como en el caso discreto.
* Ejemplo 16
Determinar las funciones de densidad marginales fx (z) y fr(y) para las variables del Ejemplo 13.
Solución:
Habíamos deducido que en este caso
(X, Y) ~f(z, y) = para 0 Ssl,0<y<I

0 en C.O.C
para fijar los límites de integración hacemos uso del gráfico del conjunto Rec(X, Y) como sigue:
6.7. DISTRIBUCIONES CONTINUAS MARGINALES 25
y fijo
(0,0)
z fjo
luego, para los valores 0 < <ly 0<y<lrespectivamente tenemos:
Ix(e) = fe. y) dy = 1 dy = 1
1 dz = 1
mientras que ambas densidades marginales son nulas para todo otro valor fuera del intervalo [0, 1].
Así, podemos expresar:
1 para0<<1 para 0 <y<l
X~ fx(z) =
0 en c.0.c Y~ fr(y) = 0 en C.o.C
* Ejemplo 17
Determinar las densidades marginales de X e Y respectivamente definidas en el Ejemplo 12.
Solución:
En ese ejemplo la variable bidimensional (X, Y) tiene densidad conjunta dada por:
f(e,y)= te+y) para z>0, y 0

en C.0. C
Observando el gráfico del conjunto Rec(X, Y):
y fijo
+o0
(0,0) z fijo
podemos escribir:
ix(a) = (e. y) dy = tdy = , para z >0

para y>0
mientras que ambas densidades marginales son nulas para todo otro valor fuera del intervalo
(0, +oo). Entonces, podemos escribir:
para z>0 para y >0
en c.0.C en c.0.C
* Ejemplo 18
Una variable aleatoria bidimensional (X, Y) tiene densidad conjunta dada por:
f(e, y) = 24y(1 - - y) para 0<i,y<1, z+y<1
0 en c.o.c
Determinar las densidades marginales fx (z) y fr(y).

Solución:
Teniendo en cuenta el conjunto Rec(x, Y) mostrado a continuación:
y=1-z
y fijo
(0, 0)' z fijo

1
realizamos los siguientes cálculos:
ix(a)=fa,y) dy = 24y(1 - z -y) dy = 4(1-z), para 0 <r<l
24y(1 - z - y) dz = 12y(1 -y), para 0 <y<1

mientras que ambas densidades marginales son nulas para todo otro valor fuera del intervalo (0, 1).
Entonces, podemos escribir:
para 0 <z<l
X~ fx(e) = en C.0.C
Y~ fr (y)=2y(1-v) para 0 <y<1

0 en c.o.c
6.7.1 Función de distribución acumulativa marginal

Si(X, Y) es una v.a. bidimensional continua, a partir del conocimiento de la función de distribución
acumulada conjunta, podemos hallar las respectivas distribuciones acumuladas marginales como
sigue:
VzeR, Fx (z) = lim F(, y) = ip.
y++0C
lim _I(u, )dudu
=
6.8. VARIABLES ALEATORIAS CONTINUAS INDEPENDIENTES 27
VyE R, Fr (y) = lim F(z,y) = lim

T’+00
f(u, v) dudv
J-o0
* Ejemplo 19
Determinar las distribuciones acumulativas marginales a partir de la conjunta, para las variables
estudiadas en el Ejemplo 14.
Solución:
Obtuvimos previamente que:
0 para z <0Vy<0
Pe.)(-)(-) para t >0Ay>0
Luego, la distribución acumulativa marginal de X se calcula como:

0 para z<0
Fx(e) =P(X S)=, P(.v) = (1-) para >0
de manera similar se obtiene la función Fy (y) intercambiando en los cálculos anteriores, z por
6.8 Variables aleatorias continuas independientes

Damos la siguiente:
Definición 9
Las variables aleatorias continuas X1, X2, ..,X7 son independientes si y sólo si la función de
densidad conjunta es igual producto de las respectivas funciones de densidad marginales, es
decir:
fe1,*3,., )=I[(*) i=1
* Ejemplo 20
Comprobar mediante el uso de la definición, que las variables X e Y del Ejemplo 13 son indepen
dientes.
Solución:
Empleando los resultados hallados en el Ejemplo 16, observamos que V(z,y) ¬ [0,1] x [0, 1],
f(e, v) = 1= 1.l= fx (=) fr(u). Por otro lado, V(z, y) ¢ [0, 1] x[0, 1], f(z, v) =0= fx(¢) fr(v),
ya que por lo menos una de los dos densidades marginales es nula en esa región. Luego, X e Y son
independientes.
* Ejemplo 21
Demostrar que las variables X e Y definidas en el Ejemplo 12, son independientes.
Solución:
Basándonos en los resultados obtenidos en el Ejemplo 17, se verifica que
V(z, y) /z >0,y>0, f(z, y) = e-r+y)
4
=et. ;e=fx(2)·fr(y)
Por otro lado, V(2, y) /z<0vy<0, f(z, y) = 0 = fx(æ)· fr(u), ya que por lo menos una de
los dos densidades marginales es nula en esa región. Entonces, según la definición, concluímos que
Xe Yson independientes.
* Ejemplo 22
Sin hacer el cálculo de las densidades marginales, justificar que las variables aleatorias X e Y
definidas en el Ejemplo 18 no son independientes.
Solución:
Observando el conjunto Rec(X, Y), vemos que sobre los pares (z, y) pertenecientes al mismo está
impuesta la condición z +y<l, es decir que fijado, por ejemplo, un valor z de X dentro del
intervalo real [0, 1], el valor y correspondiente de la variable Y queda determinado por la condición
y<1-z. Luego Xe Y no son variables independientes. También puede hacerse la demostración
utilizando las funciones de densidad marginales, pero este camino es más largo.
Al igual que en el caso discreto vale también el siguiente:
Teorema 5
Si (X,Y) es una v.a. bidimensional continua con función de distribución acumulativa conjunta
F(z, y), distribuciones acumulativas marginales Fx (z) y Fy(y) respectivamente, y X e Y son
independientes, entonces se verifica la igualdad:
F(2,y) = Fx(z) -Fr(y), V(z, y) ER?

Dernostración:
En cada punto (z, y) de R? se verifica la siguiente cadena de igualdades:
F(2,y) = P(X<z,Y <=

) ( u , u)dudu |= f x(u) -fr(v) dudu
| x(u)du J-o0
r(o) du =Fx(z)- Py(u)
lo que demuestra la tesis.
6.9 Distribuciones continuas condicionales

A partir de una variable aleatoria k-dimensional continua (X1, X2, ., X*), podemos estudiar el
comportamiento aleatorio de algunas de las componentes en función de otras. La función de den
sidad que nos proporciona este comportamiento se denomina función de densidad condicional
y viene dada por la siguiente:
Definición 10
Dada una variable aleatoria k-dimensional continua (X1, X2, .., X*), a partir del conjunto {X1, X2, ..., X7}
seleccionamos los conjuntos {X,, Xi,,.., X} y {X;, , Xja) ., X;.}, con 2< rts<k. Entonces la
función densidad de la variable aleatoria (Xi,, Xia) *., Xi) condicionada a la variable aleatoria
(Xj,, Xj¡, .., X;,) se calcula como:
f(z1, 2,.., z)]|dz,

La definición tiene sentido en los puntos donde f(zj, , Tj¡s ., zj,)#0
* Ejemplo 23
Sean X e Y dos variables aleatorias independientes, con densidad conjunta f(z, y) y densidades
marginales, fx(2) y fr(y) respectivamente. Demostrar que se verifican las siguientes igualdades:
h(æ/y) = fx (a) g(y/z) = fy (y)
6.9. DISTRIBUCIONES CONTINUAS CONDICIONALES 29
Solución:
Dado que Xe Y son independientes, se tiene que V(z, y) E R?, f(z,y) = fx(z)fy (v), entonces:
fx(z) fy(u) = fx(z)
a) y/fy(v) 0, h(/y) =
fy (y)
b) Ve/fx(z) #0, g(y/z) = ) fx(z)· fr(u) = fr (y)
fx (z) fx(z)
* Ejemplo 24
Para la distribución bidimensional definida en el Ejemplo 18, calcular las funciones de densidad
condicional h(z/y) v g(y/).
Solución:
Teniendo en cuenta los resultados obtenidos en el Ejemplo 25, resulta:
h(æ/y) = f(e, y) 24y(1 - z -y) 2(1 - z -u) para 0<Ky<l

fy (y) 12y(1- v)? (1- y)?
f(z,y)_ 24v(1- -y) 6y(1 -z -y)
g(y/z) =
(1- )3 para 0<z<1
fx(z) 4(1- )3
Observación: con respecto a la gráfica de una densidad marginal a partir de la gráfica de la
densidad conjunta.
Sea yo un valor particular de la variable aleatoria Y, entonces de cumple que:
h(z/yo) = f, yo) ’ f(z,y.) = fr (36) a(z/yY)

r(yo) a=cte.
esto nos dice que la cuantía condicional h(z/yo) es directamente proporcional a la densidad conjunta
f(z, y.). Entonces, proyección de la función f(z, y) en el plano zt no necesariamente nos
permite obtener la gráfica de la función h. Sólo se verificará esto si ao = 1, es decir, si X e Y son
independientes. En el caso del ejemplo de los nacimientos se ve claro que las proyecciones de la
densidad conjunta sobre los planos z| y zy no coinciden con las respectivas funciones de densidad
marginales. Este comentario puede visualizarse gráficamente como sigue:
z= f(z, y)
fx(z)
f(z, yo)
La función h(æ/yo) es proporcional a f(, Y.)

6.10 Distibuciones deducidas a partir de una dada

6.10.1 Introducción
Es frecuente en muchos problemas concretos, no trabajar directamente con la distribución de una
variable aleatoria X,sino emplear la distribución de alguna función de ella. Por ejemplo, si cono
cemos la distribución exacta del radio R de una esfera, podríamos estar interesados en calcular
probabilidades asociadas a la variable volumen V=r. De hecho, cualquier probabilidad aso
ciada a la variable V, se puede calcula con sólo conocimiento de la distribución de R ya que
podemos expresar R= / , En general, si entre dos variables Xe Yexiste la relación Y= H(X),
tenemos que determinar explícitamente X = H-(Y), aunque no siempre sea fácil como por ejem
plo en los casos siguientes:
9)Y=In() ii) Y = X(V3X -7) ii) Y= (2X + 1)X

Por ello es importante estudiar métodos que permitan determinar la distribución de la variable
Y a partir de la distribución de X.
Podernos dividir el tratamiento de sección en dos partes, el caso unidimensional y el multidi
mensional.
6.10.2 Caso unidimensional

En esta situación, distinguiremos los siguientes casos:
Caso a): Cuando X es discreta e Y también.
Caso b): Cuando X es continua e Y es discreta.
Caso c): Cuando X es continua e Y también.
En los dos primeros casos tenemos que determinar la función de cuantía de la variable Y, y en el
tercero, la función de densidad de Y
Caso a): Aquí, dado la función de cuantía de X, p(z), la función de cuantía de Y se determina
por medio de la relación:
VyER, a(y) = P(Y = ) = P(H(X) = y) = P(X = #-())
* Ejemplo 25
Con respecto a la variable X definida en el Ejemplo 1 del Capitulo 5, determinar la función de
cuantía de la variable
Y: "duplo del número de ases obtenidos más uno"
Solución:
Podemos expresar Y= 2X + 1, con lo que los valores posibles de la variable Y son los elementos
del conjunto Rec(Y) = {1,3, 5}.
Además, recordemos que:
R para z = 0
36 para z = 1
X~ p(z) =
36 pana z = 2
en C.0.C
Iuego, los valores de la función de cuantía g(o) se calculan mediante la relación
vyeR, a{y) =P(Y =y) = P2x+1 =y) =P(X=)

6.10. DISTIBUCIONES DEDUCIDAS A PARTIR DE UNA DADA 31
Esto nOs permite escribir
q(1) = P(Y = 1) =P(X= 0) =p(0) =

q(3) = P(Y =3) = P(X= 1) =p(1) =
g(5) = P(Y = 5) = P(X = 2) =p(2) =
Vy Rec(Y), g(y) = P(Y = y) = P(X = H-(u)) = P(O) =0
Finalmente podemos expresar:
para y=1
para y =3
Y ~ g(y) =
6 para y = 5
en c.o.c
* Ejemplo 26
Consideremos el erperimento aleatorio de lanzar un dado regular hasta que aparece un número
mayor que 2. Definimos la variable aleatoria:
X: "número de intentos fallidos"

Una persona le pide a otra que lance el dado hasta que tenga érito (aparece un número mayor que
2), si requiere un número par de lanzamientos obtendrá como premio S1, de lo contrario no ganará
nada. Determinar la función de cuantía de la variable aleatoria:
Y: "ganancia obtenida por la persona que lanza el dado"
Solución:
Se puede demostrar que (ejercicio para el lector):
X~p(z) =
() para z =0,1,2,...
en c.o.C
Además, los valores posibles de Y son y = 0, 1, entonces la función de cuantía de la variable Y,

g(y), toma los valores:
1) (0) = P(Y = 0) = P(X = 2n -1, neN) = r=2n-1

p(z) =
2) (1) = P(Y = 1) = 1- P(Y = 0) =1- (0) =

3) Vy¢ {0, 1), g(u) = P(Y = y) = PX = #-(0))= P(0) = 0
Luego,
para y =0
Y ~gly)={ para y =1
en c.o.c
32 CAPÍTULO 6. VARIABLES ALEATORIAS MðLTIDIMENSIONALES
Caso b): Para cada valor y fjo, denotamos A,, = {z¬ R/y= h(z)}. Entonces, dada la función
de densidad de X, f(z), la función de cuantía de Y se determina por medio de la relación:
VyE R, g(y) = P(Y = y) = P

Ay
* Ejemplo 27
Se sabe que la proporción de combustible que una cisterna de una estación de servicio contiene en
un período de un mes, es una variable aleatoria X con función de densidad dada por
f(æ)= - para 0<z <1 en c.0.C
Al final del mes se inspecciona la cisterna, si la proporción X es inferior al 70%, se considera que
las ventas fueron satisfactorias y se asigna un 1, de lo contrario se considera que las ventas fueron
malas y sgna un 0. Sea Y la variable que identifica esta calificación, determinar la función de
cuantia de ella.
Solución:
Claramente, los valores posibles de Y son y = 0, 1, entonces la función de cuantía q(y), toma los
valores:
0.7
-P(xsor)-[-e-),
1) g(0) = P(Y = 0) =P = 0.819
2) g(1) = P(Y =1) =P x03)=1-Px<o))==0.181

a) vyd (0,1). e) = P(Y = ) = P = P(0) = 0
Caso c): En esta situación tenemos realizar los siguientes pasos

1) Determinar la función de distribución acumulativa de X, F(¢).
2) Calcula la función de distribución acumulativa de Y = H(X), suponiendo que existe H-,
por medio de la siguiente relación,yE R:
P(X< H-()) = F(H-'(9) si H-1 es creciente
G(y) = P(Y <v) = P(H(X) < v)=
P(X> H-l(y)) =1 F(H-'(9)) si H- es decreciente
3) En los puntos y donde la derivada exista, calculamos la función de densidad de Como
g(y) = dG()
dy
* Ejemplo 28
En el Ejemplo 7 del Capítulo 5 hemos estudiado la variable X: "tiempo de vida útil de ciertos
componentes electrónicos, etpresados en hs". Determinar función de densidad de la variable
Y = In X.
Solución:
La función de densidad de Xy su función de distribución acumulativa respectivamente son:
aea para z > 0, a > 0
en C.o.C
P(a)=,0
1-e-ar
para z <0
para z>0, a>0
Ahora, seguimos las etapas antes mencionadas para obtener la función de densidad g(y):
1) Determinar la función de distribución acumulativa de X, F(z): ya la tenemos calculada.
2) Calculamos luego la función de distribución acumulativa de Y= In X: sabemos que existe
H-'(X) = e,yque ésta es una función creciente, por lo tanto
yeR, G(y) = P(Y <y)= P(lnX <y) = P(X< e) = F(e)= 1-e-oe, ya que e > 0
3) La derivada de la función G existe en todo punto del eje real, y entonces calculamos la función
de densidad de Y como
s(y) = dG(y) d(1- e-oe')2=aee-ae", VyE R

dy dy
* Ejemplo 29
Un matrimonio de recién casados puede consumir hasta 1 Kg. diario de carne. Esta cantidad
(X) varia seqún los diferentes platos que se elaboran para las comidas. Se sabe que X tiene una
distribución dada por:
f(z) = para 0<<1
en c.o.C
El gasto gue la compra diaria de carne requiere es Y=1-3X. Determinar la función de densidad
de esta variable.
Solución:
Primero determinamos la función de distribución acumulativa de X: se dermuestra que la misma
es
0 para z <0
P() = para 0 <e<l
1 para z >1
y entonces, la función de distribución acumulativa de Y es:

0 para y S-2
G(y) := P(Y <y) = P(1-3X Sv): )-r(r--() ()para -2 <y<1

para y>1
Y entonces, en los puntos en que esta última función es derivable, tenemos:
para -2 <y<1
en c.o.C.
* Ejemplo 30
Sea X una variable aleatoria continua con función de densidad f y de distribución acumulativa F.
Demostrar que función de densidad de la variable Y = X' tiene la forma
1
Solución:
Dada F, procedemos como sigue
G(y) = P(Y <y) = P(X'< y) = P(-Vys X< V) = F(VD) - F(-V)
y entonces, en los puntos donde F es derivable se cumple:
gly) = a(P(y) dy-F-v9)f/)(+f-v=UV)+f(-VD)

lo que completa la demostración.
6.10.3 Caso multidimensional

En este punto se presentan algunos casos típicos de estudio, que resultan interesantes por sus
aplicaciones posteriores. No daremos una metodología general, sino que trataremos cada caso por
separado empleando el camino más conveniente desde el punto de vista del cálculo.
En el capítulo siguiente aprenderemos a generar distribuciones a partir de la suma de un número
finito de variables aleatorias independientes, mediante el uso de una función muy particular llamada
función generatriz de momentos. Pero si las variables no son independientes en una suma ó
deseamos determinar la distribución de una función no lineal de ellas, esta función no es útil. Por
otro lado, nos interesará en particular trabajar con variables continuas.
* Ejemplo 31
Determinar la función de densidad de la variable Z = X+Y, donde X e Y son independientes y
tienen distribuciones marginales del tipo estudiado en el Ejemplo 7 del Capítulo 5.
Solución:
Como X e Y son independientes, podemos demostrar que la función de densidad conjunta es
fla, v) = aeaz+9) para z,eny> 0, a>0
C.o.c
Calculemos primero la función de distribución acumulativa de Z, apoyándonos en el siguiente

dibujo:
y=Z
notar que fijado un valor z de 2, éste es la ordenada al origen de la recta Y= z- X,luego

1) Vz s0, G(:) = P(Z < :) = P(X + Y < z) = 0, por ser f = 0 en cualquiera de los
cuadrantes distintos del primero.
f(z, y) dr dy = 1-e-az aze- az
2) Ve>0, G(2) =P(Z< ) =P(X +Ys:)=
y entonces, la función de densidad de Z es:
ste)=6e-a(a +a'z) para z> 0, a >0

en c.0.C
* Ejemplo 32
Sea {X1, X2, ., Xn) un conjunto de variables aleatorias independientes igualmente distribuidas con
función de distribución acumulativa F y de densidad f. Determinar la función de densidad de
variable W= Már{X1, X2, ., Xn)}.
Solución:
Calculamos primero la función de distribución acumulativa de W:
VwE R, G(w) P(W < w) = P(Máx{X1, X3, ., Xn) < w)
P (X1 S w, X2 S w, .. Xn S w) = (P (X < w)]"
= (F(w)]r
y entonces, la densidad de W es
dG(w)
g(w) = dw =n (F(w)l= f(w) wE R.
* Ejemplo 33
En las mismas condiciones del ejemplo anterior, determinar la función de densidad de la variable
aleatoria V= Mín{X1, X2, , Xn}.
Solución:
Procediendo de manera análoga al caso anterior, calculamos en primer término la función de
distribución acumulativa de V:
VuER, G() = P(V < v) = P(Mín{X1, X2,.., Xa}<)

= 1-P(Mín{X1, X2,., Xn}> v)
= 1-P(X1 > v, X2>,.., X, > v) =1-[P(X> )]"
= 1-[1-P(X<v)]" =1- [1-F(")]"
y entonces, la densidad de V es
g(v) = dG(v) =n [I- F(v)]" f(v), uER

du
* Ejemplo 34
Sean X e Y dos variables aleatorias continuas con densidad conjunta f(2,y), determinar la den
X
sidad conjunta de las variables U = X · Y y V=.
Solución:
Pensamos en el sistema de funciones implícitas y su correspondiente sistema inverso:
u= u(z, y) = z.y z(u, v) = Vu.u
v= v(z,y) = y=y(4, v) = V
y entonces podemos escribir:
en esta,
con lo que
(:)
Vu, v) E Rec(U, V), u, v # 0

o Ejercicio 1
Suponer que en un cartel luminoso hay 3 focos en la primera fila y 4 focos en la segunda. Sea X
el número de bombillas de la primera fla que se queman en un instante de tiempo ty sea Y el
número de bombillas de sequnda fila que se queman en el mismo instante de tiempo. Si la v.a.
bidimensional (X,Y) tiene función de cuantía conjunta dada por la tabla:
0 1 2 3 4
X
0.080.07 0.06 0.01 0.01
1 0.06 0.10 0.120.050.02
2 0.050.060.090.04 0.03
3 0.02 0.030.030.030.04
a) Calcular: P(X = 2, Y = 4), P(X < 2, Y < 3), P(Y >3), P(X = Y), P(Y < X)
b) Determinar las funciones de cuantía marginales de X e Y y graficar las tres cuantías involu
cradas en el problema.
c) Son X eY variables aleatorias independientes?.
d) Deducir la función de distribución acumulativa F(z, y) y graficarla.
e) Determinar las funciones de cuantía condicionales p(*/v) y gly/z).
o Ejercicio 2
Sea el erperimento aleatorio [: "lanzar tres dados legales una vez", se define la v.a. bidimensional
(X, Y) donde X es el número de primos obtenidos en las dos primeras lecturas e Y es el número
de pares obtenidos en las dos últimas lecturas.
a) Deducir al función de cuantía conjunta p(z, y) y graficarla.
b) resolver las cuestiones b) ae) del ejercicio anterior.
c) Calcular P(X + Y < 3) y P(X > 2)
o Ejercicio 3
Supongamos que la v.a. bidimensional (X, Y) tiene función de cuantía conjunta dada por:
p(z,y) =*|z+yl
0
para z, y=-2, -1, 0, 1, 2
en c.o.C
6.11. EJERCICOS COMPLEMENTARIOS 37
a) Determinar el valor de la constante k.

b) Son X eY independientes ?.
c) Determinar las funciones de cuantía marginales de X e Y respectivamente.
d) Calcular P(|X Y|s1)y P(Y =-2).
o Ejercicio 4
Supongamos que elegimos al azar un punto (X, Y) del rectángulo R definido por:
R={(z, y) ER" /0<s3, 0< vs4}
a) Determinar la función de densidad conjunta f(z, v) y graficarla.
b) Son X eY variables aletorias independientes?.
c) Determinar las funciones fx (z), fr (y), h(z/y), g(y/=) v graficarlas.
d) Calcular P(X > 2, Y < 3), P(X-Y >1) e interpretar estos valores en la gráfica de la función
f(e, y).
e) Probar que la función de distribución conjunta F(z,y) en un punto (z,y) del interior del
rectángulo es:
F(z,y) = 19
Qué forma tiene en los puntos de la región R? R?.
Calcular P(1 < X < 2,1 < Y< 2) y la función de densidad f(z, v) (comparar con el resultado
obtenido en a)).
f) Con los resultados de e), deducir las funciones Fx(z) y Fy (y).
o Ejercicio 5
Dos variables aleatorias independientes X e Y tienen densidades marginales dadas por:
para 0<r<l
en c.O.C fr (y) = So8y para 0<y <
en c.0.c
a) Determinar la función de densidad conjunta f(z, y) y graficarla

b) Calcular el valor de P(X >Y) e interpretar este valor en el gráfico del punto anterior.
o Ejercicio 6
Se eztrae al azar un punto del cínculo definido por la relación r² + y < 2. Sean X e Y las
coordenadas del punto seleccionado.
a) Determinar la función de densidad conjunta de X e Y y dibujarla.
b) Son X eY independientes?. Son independientes los sucesos {X <1} e {Y >}?.
c) Determinar la función de densidad condicional h(z/y) y dibujarla.
d) Calcular P(X'+ Y² > 1) e interpretar este resultado en el gráfico de f(a, v).
o Ejercicio 7
Sean X e Y dos variables aleatorias con función de densidad conjunta dada por:
ksenz para 0< 0 < y 3
0 en c.o.C
a) Determinar el valor de la constante k y dibujar la función f.

6) Hallar la función de densidad condicional g(y/z) y calcular P(1<Y < 2/ X= 0.73).
o Ejercicio 8
Si (X1, X2, X3) es una variable aleatoria con función de densidad conjunta:
f(z. y. z) = keei+a+irs) para z1, 2, z3 > 0
0 en c.0.C
a) Determinar el valor de la constante k.

b) Hallar la densidad conjunta marginal de X1 y X3.
c) Calcular P(X1 < 1/X=2, X3 = 1).
o Ejercicio 9
De una urna que contiene 3 bolillas rojas y 5 blancas, se ertraen de una en una y con reposición
4 bolillas. Sea X la variable aleatoria que indica el número de bolillas rojas obtenidas. Deducir la
función de cuantía de la variable Y definida como Y = X³ -1. Calcular la P(Y > 4).
o Ejercicio 10
Una persona, al hacer una llamada telefónica desde una cabina del campus de la U.N. Sa, tiene
una probabilidad de 0.89 de comunicarse con el número deseado. Realiza tantos intentos como sean
necesarios hasta comunicarse (se supone que los intentos son independientes entre si). Si X es
la variable que cuenta el número de pruebas, determinar la función de cuantía de la v.a. Y que
cuenta el número de intentos fallidos. Cuál es la P(2 < Y <5)?.
o Ejercicio 11
Supongamos que el radio X de un círculo es la v.a. con función de densidad dada por.
fa)=Sz +1) para 0<z<2 en c.0.C
Determinar la función de densidad de las variables A: "área del círculo" y V: "volúmen de la

esfera de radio X". Graficarlas.
o Ejercicio 12
Sean las variables aleatorias independientes X eY idénticamente distribuidas con densidad:
e para z>0
en c.o.C
a) Deterninar la función de densidad conjunta de las variables U = XY y V=. Son indepen

dientes U y V?.
b) Deterninar función de densidad conjunta de las variables U = y V = X+Y. Son
independientes U y V?.
o Ejercicio 13
Sean X1,X2, ..., Xn variables aleatorias independientes con distribución idéntica dada por:
1 para 0<<1
en c.o.C
a) Determinar la función de densidad de la variable U= Már(X1, X2, .., Xa).

b) Determinar la función de densidad de la variable U = Mín(X1, X2, ., Xn).
Bibliografia
[1] Harold Cramer, Métodos Matemáticos de Estadistica, Ed. Aguilar, 1963.
[2] Mood y Graybill, Introducción a la Teoria de la Estadística, Ed. Aguilar,1970.
(3] William Feller, Introducción a la Teoria de las Probabilidades y sus Aplicaciones, Ed. Limusa
Wiley, 1978.
1986.
(5] William Mendenhall, Introducción a la Probabilidad y la Estadística, Ed. Grupo Editorial

Iberoamerica, 1987.
[6] Ricardo A. Maronna, Probabilidad y Estadistica Elementales para estudiantes de Ciencias,
[71 Morris de Groot, Probabilidad y Estadistica, Ed. Addison-Wesley Iberoamericana, 1988.
[8] George C. Canavos, Probabilidad yEstadística, Aplicaciones y Métodos, Ed. McGraw-Hill, 1993.
Ciencias Exactas-U.N.Sa, 1997.
[11] Orlando J. Avila Blas, Variable Aleatoria Unidimensional, Apuntes de Teoría de Proba
bilidades y Estadística. Departamento de Matemática-Facultad de Ciencias Exactas-U.N.Sa,
1998.
39
Contenido
7 Valores Esperados y Momentos 3
7.1 Esperanza Matemática

7.1.1 Propiedades de la Esperanza 7
7.2 Momentos de una distribución
7.2.1 Propiedades de la Varianza
7.3 Función Generatriz de Momentos 10
7.3.1 Propiedades de la Función Generatriz de Momentos 11
7.4 Otros momentos 14
7.5 Esperanza Condicional 17
1
Capítulo 7
Valores Esperados y Momentos

Educar no significa formar al otro a nuestra semejanza, sino dejar que sea él mismo..
7.1 Esperanza Matemática

Definición 1 Esperanza
Sea X una variable aleatoria con distribución p() ó f(z) (si X es discreta o continua respectiva
mente), se define esperanza de X ó valor esperado de X al número real:
zp() caso discreto
E(X) = = (7.1)
zf(z) dz caso continuo
Elconjunto Tse define como: T= {zE Rec(X) /p(z) > 0}.

Este valor existe siempre que la suma o la integral correspondiente sea absolutamente conver
gente, esto es, eTle|p(z) < oo óJelf() dz < oo.
* Ejemplo 1
Sea el ezperimento de lanzar un dado regular una vez. Definimos la variable aleatoria X como el
valor obtenido, luego p(z) = para z = 1,2,.. .,6 yp(z)=0 en otro caso.
El valor esperado de X es entonces:
6
1 1 1 1 7
E(X) = L*p(e) =1+2-+3t4t5+6-==3.5
Vemos que no es necesario que E(X) coincida con un valor posible de X. De hecho,no es el
valor que esperaríamos ver cuando realizamos una vez el experimento. Por el contrario,
si obtuviéramos un gran número de observaciones independientes de X, tales como #1, T2,..., Zn
y calculamos el promedio aritmético, éste estará cerca de E(X) en un sentido probabilístico. Por
ejemplo, en el caso recién dado, si lanzáramos el dado un gran número de veces y calculásemos el
promedio aritmético de los diversos resultados, esperaríamos que este promedio llegase a estar más
cerca de cuanto más a menudo fuese lanzado el dado (es decir, n o).
* Ejemplo 2
Un fabricante produce artículos de tal modo que el 10% son defectuosos y el 90% no lo son. Si se
produce un artículo defectuoso, el fabricante pierde $1, mientras que un artículo sin defectos le da
una utilidad de $5. Sea X la utilidad neta por artículo, entonces X es una variable aleatoria
cuyo valor esperado es:
3
4 CAPITULO 7. VALORES ESPERADOS Y MOMENTOS
E(X) = -1.(0.10) + 5.(0.90) = 4.40

Puesto que su función de cuantía es:
0.10 para z =-1
p(z) = 0.90 para =5
en c.o.c.
Supongamos que se produce una gran cantidad de artículos, entonces, puesto que el fabricante
perderá $1 alrededor del 10% de las veces y ganará $5 alrededor del 90% de las veces, él esperará
ganar alrededor de $4.40 por artículo la larga.
* Ejemplo 3
Sea X una variable aleatoria con función de cuantía dada por:
5
KO)-(:)()O) ;z=0, 1, 2, 3,4, 5(p(z) = 0, en c.o.c.)

Luego, para calcular el valor esperado de X hacemos:
E(X) =
-(0)G)"
5
5!
Z'5-2)!!
C=0
4!
= 5
34-(e-1)|(* 1)!
5
3
2()GO"
y=r-1
Ejercicio 1
Dar una interpretación de este resultado
* Ejemplo 4
Para ciertas muestras de minerales, la proporción de impurezas por muestra, Y, es una variable
aleatoria con densidad dada por:
para 0 <y<1
en c.o.c
Para este caso, calculamos el valor esperado de Y como:
E(Y) = uf(y) dy=y0dy +

3
=
17
=
24
7.1. ESPERANZA MATEMÁTICA 5
Observación: Debemos tener en cuenta la analogía entre el valor esperado de una variable
aleatoriay el concepto de centro de masa en Mecánica. Si tenemos una masa unitaria distribuída
en un conjunto discreto (finito o infinito numerable) de puntos ó bien, distribuída en forma continua
a lo largo de la recta R, E(X) representa el centro de masa de la distribución.
Gráficamente, en el caso mostrado en el Ejemplo 3 tenemos:
P(«)
X0|1 2 3 4 5
p(x) 0.13 0.33 0.33 0.16 0.04 0.004
2
Figura 1
En la figura 1, el símbolo A está indicando la posición del valor esperado que en este caso es
E(X)== 1.66.
* Ejemplo 5
Sea X una variable aleatoria continua con función de densidad dada por:
f(z) = T'2+ (z- a)? V ¬ R, A>0, a ¬ R
Esta es la llamada Distribución de Cauchy, para la cual el parámetro a es la mediana y la

moda. Este es un ejemplo concreto de distribución que carece de valor esperado pues, analizando
el caso particular con À= 1 y a=0 se tiene:
+00
ptoo 1
E(X) = d=g-)=osle +1)
Ya que la función g(x) es pary no negativa, basta con analizar g'(z) dz, pero esta integral
diverge y, en consecuencia, E(X) no existe.
Ejercicio 2
Dar otro ejemplo de una variable aleatoria unidimensional que no tenga valor esperado. (Sugeren
cia: intentar con hipérbolas equiláteras).
Definición 2 Esperanza para el caso multidimensional
Sea (X1,X2,..., Xn) una variable aleatoria n-dimensional (discreta, con función de cuantía con
junta p(z1, T2, ... , z4) ócontinua, con función de densidad conjunta f(z1, *2,..., zn)), entonces,
Vi= 1,2,,n:
c. discreto
2p(1,3,:.,zn)
E(X) = (7.2)
En el caso discreto, (*1, T2, -, zn) ¬T= {(*1,.., In) E R"/p(z1, .., zn) > 0}.
Desde luego, este valor real existe siempre y cuando la suma o integral múltiple sea absolutamente
convergente.
Teorema 1 Esperanza de una función de una variable aleatoria
Sea ~ p(e) óf(z) según sea una variable aleatoria discreta o continua respectivamente, y sea
Y= HX) una función de X, entonces la esperanza de Yse calcula como sigue:
reT
A(=)P(>) caso discreto
E(Y) = (7.3)
h(z)f(z) dz caso continuo
La importancia de este teorema radica en el hecho de que podemos hallar el valor esperado de una
función de la variable en cuestión, sin necesidad de conocer la distribución de Y. Una demostración
formal del mismo tanto en el caso discreto, como el caso continuo es un poco complicada. (')
* Ejemplo 6
Un instrumento electrónico tiene una duración W que se considera como una variable aleatoria
continua con densidad dada por:
para w>0
f(w) = en c.o.C
Se pide hallar la esperanza de la variable Z = |W|.

Usando el teorema recién enunciado, se tiene que:
E(Z) = lwlf(w) du
0
lwl-0 dw + we dw
we- dw = 1
Esta última integral se resuelve por partes.

Ejercicio 3
Verificar este resultado haciendo el cálculo por definición, lo cual implica que se debe hallar primero
la densidad de la v.a. Z.
Ejercicio 4
Determinar (cuando erista) el valor de las siguientes erpresiones:
a) E(X' + x) b) E() c) E(})
siendo X, la variable aleatoria definida en el Ejemplo 1 (Pág.3).
Podemos extender el Teorema 1 al caso multidimensional de la siguiente manera:
Teorema 2
Sea (Xi, X2,...,Xn) una variable aleatoria n-dimensional (discreta, con función de cuantía con
junta p(t1, I2, ,n) 6 continua, con función de densidad conjunta f(z1, T2, . .., zn)) y sea
Y = g(X1, X2,...,Xn), entonces:
Puede consultarse en (2], págs. 127-128.
7.1. ESPERANZA MATEMÁTICA 7
caso discreto
E(Y) = (7.4)
caso continuo
Nuevamente, en el caso discreto, los valores z1, .., zn pertencen al conjunto T definido anterior
mente.
7.1.1 Propiedades de la Esperanza

Sea X una variable aleatoria discreta o continua, k una constante real y H(X) y G(X) funciones
de X, entonces las siguientes propiedades son válidas:
1) E(k) =k
2) E(k.H (X)) = k.E(H(X))
3) E(H(X) + G(X)) = E(H(X) + E(G(X)
4) E(k.H (X)+ G(X)) = k.E(H(X))+ E(G(X)) (Consecuencia de 2) y 3)
5) Sea (X, Y) una variable aleatoria bidimensional con distribución conjunta p(z, y) óf(z, v) y sean
U= U(X, Y) y V= V(X, Y) funciones de X y de Y, entonces:
E(U + V) = E(U) + E(V)
Como caso particular, si U = X y V=Y, se tiene que:
E(X + Y)=E(X) + E(Y)

6) La propied ad anterior puede generalizarse a una cantidad finita de variables aleatorias de modo
que:
(Ex)-ja
Lo cual puede probarse usando el Teorema 2 ó bien, por Inducción Matemática Completa.
Ejercicio 5
Demostrar las propiedades 1) a 6) antes enunciadas.
7) Si X e Y son variables aleatorias independientes, entonces:
E(X.Y) = E(X).E(Y)
Demostración: (caso continuo)
E(X.Y) = zy.f(z, y) dzdy
z.y.fe(z).fy(v) dzdy (por independencia de Xe Y)
-08
f(e) d z )
dy
E(X).E(Y)
Ejercicio 6
Demostrar la propiedad anterior para el caso discreto.
La proposición recíproca no es válida; puede ocurrir que se cumpla la igualdad E(X.Y) =
E(X).E(Y) y sin embargo X e Y no sean independientes, como se ve en el siguiente:
8 CAPÍTULO 7. VALORES ESPERADOS Y MOMENTOS
* Ejemplo 7
Una partícula parte del origen de la recta R y se mueve a lo largo de ella dando saltos de una
unidad. En cada salto, la probabilidad de que la partícula salte una unidad a la izquierda es p
(0<p< 1), y de que la partícula salte a la derecha es 1-p.
Sea X: "posición de la particula luego de un salto".
a) Deducir la función de cuantia p(æ).
b) Calcular E(X) y luego, usando este valor, determinar el valor esperado de la posición de la
partícula luego de 30 saltos.
c) Sean p = eY = X', probar que E(X.Y) = E(X).E(Y). Qué puede concluirse en general
sobre la independencia entre X e Y?.
Los valores posibles de la variable X son los elementos del conjunto Rec(X) = {-1,+1) y un
espacio muestra para el experimento aleatorio de un salto de la partícula es S = {I, D}, teniendo
en cuenta que la partícula puede saltar a izquierda ó a derecha.
a) Entonces, la función de cuantía de X es:
P({}) =p para z=-1
p(z) = P(X = )= P({D)) = 1-p para z= +1
P(0) = 0 en c.0.C
b) Primero, vemos que:
E(X) = zp() = (-1),p(-1) + lp(1) = 1-2p

Ahora, si definimos la variable W: "posición de la partícula luego de 30 saltos", se ve que:
W=X+X2+.+X30
donde cada X; tiene la misma distribución que X, i=1,2,..., 30, con lo que:
30
E(W) = E(X1 + X2+. +Xao) =E(X;) = 30(1 - 2p)

i=1
c) Si p= , entonces E(x) =1-2-=0y si Y = X?

B(XY)=B(xx*) =E(x*) =(-1)°;+(4;=0
lo que demuestra la igualdad enunciada.
Sin embargo, pese a la validez de la igualdad E(X.Y) = E(X).E(Y), vemos que en este caso,
Y tiene dependencia funcional de X, dado que están vinculados por la expresión Y= X?. En
consecuencia, X e Y son variables aleatorias dependientes.
Otro ejemplo el de los nacimientos estudiados en el capítulo anterior (Ejercicio para el lector).
7.2 Momentos de una distribución

Estos números son los valores esperados de las potencias enteras no negativas de la variable
aleatoria en cuestión. Para simplicar la notación, trabajaremos con el caso continuo, para el discreto
basta reemplazar la integral por una suma.
Definición 3 Momento natural de orden r de una distribución
Cuando eriste, llama así al número real definido por la ezpresión:
7.2. MOMENTOS DE UNA DISTRIBUCIÓN 9
Si r = 1, obtenemos E(X), de modo que el momento de orden uno de cualquier variable

aleatoria es siempre su esperanza.
Si r = 0, obtenemos o = E(X°) = E(1) = 1, es decir, el momento natural de orden cero es la
constante 1.
Definición 4 Momento Centrado

Se llama momento centrado de orden r con respecto a urn valor a E R al número real definido por
la ezpresión:
4 =E(X - a)') = a-a)'f(e) d ,Yre z¢
En particular, podemos considerar los momentos centrados con respecto a u, = E(X):
4= E(X - )= | (z-u-)f=)dz
En este caso, (")
r=0 =_I)dz =1
T=1
’ n= | (-)f(z) dz =E(X)-# =0
r=2 ’ 2 -/ (a-) fe) dz =of
Esta última expresión es la llamada Varianza de X, la cual, según nuestra notación se puede
definir mediante:
o= Var(x) = E[X -E(X)]?
Ejercicio 7
Probar, usando propiedades del operador E, que la expresión anterior puede escribirse también
COmo:
;= E[X] - [E(X))?
Esta última se conoce también como forma erpandida de la varianza. Si tomamos la raíz cuadrada
positiva de la varianza de X, obtenemos la llamada desviación estándar de x, la cual se
simboliza con or.
* Ejemplo 8
Hallar la varianza de la variable Y definida en el ejemplo 4. Recordemos que:
para 0 < ys1
en c.O.C
En consecuencia,
y, según se calculó antes, E(Y) = por lo que:

11
o÷ = E[Y)- (E(Y)]' = -()'> ~0.048
Ejercicio 8
Hallar la ot para las variables aleatorias definidas en los ejemplos 1, 2 y 3.
2el cálculo de Lo justifca que tiene sentido tomar X=1 para cualquier v.a. X
10 CAPÍTULO7. VALORES ESPERADOS Y MOMENTOS
7.2.1 Propiedades de la Varianza

Si interpretamos a la varianza como el momento de inercia y a la esperanza como el centro de
masa unitaria, entonces la forma expandida de la varianza simboliza el enunciado de un conocido
teorema de la Mecánica, el cual considera el momento de inercia respecto a un punto arbitrario.
Algunas de las propiedades más importantes de la varianza de una variable son las siguientes:
1)Vc E R, Var(X + c) = Var(X), esto es, varianza no se mnodifica por una traslación.
2) Vc ER, Var(cX) = cVar(X)
3) Si X tiene varianza finita, Va E R:Var (X) = E[(X a)]-[E(X) - a]?
4) Si X e Y son independientes, Var(X + Y) = Var(X) + Var(Y)
Demostración de la prop. 4:
Var(X + Y) E[(X + Y))- (E(X + Y)?
E(X'+ 2xY + Y²) - ((E(X)° +2E(X) E(Y) + (E(Y)))
E(X') + 2E(XY) + E(Y') - [(E(x)² + 2E(X)E(Y)+ (E(Y)]
= E(X*) + 2E(X)E(Y) + E(Y) - (E(X)² - 2E(X) E(Y) - (E(Y)²
= [E(X')- (E(X))| + [E(Y') (E(Y)]
= Var(X)+ Var(Y)
5) En general, si X, X2,...,Xn son variables aleatorias independientes, se verifica que:
Var
x)-jvartx)
\i=l i=1
Esta igualdad puede demostrarse usando la propiedad 4 e Inducción Matemática Completa sobre
Ejercicio 9
Realizar las demostraciones de los items restantes.
7.3 Función Generatriz de Momentos

Definición 5
Sea X un variable aleatoria con función de cuantía p(z) ó de densidad f(z), según sea discreta
ó continua respectivamente, entonces definimos función generatriz de momentos de X a la
función de la variable real t:
eplz) caso discreto
mx() = E(eX) = (7.5)
e"f(z) dz caso continuo
La función mx(t) existe sólo si la suma o la integral es absolutamente convergente. El nombre de

esta función proviene del hecho de que por medio de ella, podemos hallar los diversos momentos de
la distribución de X. Nos interesará pedir la existencia de esta función en un entorno del origen, es
decir, que mx(t) exista en la bola B(0, e) Ve > 0; esto se debe a que, como veremos más adelante
encontraremos los momentos naturales de la distribución mediante la derivación de mx (1) en el
origen.
* Ejemplo 9
Sea X una variable discreta con función de cuantia dada por:
p(2) = )(1-P) con 0<p<l, z =0,l,..,n ,yn eZj. (0 en c.o.c.)

7.3. FUNCIÓN GENERATRIZ DE MOMENTOS 11
Luego, la función generatriz de momentos de X se calcula como sique:
mx (0) = E(eX) =
r=0
T=0
= p.e' + (l- p)]", VtE R

* Ejemplo 10
Sea X una variable aleatoria discreta con cuantía dada por:
P(z) = para z =0,1,2,..., oo y A>0y p(z) = 0 en c.o.c.
Luego, la función generatriz de momentos de X es:
mx (1) = E(eX) =
= e-5e'.)*
z!
r=0
= e-ee = ee'-1), VIER

en este desarrollo, hemos usado la conocida igualdad de series funcionales
e = ,Vz E R
n=0
n!
* Ejemplo 11
Consideremos la variable aleatoria continua X con densidad dada por:
para a< z<b, a, bER
en c.o.C
En esta situación se tiene que:

bt
mx() =E(e")=e)=
dz d = *0)
Se puede redefinir mx (t) en t=0 para hacerla continua. (Ejercicio para el lector).
7.3.1 Propiedades de la Función Generatriz de Momentos

Sabemos que la serie o converge a e para todo z E R. Luego, se tiene que:
el =1+tz + 2 (tr)"
n!
+...= (tz)
n!
n=0
por lo tanto, la función mx (t) será:
E") =E(1+ tX + ++
para esta última expresión, podemos aplicar la linealidad del operador E puesto que la serie en
cuestión es absolutamente convergente, y en consecuencia tenemos:
mx() = E(1) +B(4X)+ E( ++ E

(3
= 1+tE(X) +E(X') +...+E(X) +...
También podemos derivar esta expresión término a término, con respecto a t, con lo cual se obtiene:
dmx (t) E(X"), tn- E(X).
dt = E(X) +tE(X') 4 2! (n-1)!
Y evaluando esta derivada en t= 0, se llega a:
dmx (1)|
dt lt=o = miy(0), =B(X)
es decir, la esperanza de la variable X se obtiene derivando una vez la función generatriz de
momentos y evaluándola en t= 0 (desde luego que esto significa que la derivada se considera en
un entorno del origen).
Si se calcula ahora la derivada segunda de mx(t) y se la evalúa en el origen, se obtiene:
dmz
dt2
()|
It=0 n-E(X")+..
=|B) +tB(x*) +..+* (n-2)! Jt=0
= E(X?)
En general, podemos enunciar el siguiente:
, Teorema 3
Sea X na variable aleatoria discreta o continua, entonces si eriste la función m. (t) y es infinita
mente derivable en un entorno del origen, se cumple que:
dm;
dtr
()| = E(X')
lt=0
Ejercicio 10
demostrar el teorema reci¿n enunciado.
* Ejemplo 12
En el ejemplo NQ 9, se trabajó con la variable aleatoria X con función de cuantía dada por:
p(z) =p(1-p)"-" con 0<p <n, z= 0,1,..., nynezf, (0 en c.o.c.)

para la misma se encontró que mx (t) = (p.e + (l- p)]", por lo que se obtiene:
E(X)= my( ) =n(pe' + (1- p))"-tpe'l0=np
E(X') = my(t)= nple'(n- 1)(pe' +q)"-pe' +(pe' +9)=e'l,e0

t=0
np[(n - 1)p+ 1]
Y en consecuencia,
Var(X) = E(X*) - (E(x))' = np[(n - 1)p+ 1]- (np)? = np(1-p) = npg

7.3. FUNCIÓN GENERATRIZ DE MOMENTOS 13
& Teorema 4
Sea X una variable aleatoria con función generatriz de momentos mx (t) y consideremos la variable
Y = aX+B, con a, BE R. Entonces:
my (t) = emx (at)

Demostración:
my(t) = E(eY) = E<eaX +) = E(e atX] = emx (at)

Teorema 5
Sean X e Y dos variables aleatorias con función generatriz de momentos mx (t) y my (t) respecti
vamente. Luego:
Xe Yestán idénticamente distribuídas , mx(t) = my ()

Demostración: La proposición directa se prueba sencillamente teniendo en cuenta (para el caso
continuo por ejemplo) que si X e Y tienen la misma distribución entonces fx(z) = fy (v),
Vz=y E Rec(X)= Rec(Y), en consecuencia:
|*fx(e) dz =-| e"r(y) dy , ve

de lo que sigue la tesis. No desmostraremos la proposición recíproca de este teorema pero señalamos
que su importancia radica en el hecho de la función generatriz de momentos determina unívocamente
la distribución de probabilidades de la variable aleatoria en cuestión. (3)
Teorema 6
Sean X e Y variables aleatorias independientes con función generatriz de momentos mx (t) y my (t)
respectivamente y sea Z = X + Y, entonces:
mz(t) = mx (t).my (t)

Demostración:
mz(t) = E(e2) = E(eX+)) = E(e,e) = E(e* ).E(e) = mx (t).my (1)

La posibilidad de "distribuir" el operador E en un producto de dos funciones de variables inde
pendientes es muy fácil de probar (Ejercicio).
El teorema anterior se puede generalizar de la siguiente manera:
& Teorema 7
Si X1, X2, . .., Xn son variables aleatorias independientes con función generatriz de momentos
mx, (t), mx,(t), ... , mx, (2) y Z = C Xi entonces:
mz(t) = I[mx.()
i=l
Ejercicio 11
Demostrar este teorema usando inducción matemática completa.
3Veremos importantes aplicaciones en los capítulos siguientes, para determinar la distribución de una v.a. que
es función de otras.
7.4 Otros momentos

Definición 6 Momento para una función de una variable
Sea X una variable con función de cuantía p(z) ó con densidad f(z) y sea Y = H(X) entonces:
CA(=)]'p()
rT
caso discreto
E(Y") = EÊ(H(X))] = (7.6)
|)rf(e)de caso continuo
En particular, si H(X) = X, obtenemos los momentos de la variable X antes estudiados.

La función generatriz de momentos de una función f de X se define como:
mÊ(x)(t) = E(e1(X))
Definición 7 Momentos para Distribuciones Multivariantes
Sea (X1, X2,...,Xn) una variable aleatoria n-dimensional con función de cuantía p(*1, Z2, . ,Zn)
ó función de densidad f(z1,T2, . . ., Zn) ya sea discreta o continua respectivamente entonces defini
mos momento mixto a:
Lf*..ple1, 2,..., n)
E(Xf" X..X**) =: (7.7)
En esta definición, r; E Z+, Vi= 1,2-,n, y en el caso discreto, los valores T1,.., Zn pertencen al
conjunto T antes definido.
Podemos definir también momento mixto centrado con respecto a la media como:
E[(X, #)"" (X2 -p2)" ...(Xn - n)'"]

El momento mixto centrado con respecto a la media más importante es el llamada Covarianza,
cuando consideramos el caso de dos variables.
Definición 8
Sean X eY dos variables aleatorias, definimos Covarianza de Xe Y, al momento mizto:
Cov(X, Y) = Ozy = E[(X - #-)(Y - ))

La Cov(X, Y) nos brinda una medida del grado de dependencia lineal entre las variables
Xe Y. A mayor valor absoluto de la covarianza de X e Y corresponde una mayor dependencia
lineal entre ellas. Valores positivos indican que X crece cuando Y crece; valores negativos indican
que X decrece cuando Y crece. Un valor cero de covarianza indicará que no hay dependencia
lineal entre Xe Y, lo cual puede estar asociado a dos alternativas: o bien que no hay ningún tipo
de relación entre las variables, o bien que existe una relación no lineal entre ellas, por ejemplo una
relación de tipo cuadrática.
Lamentablemente no es fácil emplear la covarianza como una medida absoluta de la dependencia
puesto que su valor se ve afectado por la escala de medición y consecuentemente, es dificil decidir si
una covarianza es grande o no a simple vista. Este problerma se puede salvar mediante un proceso
de estandarización como se verá en el capítulo correspondiente a Correlación.
Algunas situaciones referidas a valores de Cov(X, Y) pueden esquematizarse como sigue:
7.4. OTROS MOMENTOS 15
Y 4 Y
Cov(X, Y)<0
Cov(X, Y) >0
X X
X X
Cov(X, Y)=0 Cov(X, Y) = 0
Figura 2
Como un caso particular, se observa que , Co(X, X) = var(X). Para evitar caer en cálculos a
veces engorrosos, puede ser útil el empleo de la proposición dada por:
" Proposición 1
Fórmula expandida de la covarianza:
Si X e Y son tales que E(X), E(Y) y E(XY) son finitas, entonces:
Cov(X, Y)=E(XY) - E(X).E(Y)
Dernostración:
Cov(X, Y) = E[(X E(X)).(Y E(Y)]= E(XY - X.E(Y) -Y.E(X) + E(X).E(Y)

= E(XY) E(X).E(Y) E(X).E(Y) + E(X).E(Y) = E(XY) - E(X) E(Y)
Ejercicio 12
Demostrar la siguiente implicancia:
Xe Yvariables independientes Cov(X, Y) = 0
Nota: la proposición recíproca no es siempre válida, como lo demuestra el Ejemplo 7 antes
analizado.
Una proposición interesante es la siguiente:

" Proposición 2
SiX e Y son tales que o <o y o <o, entonces Cov(X, Y)< o.
Esquema de la demostración:
1) Tenemos en cuenta que si X < Y, entonces E(X) < E(Y).
2) Luego, a partir de la desigualdad [(X- E(X) ± (Y - E(Y)]' >0se tiene que:
I(X - E(X)(Y - E(Y)|<[x- E(x)² +(Y - E())
y entonces, la proposición se concluye aplicando el operador E miembro a miembro es esta última

desigualdad y empleando la hipótesis de que las variables tienen varianzas finitas.
Podemos ahora ampliar la propiedad de la varianza de la suma de variables al caso en que las
variables no son necesariamente independientes:
Teorema 8
Si X eY son tales que oý < o, a < oo y Cov(X, Y) < oo entonces
Var(X +Y) = Var(X) + Var(Y) + 2Cov(X, Y)
Demostración:
Var(X + Y) = E[(X + Y)]- [E(X + Y)]

= E(X' + 2XY + Y') -(E(X)² + 2E(X)E(Y) + (E(Y)))
E(X') + 2E(XY) + E(Y?) - ((E(X))² + 2E(X)E(Y) + (E(Y))
E(X') + 2E(XY) + E(Y²) - (E(X))² 2E(X)E(Y) - (E(Y))?
= (E(X?)- (E(X)°] +[E(Y?) - (E(Y)] +2[E(XY) E(X)E(Y)
= Var(X) + Var(Y) +2 Cov(X, Y)
En general se puede demostrar que:
Va, b, cE R, Var(aX+ 6Y + c) = a'.Var(X) + b².Var(Y) + 2ab.Cov(X, Y)
y en particular,
Var(X - Y) = Var(X) + Var(Y) -2 Cov(X, Y)
Para una combinación lineal finita de n variables, se tiene la propiedad:
& Teorema 9
Var
(4xi)= «Var(Xi) +2T
i=1
, CovlXi, X;)
Demostración: Ejercicio para el lector.
También resulta importante tener en cuenta las siguientes propiedades complementarias, siendo
a, b, c, d, a, b; E R:
" Cov(aX, bY) = Cov(aX + b, cY + d) = ab.Cov(X, Y)
"Cov(aX + 6Y + c, Z) = a.Cov(X, Z) + 6.Cov(Y, Z)
n n m
" Cou
j=1 i=1j=1
"Si o = o y0< Var(X +Y), Var(X - Y) <oo, entonces Cov(X, Y) = 0.

" Si Co(X, Y) <0 entonces Var(X - Y) > Var (X + Y)
Dijimos anteriormente que la covarianza mide el grado de dependencia lineal entre dos variables;
pero esta medida suele presentar la dificultad de que no está acotada y entonces podría tomar
valores tan grandes como fuese posible dependiendo de la naturaleza de los dato8. Para solucionar
esta difcultad se toma una medida "estandarizada" denominada coeficiente de correlación
lineal ó simplemente correlación. Se lo define como sigue:
7.5. ESPERANZA CONDICIONAL 17
Definición 9
Se llama coeficiente de correlación lineal entre X e Y al cociente
p= P(X, Y) = Cov(X, Y)
Si bien será estudiado con más detalle en el último capítulo, puede verse que el mismo está acotado
entre -1y 1, teniendo en cuenta que:
Queda como ejercicio para el lector, demostrar la validez de la siguientes proposiciones:

" 0< o,o÷ < o, a, c 0 y U= aX + b, V= cY +d,entonces:
p(U,V) = eX, Y) si a.c 0

-P(X, Y) si a.c <0
" Si X1,X2, ., Xn son tales que Var(X;) < o y p(Xi, X})=k= cte., Vij,entonces:
1
7.5 Esperanza Condicional

Para este tema, sólo consideraremos el caso de dos variables.
Definición 10
Sea (X, Y) una variable aleatoria bidimensional continua con distribución conjunta f(z, y) (el caso
discreto es análogo pero cambiando la integral por una suma), entonces definimos:
a) Esperanza condicional de Y dado X=x, como:
E(Y/X = )=E(Y/=) = J-0

vgtu/2) dy =| : f(z,9) dy
fe(e)
b) Esperanza condicional de X dado Y=y, como:
E(X/Y = y) = E(X/y) =| z.h(z/y) dr = e: dz

-o f(y)
Dado que E(Y/z) y E(X/y) son funciones de z ey respectivamente, entonces ellas heredan
el caracter aleatorio de las variables aleatorias X e Y. Sus valores son valores de las variables
aleatorias E(Y/X) y E(X/Y) respectivamente. Estrictamente hablando, E(Y/z) es el valor de
E(Y/X) cuando X = z y E(X/y) es el valor de E(X/Y) cuando Y=y.
Desde luego, tiene sentido hablar de los valores esperados E(E(Y/X))y E(E(X/Y)] cuando ellos
existan.
Podemos interpretar, por ejemplo, a la expresión en b) como sigue:
h(æ/y) representa la distribución condicional de X para Y = y; luego, E(X/y) es la esperanza de
X condicionada al suceso Y =y.
Gráficamente, por ejemplo si consideramos una densidad uniforme bivariada definida sobre el
cuadrado unitario [0, 1] X [0, 1] (ver Figura 3) ,y si tomamos un valor genérico y*, la esperanza
condicional E(X/ye) se calculará teniendo solamente en cuenta los puntos del plano f(, y) = 1
que también pertenecen a la distribución condicional h(æ/y) (que en este caso tiene como gráfica
un segmento: curva intersección de la superficie z = f(e, y) con el plano Y ='). Si tomamos al
azar n puntos ubicados sobre la curva proyección de la de h(z/y*): (z1,y), (*2, y"), .., (Zn,y") y
calculamos el promedio de las primeras componentes, cuando el valor esperado condicional exista
se verificará la siguiente igualdad:
T1+2t...+Tn
lim = E(X/Y =y')
f(x,y)
h(x/y*)
l
+y=y*
Figura 2
* Ejemplo 13
Sea la variable aleatoria bidimensional (uniforme) (X, Y) con función de densidad conjunta dada
por:
f(z,y) = ! v) eR
si en(z,c.o.c
0
Se pide hallar E(Y/r) y E(X/y).

Usando la región de integración mostrada en la figura 4, se verifican fácilmente las siguientes
ezpresiones para las funciones de densidad marginal y condicional:
f.(z) =2a, si 0 < sl; f,(o) = , si 0<y<2

2
h(z/y) = 2-y si < s 1; g(y/z) = si0<y s 2r
(1,2)
y=2r
R
Figura 3
7.5. ESPERANZA CONDICIONAL 19
En consecuencia, se tiene:
2
E(Y/=) =| vg(y/=) dy -|
-0
y=
y por lo tanto ambas funciones resultan ser lineales.

Ejercicio para el lector: dibujar las curvas de E(X/y) y E(Y/z) dentro de la región R.
Teorema 10
E|E(X/Y) = E(X) y E[E(Y/X)] = E(Y)

Demostración: (de la primera igualdad y en el caso continuo)
E{E(X/Y) = E(X/y)5,(v) dy
= zf(z, y) dzdy
zf(a, y) dydz
jz(z)
|z() de =E(X)
Ejercicio 13
Hacer la demostración del teorema anterior en los casos restantes,
& Teorema 11
Sean X e Y variables aleatorias independientes, entonces:
E(X/y) = E(X) y E(Y/r) = E(Y)
Ejercicio 14
Demostrar el Teorema anterior.
Ejercicio 15
Hallar E(X/y) y E(Y/z) para el caso de una variable aleatoria bidimensional continua (X, Y)
uniforme definida en la región del plano R:
R= {(2,) eR²/+ysr, y<0,reR*}
e interpretar los resultados analítica y geométricamente.
Ejercicio 16
Considerar la variable aleatoria bidimensional (X, Y) cuya función de densidad conjunta viene
dada por la erpresión:
0, y > 0
flz, u) = e0) si zen> c.o.c
a) Calcular P(a < X +Y <b) si 0 <a <oe interpretar gráficamente.
b) Determinar el valor de a que satisface la ecuación P(X +Y<a) =
c) Si se eligen cuatro puntos (z, y) en forma independiente de la distribución en cuestión, cuál es
la probabilidad de que por lo menos uno de ellos pertenezca al cuadado unitario en R'?.
d) Calcular:
e interpretar este resultado.

" Ejercicio 1
En el Ejemplo 1, hallar mx(t), E(X) yo. Interpretar estos resultados.
o Ejercicio 2
Realizar los ejercicios del cuerpo principal de este apunte, que siguen: 1,2,3,4, 7,8.
o Ejercicio 3
Un móvil se desplaza sobre el eje z según la siguiente regla: en cada paso la posición coordenada
alcanzada puede incrementarse en con probabilidad , o disminuirse en + con probabilidad .
Los pasos son tomados independientemente uno del otro y la posición inicial es el origen. En el
primer novimiento se tiene un esquema como el mostrado en la figura:
2/3
a) Cuál es el valor medio de X, cuál es el valor de la varianza de ésta variable?. Determinar
la función generatriz de momentos mx ().
b) Cuál es la posición coordenada esperada luego de 50 movimientos?.
o Ejercicio 4
Un dado tiene tres caras impresas con el número 1, dos con el 2yuna con el 3. Calcular el valor
medio y la varianza de la cantidad de números 1 sacados en 400 tiros de dicho dado.
o Ejercicio 5
El gerente de un almacén en una fábrica ha constru[do la siguiente distribución de probabilidad
para la demanda diaria X (número de veces utilizada) para una herramienta en particular.
2
p(z) 0.1 0.5 0.4
Le cuesta a la fábrica 10S cada vez que se utiliza tal herramienta. Encontrar E y Var de la variable
C: costo diario para el uso de tal herramienta.
o Ejercicio 6
N partículas distinguibles se distribuyen al azar en n niveles de energía El, E2,..,En. Una
situación particular se muestra en la figura adjunta, se supone N >n>3.
1
N-1
2 E
Se define U.a. X: "Número de particulas que están en el nivel E, ".

a) Es X discretao contínua?. Qué tipo de v. a. especial es ésta?.
b) Determinar su función de cuantía p(z) y escribir la función de distribución acumulativa F(),
indicando el conjunto Rec(X). N
c) Demostrar que la función generatriz de momentos de X es mx (t) = ( ) . VER.

N
d) Usando el resultado de c), probar que E(X) =
e) Qué ezpresión toma la varianza de X?.
o Ejercicio 7
Se estudia la duración T (en minutos) de las comunicaciones telefónicas urbanas y se encuentra
que ésta sigue una ley erponencial dada por la densidad de probabilidad:
0 si t <0
ae-Bt si a >0, B>0,t >0
a) Qué relación guardan a y B?.

b) Hallar la función de distribución acumulada F(t).
c) Graficar las funciones f(t) y F().
d) Cuál es la probabilidad de que una comunicación telefónica tenga una duración entre 3 y 7
minutos?.
e) Hallar la función generatriz de momentos de T y los momentos naturales de orden 3 y 4.
o Ejercicio 8
a) Se lanza un dado legal hasta que aparece un número mayor que 4. Se define la v.a. X: "nÍ de
lanzamientos necesarios".
a) Deducir la función de cuantía p(z).
b) Demostrar que E(X) =3 y Var(X) = 6 e interpretar estos resultados.
dg'T ya que la serie g' converge absoluta
Sugerencia: tener en cuenta que
dq i=l
mente si lgl < 1. c) Determinar una erpresión para la función mx (t).
o Ejercicio 9
Si X es una variable aleatoria continua con función de distribución acumulativa F(¢), E(X) < oo
y P(X > 0) = 1, demostrar que:
E(X) = [1- F(=)] de

o Ejercicio 10
Se selecciona al azar, un número real entre 2y 4, y otro entre 9 y 10. El primero de ellos se toma
como la base de un rectángulo, y cuatro veces la diferencia entre el segundo y el primero, como la
altura. Calcular el valor medio y la desviación estándar del perímetro del rectángulo así formado.
o Ejercicio 11
Sea el erperimento aleatorio ¬: eztraer al azary en forma independiente dos puntos del intervalo
[0, 1] C R. Sean las variables aleatorias X: "valor obtenido en la l¡ eztracción" e Y: "valor
obtenido en la 2a ertracción".
a) Hallar la función de densidad conjunta f(z, v) y dibujarla.
b) Calcular P(X < Y) e interpretar geométricamente.
c) Si se repite el erperimento n veces, para qué valor de n, la probabilidad de que al menos un
punto pertenezca a la región R= {(z,v) ES/0<z<}, es 0.90?.
d) Escribir la función de distribución acumulativa F(2, y) y comprobar que ôrôy =f(z,y).
e) Es cierto que E(X.Y) = E(X).E(Y) ?.
f) Hallar o yo, ycompararlas.
o Ejercicio 12
En cierto proceso para elaborar una sustancia química industrial, el producto resultante contiene
dos tipos de impurezas. En una muestra especifica de este proceso, X1 denota la proporción de
impurezas de tipo Ientre todas las impurezas encontradas y X2, la proporción de impurezas de tipo
II. El modelo de la distribución conjunta de X1 y X, viene dada por:
K(1 - z2) si 0<z1 ly0<zsl

en c.O.c
a) Determine el valor de la constante K.

b) Hallar P(X1 >X2) e interpretar geométricamente.
c) Hallar las densidades marginales fe,(z1) y fe,(z2).
d) Son X1 y X2 variables aleatorias independientes?.
e) Hallar las densidades condicionales respectivas.
f) Calcular los respectivos valores esperados y varianzas de las distribuciones marginales en cada
caso.
g) Encontrar E(X1.X2) y E(X7.X3). Si se puede, hacerlo por dos caminos diferentes. Qué
propiedad puede usar?.
Ejercicio 13
Al gerente de un restaurante de comida rápida interesa el comportamiento conjunto de las vari
ables aleatorias X: " tiempo total entre la llegada de un cliente al restaurante y su salida de la
ventanilla de servicio" e Y: "iempo que el cliente espera en cola antes de llegar a la ventanilla
de servicio". Como X incluye el tiempo que el cliente espera en la cola, se tiene que X> Y. La
distribución conjunta de ambas variables (el tiempo medido en minutos) viene dada por:
si 0 <yS< oo
fe,y) = en c.o.C
a) Representar la función de densidad f(z, y).

b) Calcular la probabilidad que el tiempo que el cliente pasa en la ventanilla sea de por lo menos 1
minuto. (Considerar la variable X - Y). Interpretar geométricamente este valor.
c) Son X eY independientes?. Por qué?.
d) Calcular E(X + Y) y E(X.Y)
e) Calcular E(X), E(Y), Var(X) y Var(Y). Es necesario conocer las distribuciones marginales?.
Por qué?.
o Ejercicio 14
Considerar la variable aleatoria erponencial con parámetro 1. Supongamos que se toma una mues
tra de tamaño 2 de dicha distribución: (X,Y). Hallar la función generatriz de momentos de la
variable suma U =X+Y; ya partir de ella deducir E(U) y Var(U).
o Ejercicio 15
Discutir la validez de las siguierntes proposiciones:
a)
Xe Yindependientes ’ (E(X +Y)²=(E(X)² +2E(X)E(Y) +(E(Y))?
b) La erpresión anterior es también igual a : E(X) + 2E(X)E(Y) + E(Y'), pidiendo solamente
independencia.
c)
Cou(X, Y) =0> X e Yson independientes
o Ejercicio 16
Se selecciona al azar un punto de la región:
R={(z,y) ¬R²/= >1, vs

a) Mostar que tiene sentido plantear como función de densidad conjunta para las variables aleato
rias coodenadas del punto elegido,
si (,y) ER
C.O.C.
aunque la región Rsea no acotada pero con m(R)<+oo.

b) Encontrar E(X/y) y E(Y/r).
c) Hallar E(E(X/y)). Coincide con E(X) ?. (podría ocurrir lo contrario?).
o Ejercicio 17
Realizar el Ejercicio 16 del cuerpo principal de este apunte.
o Ejercicio 18
Sean X e Y dos variables aleatorias con esperanza y varianza respectivas finitas y coeficiente de
correlación lineal p, si E(Y|X) = aX + b probar que:
E(Y|X) = px tp -(X- x)
o Ejercicio 19
Se lanzan n veces 3 dados trucados, en los cuales la probabilidad de sacar un par es el doble de la
obtener un impar.
i) Hallar la función de cuantia conjunta de las variables aleatorias:
X: "número de veces en que no aparecen números pares"
Y: "número de veces en que aparece eractamente un número par"
Z: "número de veces en que aparecen eractamente dos números pares"
ii) Hallar las correspondientes cuantías marginales y las distribuciones condicionales de dos vari
ables dada una tercera.
ii) Eapresar P(X > 0, Y< 1) yP(X<1,Y > 1).
o Ejercicio 20
Se eligen al azar y en forma independiente dos números z ey del conjunto {1,2, ..., 100}.
a) Hallar la función de cuantía de la v.a. Z = Maz{X, Y}. Graficarla.
b) Determinar los valores E(Z) y Var(Z) e interpretarlos.
o Ejercicio 21
Es muy frecuente caracterizar a una distribución, no por los momentos naturales de orden r, L..
sino por las constantes y, denominadas cumulantes de la distribución. Estos cumulantes se definen
haciendo:
d(log mx(tO)
dtr lt=0
a) Demostrar que Y1 = u, y Y2 = o
b) Determinar el cumulante r-ésimo de la distribución:
s)= ae-ar
0 si z > 0, a > 0
C.O.c.
o Ejercicio 22
Sean dos variables aleatorias X e Y con función de distribución conjunta f(z,y), y sean u(X) y
v(Y) dos funciones de X eY respectivamente. Demostrar la siguiente iqualdad:
E[u(X) -v(Y)/z] = u(r) · E[v(Y)/z]
o Ejercicio 23
Sean X1, X2, ..., Xn variables aleatorias independientes e igualmente distribuídas con función de
distribución f(z) y generatriz de momentos mx(t). Sean las variables
n n
S=Jx U=x i=1
Demostrar que:
ms(1) = (mx (1)]" mu () = [mx (t/n)]"
o Ejercicio 24
(X,Y) es una variable aleatoria bidimensional con función de densidad conjunta dada por:
fe.) = 6--y)
0
si 0 < <2, 2 <y<4
C.O.c.
1) Determinar el valor esperado E(Y/z).

2) Determinar el valor esperado E(Y"/).
3) Determinar la varianza condicional definida por Var(Y/z) = E(Y'/r) - [E(Y/)]"
Bibliografía
[1] Mood y Graybill, Introducción a la Teoría de la Estadistica, Ed. Aguilar, 1970.
1986.
(3] William Feller, Introducción a la Teoria de las probabilidades y sus Aplicaciones, Ed. Limusa
Wiley, 1978.
[4] William Mendenhall-Richard L. Scheaffer-Denis D. Wackerly, Estadistica Matemática con Apli
[5) Ricardo A. Maronna, Probabilidad y Estadistica Elementales para estudiantes de Ciencias,
[6] Morris de Groot, Probabilidad y Estadistica, Ed. Addison-Wesley Iberoamericana, 1988.
[7 George C. Canavos, Probabilidad y Estadística, Aplicaciones y Métodos, Ed. McGraw-Hill, 1993.
[9] Orlando J. Avila Blas, Variable Aleatoria Unidimensional, , Apuntes de Teoría de Probabili
dades y Estadística. Departamento de Matemática-Facultad de Ciencias Exactas-U.N.Sa, 1998.
[10] Orlando J. Avila Blas, Variable Aleatoria Multidimensional, , Apuntes de Teoría de Proba
1998.
25
Contenido
8 Variables Aleatorias Discretas Especiales

8.1 Introducción
8.2 Distribución Uniforme 3
8.3 Distribución de Bernouilli 4
8.4 Distribución Binomial 5
8.5 Distribución Hipergeométrica 8
8.6 Distribución Geométrica o de Pascal 11
8.7 Distribución de Poisson 13
8.7.1 Aproximación de Poisson a la distribución binomial 14
8.8 Distribución Multinomial 15
8.9 Ejercicios complermentarios 16
1
Capítulo 8
Variables Aleatorias Discretas
Especiales
8.1 Introducción
En los Capítulos 5, 6, y 7, hemos estudiado formalmente variables aleatorias unidimensionales y
multidimiensionales, caracterizándolas mediante su función de cuantía (caso discreto) ósu función
de densidad (caso continuo); como así también, hemos analizado su empleo en el cálculo de prob
abilidades de sucesos en el espacio euclideano Rn, (n> 1). También hermos aprendido conceptos
muy importantes que están íntimamente vinculados a una variable aletoria a valores reales, tales
como el valor esperado, los momentos naturales y centrados de un orden entero no negativo y la
función generatriz de momentos. Además, se han analizado con ejemplos, situaciones muy concre
tas y de aplicación, a los fines de que estos conceptos abstractos tengan un significado práctico.
Si el lector revisa los Capítulos 3 y 4 de cálculo de probabilidades, verá que muchos ejemplos
desarrollados, ya contienen la estructura aleatoria básica para un estudio más completo.
Muchos de los modelos estudiados, serán vueltos a analizar en el presente capítulo, pero ahora
poniéndoles "nombre y apellido", ya que responden a experimentos aleatorios muy especiales, y
que por su importancia, merecen un estudio más detallado. No le sorprenda al lector, desde luego,
que el hecho de haber visto estos modelos anteriormente sin darles un nombre en particular, fuera
una forma táctica de los autores, a fin de que el estudio con más detalle que presentaremos a
continuación, sea más accesible.
Se destacan en este Capítulo, las distribuciones discretan que siguen a continuación (las continuas
serán estudiadas en el capítulo siguiente):
8.2 Distribución Uniforme

Definición 1
Una variable aleatoria X discreta, cuya función de cuantía o masa de probabilidad viene dada por
para z = 1, 2, ..., n
0 en c.o.C
se denomina variable uniforme discreta y su distribución de probabilidad, distribución uni

forme discreta.
Esta es una de las distribuciones más sencillas de definir y responde a muchos experiemtos aleatorios
simples, tal como el estudiado en el ejemplo 1 del Capítulo 7, que se recuerda a continuación:
3
4 CAPITULO 8. VARIABLES ALEATORIAS DISCRETAS ESPECIALES
* Ejemplo 1
Sea el ezperimento de lanzar un dado regular una vez. Definimos la variable aleatoria X como el
valor obtenido, luego p(z) = para z = 1,2,...,6 y p() = 0 en otro caso.
Si dibujamos la función de cuantía, veremos un diagrama de bastones de igual altura ( en

este caso), y nos permite visualizar la uniformidad presente en el estudio, ya que todos los valores
posibles del recorrido de la variable, son igualmente probables (es la única manera de distribuir
equitativamente la masa total de probabilidad en n partes de igual valor).
Ahora destacamos las características más importantes de esta distribución:
" Sólo depende del parámetro n
" Su valores esperado E(X), varianza o² y desviación estándar son respectivamente (ejercicio
para el lector):
n+1
E(X) = 2 12
o Ejercicio 1
Sea el etperimento aleatorio de lanzar dos monedas no legales, donde en cada una, la probabilidad
de salir cara es el doble de la de sello. Si X cuenta el número de caras obtenidas, puede tener esta
variable una distribución uniforme? por qué?
8.3 Distribución de Bernouilli

Definición 2
Si tenemos en cuenta un ezperimento aleatorio que admite únicamente dos resultados posibles
mutuamente ercluyentes (estamos frente a una dicotomía):
Suceso A (que llamamos "erito") con probabilidad P(A) =p
Suceso A (que llamamos fracaso") con probabilidad P(A) = 1-p
La realización de tal erperimento se denomina prueba de Bernouilli, y en este sentido, la
variable aleatoria X que toma el valor 0 cuando no sucede A y, el valor 1, en caso de érito, con
sus respectivas probabilidades, recibe el nombre de variable aleatorio Bernouilli.
Es muy sencillo demostrar que la función de cuantía en este caso es:
para z =1
Ple)= 0
para T=0
en c.o.C
Muchas veces, a los fines prácticos de notación, se suele escribir 1 -p= q. Y también se emplea
la notación X ~ b(1,p).
* Ejemplo 2
Sea el erperimento aleatorio de seleccionar de entre un grupo de personas, 1 al azary anotar su
sezo. Si el grupo está formado por 5 hombres y 3 mujeres, y declaramos "erito" si la persona
seleccionada es de sero femenino, y definimos la variable aleatoria X como el número de éxitos
en la única extracción realizada, luego
para T=1
Ple) = para z =0
en c.o.C
o Ejercicio 2
8.4. DISTRIBUCIÓN BINOMIAL 5
a) Dibujar la función de cuantía del ejemplo anterior.

b) Puede suceder en general, en una prueba Bernouilli que p = g?
o Ejercicio 3
Un móvil realiza un único movimiento sobre el eje z, partiendo del origen de coordenadas y puede:
desplazarse una unidad a la derecha con probabilidad 0.75 6 bien, retroceder media unidad, con
una probabilidad de 0.25. Deducir la función de cuantía de la v.a. X "posición del móvil luego del
lQ movimiento". Tiene esta variable, una distribución de tipo Bernouilli? por qué?.
Las características más importantes de esta distribución, a tener en cuenta son:
" Sólo depende del parámetro p.
" Su valor esperado E(X), varianza o? y desviación estándar son respectivamente (ejercicio
para el lector):
E(X) = p, G= p.q, o= Vp.q
" Su momento natural de orden r es, E(X*) = py su función generatriz de momentos es

mx(t) = (p.e' + (1-p)], Vt ER
8.4 Distribución Binomial
Para introducirnos en el tema, volvamos al ejemplo 4 de la página 15, del capítulo 3, que se
transcribe a continuación:
Sea el experimento aleatorio [: "De una urna con bolillas numeradas con 1,2,3,4,5, se extraen
n bolillas con reposición, anotando el númnero obtenido en cada extracción".
Un espacio muestra adecuado es:
S= {(z1,#2,.., zn)/z; = 1,2,3,4, 5, Vi = 1, 2, .., n}

en el cual podemos aplicar la definición clásica puesto que en cada extracción, cada una de las
bolillas de la urna tiene las mismas posibilidades de ser tomada que cualquiera de las otras, debido
a la reposición.
n
El número de elementos de Sen este ejemplo es n(S) = |S] =5x 5x... x 5=||5=5 < o.
i=l
n-factores
Nuestra tarea consiste en calcular, empleando la definición clásica, las probabilidades respectivas
de los siguientes sucesos:
1) A: "No aparece ningún 4".

2) B: "Aparece eractamente un 4".
3) C: "Se obtiene al menos un 4".
En primer lugar, el suceso A puede expresarse como:
A = {(z1, T2,.., zn) ¬ S/z; =1,2,3,5 , Vi= 1,2, ., n}

con lo cual, n(A) = |A| = 4 y por lo tanto: P(A) = n(A) 5n
n(S)
Queda como ejercicio para el lector, expresar al suceso B por comprensión. Para hallar su car
dinal, sabiendo que este suceso está formado por todas las n-uplas que contienen uno y sólo un
4, empleamos los elementos de Combinatoria antes estudiados. Podemos primero elegir el lu
gar donde ubicaremos el 4, esto se puede hacer de
(1 formas posibles. Una vez ubicado
el 4 en esa posición (1 sola forma), por cada una de estas elecciones tenemos 4n - maneras de
ubicar los elementos distintos de 4, en las n - l componentes restantes de la n-upla. Por lo tanto
n(B) = |B|=()14n-l yen consecuencia, P(B) = n(B)

n(S) 5n
Por último, para hallar la probabilidad de C tenemos dos caminos que, desde luego, conducen al
mismo resultado. Uno de ellos consiste en contar por el complemento puesto que los casos comple
mentarios a los que pertenecen a este suceso, son las n-uplas que no contienen ningún 4; es decir,
n(C) 5" - 4n 4n
los casos favorables al suceso A. Por lo tanto pIC)- n(S) =1 5n
La otra forma consiste en hacerlo por el camino directo. Tenemos que tener en cuenta que en los
casos favorables están las uplas que contienen eractamente un 4, eractamente dos 4,.., eractamente
k 4, ...,eractamente n 4. Como estos casos son mutuamente excluyentes, para computar el número
de casos favorables a C tenemos que sumar los números de casos favorables a cada subconjunto.
Esto se hace contando el caso genérico cuando tenemos exactamente k componentes 4, y sumando
luego con k = 1,2,..., n. El número de formas de tener exactamente k componentes 4, se consigue
eligiendo primero los k lugares de entre los n posibles, esto se puede hacer de formas dis
tintas; en cada uno de ellos tenemos que ubicar los 4, esto se puede hacer de 1* formas; y por
último en los n - k lugares restantes ubicamos los números distintos de 4, esto se puede hacer de
4n-k formas. Por lo tanto,
P(C) =
n(C) k=1
n(5)
Por otro lado, haciendo uso del binomio de Newton, tenemos que:
2)a-* =(1 +4)" =8n

k=0
lo que permite verificar que los valores para P(C) obtenidos por ambos caminos son iguales, ya
que:
k=1 5n 4n 4n
-=1
5r 5n
Ahora pensemos en la variable aleatoria X definida como "número de veces que sale 4 en las n
extracciones".
A partir de las consideraciones del cálculo de probabilidades de los sucesos en cuestión, podemos
afirmar que para todos los valores del recorrido de X: 0, 1,2,..., n, la función de cuantía es:
().
p(z) =
5n --(:))0)
y claramente, para cualquier otro valor z real que no pertenezca al recorrido de X, esta probabilidad
será nula. Entonces, podemos finalmente expresar la cuantía de la variable aletoria X como sigue:
para z =0,1,2, ...n
en c.0.C
Ahora podemos generalizar el ejemplo recién visto, presentado la siguiente

Definición 3
Supongamos que se ealizan n pruebas de tipo Bernouilli, sucesivas e independientes (de modo que
la probabilidad de érito P(A) =p permanece constante) ysea la variable aleatoria X definida como
8.4. DISTRIBUCIÓN BINOMIAL 7
"número de veces en que ocurre el suceso A en las n pruebas". Entonces X recibe el nombre de
variable aleatoria binominal y su función de cuantía, distribución binomial ó de pruebas
repetidas de Bernouilli, y viene ezpresada por:
para z = 0, 1,2,...n, 0 <p< 1, n e Zj

0 en c.0.c
y se suele emplear la notación X ~ B(n, z, p)

Las características más importantes de esta distribución, a tener en cuenta son:
" Sólo depende de los parámetros n y p.
" La función de distribución acumulativa de X tiene la forma:
0 para z<0
F(z) = P(X<z) = para 0 < z<n, 0<p<l

para T>n
" Su valor esperado E(X), varianza o² y desviación estándar son respectivamente (repasar
ejemplos desarrollados en el capítulo 7, y recordar que 1-p=q):
E(X) = np, G'= n.p.q, o= Vn.p.q
" Su función generatriz de momentos es mx (t) = [p.e + (1- p)]", Vt E R

" La función de cuantía es simétrica si y solo si p = 9. Si p> , la distribución es asimétrica
negativa, y si p< 9, es asimétrica positiva.
" Cuando n ’ o, se puede demostrar (ver capítulo 10, sección 10.6.1) que esta distribución
discreta se puede aproximar a una distribución continua muy importante, la denominada
distribución normal o de Gauss (que se estudia en el capítulo siguiente)
" Los valores de la función de cuantía se encuentran tabulados para algunos valores especiales:
0<p< 0.5 (ver tabla al final). En el caso de tener un valor de p > 0.5 también se puede
emplear esta tabla, teniendo en cuenta la siguiente propieda muy sencilla de demostrar:
p(2) =( )1- p)p*= .)4-p)"*g B(n, n- z,9)

" Si X ~ B(n, z,p), entonces X se puede considerar como la suma de n variables aleatorias de
tipo Bernouilli independientes X{ ~ b(1,p) (Ejercicio para el lector).
Teorema 1
Si tenemos k variables aleatorias X; ~ B(ni,p), i = 1,2, ..., k independientes, entonces la suma
k
(S) de ellas se distribuye como: S= ) X; ~ B(n*, p), con n" =

i=l i=l
Demostración:
Calculamos la función generatriz de momentos de la variable aleatoria S y empleamos las propiedades
la f.g.m cuando trabajamos con variables independientes:
ms() =I[ mx.() = pe'+(1-p)]".pe'+(1-p)]".. pe'+(1-p)l" =lpe+(l-p)]i= lpe+(1-p)"

i-1
y entonces, por Teorema 5 del capítulo 7, concluímos la tesis.

La propiedad recién demostrada recibe el nombre específico de Propiedad Reproductivay es espe
cialmente útil para muchas aplicaciones que veremos más adelante.
o Ejercicio 4
Investigar la factibilidad de que las distribuciones: uniforme y Bernouilli cumplan la denominada
Propiedad reproductiva.
8.5 Distribución Hipergeométrica

Comenzaremos el estudio de esta distribución especial recordando una parte en el tratamiento del
ejemplo 15, capítulo 4.
Una urna contiene 5 bolas azules y 6 verdes. Una persona realiza el experimento aleatorio e de
extraer de esta urna, un grupo de 4 bolas; y luego realiza 100 repeticiones independientes de este
experimento. Se desea calcular probabilidad que tiene la persona de haber obtenido un grupo
con exactamente 2 bolas azules (lo llamaremos "éxito") en por lo menos 60 de las repeticiones de
E.
Solución:
Primero calculamos la probabilidad de obtener un grupo con exactamente 2 bolas azules en una
realización del experimento ¬, ella es:
p= ())
)
el problema tiene una segunda parte, que fué desarrollada entonces, ahora sólo nos concentraremos
en la probabilidad que se encontró en primer lugar, es decir, la de que el grupo seleccionado
contenga dos bolas azules.
Por empezar, la experiencia de la extracción del grupo (conjunto no ordenado de elementos) no nos
habilita a pensar que si deseamos definir la variable aleatoria X que cuente el número de bolas azules
en el grupo, estemos en condiciones de emplear los conceptos referidos a la distribución binonmial, ya
que: no hay orden en las extracciones, y como no hay reposición, no queda garantizada la hipótesis
de que la probabilidad de éxito permanezca constante (no podemos hablar de independencia en
las extracciones). De hecho, existe una dicotomía: bolas azules y bolas verdes, y siguiendo el
razonamiento de rutina para determinar la función de cuantía de variable X, concluímos que
ésta tiene la forma:
P(z) =
()) para z = 0,1, 2,3,4
() en c.o.C
Ahora, en general damos la siguiente

Definición 4
Si tenemos un conjunto finito de elementos (población), donde hay A elementos que cumplen un
atributo en especial (zito) y B que no lo cumplen, y seleccionamos al azar sin reemplazamiento,
o bien seleccionamos un grupo de n elementos y definimos la variable aletoria X que cuenta el
número de elementos que cumplen el atributo A entre los n seleccionados, queda claro que el
conjunto de valores posibles de esta variable (Rec(X)), estará formado por todos aquellos valores
que satisfagan la relación:
mar{0, n- B}< < min{n, A}
y en consecuencia para cualquier z que cumpla esta condición cuantía serádistinta de cero y,
8.5. DISTRIBUCIÓN HIPERGEOMÉTRICA 9
será nula en cualquier otro caso. Más específicamente:
(2)(.:, para ma{0, n- B}<< min{n, A}

p(z) = A+ B
0 en c.0.C
y entonces, se dice que X tiene una distribución hipergeométrica con parámetros A, Byn
Notación: Definimos N = A + B, y entonces, al tomar un elemento de esta población, la
probabilidad de que éste cumpla el atributo A ó que no lo haga es, respectivamente:
P(érito) = =P PUracaso) = 1- P(A) = 1-p=9

Y, en empleando esta notación, podemos reescribir la función de cuantía como:
Np N.q
n-z
p() = para maz{0, n N.q}<z< min{n, N.p}

0
( en c.o.C
y así, enunciar las propiedades más importantes de esta distribución, como sigue:
Sólo depende de los parámetros N, n, p.
" Su valor esperado E(X), varianza o² y desviación estándar son respectivamente (ejercicio
para el lector):
N-n o=/np.N-n
E(X) = n.p,
o=n.p.q- N-1' N-1
" Si bien, en este modelo, la probabilidad de éxito varía de prueba a prueba, cuando N es
grande respecto de n, se puede demostrar (también queda como ejercicio para el lector)
que la variable hipergeométrica sigue aproximadamente una distribución binominal. Esto se
representa matemáticamente como
N.q
()(
im
N+oo N -()
Veamos otros ejemplos de aplicación.
* Ejemplo 3
Un paciente, por prescripción médica, debe tomar 3 pastillas de un determinado medicamento. Se
sabe que de las 12 pastillas que contiene el envase que el paciente compró, cuatro están en malas
condiciones. Calcular:
1) la probabilidad de que tome únicamente 1 pastilla en buenas condiciones (H).
2) la probabilidad de que de las 3 pastillas que debe tomar, al menos I esté en malas condiciones
(G).
9) Cuál es el número medio de pastillas en buenas condiciones, en cada toma?
4) Si hubiera comprado un nvase con 40 pastillas, entre las cuales están en malas condiciones,
cuál envase sería más beneficioso para el paciente?.
Solución:
Sidefinimos la variable aleatoria X como el "número de pastillas en buenas condiciones, al tomar las
3 prescriptas", esta variable tiene una distribución hipergeométrica, ya que existe una dicotomía
(pastilla en buen estado y pastilla en mal estado) y se supone que la toma de las pastillas es
equivalente a su extracción del envase, sin reposición. Por lo tanto, la función de cuantía de X
viene dada por:
p() =
(O) para z = 0, 1,2, 3
0 en c.o.c
y entonces, podemos responder a las cuestiones como sigue:
1) P(#) = 12
=0.22
2) Que al menos una esté en malas condiciones es equivalente a que a lo sumo 2 sean buenas,
entonces
PIC) = Lae) = ()0,(0),()0.

12
= 0.51
z=0
3 P) (3)
3) nos preguntan por el valor esperado de X, E(X) =np=3.=2
4) en este caso, cambia la proporción de pastillas en mal estado, y entonces, el valor esperado es
ahora (para un envase con 40 pastillas), E(X) = 3. = 2.25
y en consecuencia podemos afirmar que el segundo envase en más beneficioso que el primero.
* Ejemplo 4
En una ciudad con N = 10 habitantes, se entrevista a un grupo de n = 10 especialistas en violencia
familiar, para que erpongan su punto de vista sobre si los niños maltratados por sus padres deben
ser separados de éstos, y quedar bajo la custodia del Estado. Claro que el tema muy delicado, ya
que por ejemplo, si el grupo familiar es puesto bajo terapia y se logra solucionar el problema, sería
mejor que los niños continúen conviviendo con sus padres, a ser separados y crezcan sin figura
de ellos,y en lugares que no reemplazan siempre a un hogar. Pero también la terapia podría fallar
y el hecho que los niños permanezcan en su hogar pone en serio riesgo su integridad psicológica y
física.
Se sabe también (de un estudio previo) que el 90% de los especilistas de la ciudad están a favor, de
que en caso de haber signos de violencia familiar, los niños deben pasar a la custodia del Estado
(T). Cuál es la probabilidad aprozimada de que entre los 10 especilistas entrevistados haya por lo
menos 1 que opine en este sentido (R)?.
Solución:
Si llamamos X a la variable que cuenta el "número de especialistas entre los 10 que están a favor
de la situación T", la probabilidad pedida es (empleando la aproximación de la hipergeométrica a
la binomial):
105.0,90 10.0, 10
0 10 10
P(R) = 1 10 s1-( )(0.90)°.(0.10)0 =1- (0, 1o)10 =0.99999
10
8.6. DISTRIBUCIÓN GEOMÉTRICA O DE PASCAL 11
8.6 Distribución Geométrica o de Pascal

También haremos la introdución de esta distribución especial, recordando (ya que hemos visto
muchas veces el modelo sin saber su nombre específico) un ejemplo anteriormente visto, el 4 del
capítulo 5.
* Ejemplo 5
Sea el erperimento aleatorio [: "De una urna con bolillas numeradas con 1,2, 3,4,5, se ertraen
bolillas con reposición, anotando el número obtenido en cada ertracción, hasta que sale por primera
vez el número 4".
Definimos ahora la variable aleatoria
X: número de intentos hasta que sale el "<"
a) Determinar función de cuantía de X y representarla gráficamente.
b) Calcular la probabilidad de que se necesiten más de 3 intentos.
Solución:
a) Si denotamos con A al hecho de salir un 4 en un intento (érito), un espacio muestra adecuado
al experimento es:
S= {4,AA, AAA, AAAA,., AAAA,..)

k-fracas os
Podemos poner cada elemento de S en correspondencia biunívoca con los números naturales, por
lo que escribimos |S] = |N|=Ro.
De este modo, X puede tomar cualquier valor natural por lo que Rec(X) = {1,2, ..,k, ..) = N.
Ahora, para un z¬ R fijo, definimos el suceso:
S,: "Se requiere eractamente z intentos para obtener un 4"
S, = {s ES/ las primeras z - 1componentes de la tira son "A"}, si z ERec(X)

S, =0, si z ¬ (R- Rec(X))
Tenemos ahora que hallar P(S.) para los valores posibles de X, para ello procedemos teniendo en
cuenta que, dado que las extracciones son independientes podemos escribir:
P(S.) =P|\(-1)-fracasof
43 A)=PDPOP).P( PA) =() ()
(r-1)-fact ores
Para los z que no pertenezcan al recorrido de X, S, =0 por lo que la cuantía en dichos puntos es
nula. Podemos entonces expresar la función plz) como:
() ) para z = 1,2, .., k, ...

Pe) = en c.0.c
1) VzE R, p(z) >0 es cierto ya que:
vzE Roc(X). pe)=() )>o A VeE (R Rec(X), p(=) =0

2)
Er-))-E)
La gráfica de la función tiene un comportamiento decreciente como se muestra a continuación:
4P(z)
0.2
0.16|
0.13
0.1
0.08
2 3 4 5
b) Haciendo uso de la función de cuantía hallada podemos calcular la probabilidad pedida como
16
P(X > 3) =)
-0))--+ 4 1-25
El modelo así estudiado recibe el nombre de "distribución geométrica", y damos la siguiente
definición formal.
Definición 5
Si tenemos en cuenta un erperimento aleatorio que admite únicamente dos resultados posibles
mutuamente ercluyentes (estamos frente a una dicotomía):
Suceso A (que llamamos "ezito") con probabilidad P(A) =p
Suceso A (que llamamos fracaso") con probabilidad P(A) = 1-p
Y realizamos tal erperimento tantas veces como sea necesario hasta que se obtiene el érito por
primera vez, definiendo la variable aleatoria X como el "número de intentos necesarios", dicha
variable recibe el nombre de variable aleatoria Geométrica con parámetro p.
Es muy sencillo demostrar que la función de cuantía en este caso es:
p(z) = - p p para z =1,2,... en c.O.C
Muchas veces, a los fines prácticos de notación, se suele escribir l -p= q. Y también se
emplea la notación X ~ Gp).
Al igual que las distribuciones anteriores, podemos ennumerar las características más impor
tantes de esta distribución:
Sólo depende del parámetro p.

Su valor esperado E(X), varianza o² y desviación estándar son respectivamente (ejercicio
para el lector, ya propuesto en el capítulo 5):
E(X) =1
8.7. DISTRIBUCIÓN DE POISSON 13
Su función generatrizde momentos es mx=

() )Vt< In(1/)
" Otra propiedad importante de esta distribución es denominada falta de memoria. Esta
propiedad puede ejemplificarse de la siguiente manera: supongamos que hemos realizado un
experimento de tipo geométrico y que el fracaso se observa en cada una de las 15 primeras
prubas. Entonces, dado que todas las pruebas son independientes, la distribución de los
nuevos fracasos que ocurrirán antes de obtener el primer éxito serátambién una distribución
geométrica con parámetro p. De hecho, el proceso comienza nuevamente con la prueba
número 21 y la larga sucesión de fracasos obtenidos en las primeras 20 pruebas, no influye
en los futuros resultados de la experiencia. Matemáticamente, este fenómeno se expresa:
P(X = *+ t/X > k) = P(X = t), Vk, te Z+
8.7 Distribución de Poisson

Este distribución tan importante está presente en muchos fenómenos prácticos tales como: el
número de llamadas telefónicas que se reciben en una central automática durante un determinada
período de tiempo, el número de defectos por unidad de área (por ej. m²) en planchas de acero
inoxidable, el número de partículas atómicas emitidas por una fuente radiactiva en un período fijo
de tiempo, el número de accidentes automovilísticos en un tramo determinado de una autopista,
el número de errores de tipeo por página que comete una persona al escribir con el teclado de su
computadora, y tantos otro.
Observemos que siempre se mide el número de observaciones de un cierto fenómeno por unidad
de especificación". Desde el punto de vista matemático formal para poder establecer el modelo
de esta distribución, supongamos que se observa el número de veces que sucede un fenómeno por
unidad de tiempoy se toma como hipótesis previas a las siguientes:
" el número de ocurrencias en dos intervalos de tiempo cualesquiera disjuntos, deben ser inde
pendientes.
" la probabiliad de ocurrencia durante cualquier intervalo de tiempo muy pequeño debe ser
aproximadamente proporcional a la longitud de ese intervalo. Esto tiene como consecuencia
que, el proceso observado debe ser estacionario sobre el período de observación completo, es
decir, la probabilidad de una ocurrencia debe ser la misma sobre el período completo.
"la probabilidad de observar dos o más ocurrencias en un intervalo de tiempo muy pequeño
debe tener una magnitud de menor orden que la probabilidad de observar únicamente una
Ocurrencia.
En base a estas consideraciones damos la siguiente

Definición 6
Se dice que una variable aleatoria X tiene una distribución de Poisson con parámetro A si
función de cuantía viene dada por
para z=0,1, ..., o0

pe) = 0
z!
en c.o.C
y en este caso, se denota X ~ P(A)
Las características más importantes de esta distribución se resumen como sigue:

Sólo depende del parámetro A.
14 CAPrTULO 8. VARIABLES ALEATORIAS DISCRETAS ESPECIALES
" Su valor esperado E(X), varianza o² y desviación estándar son respectivamente (tener en
cuenta el ejemplo 10 del capítulo 7):
E(X) = A, o= VA
" Su función generatriz de momentos es
mx(0) =E(¢)-}e()= e j = e ) , VIER

T=0 I=0
z!
" Esta distribución cumple con la denominada propiedad reproductiva, esto es, si las variables
aleatorias independientes
X;~ P,(A), i=1,2, ., n

1
para la demostración basta con aplicar propiedades de la función generatriz de momentos:

n
ms(t) = ][ mx. (t) = eile'-)..ea(e'-1) = e , )(le-1)

i=1
con lo cual la propiedad queda demostrada.

* Ejemplo 6
Una empresa fabrica galletas con trocitos de almendras, se sabe que el número medio de trocitos de
almendras por galleta es de 5. Se escoge una galleta al azar de la producción y se define la variable
aleatoria X que cuenta el número de trocitos de almendra por galleta.
1) Calcular la probabilidad de que la galleta elegida contenga ezactamente 6 trocitos de almendra
(J).
2) Cuál es la probabilidad de que en un paquete de 15 galletas, el número de trocitos de almendras
sea ezactamente 70 (K)?
Solución:
1) la variable aleatoria X tiene una distribución de Poisson con parámetro À = 5, entonces, la
probabilidad pedida es:
e-5.56
PJ) = P(X =6) = 6!
2) Si el número medio de trocitos de almendra por cada galleta es 5, el promedio en un paquete
de 15 galletas es 5 x 15 = 75. Sea Y la variable que cuenta el número de trocitos de almendra por
paquete de unidades, entonces Y ~ Po (75) y la probabilidad pedida es
e-75,7570
P(K) = P(Y = 6) = 70!
8.7.1 Aproximación de Poisson a la distribución binomial

Esta es otra propiedad importante de esta distribución, que emplea en aquellos casos cuando
al tener una variable aleatoria binominal con parámetros n muy grande y p muy pequeño y, el
producto de ellos permanece constante.
Matemáticamente podemos expresar: Si X ~ B(n, p), n ’0, p0 y n.p=)= constante
lim p(z) = lim "p*.(1-p)- =lim "--+(1-p)n-s

n-+oo
lim
n o z! n
AF nn-1 n-+1
n --)-)" lim
t! n’oo (-)'
8.8. DISTRIBUCIÓN MULTINOMIAL 15
* Ejemplo 7
Supongamos que de una producción muy grande de pernos, se sabe que el 1% son defectuosos. Si
se escogen al azar 200 pernos de esta producción, cuál es la probabilidad de que en la muestra no
haya más de 3 defectuosos (H)?.
Solución:
Podemos aplicar la aproximación antes mencionada ya que si definimos la variable aleatoria X
como "número de pernos defectuosos entre los 200 seleccionados", claramente X~ B(n = 200,p =
0.01). Estamos bajo las hipótesis de tal aproximación y, tomando A= n.p = 200 x 0.01 = 2, la
probabilidad aproximada del evento en cuestión es
3
P(H) = P(X<3) = L0 .(0.01)F.(0.99)200-e2e22e-.29 = 0.8572
i=0
0! 2!
8.8 Distribución Multinomial

Esta distribución resulta ser una generalización de la distribución binomial, ya que en este caso
no hay una dicotomía en la población de estudio, sino que sus elementos están divididos en k
categorías mutuamente excluyentes (es efectivamente una partición de la población en k compo
nentes) A1, Ag,..,Ak, con probabilidades respectivas P1, P2,...pk, de modo que la suma de éstas
probabilidades es 1. Se realiza ahora el siguiente experimento aletorio: extraer de esta población
n elementos con reposición ( o bien, si la población es muy grande, sin reemplazamiento) y defini
mos las variables aleatorias X1, X2,..,X7 tales que X; cuenta el número de elementos entre los n
elegidos, que cumple el atributo o característica A;. Entonces:
Definición 7
Bajo las hipótesis antes mencionadas, se dice que la variable aleatoria k dimensional (X1, X2,...,Xk)
tiene una distribución multinomial o polinomial y su función de cuantía conjunta viene dada
por
., z:) =
para mn= l,2,.., =n, T=1
i=l i=1
0 en c.o.C
Esta distribución presenta entre sus características más importantes, las siguientes:
" depende de los parámetros n y Pi, P2,Pk
" la cuantía marginal de cada una de las X; es una distribución binomial con parámetros n y
P; (ejercicio para el lector)
* Ejemplo 8
En un análisis de mercado, se estudió la preferencia de una persona por elegir de entre tres marcas
de manteca: A, B y C. Se determinó que la probabilidad de que una persona elegida al azar elija
cada una de las marcas es 0.1, 0. y 0.5 respectivamente.
Se entrevista a 10 personas sobre cuál de las tres marcas elegiria yse definen las variables aleatorias
X; (i = 1,2,3) que cuentan el número de personas entre las 10 que eligen la marca A,B 6 C
respectivamente. Determinar la probabilidad de que:
1) la mitad de las personas hayan elegido la marca A y la otra mitad, la marca C.
2) todas hayan elegido la marca A.
3) 5 personas hayan elegido la marca A.
Solución:
10!
1) P(X1 =5, X) =0, X3 = 5) = i(0.1)°(0.4)°(0.5)=7.875 x 10-5
10!
2) P(X; = 10, X; = 0, Xs = 0) = oino(0.1)1°(0.4)°(0.5)°= 10-10
3) P(X1 =5, X2= 0, Xy = 5) + P(X1 =5, X, =1, X3 =4) + P(X1=5, X, = 2, X3 = 3)
+ P(X1 = 5, X; =3,X3 = 2) + P(X1 = 5, X; =4, Xs = 1) + P(X1 = 5, X; = 5, X, = 0)
8.9 Ejercicios complementarios
Además de los ejercicios complementarios de los capítulos 5, 6 y 7, se aconseja realizar los siguientes:
o Ejercicio 5
En un cierto hospital se comprobó que la aplicación de un determinado tratamiento en enfermos
de cirrosis produce una cierta mejoría en el 80 por 100 de los casos. Si se aplica el tratamiento a
8 personas y se define la variable aleatoria X: "número de personas que mejoraron al aplicarseles
el tratamiento", se pide:
a) escribir el conjunto Rec(X).
b) deducir la función de cuantía p(z).
c) hallar la función mx(t) y con ella deducir el número esperado de personas que mejoran con el
tratamiento. Qué nos indica este número?.
d) hallar la probabilidad de que mejoren cinco personas en el grupo.
e) hallar la probabilidad de que mejoren al menos tres personas del grupo.
o Ejercicio 6
En una fábrica de zapatos, la capellada, la suela y el taco son fabricados separadamente y ensam
blados para formar un zapato. El 5% de las capelladas, el 4% de las suelas y el 1% de los tacos
tienen fallas. Para un lote de 100 pares de zapatos, se define la v.a.X: "número de pares con
alguna falla".
a) Cuál es el Rec(X)?.
b) Deducir la función de cuantía p(r).
c) Hallar la función mx (t) y con ella deducir el número esperado de pares con alguna falla y el
valor de o.
d) Cuál es la probabilidad de que en el lote haya por lo menos un par con alguna falla?.
o Ejercicio 7
Un atleta realiza 11 lanzamientos independientes de jabalina, pudiendo lograr una marca cualquiera
entre 15 y 25 metros. Se considera que el lanzamiento fué eritoso si logra una marca superior a
20 metros. Sea la v.a. X: "número de lanzamientos eritosos en los 11 intentos".
a) Escribir la función de cuantía de X.
b) Hallar el númnero más probable de lanzamientos eritosos y su probabilidad.
o Ejercicio 8
Una panadería hace galletitas con trocitos de almendra. Un lote tiene 1000 galletitas. Se agregan
3000 trocitos de almendra a la masa para un lote y se mezcla bien toda la masa. Si se elige al azar
una galletita del lote:
a) Definir una v.a. que cuente el número de trocitos de almendra en una galletita y escribiT su
función de cuantía.
b) Cuál es la probabilidad de que una galletita no contenga ningún trocito de almendra?; y de que
contenga eractamente 3?.
c) Cuál es el número esperado de trocitos de almendra en 5 galletitas?.
o Ejercicio 9
Se sabe que el número de remaches defectuosos (X) en el ala de un avión es una v.a. Poisson
con parámetro A =2. Calcular función generatriz de momentos mx (t) y con ella verificar que
E(X) = oj =A.
o Ejercicio 10
Supóngase que en un libro de 500 páginas hay 300 errores distribuidos al azar. Definimos la
variable aleatoria X: "Número de errores por página". Se pide:
a) escribir la función de cuantía p(z).
b) la probabilidad de que haya ezactamente 2 errores en una página.
c) la probabilidad de que haya tres o más erTores en una página.
c) encontrar la función generatriz de momentos mx (!) y verificar con ella que E(X) = o =
o Ejercicio 11
En promedio, 5 personas por día consultan a un afamado decorador de tortas. Definir una variable
aleatoria X apropiada al erperimento y determinar la probabilidad de que:
a) eractamente 14 personas lo visiten en una semana.
b) por lo menos 2 personas lo visiten en una hora.
" Ejercicio 12
En un lugar en particular de un lago, el número de peces capturados por hombre-hora (X) es tal que:
para z =0,1,..., o0
en c.0.C
Si un hombre pesca en ese lugar:

a) Cuál es la probabilidad de que pueda pescar ezactamente dos peces en un hora?.
b) Cuál es la probabilidad de que pesque al menos dos peces en cuatro horas ?.
o Ejercicio 13
a) Demostrar que la distibución de Poisson cumple con la propiedad reproductiva, esto es: X; ~
P.(Ai) y X~ Po() y X1 y X2 son independientes X1+ X ~ Po(Ai t Az).
b) Un banco tiene habilitadas dos cajas receptoras para cobrar impuestos. Los clientes se aproziman
a la caja I según una ley de Poisson con promedio de 15 clientes por hora y, a la caja II, según
una ley de Poisson con un promedio de 20 clientes por cada dos horas. Hallar la probabilidad de
que 8 clientes lleguen a las cajas en el período de horas. Suponer independencia entre el número
de clientes que llegan a la caja I y los que llegan a la caja lI.
" Ejercicio 14
A una fotocopiadora concurren dos tipos de clientes: con servicios largos (de 15 o más planas para
fotocopiar) y otro con servicios cortos (con menos de 15 planas). Se sabe que los trabajos cortos
llegan a razón de 20 personas por horay que los de larga duración, a 30 cada dos horas.
Suponiendo que la cantidad de personas que llegan (tanto de trabajos largos como cortos) responde
a una distribución Poisson, y que las llegadas de un tipo de clientes y otro, son independientes.
Calcular:
a) la probabilidad de que lleguen 10 personas en un período de 5 horas.
b) la cantidad esperada de llegadas por minuto.
o Ejercicio 15
En una región de América, el 0.03% de los habitantes mueren debido a la mordedura de cierta
variedad de serpiente, en un año. Una compañía de seguros tiene entre sus clientes 10000 que
están asegurados contra ese tipo de accident. Hallar la probabilidad de que ésta deba pagar más
de cinco pólizas en un año.
o Ejercicio 16
Un comprador de grandes cantidades de circuitos integrados ha adoptado un plan para aceptar un
envío de éstos y que consiste en inspeccionar una muestra aleatoria de 400 circuitos provenientes del
lote. Si el comprador encuentra no más de dos circuitos defectuosos en la muestra, acepta el lote;
de otra forma, rechaza. Si se envía al comprador que contiene el 1% de circuitos defectuosos,
cuál es la probabilidad de que éste se aceptado ?.
o Ejercicio 17
Una compañía de seguros garantiza de seguros individuales contra cierto tipo de accidentes. Una
encuesta ha permitido estimar que a lo largo de un año cada persona tiene una posibilidad de cada
mil de ser víctima de una accidente que esté cubierto por este tipo de pólizas y que compañia
podrá vender una media de cuatro mil pólizas de seguros de este tipo al año. Se pide hallar:
a) la probabilidad de que el número de accidentes, cubiertos por la póliza, no pase de cuatro por
año.
b) número de accidentes esperados por año.
c) probabilidad de que el número de accidentes sea superior a dos por año.
d) la probabilidad de que ocurran doce accidentes por año.
o Ejercicio 18
Una agencia de publicidad ha determinado que, en una encuesta televisiva, la probabilidad de que
una persona vote por tres candidatos A,By C es, respectivamente, 0.1, 0.4 y 0.5. Suponiendo que
se realiza la encuesta a 10 personas, se pide:
a) la probabilidad de que el candidato B no obtenga ningún voto y A yC el mismo número de
Votos.
b) la probabilidad de que el candidato A obtenga los 10 votos.
c) la probabilidad de que A obtenga 5 votos.
o Ejercicio 19
Con base en la erperiencia se sabe que la proporción de unidades útiles producidas por un proceso
de manufactura es 0.65 y las proporciones de unidades enviadas a reprocesar y desechadas son
0.25 y 0. 10, respectivamente. Si se supone que el número de unidades que se producen en un lapso
dado es ny que además éstas constituyen un conjunto de ensayos independientes, desarrollar una
ezpresión para la probabilidad de tener, de manera eracta z1, T2 y Z3 unidades útiles, reprocesables
y desechadas, respectivamente. (Este es un caso concreto de la llamada distribución multinomial).
Luego, demuestre que las distribuciones marginales corresponden a un modelo binomial.
o Ejercicio 20
Un erperimento se realiza hasta que un suceso en particular Aocurre por k-ésimavez. Si P(A) =p
y P(A) =1-pq en cada una de las repeticiones y definimos la v.a. X: "nÍ de repeticiones
necesarias para que A ocurra eractamente k veces".
a) Probar que:
si z = k, k + 1,...00
X~ p(e): 0 en c.o.c
(esta es llamada distribución de Pas cal o Binomial Negativa).

b) Demostrar que E(X) =y Var(X)= . (Sugerencia: escribir aXcomo suma de k variables
geométricas independientes).
Bibliografía
[3] William Feller, Introducción a la Teoría de las Probabilidades y sus Aplicaciones, Ed. Limusa
Wiley, 1978.
[4] PaulL. Meyer, Probabilidades y Aplicaciones Estadisticas, Fondo Educativo Interamericano,
1986.

Iberoamerica, 1987.
[7] Morris de Groot, Probabilidad y Estadística, Ed. Addison-Wesley Iberoamericana, 1988.
[8] George C. Canavos, Probabilidad y Estadística, Aplicaciones y Métodos, Ed. McGraw-Hill, 1993.
[9) Ronald E. Walpole, Raymond H. Myers, Probabilidad y Estadística, Ed. MeGraw-Hill, 1996.
1998.
[12] Orlando J. Avila Blas, Variable Aleatoria Multidinensional,,Apuntes de Teoría de Proba

1998, 1999, 2000 y 2001.
19
Contenido
9 Variables Aleatorias Continuas Especiales 3

9.1 Introducción 3
9.2 Distribución Uniforme 3
9.3 Distribución Normal o de Gauss-Laplace
9.3.1 Distribución Normal Bivariada 14
9.4 Distribución Gamma 17
9.5 Distribución Exponencial 19
9.6 Distribución Beta 22
9.7 Ejercicios complementarios 23
1
Capítulo 9
Variables Aleatorias Continuas

Especiales
9.1 Introducción
En los capítulos previos, hemos estudiado un amplio espectro de elementos referidos a variables
aleatorias, tanto discretas como continuas. En particular, en el capítulo anterior hemos analizado
detalladamente las denominadas variable aleatorias discretas especiales.
Ahora le toca el turno a las variables aleatorias continuas especiales, para las que seguiremos
un esquema de tratamiento similar al del capítulo 8 e inclusive veremos que en algunos casos,
distribuciones discretas especiales están conectadas con distribuciones continuas especiales, bajo
ciertas condiciones denominadas "asintóticas". Nuevamente, el lector encontrará muy familiar
algunos modelos, y es que, en efecto, los hemos estudiado antes pero sin haberles puesto "nombre
y apellido".
De entre el amplio espectro de distribuciones continuas que existen se destacan las que estudiaremos
a continuación.
9.2 Distribución Uniforme

Definición 1
Una variable aleatoria X continua, cuya función de densidad viene dada por
para aS <b, a,bE R
fle) = 0 en c.0.C
se denomina variable uniforme continua y su distribución de probabilidad, distribución

uniforne continua. Se suele denotar en este caso que X~ Ua, b)
Esta es una de las distribuciones más sencillas de definir y responde a muchos experiemtos aleato
rios simples, tal como el estudiado en el ejemplo 8 del Capítulo 5, que traemos a la memoria a
continuación:
* Ejemplo 1
Un atleta, al realizar un salta en largo, puede caer en cualquiera de los puntos comprendidos entre
dos puntos fjos a y b (a < b). Se define la variable aleatoria X: "coordenada del punto de caída".
a) Qué valores puede tomar variable así definida?.
b) Determinar la función de distribución acumulativa F(z).
c) Deducir a partir de F, la densidad de X y dibujar ambas funciones.
La variable definida de este modo recibe el nombre de uniforme continua.
3
4 CAPÍTULO 9. VARIABLES ALEATORIAS CONTINUAS ESPECIALES
Solución:
a) El atleta puede caer en cualquiera de los puntos del intervalo real (a, b), por lo tanto: Rec(X) =
(a, b).
b) La variable aleatoria X tiene asociado un espacio muestra que es infinito no numerable uniforme,
que es S= (a, b) (así, X es la función identidad). Entonces podemos escribir:
1) Vesa, F() = P(X se) = P(0) =0
long(a, z)
2) Va<z <b, F(¢) = P(X < r) = P(a< X<*) = long(a, 8j
3) V> b, F(¢) = P(X < a) = P(S) = 1
Entonces, la función F adopta la forma:
para z <a
F(z) = b-a
para a<z< b
1 para z>b
c) Observamos que la función F es derivable en todo punto z # a, by entonces la función derivada

(la función de densidad de X) toma la forma:
para a<<b
f(z) = dF(2)
d en C.0.C.
En base a las formas explícitas halladas, las respectivas gráficas de la función de densidad y de
distribución acumulativa son (por ejemplo, tomando a, b> 0):
f(e) F(z)
a 0 6
Ahora destacamos las características más importantes de esta distribución:

" Sólo depende de los parámetros a y b
" Su valores esperado E(X), varianza o? y desviación estándar son respectivamente (ejercicio
para el lector):
E(X) = 2 12 12
" La función generatriz de momentos es

ebt-eat
mx() =E(e*)
= )de = de:
(b-a)t (t #0)
que se puede redefinir como mx (t) =0 en t= 0, para hacerla continua.
9.2. DISTRIBUCIÓN UNIFORME 5
" Se puede demostrar que esta distribución no cumple con la propiedad reproductiva (ejercicio
para el lector).
Una propiedad de esta distribución que merece especial atención es la siguiente

4 Teorema 1 de la Transformación Integral
Sea X una variable aleatoria cualquiera con función de distribución acumulativa F(¢), entonces
la variable aletoria Y = F(X) ~ Uo,1)
Demostración (caso continuo):
Hay que destacar en primer lugar que siempre se puede redefinir la función F(z) como para que
admita inversa (ejercicio para el lector). Calculamos ahora la función de distribución acumulativa
de Y:
G(y) = P(Y <y) = P(F(X) < y) = P(F-(F(X)) <F-())

= P(X F-(y)) =F(F-(y)) =y, 0<y<1
Esta función vale 0 para y<0y es igual a l para y > 1, y por lo tanto, la función de densidad
de Y se obtiene derivando la función G(y). Con lo que obtenemos:
dG(u) para 0 <y<l
g(u) = dy en c.0.C.
Es decir, que Y ~U(o,1)

Esta importante propiedad tiene como una de las aplicaciones inmediatas, la generación de mues
tras provenientes de una población con comportamiento aleatorio descripto por la variable X,
a partir de la generación al azar de números del intervalo real (0, 1). Esto es, por ejemplo, si
querermos obtener una muestra al azar de una distribución
e-.
p(z) = para z =0,1,2,..., oo y >0y p(z) =0 en c.o.c.
bastará con seleccionar al azar una cantidad finita de números reales del intervalo (0, 1), dig
amos z1,T2, ., Zn, y para cada uno de ellos, por ejemplo z1, calculamos la preimagen F(z1),
donde F es la función de distribución acumulativa de X.
Vimos en el capítulo 6, que este tipo de distribución uniforme se puede extender a dimensión 2
o más, en particular, basta con recordar el siguiente ejemplo de una variable aleatoria bidimensioal
continua uniforme.
* Ejemplo 2
Se estraen al azar un punto (, y) del cuadrado unitario [0, 1] x [0, 1] contenido en el plano R?. Se
define la variable aleatoria bidimensional (X, Y) por medio de:
X: "valor correspondiente a la primera coordenada "
Y: "valor correspondiente a la segunda coordenada"
1) Demostrar que tiene sentido proponer como función de densidad conjunta de (X, Y) a:
para 0<<1,0<y<1
en c.O.C
2) Calcuiar las probabilidades P(X <,Y<)yP(x +Y>) e interpretarlas geométricamente

en la gráfica de la función f.
Solución:
1) Tiene sentido suponer que todos los puntos del cuadrado unitario [0, 1] × [0, 1] tienen las mismas
probabilidades de ser elegidos (es decir, está presente la condición de uniformidad),. Esto significa
que si tomamos dos puntos distintos (z1,y1) y (z2, y2) de dicho cuadrado y definimos sendos
entornos de radio e, el vólumen de los respectivos cilindros (v1 y v2) de base cada entorno y techo
la superficie de la densidad conjunta f, deben ser iguales. Gráficamente tenemos la situación
primera:
2=f(, y)
U1
1
(z1, y1)
(T2, y2)
Y la igualdad de los respectivos volúmenes se darási y sólo si el techo es un plano, es decir,

sólo si f(E, y) = K (K constante real) para todo los (z,y) ¬ [0, 1] x [0, 1]. Claramente, fuera del
cuadrado unitario, la densidad conjunta debe ser nula puesto que no se extrae ningún punto de
esta región del plano. Luego, para determinar la forma explícita de la función f debemos verificar
las condiciones en la definición de densidad conjunta:
1) f(z,y) >0, v(z,y) ER². Como f(z,y) = 0, v(z, y) ¢ [0, 1] × (0, 1], debe ser K> 0
rtoo
2) f(e,y) dz dy =, Kdz dy =l’K=1
y esto demuestra que tiene sentido escribir:
(X, Y) ~ f(z, y) = o1 enparac.o.c

0<<1, 0<y<1
2) Según el punto 3) de la definición de densidad conjunta, las probabilidades solicitadas se calculan

Como:
P(XS},Y<)= Jo Jo
ldz dy =
9
P(X+Y>) =1-P(X+Y<) =1 1dz dy =
32
Estas probabilidades coinciden numéricamente con los volúmenes de los cuerpos dibujados a
continuación:
9.3. DISTRIBUCIÓN NORMAL O DE GAUSS-LAPLACE 7
volumen = P(X<,Y<) volumen = P (X +Y <)
Y, en general, si se selecciona al azar un punto de la región: RCR, se puede demostrar que

tiene sentido plantear como función de densidad conjunta para las variables aleatorias coordenadas
del punto elegido, a:
si (z,y) E R
C.o.C.
aunque la región R sea no acotada pero con m(R)<too.
9.3 Distribución Normal o de Gauss-Laplace

Esta es una de las distribuciones más importantes en Estadística debido fundamentalmente a tres
razones principales:
" Existen muchas variables medibles u observables en la naturaleza: tales como el peso de
una persona, su altura, su coeficiente de inteligencia; errores en mediciones, resistencia a la
tensión de barras de acero, etc.
" Desde el punto de vista estadístico matemático, es importante suponer que al tomar una
muestra, ésta provenga de una distribución normal, ya que permite generar la distribución
de varias funciones importantes de las observaciones muestrales, y además éstas presentan
una forma relativamente sencilla de tratar. Este hecho se estudiará con mucho detalle, en el
capítulo 11.
El último motivo, pero no por ello el menos importante, es que si sumamos una cantidad
finita n de variables aletorias independientes, con esperanza y varianza finitas, aunque no
sean necesariamente normales, o todas discretas o continuas, cuando más grande sea la
cantidad de términos de la suma, la variable resultante tendrá un comportamiento que cada
vez se parecerá más al de una distribución normal. También se suele decir que cuando n es
suficientemente grande, la variable suma se distribuye "casi como una normal".
Esto es, la distribución de la suma, en el límite cuando n ’ oo, se cormportará "como una
normal" (sorprendente!) y esto permite hacer cálculo de probabilidades que de otra manera
sería práctimente imposible de realizar. Esta propiedad fundamental, denominada Teorema
Central del Límite, será estudiada con más detalle en el capítulo 10.
Damos a continuación la siguiente
8 CAPITULO9. VARIABLES ALEATORIAS CONTINUAS ESPECIALES
Definición 2
Una variable aleatoria X continua, cuya función de densidad viene dada por
1
f(z) = para z E R, uE R, oE R+
se denomina variable aleatoria Normal o de Gauss-Laplace y su distribución de proba

bilidad, distribución Normal. Se suele denotar en este caso que X~ N(u, o)
La gráfica de esta densidad tiene una forma de campana, tal como se muestra en la gráfica
siguiente, de allí que se habla de la "campana de Gauss" para referirse a esta distribución tan
importante.
()
Canpana du GiuSs
Para demostrar que esta función es una densidad legítima, debemos probar que:
1) f(z) > 0, Vz E R.
f(z) dz =1
J-oo
Elpunto 1)se cumple ya que por definición de esta densidad:

1
VzE R: -()>0
Elpunto 2) requiere de un poco más de atención al cálculo basado en nuestros estudios previos de
Análisis matemático.
la idea se plantea así: si denotamos
1
- ( ) da
como f() > 0 siempre, entonces también lo es I, y si demostramos que = 1, entonces como
conclusión nos quedará dermostrado que = 1.
Alescribir como una integral doble, hacemos los siguientes pasos: primero un cambio de vari
able, u = (de manera análoga para la varialble auxiliar v=: E); segundo paso:empleamos
coordenadas polares tomando: u = rcos0 y v = r sin y teniendo en cuenta que u'+ ² = r',
podemos escribir las siguientes igualdades
1
1_-(
J-oo V2ro
dy
+oa .21
1 too 1
e-rrdr.do =.2m =1
9.3. DISTRIBUCIÓN NORMAL O DE GAUSS-LAPLACE
Se puede ver gráficamente cómo se ve afectada la densidad normal cuando sus parámetros
carácterísticos u y o cambian, en las siguientes figuras.
J4=0
T(«)
Destacamos a continuación, las características más relevantes de esta distribución:

" Sólo depende de los parámetros yo
" Su valores esperado E(X), varianza y desviación estándar son respectivamente (ejercicio para
el lector):
E(X) = 4,
" La función de densidad tiene un máximo absoluto en z = 4;2 puntos de inflexión: a1 =4-o
y a2 = u+ o, y presenta una asíntota horizontal: el eje z.
" La densidad es simétrica, teniendo como eje de simetría larecta =p (y por lo tanto, media,
mediana y modo coinciden), y esta propiedad se emplea para el cálculo de probabilidades
como áreas, mediante el uso de una tabla apropiada de probabilidades acumuladas (página
18, en el capítulo 10). En dicha tabla, se presentan los valores de probabilidad acumulados a
la izquierda de un valor particula z, dados por una expresión muy especial que estudiará
enseguida.
" La función generatriz de momentos es
mx(t) = E(e*) =| e"f(e) dz = eutt}o'", veER

" Como la función generatriz de momentos existe siempre y además es infinitamente derivable
(en particular en un entorno del cero), todos los momentos naturales de la distribución
también son finitos.
" Se puede demostrar que esta distribución cumple con la Propiedad Reproductiva (ejercicio
para el lector).
A los fines prácticos es importante tener en cuenta, el siguiente:

& Teorema 2 :Transformación lineal de una normal
Si la variable aleatoria X ~ N(u, o) y si definimos la variable Y = aX +b con a yb constantes
reales, a 0, entonces Y ~ N(ap + b, a'o)
Demostración: ejercicio para el lector
Una aplicación inmediata de este teorerma el denominado proceso de estandarización, que
X
consiste en: si una variable X~ N(u, o') entonces, la variable Z=*~ N(0, 1).
En esta caso a la variable aleatoria Z se la denomina variable normal est¯ndar, unitaria o tipificada,
y su función de densidad y de distribución acumulativa vienen dadas por:
V2
y
F(:) =P(Z<) =(:) =| du
Las gráficas respectivas de estas funciones se muestran a continuación
04
03
q2
-3 0 2
10
05)
-4 -3 -2 2
La segunda de ellas, estátabulada (ver pag. 18, capítulo 10) y no puede resolverse por ningún
método analítico conocido, se debe recurrir a métodos de aproximación numérica. La ventaja de
este proceso de estandarización (que algebraicamente es una transformación lineal de la variable
X), radica en que no necesitamos tener una tabla para cada juego de valores (u, o) (lo cual sería
físicamente imposible), basta con estandarizar la variable normal del problema y luego sólo emplear
para el cálculo de probabilidades, la tabla de la función ®(z).
Como puede observarse en dicha tabla, sólo se han considerado valores de Z no negativos, ya que
si tenemos que calcular,por ejemplo (2) para z < 0, procedemos (por la simetría de la densidad
normal estándar con respecto al origen de coordenadas), haciendo
(:) = P(Z > -z) = 1 - P(Z< -z) = 1- (-)
* Ejemplo 3
Un psicólogo realiza un test de cien preguntas a un grupo de 200 personas. Si denotamos con X
las puntuaciones obtenidas por las personas y suponemos que esta variable tiene una distribución
normal con media de 60 puntos y una desviación estándar de 10 puntos, calcular las siguiente
probabilidades:
a) P(X > 70) b) P(X < 80) c) P(X < 30)
d) P(X > 46) e) P(39 <X<80) f) P(80 <X< 82.5)
9) P(30 < X<40) h) P(|X 60| < 20) i) P(|X 60|> 20)
i) Número de entrevistados que obtuvieron 70 puntos.
Solución:
La variable aleatoria X se define como el puntaje obtenido por una persona que contesta al test, y
tiene una distribución N(60, 100). Por lo tanto, la variable estandarizada 60~N(0, 1), y pode
mos emplear para el cálculo de las probabilidades en cuestión, la tabla de la página 18, capítulo 10.
La resolución de este ejemplo se hace en forma analítica y se muestran en forma paralela la repre
sentación gráfica de la probabilidad calculada (como el valor de un área), tanto en la distribución
original como en la estandarizada.
a) P(X >70) =P ( > )= P(Z> 1) = 1- P(Z s1) =0.1587
P(70)
GO 70
P(1)
b) P(X < 80) = P(Z < 2) = 0.9772
P(iS2)
c) P(X < 30) =P(Z<-3) = 0.00135
P23)
Plzs-3)
ol
d) P(X >46) = 1- P(X<46) = 1- P(Z<-1.4) = 0.9192
P(z2-1,4)
e) P(39 < x<80) = P(-2.1< Z< 2) =(2) - (-2.10) =0.9593
P(2.1%S2)
f) P(80 <X<82.5)= P(2< Z<2.25) =0.0106
P(2S4S2,25)
g) P(30 <X<40) = P(-3< Z< -2) =0.02145
-3 -2 2
h) P(|X - 60| < 20) = P(40 < X <80) = P(-2 <Z<2) = 0.9544
40 60
i) P((X- 60|> 20) =1- P(40<X< 80) =1- P(-2<Z<2) =0.0456
j) Como P(X > 70) = 0.1587 entonces, el 15.87 por ciento de los entrevistados obtuvieron un
puntaje superior a 70, esto es, aproximadamente 32 personas.
* Ejemplo 4
Un bioquímico observó a través de los años, que el número de glóbulos rojos (medidos en millones)
de los habitantes de Salta, sigue una distribución normal con media 4.5 y desviación estándar de
0.5 Calcular:
a) la probabilidad de que un habitante tomado al azar tenga más de 5 millones de glóbulos rojos.
b) el número de glóbulos rojos del 80 por 100 más prózimo a la media poblacional.
Solución:
a) P(X > 5) = P(Z > 1) =1- P(Z s1) = 0.1587
14 CAPITULO9. VARIABLES ALEATORIAS CONTINUAS ESPECIALES
4.5
b) En forma gráfica, el 80 por 100 más próximo a la media cumple la relación P(z1 <X<
T2) =0.80
40, 40,
10%
y estandarizando la expresión anterior, tenemos: P(zo.1 < Z < zo.1) = 0.80; y haciendo uso de
la tabla de probabilidades acumuladas, se tiene:
Z0.1 = 1.28 = Z1 -4.5 =-Z0.9 =
T2 4.5
0.5 0.5
por lo tanto: z1 =5.14 y T2 = 3.86
"o.10
es decir, podemos concluir que el 80 por 100 más próximo a la media tiene más de 3.86 y menos
de 5.14 millones de glóbulos rojos.
9.3.1 Distribución Normal Bivariada

El concepto de la distribución normal oguassiana se puede extender del caso unidimensional al
caso bivariado y se emplea en vida real en ejemplos como: estudiar el comportamiento estocástico
conjunto de la demanda mensual de dos productos, para cual es necesario realizar cálculos
complementarios tales como el coeficiente de correlación, la covarianza, las densidades condicionales
y probabilidades condicionales de demanda un producto frente a la demanda fija del otro.
Si bien, este tema no siempre está incluído en los programas tradicionales de un primer curso de
Estadística Inferencial, en esta sección haremos una breve referncia a esta importante distribución.
Definición 3
Se dice que las variables aleatorias X e Y tienen una distribución normal bivariada si su
función de densidad conjunta está dada por:
f(z, y) =a o y v - - ) ( ) - ( ) ()l}
1
Ve,yE R,y dondep es el coeficiente de correlación definido en el capítulo 7.

La gráfica de esta densidad se muestra en la siguiente figura:
0.16
0.1|
-2,0
0,0S
-0:6
0,00
2.0)
0.6
-0,8
-2.2
-)2
Observemos que la densidad conjunta tiene como gráfica a una superficie tridimensional en
forma de campana. Cualquier corte a través de la superficie permite obtener una distribución
normal univariante, mientras que si los cortes se hacen en forma paralela al plano de base (XY,
las curvas de corte son elipses que reciben el nombre de contornos de probabilidad constante. En
las gráicas que se muestran a continuación podemos ver la densidad conjunta para valores de
p = -0.8, 0, 0.8 y también los contornos de probabilidad (elipses) para p = -0.8 (izquierda) y
p=0.8 (derecha).
rho -0.0 rho 0

ho 0
rho = 08
Iho -0B
-2 2 -4-2 2
Es muy curioso lo siguiente: a pesar de que p= 0es una condición necesaria para la inde
pendencia entre X e Y, para el caso particular de esta distribución, también es una condición
suficiente. Es decir, si p=0 entonces:
f(z, y) = 2rax ay
y esta expresión se puede escribir como el producto de dos densidades normales univariadas (la de
Xy la de Y respectivamente) (ejercicio para el lector).
También se puede demostrar que la densidad condicional de X dado Y = y se puede escribir como:
f(z/y) =
9.4. DISTRIBUCIÓN GAMMA 17
la cual resulta una densidad de probabilidad normal con valor medio:
E(X/y) = x + pox oy'(y - y) y varianza Var (X/y) = o (1-p).

Se puede obtener la otra densidad condicional intercambiando z por y.
9.4 Distribución Gamma

Otra distribución muy importante en Estadística es la que definimos a continuación, debido a
que constituye una familia de distribuciones, de entre las cuales se distingue una en especial, que
estudiaremos en el Capítulo 11, denominada distribución chi-cuadrado:
Definición 4
Se dice que una variable aleatoria X tiene una distribución gamma si su función de densidad
es
si z > 0, B>0, a >-1

f(z) =
0 en c.O.C.
y simbolizamos X ~ I(a,B)
En la figura siguiente, se muestran las respectivas gráficas de esta densidad para varios valores
del parámetro a y B= 1. Un cambio en los valores del segundo parámetro solo hace variar la
escala sobre ambos ejes.
Lo
0,50
425
Antes de demostrar que esta función f(z) es una densidad legítima, necesitamos definir la
siguiente función matemática:
Definición 5
Para cualquier valor real positivo a, se define la función matemática Gamma como
r(a) = °.edz
Si resolvemos por partes, la integral que define la función I(a), obtenemos la siguiente fórmula
de recurrencia:
T(a) = ar(a - 1)
En el caso de que a sea un número natural, aplicando esta fórmula de recurrencia, obtenemos:
r(a) = a(a- 1)(a - 2)...2.r(0)
18 CAPITULO 9. VARIABLES ALEATORIAS CONTINUAS ESPECIALES
y dado que r(0) = e*dz = 1, obtenemos entonces, la ya archiconocida expresión:

Jo
T(a) = o(a 1)(a-2)..2.1 = a!

esta expresión puede extenderse a los casos en que a no sea un natural, como por ejemplo, cuando
es un múltiplo entero de 1/2, y en consecuencia bastará con conocer ()! a tales fines.
Hacemos los siguientes cálculos:
y haciendo el cambio de variables: y = u²/2, tenemos:

1
Ve2.dy
2
debido a que la última integral corresponde numéricamente a la mitad del valor del área limitada
por la densidad normal estándar, y en consecuencia vale 0.5.
A partir de este resultado podemos encontrar por ejemplo el siguiente valor:
105/7
16
Las características más imnportantes de esta distribución, se pueden resumir como sigue:
" Sólo depende de los parámetros a y B.
Su función generatriz de momentos es mx (t) = ( ) V<+

" Su valores esperado E(X), varianza o y desviación estándar son respectivamente (ejercicio
para el lector):
E(X) = B(a + 1), o?= B(a+ 1), o=V8(a+ 1)
" Se puede demostrar que esta distribución cumple con la propiedad reproductiva (como se
demuestra en el teorma siguiente).
la función de distribución acumulativa es:
F(=) = °eddu
para z > 0y nulaen cualquier otro caso. Esta funcióndebe calcularse por métodos numéricos,
salvo que a sea un número natural, en cuyo caso se puede aplicar integración sucesiva por
partes y obtener una expresión particular. La función así definida, recibe el nombre de
función Gamna incompleta y ha sido extensamente tabulada. Por ello se sugiere en los casos
prácticos, emplear las tablas, a fin de economizar tiempo en la resolución de problemas.
Teorema 3
Sean X1, X2,...,X7 variables aleatorias Gamma independientes con parámetros a; (no necesaria
mente iguales), y B =, entonces la variable aleatoria S definida como la suma de todas las X;
tiene distribución Gamma con parámetros as = +r, yBs =B
9.5. DISTRIBUCIÓN EXPONENCIAL 19
Demostración:
Empleamos propiedades de la función generatriz de momentos, aprovechando la independencia

de las variables en la surma:
a1t...+artr
1
ms(t) =mg, +x,t.txe) =[ nx.4) =II(e)
i=1
( , ve<
y aplicando el teorema de comparación 5 de 6.3.1, se concluye que S~T(as, B)
9.5 Distribución Exponencial

Esta distribución es un caso especial de la distribución Gamma, y que tiene muchas aplicaciones
específicas en Estadística: tales como las pruebas de duración de ciertos elementos electrónicos y
la teoría de la confiabilidad (estudiada especialmente en las carreras de Física e Ingeniería).
A manera de introducción, recordemos el ejermplo 7 de la página 17, del capítulo 5:
* Ejemplo 5
El tiempo de vida útil de ciertos componentes electrónicos (X), erpresado en horas, es una v.a.
continua con función de densidad dada por:
f(z) = ae para z> 0, B> 0, a> 0

0 en c.o.C
(La variable así definida recibe el nombre de exponencial y será estudiada más en detalle en
capitulos posteriores).
a) Determinar la relación eristente entre los parámetros a yB.
b) Calcular la probabilidad P(X > ).
c) Determinar la función de distribución acumulativa F(z) e interpretar la probabilidad anterior
en las gráficas de fyF.
d) Hallar el valor mediano de distribución.
e) Comprobar que la función F cumple con las propiedades enunciadas anteriormente.
Solución:
a) Dado que la constante a es positiva, la condición de no negatividad de la función de densidad
se cumple.
Además la condición de área total igual a la unidad nos permite escribir:
+oo
fe) dz = ae-B dz =
y entonces podemos reescribir la densidad como:

para z >0, a >0
en c.o.C
b) La probabilid ad solicitada se calcula como:

too
ae-at dz= -ae-az |t=e
PX>)
c) La función F se calcula teniendo en cuenta que:
1) Yeso, F(=) =P(XSa) = 0dz =0

20 CAPITULO 9. VARIABLES ALEATORIAS CONTINUAS ESPECIALES
2) Vz>0, F() = P(X s=) = | f) dt = 1-eor

y por lo tanto escribimos:
0 para z<0
F(*) =1 para z>0, a >0
La probabilidad calculada en el item b) coincide numéricamente con el área bajo la curva de f que
queda a la derecha del valor y con la longitud del segmento paralelo al eje de las ordenadas, de
extremo inferior en el punto z = y extremo superior el punto de corte de la recta z = y la
curva de la función F. Estas situaciones se muestran en el siguiente par de gráficas:
f(z) F(z)
P(X >)=e P(X >)

P(X <$)
0 2
Notar que la probabilidad en cuestión se calcula usando la función F como:
P(x2)=1-P (x<) =1-r(9)=1-(1-) =

d) El valor mediano de la distribución Mex es el valor que deja a la derechay al izquierda de él, a
lo sumo el 50% de la distribución. En el caso de variables aleatorias continuas esto significa pensar
en el valor de X que deja a su derecha (y en consecuencia, a su izquierda) el valor de área igual a
. Entonces podermos escribir:
In 2
P(X < Mex) = F(Mex) =l-e-aMex Mex
e) Verifiquemos ahora que la función F cumple con las propiedades enunciadas en el Teorema 2:
Vz,2¬ R, zË < I2 < 0, ’ F(z1) = F(z2) = 0, es decir, es una función constante.
Si zË < 0, z2 > 0 ’0=F(1) < F(z2) = 1-e-aza
Si z1,z2 >0’ F(z1) = 1-e-ari <1-e-ar = F(z2), en estos dos últimos casos la
función es estrictamente creciente.
2) F es continua en todo punto z, E R.:

0= F(z.) para zo <0
lim F(*)= 1-e-azo = F(z) para z, >0, a > 0
3) va, bE R, P(a< X<B) = f(z) dz = F(0) F(a), por Regla de Barrow.

4) lim F(z) = F(-oo) = 0, (por def.) lim F(¢) = F(+o) = lim (1- e-ar) = 1
9.5. DISTRIBUCIÓN EXPONENCIAL 21
Con este repaso, ahora podemos formalizar la siguiente:

Definición 6
Se dice que una variable aletoria X tiene distribución exponencial con parámetro a>0, si
su función de densidad tiene la forma:
para z >0, a> 0
fe) = en c.o.C
Notemos que es efectivamente un caso particular de la distribución Gamma, en la que se ha tomado

a=0y redefinimos =a.
Este tipo de distribuciones se emplea muy frecuentemente en problemas prácticos para representar
la distribución del tiempo que transcurre antes de la ocurrencia de un suceo. Por ejemplo: el
período de tiempo que un dispositivo o elernento electrónico funcionarán correctamente sin dañarse,
el período requerido para atender un cliente en un servicio y el período entre las llegadas de dos
clientes sucesivos a la ventanilla de un banco.
Si consideramos que los sucesos ocurren con una distribución de tipo Poisson, entonces el tiempo de
espera hasta que ocurre un suceso y el periodo de tiempo entre dos sucesos consecutivos cualesquiera
tendrán distribuciones exponenciales. Este es el basamento teórico para el ermpleo de la distribución
exponencial en una gran variedad de problemas de aplicación. Una de ellas, es la que se estudia
en el siguiente:
* Ejemplo 6
Supongamos que realizamos el siquiente erperimento: se conectan simultáneamente (en serie) n
resistencias de una misma marca y modelo, y se desea estudiar su duración. Si suponemos que
X; denota el tiempo de duración de la resistencia i , i=1,2,..., n, entonces cada una de estas
variables tiene una distribución erponencial con un mismo parámetro a. Debemos determinar la
distribución del tiempo W hasta que falle una de las resistencias.
Solución:
Como el tiempo en que falla la primera resistencia, W, es menoro igual que los n tiempos de
vida útil X;, tendremos que determinar la distribución de la variable W = Min(X1, X2, ., X).
Ahora, para todo tiempo t > 0, podemos escribir:
P(W> )= P(X, > t,X> t,.., Xn >t) =P(X1 >t)P(X2 >t)..P(XA >1) = e-P.e =e-npt
Por lo tanto, la variable W tiene distribución exponencial con parámetro nßt.
o Ejercicio 1
Determinar la distribución de la variable aleatoria que mide el intervalo de tiempo entre el fallo
de la primera resistencia y la segunda.
Las características más importantes de esta distribución, se pueden resumir como sigue:
" Sólo depende del parámetro a.
" Su función generatriz de momentos es mx(t) =),V<a

" Su valores esperado E(X), varianza o² y desviación estándar son respectivamente (ejercicio
para el lector):
E(X) =
" Se puede demostrar que esta distribución no cumple con la propiedad reproductiva (ejercicio
para el lector).
" la función de distribución acumulativa es:
F(=) = ae dz =1- e-ar
para z >0 y nula en cualquier otro caso.

" Una propiedad importante que registra esta distribución (al igual que la distribución geométrica,
estudiada en el capítulo 8), es la denominada falta de memoria. Para ello primero tenemnos
en cuenta que, si X tiene una distribución exponencial con parámetro a, entonces podemos
escribir:
Vt>0, P(X >t) =1- P(X < t) = 1- F(t) = eat
y ahora, tomando cualquier a> 0 entonces:
e-a(t+h)
P(X >t+ a/X >t)= P(XP(X> t+
>)
a) =ee0 = P(X > a)
Un ejemplo concreto de aplicación de esta propiedad sería el siguiente: supongamos que X

representa la cantidad de minutos que transcurren antes de que se observe un suceso en
particular. Según la última cadena de igualdades, si el suceso no ha ocurrido en los últimos
tminutos, entonces la probabilidad de que no ocurra en los siguientes h minutos es e-h.
Pero esta probabilidad es la misma que la de que no ocurra el suceso durante un intervalo
de tiempo de h minutos, contando a partir del tiempo t= 0. Es decir, independientemente
de la longitud de tiempo que haya transcurrido sin que ocurra el suceso, la probabilidad de
que el suceso ocurra durante los h minutos siguientes siempre tiene el mismo valor. Luego,
desde un punto de vista teórico, no es necesario tener en cuenta ocurrencias pasadas de un
suceso para calcular sus probabilidades de ocurrencia futura.
9.6 Distribución Beta

Otro caso de distribución continua especial es la distribución de probabilidad beta. Esta distribución
es especialmente útil para modelar la distribución de frecuencias relativas de una v.a. que solamente
puede tomar valores entre dos constantes finitas, por ejemplo a y b. Por tal razón proporciona
un buen modelo para las distribuciones de probabilidad de porcentajes o proporciones, por ej.,
proporciones de una cisterna para combustible vendida sermanalmente por un mayorista, en este
caso a = 0 y b=1. Estos valores son en general los más tomados. La función de densidad de una
v.a. beta viene dada por la siguiente fórmula:
z°(1-z) para 0<KI<l,a>-1, ß>-1

Ie,a,9) = B(a,8) en C.0.C
Donde B(a, B) es la función matemática Beta definida por:
B(a,8) = z(l- =dz = T(«).I(8)

T(a +B+ 1)
Esta distribución constituye una familia de densidades, con dos parámetros: a y B, de las que
se representan algunos miembros en la siguiente figura:
23
20
1,5
05
42 04 0,6 O8
" Ejercicio 2
a) Se pide hallar el valor esperado y la varianza de esta distibución, calculando por definición el
momento natural de orden r con rE Z.
b) Qué distribución especial se obtiene haciendo a = B=1?.
La respuesta a estas cuestiones se deja al lector.
9.7 Ejercicios complementarios

Además de los muchos ejercicios ya realizados y propuestos en los capítulos 5 a 8, y los del presente
capítulo, se proponen los siguientes.
o Ejercicio 3
Consideremos la v.a. unidimensional continua con función de densidad dada por la siquiente
gráfica:
|o
i) Determinar el valor mediano de dicha distribución y el coeficiente de asimetría de Pearson.

ii) Hallar la transformación que convierte a X en una variable U(o,1) y graficar dicha transfor
mación.
o Ejercicio 4
a) Si X ~ N(0,1), determinar c de modo que:
i) P(X > c) =0.10 ii) P(X <c) = 0.05
ii) P(0sX<c) = 0.45 iv) P(-cs X<c)= 0.99
b) Si X N(u =-2, o? = 0.25), determinar el valor de la constante c de tal modo que:
i) P(X > c) = 0.2 ii) P(-e <X<-1) =0.5
ii) P(-2-csX<-2 +c) =0.9 iv) P(-2-csXs -2+ c) = 0.996
o Ejercicio 5
El peso de cereal que contiene una caja se distribuye normal con una media de 600 gr. El proceso
de lilenado de las cajas está diseñado para que de entre 100 cajas, el peso de una se encuentre fuera
del interualo 590-610 gr. Cuál es el valor mázimo de la desuiación estándar para alcanzar este
requerimiento?.
o Ejercicio 6
Sobre la distribución Normal.
Este es el sistema que diseñó el señor Nedry?-preguntó Malcolm. Dennis Nedry estaba sentado ante
una terminal, en el otro ertremo de la sala, comiendo un caramelo y escribiendo en el teclado.
-Sí, así es-dijo, sin levantar la vista del teclado.
-Es un sistema buenísimo-manifestó Arnold, con orgullo.
-Ahora, añadió Arnold- veo que la excursión de visita está empezando, de modo que, a menos que
tengan otras preguntas...
-En realidad, nada más que una-dijo Malcolm-. Nada más que una pregunta cientifica: Ud. nos
mostró que puede hacer el seguimiento de los procompsognátidos y que puede mostrar visualmente,
a cada uno de ellos. Puede hacer alguna clase de estudios sobre ellos, pero como grupo: medirlos,
o lo que fuere?. Si yo quisiera conocer su altura o su peso, o..
Arnold estaba apretando botones: otra pantalla se encendió.
Distribución de Alturas: Prucompsugnátidos
2u0 27 o 28 0 29 o 30 0 1 0 32 0 33 0 34 o 35 0 36.0 37 0 38 0 39.0 40 0 41.o

Altura (Cn)
"iiles
Podemos hacer todo eso, y con mucha rapidez-informó-, La computadora toma de datos de
medición en el transcurso de la lecturas de las pantallas de televisión, de modo que son traducibles
de inmediato. Aquí Ud. puede apreciar que tenemos una distribución normal de Posson para la
población animal: muestra que la mayoría de los animales se apiña alrededor de un valor central
promedio y que unos pocos son o más grandes o más chicos que el promedio, y se encuentran en
los ertremos descendentes de la curva.
-Cabría esperar esa clase de gráfico-comentó Malcolm.
-Sí, cualquier población biológica saludable ezhibe esta clase de distribución. Bien -inquirió Arnold,
encendiendo otro cigarrillo- hay más preguntas?.
-No -contestó Malcolm-. Creo que con esto se contestó prácticamente todo. Me enteré de lo que
necesitaba saber.
(Eatraido de Jurassic Park de Michael Crichton, Emecé, 1990).
Piensa el lector que ésta era una prueba casi contundente de que algunos animales se habían
escapado del parque?.
o Ejercicio 7
Un fabricante de aviones desea obtener remaches para montar los propulsores de sus aviones. El
esfuerzo a la tensión mínimo necesario de cada remache es de 25000 b. Se pide a 3 fabricantes de
9.7. EJERCICIOS COMPLEMENTARIOs 25
remaches (A,B y C) que proporcionen toda la información pertinente con respecto a los remaches
que producen. Los tres fabricantes afirman gue la resistencia a la tensión de sus remaches se
encuentra distribuída aprorimadamente normal con un valor medio de 28000, 30000 y 29000 lb,
respectivamente.
a) Tiene el fabricante la suficiente información para hacer una selección?.
b) Supóngase que las desviaciones estándar para A, By Cson 1000, 1800 y 1200 respectivamente.
Cuál es la probabilidad de que un remache producido ya sea por A, Bo C no reúna los requisitos
mínimos?.
c) Si Ud. fuera el fabricante de aviones, podría elegir entre los tres oferentes con base en su
respuesta al inciso b)?.
o Ejercicio 8
La media de las diámetros interiores de una muestra de 200 arandelas producidas por una máquina
es de 0.502 pulgadas. El propósito para el que se destinan estas arandelas permite una tolerancia
márima en el diámetro, de 0.496 a 0.508, de otro modo las arandelas se consideran defectuosas.
Es de destacar que el proceso de fabricación produce 46 arandelas defectuosas por cada 200 que
fabrica. Sabiendo que los diámetros se distribuyen normalmente calcular el valor de la desviación
estándar para alcanzar estos requerimientos.
o Ejercicio 9
Supóngase que está por construirse una puerta para ser usada por personas cuyas alturas son
aprozimadamente distribuidas normalmente con una promedio de 1.7 m. y desviación estándar de
0.10 m. Cuál debe ser la altura de la puerta para que no se golpee la cabeza (no vale agacharse)
más del 2% de las personas de este grupo?.
o Ejercicio 10
Se dice que la v.a. X tiene una distribución Gamma si su función de densidad viene dada por:
f(z. a. 8) = a.z.e para z > 0, a > 0,B >0
en c.o.C
Donde T(a) es la función matemática Gamma definida por: T(a) = °-eE dz, paraa>0.
i) Demostrar que la función generatriz de momentos de X es mx (t) = (1-Bt)-, para 0 < t <
ii) Haciendo uso de la función hallada en i), probar que E(X) = aß y Var(X) = aß.
o Ejercicio 11
Como un caso particular de la distribución Gamma, haciendo a = l y redefiniendo como B,
obtenemos la distribución Exponencial que ya hemos estudiado. Para este caso se pide:
a) Hallar los valores: Mox, Mex, Q1 y Q3
6) Calcular el coeficiente de asimetría definido como As =
o Ejercicio 12
Demostrar que siX tiene una distribución gamma con parámetros a y B, yc es una constante real
positiva, entonces cX tiene una distribución gamma con parámetros a y Be
o Ejercicio 13
Determinar el valor modal de la distribución gamma con parámetros a y B.
o Ejercicio 14
Sea X una variable aleatoria tal que P(X>0) = 1, con función de densidad f(z) y de distribución
acumulativa F(z).
f(z) Para z >0, esta función se denomina tasa de
Sea h la función definida como h(X) = 1-Fcj
fracaso o función de azar de X. Demostrar que siX tiene distribución ezponencial, entonces la
función de fracaso h(z) es constante para z > 0.
o Ejercicio 15
Si X1, X2, X, son variables aleatorias con distribución erponencial con parámetro a, deter
minar la distribución de la variable promedio de las X;
o Ejercicio 16
Si X1, X, .., X, son variables aleatorias con distribución ezponencial con parámetro a; (i =
1,2,..n), demostrar que la distribución de la variable U = Min(X1, X2, ..., X) es erponencial con
parámetro ay= a1t ...t an
o Ejercicio 17
Se dice que una variable aleatoria tiene una distribución de Pareto, con parámetros to y a, ambos
positivos, si su función de densidad viene dada por:
para z> To
en c.o.c
1) Determinar el valor esperado de X y su varianza.

2) Demostar que la variable Y = log(X/zo) tiene una distribución ezponencial con parámetro a.
o Ejercicio 18
Se dice que una variable aleatoria tiene una distribución de Weibul, con parámetros a vb, ambos
positivos, si su función de densidad viene dada por:
b
ee/e) para z>0
fa,zo,a) = en c.o.c
1) Determinar el valor esperado de X y su varianza.

2) Demostar que la variable Y = X tiene una distribución erponencial con parámetro a = a.
o Ejercicio 19
Sean X1 y X, dos variables aleatorias ezponenciales con parámetro B, independientes. Demostrar
que la variable U= tiene distribución (o,1)
o Ejercicio 20
Sean X e Y variables aletorias independientes, tales que X tiene una distribución gamma con
parámetros ai y B e Y tiene una distribución gamma con parámetros az y B. Sean las variables
U= AF y VX + Y. Demostrar que:
1) Utiene una distribución beta con parámetros a1 y a2
2) U y V son independientes.
Bibliografía
[3] William Feller, Introducción a la Teoria de las Probabilidades y sus Aplicaciones, Ed. Limusa
Wiley, 1978.
1986.
[5] William Mendenhall, Introducción ala Probabilidad y la Estadística, Ed. Grupo Editorial
Iberoamerica, 1987.
[6] Ricardo A. Maronna, Probabilidad y Estadistica Elementales para estudiantes de Ciencias,
[71 Morris de Groot, Probabilidad y Estadística, Ed. Addison-Wesley Iberoamericana, 1988.
[8] George C. Canavos, Probabilidad y Estadistica, Aplicaciones y Métodos, Ed. McGraw-Hill, 1993.
Ciencias Exactas-U.N.Sa, 1997-2001.
[11] Orlando J. Avila Blas, Variable Aleatoria Unidimensional, , Apuntes de Teoría de Proba
bilidadesy Estadística. Departamento de Matemática-Facultad de Ciencias Exactas-U.N.Sa,
1998-2001.
1998-2001.
27
Contenido
10 Población y Muestra 3
10.1 Introducción 3
10.2 Población 3
10.3 Desigualdad de Tchebyshev
10.4 La Ley de los Grandes Números 7
10.4.1 la Ley de los Grandes Números de Bernouilli 7
10.5 Teorema Central del Límite
10.6 Aplicaciones del Teorema Central del Límite 13
10.6.1 Aproximación de la Binomial por la Normal 13
10.6.2 Aproximación de Poisson por la Normal. 17
1
Capítulo 10
Población y Muestra
El azar a nuestras vidas, como el agua para el crecer de un árbol..
10.1 Introducción
Comenzamos a dar nuestros primeros pasos en la importante área de la Inferencia Estadística,
uno de los temas más relevantes en este curso elemental.
El objetivo es estudiar alguna propiedad de un determinado conjunto de elementos, al que llamare
mos Población, a partir de un subconjunto de él escogido de un modo particular.
El mencionado subconjunto se denomina muestra y el proceso de selección de la misma abarca
una rama especial de la Estadística llamada Teoría del Muestreo. En este curso no estudiaremos
los modos de selección involucrados en tal rama, sino algunos de los conceptos más importantes
que nos conducirán a resolver situaciones específicas como veremos en el Capítulo 12.
Pasamos a estudiar ahora conceptos específicos tales como:
10.2 Población
Definición 1
Se denomina población al conjunto de todos los elementos bajo estudio.
Es importante destacar que la población de estudio no necesariamente está formada por personas
fisicas Por ejemplo, si deseamos estudiar el ingreso promedio de los empleados la Universidad
Nacional de Salta, la población de estudio está formada por todos los valores posibles de sueldos,
es decir, es un conjunto numérico.
En este contexto distinguimnos dos tipos de población a tener en cuenta:
" Población Objetivo: es el conjunto de todos los elementos que están bajo discusión y
acerca de los cuales se desea obtener información.
" Población Muestreada: es la población de la cual se extrae la muestra.

Ambos poblaciones pueden coincidir, pero esto no es siempre verdadero; por ejemplo en el caso del
estudio del ingreso, la población objetivo es el conjunto formado por todos los valores numéricos
posibles de sueldos. Si decidimos hacer el estudio entrevistando a familias enteras, la población
muestreada es el conjunto de familias que pueden ser estudiadas.
Cada uno de los elementos que forman la población de estudio se llaman unidades experimen
tales, dado que en ellas se realiza el experimento aleatorio de medir la magnitud de estudio.
Conceptualmente, una muestra es un subconjunto de la población muestreada.

Desde el punto de vista matemático formal, se da la siguiente:
3
4 CAPITULO 10. POBLACIÓN Y MUESTRA
Definición 2 Muestra aleatoria

Sea una población cuyo comportamiento estocástico viene descripto por X ~ f(z), entonces una
muestra aleatoria de tamaño n proveniente de dicha población es un conjunto ordenado de
variables aleatorias (X1, X2,.., Xn) (vector aleatorio) independientes igualmente distribuídas entre
sí y con la misma distribución que la población, esto es X; ~ f(), Vi= 1,2, .., n.
Alconsiderar matemáticamente a una muestra aleatoria como un vector aleatorio, tiene sentido
considerar la distribución conjunta de las variables que lo componen. En este sentido podemos dar
la siguiente:
Definición 3
Si (X1, X2, .., Xn) es una muestra aleatoria de tamaño n de una distribución X ~ f(z), se llama
distribución muestral a la función de densidad o cuantía conjunta de las variables X; (según
X sea continua ó discreta respectivamente), la que se erpresa mediante:
n
f(z1, 2, ., zn) = i(zi).fa(za)...fa(zn) = |[ (z:)

i=1
Notemos que es fundamental preservar el orden que tienen las variables de la muestra (el orden
de observación).
* Ejemplo 1
Sea una población con distribución X ~b(l, p). Se eztrae de ella una muestra aleatoria de tamaño
n, (X1,X2, .., Xn). Entonces la distribución muestral correspondiente es:
f(z1, 2, .., zn) = f(z1).fa(*2)..fa(=n)
p²(1-p)-p".(1-p)'-*.F*.(1 -p)l
= pFitEt.. tEn ,(1-p)-(e1tEt...tz)
Vemos que esta distribución muestral no es binomial, dado que sí importa el orden en las variables
de la muestra.
Para muestras aleatorias podernos definir otra importante medida:
Definición 4 Momento Muestral
Sea (X1,X2,..., X,) una muestra aleatoria de tamaño n, se llama momento muestral de orden
ra la variable:
i=1
m,
n
En particular si r = 0, se tiene m, = l y cuando r = 1, obtenemos la denominada media

muestral:
mË =
Es muy común para esta última variable usar la notación Xn,indicando con el subíndice el tamaño
muestral.
El siguiente teorema permite vincular el momento muestral de orden r con el momento poblacional
del mismo orden y será empleado en muchas ocasiones en el capítulo de Estimación.
Teorema 1
Sea (X1, X2, .,X) na muestra aleatoria de tamaño n proveniente de una distribución f(z) y
sea m, su momento muestral de orden r, entonces se verifica:
10.3. DESIGUALDAD DE TCHEBYSHEV
Demostración:
Teniendo en cuenta que las variables de la muestra están igualmente distribuídas entre sí y
tienen la misma distribución que la población, se tiene que
Vi= 1,2,..., n, E (X{) = E (X*) = #,
y además con las propiedades de homogeneidad y linealidad del operador esperanza E se puede
escribir:
i=l i=1
" Un caso particular muy importante el de la media muestral X que tiene los siguientes
momentos característicos:
1) Esperanza:
E(X) =E(m) =4 ==E(X)

en la segunda igualdad hemos usado el teorema recién demostrado.
2) Varianza:
Usamos de nuevo el hecho que las variables de la muestra tienen la misma distribución que la
población de la que provienen y por lo tanto tienen la misma varianza que la poblacional; y además
la propiedad de linealidad del operador Var() en el caso de variables aleatorias independientes:
n n
Var(X) = Var Ex)-Var (X)=Var (X) =

i=1 i=1
Vemos que, si o² <o, a medida que n crece, la varianza de la media muestral se hace cada vez
mas pequeña, esto es de gran utilidad para las propiedades y teoremas que veremos a continuación.
10.3 Desigualdad de Tchebyshev

Esta conocida desigualdad permite, bajo ciertas condiciones, acotar la probabilidad de que una
variable aleatoria X difñera de un valor fijo en a lo sumo (6 al menos) una cierta cantidad sufi
cientemente pequeña. Lo más importante de ella es que no requiere del conocimiento previo de la
distribución exacta de la variable en cuestión. Se establece por medio del siguiente:
Teorema 2
Sea X una variable aleatoria con E(X) < o y sea c ¬ R una constante fija tal que E(X-c) < o,
entonces:
Ve>0, P(X - | >e)sE(X -c)?
óequivalentemente
Ye>0, P(|X -d<)21- E(X - c)?
Demostración:
Supongamos que X es continua (el caso discreto es análogo sustituyendo la integral por una
sumatoria) y consideremos el conjunto R= {z¬ R/|z c| > R , entonces:
l= P(z- cl >) = f(a) dz

pero en R se cumple gue: -Cl >1, lo que también significa decir: (-c² >1.
¬
Por lo tanto:
I = P(le-d2)= f(2)
s de )de
f(z) dz =E(X - c)?
y esto vale Ye > 0, lo que demuestra la tesis.
Para la otra desigualdad, basta con considerar la probabilidad del complemento:
P(|X - el <)=1-P(X -|>) >1-E(X - )?

* Ejemplo 2
Consideremos el caso particular en que la variable de estudio es la media de una muestra aleatoria
de tamaño n, (X1, X2, ..., X) proveniente de una población con media u < oo y varianza o² < o.
Tomemos la constante c =4, entonces:
E(X) = E(X) =< o E(X-)= Var (X) =<o

y entonces, al estar en las hipótesis del teorema anterior, se cumple:
Ve >0, P(|X-|<)>1-E(X-)'=1 Var (X)-=1 ne2
Si, por ejemplo, tomamos ¬ = donde a>0 es una constante real suficientemente pequeña,
la desiqualdad anterior adopta la forma:
1
la que permite acotar la probabilidad de que la media muestral X se aleje de la media poblacional
ualo sumo en a" veces su propio desvio estándar .
gráficamente, la desigualdad brinda una cota inferior para el valor del área central A, de la siguiente
figura:
fE)
A,
Una de las aplicaciones más importantes de la desigualdad de Tehebyshev la siguiente

10.4. LA LEY DE LOS GRANDES NÚMEROS 7
10.4 La Ley de los Grandes Números

Esta ley permite determinar el tamaño mínimo de muestra que debemos tomar a fin de que la
media X de una muestra aleatoria no difiera de la media poblacional en más de una cierta cantidad
muy pequeña y fija con una probabilidad mínima (lo más grande posible) también previamente
fijada. Se enuncia como sigue:
& Teorema 3
Sea X f(z) con E(X) = < o y Var(X) = o' < oo. Sea (X1, X2,.. X) una muestra
aleatoria de tal distribución y X la media correspondiente. Sean además e y Q dos números reales
pequeños tales que e>0y0<6<1, entonces:
Si n 22) se cumple que P(X-|<)>1-6
Demostración:
Aplicamos la desigualdad de Tchebyshev tomando a = (V6) ye= Vnobteniendo:

a¡
Ve >0, P(X-|<) >1-1-8

de la que concluímos que bastará tomar n > para asegurar el cumplimiento de la última
desigualdad.
* Ejemplo 3
Considenar el proceso de selección de una muestra aleatoria de alguna distribución que tiene var
ianza g? = 10 pero con media u desconocida. Determinar el tamaño n mínimo de la muestra
para que la media muestral X diste de media poblacional en a lo sumo 0.02 unidades, con una
probabilidad de al menos 0.90.
Solución:
En este caso se cuenta con los datos e =0.02 y5 =0.10, por lo que según lo demostrado en la
Ley de los grandes números bastarátomar un tamaño:
10
250000
n 225#(0.02)2 x 0.10 =
para garantizar los requerimientos solicitados.
10.4.1 la Ley de los Grandes Números de Bernouilli

Este es un caso particular de la Ley dada antes para el caso en que se realizan n repeticiones
independientes de un experimento que está asociado a una dicotomía. Sea A el suceso que
tomamos como "éxito" en cada repetición de e yp= P(A) constante. Definimos entonces la
variable aleatoria:
nA: "número de veces que ocurre A en las n pruebas"

Estáclaro que n¡ ~ B(n, p) y en consecuencia, E(ra) = np y Var(ra) = np(1 - p).
En base a n podemos definir otra variable denominada frecuencia relativa de aparición de
A, por medio de fA = n
Con ello, se tiene que:
E(GA) =E p
()=*=p<o A Var(fa) =Var () = np(ln -p) - pll-pso
CAPÍTULO 10. POBLACIÓN Y MUESTRA
Entonces, tomando c=p en virtud de la desigualdad de Tchebyshev, se tiene que:
Ye >0, P(\fa -pl<)>l-Pl-p)

ne
y entonces, fijados e >0 y 0 <6K1, bastará repetir el experimento ¬ una cantidad mínima de
P(l- p)
n> Se2
veces para asegurar que:
P(fa -pl<)>1-8
siempre que el valor de p sea conocido.
En muchas de las situaciones concretas no se conoce p, y entonces debemos buscar otra cota para
la probabilidad anterior que permita despejar el n mínimo, que sea independiente dep.
Esto se consigue analizando la función cuadrática h(p) = p(1 -p)que tiene por gráfica a:
h(p)
La función alcanza un máximo absoluto en p=; y en consecuencia podernos escribir:

1
Ve>0, P(lfa -pl <)>1--P)
ne?
>1 4ne?
y entonces, fijados e >0 y0 < &<1, bastará repetir el experimento e una cantidad mínima de
1
n2 veces para asegurar que:
P(fa -pl<)>1-8
* Ejemplo 4
De una urna que contiene7 bolas azules y 5blancas, se extraen de una en una y con reposición n
bolas. Cuántas extracciones habrá que realizar como mínino para que el promedio de bolas azules
obtenidas difiera de su promedio teórico en a lo suno 0.01, con una probabilidad de al menos 95%?.
Solución:
Si definimnos las variables aleatorias X;: número de bolas azules en la extracción i-ésima",
i= 1,2,.., n, está claro que éstas tienen distribución b(1, )y son independientes debido a la
reposición entre extracción y extracción. Entonces, la variable na = X ~ B(n, ), por
lo que el promedio teórico de bolas azules obtenidas en n extracciones es E(na) = n y el
promedio téorico de la media muestral es p = E (fa) = . Además la varianza poblacional es
o² = p.(1-p) = 0.22
Nos dan también como datos, e= 0.01 y 1-6 = 0.95, entonces según lo demostrado en la Ley de
los Grandes Números, bastará con realizar una cantidad de extracciones
0.22
n> = 44000
(0.01)2 x 0.05
10.5. TEOREMA CENTRAL DEL LíMITE 9
para cumplir con los requisitos impuestos sobre la media X.

* Ejemplo 5
iCuántas veces habrá que lanzar un dado de 6 caras a fin de que la frecuencia de aparición del as
no difiera en más de 0.02 de la probabilidad teórica, con una probabilidad no menor que 0.90?.
Solución:
Debemos considerar los siguientes casos:
1) El dado es legal, entonces la probabilidad teórica de aparición de un as en un lanzamiento

(A) es p = P(A) = Por lo tanto deberemos lanzar el dado un número mínimo de veces de
n> p(l-p) 0.10 x(0.02)2
N3473
a fin de cumplir con los requisitos del problema.
2) Si no se sabe nada acerca de la legalidad del dado (p desconocido), entonces tendremos que
lanzarlo un número mínimo de veces del orden de
1 1
n As 6250
4x0.10 x(0.02)
para satisfacer las condiciones del problema.
Estudiaremos a continuación uno de los teoremas más importantes del curso, debido a sus
innumerables aplicaciones y consecuencias.
10.5 Teorema Central del Límite

Sabemos que muchas variables aleatorias de las estudiadas hasta el momento cumplen con la
propiedad reproductiva, esto es, si sumamos una cantidad finita de variables independientes de
una misma familia, la variable resultante también pertence a dicha familia.
Como ejemplos concretos, esto sucede cuando trabajamos con la farmilia Normal, la Poisson, la
Binomial con un parámetro p común y muchas otras que veremos en el capítulo siguiente. Sin
dudas que esto facilita la tarea del cómputo de probabilidades asociadas a las variables en una
suma.
Pero para aquellas distribuciones que no cumplan con la propiedad reproductiva, ¿qué solución
podemos dar al momento del cálculo de las mencionadas probabilidades?. El siguiente teorema
debido a Gauss nos brinda una salida al problema cuando sumamos un número suficientemente
grande de variables bajo ciertas condiciones, permitiendo el cálculo de probabilidades mediante el
uso de la distribución acumulativa normal estándar.
Teorema 4 Teorema Central del Límite
Sean X1, X2,..., Xn variables aleatorias independientes con E(X;)= <o y Var(X;) = o < o,
Vi=1,2, ., n. Entonces
n
s-~x-ax(})
i=1 \i=l i=1
lo que es equivalente a decir que:

n
i=1 i
YsE R, lim Fn
n+oo
La pregunta obligatoria es: ¿qué significa "n suficientemene grande"?. La respuesta es que
depende de los tipos de distribución con los que estemos trabajando, pero para algunos autores un
n> 50 es suficiente.
Por otro lado, una de las ventajas de este teorema es que podemos sumar variables discretas con
continuas como sucede en la mayoría de las aplicaciones prácticas.
No haremos la demostración del mismo, sino de una forma especial con algunas condiciones adi
cionales en la hipÛtesis; el motivo radica en que necesitamos una base matemática más amplia que
escapa a los requisitos previos del presente curso. Esta forma especial se enuncia como sigue.
Teorema 5
Sean X1, X2, ..., X, variables aleatorias independientes idénticamente distribuídas (en consecuen
cia, con E(X;) =< oy Var(X;) = o < o, Vi = 1,2, .., n) y que posean función generatriz
de momentos mx(t) infinitamente derivable en un entorno del origen. Entonces
s=X~ AN (nu, no?)

i=1
ó en forma equivalente:
tsE R, lim F, s-nu
Demostración:
S- nu
A partir de S definimos la variable "estandarizada" Z = y demostraremos que ella tiene
Vno?
comportamiento asintótico normal estudiando el comportamiento límite de su función generatriz
de momentos; es decir, probaremos que:
tER, lim mz(t) = e

n+0O
Primero escribimos Z S- nu -_X-_Li(X1-)

Vno? Vno
y entonces la función generatriz de momentos de Z se puede escribir, VtE R como:
mz(t) =
=
L*() i=1
n-integr ales
+o0
en esta última igualdad se utilizó el hecho que las variables involucradas son independientes,
y dado que están idénticamente distribuídas y tienen función generatriz de momentos, podemos
escribir además:
A continuación desarrollaremos la función base en la potencia, en serie de Taylor alrededor del

origen (ésta es infinitamente derivable por ser una transformación lineal de mx (1), que por hipótesis
10.5. TEOREMA CENTRAL DEL LÍMITE 11
es infinitamente derivable). Pensamos en su derivada de orden r: ()
D
dtr
=
f(z) dz
y la valuación de esta función en t =0 es:

r
f(z) dz = (2-) f(z) dz =
Luego,
mz(t) =
1
= 1+
t
tt)
e()
La función ) converge a uno cuando n ’ oo y en consecuencia, se tiene:
VtE R, lim mz (t) = limn

n+oO
lo que prueba la tesis.
Nota: recordar que, que la suma sea aprorimadamente normal significa que su distribución es
casi como la de una normal y no eractamente normal.
* Ejemplo 6
El peso de los alfajores de dulce de leche fabricados por el Sr. Dolce tienen un peso (ezpresado en
gr.) que es una variable aleatoria X ~ U49.50)- Por otro lado, el peso de una caja de cartón vacía
con capacidad para almacenar 48 alfajores, es una variable aleatoria Y ~ N(20, 0.25). Se toma
una caja llena con 48 alfajores al azar, icuál es la probabilidad aprorimada de que la misma pese
más de 2.5 Ka. .
Solución:
Suponemos que cada alfajor tiene un peso que no depende del resto de la producción y, que el
peso de una caja vacía no se ve afectado por el peso de los alfajores (son producidos en procesos
distintos).
Definimos entonces las siguientes variables:
Cu: "peso de la caja de alfajores vacía"
1debido a que m
"(*) () es absolutamente convergente
2Recordar el límite notable limn-too (1+)"= e
X;: peso del i-ésimo alfajor, Vi= 1,2,.., 48

Cu: "peso de la caja llena con 48 alfajores"
con ello, es claro que se verifica Cu = Cy +XË + X2 +...+ X48. Además sabemos que E(C,) = 20,
Var(Cu) = 0.25, E(X;) = 49.5 y Var(X;) = Vi= 1,2,..,.48, por lo tanto:
48 48
E(Cu) = E(C.) +)E(X:) = 2396 Var(Cu) = Var(Ci) + Var(Xi) = 4.25

i=1 i=1
Entonces la probabilidad pedida se computa en forma aproximada, en virtud del Teorema Central
del Límite, como:
Cu 2396 2500 2396

P(Cu > 2500) = 1- P(Cu < 2500) = 1- P 2.06 2.06
l-(50.48) 0
nAN(0,1)
* Ejemplo 7
Sean X1, X,.., Xs0 variables aleatorias independientes tales que X; ~ xÉ si i= 1,., 50 y
60
X; ~xio sii=51,.., 60 y sea S=)X;.

a) Probar que S ~ xiro (Sugerencia: recordar que si X ~ (a, B) mx(t) = (1- Bt)-a-l
cuandot<).
b) Hallar en forma eracta P(S> 95.02).
c) Hallar en forma aprorimada P(S > 95.02) y comparar con lo obtenido en b).
Solución:
a) Sabemos que una variable aleatoria Chi-cuadrado x(k) es una Gamma con parámetros a =-1
y B= 2, entonces la funciÑn generatriz de momentos de S se calcula (en virtud del Teorema 7 de
6.3.1) como:
60
ms(t) = mx,+X,+.+Xeo] (t) = || mx, (t)
(G(G-()() 50-factor es 10-fact ores
()
1
=
2
y aplicando el teorema de comparación 5 de 6.3.1, se concluye que S~ xíro)y donde los grados
de libertad se obtienen sumando los grados de libertad de cada variable X;.
b) La probabilidad exacta P(S > 95.02) se obtiene haciendo uso de tablas de la distribución
acumulativa. de Chi-cuadrado, tomando 70 grados de libertad. Este valor es 0.025.
c) Para calcular la probabilidad aproximada hacemos uso del Teorema Central del Límite, dado que
n= 60 se considera como suficientemente grande. S tiene como valores característicos a E(S) = 70
y Var(S) = 140, en consecuencia tenemos:
S-70 95.02 - 70
P(S> 95.02) =1- P(S <95.02) =1-PS
V140 V140 1-(2.11) = 0.0174 0.02
es decir, si tomamos hasta la tercera cifra decimal, los valores obtenidos en los dos últimos ítems
no difieren sustancialmente. Luego, la aproximación realizada es muy buena.
10.6. APLICACIONES DEL TEOREMA CENTRAL DEL LÍMITE 13
10.6 Aplicaciones del Teorema Central del Límite

Este teorema tiene muchas aplicaciones de interés a los fines del presente curs0, entre ellas podemos
citar:
" Aproximación de cálculos referidos a probabilidades con la distribución binomial, por medio
de la distribución normal.
" Idem al punto anterior pero trabajando con el cálculo de probabilidades asociadas a la dis
tribución de Poisson.
" Estudio del comportamiento asintótico de la distribución de ciertas variables denominadas
estimadores, a fin de poder realizar estimaciones por medio de intervalos de confianza. Este
tema será estudiado específicamente en el capítulo correspondiente a Estimación.
10.6.1 Aproximación de la Binomial por la Normal

El problema a solucionar es el siguiente: se desea calcular la probabilidad P(X < a) por ejem
plo, donde X ~ B(n, p), a E Ryn ’ o. Para esta situación no es posible utilizar las tablas
de probabilidades acumuladas de la distribución binomial y el cálculo directo involucra utilizar
números combinatorios muy grandes. Pero afortunadamente podemos emplear el Teorema Central
del Límite dado que X se puede considerar como una suma de n variables X; ~ b(1,p) independi
entes que satisfacen las hipótesis del mencionado teorema ya que tienen esperanza (p) y varianza
X- np
(pg) finitas. Luego podermos escribir Zn = ~ AN(0, 1), cuando n ’ oo, lo que permite
Vnpg
expresar:
(a]
vacR, P(X Sa)-~)t god=P( Vnpq
k=0 Vnpq (Vnpg
La aproximación se puede mejorar mediante la corrección por continuidad, que expresa: ()
b+-nP
Vapq 1
Ya,be R, P(a sx<)= k=a*
) -2
Vnpg
V2r
=
(t)-+(
Vnpq Vnpg
La aproximación es muy buena para valores de p no muy cercanos a 0 ól y ngrandes; pero
para n pequeños también se consigue una buena aproximación si ps. Como una posible guía
se sugiere calcular los valores np y n(1 - p) y si ambos resultan mayores o iguales a 5 entonces
se considera a la aproximación como buena. En forma equivalente se considera una aproximación
como buena si p ±2,/E (0, 1).
La justificación de la aproximación puede visualizarse considerando la media X de las variables
Bernouilli intervinientes, de la que sabermos que puede tomar los valores 0, , , ..., $, .., l y por
lo tanto es una variable aleatoria discreta. Dado que la distribución de la variable X = nX es:
pe) = )l-p-s) para z= 0, 1,..., n; 0<p<1

en c.0.C
3En el límite inferior de la surmatoria, a° = (a] si a ¬ Zt, sino a = (a]+ 1

14 CAPÍTULO 10. POBLACIÓN Y MUESTRA
la distribución de X es:
Ep (1-p)a(l-) para I =0, 1 2 ' ; 0<p<1

n
h(E) =
en C.0.C
Y en el siguiente gráfico podermos ver cómo esta cuantía de aproxima a una distribución con
tinua:
h(E)
9)
0 23 k-1 k k+1
n n
En ella hemos construído rectángulos de altura h(z) y base en los que los puntos medios son
de la forma ;k=0,1,2, .., n.
La función a trozos formada por los techos" de estos rectángulos se denota por g(); el área
limitada por la misma en cada rectángulo es igual a .h(z) debido a que h() =1.
Claramente
Va, bE Rec(X), b > a, g() dz
debido a que la integral es el área limitada por el techo de los rectángulos construídos sobre los
puntos que van desde a hasta b, y entonces se cumple:
A()(()a-r
Al aumentar el valor de n, la longitud de la base de los rectángulos disminuye y los escalones de
la función ng(+) se aproximan entre sí adquiriendo una forma como la que se muestra a continuación
ng(+)
En este sentido, la aproximación que nos atañe en esta sección puede considerarse como una forma
límite de la función ng() cuando n ’ oo.
Un estudio más exhaustivo de esta aproximación puede ser consultado en el trabajo [12).
En las siguientes tablas se muestran valores de probabilidad acumulados hasta el valor z=k para
diferentes k, trabajando con ambas distribuciones a fin de poder comparar la aproximación con el
valor exacto.
p=0.05, n = 10 p=0.10, n = 10 p= 0.50, n = 10

Binomial Normal Binomial Normal Binomial Normal
0 0.5987 0.5000 0.3487 0.2981 0.0010 0.0022
1 0.9139 0.9265 0.7361 0.7019 0.0107 0.0136
2 0.9885 0.9981 0.9298 0.9429 0.0547 0.0571
0.9990 1.0000 0.9872 0.9959 0.1719 0.1711
4 1.0000 1.0000 0.9984 0.9999 0.3770 0.3745
1.0000 1.0000 0.6230 0.6255
6 0.8281 0.8289
0.9453 0.9429
8 0.9893 0.9864
9 0.9990 0.9978
10 1.0000 0.9997
p=0.05, n = 20 p=0.05, n = 50 p=0.05, n= 100

Binomial Normal Binomial Normal| Binomial Normal
0.3585 0.3015 0.0769 0.0968 0.0059 0.0197
0.7358 0.6985 0.2794 0.2578 0.0371 0.0537
2 0.9245 0.9382 0.5405 0.5000 0.1183 0.1251
3 0.9841 0.9948 0.7604 0.7422 0.2578 0.2451
4 0.9974 0.9998 0.8964 0.9032 0.4360 0.4090
5 0.9997 1.0000 0.9622 0.9744 0.6160 0.5910
6 1.0000 1.0000 0.9882 0.9953 0.7660 0.7549
7 0.9968 0.9994 0.8720 .8749
8 0.9992 0.9999 0.9369 0.9463
9 0.9998 1.0000 0.9718 0.9803
10 1.0000 1.0000 0.9885 0.9941
Vemos que aproximación no es demasiado buena cuando n = 10 y p = 0.05 6 p = 0.10, pero

se observa una mejoría cuando p= 0.50. Por otro lado vemos cómo se mejoran los valores para
p= 0.05 a medida que crece el valor de n.
" Verificación experimental:
Hemos reemplazado de manera aproximada las probabilidades binomiales por los valores cal
culados con la función de densidad normal en los puntos z = k, haciendo = np y o² = npq.
Podemos realizar una verificación experimental de la aproximación cuando p = , trabajando con
el denominado Triángulo de Galton.
Este es un dispositivo montado sobre un plano inclinado en el que están incrustadas pequeñas
cuñas regularmente dispuestas sobre n líneas horizontales, con k cuñas en la línea k-ésima. Se hace
descender una bola por el orificio de entrada (indicada con la flecha en el dibujo), al llegar ésta
a una cuña se puede desplazar hacia la izquierda o hacia la derecha con la misma probabilidad
4. Bajo la última línea de púas hay n + l canales en los cuales se almacenan las bolas que van
cayendo. Una bola llega al k-ésimo canal a partir de la izquierda (k = 0,1,.., n) si ha descendido
oblicuamnente k veces hacia la derecha yn-k veces a la izquierda. La probabilidad de este suceso
es las direcciones tomadas ante cada cuña son independientes. Si se hace rodar por
este triángulo un número suficientemente grande de bolas, su distribución en los canales dibuja
netamente una curva semejante a la curva de Gauss.
00O0000000
doo
o 86d2s85
* Ejemplo 8
Se sabe por datos ezperimentales, que el 93% de las plantines de la producción de tabaco de cierta
finca de Cerrillos (Provincia de Salta) está libre de cierta plaga. Para una muestra de 150 plantines,
calcular la probabilidad aprorimada de que en dicha muestra, el número de plantines afectados no
supere a 10.
Solución:
Definimos la variable aleatoria:
X:"número de plantines afectados entre los 150 observados"
entonces, claramente X ~ B(150,0.07) y la probabilidad pedida se indica por P(X < 10). Dado
que n = 150 es suficientemente grande a los fines del Teorema Central del Límite, podemos expresar:
10 10.5)
PXS 10) =P ( V9.765 V9.765
(-0.16) = 0.437
* Ejemplo 9
Sean X1,X2, .., X*, (k > 2) variables aleatorias independientes tales que X; ~ B(n;,P) si i =
1,.., k.
k
a) Demostrar que la variable aleatoria S =)X;~ B(n, p), con n=)nj.
i=l i=l
b) Hallar en forma aprozimada P(S > 60), si k= 100, n; =2, p= Vi=1,2,.., 100.
Solución:
a) La función generatriz de momentos de S se calcula (en virtud del Teorema 7 de 6.3.1) como:
k
ms(1) = mx1+Xa+.+XA]() = I|mx.(1) 1=1
= [p.e' +(1-p)]""- (p.e' +(1-p)]"..p.e' +(1-p)]"*

= p.ef + (1-p)]"itnzt..+na VteR
y aplicando el teorema de comparación 5 de 6.3.1, concluímos que X B(n,p), con n = ) n;.

i=l
b) Usamos el Teorema Central del Límite, teniendo en cuenta que E(S) = 50 y Var(S) =37.5
60 - 50 )
P(S >60)=1- P(S <60) =1-PoE V37.5
l-¢(1.63) = 0.052
10.6.2 Aproximación de la Poisson por la Normal

La demostración de que esta aproximación tiene sentido depende de los valores que pueda tomar
el parámetro A, distinguiendo el caso discreto del resto de valores posibles.
Sea X ~ Po(A), es decir:
para z ENo,A>0
en c.0.C
ElTeorema Central del Límite asegura que:
VaeR, P(X<a) => =P

T=0
La demostración para el caso en que AEN, se hace pensando a X como una suma de Avariables
X, ~ P.(1) independientes (propiedad reproductiva de la Poisson), esto es X= X1+X,++XA
yaplicando directamente el mencionado teorema. Cuando Ae (R-N) la demostración es un poco
más complicada y se deja como ejercicio para el lector en la sección de Ejercicios Complementarios.
Una prueba que requiere de elementos de la Teoría de Convergencia en distribución y en probabili
dad, puede ser consultada en [11], sección 7.4.3.
* Ejemplo 10
Una institución bancaria radicada en el país tiene 50 sucursales. En total se cuenta con 150
ventanillas que atienden trámites referidos al pago de impuestos y se seleccionan al azar de entre
ellas, 60 ventanillas. Se desea hacer una evaluación de la politica del banco a fin de mejorar este
tipo de servicio y para ello se decide estudiar la tasa de atención de clientes por minuto.
Se sabe que para las 60 ventanillas, la variable X: "número de clientes atendidos en total, por
minuto" a P.(80), calcular la probabilidad aprozimada de que en total se hayan atendido a más
de 85 clientes por minuto.
Solución:
Empleando la aproximación sugerida por el Teorema Central del Límite, se tiene que:
80 85- 80\
P(X >85) =1- P(X <85) =P(S l- (0.559) = 0.288
V80 V80
Tabla de la Distribución Normal Acumulativa
P(ZS:)=o(:) =
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9040 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.93060.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9774 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.98260.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 |0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.99950.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Otros valores muy importantes son:
o(z) 0.90 0.95 0.975 0.99 0.995 0.999 0.9995 0.99995 0.999995
1.282 | 1.645 1.960 2.326 | 2.576 3.090 3.291 3.891 4.417
Recordar que para valores negativos de Z, podemos emplear la expresión:

O(:) = 1- o(-)
y usar la tabla precedente.

o Ejercicio 1
Sea X ~ Uo.1)- Comparar la probabilidad eracta P(|X - u < ko) con las cotas de Tchebyshev
para los valores de k=,2. Interpretar los resultados obtenidos,
o Ejercicio 2
Sea X una variable aleatoria distribuída erponencialmente con esperanza iqual a . Calcular las
cotas de Tchebyshev para los valores de k= 1,2,4. Comparar luego con las probabilidades eractas
P(|X E(x)) < ko).
o Ejercicio 3
Demostrar la desigualdad de Tchebyshev para el caso en que la variable X en cuestión es discreta.
Sugerencia: tener en cuenta que si consideramos el conjunto R = {z E R/|z cl > C R,
entonces:
P(|z-|>)= ROT
p()
donde T = {zE Rec(X)/p(=) > 0}
o Ejercicio 4
Se tienen un conjunto de n componentes electrónicos fabricados por una misma empresa. Se
define la variable aleatoria X;: "tiempo de vida del componente i-ésimo (i=1,2,...,n), con función
de densidad dada por:
Ae-Azi para z; >0, >0
en c.o.C
Si se someten a prueba todas las bombillas en forma independiente, hasta que fallan, demostrar
que:
Ve >0, n+00
lim
n
Xi
siendo X;
o Ejercicio 5
En el ejemplo 2 del cuerpo principal del capítulo, interpretar las cotas respectivas de la probabilidad:
Va>0,
P(X-a<)1-#
cuando la constante a tomas los valores 1,2,3,4. Ayudarse con el gráfico correspondiente a la
distribución de la variable X.
o Ejercicio 6
De un lote de semillas, se sabe que el 70% germinan. Si se seleccionan al azar 100 semillas de
este lotey se las siembra:
a) Calcular una cota inferior para la probabilidad de que número de semillas que no germinan
no difiera del número esperado en más de 10 unidades.
b) Qué tamaño de muestra se debe tomar si se desea que la proporción de semillas que germinan
difiera de la proporción verdadera dentro de un margen de error del 2% con una probabilidad de
por lo menos 0.95?.
o Ejercicio 7
En un erperimento aleatorio, un suceso A tiene probabilidad p de ocurrir.
a) Si dicho ezperimento se realiza 1000 veces bajo las mismas condiciones y el suceso A ocurre 100
veces, quéasegura la Ley de los grandes números acerca de p?.
b) Cuántas veces habrá que realizar el erperimento para que la probabilidad de que p difiera de la
frecuencia relativa de ocurrencia de A, en menos del 5% sea aproimadamente 0.95?. c) Determi
nar una cota inferior para la probabilidad de que el número de veces que ocurre A esté entre 200
y 300, suponiendo que p=
o Ejercicio 8
La duración de cada lámpara de un lote de N lámparas es erponencial con media igual a 1000
horas. Los tiempos de duración respectivos de cada lámpara son independientes. Cada vez que una
de ellas se quema, se la sustituye inmediatamente por una nueva. Si llamamos X al tiempo de
vida útil de una lámpara, calcular aprorimadamente:
1) P(X > 11500) para N = 100
2) el minimo N que garantice P(X > 500000) >0.95
3) el mayor z tal que P(X > z) > 0.95 si N = 100
o Ejercicio 9
En una ciudad, la proporción de consumidores de una marca de gaseosas es p. Se toma una muestra
al azar de tamaño n (la ciudad es bastante grande como para que no importe si la muestra fué
tomada con o sin reemplazamiento). Sea R la proporción de consumidores en la muestra:
1) Sip= 0.2 y n = 200, calcular aprorimadamente P(|R-pl<0.01).
2) Sip= 0.2 y n= 200, calcular el menor etal que P(|R-p|<)>0.9.
3) Sip=0.2 hallar el menor n tal que P(|R-pl <0.01) > 0.9.
4) En una situación más realista, p es desconocido. Se desea elegir n tal que P(|R - pl <
0.01) > 0.9, se puede suponer (por los resultados de muestreos anteriores) que 0.1 < p< 0.3.
Hallar el menorn necesario.
o Ejercicio 10
Se lanza una moneda n veces y definimos las variables aleatorias X; de tal modo que X; = 1 si
sale cara en el i-ésimo lanzamiento X;=0si sale sello. Determinar el valor de n para que X
verifique: P(0.4<X<0.6) >0.7.
o Ejercicio 11
Sea X una variable aleatoria continua de la cual no se conoce su valor esperado. Qué tamaño
deberá tener una muestra de valores de dicha variable para que la media muestral X difera de
E(X) en menos de 2 veces el desvuío estándar, con probabilidad de por lo menos 99%?.
o Ejercicio 12
El tiempo de vida útil de los fusibles de la marca "BBB", tiene una distribución desconocida pero
con media u < o0 y varianza g² = 2500hs2.
Cuántos de ellos por lo menos deben seleccionarse al azar, de modo que el tiempo de vida media
de la muestra no difiera de la verdadera media en más del 2%, con una probabilidad de al menos
el 95%8. Qué ley fundamental usa para resolver el problema?, se cumplen las hipótesis necesarias
para su empleo?.
o Ejercicio 13
El tiempo de vida útil de las resistencias de la marca "RRR", tiene una distribución normal con
media u< 0 y varianza o = 2500hs.
Cuántos de ellos por lo menos deben seleccionarse al azar, de modo que el tiempo de vida media
de la muestra no difera de la verdadera media en más del 2%, con una probabilidad de al menos
el 95%?. Qué ley fundamental usa para resolver el problena?, se cumplen las hipótesis necesarias
para su empleo?. Es necesario el supuesto de normalidad si deseamos emplear la Ley de grandes
números. Por qué?.
o Ejercicio 14
Una compañía produce tres variedades de motores: A, By C. Sea p la proporción (desconocida) de
motores de tipo A o B producidos por la firma. Cuántos de ellos deberán elegirse aleatoriamente
en una muestra, a fin de que la probabilidad de que la proporción de motores de tipo A o B difiera
de su valor esperado en menos de 0.02, sea al menos del 90%.
o Ejercicio 15
Una ercursión dispone de 100 plazas. La erperiencia indica que cada reserva tiene una probabilidad
de 0.10 de ser cancelada a último momento. No hay lista de espera. Se supone que los pasajeros
hacen sus reservas individualmente, en forma independiente. Se desea que la probabilidad de que
queden clientes indignados por haber hecho su reserva y no poder viajar sea < 0.01. Calcular el
número márimo de reservas que se pueden aceptar.
o Ejercicio 16
Un estudiante se somete a un ezamen de 100 preguntas con alternativas múltiples. Cada pregunta
tiene tres alternativas como respuesta, de las cuales sólo una es correcta. Para aprobar es necesario
tener 80 o más respuestas correctas.
a) Cuál es la probabilidad que tiene el estudiante de aprobar si elige las respuestas al azar?.
b) Con una marca 80, cuál es la esperanza del número de preguntas que realmente sabia?.
c) Para una persona que realmente sabe el 50% de las preguntas, cuál es la probabilidad de aprobar?.
o Ejercicio 17
Se estrae una muestra aleatoria de tamaño n de una población con distribución N(u, o). Se
construye la variable aleatoria media muestral X. Encontrar su función de densidad, su esperanza
y varanza.
o Ejercicio 18
Un inspector federal de pesos y medidas visita una planta de empacado para verificar que el peso
neto de las cajas sea el indicado en éstas. El gerente de la planta asegura al inspector que peso
promedio de cada caja es de 750 gr. con una desviación estándar de 5 gr. El inspector selecciona
al azar 100 cajas y encuentra que el peso promedio es de 748 gr. Bajo estas condiciones, ¿qué tan
probable es tener un peso de 748 gr. o menos?. iQué actitud debe tomar el inspector?.
o Ejercicio 19
En la producción de ejes de la marca "Estrella", la longitud de los mismos se distribuye normal
con media u = 12 y varianza o². Eriste una probabilidad del 5% de que la longitud de un eje se
aparte del valor medio en más de 0.01. Si se eztraen muestras de n elementos y se halla su valor
promedio, indicar el valor de n para que la probabilidad de que el valor hallado se encuentre entre
1,999 y 12,001, sea igual a 0.95.
o Ejercicio 20
Supongamos que (X1, X2, ., Xa) es una muestra aleatoria de mediciones con respecto a las im
purezas en unas muestras de azúcar sin refinar. Se sabe que la distribución poblacional es de la
forma:
22 CAPTULO 10. POBLACIÓN Y MUESTRA
f(e) = 03z" para 0 < <1

en C.0.C
Un comprador oficial rechazará el azúcar si X supera a 0.70. Calcular aprozimadamente la

probabildad que el comprador no rechace el producto si se toma una muestra de 60 observaciones.
o Ejercicio 21
Un móvil se desplaza sobre el eje z según la siquiente regla: en cada paso la posición coordenada
alcanzada puede incrementarse en +1 con probabilidad , o disminuirse en + con probabilidad .
Los pasos son tomados independientemente uno del otro y la posición inicial es el origen. Cuál es
la probabilidad de que después de 100 movimientos, el móvil se encuentre a la derecha del origen
(coordenada positiva) ?.
o Ejercicio 22
Si un jugador debe pagar $360 para hacer 100 tiros con un dado legal y cobra según el total de
puntos obtenidos (sumatoria de los 100 tiros). Calcular la probabilidad de ganar más de S100
(ganancia neta).
o Ejercicio 23
Se sabe que el peso de ciertos bombones es una variable aleatoria con distribución uniforme entre
10 y 12 gramos. Demostrar que la probabilidad de que una caja con 24 bombones pese más de 320
gramos, si la tara de la caja vacía es una variable aleatoria normal de valor medio 50 gramos y
desviación típica de 5 gramos, es aprorimadamente 0.148.
o Ejercicio 24
a) Hallar la probabilidad de obtener más de 25 "sietes" en 100 lanzamientos de un par de dados
legales.
b) Cuántos lanzamientos son necesarios para que la probabilidad de que se obtenga al menos 1
"siete", sea aprozimadamente 0.95?.
o Ejercicio 25
Muchos insumos de producción, como el mineral de hierro, el carbón y el azúcar sin refinar, se
muestrean para determinar su calidad por un método que implica la toma periódica de muchas
pepueñas muestras cuando el material se mueve sobre una cinta transportadora. Posteriormente la
muestras pequeñas se juntan y se mezclan para formar una muestra compuesta. Sea Y; el volúmen
de la i-ésima muestra pequeña de un lote particular y suponga que (Y1, Y2,.., Y) es una muestra
aleatoria, en donde cada variable tiene una media u (en pulgadas cúbicas) y una varianza o².
El volúmen promedio de las muestras, u, se puede regular ajustando el tamaño del equipo que
se utiliza para el muestreo. Suponga que la varianza de los volúmenes de las muestras, o', es
aprozimadamente 4 para una situación particular. Se requiere que el volumen total de la muestra
compuesta ezceda las 200 pulgadas cúbicas con una probabilidad aprozimada de 0.95 cuando se
seleccionan n = 50 muestras pequeñas. Determinar el ajuste de que permitirá satisfacer los
requerimientos del muestreo.
o Ejercicio 26
Supongamos que X1, X2, .., X, son variables aleatorias independientes, cada una con media 1
y varianza ai, y que Yi,Y2, .., Y, son también variables aleatorias independientes, cada una con
media u2 y varianza oz.
1) Demostrar que para la variable aleatoria:
U, X-Y)- (u1 - 2)
la función de distribución converge a la función de distribución normal estándar cuando n ’ o.

2) El flujo de agua a través de los suelos depende, entre otras cosas, de la porosidad (porcentaje
de volumen de huecos) del suelo. Para la comparación de dos tipos de suelo arenoso, se obtienen
n = 100 mediciones de porosidad del suelo A yn = 100 mediciones de porosidad del suelo B.
Suponer que of = 0.01 y oz= 0.02. Calcular el valor aprozimado de la probabilidad de que la
diferencia entre las medias muestrales se aleje de la diferencia de las medias poblacionales, a lo
más en 0.05 unidades.
o Ejercicio 27
Sean X1, X2, ..., X100 variables aleatorias independientes distribuídas según una ley de Poisson con
parámetro A = 2.
a) Hallar en forma eracta la probabilidad de que la suma de ellas sea mayor o igual que 2.
b) Hallar en forma aprozimada la probabilidad anterior y comparlas.
o Ejercicio 28
El tiempo de vida útil X (en años) de los focos de marca ACME, tiene una distribución erponencial
con parámetro a = . Un comprador aceptará un lote de 200 focos de esta producción si la
probabilidad de que el tienpo medio de vida útil del mismo supere los 2 años, es de por lo
menos 0.80. Con los datos de la producción, cree Ud. que el comprador aceptará el lote?
o Ejercicio 29
Un móvil se desplaza sobre el eje z según la siguiente regla: en cada paso la posición coordenada
alcanzada puede incrementarse en con probabilidad , o disminuirse en + con probabilidad .
Los pasos son tomados independientemente uno del otro y la posición inicial es el origen. En el
primer movimiento se tiene un esquema como el mostrado en la figura:
a) Cuál es la posición coordenada esperada luego de 100 movinientos?.

b) Cuál es la probabilidad aprozimada de que después de 100 movimientos, el móvil se encuentre a
la izquierda del origen (coordenada negativa)?. Qué teorema fundamenteal emplea en el cálculo?,
verifique que se cumplen las hipótesis requeridas en el mismo.
o Ejercicio 30
Supóngase que en un plancha de vidrio de 50 m² tiene 5 burbujas de aire (defectos) distribuidos
al azar. Definimos la variable aleatoria X: "Número de burbujas de aire por m²".
a) Qué tipo de v.a. especial es X?, escribir su función de cuantía p(z).
b) calcular la probabilidad de que haya eractamente 2 defectos por m².
c) la probabilidad de que haya tres o más defectos por m².
c) Probar que E(X) = Cómo interpreta este valor?.
d) Cuál es la probabilidad aprorimada de que en 40 planchas similares a la de los puntos anteriores,
el número de burbujas no supere el valor promedio muestral?.
o Ejercicio 31
Los circuitos electrónicos de la fábrica "ELECKTRONIKS" tienen un tiempo de utilidad que es
una variable aleatoria continua T con función de densidad dada por:
aeat para t > 0, a > 0
en c.o.C
a) Se sabe que el tiempo de vida media de estos circuitos es de 10000 hs., cuál es el valor de la
constante a?.
b) Calcular el tiempo de vida mediano de un componente proveniente de esta fábrica.
c) Si se conectan 4 componentes en serie, como muestra la figura, cuál es la probabilidad de que

por lo menos uno de ellos no sobreviva las 5000 hs. de uso?. Suponer que los tiempos de vida útil
son independientes entre las componentes.
d) Cuál es la probabilidad aprozimada de que el tiempo medio de 50 comnponentes de este tipo

supere al valor 5.1052.
o Ejercicio 32
Si X ~ P. (100), hallar aproimadamente el e tal que:
P(|(X/100) 1|<) =0.99
o Ejercicio 33
Sea X ~ P.(A).
1) Demostrar que la función generatriz de momentos de la variable U= es.
my (t) = edeviVat-A
2) Aplicando desarrollo et/V = k!

demostrar que
k=0
lim mñ(t) = /2
con lo que quedará demostrada la aprozimación de la distribución Poisson por la Normal.

o Ejercicio 34
De una población con distribución normal N(u, o) se eatrae una muestra aleatoria de tamaño
n, (X1, X2, ..., X). Decidir justificando adecuadamente la distribución de las siguientes variables
aleatorias:
Bibliografia
[1] Mood y Graybill, Introducción a la Teoría de la Estadistica, Ed. Aguilar, 1970.
[2] William Feller, Introducción a la Teoría de las Probabilidades y sus Aplicaciones, Ed. Limusa
Wiley, 1978.
1986.
Iberoamerica, 1987.
5] Leonard Kazmier, Alfredo Díaz Mata, Estadística Aplicada a la Administración y a la
Economia, Ed. Mc Graw Hill, 1993.
[6] Richard L. Mills, Estadistica para Economiía y Administración, Ed. Mc Graw Hill Latinoamer
ica, 1980.
[7] Lincoln L. Chao, Estadística para las Ciencias Administrativas, Ed. Mc Graw Hill México,
1975.
[81 Ya-Lun Chou, Análisis Estadistico, Nueva Editorial Latinoamericana, 1977.

[9) Orlando J. Avila Blas, Valores esperados y momentos, Apuntes de Teoría de Probabilidades y
Estadística. Departamento de Matemática-Facultad de Ciencias Exactas-U.N.Sa, 1996.
[12] Orlando J. Avila Blas, Aprozimación a la distribución binomial por la normal- Teoría de
errores-Test de Hipótesis-Aplicaciones, Trabajo Final de Seminario de Actualización Científica,
Depto. de Matemática, Facultad de Cs. Exactas, UNSa, 1983.
25
Contenido
11 Distribuciones en el muestreo 3
11.2 Distribución de la media muestral X (caso normal) 4
11.3 Distribución Chi-cuadrado: x 4
11.3.1 Propiedades de la distribución y? 7
11.3.2 Tablas de la Distribución acumulativa de x?
11.4 Distribución t de Student
11.4.1 Propiedades de la distribución 11
11.5 Distribución F Snedeckor 13
11.5.1 Propiedades de la distribución F 14
11.6 Ejercicios 15
1
Capítulo 11
Distribuciones en el muestreo
Nadie tiene la verdad absoluta, pero todos poseemos un poco de ella...
11.1 Introducción
Luego de haber realizado la introducción de conceptos referidos a la población de estudio y a una

muestra aleatoria proveniente de ella, nos interesa ahora estudiar las distribuciones probabilísticas
de algunas variables importantes. Estas distribuciones nos servirán como base fundamental para
realizar el procedimiento de Inferencia Estadística que seráestudiado en el próximno capítulo.
En este capítulo estudiaremos la manera de determinar distribución exacta de ciertas variables
que aparecen con frecuencia al trabajar con muestras. A partir de ellas podemos encontrar ciertas
características basadas en los momentos y el comportamiento asintótico de la distribución para
valores grandes del tamaño muestral n.
El conocimiento de la distribución exacta de una variable en el muestreo es aún más importante
cuando se trabaja con muestras pequeñas, dado que por ejemplo, no tiene sentido estudiar el com
portamiento asintótico de la misma.
En general el problema consiste en determinar la distribución en el muestreo de alguna función
muestral h(z1, T2, ..., zn) asociada a una muestra aleatoria (X1, X2, .., Xn) proveniente de una
población con distribución f(z), por ejemplo la media muestral X de una población normal.
No siempre es factible poder expresar una distribución en función de funciones conocidas, de hecho
sólo se conocen unos pocos casos frente a la totalidad. En el caso de la media muestral X, dado
que ésta puede escribirse como una combinación lineal de las variables de la muestra, podemos
hallar la distribución exacta cuando la muestra provenga de una distribución que cumpla con la
propiedad reproductiva como sucede con poblaciones: normal, Cauchy, Poisson.
Salvo el caso de la media muestral, se han obtenido hasta el presente muy pocos resultados gene
rales en lo que respecta a la distribución muestral exacta. En este sentido, para una distribución
normal se han logrado la mayoría de los resultados conocidos.
Al comienzo, Helmert, Pearson y Student fueron los que realizaron los mayores aportes. Luego,
Fisher nos brindó demostraciones rigurosas y sistemáticas descubriendo formas exactas de dis
tribuciones de fundamental importancia, mediante el uso de la Geometría Analítica en espacios
multidimensionales. Estos estudios fueron seguidos posteriormente por métodos que emplean fun
ciones características de variables transformadas.
Entre las más importantes distribuciones en el muestreo se encuentran: la distribución de la media
muestral en el caso de poblaciones normales, la distribución "Chi-cuadrado": x², la distribución
t de Student" y la distribución F de Snedeckor".
3
4 CAPÍTULO 11. DISTRIBUCIONES EN EL MUESTREO
11.2 Distribución de la media muestral X (caso normal)

Sea (X1, X2, .., X) una muestra aleatoria proveniente de una distribución normal N(u, o), de
seamos encontrar la función de densidad de la variable aleatoria media muestral:
X= isl
n
para ello, calcularemos su función generatriz de momentos m(t) empleando las propiedades
de esta función que ya hemos estudiado en el Capítulo 6.
Se observa que la media muestral puede ser expresada como combinación lineal de la variables de
la muestra, del siguiente modo:
esto nos facilitará los cálculos.

En primer lugar, recordemos que por ser X; ~ N(u, o) , Vi=1,2,...,n, se tiene:
mx, (t) = eutt, Vt ER, Vi= 1,2,.., n

Por otro lado, empleando el Teorema 4 de 6.3.1., tenemos:
mx,/n(t) = mx, , VtE R, Vi=1, 2,.., n

y el Teorema 7 de 6.3.1. nos habilita a escribir:
myt) =I[mx./n(9 =(#+*)" = eHtt}',

i=1
vteR
pero esta expresión es la función generatriz de momentos de una distribución normal con media
uy varianza y entonces usando el Teorema 5de comparación se concluye que X ~N(,).
Por lo tanto podemos expresar:
1
f(z) = -00 <T<+o0,ueR,oER, n¬N
11.3 Distribución Chi-cuadrado: x?

La distribución y fué obtenida por F. R. Helmert en su trabajo "über die Wahrscheinlichkeit von
Potenzsummen der Beobachtungsfehler, etc." (2.f. Math. u. Phys., 21, 1876.) e independiente
mente por Karl Pearson en su trabajo "On the criterion that a given system of desviations from the
probable in the case of a correlated system of variables is such that it can be reasonably supposed
to have arisen from random sampling." (Phl. Mag., V. 50, 1900, pág. 157).
Esta es una de las distribuciones más usadas en Inferencia Estadística, nosotros la emplearemos
como variable auxiliar para construir otras variables asociadas al muestreo y en el capítulo siguien
te se utilizará fuertemente en el proceso de estimación tanto puntual como por intervalos de con
fianza.
Otros usos (que no veremos en este curso) contemplan los temas de: Bondad de Ajuste, Contraste
de Homogeneidad de varias muestras, Contraste de independencia de caracteres, Homogeneidad
de varianzas y otros.
La variable que la define consiste en una suma finita de cuadrados de variables normales estándar
independientes. En este sentido se da la siguiente
11.3. DISTRIBUCIÓN CHI-CUADRADO: x? 5
Definición 1
Sean X1, X2, .., X* variables aleatorias independientes y X; ~ N(i, o7), Vi = 1,2,.., k entonces
la variable aleatoria:
k
el número indicado por (k) recibe el nombre de grados de libertad y se define como:
grados de libertad=g.l. = n° de variables independientes - n° de restricciones sobre ellas
Usual1nente se simboliza el número de grados de libertad con la letra v.
Deduciremos a continuación la función de densidad de esta variable, para ello denotarermos
Y= AjH, Yi=1,2, .... k, con lo que la variable U toma la forma
i=1
1
Dado que las X; son independientes, las Y; también lo son; por otro lado, f.(y)=eyi12,
V2m
ti=1,2, ., ky entonces la función generatriz de momentos de U es:
k
P+oo
my (t)=
i=1
k-integr ales
eDvifi(n) fa(va)...fa(y) [ dy=1
evietvptvi evi/2 e-vi/2 e-vi/2

=
V27 V2m i=1

efyi eVi/2 e-vi/2
V2r dy1.
=
dy2...
V2T
V2r
=
dy
En esta última expresión, podemos completar convenientemente la función integrando a fin de
conseguir una densidad N(0,): para ello multiplicamos ydividimos por obteniendo:
1
mu(t) = dy
V2J-o
Ahora emplearemos el Teorema 5 de 6.3.1, que nos permite identificar la distribución de una
variable aleatoria por medio de su función generatriz de momentos. En este sentido conviene
recordar la distribución gamma definida en el capítulo de variables aleatorias continuas especiales:
a! ga4 °e-$ si z >0, B>0, a>-1
X~ T(a,9) ’ f() =
en c.o.c.
a+1
yademás, mx () =( Vt< Comparando my(t) con mx (t), se concluye (vía

el mencionado teorema) que U tiene una distribución Gamma con parámetros a = -1 y ß= 2.
Y por lo tanto, la función de densidad de la variable U es:
ue si u> 0
f(u) =
0 en c.o.C.
Los momentos naturales de orden r toman la forma: u, k(k+2)...(k +2r-2) y en particular,

la esperanza y varianza de U toman respectivamente los valores:
E(U) = (a+1)a=-1+1|3=k
Var(U) = (a+ jP = -1+1 4=2*
Es decir, el valor esperado coincide con el número de grados de libertad y la varianza, con el duplo
de dicho número (muy fácil de recordar!). La gráfica de esta función para distintos valores de kse
muestra a continuación:
f(u)
0.5
k =1
0.4
0.3
k =2
0.2
k =6
0.1
2 4 6 8 10 12 14
11.3. DISTRIBUCIÓN CHI-CUADRADO: x? 7
En ella se observa que para los valores k = 1,2 la gráfica decrece asintóticamente al eje U,
mientras que para valores k> 2este decrecimiento se presenta luego de que la función alcanza un
máximo en el valor U=k-2.
Como consecuencia de la definición recién dada se tiene el siguiente caso particular:
Si (X1, X2, ..., X) es una muestra aleatoria de una distribución N(, o?), entonces:
11.3.1 Propiedades de la distribución x²

La variable aleatoria chi-cuadrado cumple con la propiedad reproductiva, ello se contempla en el
siguiente:
Teorema 1 Teorema de la adición de x²
Sean Uj x) Uz ~ xu., U, ~ x , variables aleatorias independientes, entonces:
V=Cu~x)
i=1
con v=
i=1
Demostración:
Calculamnos la función generatriz de momentos de V empleando el Teorema 7 de 6.3.1:
mv(2) = mu, +U,t.+tU-] (4) = || my,(t)

i=l
()'-()
=
(H)
y aplicando el teorema de comparación 5 de 6.3.1, se concluye que V ~x, donde los grados
de libertad se obtienen sumando los grados de libertad de cada variable U;.
Una consecuencia importante (que se usará en detalle en la Teoría de la Estimación) es el siguiente
resultado:
Corolario 1
Si (X1,X2, ..., Xn) es una muestra aleatoria de una distribución N(, o), entonces:
Demostración:
Analizamos la suma:
LXi-)² = L(X-X) +(X-) =(X-X²+(- )'+2(X-9(X- )

i=1 i=1 i=1
=
Lx- * +n(7- a)} +2X- )LX-X)
i=l i=1
=0
=
CX-X+ n(X -)?
i=l
y por lo tanto, se observa que:
El segundo término del miembro de la derecha tiene distribución x puesto que podemos
expresar
2
lo cual muestra que tenemos una variable normal estándar elevada al cuadrado y esto es equivalente
a pensar en una "suma" de cuadrados de normales estándar con un solo término; por ello v = 1.
Faltaría demostrar que en la suma en cuestión las variables son independientes, pero ello no es tan
sencillo y no lo haremos aquí (puede resultar un buen ejercicio para el lector).
Luego, aplicando el Teorema de la adición de chi-cuadrado, se concluye inmediatamente la tesis.
Que la variable en cuestión tiene (n 1) grados de libertad se entiende fácilmente observando que
al tener definida la media muestral X, las variables de la muestra están sujetas a la condición:
XË + X2 + +Xn =nX
y entonces para cada valor de la media muestral tenemos (n- 1) variables aleatorias libres, la
restante queda ligada a éstas.
En base a estas consideraciones, podemos escribir la función de densidad de la variable en cuestión:
1
e- si u>0
()!2(n-lij/2
f(u) =
0 en c.0.C.
Convergencia a la distribución normal
La densidad una variable aleatoria U~ x se aproxima a la densidad normal N(k, 2k) cuando
k ’ o. Para ello sabiendo que:
la función generatriz de momentos de la variable estandarizada:
W
V2k
tiene la forma:
mw (t) = e .
para k grande y|0|l<1
y en consecuencia, se verifica que:

lim my (t) =e
k+00
con lo que W ~ AN(0, 1) y U ~ AN(k, 2k).

11.4. DISTRIBUCIÓN T DE STUDENT
11.3.2 Tablas de la Distribución acumulativa de x?

A partir de la función de densidad de una variable U~ xi podemos expresar la función de
distribución acumulativa por medio de:
| -du si u, >0
Yu, E R, F(u,) = P(U<uo) =
0 si u, < 0
Afortunadamente, esta función se encuentra tabulada y se encuentran disponibles tablas extensas
de ella dadas por K. Pearson, F. Yates y R. A. Fisher entre otros.
Es frecuente en Estadística Inferencial determinar la probabilidad a de que una variable x, supere
a un valor dado x ( (denominado punto crítico). Numéricamente esta probabilidad es igual al
área bajo la curva de densidad que queda a la derecha de x(k)y esto es:
too
Pai >xo)=,
Jx.()
f(u) du =1- F(Xa(4)) =a
Cuando esta probabilidad se expresa en porcentaje, es decir P =p/100, el valor x se denomina
usualmente valor p porcentual de chi-cuadrado con k grados de libertad. Gráficamente:
f(u)
Para áreas a izquierda tenemos: PXiy SXal) = 1- Px,>xa) =1-a

Una propiedad importante de la función de distribución acumulativa es su aproximación asintótica
a la distribución acumulativa de la normal estándar cuando k ’ oo. Esto puede comprobarse te
niendo en cuenta que:
lim
k+oo P(/2x <vk +.)
P(xi, <k +u,V2k) =(u.)
y por lo tanto la variable ,/2 x? es asintóticamente normal N(V2k, 1). Esta aproximación fué
mejorada por Fisher, sustituyendo k por 2k-1, en su libro Métodos estadísticos para investigadores,
Ed. Aguilar, 1949. Para valores k > 30 se consigue una aproximación bastante buena a los fines
prácticos.
11.4 Distribución t de Student

Es otra de las variables que aparecen frecuentemente en problemas asociados al muestreo. Esta
distribución se debe al estadístico inglés W. S. Gosset,quien la empleó al escribir su trabajo "The
probable error of amean" bajo el seudónimo de "Student" (en 1908) ya que, al no poseer título
habilitante en ese momento no le estaba permitido realizar publicaciones. Su caracterización viene
dada por la siguiente:
Definición 2
Sean las variables aleatorias X~ N(u, o?) yU ~ x independientes, entonces la variable aleato
ria t de Student se define por:
X-p
t= -0<t< too
V
y usualmente se emplea la notación t ~ tay indicando que la variable hereda los grados de libertad
de la variable chi-cuadrado asociada a ella.
El paso siguiente en nuestro estudio es conseguir describir la distribución de esta variable. Para
ello encontraremos primeramente su función de densidad.
En la definición de la variable t, si X ~ (u, o?), entonces denotaremos Y= , la cual es N(0, 1)
y resulta también independiente de U. Y entonces, podermos expresar la función de densidad
conjunta de Y y Ucomo:
1 1
fyuly, u) = r(y).fo(u)= e Tk-2)198/2
V27 "7e3, -o<y<to, 0<u<too
Hacemos a continuación el cambio de variables (y, u) ’ (t, u), expresando a y como función de t:
Y
t=
y tenemos entonces el sistema de funciones:
u= u(t, u) = u
por lo que el "elemento de volúmen" en coordenadas (y, u) podrá expresarse como:
f(y, u) dy du = f(t, u) J() dt du = f(t, u) = f(t, u) dt du = f(t, u) dt du
Ahora, si integramos la densidad conjunta f(y, u) con respecto au entre 0e +oo, obtendremos
la densidad marginal de la variable t:
+00
he(t) = f(y, u) du =
1 1 ul/2
du
()124/2 k1/2
1 uk-1)/2.e-(#+1).u du
V2r ()!2-/2,k1/2 Jo
Completamos a continuación la función integrando a una forma gamma con parámetros a =
k y B= ((1+)) para ello bastará con multiplicar ydividir convenientemente dicho
11.4. DISTRIBUCIÓN T DE STUDENT 11
integrando por a! y got, lo que permite obtener:
h(t) ()! )'B(1+ ))-k+1)/2 du

V2nk (2)! 24/2 [3 (1 + ej J,
=1
=
()! -00 <t<+oo
V+k (;)! (1+ g)&+1))2 "
11.4.1 Propiedades de la distribuciónt
1) La curva de densidad es unimodaly simétrica con respecto al eje de las ordenadas (t = 0), por
ejemplo si k=3 su representación gráfica comparada con la densidad normal estándar es:
0.5+h(t)
0.1 t(3)
t
-4 0 1 4
De la observación de ella podemos concluir que, la probabilidad de tener una desviación grande
con respecto a la media es mucho más grande al trabajar con la distribución t que con la
distribución normal. Esta es una propiedad general que se observa para valores pequeños de k.
2) Se puede demostrar (queda como ejercicio para el lector) que el momento r-ésimo de la
distribución es finito: 4, < o para valores r < k. En particular:
k
E(t)= 0 A Var(t) = k-2 (k> 2)
Además todos los momentos de orden impar que existen son nulos debido a la simetría de la
densidad.
3) Se cumple que:
1
lim h(t)=:V2m..e
es decir, cuando aumenta el valor de los grados de libertad, la densidad de t converge a la
densidad de la variable normal estándar.
Es se demuestra escribiendo la densidad de esta variable como:
-(k+1)/2
()! ()! -0<t<oo
h(t)
Vak ()! (1+)1)/2 (s2) V a )
Aplicando la fórmula de Stirling, k! ()* .V2rk, al factor que acompaña a los paréntesis se
tiene que éste tiende a la unidad cuando k ’ o.
Por otro lado, dejando t fijo se verifica el límite:
lim
12 CAPITULO 11. DISTRIBUCIONES EN EL MUESTREO
con lo que:
1
lim he(t)=
koo
=.e*
4) Debido a su importancia, 1la función de distribución acumulativa de esta variable ha sido

tabulada.
Para un dado a E (0,), los valores de ta.(k) que satisfacen la ecuación probabilística:
1- F(to.(4) =P(2 ta.4) = .h(t) dt = a

a, (k)
se encuentran tabulados.
Para aquellos valores de a E (G, 1), aprovechando la simetría de la curva de densidad se tiene:
P(> ta(k)) = 1- P(ts ta(k)) =1 - P((> t1-o,.(4)) =1-(1-a) =a
Ambas situaciones se esquematizan en los siguientes gráficos:
h(t) h()
0<a<} <a<1
t
0 ta,(k) ta,(k)
Para áreas a la izquierda tenemos:
P(t<ta.k)) =1-P(t >ta,(k)) = 1-a

5)El comportamiento asintótico de la función de distribución acumulativa T;(t) se muestra a
continuación:
Sea s un número entero que cumple la condición s >, entonces se tiene:
Vk<1, VtE R,
(1+)2(+)z11
Entonces, la sucesión de densidades {h(t)} está uniformemente dominada por una función del
tipo M.(1 +) luego se cumple que:
-te
k
im J he(2)dt =
lim T(t.) = k e- dt = (t.)
6) Esta distribución nos será de gran importancia para encarar el tema de estimación de la media
poblacional por intervalos de confianza, en el caso de extraer una muestra de tamaño k
pequeño, de una población normal con varianza o² desconocida (ver Teorema 6 de 12.4 y caso de
muestras dependientes) , y la extensión a la estimación de la diferencia de medias de dos
poblaciones, bajo los mismos supuestos anteriores y el adicional de la igualdad de varianzas (caso
3).
Otros ejemplos, la mayor parte de ellos debido a Fisher, y que nos mostrarán el notable alcance
de esta distribución, aparecerán en el capítulo de Regresión Lineal.
11.5. DISTRIBUCIÓN F DE SNEDECKOR 13
11.5 Distribución F de Snedeckor

Esta importante distribución tiene muchas aplicaciones en estudios referidos a inferencia respecto a
la igualdad de las varianzas de dos poblaciones, el área de Análisis de la Varianza, de la Covarianza
y Regresión Lineal. La caracterización de esta distribución viene dada por la siguiente:
Definición 3
Sean las variables U x yVa xim independientes, entonces la variable aleatoria F se define
por
y los valores que toma son positivos por ser un cociente de dos variables positivas. Es usual emplear
la notación F ~ Fn.m) para indicar que esta distribución tiene asociados los grados de libertad del
numerador (n) y los del denominador (m) de las respectivas variables de su definición.
Nuestro siguiente paso es encontrar la distribución probabilística de esta variable. Para ello
deduciremos primeramente su función de densidad.
Dado que las variables U y V son independientes, podemos expresar su función de densidad con
junta como:
1
fu,v(u, v) = fu(u).fv(v) = e , 0<u, v <to
()!2-/2 ()!2m/2
Se propone a continuación el cambio de variables (u, v) ’ (F, v), expresando a u como función
de F:
U.m F.Vn
F= ’U=
V.n m
y consiguiendo el sistema de funciones:

F.Vn
u= u(F,v) = m
v= v(F,) = v
por lo que el elemento de volúmen" en coordenadas (u, v) se puede expresarse mediante:
dF du = f(E, v) dF du
f(u, o) du du = fF, o)J( du =fF. ") = f(E,v) m
Integramos la densidad conjunta f(F, v) con respecto a v entre 0e +oo, obtendremos la den
sidad marginal de la variable F:
L
hs(F) =
()!2r/2 () (m-2)!2m/2 m
F (2)"/a
(n+m-2)/2. e-(1+)du
Completamos a continuación la función integrando llevándola a una forma gamma con parámetros
1
a= ta-2 yB= (4 (1 + ) ) , para ello bastará con multiplicar ydividir convenientemente
dicho integrando por a! y ga+1, lo que permite obtener:
F (2)n/2 (zt-4)! ylntm-2)/2e-(1+)

hs(F) = (4+1)
(32)! ()!2(n+m)/2 (m)! (1+ En))
=1
F>0
( ) (2)! (1+ Eay() m
Luego, la densidad de F se expresa por:

F ()³ (ntm=2)! para F>0
hs(F) = ("2)!(:2)! (1+ Ea)()
0 en C.0.C.
La gráfica de esta densidad para diferentes valores de ny m se muestra a continuación:
h(F) n= 20, m=7 n= 20, m= 40
n=20, m= 400
0
F(n,m)
11.5.1 Propiedades de la distribución F

Existen tablas en las que se indican puntos de la rama superior de la función de distribución
acumulativa de F para un valor dado a de probabilidad.
Esto es:
P(F> Fa, (n,m)) = a
gráficamente:
4h(F)
Ta,(n,m)
Los recíprocos de estos números nos dan los respectivos puntos de la rama inferior de dicha
distribución acumulativa.
11.6. EJERCICIOS 15
En este sentido es muy útil tener en cuenta la siguiente propiedad:
y entonces
1
Fa.(n,m) = F1-a,(m,n)
Para áreas a la izquierda se tiene:
P(F < Fa,(n,m)) = 1- P(F> Fal(n,m) =1-a

El método general que se emplea para el cálculo de la integral del tipo:
P(a<F<b) = A(F) 4F
consiste en aplicar la transformación:
T(F) = m
1+()
que permite convertir a la densidad de la variable F en una de tipo beta con parámetros
a= (n- 2)/2 y B=(m- 2)/2.
11.6 Ejercicios
o Ejercicio 1
La variable aleatoria continua uniforme no cumple con la propiedad reproductiva, esto es, una
suma finita de variables uniformes independientes: X = X1+ X2 +... + Xn, no es en general una
variable uniforme.
Esto puede verse tomando por ejemplo una suma finita de n variables independientes uniformes
en el intervalo (0, 1) y demostrando que la densidad de la suma toma las siguientes formas según
el valor de n:
1)para n =2 (distribución triangular)
si 0 <r<1
fo(z) = z- 2(z-1) si 1<z<2
en c.o.C.
2) para n=3
si 0 < z<1
(2?-3(z- 1)) si 1 <z <2

fa(z) =
(?-3(- 1)? +3(2 2)) si 2 <z<3
en c.o.C.
3) en general para un n cualquiera

1
para 0 <z<n, extendiéndose la suma mientras los argumentos z, z - 1, z 2 sean positivos.

16 CAPITULO 11. DISTRIBUCIONES EN EL MUESTREO
La esperanza de la suma es E(X) =y la varianza es Var(X) = / . Con esto se puede

dermostrar que la suma estandarizada tiene una densidad que converge a la densidad normal
unitaria cuando n crece, esto es:
Las gráficas correspondientes de las densidades f, fa y fs se muestran a continuación:

fa
0 1 2 3
o Ejercicio 2
Se dice que una variable aleatoria X tiene distribución de Cauchy si su función de densidad es:
f(z) = Vz,uE R,A>0

[A2 + (z- )))
Demostrar que si (X1, X2, .., X) es una muestra de tal distribución, entonces la media
aritmética X tiene la misma distribución que cada X;.
o Ejercicio 3
Probar que si (X1, X2, ..., X,) es una muestra aleatoria de una distribución Poisson con media
A>0, entonces la media muestral Xtiene distribución:
f() =
(nd),
z!
si T= 0,1, 2, ...
en c.o.C.
o Ejercicio 4
Sean X1, X2, .., Xn variables aleatorias independientes tales que X; ~ N(0, o²), Vi= 1,2,.,n.
Demostrar que las variables definidas en la primera columna del siguiente cuadro tienen como
función de densidad a las funciones respectivas de la segunda columna.
11.6. EJERCICIOS 17
Variable Densidad
i=1 2 on (a214 e , >0
U, =X? ()
i=1
2
U = U3 > 0
2Bor( !
U4 = 2(1)*
o Ejercicio 5
Se efectúa un disparo al centro de un blanco. Si llamamos u yva las desviaciones horizontal y
vertical respecto del centro de dicho blanco, y consideramos que son independientes y tienen
distribución N(0,o), demostrar que la variable distancia al centro: r=Vu't y² tiene densidad
f(r) =eä, Vr>0
o Ejercicio 6
Si las componentes a, b yc de la velocidad de una molécula respecto a un sistema de ejes
rectangulares son independierntes y distribuídos normales N(0, G²), demostrar que la variable
velocidad: v= va² +6 +c2 tiene función de densidad dada por
o Ejercicio 7
Demostrar que si (X1, X2, ., Xn) es una muestra aleatoria de una distribución N(u,o),
entonces la variable aleatoria:
W=4X-u
S-l)
donde S es el desvío estándar muestral definido por:

n
i-1
S=
n-1
(sólo en un caso etremo, puede consultar el Teorema 6 de 12.4)

o Ejercicio 8
Se consideran dos poblaciones independientes XË ~ N(u,o) y X2 ~ N(u2,o~), con of yoË
desconocidas. Se toman sendas muestras aleatorias (X11, X12, .., Xin1) y (X21, X22, .., X2ng) y
se calculan las respectivas medias muestrales X1 y X2.
Demostrar que la variable
V=1-X2) -(41- 42)
donde o se construye a partir de o² (lamada "varianza amalgamada") definida por:

2 (21 - 1)S; + (n2 - 1)S3
nË + n2 -2
(sólo en un caso ertremo, puede consultar el caso 3 de página 42, Capítulo 12)
o Ejercicio 9
Demostrar que si t ~ tk entonces, el momento r- ésimo de la distribución es finito: p, < oo para
valores r<k.
En particular:
E(t) =0 A Var(t) = (k>2)
Además todos los momentos de orden impar que eristen son nulos debido a la simetría de la
densidad.
o Ejercicio 10
Demostrar que si t wt(*) entonces, t' ~ Fa,k)
o Ejercicio 11
to0
Considerar una variable aleatoria F~ Fin,m) empleando la condición Jo h(F) dF =1:

a) determinar una relación que vincule a los parámetros n y m.
b) demostrar que:
E(F) = " 2n²(n + m-2)
m-2
Var(F) = n(m - 4)(m - 2)?
o Ejercicio 12
Sea una variable aleatoria F ~ Fin,m), demostrar que la transformación:
T(F) =4 (27) m
permite convertir a la densidad de la variable F en una de tipo beta con parámetros

a= (n-2)/2 yB= (m -2)/2.
11.6. EJERCICIOS 19
Tabla de la Distribución x' Acumulativa

toa
Ldu
ka=0.995 a=0,990 a=0.975 a=0.950 a=0,900 a = 0,500 a=0.100 a=0.050 a=0.02
1 0.00004 0.00016 0.00098 0.00393 0.0158 0.455 2.71 3.84 5.0
0.0100 0.0201 0.0506 0.103 0.211 1.386 4.61 5.99 7.3
3 0.072 0.115 0.216 0.352 0.584 2.366 6.25 7.81 9.3
4 0.207 0.297 0.484 0.711 1.064 3.357 7.78 9.49 11.1
0.412 0.554 0.831 1.145 1.61 4.251 9.24 11.07 12.8
0.676 0.872 1.24 1.64 2.20 5.35 10.64 12.50 14.4
0.989 1.24 1.69 2.17 2.83 6.35 12.02 14.07 16.0
8 1.34 1.65 2.18 2.73 3.49 7.34 13.36 15.51 17.5
9 1.73 2.09 2.70 3.33 4.17 8.34 14.68 16.92 19.0
LO 2.16 2.56 3.25 3.94 4.87 9.34 15.99 18.31 20.4
1 2.60 3.05 3.82 4.57 5.58 10.34 17.28 19.63 21.9
3.07 3.57 4.40 5.23 6.30 11.34 18.55 21.03 23.3
3 3.57 4.11 5.01 5.89 7.04 12.34 19.81 22.36 24.7
14 4. 4.66 5.63 6.57 7.79 13.34 21.06 23.68 26.1
15 4.60 5.23 6.26 7.26 8.55 14.34 22.31 25.00 27.4
5.14 5.81 6.91 7.96 9.31 15.34 23.54 26.30 28.8
17 5.70 6.41 7.56 8.67 10.09 16.34 24.77 27.59 30.1
18 6.26 7.01 8.23 9.39 10.86 17.34 25.99 28.87 31.5
6.84 7.63 8.91 10.12 11,65 18.34 27.20 30.14 32.8
20 7.43 8.26 9.59 10.85 12.44 19.34 28.41 31.41 34.1
21 8.03 8.90 10.28 11.59 13.24 20.34 29.62 32.67 35.4
22 8.64 9.54 10.98 12.38 14.04 21.34 30.81 33.92 36.7
23 9.26 10.20 11.69 13.09 14.85 22.34 32.01 35.17 38.0
24 9.89 10.36 12.40 13.85 15.66 23.34 33.20 36.42 39.3
25 10.52 11.62 13.12 14.61 16.47 24.34 34.38 37.65 40.6
26 11.16 12.20 13.84 15.38 17.29 25.34 35.56 38.89 41.9
27 11.81 12.83 14.57 16.15 18.11 26.34 36.74 40.11 43.1
28 12.46 13.56 15.31 16.93 18.94 27.34 37.92 41.34 44.4
29 13.12 14.26 16.05 17.71 19.77 28.34 39.09 42.56 45.7
30C 13.79 14.95 16.79 18.49 20.60 29.34 40.26 43.77 46.9
40 20.71 22.16 24.43 26.51 29.05 39.34 51,80 55.76 59.3
50 27.99 29.71 32.36 34.76 37.69 49.33 63.17 67.50 71.4
60 35.53 37.43 40.48 43.19 46.46 59.33 74.40 79.08 83.3
70 43.28 45.44 48.76 51.74 55.33 69.33 85.53 90.53 95.0
8C 57.17 53.54 51.17 60.39 64.28 79.33 98.58 101.9 106
90 59.20 61.75 65.65 69.13 73.29 89.33 107.6 113.1 118
100 67.33 70.06 74.22 77.93 82.36 99.33 113.5 124.3 129
Tabla de la Distribución t de Student Acumulativa
P(t> ta(k) = a= ()!

ho.te) Vrk (2)! (1+ )(*+1)72
k a=0.10 a=0.05 a=0.025 a=0.01 a=0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
30 1.310 1.697 2.042 2.457 2.750
40 1.303 1.684 2.021 2.423 2.704
60 1.296 1.671 2.000 2.390 2.660
120 1.289 1.658 1.980 2.358 2.617
1.282 1.645 1.960 2.326 2.576
Bibliografía
[1] J. Johnston, Métodos de Econometría, Ed. Vicens Universidad, 1983.
[2) D. G. Chapman, Annals of Mathematical Statistics, 27, 489-506, 1956.
[3] Wayne W. Daniel, Estadistica con Aplicaciones a las Ciencias Sociales ya la Educación, Ed.
Mc Graw Hill, 1991.
[41 Leonard Kazmier, Alfredo Díaz Mata, Estadistica Aplicada a la Administración y a la
Economia, Ed. Mc Graw Hill, 1993.
Iberoamerica, 1987.
[6] Richard L. Mills, Estadística para Economía y Administración, Ed. Mc Graw Hill Latinoamner
ica, 1980.
1975.
[8] Ya-Lun Chou, Análisis Estadístico, Nueva Editorial Latinoamericana, 1977.

[9] Orlando J. Avila Blas, Valores esperados y momentos,Apuntes de Teoría de Probabilidades y
1998.
1998.
(13] Orlando J. Avila Blas, Población y Muestra, Apuntes de Teoría de Probabilidades y Es

tadística. Departamento de Matemática -Facultad de Ciencias Exactas-U.N.Sa, 1997.
21
Contenido
12 Teoría de la Estimación 3
12.2 Estimación Puntual
12.2.1 Propiedades de los estimadores puntuales 5
12.2.2 El Principio de Máxima Verosimilitud 14
12.3 Ejercicios adicionales sobre Estimación Puntual 25
12.4 Estimación por Intervalos de Confianza 33
12.5 Ejercicios adicionales para Intervalos de Confianza 53
1
Capítulo 12
Teoría de la Estimación
La confiabilidad termina donde el riesgo se hace presente...
12.1 Introducción
Podemos expresar el problema de la estimación del siguiente modo:

Se estudia una población con función de densidad o cuantía f(z,0,,02,..., 6:), donde X es la vari
able aleatoria que se mide sobre la población y 1,O2, .., Ox son los parámetros que caracterizan a la
distribución. Por ejemplo, si la población fuera normal, esto es X ~ N(4, o), los parámetros car
acterísticos son la media poblacional y la varianza poblacional o². Otro ejemplo, si la población
tiene una distribución Gamma entonces los parámetros que la caracterizan son a y B.
En general los parámetros 0; son desconocidos y se desea estimarlos, esto es, emitir un juicio de
valor con respecto a ellos. La teoría de la estimación constituye una valiosa herramienta para
poder realizar estos juicios de valor a partir de una muestra aleatoria (X1, X2, .., Xn) proveniente
de la población bajo estudio.
X~ f(z, 01, 82, ., ok)
(X1, X2,.., Xn)
Esta teoría trabaja con dos formas de hacer tales estimaciones:

" Estimación Puntual
" Estimación por Intervalos de Confianza

Comenzaremos con el primer camino:
3
4
CAPITULO 12. TEORÍA DE LA ESTIMACIÓN
12.2 Estimación Puntual

Estimar puntualmente un parámetro poblacional desconocido significa dar un juicio de valor por
medio de un único valor o punto. Para ello necesitamos construir estructuras aleatorias que de
pendan de las variables aleatorias de la muestra tomada. De todas las estructuras posibles nos
interesan las llamadas estadísticas ó estadigrafos y las denominadas estimadores. En este sentido
damos la siguiente:
Definición 1
Estadística o Estadígrafo
Sea (X1, X2, ..., X) una muestra aleatoria de tamaño n de una variable aleatoria X, llamamos
estadística o estadígrafo a toda función real H = H(X1, X2, .., X)de las variables de lamuestra
que no depende de los parámetros desconocidos.
Con esta definición, toda estadística o estadígrafo es una variable aleatoria por ser función de
las variables aleatorias de la muestra, y para cada muestra particular (z1, Z2, ., Zn) la estadística
toma un valor real particular que denotaremos h= H(z1, I2, ..., zn)).
* Ejemplo 1
Se toma una muestra aleatoria (X1, X2, .., X) de una población con distribución de Poisson con
media A desconocida. Esto es:
para z =0,1,2, ... A A>0

X~ p(z) = z!
en c.0.C.
Entonces, las siguientes funciones son estadísticas construídas a partir de la muestra seleccionada:
X2 + 3X4
i) HË = X1 + X2 +.. + Xn ii) H, =
4
ii) H, = Vx+ X$ t...+ X? iv) H4 = max {X1, X2, ., X}

Pero en cambio, no son estadísticas las siguientes funciones:
i)Hs = AX1 - X2 + ...+ Xn ii) H; = X} + sen X4
ii) H7= n(X?+ X}+...+ X}) iv) Hs = A+ max{X1, X2, ., Xn)
Es importante destacar que cuando trabajamos con estadísticas o estadígrafos nos referimos
a su distribución muestral y no a su distribución de probabilidad. En este sentido nos interesará
conocer en particular su valor esperado E(H) y su varianza d, aunque no siempre podamos hallar
su distribución muestral exacta.
No consideraremos la totalidad de estadígrafos disponibles para un problema dado, si aquellos que
nos sean útiles a los fines de emitir un juicio de valor sobre los parámetros desconocidos. Estos
estadígrafos especiales reciben un nombre en particular según la siguiente:
Definición 2
Estimador de un parámetro
Dada una variable aleatoria X que caracteriza al comportamiento aleatorio de la población de
estudio. Si X tiene una distribución f(z, 0) que depende del parámetro desconocido 9 y se desea
hacer una estimación del mismo, entonces se toma al azar una muestra aleatoria de tamaño n,
(X1, X2,.., Xn) yse emplea una estadística H para tal fin. Tal estadística recibe el nombre de
estimador y se simboliza como @(X1, X2, .., Xn).
Se llama además estimación a todo valor particular de un estimador, el cual se obtiene evaluando
dicha función en una muestra particular (z1,z2, ., Zn).
12.2. ESTIMACIÓN PUNTUAL 5
* Ejemplo 2
Si la población bajo estudio tiene una distribución f(z, , o?) cualquiera con media u fnita en
tonces, ejemplos de estimadores para ella son:
5 n n +2
Dado que no conocemos el valor del parámetro en cuestión, cuando realizamos una estimación
A
es muy probable que estemos cometiendo un error. Tal error definido por e =| -0| es una
variable aleatoria ya que está sujeto a las variaciones propias del muestreo. Lo ideal sería que
este error tomara valores pequeños, pero debido al desconocimiento de no podemos medir la
magnitud de dicho error. Por ello es de fundamental importancia estudiar ciertas propiedades
sobre los estimadores y en base al cumplimiento de ellas los podremos clasificarlos como "buenos
estimadores".
Las propiedades más relevantes a los fines de este curso se estudian a continuación:
12.2.1 Propiedades de los estimadores puntuales

Estimador Insesgado
Definición 3
Un estimador del parámetro 8 asociado con la distribución de la variable aleatoria X se llama

estimador insesgado para si y sólo si:
Nota: Si bien usamos la notación E(0), deberíamos en realidad emplear E(@ (X1, X2, ., X) ),
pero no lo hacemos solamente por motivos de simplicidad de notación, mientras no haya motivos
de confusión. Podemos dar la siguiente interpretación de la definición de estimador insesgado:
Sea es un estimador propuesto para el parámetro 8, tomamos en primer término una muestra
particular (a11, Z12,..,Z1n)de la distribución en cuestión y obtenemos la estimación correspondi
A(1)
ente esta muestra, la denotaremos ;repetimos la operación pero esta vez con una segunda
A(2)
muestra particular (21, T22, ., T2n), obteniendo la estimación ß Y seguimos así en forma in
pendiente, obteniendo en el proceso k-ésimo para la última muestra tomada (Tkl, Tk2, ..Jkn), la
a(*)
correspondiente estimación A continuación calculamos el promedio de las k estimaciones
obtenidas y calculamos el límite del mismo cuando k ’ o. Si este límite existe y es igual a 0,
entonces diremos que el estimador @es insesgadoy viceversa. Simbólicamente:
A) A(2) A(k)
+...+0
es insesgado para 0 lim
k+0
Cuando un estimador no es
insesgado, el sesgo se calcula como E(8) - o, el cual consecuente
mente depende de 0.
* Ejemplo 3
En el ejemplo 1 de este capítulo, si deseamos estimar la media poblacional A a partir de una
muestra aleatoria de tamaño n, (X1, X2,.., Xa) ,podemos proponer los siguientes estimadores:
X1 + X2 + ...+ Xn-1
n-1
Az= 1+4X, 5
6 CAPÍTULO12. TEORÍA DE LAESTIMACIÓN
entonces, los dos resultan estimadores insesgados para A ya que:

E(X1) + E(X:) +...+ E(Xn-1) ==l
n-1
Eo) =E(+X3) B(X}) +

2
4E(X)-+4u
5
=p=\
Teorema 1
Sea (X1, X2, .., X) una muestra proveniente de una distribución f(z, p, o²) con E(X) = < oo
y Var(X) =o² <o. Entonces:
1) n
n-1
es un estimador insesgado de la varianza poblacional o'.
X~ N(u, o) (n-1) o²
g2
264
y en consecuencia
Var()
Demostración:
1) Trabajeremos primero con la suma:
i=1
Cx-x = S(X-) +(u-X)² =C(X-)²+(u-X)² +2(u- X)(X;-))
=1 i=l
CX-»' + nlu -X) +2u-)T(X-)

i=1 i=1
Cx-' +n(u-X)? -2n(u - X)2 (1)

n
i=l
() Tener en cuenta que:
L(X;-) =-C- X;) = -Lu+L X;= -nu + n® -nlu- X)

Luego, podemos escribir:
i=1
n-izl
y aplicando miembro a miembro el operador E, se obtiene:
n n
1
i=1
Var(X) =o2 Var(X)=o? /n
ng'
n-1 n-1 n (n-1)g =
n-1
2) Podemos escribir:
(n-1) o?
-(
y según lo demostrado en la sección de propiedades de la distribución x, esta suma tiene una
distibución xn-1)'
Por lo tanto:
=n-1
expresión que permite verificar la validez del punto anterior del teorema ya que empleando propiedades
del operador E, se obtiene:
(a- )E() =n- 1 ’
También se tiene que:
Var = 2(n - 1)
y usando propiedades del operador Var, se tiene que:
(n-1)²Var
) 2o4
* Ejemplo 4
= 2(n - 1) ’
var()-i
Sea (X1,X2,..., X) una muestra proveniente de una distribución N(z,u, o) con E(X) = u <o
y Var(X) =o²<0. Entonces:
o= S= n-1
es un estimador sesgado del desvio estándar poblacional o.

Esto se demuestra teniendo en cuenta que:
U-(n-)Ea-)T2
Luego, como Vn-is = VU, su valor esperado se calcula como:

roo Suuln-3)/2-u/2 2/2 T(2) roo yn/2-1e-u/? du
E(VU) = vftu) du=Jo 2(n-1)/r()
du =
r(3) Jo 2n/2 T(3)
=1
2/2r(2)
T(g)
Con lo que,
E (Va-1S = l5=E(VU) =T E(S)= Vir()

8 CAPITULO 12. TEORÍA DE LA ESTIMACIÓN
Entonces, un estimador insesgado para o se consigue tomando:
r()
Otras propiedades importantes de los estimadores insesgados se enuncian en el siguiente:
Teorema 2
Si 01 y 2 son insesgados para 8, entonces se verifican:

1)Va ¬ R, 01 +a es insesgado para 0+ a.
2) Va E R, a 01 es insesgado para að.
3) Va1, a2 E R, aj 01 +a2 02 es insesgado para 0, si aj + ag = 1.
La demostración queda como ejercicio para el lector.
Estimador Consistente
Definición 4
Sea (X1, X2, .., Xn) un estimador del parámetro basado en una muestra de tamaño n, (X1, X2, .., X,).
Se dice que éste es un estimador consistente de 0, o que converge en probabilidad a 8 si y
sólo si:
Ve0, lim P
P(i-1s-)
o equivalentemente:
El significado gráfico de esta propiedad puede interpretarse como sigue:

Supongamos que se construyó a partir de una muestra aleatoria de una distribución continua,
luego este estimador es una variable aleatoria continua. Llamaremos g(0) a su distribución mues
tral, la cual no necesariamente es conocida, pero supondremos que tiene una forma como la
mostrada en la gráfica (nË < n2 < n3). Fijado un e > 0 pequeño, para cada tamaño mues
tral n, llamaremos An al área debajo de la curva g limitada al entorno de radio e y centro 0. Esto
es:
luego, que sea consistente significa que la sucesión de áreas A, converge al valor 1 a medida que
n crece. Gráficamente debemos ver que la curva de la densidad de @se "empina" alrededor del
valor del parámetro 0, aumentando la probabilidad de que el estimador tome valores cercanos al
parámetro en cuestión. Notemos además que no es necesario que el estimador sea insesgado para
Definición 5
Estimador asintóticamente insesgado
Un estimador del parámetro asociado con la distribución de la variable aleatoria X se llama
estimador asintóticamente insesgado para 0 si y sólo si:
Esto es, al aumentar considerablemente el tamaño muestral n, el valor de E(0) está tan cerca del
valor del parámetro comno se desee, basta con tomar un ¬ > 0 pequeño y con el encontramos un
N tal que:
Vn>N, |E(@) 0| <e
* Ejemplo 5
Sea una población con distribución cualquiera f(z,4, o) donde es finito pero desconocido. Si
tomamos una muestra aleatoria de tamaño n de dicha distribución, (X1, X2, ..., Xn) y proponemos
como estimador de u a la media muestral:
A=X= isl
entonces, dado que este es un estimador insesgado para , es inmediato que también es asintóticamente
insesgado ya que E(X) =, para todo valor de n (estamos calculando el límite de una constante).
* Ejemplo 6
En la misma situación anterior, los siguientes estimadores de la media poblacional son asintóticamente
insesgados:
10 CAPÍTULO 12. TEORÍA DE LA ESTIMACIÓN
ya que:
im E(X+=E(X)+ lim:= im
* Ejemplo 7
X)
El estimador de la varianza poblacional: S2i1(X{- n
es asintóticam ente insesgado ya
que:
lim E(S"2) = lim

Teorema 3
Sea (X1, X2, .., Xa) un estimador del parámetro 0 basado en una muestra de tamaño n, (Xi, X2, .., X).
Si se cumple que:
lim E(0) =0 A lim Var(®) = 0
n’oo n+00
entonces es un estimador consistente de 0.
Dermostración:
Empleamos la Desigualdad de Tchebyshev para la variable aleatoria 8, de la cual no es necesario
conocer su distribución muestral exacta. Pero sabemos por hipótesis, que su valor esperado y su
varianza son finitos (por converger a cero). Luego,
Ve0, <
E( -0)? z(-BÔ +nÔ-")'
=
cte. =0
Luego, aplicando límite cuando n 0 en el primer y último miembro de la desigualdad

anterior, se obtiene:
Ve0, lim P
n+0 P(1-|>)sin Van®) +lin (EÒ) o =0
con lo cual queda demostrado el teorema ya que la probabilidad no puede tomar valores negativos.
Como consecuencia del anterior podemos enunciar el siguiente
Corolario 1
Si@ es un estimador insesgado para 0, entonces es suficiente que su varianza tienda a cero cuando
incrementamos el tamaño muestral para que resulte un estimador consistente.
Demostración:
Es inmediata ya que al ser el estimador insesgado, se tiene que E(Ö) = 0, para todo valor de n.
* Ejemplo 8
La media muestral X es un estimador consistente de la media poblacional ya que, según se
demostró antes, E(X)=p (insesgado) y Var(X) = ’0 cuando n ’ oo.
Notemos que esta característica de la media muestral es independiente de la forma de la dis
tribución de la variable X que caracteriza a la población de estudio.
* Ejemplo 9
a) Si tomamos una muestra de tamaño n, (X1, X2, ..., X), de una población con distribución
N(#, o) (ambos parámetros desconocidos)y estimamos la varianza o² con:
1
i=1
entonces, según lo demostrado anteriormente, como:
A lim Var
n+00
()-. ()-0
lim
concluímos que dicho estimador es consistente.

b) Si tomamos como estimador a:
1 n
i=1
se tiene que:
lim E(S2) = lim E

n+00
lim
a()-o
y además:
lim Var(S*") =lim Var- ( )

y entonces, éste es también consistente aunque no insesgado.
Algunas propiedades interesantes de estimadores consistentes se enuncian a continuación (la

demostración se deja como ejercicio para el lector):
Teorema 4
Si @1 es un estimador consistente para 8; y 2 es consistente para 2, entonces se verifican las
siguientes:
a) 81 + 2 es consistente para , + O2.
b) O1 . 0, es consistente para 0,.02.
c) 01 /82 es consistente para ,/02 cuando O2 0.
d) Vo1 es consistente para ye, cuando P(01> 0) = 1
Estimador Relativamente Effciente
Supongamos tener dos estimadores, 81 y 02 para un mismo parámetro . Si ambos son insesgados,
cuál de ellos preferiríamos tomar?. La respuesta a esta cuestión queda dada considerando el cociente
entre sus respectivos desvíos estándar. En este sentido, damos la siguiente:
Definición 6
Estimador relativamente eficiente: E(01) = E(ê2) = 0
01 es más eficiente relativamente que 02 <1
Gráficamente, el concepto involucrado en esta definición puede verse en el siguiente dibujo:
Según la definición dada, un estimador ligeramente sesgado no puede denominarse eficiente aunque
su varianza sea pequeña.
* Ejemplo 10
Supongamos que se desea estimar la media poblacional u de una distribución f(z, p, o?) cualquiera,
con varianza finita. Se proponen los dos siguientes estimadores para u, construídos a partir de una
muestra de tamaño n> 2, (X1, X2, .., Xn):
A.-X1+X¡ +..+ Xn-
n
An XË 5+4X,
Entonces:
25
es más eficiente relativamente que
/17o?
V 25
* Ejemplo 11
Se puede demostrar que entre todos los estimadores lineales insesgados de la media poblacional ,
de una distribución f(z, 4,o') con o? < o, la media muestral X es el más eficiente relativamente.
En este sentido decimos que la media muestral es el "mejor estimador lineal insesgado" de la media
poblacional.
Sea (X1, X2, .., X) una muestra de tamaño n de dicha población. Sean entonces:
Entonces:
Var (m) = Var(X)=A Var(a1 X1 +agXy t... +anXn) = -
y bastará entonces demostrar que es mímina cuando a; = , i= 1,2,.., n. Se deja la

i=1
demostración al lector.
* Ejemplo 12
Sea (X1, X2, .., Xn) una muestra aleatoria de tamaño n > 2 de una población con distribución
f(z,p, o) y varianza o² < o. Entonces, la mediana muestral Me(X1, X2, .., Xn) es un estimador
insesgado de la media poblacional u pero menos eficiente relativamente que la media muestral X.
Esto se verifica puesto que:
" Si n es impar, entonces:
E(Me) = E(X( n)) = E(X) = p A Var(Me) = Var(X(,) = Var(X) = o

por lo que:
yVar (X)
VVar (Me) Y<l’ Xsmásefciente velativamente que Me
" Si n es par, entonces:
E(Me) = E t=AVar(Me) =Var( ) Ag))= 4 =2

por lo que:
/var ()_VR =/<1 Xes más eficiente relativamente que Me

VVar (Me)
Estimador Suficiente
Definición 7
Se dice que un estimador es suficiente respecto a si contiene toda la información que proporciona
la muestra sobre el parámetro que estima.
* Ejemplo 13
Sea (X1,X2, .., Xa) una muestra aleatoria de una población Bernouilli con parámetro p (descono
cido). Entonces, la suma Y = X; tiene una distribución Binomial con parámetro p. Si cono
cemos el valor de Y, es posible que tengamos más información con respecto a p si consideramos
otras funciones de las variables de la muestra?. Para responder a esta cuestión, calculamos la
distribución condicional de las X; dado el valor y de Y:
P(X1 = z1, X2= 2,.,Xn = zn/Y = y) = P(X1 = z1, X2 P(Y

= Z2, ., X, = zn, Y = y)
=)
p (1 - p)n-y
-()
luego, esta distribución no depende de p, es decir es imposible que cualquier otra función de las X;
nos brinde una mayor información con respecto a p.
La definición anterior no es muy usada desde el punto de vista práctico, en cambio se emplea el:
Criterio de Vonn-Neyman:
Si es un estimador del parámetro 0, construído a partir de una muestra (X1, X2, . X,) de
una distribución f(z,0), tal que la distribución muestral condicional dado un valor de @no depende
de , entonces se dice que este estimador es suficiente.
Lo anteriormente enunciado indica que podemos escribir la siguiente igualdad:
f(1,z2, ., En, 0) =glz1, #2, .., n/ 0).a(0,0)

#9(0)
Se desprende de esto que ninguna otra función de las variables de la muestra que se emplee como
estimador de 8, puede proporcionar información sobre ; pues si se considera otra función de las
Xi, w(X1, X2, .., Xn), su distribución dado un valor de está determinada por la distribución
condicional g(1,T2, ., Zh/ 0) que tiene a como parámetro y no a .
Pero es conocida independientemente del problema que estudiemos, luego toda la información
que puede proporcionar w no es útil para informar sobre .
* Ejemplo 14
Referiéndonos al Ejemplo 1 de este capitulo, nos interesa estimar la media poblacional A. Para ello,
apartir de una muestra aleatoria de tamaño n, (X1, X2, ..., X,) construimos el estimador media
muestral A= X. Aplicando el Criterio de Vonn-Neyman veamos que este estimador es suficiente.
Dado que la población tiene distribución Poisson con parámetro A, podemos erpresar la distribución
muestral como:
f(z1, E2, ., En, A) = fi(z1,4).fa(z2, ).... tn, A) = z1!

e-nA
n
i=1 i=1
h=h(A,)
g=g(,F,-.,. ,/Â)
Lo cual prueba la propiedad de suficiencia del estimador propuesto.
12.2.2 ElPrincipio de Máxima Verosimilitud
Una vez que hemos definido las propiedades que deseamos posean los estimadores (insesgado, con
sistente, eficiente, suficiente) se nos presente el problema de plantear fórmulas específicas capaces
de satisfacer dichas propiedades ó algunas de ellas.
Recordando el concepto de estimador como función de muestra que no depende de ningún
parámetro desconocido de la población en cuestión, es posible recurrir a algún principio que re
sulte más o menos eficiente para la obtención de la fórmula y posteriormente verificar si se cumplen
algunas de las propiedades enunciadas anteriormente.
Entre los métodos que responden a estas características figuran: el método de los momentos, el
método de los mínimos cuadrados (que veremos en el capítulo siguiente), el método ELIO (que
permite obtener estimadores lineales insesgados óptimos) y el método de máxima verosimilitud,

que desarrollaremos ahora.
Este método está basado en la idea que poblaciones diferentes generan muestras distintas y que es
más probable que una muestra determinada proceda de algunas poblaciones que de otras.
Para ilustrar la situación, consideremos tener poblaciones normales y una muestra de n obser
vaciones, (X1, X2,.., Xn). Consideramos a las observaciones como puntos sobre el eje real, dis
tribuídos alrededor de la media poblacional.
Nuestra pregunta es la siguiente: a qué población es más verosímil que la muestra pertenezca?.
En general todas las poblaciones normales pudieron haberla generado pero nos limitaremos por el
momento sólo a aquellas que tienen la misma varianza, como por ejemplo las poblaciones I, II y
IIIde la figura. De entre ellas, la que posean una media 1r generará muestras con media u con
más frecuencia que una población cuya media sea uj. Igual situación se presentará con poblaciones
cuya media sea superior a PI, por ejemplo iI -
II III
PIII
PII
En esta figura, se representa un conjunto de 7 observaciones muestrales 1, ..., T7, las que pueden
proceder de cualquier población normal, puesto que el recorrido de la misma es todo el conjunto
R. Si la verdadera población de la que proviene la muestra es Ió III, la probabilidad de que
las observaciones muestrales aparezcan en el intervalo indicado es muy baja; por otro lado, si la
población buscada es II, esta probabilidad es muy alta, de lo que se puede concluir que es más
verosímil que la muestra provenga de la segunda población que de las otras.
Cabe destacar que no hemos considerado las poblaciones que además poseen distintas varianzas,
pero podemos llegar a la misma conclusión.
Sin dudas es más verosímil que una muestra de varianza grande provenga de una población con
varianza grande que de una población con varianza pequeña.
Luego, es importante que consideremos las combinaciones de media y varianza específicas de la
población en relación con las de la muestra.
Formulación matemática:
Sinuestra población de estudio tiene una distribución f(z, 0) con 0 parámetro desconocido a
estimar,tomamos una muestra aleatoria de tamaño n de dicha población, (X1, X2, .., Xn).
Llamando (z1,2, .., zn) a los valores muestrales observados (esto es, valores fijos) defîinimos la
función de verosimilitud L a la siguiente:
L= L(z1, T2, ., In, )

16 CAPITULO 12. TEORÍA DE LA ESTIMA CIÓN
donde la variable es el parámetro (desconocido). La pregunta es entonces: para qué valores de 9

tomará la función L su mayor valor posible?. Si 0) y e2) son dos valores posibles de tales que:
L(*1, T2, .., Zn, 8)) < L(21, t2, ..., En, 02))
preferiríamos el 8(2) a B) para los valores muestrales obtenidos, por que si (2) es realmente el
verdadero valor del parámetro en cuestión, la probabilidad de obtener valores muestrales tales
como los datos es mayor considerando la misma situación con el valor (1),
Informalmente preferimos el valor de que haga tan probable como sea posible que el suceso
ocurra, es decir, la obtención de la muestra particular.
En otras palabras, se desea elegir el valor del parámetro más probable, luego de obtener la
muestra, suponiendo que cada valor de fuese igualmente probable antes de que los datos fuesen
obtenidos.
En general, si hay más de un parámetro a estimar, podemos enunciar la siguiente:
Definición 8
La función de verosimilitud asociada a una muestra particular obtenida (z1, z2, ., z,) de una
distribución f(z,0), donde 8 = (01,02, .., 0%) es el vector de parámetros a estimar, es:
L= L(z1,z2, .., n, o1, O2, ., o) = f(z1,0).f(,, 9)....( n,)
L está asociada a la probabilidad de obtener la muestra observada y es una función de los k
parámetros O;, i= 1,2, .., k.
Estimador Máximo-Verosímil
Se llama así al estimador 8, basado en una muestra aleatoria (X1, X2, ..., X,) que maximiza la
función de verosimilitud L y Lo simbolizamos como BMV.
Luego, el estimador de máxima verosimilitud de es el que permite que la distribución de probabil
idad conjunta de la muestray el 6 los parámetros a estimar sea máxima o bien, que la probabilidad
de obtener la muestra en cuestión sea máxima.
Esto se interpreta claramente cuando trabajamos con variables aleatorias X discretas, para vari
ables aleatorias continuas, la función L puede causar alguna dificultad. En este caso, ya sabemos
que la probabilidad de obtener cualquier muestra aleatoria es cero. Si embargo, la verosimilitud
puede considerarse como una medida de la frecuencia con que las variables aleatorias tenderán a
asumir valores en intervalos pequeños cerca de los resultados observados (entornos de ellos).
El principio de máxima verosimilitud requiere determinar el valor de que maximiza la función L
vista únicamente como función de dicho parámetro.
En general, para maximizar la función L, tenemos que tener en cuenta en primer término la
condición de extremo:
VL= 'a0.=(0, 0,..,. 0) = 0
k-comnp.
Estas son las llamadas condiciones de primer grado para la obtención de un extremo.
La segunda condición, que es la de existencia de máximo, requiere el cumplimiento de:
<0 A 8°L| <0 A... A <0
l@2, MV l8k,MV
Estas condiciones son a veces un poco complicadas de verificar, sin embargo, un sencillo proced
imiento para asegurarnos de que no hayamos obtenido un mínimo, consiste en calcular el valor de
L correspondiente a las soluciones de las ecuaciones de primer grado antes mencionadas? y contin
uadamente calcularla para unos valores ligeramente diferentes a los de los estimadores obtenidos.
Si este resultado es ligeramente menor que el primero, no podemos estar frente a un mínimo.
2ellas forman el llamado sistema de ecuaciones normales
En la práctica, las condiciones de primer grado suelen presentar una forma un poco engorrosa de
manejar, la que se mejora notablemente empleando el logaritmo de la función de verosimilitud,
lo denotamos como L = In L, puesto que en la mayoría de los casos se logra una linealización
conveniente.
Esta formulación alternativa, se basa en el hecho de que el logaritmo es una transformación
monotónica, decir, si L crece, su logartimo también y viceversa. Por lo tanto, el punto cor
respondiente al máximo de L es también el punto de máximo de C. Esto es un caso particular del
siguiente:
Teorema 5
Sea f: R’ R+ la cual alcanza un mázimo en el punto zo E R, entonces g(z) = ln f(z) también
alcanza un márimo en el punto zo. Se deja la demostración al lector.
Como L es no nula, no hay impedimentos en calcular su logaritmo y estudiar sus puntos
extremos. En la siguiente figura se representa la monotonicidad de la función logaritmo o trans
formación logarítmica en el caso de poseer un solo parámetro a estimar.
L= In L
El punto corresponde claramente a un máximo tanto en L como en In L. Luego, las nuevas

condiciones de primer grado adoptan la forma:
VC= •6, 0,**0, (0,0, ... 0) =0
k-comp.
Propiedades de los estimadores máximo verosímiles

a) Los estimadores máximo verosímiles pueden ser sesgados. A menudo se puede evitar el sesgo
multiplicándolos por una constante apropiada.
b) Los estimadores máximo verosímiles son, bajo condiciones muy generales, convergentes. Es
decir, si los tamaños de muestra son grandes, es altamente probable que el valor del estimador
estará próximo al verdadero valor del parámetro que se estima. Estas son las llamadas propiedades
asintóticas. Estos estimadores son consistentes y asintóticamente eficientes, es decir Vno tiene
una varianza que se aproxima al límite de Cramer-Rao para valores grandes de n, en símbolos:
1
lin, Vor (ai) -
c) Los estimadores máximo verosímiles tienden a ser asintóticamente distribuídos en forma normal,
esto es:
va -) -AN(o. s{dhfrs.09}")
d) Concretamente, los estimadores máximo verosímiles poseen varianzas asintóticas iguales a los
elementos de la diagonal principal de la inversa de la matriz de información y por lo tanto coin
ciden con los límites inferiores de Cramer-Rao. En los casos de muestras finitas, tomamos como
estimaciones de las varianzas asintóticas a los elementos de la diagonal principal de la matriz:
a2L 8?L
8L
e) Una propiedad muy importante que aumenta la facilidad de obtener estimadores máximo
verosímiles, es la propiedad de Invarianza. Esta puede describirse de la manera siguiente:
Si Mv es un estimador MV del parámetro y T es una transformación biunívoca, entonces
T(@Mv) es el estimador máximo verosímil de T(0). Podemos ilustrar esta propiedad con el sigu
iente diagrama:
MV
T(O)
Ejemplos desarrollados sobre Máxima Verosimilitud

1) Supongamos que X es una variable aleatoria Bernouilli que toma el valor 1 con probabilidad
y el valor 0 con probabilidad 1- 7, es decir:
X~p(z) = -)* * para z = 0,1

en c . . c .
Esto significa que la distribución poblacional se puede caracterizar mediante el parámetro mque se
puede considerar como la proporción de elementos de la población que cumplen un cierto atributo
A(definido como el "éxito"). Nuestro objetivo es obtener el estimador máximo verosímil de .
Supongamos tener una muestra aleatoria compuesta por las 3 observaciones siguientes (1, 1, 0). A
partir de la descripción de población, resulta evidente que T no puede ser menor que 0 ni mayor
que 1 (de contrario la población no sería dicotómica).
Con el fin de obtener la población que generaría con mayor frecuencia la muestra (1,1, 0), podemos
considerar varios valores de comprendidos entre 0 y 1, y calcular la probabilidad de obtener la
muestra en cuestión correspondiente a estos valores. Comenzando con T =0, vemos que en la
población no hay aciertos y por lo tanto sería imposible que se observasen dos valores "1", luego
la probabilidad buscada es 0.
Consideremos ahora el valor = la probabilidad de obtener un "0" es por lo que la
probabilidad de obtener la muestra en cuestión es:
1 1 9 9
p(1, 1,0) = p(1).p(1)-p(0) = 0100 1000
dado que las observaciones muestrales son independientes.

Calculando de manera análoga esta probabilidad, para otros valores de , se obtiene la siguiente
tabla:
-EislFlesllll|
7 p(1, 1, 0)
10 0.009
0.032
0.063
0.096
10 0.125
6 0.144
0.147
0.128
1 0.081
)
La función p(1,1, 0, r) es la función de verosimilitud de la muestra (1,1,0). Para efectuar los

cálculos, se ha seleccionado un conjunto de valores del parámetro mque varían en intervalos de
pero podríamos haber elegido intervalos más pequeños dado que la función de verosimilitud es
continua. Representando esta función en un sistema de ejes cartesianos, obtenemos:
f(1, 1,0)
0.15 -
0.10
0.05.
TMV
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.10
Mediante la observación de la misma, se obtiene que la función de verosimilitud de esta muestra

se maximiza cuando 0.7.
Es decir que una población Bernouilli con parámetro T 0.7 generaría muestras de la forma
(1,1,0) con mayor frecuencia que cualquier otra con distinto valor de .
Generalizando estas consideraciones, supongamos que ahora extraemos una muestra aleatoria par
ticular de tamaño n, (31, T2, ., zn); para encontrar el MV Construímos la función L:
L = L(e1, d2, .., 2n, r) = p(z1, m).p(*2, m).p(En, m)
= [(1-)i-*].(1 - )l-*,n*]....(1)l-,
= (1-r)-D*-Z*,
Esta resulta complicada para derivar, por ello calculamos el logaritno natural de la misma
obteniendo la expresión:
n n
C=inl= (n-:) In(1 -r) +(n r)

20 CAPITULO 12. TEORÍA DE LAESTIMACIÓN
en la que el único parámetro desconocido que aparece es T.

Derivando L con respecto a T obtenemos:
d
-(-)y.
Si igualamos esta expresión a cero y despejamos T se consigue:
1=1
T= <0
dr?
l(C)/n
por lo que tiene sentido proponer como estimador máximo verosímil de a fv=
Dado que la suma X; es el número de éxitos y n el número de observaciones de la muestra,
el estimador MV obtenido es simplemente la proporción de éxitos en la muestra o proporción
muestral.
En el caso específico de la muestra (1, 1, 0), la estimación máximo verosímil de es My=0.7.
Para este ejemplo, el estimador obtenido es insesgado y consistente. (Ejercicio para el lector).
2) Se sabe que cierta proporción fija p de detonantes, es defectuosa. De un gran embarque, se
eligen al azar n artículos y se prueban. Definimos las variables aleatorias siguientes:
X;: "1si el i-ésimo detonante es defectuoso y 0 en otro caso"
Nuestra muestra particular (z1, 2, ..., In) es entonces una muestra de una distribución de tipo
Bernouilli, con lo cual:
L= L(z1,z2, .., Znip) =p.(1- p)n=k
donde k=L i=1
es el número de detonantes defectuosos en total presentes en la muestra. Luego:
dC
C=klnp +(n- k) ln(1 -p) A n-k
dp p 1-p
Si k = 0 ó k = n, encontramos directamente, al considerar la expresión de L, que el valor máximo
de ella se obtiene con p = 0 yp= 1respectivamente.
Para k 0, n la solución de la ecuación anterior es P= con lo que, al igual que en el caso anterior,
n
el estimador máximo verosímil de p es PMV= E

3) Supongamos tener ahora una población con la distribución normal siguiente: X ~ N(4, 1),es
decir
f(e,p, 1) = Vz,uE R
Si (z1,22, .., z,) es una muestra aleatoria particular de X, la función de verosimilitud de la

muestra es:
Por lo tanto:
L= L(1, Z2, ., Ini)
-(4)'a-o
dC
InL=l=-In(2r)-e;
il
- )² A du Dei-) i=1
dC
Luego, resolviendo la ecuación
du
= 0,obtenemos que el estimador máximo verosímil para u
es la media muestral: MV= X. De nuevo hemos conseguido un estimador insesgado y consistente.
4) Supongamos que el tiempo T para fallar, que tiene un componente en un sistema, tiene una
distribución exponencial con parámetro . La distribución de T es entonces:
r) = Be-pt si t > 0
en c.o.c.
Se prueban n de tales componentes, obteniendo los tiempos de falla (t1, t2,..., tn), cuál será el
estimador MV para E(T) = , el tiempo medio de vida útil de los componentes?.
La función de verosimilitud para esta muestra es:
i=1
y entonces:
n
dC
In L= C=nln() - B);
i=1 i=1
dC
y resolviendo la ecuación = 0obtenemos que el estimador máximo verosímil para ß es:
dp
BMy= donde T es el promedio de los tiempos de fallas muestrales. Puesto que el tiempo medio
de falla (o tiempo medio de vida útil) es E(T) = , usando la propiedad de invarianza de los
A
estimadores MV, se encuentra que el estimador MV de él es: ()=T 3
Comentario:
Generalmente no es fácil encontrar la distribución de probabilidades de los estimadores MV, en
particular si el tamaño de la muestra es pequeño. Puede demostrarse que, para el ejemplo particular
que acabamos de tratar: 2n8T ~ xn Luego, la probabiliad que el tiempo medio de vida útil no
supere cierto valor t, P(T<t) = P(2nßT < 2nßt) puede leerse directamente de las tablas de la
distribución acumulativa de x, si n, Byt son conocidos.
5) Hasta ahora se han considerado situaciones en las cuales pudimos encontrar el valor máximo de
L al derivar simplemente Ló C con respecto a un parámetro y hacer esta derivada igual a cero.
Que esto no es siempre factible de hacer se muestra en el siguiente ejemplo:
Supongamos que la variable aleatoria X está distribuída uniformemente en el intervalo (0, 0) con
0 desconocido. Entonces, la variable X está caracterizada por:
si 0 < <0
en c.o. C.
Deseamos encontrar el estimador máximo verosímil de la varianza poblacional o = . Encon

traremos primero el 8Mv, para esto se selecciona una muestra de tamaño n y formamos la función
L de ella:
dL
L= L(, Z2, .., En;0)
9-()
-ng-n-1
Si planteamos la ecuación da 0, vemos que no es posible determinar los posibles pun
tos críticOs. Pero una simple inspección de L muestra que debe cumplirse > zi, i= 1,2, .., n,
a fin que L sea no nula; esto es equivalente a pedir que > max (z1, z2, .., In).
Luego, si dibujamos la función L versus se obtiene el siguiente gráfico:
3Hemos usado la transformación biunívoca T() = 1/z
0 max(z1,T2, .., In)
Es evidente que el valor de que maximiza L es el máximo de la muestra ya que:

n
1
max(z1, 2, .., In) )
por lo tanto se propone como estimador MV de a:
OMV= max (X1, X2, .., Xn)
Veamos ahora este estimador no es insesgado; primero tengamos en cuenta que la función de
densidad de @MY es g(@Mv) = n F(@Mv)- f(êMv), donde F es la función de distribución
acumulativa de X (Ejercicio para el lector). Con esto podemos escribir:
atêMv) =n para
Y por lo tanto la esperanza de Mv es:

An-1 An+1
nOMV-doMV = n OMV
Jo gn (n +1).lo -()
Entonces My es un estimar sesgado de &, tiende a subestimar dicho valor. Sin embargo este
estimador es asintóticamente insesgado ya que:
Por otro lado, podemos estudiar la evolución de su varianza al aumentar el tamaño muestral:
An+2
2 n oMV n OMV
dOMV =n(n +2)|
y en consecuencia su varianza es:
y en consecuencia, lim,-o Var (ÖMv) = 0, por lo que el estimador es consistente.

Luego, redefiniendo nuestro estimador para que sea insesgado nos queda:
duv- (+) |max (X1,X2,.., X)

y también verifica que su varianza tiende a cero cuando incrementamos el tamaño muestral, por
lo que resulta consistente.
Mediante la aplicación de la propiedad de invarianza, usando la transformación biunívoca T(z) =
z'/12, el estimador MV para la varianza de la población es entonces:
max(X1, Xa,. X)
12 12
6) Consideremos ahora un ejemplo en el cual hay dos parámetros poblacionales que son descono
cidos. Supongamos que X tiene una distribución normal N(4, o), esto es:
1
f(z,4,=
o) ) ,vz,uE R, oERt
y entonces la función de verosimilitud para una muestra (z1l, I2, .., Zn) fija de esta distribución
es:
Por lo tanto:
In L= C=
Aplicando las condiciones de primer orden para la existencia de extremo, obtenemos el siguiente
sistema de ecuaciones normales:
n
VC=
)-(). +))= (0.0)
La resolución del mismo nos permite obtener los siguientes estimadores MV para la media y
varianza poblacionales respectivamente:
PMV=X A o'Mv= i1
n
En este caso, obtenemos un estimador insesgado para la media poblacional y uno sesgado para
la varianza poblacional, éste último puede volverse insesgado multiplicando por la constante n-1)
segn lo estudiado previamente.
En este tipo de distribuciones, podemos no sólo obtener los estimadores MV de los parámetros
característicos, sino también los límites inferiores de Cramer-Rao para las varianzas de los esti
madores insesgados de los parámetros. Estos límites pueden obtenerse mediante la fórmula de la
matriz de información presentada anteriormente, que en este caso adopta la forma:
8L
-E -E
0
-
2
n
0 264
8'L 2g4
24 CAPITULO 12. TEORÍA DE LAESTIMACIÓN
Ellímite inferior de Crarmer-Rao para un estimador insesgado de la media poblacional normal

viene dado por el elemento "1,1" de la matriz de información y en este caso es , como ya
habíamOs obtenido anteriormente.
7) En el caso 4) consideramos el problema de estimar el parámetro B en una ley exponencial de
fallas al probar n artículos y anotar sus tiempos de falla (t1, t2, .., tn). Otro método podría ser el
siguiente: supongamos que sacamos n artículos, los probamos y después que ha transcurrido cierto
tiempo To, contamos el número de artículos que hay fallado. Nuestra muestra particular consiste
entonces en (T1,T2, ..., Tn) donde z; =lsi el i-ésimo artículo ha fallado en el período especificado
y z; = 0 de otro modo.
Luego, la función de verosimilitud de la muestra es:
L= L(e1,z2, ., ni P) =p(1-p)"-* con k= : i=1
en ella, k representa el número de artículos que han fallado yp la probabilidad de falla de un

artículo.
Vemos que ahorap es una función del parámetro que estamos estimando:
p= P(T< T) = 1- e-BTo
En el ejemplo 2) hemos encontrado que el estimador MV dep es p= k/n, y aplicando la propied ad

de invarianza (puesto que p es una función creciente de ) obtenemos el estimador MV para B:
y con él, volviendo a aplicar invarianza, el estimador MV de promedio del tiempo de falla: :
-To
8) En todos los ejemplos presentados hasta ahora, el método MV nos brinda ecuaciones que son
relativamente sencillas de resolver. No suceso lo mismo en muchos de los casos de estudio y a
menudo debemos recurrir a métodos númericos de aproximación. Tal es el caso de la distribución
Gamma, la que tiene importantes aplicaciones para probar duraciones. Supongamos por ejemplo,
que el tiempo para fallar de un generador eléctrico tiene una duración X cuya distribución viene
dada por:
A'z-le-Àr
para z >0, r> 0, A >0
T()
en c.O.C
Donde r yA son dos parámetros desconocidos a estimar.

Supongamos que se han probado n generadores y anotado sus tiempos de fallar, obteniendo
(z1, T2, .., z). La función de verosimilitud para la misma es entonces:
n
r-1
Erp
i=l
L= L(1, T2, .., 2n; r, A) = con z >0
y
n
c= nrInà +(r-1)In z;- i=l i=l

a-nlnT(r)
12.3. EJERCICIOS ADICIONALES SOBRE ESTIMACIÓN PUNTUAL 25
y luego de resolver el sistema de ecuaciones normales VC = (0,0) se obtienen las expresiones

siguientes:
Inr r'o) =ln-2Inz n n
r(r) i=li=1
TMV
es evidente que debemos resolver la ecuación anterior para r, obtener fMV y luego AMv=
Afortunadamente, la función r' (r)/r() ha sido tabulada y esto nos soluciona el problema. Por
otro lado, un método muy rápido para obtener las soluciones pedidas está expuesto en [2).
12.3 Ejercicios adicionales sobre Estimación Puntual

o Ejercicio 1
Supongamos que (X1, X2, .., Xn) constituye una muestra aleatoria de una distribución
erponencial con función de densidad dada por:
para z >0,0 > 0
0 en c.0.C
Consideremos los siguientes estimadores para la esperanza poblacional 0 (éste es el parámetro

objetivo a estimar):
)6,= X1 ii) 3= Xt2Xa
iv) ,=X1+X2+..t ) o;=X
n-1
a) Cuáles de estos estimadores son insesgados ?.

b) Entre los que sean insesgados, determinar el de varianza menor, esto es, el que tiene mayor
eficiencia relativa.
o Ejercicio 2
Supongamos que (X1, X2, .., X,) constituye una muestra aleatoria de una distribución
erponencial con función de densidad dada por:
f(z) = +1 para z>0,60> -1

0 en c.o.C
Encontrar una estadística adecuada para ser utilizada como un estimador insesgado de 8. Luego,
halle su varianza. (Sugerencia: utilizar la media muestral X.)
o Ejercicio 3
El número de fallas por semana para cierto tipo de minicomputadora es una variable aleatoria X
con una distribución de Poisson con media A. Se dispone de una muestra aleatoria
(X1, X2,..., Xn) de las observaciones con respecto al número de fallas semanales.
a) Sugerir un estimador insesgado para A.
b) Si el costo semanal para reparar estas fallas es C= 3X + X', demostrar que E(C) = 4d + A².
c) Encontrar una función de X1, X2, .., Xn que sea un estimador insesgado de E(C).
o Ejercicio 4
La lectura de un voltímetro conectado a un circuito de prueba tiene una distribución uniforme en
el intervalo (0,0 + 1), en donde 0 es el verdadero pero desconocido voltaje del circuito.
Supongamos que (X1, X2, .., Xn) es una muestra aleatoria de tales lecturas.
a) Demostrar que X es un estimador sesgado de y calcular su sesgo.
b) Encontrar una función de la media muestral X que sea un estimador insesgado de .
c) Analizar la suficiencia del estimador hallado en b).
o Ejercicio 5
Supongamos que tenemos dos estimadores insesgados de un mismo parámetro , 01 y O2 con

varianzas Var(®1) = ofy Var(9:) = o. Definimos un nuevo estimador insesgado como:
Qué valor deberá tomar la constante a para hacer mínima la varianza de 3?.
o Ejercicio 6
Suponer que X tiene una distribución binomial con los parámetros n yp:
a) demostrar que es un estimador insesgado de p.
b) para estimar la varianza de X, o, utilizamos en general n(1- ); demostrar que este
estimador es sesgado para os.
c) Modificar levemente al estimador del item anterior para obtener un estimador insesgado de o.
o Ejercicio 7
Sea (X1, X2, , Xn) una muestra aleatoria proveniente de una población con distribución f(z),
E(X) = u<oy Var(X) =o² < o.
a) Demostrar que S*?=Di(Xi-X? es un estimador sesgado para o².
b) Demostrar que S=i=(Xi- X)' es un estimador insesgado para o'. c) Repetir las
demostraciones de los ítems a) y b) pero suponiendo que X ~ N(4, o²). (Sugerencia: utilizar
propiedades de la distribución x).
o Ejercicio 8
Sea (X1, X2, .., X) una muestra aleatoria de la distribución uniforme en el intervalo (0,0). Dos
estimadores insesgados para la media poblacional son:
i),=X ii) @2=(tl) Már{X,X2, .., Xn)
Se pide hallar la eficiencia relativa de 1 con respecto a 2.
o Ejercicio 9
Se pide resolver las cuestiones planteadas en el ejercicio anterior pero ahora considerando que la
población en estudio tiene una distribución uniforme en el intervalo (0, 0) v que se proponen
como estimadores para la media poblacional a:
i) ß2(tl) Mín{X1, X2, .., Xn}
o Ejercicio 10
a) Sea (X1, X2, .. Xn) una muestra aleatoria de una distribución con media u y varianza
G? <oo. Demostrar que la media muestral Xes un estimador consistente de u.
b) Analizar la consistencia de los estimadores 8; propuestos en el Ejercicio 1.
c) Si X tiene una distribución binomial para n pruebas y probabilidad de érito p, demostrar que
X es un estimador consistente de p.
" Ejercicio 11
Sea (X1, X2, .., Xn) una muestra aleatoria de una población con distribución:
te) = 8z-1 para 1 < z <0,0> 0

0 en C.0.C
Demostrar que X es un estimador consistente de 8+1 . Es suficiente?.

o Ejercicio 12
a) En el ejemplo 12 de la sección 12.2.1, se analizó la eficiencia relativa de la mediana muestral

Me(X1, X2, .., Xn) como estimador de la media poblacional u frente a la media muestral X.
Justificar que este estimador no es consistente.
b) En el ejemplo 4 de la sección 12.2.1, se demostró que, para una muestra aleatoria
(X1, X2,.., Xn) de una distribución N(æ, 4, o?) con E(X) = p< o y Var(X) = o²< o, el
estimador:
n
nlr(3)
r(3) n-1
es insesgado con respecto al desvío estándar poblacional o. Se pide ahora analizar sieste
estimador es consistente.
o Ejercicio 13
Sean (X1, X2,..., Xrn) e (Yi, Y2, ., Y,) muestras aleatorias independientes de poblaciones Con
medias 1 y P2, y varianzas oi y o respectivamente:
a) demostrar que X-Y es un estimador consistente de 1-#2.
b)si las poblaciones están distribuídas normalmente con o = o; = o', demostrar que:
G)--)
es un estimador consistente de o'.
o Ejercicio 14
Supongamos que (X1, X2,...,X)es una muestra aleatoria de una distribución Poisson con media
a) Determinar el estimador de márima verosimilitud AMy para A.
b) Obtener el valor esperado y la varianza de AMv.
c) Demostrar que el estimador antes mencionado es consistente para A. Es suficiente?.
o Ejercicio 15
Supongamos que (Xj, X2, ..., Xn) es una muestra aleatoria de la distribución dada por:
para z>0,0 > 0
en c.0.C
donde r es una constante positiva conocida.

a) Obtener el estimador márimo-verosímil para 0.
b) Analizar sus propiedades: estimador insesgado, consistencia, suficiencia.
o Ejercicio 16
A partir de una población normal, se ertrajo una muestra aleatoria de tamaño 20 indicada por:
0.464 0.137 2.455 -0.323
0.060 -2.526 -0.531 -0. 194
1.468 -0.354 -0.634 0.697
1.022 -0.472 1.279 3.521
1.394 -0.555 0.046 0.321
Representar gráficamente la función de verosimilitud de la media poblacional y la estimación

MV de ella. Esta estimación no depende de la varianza o² y por lo tanto podemos tomar un valor
particular de la misma como por ejemplo, la unidad, y efectuar la representación gráfica pedida.
o Ejercicio 17
a) Sea (X1; X2, ..., Xn) es una muestra aleatoria de una distribución normal con media uy
varianza o'. Obtener los estimadores de márima verosimilitud de estos parámetros y analizar sus
propiedades.
b) Los datos de la siguiente tabla corresponden a una muestra aleatoria de la distribución del
espesor (en pulgadas) de la madera en los postes telefónicos de una determinada ciudad:
Espesor 1.0 1.3 1.6 1.9 2.2 2.5 2.8 3.1 | 34 3.7 4.0 4.3 4.6 4.9
Frecuencia 2 29 62 106 153 | 186 193 | 188 151 113 82 48 27 14
Supongamos que la variable aleatoria en cuestión tiene distribución normal, obtener usando el
item a) las estimaciones MV de la media y varianza poblacionales.
o Ejercicio 18
Una variable aleatoria X tiene distribución N(4, 1). Se toman 20 observaciones de X, pero en
vez de anotar su valor observamos sólo X es negativa o no. Supongamos que el suceso {X < 0}
ocurrió ezactamente 14 veces, utilizar esta información para obtener la estimación MV de u.
o Ejercicio 19
Cierto tipo de componente electrónico tiene una duación X (en horas) con función de densidad
dada por:
para z > 0, 0>0
en c.O.C
Es decir, X tiene una distribución gamma con parámetros a =2 y B=0. Sea MV el estimador
de márima verosimilitud de 8. Supongamos que 3 de tales componentes, al probarlos de manera
independiente, presentan duración de 120, 130 y 128 horas:
a) Obtener la estimación de márima verosimilitud de e.
6) Determinar E(@Mv) yVar(owv). Bs ÔMv suficiente?.
o Ejercicio 20
Supongamos que T, el tiempo de falla (en hs.) de un instrumento alectrónico tiene la distribución
siguiente:
Be-P(t-to) parat> to, B>0
f(-) =0 en c.o.c
Se toma una muestra aleatoria de n de tales artículos y se miden los tiempos de fallar
(T1,T2, .., T).
a) Si to es conocido, obtener el estimador MV de B.
b) Si to es desconocido, pero es conocido, obtener el estimador MV de to. Es suficiente?.
o Ejercicio 21
Considerar la misma ley de fallas del problema anterior. Esta vez se prueban N articulos durante
To horas (To > to)) y se anota el número k de artículos que fallan. Responder a lacuestión el
inciso a) del Ejercicio anterior.
o Ejercicio 22
a) Se efectúa un proceso hasta que un suceso A ocurre por primera vez. En cada repetición
P(A)= p. Se supone que son necesarias nË repeticiones. Luego se repite el erperimento y esta
vez son necesarias 2 Tepeticiones para producir el suceso A. Si se hace esto k veces obtenemos la
muestra (n1,n2, .., ng). Basándose en esta muestra, obtener el estimador MV de p.
b) Supongamos que k es muy grande. Encontrar el valor aprozimado de E(@Mv) yde Var(@Mv)
para el estimador MV hallado en a)
o Ejercicio 23
Supongamos que una fuente radioactiva emite partículas a con una distribución de Poisson
Po(A). Es decir, si X es el número de partículas emetidas durante un intervalo de t minutos, se
tiene que P(X = k) = e-A(At)* /k!.
En vez de anotar el número real de partículas emitidas, supongamos que se obserua el número de
veces que no fué emitida ninguna partícula. Especificamente, que se observan durante 50
minutos, 30 fuentes radioactivas que tienen la misma potencia y que en 25 casos al menos una
particula fué emitida. Obtener la estimación MV de esta información.
o Ejercicio 24
Suponiendo que X tiene una distribución Gamma con parámetro r conocido, es decir:
Az-le-Ar
para z >0, r> 0, A> 0
T(r)
en c.o.C
Obtener el estimador MV de A basado en una muestra aleatorio de tamaño n de dicha

distribución. Es un estimador suficiente?, consistente?.
o Ejercicio 25
Considerar que X tiene una distribución de Weibull con densidad dada por:
f(a)=a)ze-le-los
para z >0, a> 0, A>0
en c.O.C
Suponiendo que es conocido, encontrar el estimador MVde a basado en una muestra aleatoria
de tamaño n de dicha distribución. Es un estimador suficiente?, consistente?.
o Ejercicio 26
Para una población con distribución erponencial, correspondiente a la vida útil de tubos al vacío,
se define la confiabilidad de un tubo en el tiempo to como:
R(to) = P(X > to) = e-to/8
a) Hallar R(to) Mv.

b) Estudiar las propiedades que el estimador hallado en a) posee.
o Ejercicio 27
Se supone que el tiempo de falla T, de un transistor tiene una distribución de Weibull. La
confiabilidad de un transistor al tiempo to se define como:
R(to) = P(T > to) =e-toß/n
a) Determinar el estimador MV.

6) Estudiar cuáles de las siguientes propiedades cunple el estimador hallado en a): insesgado,
consistente, suficiente.
o Ejercicio 28
Sea (X1, X2, ..., Xn) es una muestra aleatoria de una distribución uniforme con función de
densidad dada por:
para 0<r< 28+1
fe) =0+1i en c.o.C
Obtener el estimador de márima verosimilitud de y estudiar sus propiedades.

o Ejercicio 29
Sea (X1,X2,.., Xn) es una muestra aleatoria de una distribución uniforme con función de
densidad dada por:
f(z) = 20 para -9<<0

0 en c.o.c
Obtener el estimador de márima verosimilitud de y estudiar sus propiedades.

o Ejercicio 30
Sea (X1,X2, ..., X) es una muestra aleatoria de una distribución uniforme en el intervalo
(0, 0+ 1). Se consideran los dos siguientes estimadores de :
ô1=X-A 82= max(X1,.., Xn) n+1
Probar que ambos son estimadores insesgados y determinar cuál es el más eficiente relativamente.
o Ejercicio 31
Sea (X1,X2,..., X) una muestra aleatoria de una distribución normal N(4,o). Se sabe que los
siguientes son estimadores insesgados de o²:
n
i=1
A
n-1
Determinar cuál de los dos es más eficiente relativamente.

o Ejercicio 32
Sea (Xi,X2, .., X) una muestra aleatoria de una distribución f(z, 0), con 8 desconocido. Si @es
un estimador insesgado de , entonces, bajo ciertas condiciones muy generales se verifica:
1
Var(0) > a In f(z)]
nE
Esta es la llamada "desigualdad de Cramer-Rao". Si Var(@) = I0) el estimador se llama

eficiente.
a) Si f(z) es una distribución normal con mediauy varianza o², demostrar que X es un
estimador suficiente para u.
b) TambiÃn es válida esta desigualdad para distribuciones discretas. Justificar que la media
muestral es un estimador suficiente para el parámetro A de una distribución Poisson.
o Ejercicio 33
Supongamos que (X1, X2, ..., Xn) constituye una muestra aleatoria de una distribución
ezponencial con función de densidad dada por:
1
-e-E/(8-) para > 0,0> 1
en c.o.c
a) Demostrar que el estimador MV de la varianza poblacional o² es X.

b) Demostrar que el estimador hallado en a) no es insesgado. Es asintóticamente insesgado ?.
o Ejercicio 34
Se quiere estimar la media poblacional u de una distribución que tiene varianza a² < 0. Se
tomó la muestra (X1, X2, .., Xr) de dicha distribución:
a) Proponer un estimador insesgado pero no consistente (sugerencia: considerar la mediana
muestral Me.
b) Definir otro estimador que no sea insesgado pero sí consistente.
c) Cuál de ellos elegiría como el mejor?.
o Ejercicio 35
Se elige la muestra (X1, X2, .., X) de la distribución:
=u-p)-*
p2) para z =0,1, 0<p<1
en c.o.c
a) Obtener el estimador márimo verosímil de p.

b) Analizar sus propiedades: insesgado, consistente, suficiente.
c) El estimador hallado en a) es insesgado para la media poblacional?.
o Ejercicio 36
Se quiere estimar la media poblacional u de una distribución que tiene varianza ¡' < 0. Se elige
la muestra (X1, X2, ..., X) de dicha distribución y se proponen los siguientes estimadores:
X1 + nXn X1 + X2
) ¤= n +1 2 i) =n-3
n-1
4 2(n 2) 4
a) Cuáles de estos estimadores son insesgados?.

b) Cuáles de ellos son consistentes?.
c) Entre los que sean insesgados, determinar el de varianza menor, esto es, el que tiene mayor
eficiencia relativa.
o Ejercicio 37
Para la distribución:
fe)=a(l
0
- e)* para z EN,0<a<l
en c.o.C
a) Determinar el estimador MV de la varianza poblacional o'.

b) Analizar sus propiedades: insesgado, consistente, suficiente.
o Ejercicio 38
Apartir de una muestra aleatoria (X1, X2, ..., Xn) de la distribución:
2
para 0 < <a
en c.o.c
a) Proponer un estimador insesgado para a

b) Estudiar sus propiedades: insesgado, suficiente, consistente.
c) Determinar el estimador MV de a.
d) Estudiar las propiedades del estimador hallado en c)
o Ejercicio 39
Supongamos tener dos distribuciones identificadas comno XË ~ N(41, o) y X, ~ N(u2, o),
con oi y ¡z desconocidas.
a) Demostrar que si 1 y 2 son dos estimadores insesgados e independientes de un parámetro ,
y además lim,-+oo Var(01) = limhtoo Var(o;) = 0, entonces a. 8, +(1- a). o2, (a e R) es un
estimador consistente de 0.
2) Volviendo a nuestro planteo original, deseamos estimar las respectivas varianzas desconocidas
y para ello, ertraemos sendas muestras independientes (X11, X12, ..Xin) y (X21, X22, ...X2n) y
proponemos los siguientes estimadores:
i=1 A S= i l
LXx- X)
S = n-1 n-1
Demostrar que éstos son consistentes para o y a, respectivamente.

c) Si agregamos el supuesto que of= o~= o², probar empleando los resultados de los puntos a) y
b), que el estimador:
A (n-1)S + (n - 1)S;
2(n - 1)
es consistente para g2
12.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 33
12.4 Estimación por Intervalos de Confianza

El proceso de estimación puntual que acabamos de estudiar, carece de valor si no se tiene una idea
de la magnitud del error de estimación cometido.
Afortunadamente contamos con otro procedimiento de estimación paranétrica en el que podemos
acotar superiormente la probabilidad del mencionado error. Lo ideal sería que la probabilidad de
cometer un error al estimar fuese nula, pero esto es imposible debido a los factores aleatorios del
experimento que no podemos controlar.
La estimación por intervalos de confianza consiste en determinar un intervalo aleatorio (a, b),
cuyos límites son variables aleatorias, funciones (en general) de un buen estimador puntual del
parámetro a estimar. Este intervalo debe contener al parámetro en cuestión con una probabilidad
1- a, donde a es un número tan pequeño como sea posible.
Entonces, si es un buen estimador puntual del parámetro , dadoa (0 <a< 1), se desea obtener
a= a(0) y b= b(0), Ilamados límite inferior y límite superior del intervalo respectivamente, tales
que:
P(a0) <0 <ô) =1-.

Elvalor l ase llama nivel de confiabilidad, a se denomima nivel de significancia o
riesgo, y b(0) a(0) es la amplitud del intervalo.
La precisión de la estimación viene dada por la amplitud del intervalo.
El hecho de trabajar con una confiabilidad del (1-a).100% significa que de cada 100 intervalos que
construyamos (cada uno de ellos con una muestra particular de la misma población) (1- ).100
de ellos contendrán al parámetro en cuestión y el resto, no. Esta situación se puede representar
mediante el siguiente esquema, suponiendo un nivel de confiabilidad del 95%:
Una vez tomada una muestra particular (z1,T2, .., an), obtendremos un intervalo particular al
que denotaremos (ap, bp), donde a, = a(z, Z2, .., za) y b, = b(z1, I2, .., Zn). En esta situación,
la probabilidad P(a, << b,) puede tomar sólo dos valores: 1 si el intervalo contiene al
parámetro, y 0 si no lo contiene. Lo que no podemos especificar es cuáles de ellos contienen a 0 y
cuáles no.
En nuestro estudio, construiremos intervalos de confianza para estimar distintos parámetros, por
ejermplo: la media poblacional , la diferencia de las medias poblacionales 1-2 de dos poblaciones
de interés, la proporción p de elementos de una población dicotómica que cumplen una caracteristica
en particular, la varianza poblacional ² y el desvío estándar poblacional o.
Intervalos de confianza para la media poblacional

Distinguiremos varios casos de acuerdo a los elementos con que contemos en la hipótesis del prob
lerma.
" l9 Caso: X ~ N(4, o), o es conocida yel tamaño muestral es cualquier n¬N.
Tomada una muestra aleatoria (X1, X2,.., Xn) de la población, elegimos como estimador pun
tual de = a la media muestral X de la que ya sabemos que cumnple con buenas propiedades
como estimador.
Fijado un nivel de riesgo a, debemos hallar los límites del intervalo a = a(X) y b= b(X) tales que:
P(a(X) <p< o(X)) =l-a
Como la distribución es normal, entonces se tiene que:
X-#
~N(0,1)
Para determinar los límites buscados, usamos esta distribución dibujando situación en el
siguiente par de gráficos:
49()
1-&
1-a
Con ellos, podemos escribir:
P(e <X< d)=P(<=1-a Vn
en la cual cyd son valores de Xsimétricos con respecto a u que garantizan la probabilidad en
cuestión.
En esta expresión, = , es decir, el percentil de la distribución normal que deja a su derecha
C
un área ;y por simetría se tiene que = -Zg.
Luego:
r()-i-.
y entonces, el intervalo buscado con las formas específicas de las variables a y b satisface:
PX- <<X+ zg =l-o
a=a(X) b=b(X)
" 2o Caso: X ~ f(u, o') (no necesariamente normal), o es conocida y el tamano muestral es
grande (n’ oo).
Tomada una muestra aleatoria (X1, X2, ., Xn) de la población, elegimos como estimador puntual
de = a la media muestral X.
Fijado un nivel de riesgo a, debemos hallar los límites del intervalo a= a(X) yb= b(X) tales que:
P(a(X)<p<b(X)) =1-a
Como el tamaño de la muestra es grande, entonces en virtud del Teorema Central del Límite, se
tiene que:
X-p ~ AN(0, 1)
Para determinar los límites buscados, usamos esta distribución asintótica dibujando la situación
en un par de gráficos análogos al caso anterior y trabajando de igual modo se obtiene el intervalo
de confianza que satisface la siguiente ecuación probabilística:
PX -zg<#<X+z =l-a
a=a(X) b=b(X)
" 39 Caso: X ~ N(u,o), o² es desconocida y el tamaño muestral n EN es pequeño.
Primero necesitamos estudiar el siguiente:
Teorema 6
Si (X1, X2, .., Xn) es una muestra aleatoria de una distribución N(p, o), entonces la variable
aleatoria:
W= X-p
St(n-1)
donde S es el desvío estándar muestral definido por:

n
L(X-X)?
S=1| n-1
Demostración:
En primer lugar, sabemos que:
según lo dermostrado anteriormente.

Luego, la variable W puede ser reescrita como:
X-p X-p ~N(0,1)
S t(n-1)
S Vn
n-l
wia-y/(a-1)
Con lo cual la demostración queda completada ya que W se puede escribir como un cociente entre
dos variables independientes, una normal estándar y la raíz cuadrada de una chi-cuadrado dividida
por sus grados de libertad (recordar la definición de la variable t).
Tomada una muestra aleatoria (X1, X2, .., X,) de la población, elegimos como estimador puntual
de = u a la media muestral X de la que ya sabemos que cumple con buenas propiedades como
estimador.
P(a(X)<p< bX)) =1-a
Como la distribución es normal, entonces se tiene que:
X-p
S(n-1)
Para determinar los límites buscados, usamos esta distribución dibujando la situación en el
49(7)
|1- a
X
C
|1-a
t
-t(n-1), = SVa tin-1). = S
)
P(e<X<)P
= X-d-u
S
=1-a
12.4. ESTIMACIÎN POR INTERVALOS DE CONFIANZA 37
en la cual c y d son valores de X simétricos con respecto a u que garantizan la probabilidad en

cuestión.
d-p
En esta expresión, =tg.(n-1), es decir, el percentil de la distribución t de Student que deja
a su derecha un área ; y por simetría se tiene que =-t (n-1):
Luego:
p
-tg.(n-1)
<<n-i) =1-a
PX-t.(n-1)Jn <<X+t(n-1)
a=a(X) b=b(X)
=l-a
" 40 Caso: X ~ f4, o?) (no necesariamente normal), o² es desconocida (finita) y el tamaño
muestral es grande (n’ oo).
Enunciaremos previamente el siguiente:
Teorema 7
Si la variable aleatoria Y, tiene una distribución que converge a distribución normal cuando
n’o, y W, converge en probabilidad al valor 1, entonces la función de distribución del cociente
Y,/W, converge también a la distribución normal estándar cuando n’ o. (Sin demostración)
Nosotros emplearemos este teorema para estudiar el comportamiento asintótico del cociente
Cuando n ’ o.
Habíamos demostradoantes que el estimador S converge en probabilidad ao', luego si (X1, X2,..., Xn)
es una muestra aleatoria de una distribución cualquiera f(u, o) (varianza finita); entonces se tiene
que, en virtud del Teorema Central del Límite y, de la aplicación de los ítems c) y d) del Teorema
4, respectivamente:
S
Y, = X-AN(0, 1) W, = converge en probabilidad a 1
Por lo tanto, el Teorema recién enunciado garantiza que:
X-p ~AN(0, 1)
S
Tomada una muestra aleatoria (X1, X2, .., X,) de la población, elegimos como estimador pun
tual de B= a la media muestral X de la que ya sabemos que cumple con buenas propiedades
como estimador.
P(a(X) <p< o(X)) =1-a

Como el tamaño de la muestra es grande, entonces en virtud de lo estudiado previamente, se tiene
que, para determinar los límites buscados, debemos usar la distribución asintótica normal estándar.
Dibujamos la situación en un par de gráficos análogos al caso 1 y trabajando de igual modo se

obtiene el intervalo de confianza que satisface la siguiente ecuación probabilística:
P < =1-«
S
=1-a
a=a(X) b=b(X))
* Ejemplo 15
Elsa es dueña de un almacén y desea estimar el peso promedio de los paquetes de azúcar de 1Kg que
ella misma pesa y embolsa. Ellatiene conocimiento de que esta variable tiene distribución normal
con varianza o² en Kg). Para realizar tal estimación procede a pesar y embolsar n paquetes
de azúcar obteniendo una media muestral X = 1.06. Con un nivel de confiabilidad del 95%, qué
intervalo de confianza empleará a tal fin?. Si sospecha que la media poblacional es del orden de
1.012, estarácometiendo errores de pesado aceptables?. Analizar cada uno de los siguientes casos:
1) n= 25, o = 0.0049
2) n= 100, o² = 0.0049 y flz, u, o) no es necesarimente normal.
3) n= 10, ² es desconocida y la varianza muestral es S =0.0048.
4) n=100 y o² es desconocida.
Como el nivel de confiabilidad es 1 -a=0.95, entonces tenemos los siguientes percentiles: zg =
ZO.025 = 1.96 y t(n-1). =t(9, 0.025 = 2.26.
En 1)empleamos el intervalo de confianza construído en el primer caso, con lo que se obtienen los
siguientes límites particulares:
0.07 0.07
ap =X - Zg. 1.06 1.96 x = 1.033 A bp = X + zg. =1.06+ 1.96 x 5 =1.087
5
En 2) trabajamos con los límites hallados en el 2o caso:
a, =X-zg = 1.06 1.96 x 00.07 = 1.046 b, = X+zg.= 1.06 +1.96 x

0.07
= 1.074
10 10
En 3), según los límites determinados en el caso Sa, se tiene:

0.069
ay =X-tg.(n-1)a
S
1.06-2.26x. 0.069 = 1.011 Ab, = X+Bg.(n -1)
S
= 1.06+2.26x =1.109
V10 V10
Mientras que en 4), tenemos según el 4e cas0:
S 0.069 S 0.069
ap =X-zg.=l.06 1.96 x 10 = 1.059 A b, = X+q.=1.06 +1.96 x 10
= 1.061
Esta información obtenida nos permitirá constestar a la pregunta respecto si Elsa está o nó come
tiendo errores en la medición, según si el intervalo obtenido contiene o no al valor * 1.012.
Esto puede verse en el siguiente cuadro:
Intervalo obtenido Comete Elsa error?
(1.033; 1.087) SI
(1.046; 1.074) SI
(1.011; 1.109) NO
(1.059; 1.061) SI
Observaciones Importantes:
Dijimos al comienzo de la sección que la precisión de la estimación viene dada por la amplitud
del intervalo. Por una parte, amplitudes grandes hacen perder la confiabilidad de la estimación;
por otra, anplitudes pequeñas pueden poner en tela de juicio la utilidad del proceso de estimación.
En los casos recién estudiados, la amplitud del intervalo c=b-a adopta las posibles formas:
c=2.z casos l9 y 20
" c=2.t(n-1).8J7 caso 30

S
"
c=2.zA caso 4o
En todas estas expresiones se observa que:

1) fijado el nivel de significancia a, al aumentar el tamaño muestral n, disminuye la amplitud c.
2) fijado n, al disminuir a, zg crece y aumenta la amplitud c.
Además, a partir de cada una de ellas, con el debido conocimiento de las cantidades pertinentes,
podemos obtener el tamaño muestral adecuado para una amplitud fija c:
n= 4.o casos lo y 2o
caso 3o
c2
n=
4.z4S? caso 4o
De manera efectiva sólo podremos obtener el tamaño muestral n, conociendo la varianza poblacional
o',para una amplitud fija c, y un nivel de confiabilidad dado, en el primer caso ya que en los dos
siguientes la incógnita n está presente en la definición de S² y en los grados de libertad (n - 1).
* Ejemplo 16
Supongamos en el ejemplo anterior, que Elsa desea hacer la estimación de la media de los
pesos las bolsas de azúcar mismo nivel de confiabilidad y desea que el intervalo tenga una
amplitudc= 0.059. Si suponemos que o = 0.0049, cuántas bolsas deberá pesar para cumplir los
requerimientos impuestos?.
En este caso, la respuesta viene dada por la siguiente erpresión:
4 x 1.96× 0.0049
n= 12
0.0592
Intervalo de confianza para la proporción poblacional p

El caso abarca a aqullas poblaciones dicotómicas en las que algunos de sus elementos cumplen
con un cierto atributo A (y por lo tanto, el resto cumple A) como por ejemplo si consideramos la
población formada por todos los alumnos que registran inscripción como alumnos regulares de la
asignatura Probabilidades y Estadística de Facultad de Ciencias Exactas de la U.N.Sa en el año
1997 y pensamos en aquellos que cumplen con la caracteristica A:"el alumno tiene aprobadas en
su carrera al menos 3 materias".
Entonces, el comportamiento aleatorio de esta población corresponde al de una distribución Bernouilli
con parámetro p = P(A) desconocido. Este parámetro es la proporción poblacional de elemen
tos que cumplen con la propiedad A.
Entonces variable asociada a la población tiene comportamiento dado por:
X~ p(z)=P(l-p)'*
0
para z= 0,1 A0<p<l en c.o.C
Seleccionamos una muestra aleatoria de tamaño n grande (n ’ o), (X1, X2,..., Xn) y proponemos
x
como estimador de la proporción poblacional p, a la proporción muestral p= i= -, de la que
n
ya sabemos que es un buen estimador dado que cumple con propiedades tales como: insesgado, con
sistente, suficiente, eficiencia relativa frente a cualquier otro estimador lineal insesgado y máximo
verosímil. Sabemos que:
E(P) =p A Var() = p(l- p)

y como la varianza depende del parámetro desconocido, es necesario estimarla. Lo hacemos medi
ante:
Var(@=
Utilizando el teorema 7 se concluye que:
p-p ~ AN(0, 1)
ya que ~ AN(0, 1) y P(1- P) converge en probabilidad a p(1 - p).

n
Luego, fjado un nivel de riesgo a, debemos hallar los límites del intervalo a =a(p) yb= b(P) tales
que:
y entonces, guíandonos con el siguiente par de gráficos:

o)
tenemos que:
P(ecic)-i-a
donde los números c y d son valores particulares (simétricos respecto de p) de la variable P que
tiene distribución AN P,
n
Entonces:
P
C-p d-p_ =l-a
(1-) /P-)
d-p
En esta expresión, = zg, es decir, el percentil de la distribución normal que deja
C-P
a su derecha un área ; y por simetría se tiene que
Luego:
P -z < =1- a
P -zg. =1-a
a=a(?) b=b(P)
* Ejemplo 17
Se desea estimar la proporción de alumnos varones que cursan la asignatura Probabilidades y
Estadística este año, y decidir si ésta difiere significativamente (al nivel de signiftcancia del 5%
de la proporción de mujeres. Para ello tomamos una muestra de la población formada por todos
los alumnos de la Facultad de Ciencias Eractas que están en condiciones de cursar la materia en
forma regular (por ejemplo, se saca un listado de la base de datos de Dirección de Alumnos). La
muestra tiene tamaño n = 80 (que se supone grande a nuestros fines) y en ella se observan 60
varones, esto significa que la proporción muestral observada es p= Entonces, según lo tratado
recién, el intervalo tendrá límites dados por:
60
80
1.96 x 1
80
x300.66
Pa-') 60
+1.96 x = 0.84
80 V80
y como el intervalo hallado no contiene al valor , podemos concluir que al nivel de significan
cia dado, eriste diferencia entre las proporciones de varones y mujeres que cursan la materia en
cuestión.
Nota: Si la población de estudio es finita de tamaño N, se emplea el llamado factor de

N-n
corrección para la varianza: de modo que el intervalo adopta la forma:
N-1
P(1-) N-1
N-n
P-z20-DN<<ot**aza()
n
b=b()
=1-o
* Ejemplo 18
En el ejemplo anterior, si se sabe que la población de alumnos tiene tamaño N = 350, el factor
N-n 350- 80
de corrección toma el valor: 95010.77, con lo que los limites del intervalo para p
son:
60 S0 X 80 x 0.77= 0.68
-1.96 x
80 80
n 6 0+1.96 x 60
x0.77 == 0.82
80
con lo que nuestra conclusión respecto a la diferencia significativa entre las proporciones de varones
y mujeres, no cambia.
Intervalos de confianza para la diferencia de medias poblacionales 4 -2
En muchos casos se nos presenta la situación de tener dos poblaciones cuyos comportamientos
aleatorios vienen dados por las distribuciones XË ~ fi(e1, Fi, o) y X~ fal2, H2,a3) respectiva
mente y nos interesa decidir a un cierto nivel de confiabilidad si 1=2, esto es, si las poblaciones
son iguales significativamente en cuanto a sus valores medios. Esto puede contestarse construyendo
un intervalo de confianza para la diferencia de medias &= A1 -42 y observando si el intervalo
diseñado contiene o no al valor 0. Si lo contiene, podremos decir que a ese nivel de significancia, las
poblaciones no son significativamente diferentes en cuanto a sus medias. Un caso concreto puede
ser enunciado como sigue: Si consideramos las poblaciones de mujeres y varones respectivamente,
que son alumnos de la materia Probabilidades y Estadística y que rindieron el segundo parcial, nos
puede interesar decidir a un nivel de significancia del 5% si el rendimiento promedio de varones es
diferente del de las mujeres.
Al igual que en la construcción de intervalos de confianza para la media de una población, pueden
presentarse distintos casos dependiendo de los datos que tengamos sobre las poblaciones en la
hipótesis .
El estudio puede dividirse en dos partes: el caso de muestras independientes y el caso de mues
tras dependientes. Comenzamos con el primer caso.
A) Caso de muestras independientes
" lÍ Caso: X ~N(41,o?), X, ~ N(u2, o), o? y o; son conocidas y los tamaños muestrales
son cualesquiera nË, ng ¬ N.
Tomadas sendas muestras aleatorias (X11, X12,..., X1n,) y (X21, X22, .., X2n,) de las pobla
ciones, elegimos como estimador puntual de Ñ = u1 - B2 a la diferencia de medias muestrales
D=XË- X2, la que cumple con las propiedades de insesgado y consistente puesto que:
E(D) = E(X1- X2) =-2 =i A lim Var(X-X) = nËn2-00

nË,n2o0
lim (i4 =0 n2/
Fijado un nivel de riesgo a, debemos hallar los límites del intervalo a = a(Xi - X) y
b= b(X1-X2) tales que:
P(a(X1 - X) < -2 < b(Xí X2)) =l-a
Como las distribuciones poblacionales son normales, entonces se tiene que:
(Xi- X2) - (41-2) ~N(0,1)

+)
12
g(zi-2)
1-a
d
D= X-X¡
0= 1 - 2
P(e< X-X¡<d) = P|-(1- a)(X1- X)-(41 - 2) d- (u1 - u) =l-a

na
en la cual cy d son valores de X1 Xy simétricos con respecto a 6 que garantizan la probabilidad

en cuestión.
En esta expresión, d- (u1- 2) = zg,es decir, el percentil de la distribución normal que deja a
V+ c- (41- 2)
su derecha un área ; y por simetría se tiene que =-2g.
V+
Luego:
(X- X3)-(u1- 4a)
V+
y entonces, el intervalo buscado con las formas específicas de las variables a yb satisface:
P(X- X2) ng <A-< (X1-X2) +z n
aza(Xi-Xa) b=b(X;-Xa)
" 29 Caso: XË~ fu|, o), X) ~ f(u2, o~) (ambas no necesariamente normales), oi y o; son
conocidas y los tamaños muestrales nË, ng Son grandes.
Tomamos sendas muestras aleatorias (Xil, X12, ..., Xin;) y (X1, X22, ..., X2n,) de las pobla
ciones y elegimos, al igual que en el caso anterior, como estimador puntual de O= 1 - 2 a la
diferencia de medias muestrales D= X,- X2.
Fijado un nivel de riesgo a, debemos hallar los límites del intervalo a = a(X1-X2) yb= b(X1-X2)
tales que:
P(a(X1 - X2) <m-2 < b(X1-X2)) = 1-a

Como los tamaños muestrales son grandes, entonces en virtud del Teorema Central del Límite se
tiene que:
X-X~ AN(-#3. (X-X2) - (41-P2 AN(0, 1)

V+
Para determinar los límites buscados, usamos esta distribución dibujando la situación en un
par de gráficos análogos a los usados en el caso anterior y trabajando algebraicamente, a partir de
la ecuación probabilística siguiente:
Pl-8(X1 - X) -(uy - 1a)

nË
de la cual, el intervalo buscado en forma explícita es:
<#1-#a < (X-X) + z¡-1/14o =1-a
a=a(X1-X) b=b(X1-Xa)
" 3o Caso: X1 ~ N(u1, oi), X2 ~ N(42, a~), oiy o, son desconocidas pero suponemos que
oi = o;= o'; además los tamaños muestrales n1, n2 son pequeños.
Tomamos sendas muestras aleatorias (X11, X12, .., Xin,) y (X21, X22, .., X2n,) de las pobla
ciones y elegimos, al igual que en el caso anterior, Como estimador puntual de ß = 1 - 2 a la
diferencia de medias muestrales D = XË X2. Para él se tiene que:
1
B(D) =E(X-X) =# - =6 A Var(Xi- X)-+ = +)
Dado que desconocemos o, debemnos estimarla con algún estimador apropiado. En este sentido,
se propone como estimador a la llamada "varianza amalgamada", definida por:
(21-1)S; +(12 - 1)S3
nË + n2-2
Esta es una varianza muestral construída como una varianza ponderada de varianzas muestrales,
donde los pesos son fijados por los respectivos tamaños muestrales.
Además, es un estimador insesgado y consistente de la varianza común o² como se demuestra a
continuación:
1) Dado que:
nË
-X)? Xx-X,)?
S isl
nË -1
son estimadores insesgados de oi y oz respectivamente, tenemos que:
-1)Sf + (n2 -1)$ =
nË + nz-2
(nË - 1)E(S?)
E|+Ent +n2-2J
(n3 - 1)E(S)_ (n1 -1)o² + (n2 - 1)o?
ng -
nË + n2-2 nË + n2-2 nË + ng-2
Con lo que queda probada la propiedad de ser insesgado.

2) Para estudiar la consistencia de este estimador calcularemos su varianzay veremos que tiende
a cero al incrementar los tamaños muestrales.
Se demostró anteriormente que bajo la condición de normalidad de la población de estudio:
264 2o4
Var(S$) = nË -1
Var(S3) = ng 1
luego:
var() = Var [(m1 -1)nË + n2+(n9-1)E]

-2
=ver [(n-)|+Var [(02
nË+ n21)8-2
(n1 - 1)²Var(S?),
+ (n2 - 1)?Var(S)
2(n1 1)o + 2(n2 1)o4
(nË + n2- 2) (nË + n2-2)2 (nË + n2 -2)2
y entonces:
lim
n1,n2-00
Var
()=0
con lo cual, el estimador propuesto resulta consistente.
Por otro lado, como las poblaciones son normales, tenemos que:
U,=
(n1-1)S; (n2 -1)S ~ xing-1)
g2
debido a lo cual, la variable aleatoria:
W- +nz-2) 2 (n1- 1)S;+ (n2 1)S;
mediante la aplicación del Teorema de la adición de chi-cuadrado a las variables independientes

U y U2 (heredan la inpendencia de la muestras).
Por otra parte, fijado un nivel de riesgo a, debemos hallar los límites del intervalo a= a(X-X2)
y b= b(X -X2) tales que:
P(a(X1- X) <-ug < B(X1 - X)) = 1-a
Nosotros sabemos que para este caso se cumple:
(X1-X2)- (u1- 2) ~ N(0,1)

n2
Pero como no conocemos o2, tenemos que determinar la distribución exacta de la variable:
(X1- X2) -(u1 - a)
Esta se obtiene siguiendo el siguiente esquema:

(X-X) - (4-2) (X-X)-(4-2)
V = (X1- X2)-(41- a)
~N(0,1)
~t(nitng-2)
nË + n2 -2
ieytng-ay/(n+ng-1)
g(i -2)
D= X-X,
6= #1 2
t
-tin1tng-2). t(n+ng-2).
0
P(c< X- X;<) =P-1-a)X1-X)-(4-A2) d- (41-2) =1-a

Vat
en la cual cy d son valores de X1 -X? simétricos con respecto a 6 que garantizan la probabilidad
en cuestión.
En esta expresión, d-(41-2) tg.(n+n-2), es decir, el percentil de la distribución t de
Student que deja a su derecha un área :y por simetría se tiene que c- (41-a) -lg.(n1+n-2)·
Luego:
-tea<-X2)-(-2 <tg.(ntny-) =1-a

.(n1
P(X- X2) -lg.(n1+ng-2)- 0 V n1 +<A -#2 < (Xi -X) +l(ny tng-2). V nË +n2
=1-a
a=a(X1-X;) b=b(X;-X;)
" 4o Caso: XË ~ f(u1, o), X; ~ f(u2, o) (no necesariamente normales), oi y o~ son de

sconocidas pero finitas y además los tamaños muestrales n1, n2 Son grandes.
Nuevamente en este caso debemos emplear el Teorema 7 para determinar el comportamiento
asintótico de la variable (Xi- X2)-(41- 2) cuando n1,n2 ’ 0.
n2
Tomamos sendas muestras aleatorias (X11, X12, .., Xini) y (X21, X22,.., Xang) de las pobla
ciones y elegimos, al igual que en los casos anteriores, como estimador puntual de 6 = 1 - u2 a la
diferencia de medias muestrales D = XË - X2.
Hemos demostrado anteriormente que el estimador S? converge en probabilidad a la varianza o,
consecuentemente también se cumple para S% respecto de a) por lo que n2
converge en
probabilidad a
Entonces, en virtud del Teorema Central del Límite y los ítems c) y d) del Teorema 4 respectiva
mente, tenemos que:
S
Yn1ina (X1- X2)-(1- P2)AN(0, 1) A Wasng =
n
converge en probabilidad a 1
n2
Por lo tanto, se concluye que:
(X1-X2)-(41 2) ~
AN(0, 1)
y entonces, de manera análoga al caso 1), se tiene que a partir de la ecuación probabilística:
(-X9)-(4)- pa)
c-1-a
el intervalo buscado con las formas específicas de las variables a y b es:
P| (X1- X,)-- 4n2 <H-#a < (XT-X) +z*-/i+S4 2

=l-a
aza(X;-X) b=b(X1-Xa)
* Ejemplo 19
Se desea estudiar con una confiabilidad del 95% si el rendimiento promedio de los estudiantes
varones de un curso (41) difere significativamente del rendimiento promedio de las estudiantes
del mismo curso (u2). El curso es muy numeroso y por ello se decide tomar sendas muestras de
las poblaciones de notas obtenidas por los varones del curso en una prueba (X1) y de las notas
obtenidas por las mujeres del mismo curso en la misma prueba (X2). Suponiendo que las notas
de ambos grupos son independientes y las medias muestrales son TË = 62 y E7 = 54, realizar el
análisis en los siguientes casos:
1) XË ~ N(41,oi = 25), X2 ~ N(u2, o = 36), nË = 20, ng = 25
2) XË ~ fi (41, oË = 25), X2 ~ fa(42, o = 36), nË = 90, n2 = 100
3) XË ~ N(41, oi), X? ~ N(ug, o) , varianzas desconocidas pero of = ai, nË = 10, ng = 12,
s = 24.7, s;= 34.8
4) X~ fi(41, o), X~ fal42, oz), nË = 90, ng = 100, s = 24.7, s; = 34.8
Primero tenemos que tener en cuenta los siguientes percentiles ertraídos de las tablas correspon
dientes: zg = Z0.025 =1.96 yt(n+ng-2). = t(20),0.025 = 2.086
En 1), el intervalo de confianza correspondiente tiene límites:
4, = (Xi- X)-z-/4 =8- 1.96 x/ 2520 25

36 =4.785
n2
25 36
b, = (X1- X2)+ z-/n =8+ 1.96 x /5t=
20 11.215
Para el caso 2), obtenemos los límites:
a, = (X1 -X2)- z-/ i=8- 1.96 xV90

n2
36
100
=6.435
oi i
b, = (X1 - X2) + zg/n =8+ 1.96 ×
25
V90 100
36
= 9.565
Para la situación 3), primero obtenemos la estimación de la varianza común mediante la fórmula
de la "varianza amalgamada ":
2 (n1- 1)S; + (n2-1)S% 9 x 24.7+ 11 x 34.8
nË + n2 -2
:30.255
20
y entonces, el intervalo correspondiente tiene límites:
4, =(Xi-X)-t.(ntn-).&=8-2.086 x5.5 n+=3.088
b, = (X1 - X2) + tg.(a1+ng-2)· 1 1 = 8+ 2.086 x 5.5/n+

1 1
=12.912
y en el caso 4), los limites del intervalo en cuestión son:
24.7, 34.8
a, =(Xi- Xa) - znËS, S.= 8- 1.96 x n2 90
+
100
= 6.454
bp = (X- X2) + +
S = 8+ 1.96 x / 24.7 + 34.8 =9.546
n 90 100
La información obtenida nos permitirá constestar a la pregunta respecto si los rendimientos medios
de los varones y mujeres son significativamente diferentes al nivel de significancia del 5%, según
si el intervalo obtenido contenga o no al valor 6 = 41 -42 = 0. Esto puede verse en el siguiente
cuadro:
Intervalo obtenido 8 = 1- 2 = 0?
(4.785; 11.215) NO
(6.435; 9.565) NO
(3.088; 12.912) NO
(6.454; 9.546) NO
Vemos que en todos los casos se puede concluir al nivel de significación del 5% que el rendimiento
medio de los varones es distinto al de la mujeres.
50 CAP/TULO 12. TEORÍA DE LA ESTIMACIÓN
B) Caso de muestras dependientes

El caso este se presenta cuando en un mismo grupo de unidades experimentales se miden dos
variables en distintos etapas. Por ejemplo, se desea saber si la ingestión de un medicamento en

particular es motivo del aumento en el rendimiento de los atletas de salto en alto. Para ello, se
mide la altura de un primer salto en un grupo de 20 atletas, primero sin ingerir dicho medicamento
y, en un segundo salto habiendo previamente ingerido el medicamento.
En general, tendremos pares de valores de las variables X y X2:
(Xu, X21), (X12, X2),..,.(Xin, X2n)
lo que también puede interpretarse como una "nmuestra de pares" de tamaño nË = n2 = n, que
supondremos números pequeños.
Tiene sentido entonces formar la llamada "muestra de diferencias":
(di, da, ., dn) = (X11- Xu, X12 - X2,.., Xin - X2n)

que puede interpretarse como proveniente de la "distribución de diferencias": d= XË - X2 que
supondremos N(44, o),siendo la varianza poblacional desconocida.
De esta manera, el problema queda simplificado a trabajar con una sola muestra y construir un
intervalo de confianza para la diferencia de medias es lo mismo que construir un intervalo para la
media ua de diferencias.
Proponemos como estimador de esta media, a la media de la muestra de diferencias: g= X1-X2,
que resulta insesgado y consistente ya que:
E() = E(X1-X) = p-k2 = a A lim Var(ia) = lim Var(X1--X2) = n+oo

n+00
limn+oo
La varianza o se estima por medio de:

n
i=1
y en Consecuencia:
De manera similar al tercer caso de intervalo de confianza para 4, dado que n es pequeño se tiene
que:
W=
1
i=l
Fijado un nivel de riesgo a, debemos hallar los límites del intervalo a = a(d) yb= b(a) tales que:
P(a(d) < p< )) =1-a
Para determinar estos límites, usamos esta distribución normal dibujando la situación en un par
de gráficos iguales a los usados en esa sección. Con ellos, podemos escribir:
P(ei <d< a) = P n n
=1-a
1 1
en la cual c1 y cz son valores de d simétricos con respecto a a que garantizan la probabilidad en

cuestión.
C2 - =tg(n-1), es decir, el percentil de la distribución t de
En esta expresión,
1
i=1
C1-4
Student que deja a su derecha un área ;y por simetría se tiene que
i=l
-tg.(n-1)
Luego:
P-.n-1) < <I.(n-1) =1-a
i=l
1
P-t(o-) n-j(4-3' <mu<d+ ty.(n-a-24-aP=1 -o
i=1
aza(d) b=b(4)
* Ejemplo 20
Se sospecha que son cantidades dependientes los niveles de productividad (en unidades específicas)
de un empleado de la compañía XYZ, antes (A) y después (B) de una huelga. En el cuadro
siguiente, se muestran dichas cantidades para una muestra de 10 empleados de dicha compañía
antes y despúes de la huelga del 27 de Junio. Se supone que la producción de los empleados se
distribuye normal.
Empleado Producción A Producción B
1 88 90
89 67
45 80
67 76
5 78 87
45 8
78 80
68 84
30 45
10 67 96
2.262
La sospecha tiene fundamentación al nivel de significancia del 5%?. Para responder a la cuestión
debemos primero calcular un intervalo de confianza para la media de la población de diferencias. De
acuerdo a los datos, la muestra de diferencias es: (-2,22, -35, -11, -9, -42,-2, -16, -15, -29).
y entonces la mediay el desvio estándar de la muestra de diferencias son respectivamente:
n
18.48
i=1
y en consecuencia, los limites del intervalo pertinente son:
)' = -13.9 -2.262 x y/ 18.48

1
a, =d-t(a-1) alaSZ(d-
1) 10
=-16.975
1 18.48
O, =d+B.(n-1) nla-(d- ² = -13.9+ 2.262 x V 10 -10.825
i=l
y por lo tanto, al nivel de significancia del 5%, la sospecha tiene fundamento puesto que el intervalo
hallado no contiene al cero.
Intervalo de confianza para la varianza poblacional o?

Construiremos un intervalo para la varianza o² en el caso que la distribución sea N(u, a?) con
ambos parámetros desconocidos.
Sea (X1, X2, ., Xn) una muestra proveniente de tal distribución, sabemos ya que:
1)
n-1
es un estimador insesgado y consistente de la varianza poblacional o.
2)
-~xin-)
Fijado un nivel de riesgo a, debemos hallar los límites del intervalo a = a(o?) yb= b(a²) tales que:
Para determinar estos límites, usamos la distribución chi-cuadrado, dibujando la situación en un

gráfico como el siguiente:
f(U)
1-a
U= 0-l)s?
0
X(n-1),1 x(n-1),
Con él podemos escribir la siguiente ecuación probabilística:

P(xn-1),4-g <U<xia-),) =1-a
12.5. EJERCICIOS ADICIONALES PARA INTERVALOS DE CONFIANZA 53
en la que sustituímos r por su definición:
<xia-)14)=1-a
y despejamos algebraicamente el parámetro a estimar, obteniendo el intervalo buscado:
P
(n-1) =l-a
xin-1),3 x(n-1).1-g
aza(o) b=b(o)
y a partir de esta expresión, obtenemos un intervalo de confianza para el desvío estándar pobla
cional o, simplemente aplicando raíz cuadrada positiva en cada miembro de la doble desigualdad:
(n-1) <o<o (n-1) =1-a

Vxin-).Vxtn-)4
aza(®) b=b(ê)
* Ejemplo 21
En el ejemplo de Elsa, ella emplea para sus mediciones una balanza que tiene como garantía el
pesar con un error de o=3 gr.
Realiza el pesado de 10 paquetes azúcar obteniendo una varianza muestral S' = 0.047 y desea
saber con esta información, y al nivel de confiabilidad del 90%, si la garantía es adecuada. Para
ello, bajo el supuesto de normalidad de la variable peso, el interualo de confianza para el desvio
estándar que construye tiene los limites:
9
=0.0685 x V
16.92
= 0.050
xÙn-1),8
(n-1) =0.0685 x =0.113
xin-1),1-8 V3.33
con el que se puede concluir que, al nivel de significancia dado, la garantía de la balanza no es
adecuada, dado que el intervalo construído no contiene al valor de fábrica para el desvio estándar.
12.5 Ejercicios adicionales para Intervalos de Confianza

o Ejercicio 40
Se registraron los tiempos (X) utilizados en la compra para n clientes seleccionados al azar en un
supermercado local. La media de los n tiempos de compra fué T= 33. Estimar el promedio real
(4) del tiempo utilizado por clientes en la compra, con un coeficiente de confianza de 0.90, en
cada uno de los siguientes casos:
1) X ~ N(, a), o2 = 256, n = 25.
2) X~ f(H, o²), o?= 256, n =100.
) X~ N(4, o), o² desconocida, s² = 262, n= 15.
4) X~ f4, o), o² desconocida, s² = 262, n= 150.
" Ejercicio 41
Según una revista europea especializada, la "lluvia ácida" causada por la reacción de ciertos
contaminantes en el aire con el agua de lluvia parece ser un problema creciente en la región
central de Francia. La lluvia que se precipita a través del aire limpio, tiene un pH de 5.6.
Suponga que analizan muestras de agua de 14 lluvias con respecto a su pH y queTys son
iguales a 4.1 y 0.4 respectivamente. Determinar un intervalo de confianza del 99% para media
de los pli en las lluvias e interpretar este resultado. Qué supuesto debe establece rse para que sea
válido el intervalo de confianza?.
o Ejercicio 42
En el ejercicio referido a la medición de acidez del agua de lluvia; supongamos que se desea
estimar el promedio de pH de las lluvias en un área que erperimenta una gran contaminación por
parte de la descarga del humo de una planta de energía eléctrica, sabiendo que o tiene un valor
de 0.5 pH y que la estimación debe diferir a lo más en 0.1 de u con una probabilidad de 0.95.
Cuántas lluvias deben incluirse aprozimadamente en la muestra?.
o Ejercicio 43
Un fabricante de pólvora desarrolló una nueva fórmula, que se probó con 8 granadas. Las
velocidades iniciales resultantes, medidas en pies por segundo, fueron las siguientes:
3005,2925,2935,2965, 2995,3005, 293 7, 2905.
Encontrar un intervalo de confianza para la media real de las velocidades para granadas de este
tipo, con un coeficiente de confianza de 0.95. Suponer normalidad en la distribución poblacional.
o Ejercicio 44
Una revista salteña de deportes (1996), publica los resultados de un estudio sobre la relación entre
la participación en los deportes y la destreza manual. De una muestra aleatoria de 50 alumnos de
tercer año que participaron en los deportes, se obtuvo una calificación media de destreza manual
de 36.89y una desviación estándar de 3.22. De una muestra aleatoria independiente de 45
alumnos de tercer año que no participaron en los deportes, se calculó una calificación media de
destreza manual de 36.78 y una desviación estándar de 3.97. Estimar diferencia de los
promedios reales de los resultados para los dos grupos con un intervalo de confianza del 90%. Le
parece que eriste una diferencia significativa entre los dos promedios reales?.
o Ejercicio 45
Un método para resolver la carencia de energía eléctrica requiere de la construcción de plantas
eléctricas nucleares flotantes unas millas mar adentro. Se necesita una estimación de la densidad
del tráfico naval en el área, porque eriste una preocupación con respecto a una posible colisión por
parte de un barco con la plante flotante (aunque anclada). El número de barcos que pasan dentro
de un radio de 10 millas de la ubicación propuesta de planta eléctrica, registrado durante
n= 60 días en Julio y Agosto, tuvo respectivamente una media y una varianza muestral iguales a
7=7.2 y s = 8.8. Se esperaba que la densidad del tráfico naval disminuyera en los meses
invernales. De una muestra de n =90 observaciones de barcos durante el verano, se obtuvo la
media y varianza siguientes: T =4.7 y s? =4.9. Obtener un intervalo de confianza del 90% para
la diferencia en la densidad media del tráfico naval entre los meses de invierno y verano.
o Ejercicio 46
La tasa de consumo de orígeno es una medida importante de actividad fisiológica de los
corredores. Un informe médico realizado en Agosto de 1994, informó respecto de las diferencias
en las tasas de consumo de orígeno para varones universitarios, entrenados con dos métodos
diferentes, uno que utiliza el entrenamiento continuo durante cierto lapso cada día y el otro que
utiliza un entrenamiento intermitente de una duración total igual. Las medias, las desviaciones
estándar y los tamaños de las muestras se indican en la tabla al final. (las mediciones están en
mililitros por kilogramo-hora). Suponiendo distribuciones poblacionales normales, estimar la
diferencia en las medias poblacionales con un coeficiente de confianza de 0.95.
12.5. EJERCICIOS ADICONALES PARA INTERVALOS DE CONFIANZA 55
Entrenamiento continuo Entrenamiento intermitente

nË =10 n2 = 8
T1 = 45.67 T =37.65
81 =4.78 $2 = 6.23
o Ejercicio 47
Una operación de montaje en una fábrica manufacturera requiere aprorimadamente un período de
entrenamiento de un mes para que una nuevo empleado alcance la márima eficiencia. Se sugirió
un nuevo método para el entrenamiento y se realizó una prueba para comparar el método nuevo
con el procedimiento estándar. Se entrenaron dos grupos de nueve empleados nuevos durante un
período de 3 semanas; un grupo utilizó el nuevo método y el otro grupo el procedimiento estándar.
Se midió el tiempo (en minutos) que necesitó cada empleado para montar el dispositivo al final
del periodo de entrenamiento de 3 semanas. Las mediciones se muestran en la tabla al final.
Estimar la diferencia real de las medias (41-2), con un coeficiente de confianza de 0.95,
suponiendo normalidad en las distribuciones poblacionales.
Procedimiento Mediciones
Estándar 32,37,35,28,41,44,35, 31, 34
Nuevo 35,31,29, 25, 34,40,27,32,31
Considera Ud., al nivel de significancia del 5%, que eriste diferencia entre los tiempos medios de
montaje de ambos métodos?.
o Ejercicio 48
Una encuesta realizada en 1997 por la Comisión Presidencial con respecto a la política de
jubilaciones reveló que una alta pToporción de argentinos es muy pesimista con respecto a sus
perspectivas cuando llegue a jubilarse. Al preguntarles si consideran que su jubilación será
suficiente, 76.8% de los 5600 entrevistados, trabajadores de tiempo completo de 18 años o más,
indicaron que su ingreso al jubilarse definitivamente no sería suficiente. Calcular un intervalo de
confianza del 90% para la proporción de todos los trabajadores de 18 o más años que consideran
que al jubilarse su ingreso por pensión no será suficiente. Interpretar el intervalo.
o Ejercicio 49
Un fabricante asegura a una compañía que le compra un producto en forma regular, que el
porcentaje de productos defectuosos no es mayor que el 5%. La compañía decide comprobar la
afirmación del fabricante seleccionando de su inventario 200 unidades de este producto y
probándolas. Deberá sospechar la compañía de la afirmación del fabricante si se descubre un total
de 19 unidades defectuosas en la muestra?.
o Ejercicio 50
Para estimar la proporción de trabajadores desempleados en Argentina, un economista seleccionó
al azar 400 personas de la clase trabajadora, de las cuales, 50 no tenían trabajo. Un funcionario
del gobierno nacional afirma que dicha proporción de desocupados es de 0.10.
a) Mediante la construcción de un intervalo de confianza del 95%, qué puede Ud. concluir
respecto de la afirmación del furncionario?.
b) Si el investigador desea que el intervalo tenga una amplitud no superior a 0.02, con mismo
nivel de confiabilidad del item anterior, qué tamaño de muestra n debe seleccionar? (sugerencia:
recordar que la función p(1 - p) está acotada superiormente por el valor ).
o Ejercicio 51
Para comparar las proporciones de artículos defectuosos producidos por dos líneas de producción,
se seleccionaron muestras aleatorias independientes 100 artículos de cada línea. La línea A
produjo 18 articulos defectuosos en la muestra y la linea B produjo 12 defectuosos. Obtener un
intervalo de confanza del 98% de confiabilidad para la diferencia real entre las proporciones de
articulos defectuosos para las dos líneas. Eriste evidencia suficiente para sugerir que una línea
produce una proporción más alta de defectuosos que la otra?.
o Ejercicio 52
Se sabe que la variable ganancia = ingresos - egresos (registrados en un mes). Suponiendo que
los ingresos se distribuyen normalmente con media 1 y varianza oË, y que los egresos son
también normales, pero con media ug y varianza o:
a) Deducir un intervalo de confianza paru la esperanza pG de la ganancia poblacional, con un
nivel de confiabilidad del a.100%.
b) Empleando el intervalo del ítem anterior, determinar el tanaño de muestra que se
necesitaría para obtener el intervalo de confianza (9.000; 16.840) con una confiabilidad del 95%,
sabiendo que o = 15.000.000 y o = 25.000.000
o Ejercicio 53
Se quiere estudiar si el desempeño de un grupo de 12 estudiantes es igual tanto en psicologia
como en matemática. Para ello se los somete a sendas pruebas (A y B) de diagnóstico (la escala
de calificación es de 0 a 100)y los resultados se muestran en el siguiente cuadro:
Estudiante Evaluación A Evaluación B
68
2 54 67
45
99 70
48 89
95 90
67
65 89
9 23 54
29 96
11 56 89
12 78 20
Suponiendo normalidad en las distribuciones de puntajes, cree Ud. al nivel de significación del
8%, que las puntuación media de la población en psicologia es diferente a la de matemática?.
o Ejercicio 54
Las edades de 5 profesores universitarios en una muestra aleatoria son: 39,54,61, 72, 59.
a) Construir un intervalo de confianza del 99% para la varianza poblacional de las edades de los
profesores.
b) El rector de la Universidad afirma que la varianza poblacional es inferior a 37. Qué puede Ud.
decir de esta afirmación?.
o Ejercicio 55
Se seleccionó una muesta aleatoria de 21 ingenieros de un grupo mayor que trabaja para un
fabricante de equipos electrónicos. La desviación estándar de muestra de las horas de trabajo
por semana fué de 7 horas. Determinar un intervalo de confianza del 90% para la varianza de la
población de las horas de trabajo para todos los ingenieros que trabajan para el fabricante.
Suponer normalidad de esta distribución poblacional.
o Ejercicio 56
Un instrumento de precisión tiene como garantía el leer con un error mázimo de 2 unidades.
Una muestra de 5 lecturas del mismo objeto dió como mediciones: 343,349, 353,348 y 350.
Calcular un intervalo de confianza para la desviación estándar de la población. Qué supuestos
deben hacerse!. Es adecuada la garantía?. Elegir el valor de a según criterio personal.
Bibliografía
[2] D. G. Chapman, Annals of Mathenatical Statistics, 27, 489-506, 1956.
(3] Wayne W. Daniel, Estadística con Aplicaciones a las Ciencias Sociales ya la Educación, Ed.
Mc Graw Hill, 1991.
(4] Leonard Kazmier, Alfredo Díaz Mata, Estadística Aplicada a la Administración y a la
Economía, Ed. Mc Graw Hill, 1993.
(5] William Mendenhall, Introducción a la Probabilidad y la Estadística, Ed. Grupo Editorial
Iberoamerica, 1987.
[6] Richard L. Mills, Estadística para Economía y Administración, Ed. Mc Graw Hill Latinoamer
ica, 1980.
1975.
[8] Ya-Lun Chou, Análisis Estadistico, Nueva Editorial Latinoamericana, 1977.

[9] Orlando J. Avila Blas, Valores esperados y momentos, Apuntes de Teoría de Probabilidades y
[11] Orlando J. Avila Blas, Población y Muestra, Apuntes de Teoria de Probabilidades y Es
tadística, Departamento de Matemática-Facultad de Ciencias Exactas-U.N.Sa, 1997.
[12] Orlando J. Avila Blas, Distribuciones en el muestreo, Apuntes de Teoría de Probabilidades y
57
Contenido
13 Regresión Lineal y Correlación 3

13.2 Modelo de Regresión Bivariada Lineal 3
13.2.1 Comentarios generales 5
13.2.2 El porqué de la inclusión de u 6
13.2.3 El modelo en sí 6
13.2.4 Implicación de las suposiciones con respecto al término del error 7
13.3 Estimación de los parámetros en la regresión
13.3.1 Método de los Mínimos Cuadrados
13.4 Propiedades de los estimadores mínimos cuadráticos 11
13.5 Estimadores de Máxima Verosimilitud 20
13.6 Intervalos de Confianza para a y ß 22
13.7 Análisis de Correlación Lineal Simple 24
13.7.1 El porqué del Análisis de Correlación 24
13.7.2 Supuestos que deben cumplirse en el estudio de correlación 24
13.7.3 Coeficiente de Correlación 26
13.7.4 Análisis de la Variancia en la Regresión 30
1
Capítulo 13
Regresión Lineal y Correlación

13.1 Introducción
Muy a menudo se presentan situaciones en la que es de gran interés estudiar la relación
entre dos variables, lógicamente que los datos de estudio dejan de ser univariados (una
sola observación por cada unidad elemental de la muestra), pasando nuestra población de
estudio a ser bivariada; entendiendo por tal aquella que contiene dos mediciones de cada
unidad elemental; por ejemplo podemos observar la estatura y el peso de cada individuo,
la longitud y la resisten cia a la rotura de barras de acero, etc.
Ante esta situación rotulamos las dos variables implícitas mediante los símbolos X e Y.
A la variable X la denominamos variable independiente puesto que en muchas situaciones
puede ser controlada por el investigador; por ejemplo se puede seleccionar ciertos valores
de X para utilizarlos en un determinado análisis. Generalmente resulta de interés saber
qué cambios tiene la variable Y cuando cambian los valores de X. A la variable Y se
la denomina variable dependiente. En algunos textos la variable X recibe el nombre de
variable de predicción ó explicativa y la variable Y variable respuesta ó explicada.
El principal interés de analizar datos bivariados es:
1) descubrir y establecer la naturaleza de las relaciones entre las dos variables; es decir,
estudiar la relación funcional, a esto lo llamamos Análisis de Regresión.
2) medir la asociación entre las dos variables; o sea, determinar el grado de relación entre
las mismas, llamado Análisis de Correlación
13.2 Modelo de Regresión Bivariada Lineal

Resulta importante conocer la influencia que una o más variables pueden tener sobre otras.
Estas variables se pueden relacionar a través de una función matemática, la cual lleva a
estimar el valor de una variable conociendo el valor o los valores de las otras.
Estas relaciones funcionales se pueden representar por:
Y = f(X1, X2, ., Xn)
en nuestro caso, al trabajar con dos variables tenemos:
Y = f(X) (13.1)
En este paso simplemente identificamos a la variable X, la cual se considera que infuye
sobre la variable Y.
3
4 CAPITULO 13. REGRESIÓN LINEAL Y CORRELACIÓN
La forma de la ecuación que caracteriza la relación entre variables da el nombre a la

relación, así una ecuación lineal describe una relación lineal, una cuadrática describe una
relación cuadrática.
Es decir, que el segundo paso consiste en especificar la forma de la relación entre Xe Y.
La teoría en que se apoya la relación puede sugerir una forma funcional precisa que debe
usarse, o puede meramente sugerir ciertas condiciones secundarias que debe cumplir, como
por ejemplo, la ordenada al origen, la pendiente, la curvatura de la función.
Tales condiciones las pueden cumplir una gran variedad de funciones y entonces acudimos
al análisis estadístico buscando ayuda para elegir entre ellas.
La relación más simple entre dos variables es la lineal:
Y=a+BX (13.2)
donde a y B son parámetros desconocidos que indican la ordenada al origen y la pendiente
de la función.
Este modelo de relación está en contraste con el modelo determinístico o funcional, en
donde a y B son desconocidos, de modo que no permite ningún error en la predicción de
Y como función de X. Otras relaciones entre dos variables son:
Y= aelX Y= aXß Y=at
La tercera relación es lineal entre las variables Y yy las otras dos tomando el logaritmo
en ambos miembros pueden reducirse a forma lineal de variables transformadas con lo cual
se tiene:
In Y =ln a + BX ln Y = ln a + Bln X
La primera es lineal en In Y y X, y la segunda lo es en los logaritmos de ambas variables.
Estos ejemplos nos muestran que si bien la relación entre las dos variables no es lineal,
generalmente se busca una transformación inicial de los datos por medio de recíprocos o
logaritmos de tal forma que la relación entre las variables transformadas sea aproximada
mente lineal, siendo ésta una poderosa razón de la popularidad de regresión lineal en la
resolución de problemas prácticos.
Supongamos que tomamos una muestra de n valores de Y que corresponden a n valores
diferentes de la variable X. Los valores apareados de X e Y se pueden confeccionar en
una tabla y representarlos en un diagrama denominado diagrama de dispersión.
El objeto del diagrama de dispersión es el de sugerir la forma funcional del modelo es
tadístico como se ve en la siguiente figura.
13.2. MODELO DE REGRESIÓN BIVARIADA LINEAL 5
Observarmos que el diagrama de dispersión de la figura anterior sugiere una relación

lineal con la pendiente positiva. También observamos que una línea recta no puede ser
trazada por todos los puntos en el diagrama de dispersión. Esto significa que al no caer
todos los puntos realmente sobre la recta, no toda la variación de Y puede ser explicada
por la variación de X.
Esto nos conduce naturalmente a la aplicación de métodos estadísticos. La predicción de
Y para un valor dado de X es un proceso inferencial y se requiere conocer las propiedades
del error de la predicción si esto va a ser de utilidad en la realidad.
Como podemos obsevar, dada una situación particular nunca podemos establecer una rela
cion precisa, en este caso sólo podemos dar un modelo probabilístico para dicha situación.
Es decir que dadas las condiciones iniciales, nuestro modelo probabilístico nos permitirá
deducir una distribución de probabilidades de los posibles estados subsiguientes que son
valores de una variable aleatoria.
13.2.1 Comentarios generales

En nuestro modelo de la regresión la variable dependiente Y y la variable independiente
X se supone con las siguientes caracteristicas:
" a.-La variable X puede ser una variable no aleatoria (a veces lamada variable fija ó
matemática) ó una variable aleatoria El método usado en la recolección de la muestra
determina si X se considera fija ó aleatoria. Si nos interesan ciertos valores predetermi
nados de X la misma es fija. Si por el contrario no se resuelve por anticipado qué valores
de X se podrán admitir ,la variable X es aleatoria. Para nuestro desarrollo consideramos
a X como fija, es decir que sus valores los fija el investigador de antemano.
" b.-Existe alguna tendencia de Y para variar cuando X varía. Se supone que esta tenden
cia es consistentey sistemática pero la forma precisa de esta tendencia tiene que ser deter
minada, es decir que la forma funcional del modelo tiene que ser justificada lógicamente
pero los parámetros (a,) tienen que ser determinados estadísticamente. Habrá alguna
variación entre los datos estadísticos, la relación estadística no es perfecta.
" C.-Nuestro valores apareados de X e Y que observamos son sólo una muestra de una
población más grande. Si embargo por el momento nos interesa la construcción de un
modelo para la población de todos los valores apareados.
" d.-La variable Y es una varible aleatoria y para cada valor de X hay na subpoblación
de valores de Y. Es decir que para cada X hay varios valores de Y que podrían darse.
Además para cada valor de X, hay una distribución de probabilid ad que representa la
posibilidad relativa de encontrar valores diferentes de Y.
" e.-La media de cada distribución de probabilidad de valores de Y varía de alguna forma
sistemática con la variable independiente X.
Ahora podemos formular nuestro modelo lineal que responde a la expresión:
Y=a+ BX + u (13.3)
donde:
Y: observación de la variable dependiente
X: observación correspondiente a la variable independiente
ay B: parámetros
u: término estocástico ó término del error aleatorio
13.2.2 Elporqué de la inclusión de u

La relación (13.3) consta de dos partes: una sistemática identificada por a + BX; y la
parte estocástica identificada por u.
La naturaleza estocástica en el modelo de regresión implica que el valor de Y nunca puede
ser predicho exactamente como en el caso determinista.. La incertidumbre relativa a Y es
atribuíble a la presencia de u, que siendo una variable aleatoria, imparte aleatoriedad a
Y; por ejemplo no puede esperarse que personas de la misma edad, tengan igual altura,
esto es debido a la presencia de un elemento imprevisible de aleatoriedad en las alturas
de las person as de la misma edad. Además de esta interpretación del término u como
una aleatoriedad inherente a la conducta, tienen méritos otros dos puntos de vista. A
veces surge u por la exclusión de otras variables explicativas importantes y relevantes en
el modelo, de no ser así, conduciría a un análisis de regresión múltiple.
En otras ocasiones, el error de medición de Y es la causa de u. En una aplicación par
ticular del análisis de regresión cualquiera de estas razones podría ser una interpretación
razonable de u, o cualquiera par de estas razones o las tres conjuntas.
13.2.3 Elmodelo en sí
Volviendo a nuestro modelo lineal tenemos para un par de valores particulares X; e Y;:
Y; = a+ BX;+ ui (13.4)
Esta expresión es una tautología, siendo X; un valor particular de la variable indepen
diente, podemos tratarla cmo una constante conocida, según lo expuesto, así cualquiera
que sea el valor observado Y;, u; toma un valor que satisface la igualdad. O sea que los
parámetros a y ß podrían tomar casi cualquier valor (itendrá sentido tomar = 0?) y
todavía sería válida la ecuación.
Por lo tanto habráque imponer algunas restricciones adicionales al modelo para que tenga
más sentido como una expresión de la relación entre X e Y.
Los criterios para que el modelo tenga más sentido son:
1) ya que u; representa el error aleatorio, es conveniente que el valor esperado de ellos, sea
cero, esto es: E(u;) =0.
2) nos interesaráque la variación en los valores de u; fuera tan pequeña como sea posible;
además si u; va a ser el término del error aleatorio, entonces el uË que ocurre en una
muestra tiene que ser independiente del u; que ocurra en otra.
Finalmente supondremos que la variación de u y por lo tanto, la variación de Y es la
misma, sin importar el valor de Y.
Esta suposición hará más conveniente la variación de la medición de u.
Reformulando lo hasta aquí desarrollado, tenemos:
"1. Observando el diagrama de dispersión, el mismo nos sugiere una relación lineal entre
Xe Y.
" 2. La variable X es fijada por el experimentador, o sea que X no es variable aleatoria.
" 3. La media del error es cero, o sea: E(u;) =0.
" 4. Para un valor dado de X, la varianza del error u; es siempre una constante, esto es:
Var(ui) = o.
"5. El error de una observación es independiente del error de otra obsevación, o sea:
E(u;u;)= Cov(u;u;) =0 para i #j.
13.2. MODELO DE REGRESIÓN BIVARIADA LINEAL 7
"6. Los errores se distribuyen normalmente: ; n N,o).

Nota: en lo que sigue utilizaremos las siglas v.a." para indicar "variable aleatoria".
Si la hipótesis de linealidad se cumple y las del término estocástico también, la situación
puede representarse por la gráfica de P(u). Observando la misma vemos que para cada
valor deX hay una distribución de los valores de Y, los cuales se encuentran normalmente
distribuídos. La media de cada distribución está dada por a+ BX;; cuando X cambia
también cambia la media de la distribución de los valores posibles de Y.
Para algún valor X;, a + BX; es una constante de modo que las hipótesis fundamentales
se resumen como sigue:
Y-(atBX) +,
U.a. cte. V.a.
Con:
E(4:) = 0, Vi= 1,..., n.

u; N(e, o), Vi= 1,.., n
E(4;.u;) =
0 para i# j, i,j= 1,.., n (13.5)
o para i=j, i,j=1,..., n
Nuestro objetivo es estimar los parámetros desconocidos a, B y o.
4 I(u)
13.2.4 Implicación de las suposiciones con respecto al término del error

Primero: el término del error u; asociado con cada valor X;, es una variable aleatoria cuya
distribución de probabilidad que se supone normal con E(i) = 0, este supuesto implica
que, en promedio la parte sistemática de Y: es a+ BX;. Es decir:
E(Y) = E(a+BX, + ui)

= E(a+ 9X;) + E(ui)
Y como el valor esperado de una constante es la misma constante, y como E(u;) = 0

entonces:
E(u;)= a+ BX; (13.6)
Elresultado obtenido es el modelo de la regresión para la población también llamados
en algunos textos: ecuación de regresión poblacional de Y sobre X, modelo de regresión
de la relación estadística, entre la media de la distribución de los valores de Y para algún
valor dado de X y los valores de X, usando en general la notación ux,y para indicar E(Y).
La segunda implicancia tiene que ver con la variancia en el término del error.
La variación de Y dado X, llamada variancia de la regresión, se supone constante cualquiera
sea el valor de X y es igual a la variancia de ui,es decir o, en efecto, para un valor
cualquiera de X:
Var(Y;) = Var(a + BX; + ;)

= Var(a + X;) + E(u;)
y como at BX; es una constante:
Var (Y:) = Var(u;) = a = o (13.7)
El supuesto de la constancia de la varianza está representado en la figura de la distribución
P(u), la cual demuestra que las distribuciones de Y para los diferentes valores de X
tienen todas la misma dispersión, esta propiedad se lo conoce como homocedasticidad u
homoesquedasticidad. Procedemos ahora a estimar los parámetros en la regresión.
13.3 Estimación de los parámetros en la regresión

Nuestro modelo de regresión para la población es:
E(Y) = a+BX
Si se conoce toda la población de valores (zi, yi) (cuidado: no confundir con la notación de
desvíos que se da más adelante) es posible calcular los valores exactos de los parámetros
de la regresión a, B y o. Dado que lo habitual es trabajar con muestras, el problema
estadístico consiste en la forma de estimar lo más correctamente posible los parámetros.
LLamaremos &a la estimación de a y, Ba la estimación de . Entonces nuestra estimación
del modelo de regresión en la estimación es:
ý=&+x (13.8)
donde ý es la media calculada (estimada) de los valores de Y dado los valores de X.
¿Cómo estimamos a y 0?. La figura siguiente muestra un diagrama de dispersión de los
valores apareados observados (zi, V:). Queremos, a través de estas observaciones, hacer
pasar una recta que sirva de estimación de la verdadera; o sea, lo que buscamos es que
Ý= &+ BX sea una línea recta que pase más cerca de todos aquellos puntos observados
que cualquier otra.
Para ajustar una línea recta de este tipo debemos tener una fórmula de @y de B en
función de las observaciones muestrales; el método más utilizado para tal fin es el de los
mínimos cuadrados.
13.3. ESTIMACIÓN DE LOS PARÁMETROS EN LA REGRESIÓN 9
a+BX
13.3.1 Método de los Mínimos Cuadrados

Con este método obtendremos una recta que mejor se ajusta a los datos de la muestra en
el siguiente sentido: "La suma de las distancias verticales al cuadrado, de los puntos del
diagrama de dispersión respecto a la línea de mínimos cuadrados es menor que cualquier
otra suma similar calculada en relación con una línea diferente".
Para desarrollarlo,designemos las observaciones muestrales por (X,, X2,..., X) y (Y1, Y2, .., Ya);
y a las respectivas medias aritméticas como:
X=is]:X;
En la figura anterior trazamos perpendiculares a los ejes por X e Y según se indica.

Tomemos el punto P de coordenad as (X;, Y), tracemos una perpendicular desde Pal eje
7, la cual corta a la línea estimada en R, a la línea Y en Sy al eje ~ en T.
Entonces |OT|= Xi, [PT| = Y y |RT| = . Definimos la diferencia vertical entre P

y la línea estimada por:
e; = Y;- Ý= |PR (13.9)
Estas cantidades se denominan residuos o desviaciones respecto a la línea estimada, los
cuales pueden ser positivos o negativos, según que el punto real se encuentre por encima o
debajo de la línea; elevándolos al cuadrado y sum¯ndolos las cantidades resutantes serán no
nulas y variará directamente con la dispersión de los puntos respecto a la línea. Diferentes
pares de @y ß darán diferentes líneas y en consecuencia valores diferentes para la suma
de los cuadrados de los residuos respecto a la línea. Así tendremos:
i=1
El principio de los mínimos cuadrados consiste en que los valores de @yß deberán escogerse
de tal forma que hagan a la L e? lo más pequeña posible. Una condición necesaria es
10 CAPÍTULO 13. REGRESIÓN LINEAL Y CORRELACIÓN
que las derivadas parciales de la suma con respecto a &y ß deberán ser iguales a cero.
Podemos escribir:
(13.10)
1=1 =1
de modo que:
C)=-2Z- &-ß x) =0
i=1 i=1
(13.11)
(L)=-2
i=1 i=1
x(Y;-& Bx) =0
Simplicando estas dos ecuaciones se obtiene un sistema clásico de ecuaciones normales
para la línea recta.
(13.12)
Notemos que estas ecuaciones son lineales en @ y By como los valores de las ob
servaciones muestrales son conocidos, el sistema de dos ecuaciones lo podemos resolver
simultáneamente con respecto a Q v 8.
Dividiendo la primera ecuación por n tenemos:
Y=&+8x (13.13)
es decir que los estimadores mínimos cuadráticos son tales que la línea estimada pasa por
el punto de coordenadas (X, Y).
Restando Y de Ý tenemos:
Nota: en lo que sigue representaremos con letras minúsculas las desviaciones de las obser
vaciones con respecto a las medias, de modo que:
ZË= X;-X,
Tenemos con esto, otra forma de escribir ecuación de la línea mínimo cuadrática es:
(13.14)
para la cual se tuvo en cuenta la relación:
ya que C e; =0como consecuencia de la primera ecuación de (1.11).

Así el residuo se puede expresar como:
(13.15)
13.4. PROPIEDADES DE LOS ESTIMADORES MíNIMOS CUADRÁTICOS 11
De modo que la suma de los cuadrados de los residuos es:
=l i=1
Minimizando esta última expresión con respecto aß tenemos:
n T
(L)
i=1 i=1
-2(u- B
z:) =0
i=1
y despejando , obtenemos:
(13.16)
Calculando la derivada segunda tenemos:
(L)=2}>0 i=1
la misma es positiva por lo tanto, la suma alcanza un mínimo para este estimador de la
pendiente.
El término independiente (ordenada al origen) se lo obtiene mediante la condición de
que línea pasa por el punto de coordenadas (X, Y), es decir:
(13.17)
13.4 Propiedades de los estimadores mínim0s cuadráticos
Para poder aplicar los estimadores mínimos cuadráticos en la inferencia estadística, es

necesario estudiar sus propiedades.
Para ello supondremos que los valores de X; son fijos, es decir que podemos elegir un
conjunto de valores de X y mantenerlos constantes en repetidas muestras.
Tomemos una muestra de tamaño n, los valores de Y varían de muestra en muestra como
consecuencia de las diferentes extracciones de la distribución de u en cada muestra. Apli
cando las fórmulas de @y B a cada conjunto de observaciones muestrales se genera una
serie de valores de & y B. La distribución de estos valores es la distribución muestral
conjunta de los estimadores mínimos cuadráticos. Considerando las dos distribuciones
marginales de @y ß nos interesan las medias y las varianzas de estas distribuciones.
El primer aspecto a observar sobre los estimadores mínimos cuadráticos es que son fun
ciones lineales de las observaciones reales de Y, de (13.16) tenemos:
Li1 :(Y-)
Pero L Z; = L(X;-X) = Ll Xi- LX= nX -nX = 0, o sea que la

suma de las desviaciones alrededor de su media es siempre igual a cero.
Por lo tanto:
(13.18)
i=l
Estas w; son constantes en el muestreo y se denominan "pesos" ó "ponderaciones". Las

propiedades que estos w; cumplen son:
i=1
-=0
1
i=1
L W;z; = W; (X; - X) = C w;X; - X C= w; = C w;X;
pero L1 W;t; =
Por lo tanto, W;T; = Di W;Xi=1
Dado que B= Y; = L= w;Yi, y como los w; son constantes, entonces B

es una combinación lineal de los valores Y;.
Mediante un tratamiento algebraico similar podemos expresar a &como:
n
(13.19)
i=1 i=1 i=1
Esta última expresión nos muestra que @es una combinación lineal de los valores Y;.
Una propiedad importante de los estimadores puntuales es que la distribución de ellos sea
centrada alrededor de algún parámetro poblacional.
O sea que es de esperar que si se toman muchas muestras del mismo tamaño, partiendo
de la misma distribución, y si de cada una de ellas se obtiene un valor de 8, la media
aritmética de todos los valores de ß está muy cerca de B. Los estimadores puntuales que
satisfacen esta propied ad se denominan insesgados.
Probaremos que B es un estimador lineal insesgado de .
Vimos en (13.18) que Bse puede expresar como una combinación lineal de los Y, de modo
que:
13.4. PROPIEDADES DE LOS ESTIMADORES MINIMOS CUADRÁTICOs 13
B-wY,=w;(a +BX; +)
i=1 i=1
Puesto que los valores muestrales observados deben satisfacer la condición:
Y; =a+ BX; + u;
Volviendo a la expresión anterior, tenemos:
w;a+)w;ßX; +)w;u; =ß+)w;u; (13.20)

i=1 i=l i=l i=l
en esta última expresión se han empleado las propiedades antes probadas para los pesos
Wi.
Aplicando el operador esperanza en ambos miembros de la igualdad, se tiene:
w; =8+E \i=l 1=1

(13.21)
puesto que en las hipótesis generales del modelo, se pide E(u;) =0.
Al aplicar el operador E, se comprueba la hipótesis de que los valores de X son constantes,
ya que sólo se aplicó esperanza a los u; y a los valores de Y, pero no a X; vemos así que
Bes un estimador insesgado de .
Análogamente probaremos que aes un estimador insesgado de a.
E4-Xu) (a+ AX, +) T
-X«w+-X0}X+-Xu)
i=1 i=1 i=1 =1
= at
*2-*«)
resumiendo:
az a+)(- Xu) (13.22)

Aplicando el operador esperanza miembro a miembro
E(@) =
E(a) +
o-x)
E(a)+ -Xu)B(u)
1=1
Entonces:
E(@) =a (13.23)
Tenemos que &es un estimador lineal insesgado de a.
Obtendremos las varianzas de los estimadores minimocuadráticos, del siguiente modo:
Var() - s-B)
Li=1
i=1
1
De modo que:
Var(9) (13.24)
En la obtención de este resultado hemos tenido en cuenta las propiedades de los pesos w;
y las hipótesis generales sobre los términos de error u;.
De manera similar, para hallar la varianza del estimador de la ordenada al origen hacemos:
Var(@) =
=
=
13.4. PROPIEDADES DE LOS ESTIMADORES MÍNIMOS CUADRÁTICOS 15
1=1
Die1 + nX\
n Li1
De modo que:
n
Var(â) o
= iX (13.25)
Otra propiedad importante que debe satisfacer un buen estimador tiene que ver con
qué tan cerca, valores particulares del mismo estén del parámetro que estiman. Sabemos
que un estimador produce una estimación puntual del parámetro y seguro que es posible
obtener más de un estimador insesgado para el mismo parámetro. Se dice con frecuenica
que "eficiencia" es un término relativo y éste no difiere mucho con la definición técnica
de lo que entendemos por un estimador eficiente (óptimo). En cierto sentido todos los
estimadores son eficientes; sim embargo algunos estimadores son más eficientes que otros.
Es decir, si consideramos dos estimadores 8, y , con sus respectivas distribuciones mues
trales para muestras del mismo tamaño, ambos son insesgados para un mismo parámetro ,
E(0) = E(0) = 0), pero se comprueba que Var(o) > Var(02), es decir la distribución
muestral de es más dispersa que la de 2. Entonces, optamos en este caso por utilizar
el estimador con menor varianza.
Probaremos a continuación que los estimadores mínimocuadráticos @y B son óptimos y
en consecuencia, son los estimadores lineales insesgados de mayor eficiencia relativa.
En primer lugar para el estimador de la pendiente B, definamos cualquier otro estimador
lineal insesgado *= CL GY, donde c; = w; + di y los pesos w; son los definidos para el
estimador de cuadrados mínimos.
B-s=a(a+8X,+ u) =«Te+T«Xi+ L
1=1 1=1 i=l i=l 1=]
Aplicando el operador esperanza a * obtenemos:
~)(n)()
aci+Bc;X;+
1=1
cE(u:)
i=l
Para que el segundo miembro final sea igual a , las constantes c; deben cumplir las
condiciones:
" Ch c; =0
Estas condiciones junto con c; = W; t d; y las propiedades que cumplen los pesos w; del
estimador de cuadrados mínimos, nos permiten obtener las iguientes propiedades para
las constantes d;:
" dË = L1(ci - w;) =L1 Ci-C1W; =0
" L diX; = C(Ci - w;)X; =CL1 CGX;- 1 W;X; =1-1=0
La varianza del estimador lineal insesgado arbitrario es:
Li=1
= El(a+BX; + u)
1=1 i=1 i=l
=
E|+)
= E[C;; +..+ cu+ 2c1cCguj ug t.. + 2cn-1Cn un-1 Un]

=
i=1
Pero:
puesto que:
=0
Con esto, la varianza última se expresa como:
Var(î) = o()i+)4)
i=1 i=l
+ot4 1=1
13.4. PROPIEDADES DE LOS ESTIMADORES MINIMOS CUADRÁTICOS 17
=
Var() +oi Z4 =1
> Var(â)
La d?es necesariamente mayor estricta que cero, pues al ser distinto de B, difieren
en al menos un coeficiente en las combinaciones lineales respectivas, esto es, existe un j
tal que cj# w; por lo tanto, d; #0.
Con todo lo anterior, hemos demostrado que el estimador de la pendiente por el método de
cuadrados mínimos es el estimador lineal insesgado de menor varianza frente a cualquier
otro estimador lineal insesgado para B.
Una verificación análoga puede hacerse con respecto al estimador de la ordenada al origen
Definimos otro estimador lineal arbitrario para a,como:

A
a'=)cY;
i=1
con ci = m; + d; y d; ¬ R
Para que a* sea un estimador lineal insesgado de a, los d; deben cumplir ciertas condi
ciones.
a'-TeY; -Lela+ pX;+u) =«c; +8«Xi+e

=1 =1 1=1 i=l =1
Aplicando el operador esperanza a a obtenemos:
aa+BaX;+E(u) i=1 i=l

n
i=l i=l
Para que segundo miembro final sea igual a a, las constantes c; deben cumplir las
condiciones:
Estas condiciones junto con c; = m; + d; y las propiedades que cumplen los pesos m;
( - Xw;) del estimador de cuadrados mínimos, nos permiten obtener las siguientes
propiedades para las constantes d;:
Ld, = Ch(Gi-m;) =Cc;-L M, =1-l=0
" C diX;= i(C; - m;) X;= L1 C;X;- Li1 m;X; =0
La varianza del estimador lineal insesgado arbitrario es:
18 CAPITULO 13. REGRESIÓN LINEAL YCORRELACIÓN
Var
= E[c(a+ BX; +u;)-a?

2
= E|a+BaX;+ay-a
i=l i=l
2
i=1
2
=1
Pero:
puesto que:
CL mid, =C-Xw;)d;=CL di -XL w;d; =0
Con esto, la varianza última se expresa como:
Var
() = m+4) i=1
:-x)'+)4
i=1 i=1
Var(@) +oi4
i=l
> Var(@)
A
La d es necesariamente mayor estricta que cero, pues al ser a* distinto de @, difieren

en al menos un coeficiente en las combinaciones lineales respectivas, esto es, existe un j
tal que c; m; por lo tanto, d; # 0.
Con todo lo anterior, hemos demostrado que el estimador de la ordenada al origen por el
método de cuadrados mínimos es el estimador lineal insesgado de menor varianza frente a
cualquier otro estimador lineal insesgado para a.
Nos queda una sola cosa por encontrar, para completar el modelo, y es el estimador de
o para ello, intuitivamente parece razonable pensar que se puede utilizar los residuos o
errores de la linea de regresión por mínimos cuadrados para realizar dicha estimación.
13.4. PROPIEDADES DE LOS ESTIMADORES MINIMOS CUADRÁTICOs 19
Teniamos de (13.15) que: e; = y;- B z;. Promediando los Y;, para los n valores muestrales,
obtenemos Y = a+ BX + T,
por otro lado, y; = Bz; + (u; - k), de donde e; = -(8-0)z; + (4; - )
Por lo tanto:
T1
1=1
Cd=(0-9)2 T +(; - )²- 2(ß -8) z:(4 - )
1=1 t= 1=1
Aplicando esperanza matemática en ambos miembros y distribuyendo en los términos del

segundo miembro, se tiene:
debido a la expresión ya encontrada para la varianza de
Li=1 Li=1 1=1 i=1

n
Li=1 i=1
E}-2n +n Li=1
T
Li=1
=1
E()-E Li=1
n¡
= (n-1)o
Por otro lado:
= E
= o
Por lo tanto:
E( =ot +(n - 1)o¢ -2o; =(n - 2)o

Con lo que:
De aquí que tiene sentido tomar como estimador insesgado de la varianza o a:
n-2 (13.26)
Veremos más adelante que la cantidad (n-2) está asociada a la variable aleatoria x_
donde la pérdida de grados de libertad se debe a la cantidad de parámetros que estimamos
en la regresión lineal.
13.5 Estimadores de Máximna Verosimilitud
A continuación aplicaremos el método de máxima verosimilitud para estimar los parámetros.

En este cálculo juega un papel importante la normalidad de los téminos de perturbación
Si tomamos una muestra aleatoria (X1, X2, ., X), la misma genera una muestra aleato
ria (u1, uz, .., u,) donde cada u; ~ N(0, o). Entonces, la función de verosimilitud será
L= L(u, uz,..., hn, a, B, o) que estádefinida como la densidad conjunta de la muestra,
es decir, la podemos escribir como el producto de las distribuciones marginales, de modo
que:
L = L(u1, u2, ., un, a, B, o)

= f(u, a, 8, o).f(ua, a, p,o).f(un, a, B, oi)
1
V2Ta,
- 1
-e
1
V2mO,
-e 2oi
V2ro,
i
2?
1
(2ro)°
=
y puesto que Y; = a +BX; + u;, resulta u,= Y; -a- BXi, con lo cual:
1
i (Y-a-BX;)?
L= 20 (13.27)
(2ro3)F
de modo que L = L(u1,h2, ., n, a, B, o). Aplicando logaritmo natural miembro a
miembro en expresión de L, se tiene:
1
In L=C=-in (2r)-In (o) -20Y
i-1 - a-BX)
13.5. ESTIMADORES DE MÁXIMA VEROSIMILITUD 21
Maximizando L para a, ß y o, tendremos como condición necesaria que VC=0, lo cual

genera un sistema homogéneo llamado normal.
VC=
ôa' 9g'ao2 (0, 0,0)
éste es equivalente a:
1
2 - a - BX) =0
i-1
X{(Y; - a-BX;) =0
1
2a2
+
2rg 2(Y-a-BX;)² =0
i=1
De la primera ecuación obtenemos:

CLY-C-CX; =0, con lo cual, Y=na + XË. El símbolo
" indica estimador máximo verosímil. De la segunda ecuación obtenemos:
LX(,-a-BX:)= LXX-«x;-0X*=0
1=1 1= 1=1 =1
con lo cual,
LXX =&Ex+Bx?
i-1 i=1 1=1
Resumiendo, tenemos:
CEY= natC X; (13.28)
Observando este sistema lineal de dos ecuaciones con dos incógnitas (a,), resulta
idéntico al sistema normal encontrado en la obtención de a, B; de modo que ay ß son
idénticos a los estimadores mínimo-cuádraticos ya encontrados; además, dado que son
funciones lineales de las u;, las cuales tienen una distribución normal multivariante, ay
Btambién se distribuyen normalmente.
Observando la ecuación la misma da el estimador máximo-verosimil de la variancia
de la perturbación que es:
i=l
Apesar que la distribución bivariada de &y Bqueda determinada, se tiene sin embargo
que las variancias y covariancia contienen a la varianza desconocida o.
13.6 Intervalos de Confianza para a y ß

En las secciones precedentes, hicimos un análisis exhaustivo de la estimación de los
parámetros en la recta de regresión lineal desde un enfoque puntual. Podemos también
realizar un estudio de estimación de los citados parámetros, mediante intervalos de confi
anza.
Con tal fin necesitamos en primer lugar, demostrar que la variable aleatoria tiene
una distribución x con n - 2 grados de libertad y además, que la misma se distribuye
independientemente de a y B.
Para ello, observemos que:
2
(13.29)
Esta última expresión es la suma de n cuadrados de variables normales unitarias in
dependientes, por lo tanto tiene una distribución x con n - 2 grados de libert:ad pues
estamos estimando dos parámetros y esta cantidad son los grados de libertad perdidos.
Por otra parte, recordemos la definición de una variable aleatoria con distribución t de
Student: "Si Z ~ N(0, 1) y U ~ x y Z y Uson independientes, entonces la variable
Z
aleatoria
Para construir un intervalo de confianza para a con un nivel de confiabilidad del

(1- 5).100% con 0 < ß < 1, primero tengamos en cuenta que bajo el supuesto de nor
malidad para los términos de perturbación u, @n a,ypor lo tanto, es
tandarizando esta variable, resulta:
Z= (& -a)/nL n N(0, 1) (13.30)

Además, trabajando de un modo similar al de la ecuación (1.29) se demuestra que:
(13.31)
con Udistribuída en forma independiente de Z.
En consecuencia, la variable aleatoria:
t=
~t(n-2) (13.32)
En esta última expresión, u es la desviación estándar estimada de la perturbación, de

acuerdo a lo definido en la expresión (13.26). Observamos que la varianza o desconocida
no aparece en la expresión de t con lo cual tenemos una variable aleatoria que depende
solamente de las observaciones muestrales y del valor del parámetro a según la hipótesis.
Planteando la ecuación probabilística P(a < a< b) = 1-8 para construir un intervalo
bilateral se tiene, observando la siguiente figura:
13.6. INTERVALOS DE CONFIANZA PARA Yg 23
SI
t slz
E<)-1-4
despejando de la doble desigualdad dentro de paréntesis el parámetro a, se obtiene
la ecuación probabilística que permite hallar los extremos a y b del intervalo aleatorio en
cuestión.
<a<att =1-8 (13.33)
De manera similar, para deducir un intervalo de confianza para la pendiente B, se tiene

en cuenta que f N(8 ) por lo que
Z= (-B)VrN(0, 1) (13.34)
y además
(n -2) o?
U=
.~Xn-2) (13.35)
siendo U independiente de Z, por lo que
t=
( -9)VDz2 n t(n-2) (13.36)
y en consecuencia, trabajando con un gráfico similar a la figura anterior , planteando

la ecuación probabilística: P(a<B<) =l-8 con 0 <6<1 y trabajando de manera
análoga a la de la obtención de los extremos del intervalo de a, se llega a
P|ß- <B<B+a-1-5 (13.37)
13.7 Análisis de Correlación Lineal Simple

Los tratamientos elementales de la relación entre dos variables se centran principalmente
en el coeficiente de correlación y el principio de los mínimos cuadrados. Ya hemos desar
rollado la aplicación de los estimadores mínimos cuadráticos, procedemos ahora a mostrar
el enlace entre el análisis de correlación y los tratamientos ya expuestos.
13.7.1 Elporqué del Análisis de Correlación

Con alguna frecuencia el interés que hay en la relación entre dos variables X e Y se con
centra en determinar si están o no relacionadas, y en caso afirmativo, en averiguar que
tan fuerte es la relación.
La técnica análitica apropiada que se emplea en esta situación es el análisis de correlación;
es decir que se lo utiliza cuando se quiere conocer el grado de asociación entre las variables.
Además, en los casos en que Y es "controlada" por X, se impone la necesid ad del estudio
de regresión, ya que el mismo permite estimar el valor de Y basándose en un valor cono
cido de X. Pero cuando dos características están relacionadas, sin que se pueda decir que
una dependa de la otra, sino que ambas dependen de un factor ajeno a ellas, se impone la
necesidad del estudio de correlación.
En contraste con el análisis de regresión, el análisis de correlación requiere que tanto Y
como X sean variables aleatorias. Osea, que cada par de datos, uno de la variable X y
otro de la variable Y, se deben seleccionar al azar.
En el estudio de correlación se debe asumir que tanto X como Y se ajustan a una dis
tribución normal, mientras que en el estudio de regresión de Y sobre X, es suficiente que
los datos de la variable Y correspondientes a cada dato de la variable X se ajusten a una
distribución normal.
13.7.2 Supuestos que deben cumplirse en el estudio de correlación

La distribución conjunta de Xe Y es normal. Esta distribución recibe el nombre de
distribución normal bivariante, por ejemplo podría estar formada por la altura (X) y los
pesos (Y) de un lote de personas.
Para que el estudio de correlación tenga validez se debe asumir que:
" a) La relación entre X e Y, es en cierto sentido, lineal.
" b) En la distribución bivariada, a un valor dado de la variable X le corresponde una
"distribución normal de valores de Y" y, a su vez, a un valor dado de la variable Y le
corresponde una "distribución normal de valores de X*.
" c) Cada una de las distribuciones de Y tiene una varianza que se representa por aý; se
asume que estas varianzas son homogéneas,como así también hay homogeneidad entre las
13.7. ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE 25
varianzas a correspondientes a las distribuciones de X.

" d) Las medias de Y asociadas con los valores de X caen todas sobre una línea recta,
que es la línea de regresión de Ysobre X, igualmente todas las medias de X asociadas
con los valores de Y caen sobre una línea recta, que es la línea de regresión de X sobre
Y. Además la muestra bicaracterizada fue extraída completamente al azar sin ninguna
restricción tanto como para X como para Y.
La figura siguiente es una representación gráfica normal bivariada en donde se han tenido
en cuenta todos los supuestos.
(a) Una distrlbuclón normal blarlante (b) Corte en el que aparece una
ubpoblación de Y normal1nente
distribulda para una X dada
(c) Corte en el que aparece una

subpoblaclbn de X norumal1nente
distribulda para una Y dada
13.7.3 Coeficiente de Correlación
Consideremos los diagramas de dispersión para dos ejemplos hipotéticos.
(u) Correlaclón llneal posltira tb) Correlnción llacal negatlva (e) No huy currelaclóa
Como primer paso traslademos el origen de coordenas desde Y = 0,X = 0 hasta

Y =Y,X=X.
En la figura (a) hay una tendencia general, para la cual Y crece cuando X aumenta, con
(X,Y) como origen, la mayoría de los puntos caen en el cuadrante derecho superior y en
el cuadrante inferior izquierdo. Para un punto P de coordenadas (X, Y;) definimos las
desviaciones z; = X;-Xe y; =Y;-Y.
Consideremos el signo algebráico del producto z;-y; y la localización del punto (X¡, Y).
Para todos los puntos del cuadrante I, el producto a;.Vi es positivo.
Para todos los puntos del cuadrante II, el producto zË-y; es negativo.
Para todos los puntos del cuadrante III, el producto z;-y; es positivo.
Para todos los puntos del cuadrante IV, el producto zË-y; es negativo.
Considerando todos los puntos esperaríamos que i-y; fuera mayor que cero. De
manera semejante, de la figura (b), esperaríamos encontrar i=1 Zi-y; fuera menor que
cero (negativa).
Además, si los puntos estuvieran aún más distribuídos en los cuatros cuadrantes, los puntos
donde el producto tË-y; es negativo igualarían, aproximadamente, a los puntos donde el
producto es positivo, y se esperaría encontrar la Tiy; cerca de cero.
En consecuencia si L i-yi es positiva, existe una correlación directa (los aumentos de
X están asociados con los aumentos de Y), si es negativa hay una correlación inversa (los
aumentOs de X estan asociados con los decrementos en Y) y si es cero no hay correlación
entre Xe Y.
Estamos buscando una medida del grado de asociación, lo anterior describe una medida
para la naturaleza de la asociación entre las dos variables aleatorias, pero la medida de
Lzi-y; tal y como se ha dado tiene dos defectos o deficiencias.
1) está influenciada por las unidades de medida de X e Yo sea, que se miden en "unidades
de Y" por "unidades de X"; lo que se quiere es una medida sin unidades.
2) se puede aumentar arbitrariamente su valor añadiendo otras nuevas observaciones, o
sea que la magnitud de este término depende del tamaño de la muestra.
Para tener en cuenta la primera deficiencia, vamos a dividir C Tiyi por SxSy, en
consecuencia, la razón es una medida sin unidades de la variación relativa.. Para la segunda
deficiencia utilizamos el concepto de promedio, dividiendo la razón por n, con lo que se
obtiene el coeficiente de correlación muestral r, también conocido como coeficiente de
correlación de Pearson.
(13.38)
nSx Sy nSy Sy
en donde:
Sx =
De la definición de r obtenemos las siguientes fórmulas alternativas:
Vu /n X- (C X{)?/n C Y-( Y)?

Ajustamdo una línea ý= &+BX por mínimos cuadrados a las observaciones muestrales,
se nos presentan algunas relaciones interesantes.
Recordando que al minimizar la expresión e con respecto a ß, se obtuvo (expresión
(13.16)):
Podemos escribir ahora:
nS} Sy
nSx Sy Sx
Y por lo tanto:
Sx (13.39)
Por la definición de la línea mínimo cuadrática tenemos:
Y;-Y=Y-Ý, +Ý, -Y
o bien
=ý +e;
Elevando al cuadrado y sumado obtenemos:
i=l i=1 i=1 i=1 i=1 i=1
Pero:
e;=Z(&+BX)e; = 0
i=l i=1
como consecuencia de propiedades de los residuos e; en las ecuaciones mínimo cuadráticas.

Por lo tanto:
T 2
e (13.40)
i=1 i=1 =1
Esta expresión muestra que la variación total de los valores de Y respecto a su media
muestral puede dividirse en dos partes. La primera es la variación de los valores de
Ý respecto a su media Y, cuya suma correspondiente suele denominarse suma de los
cuadrados "debida a"ó "ezplicada por" la influencia lineal de X.
La segunda es la variación residual ó no ezplicada de los valores de Y alrededor de la línea
mínimo cuadrática. Esta expresión es la base del tratamiento en el análisis de la varianza
en el caso de dos variables, por lo tanto es conveniente usar una notación adecuada. Para
ello denominaremos con STC a la suma total de cuadrados, SCR a la suma de cuadrados
debida a la regresión y por último SCE a la suma de cuadrados del error.
Utilizando esta notación podemos escribir la igualdad (1.40) como:
STC = SCR+ SCE
Observando esta última expresión, resulta posible expresar una relación entre las desvia
ciones individuales como:
Desviación Total = Desviación Ezplicada + Desviación No Explicada
(Y -) =( -)+(%-Ý)
En la figura siguiente, se observa en el diagrama de dispersión la desviación total, expli
cada y no explicada en el análisis de regresión.
Desviación no explicada
Desviación total
>DesviaciÑn explicada
Dividiendo la suma explicada por la suma total de cuadrados tenemos:

De modo que:
Por lo tanto, el cuadrado del coeficiente de correlación, llamado a veces coeficiente de

determinación, es igual a la proporción de la variancia de Y explicada por la infiuencia
lineal de X. Por ejemplo un valor r2 = 0.96 indica que el 96% de la desviación de Y se
explica por (6 "se describe con" 6 "se toma en cuenta con") la línea de regresión.
Podemos escribir a r² de la siguiente forma:
(13.41)
Esta expresión nos muestra que el máximo valor de r² será la unidad y esto puede
ocurrir solamente cuando Se =0, es decir cuando todos ycada uno de los e; son nulos,
de forma que los puntos en el diagrama de dispersión se encuentran sobre una línea recta.
Así los límites de r son ±1 y su signo viene dado por el de Cziyi
El valor mínimo de r² es cero lo que ocurre cuando la línea de regresión es ý= Y y la
variación explicada es nula. Resumiendo:
r?=0 no refleja correlación
r?=1 refleja correlación perfecta
0< r²<1 refleja el grado de correlación
De igual forma analizando el coeficiente de correlación, el mismo tiene las siguientes car
acterísticas:
" a.- Es un número abstracto.
" b.- Su valor no puede ser mayor que +1 ni menor que -1.
" c.- Si tiene signo positivo significa que las dos características estudiadas tienden a variar
en el mismo sentido, o sea que si aumenta el valor de una característica, aumenta el valor
de la otra. Si el signo es negativo quiere decir que las características varían en sentido
contrario o sea que si se aumenta el valor de una característica disminuye de la otra y
viceversa.
" d.- La relación entre las variables es mas estrecha cuando el valor de el coeficiente de
correlación se acerque a +1 o -1.
" e.- Si la relación es perfecta, el valor de r será igual a +1 o -1 según sea positiva o
negativa la relación. Pero si no hay relación alguna el valor de r deberá ser cero.
" f.- Elvalor de r no está influenciado por el tamaño de las unidades de medidas empleadas
para medir las variables de estudio.
"g.- En una muestra bivariada, el valor de r es una constante estadística que estima el
parámetro p de la población.
En la figura de la página siguiente, se muestran algunos ejemplos de diagramas de dis
persión con sus respectivos coeficientes de correlación r de Pearson.
POSITIVAS
r=0 r= 0,5
NEGATIVAS
Y r=0,8 Yi r=1 Yi r0,5
X X
r08 Yil r=-1
X; X
13.7.4 Anáisis de la Variancia en la Regresión

Podemos interpretar a r² como medida de la fuerza de la relación lineal entre los valores
muestrales observados X e Y. Sin embargo nuestro interés primordial está en la verdadera
relación entre X e Y que existe en una población. Por lo tanto nos preguntamos si los
datos de la muestra proporcionan evidencia suficiente para indicar la existencia de una
relación lineal entre X e Y de la población. En otras palabras nos gustaría saber si un
valor muestral r = 0.84 podría haberse producido razonablemente como resultado de la
casualidad, cuando en realidad X e Y no están relacionadas linealmente. ¿ es éste un
valor de r?tan grande que no se puede atribuir a la casualidad y entonces hay que buscar
una explicación diferente, como por ejemplo, que X e Y están relacionadas linealmente?.
Justamente el análisis del procedimiento de la variancia en el análisis de regresión lineal
se lo emplea para probar la significancia de ß mediante una razón F.
Se demostró que:
~ N(0, 1)
de donde 2
( -9)/* =
( -9) 2 ~ )
y además
siendo U independiente de Z.
Por lo tanto
(8 -p) Li
e u,n-2)
F= (13.42)
(n- 2)
Cuando Xe Y no están relacionadas (B= 0) y se tienen en cuenta las suposiciones
hechas anteriormente:
Q1/1
FRV (13.43)
Qa/ (n - 2)
donde Q1=ß CL = L1 y= "suma explicada de cuadrados"; y
Q2=Ce = "suma inexplicada de cuadrados".
podemOs entonces escribir a FRy como
SCR/1 MCR
FRV = (13.44)
SCE/(n - 2) MCE
para la última expresión, el significado de las siglas respectivas es:
MCR= SR; media cuadrada de regresión.
MCE= Se:
n-2 media cuadrada del error.
FRV: valor de F calculado, en donde el suíndice RV es para indicar que se trata de

una razón entre dos varianzas.
Los denominadores 1 y n-2 son respectivamente los grados de libertad de la regresión y
del error. En general en la regresión lineal simple, el valor de los grados totales de libertad
es igual a (n- 1), el valor de los grados de libertad de la regresión es igual a l y el valor
de los grados de libertad del error es igual (n - 1)-1=n-2. La FRV nos proporciona
un estadístico de prueba para verificar la hipótesis nula:
Ho: X e Y no están rel. linealmente vs H: XeY están rel. linealmente
Si el valor de FRy excede al valor de F tabulado para 1 y (n- 2) grados de libertad, con
un nivel de significancia 6 escogido previamente, rechazamos Ho y concluímos que Xe Y
están relacionadas. Podemos resumir los cálculos en una tabla de ANOVA:
Fuente de variación G.L.Suma de Cuad. Cuad. medios FRY

Regresión (X) 1 SCR MCR MCR
MCE
Residuo (Error) n-2 SCE MCE
Total n-1 SCT
Elanálisis de la varianza resulta de gran utilidad para saber si el modelo lineal utilizado
es adecuado o no, como también conocer "la falta de ajuste".
A continuación presentamos un ejemplo concreto para el análisis de correlación lineal.
" Ejemplo 1:
Se midió la cantidad de Oxígeno (Y) en un dique a diferentes profundidades (X). Los datos
obtenidos se muestran en la siguiente tabla:
|X 15 20 30 40 50 60 70
Y 6.5 5.6 5.4 6.04.6 1.4|0.1
Para el procesamiento de los mismos se utilizó el programa Prisn. Los resultados del
análisis de regresión y correlación lineal y la representación gráfica del ajuste se muestran
en las páginas que siguen. De ellos podemos extraer las siguientes conclusiones:
1) Los datos están correlacionados en forma lineal con pendiente negativa.
2) Esta correlaci'on es alta, con coeficiente de correlación de Pearson r = 0.896.
3) La pendiente (slope) B es significativamente distinta de cero a un nivel de confiabilidad
del 95%.
4) El intervalo de confianza particular para la pendiente B es (-0.169, -0.046), el cual
evidentemente no incluye al cero.
X Labels A
Cant. de Ox. (mg/)
X
Variables
2 Slope -0.10813i ¡0.023986
3 Y-intercept 8.63102 ¿ ¡l.077471
4 X-intercept 79.820541
5 1/slope -9.2481
6 slope -0.1697 to -.0046
7 Y-intercept 5.86 to 11.40
8 Goodness of fit
9 0.802546
10 Syr 1.2044
11 is slope sign. non zero?
12 F 20.3223
13 DFn, DFd 1.0, 5.0
14 p-value .0064
desv. from zero? significant
16 Data
number of X values 7
18 number of Y replicates, max 1
19 total number values
eno Ejemplo 1
Oxig 10 -
(mg/l)
(Y)
de
Contenido5
-5
0 10 20 30 40 50 80 70 30
Profundidad (mts.) (X)

13.8. EJERCICIOS PROPUESTOS 33
13.8 Ejercicios propuestos

o Ejercicio 1
En la estimación de los parámetros a y ß de la recta de regresión, se demostró en las
clases de teoría que, el estimador de la pendiente: es el mejor estimador
lineal insesgado para B, esto es, es el que tiene mayor eficiencia relativa frente a todos los
insesgados que se puedan erpresar como combinación lineal de los valores observados Y;.
Se pide hacer una demostración análoga para el estimador de la ordenada al origen: @=
L ( - Xw;) Yi, en donde w; =
o Ejercicio 2
Demostrar que si las z; son cantidades independientes de la misma poblaciÛn, con varianza
o², entonces la variancia muestral de b= CL 4;; es o a.
Las observaciones Y; están relacionadas con las cantidades fijas X; y con las cantidades
Zi, citadas antes, por las relaciones: Y;=a+BX;+ ; (i=1,.., n). Si los valores de X;
son respectivamente 1,2,3,4, 5,6; un estimador alternativo de B es (Y% + Y5 Y; - Y).
Deducir la varianza muestral de este estimador y compararla con la varianzz muestral del
estinador mínimo cuadrático.
o Ejercicio 3
Para las siguientes muestras de pares, se pide en cada caso:
a) representarlos gráficamente en un diagrama de dispersión.
b) estimar la recta de regresión respectiva y dibujarla en el diagrama obtenido en a).
c) obtener el correspondiente intervalo de confianza para B.
d) calcular el coeficiente de correlación muestral r.
e) eztraer todas las conclusiones posibles acerca de los datos.
X 1 1 2 2 3 5 6.1 7.2
Y 2 2.5 3.3 3.9 . 1 5.3 | 5.6 5.7 6.3| 6.8 8.2 9.4
X 1 1 2 34.5 6 7.3 8.2 9.1 10

Y 3 3.1 3 3 3.1 3 3.2 3.1 3
X -4 -3.2 -2.5 -10 1.1 2.2 2.9 3.1 3.1

Y 6.8 6 5.7 3.9 3 2.8 1.7|1.9 0 -0.1
|X -1.4 -1 0.2 1.1 1.5 2.3 2.3 2.9

Y 5.1 2.9 1.9 1.03 2.2 3.25 6 6.1 9.5
X 1 1 1 1 22 22 33 33 4444 55 5
Y 1 2 34 2 3 4 5 1 234 5 1 3 4 5 1 3 5
o Ejercicio 4
Partiendo de una muestra de 200 pares de observaciones se calcularon las siguientes can
tidades:
X=11.34, SY = 20.72, X² =12.16, Y²= 84.96, XY = 22.13.
Estimar las dos rectas de regresión y la varianza del coeficiente de regresión estinado de
Y respecto a X.
(Nota: La ezposiciíon del tena de regresión se concentró sobre la estimación de los
parámetros a y en la línea Y = a + BX + u. Análogamente se puede minimizar la
suma de los cuadrados de los residuos medidos en la dirección de X mediante el ajuste de
la linea X =1+6Y +u, en la que los parámetros Yy8 se obtienen aplicando las fórmulas
de & y B intercambiando X por Y.)
o Ejercicio 5
Demostrar que si r es el coeficiente de correlación entre n pares de valores (X;, Y;), en
tonces el coeficiente de correlación entre n pares (aX; + b, cY; + d), en donde a, b, c, d son
constantes reales, es también r.
o Ejercicio 6
En muestras de leche de un cierto nrmero de vacas lecheras correspondientes a dos rebaños
se ha medido el porcentaje de grasa (X)y el porcentaje de elementos sólidos no grasos
(Y). Un resumen de los datos se dá al final. Calcular las ecuaciones de regresión lineal
de Y respecto a X, para cada rebaño, y verificar si las dos líneas difieren en la pendiente.
Rebaño I: nË = 16, X= 51.13, TY= 117.25, L:? = 1.27, Ty² = 4.78, zy =
1.84.
Rebaño II: n2 = 10, X= 37.20, Y= 78.75, ' = 1.03, y² = 2.48, Ly =
1.10.
(Nota: Si B, es N(91 ) vÉ es N(92, ) . en donde son independientes,

entonces B1-ß2 es N(81-Ba,+). Si of y o~ son desconocidas se puede hacer
un cambio en la distribución t si suponemos que o = a = o' y reunimos la suma
de los cuadrados de los residuos de cada regresión de modo que tenga una
distribución x² con nË + n24grados de libertad.)
o Ejercicio 7
Siu = az +by y v= bz ay en las que z ey representan desviaciones, y si el coeficiente
de correlación entre z e y es r, pero u y v no están correlacionadas, demostrar que:
Sysy = (a' + 6)8-8, V1-p2

o Ejercicio 8
Para ciertos datos, y= 1.2z y = 0.6y, son las líneas de regresión ezpresadas
Su
en forma de
desviaciones. Calcular Ty y , Si y =z+u, calcular rrus Tyu y
Sy
Bibliografia
[2] Wayne W. Daniel, Estadística con Aplicaciones a las Ciencias Sociales y a la Edu
cación, Ed. Mc Graw Hill, 1991.
[3] Leonard Kazmier, Alfredo Díaz Mata, Estadística Aplicada a la Administración y a la
[4] William Mendenhall, Introducción a la Probabilidad y la Estadística, Ed. Grupo Edi
torial Iberoamerica, 1987.
[5] Richard L. Mills, Estadistica para Economia y Administración, Ed. Mc Graw Hill
Latinoamerica, 1980.
[6] Lincoln L. Chao, Estadística para las Ciencias Administrativas, Ed. Mc Graw Hill
México, 1975.
[7] Ya-Lun Chou, Análisis Estadístico, Nueva Editorial Latinoamericana, 1977.
35
Contenido
14 Análisis de Regresión No Lineal Bivariado

14.2 Modelos particulares 3
14.2.1 Modelo Exponencial
14.2.2 Modelo Semilogarítmico 5
14.2.3 Modelo doblemente logarítmico
14.2.4 Modelo Inverso ó Recíproco
14.2.5 Modelo logarítmico inverso 10
14.2.6 Modelo Cuadrático
14.3 Ejemplo de aplicación 12
1
Capítulo 14
Análisis de Regresión No Lineal

Bivariado
14.1 Introducción
En el Capítulo 13 hemos centrado la atención en el estudio de la relación lineal entre dos variables
Xe Y, deseamos ahora indagar sobre otros tipos de relaciones matemáticas entre esas variables.
En muchos casos de la vida real, el entorno que rodea al problerma sugiere que la relación entre dos
variables es posible sólo de ser representada mediante un modelo no lineal.
Aunque no tengamos indicadores teóricos de que ello sea así, la simple inspección del diagrama de
dispersión suele indicarnos que intentar realizar un ajuste lineal es inapropiado.
En estas situaciones tenermos dos caminos posibles para seguir:
" realizar una transformación inicial de los datos de forma tal que la relación entre los datos trans
formados sea aproxidamente lineal y podamos aplicar lo estudiado en el primer capítulo ó
o ajustar los datOs mediante una relación no lineal específica.
Las transformaciones más empleadas son las de tipo logarítmica e inversa. La dificultad principal
al realizar estas transformaciones es que ellas conducen muchas veces a violar los supuestos funda
mentales impuestos en el modelo lineal y en consecuencia, los estimadores en la curva de regresión
pueden perder las buenas propiedades conseguidas por los de la recta de regresión, obtenidos por
mínimos cuadrados.
Analicemos en primer lugar el camino número 1.
14.2 Modelos particulares

Para ser más amplios en el tratamiento del tema, miremos algunos ejemplos de casos no lineales
susceptibles de ser linealizados mediante el empleo de logaritmos naturales y relaciones inversas.
En todos los casos supondremos que los parámetros a y ß son positivos y que estamos trabajando
en el primer cuadrante.
14.2.1 Modelo Exponencial

Para este modelo, las variables X e Y se relacionan mediante la ecuación:
Y= aefX (14.1)
El segundo miembro está definido para todo z ¬ Ry la ordenada al origen se obtiene ha
ciendo X = 0, con lo cual se obtiene Y = a. La función en cuestión es continua y se observa
que Xlim
’o
Y =o y X’-o0
lim Y = 0. Del segundo límite se desprende que la función se aproxima
3
4 CAPITULO 14. ANÁLISIS DE REGRESIÓN NO LINEAL BIVARIADO
asintóticamente al eje ~ cuando z toma valores cada vez más negativOs. Además la función es es
trictamente creciente yla pendiente de la recta tangente en un punto es positiva ( = aßex > 0)
y crece a medida que crece X. Se observan estas propiedades en el siguiente gráfico.
El modelo se linealiza haciendo el cambio de variable V = In Y y definiendo la constante

a= ln a, con lo cual el mnodelo en cuestión adopta la forma:
V=a+ BX (14.2)
Y aplicando el método de cuadrados mínimos al modelo linealizado se obtienen los siguientes
estimadores para B y a*:
AEzi- Ei(n) =Sw,(lny) (14.3)

a'= InY-X= Ina
Los pesos en la combinación lineal de la primera ecuación se definen como w; = los cuales
poseen las siguientes propiedades:
Analizamnos a continuación, las propiedades de los estimadores.
El primer aspecto a observar sobre estos estimadores es verificar si los mismos son funciones lineales
de las observaciones reales de Y, de (2.3) tenemos:
Zziy_(ln y) =w:(ny)
Observando esta última expresión tenemos, dado que los w; son constantes, que ß es una
combinación lineal en los logaritmos de Y.
Para a' tenemos:
&= ny-#x- Dn) wX(ln %) = - ) In

Esta última expresión nos muestra que a es una función lineal de los In Y.
De las últimas ecuaciones antes analizadas es posible obtener las propiedades que cumplen los pesos
Wi, las mismas son:
Li=0
14.2. MODELOS PARTICULARES 5
i-1
"L w;z; = Cil w;(X; - X) = C w;X; - XC w; = L w;X; = 1
Estudiaremos si estos estimadores son lineales insesgados, para ello, aplicando a el operador
esperanza, conjuntamente con sus propiedades tenemos:
B(Þ) = E(u(ln Y)) w; E(a° +AX, +u) =aCw+#wiXi + u, E(u4)

Nota: en lo que sigue utilizaremos la hipótesis general del modelo lineal en la que se pide que
E(u;) = 0.
Utilizando las propiedades antes mencionadas para los pesos w;, tenemos: E(B) = B. Con lo cual
vemos que B es un estimador insesgado de B.
De igual forma aplicando el operador esperanza a a* tenemos:
E(à) *((-)la)
=
na)- B( na w)+B(x)- s(KA) mXi) +

=
*((-x)-)
Vemos que a* es un estimador insesgado para a* pero no para a
14.2.2 Modelo Semilogarítmico

En este caso, las variables XeY están vinculadas a través de la relación
Y =a+ß log X (14.4)
Para esta relación, se verifica que = , con cual la pendiente de la recta tangente a la
curva en un punto decrece rápidamente cuando X aumenta (esto es, lim = 0). Este hecho
X*o dX
puede observarse en la figura siguiente.
La abscisa al origen de la curva se obtiene haciendo Y = 0, con lo que log X = - y así, el

mencionado punto es Xo =e ,
La función inversa de la relación es X = eei, que se puede escribir como
X= AB,definiendo las constantes A=e y B=et
Proponiendo el cambio de variable U = n X se linealiza el modelo como:
Y=a+ BU (14.5)
Y aplicando el principio de los mínimos cuadrados a las variables U eY, se obtiene los siguientes
estimadores de y a:
(14.6)
Los pesos en la combinación lineal de la primera ecuación se definen como

In
wi =dn:)a: los que verifican las siguientes propiedades:
" w; = S(n z;)? #0

XIn z; In z;
" w; In z; = =1
Z(nz;)2
Analizaremos, primeramente, si estos estimadores son funciones lineales de las observaciones reales
de Y.
De la ecuacion (2.6) tenemos que:
Z(ln z:)u
Z(ln z;)?
Como los w; son contantes, entonces B es una combinación lineal de los valores de Y.
Para a tenemos:
in Xw;)Y,
Expresión que nos muestra que aes una combinación lineal de los valores de Y;. Nos queda ahora
verificar si estos estimadores son estimadores lineales insesgados de los parametros en cuestión.
Aplicando el operador esperanza matemática a ß tenemos:
BÜ) = E(u; YË)

E() w;(a+Bln X;+ u:)
E( w; +w;ln X; +w;u;)
E(aw;) +E(8 wy ln X;) +E()w;u)
Aplicando las propiedades del operador esperanza y la de los pesos w; resulta:
E) = «)w, +8
De modo que no es un estimador insesgado de B.

De igual forma trabajando con &tenemos:
E(@) =
((-)
E-aXu)(la +8la X, +)
= E
-InX« w+) nx,- Jwln X nX; +L(- w,nX) w
Teniendo en cuenta las propiedades del operador esperanza y la de los pesos w; obtenemos:
E(â = a- alnXw;
Ecuación que nos muestra que a no es un estimador insesgado del parámetro a.
14.2.3 Modelo doblemente logarítmico

En este modelo, las variables están vinculadas por la relación:
(1) log Y =a+Blog X 6 (2) log Y=a-BlogX (14.7)
También podemos escribirlas como:
(1) Y = AXB A (2) Y= AX-ß
respectivamente, en donde a= log A.
En el caso (1), la pendiente de la recta tangente a la curva en un punto tiene como valor
= A8X-1 de tal manera que si:
1) B> 1+crece cuando Xcrece.
2) 0<B<l+ decrece cuandoX crece.
Para ambos casos, Y = 0.
En el caso (2), independientemente del valor de , la pendiente de la recta tangente a la curva en

un punto, decrece cuando X crece. En particular si ß = 1, se obtiene la ecuación de la hipérbola
equilátera XY = A.
Estas observaciones pueden comprobarse en las siguientes figuras.
)<<I
-B =1
(a) (b)
Este tipo de transformación es comúnmente utilizada en Econometría puesto que incorpora al

CAPITULO 14. ANÁLISIS DE REGRESIÓN NO LINEAL BIVARIADO
modelo, el supuesto de elasticidad constante entre Xe Y y la aplicación de una transformación

logarítmica doble permite obtener directamente una estimación de esta cantidad.
El modelo se linealiza haciendo el cambio de variables U= In X y V= ln Y, con lo cual se obtiene
la relación:
V=a+ BU (14.8)
Y aplicando el principio de los mínimos cuadrados a las variables U e Y, se obtiene los siguientes
estimadores de ß y a:
A - E(ln z:)(n ) -)w;(In ya)

(14.9)
Los pesos en la combinación lineal de la primera ecuación están definidos como w; = Ei:
coincidiendo con la definición de los pesos visto en el modelo anterior, por lo tanto cumplen las
mismas propiedades.
Realizando un análisis similar que en los casos anteriores para los estimadores a y ß tenemos:
1) Para a
que nos muestra al estimador a como combinación lineal en los logaritmo de Y

Para el caso de la insesgadez tenemos:
B(0) = -
w;ln X)(a +BIn X; +u;)

=E-ZwlaX0 ln X,+Din X- w;n Xln X. +2(-lax)
zo(- z)
E(o) + -wlax) S(w)
Obtenemos como resultado que &es un estimador lineal insesgado para a.
2) Para tenemos:
La cual nos muestra a ß como combinación lineal de los In Y;.

Nos queda ver si a es un estimador insesgado de a:
E(9) = E( w; In Y)
E(w:(a +8in X; +u,))
ILa elasticidad de Y con respecto a X se define como (X/Y)(dY}dX)que, en el caso (1), da como resultado
=
E(w,a +w,8 In X; +w;u)
= cE(w;) +8+w; E(u)
= )w; +
Expresión que nos muestra que no es un estimador insesgado de B.
14.2.4 Modelo Inverso ó Recíproco

Para este caso, la relación que vincula a X con Y viene dada por:
'1) Y=a+% ó(2) Y=a (14.10)

Para el caso (1), =- <0, Vz¬ Ry decrece en módulo cuando X ’ o. Se observa
también que X+0
lim Y=oy X’oo
lim Y =a. Obsérvense las figuras trazadas a continuación.
Y.
al (6)
La transformación inversa resulta entonces útil cuando se desea trabajar en el supuesto de un

nivel asintótico ya que una estimación de a es una estimación de tal nivel.
Mediante el cambio de variable U = se linealizan los modelos en cuestión quedando la relación:
Y =at BU (14.11)
Para el mnodelo "de suma", aplicando el principio de los mínimos cuadrados a las variables U e
Y,se obtiene los siguientes estimadores de y a:
(14.12)
En este caso, los pesos de la combinación lineal para el estimador de la pendiente vienen dados
por w; los que presentan las siguientes propiedades:
1) >w; = 10
2) Wi =1
E(4)'
A pesar que el estimador de B resulta ser una combinación lineal de los yi, no es insesgado
pues:
aw; ++w;u
Con lo cual:
De manera similar se demuestra que a es una combinación lineal de los y: pero no es un estimador
insesgado de a.
14.2.5 Modelo logarítmico inverso

Para este caso
log Y = a 6 Y=e-& (14.13)

Y no está definida para X = 0, pero X+0
lim Y=0 de modo que podemos redefinir Y(0) = 0 y
obtenemos una función continua en la región R= {z¬ R/z > 0}.
La pendiente de la recta tangente a la curva en un punto es:

dY
esta expresión es positiva para todo r.

Por otro lado
-
dX?
Igualando esta expresión a cero se obtiene el punto de inflexión X = . Para los valores de z
menores que él la curva es cóncava hacia arriba y, para los valores de z mayores que él, la curva
es cóncava hacia abajo. Además, X+0o
lim Y = e°. Estos detalles pueden observarse en la siguiente
figura.
B/2
El modelo se linealiza haciendo el cambio de variables U=yV= In Y, con lo cual nos

queda la relación:
V=a- BU (14.14)
Y aplicando el principio de los mínimos cuadrados a las variables Ue V, se obtiene los siguientes
estimadores de B y a:
=w;(In w)
(14.15)
&= InY+9
Los pesos de la combinación lineal para ß se definen como w; =
Los mismos verifican lo siguiente:
1) w; = +0
z()
2) w =1
E()'
A pesar que el estimador de resulta ser una combinación lineal de los yi, no es insesgado
pues:
aw;-B+w;
Con lo cual:
E(Þ) = «)w; -BB
De manera similar se demuestra que a es una combinación lineal de los y; pero no es un estimador
insesgado de a.
El segundo camino consiste en ajustar directamente los datos originales sin recurrir a transfor
maciones previas para linealizar el modelo. Uno de los inconvenientes que aparecen en este caso,
es que principios clásicos como el de mínimos cuadrados ó el de máxima verosimilitud conducen
a ecuaciones de estimación muy complejas de resolver y en algunos casos, insolubles, aunque se
parta de modelos no lineales sencillos. Un caso especial en donde afortunadamente no aparecen
tales dificultades es aquel donde X e Y están relacionadas por medio de un polinomio. Este es el
caso del modelo presentado a continuación.
14.2.6 Modelo Cuadrático

Este es el modelo más simple de ajuste polinómico de grado mayor que 1. Para el modelo de
segundo grado se puede usar todavía el método de cuadrados mínimos sin obtener sistemas de
ecuaciones normales que sean extremadamente complicados como para poder ser resueltos por los
medios tradicionales sin recurrir a la resolución numérica.
Se sabe del Análisis Matemático que, n puntos pueden ser ajustados por un polinomio de grado
(n-1), buscamos sin embargo ajustar los n puntos por un polinomio de menor grado posible.
Supongamos entonces que las variables en cuestión están vinculadas por medio de la expresión:
Y=a+bX + cX? (14.16)

Aplicando entonces el método de cuadrados mínimos a la suma de los cuadrados de los residuos:
LY-a- BX; - cX})?

i=1
se obtiene el sistema de ecuaciones normales siguiente, que deberá ser resuelto para los parámetros
a, by c:
2Y= na +bX;+cX?
Z X{Y = a)X; +b)X}+cCx
Lx?Y, ax?+bX+
= cyX:
El ajuste obtenido por la función cuadrática se puede medir con un coeficiente análogo al r del
caso lineal, pero no deduciremos una expresión para el mismo ya que se trata de un caso particular
de análisis de correlación entre tres varibles, tema que no abarcamos en este trabajo. Detalles del
mismo pueden consultarse en [1].
Para ejemplificar un caso concreto de ajuste de puntos mediante un modelo no lineal, presentamos
a continuación la siguiente situación:
14.3 Ejemplo de aplicación

Una barra de acero de 18 cm. de longitud está sometida a un proceso de endurecimiento cuida
dosamente regulado. La dureza Y se determina en los extremos de la barray en nueve posiciones
entre ambos. La variable X mide la distancia desde el extremo izquierdo hasta cada posición de
medición de la dureza. Los resultados se muestran en la siguiente tabla:
X 0 1.8 3.6 5.4 7.2 9.0 10.8 12.6 14.4 16.2 18.0
Y 250 276| 298 335 374 414 454 503 558 604 671
Nuestro objetivo es determinar una función matemática para graduar el cambio en la dureza
a lo largo de la barra. Para ellos, luego de inspeccionar el diagrama de dispersión, sugerimos dos
ajustes alternativos:
(1) Y = A+ BX + CX? A (2) Y = HeGX

Investigamos a continuación, cuál de estas dos funciones da una mejor representación de la
relación entre X e Y.
Empleando nuevamente el programa Prism, se procede a realizar los ajustes sugeridos, obteniendo
los resultados que se muestran en las páginas siguientes. Del análisis de los mismos, se extraen las
siguientes conclusiones:
a) Ajuste Cuadrático
1) Los datos puede perfectamente ajustarse mediante este modelo ya que obtenemos un coeficiente
de correlación (múltiple) R= 0.99976.
2) Los respectivos intervalos de confianza para los parámetros A, B y C excluyen el valor cero.
3) En la prueba de bondad de ajuste (Goodness of Fit) trabajamos con 8 grados de libertad, esto
es, perdemos 3 grados libertad sobre los datos.
b) Ajuste Exponencial
1) Los datos pueden también ajustarse muy bien mediante este modelo ya que el coeficiente de
correlación (múltiple) R= 0.99962 es muy alto aunque un poco mnenor que en el otro modelo.
2) El intervalo de confianza para el parámetro H (con nombre K en la tabla de resultados) excluye
al valor cero.
14.3. EJEMPLO DE APLICACIÓN 13
3) En la prueba de bondad de ajuste trabajamos con 9 grados de libertad, es decir que perdemos
menos grados de libertad que en el ajuste anterior, sólo 2.
En consecuencia, para decidirnos por uno de ellos, nos basamos en el nivel de pérdida de grados
de libertad. Nos conviene tomar entonces el segundo ajuste.
Ejemplo 2: Ajuste cuadratico

750
Dureza(Y)
500
O 250
0 5 10 15 20
Distancia desde extremo izquierdo (X)
Ejempio 2: Ajuste exponencial

750
Dureza(Y)
500
250
0
10 15 20
Distancia desde extremo izquierdo (X)
14 CAPÍTULO 14. ANÁLISIS DE REGRESIÓN NO LINEAL BIVARIADO
Modelo (Cualrático
XLabels
Dureza
X
Equation
2 Variables
A 249.258743
4 B 12.814944
5 0.582391
6 Std. Error
7 A 2.571383
-
8
9C
B 0.664644
0.035584
95% confidencial int.
11 A 243.329) to 255.188
12 11.2823 to 14.3437
13 C 0.500381 to 0.664401
14 G0oduess of it
15
16 R
oF-Fe
Degrees of îreedom
0.999536
17 Abs. sum suares 91.134178
18 Sy 3.37517
19 Data
20 umber of X values 11
21 uber of Y replicates 1
22 total nunber values 11
23 lotal missing values
Modelo exponencial
X Labels A
Dureza
Equatiol
2 Variables
3 Start 250.198044
4 K 0.0549G8
Doubling Time 12.609959
6 Std. Error
7 Slart 1.777369
8 K 0.000533
95% conficdencial int.
Slart 246.176 to 254.218
11 0.0537617 to 0.0561748
12 DoublingTiune 12.892961 to 12.339113
13 Cioodness of fit
14 Degrees of frrdom
15 R 0.999245
16 Abs. sIn squares 148.359818
17 Sys 3.37517
18 Data
19 number of X values
20 nmber of Yreplicates
21 Lotal number values
22 Lotal missiag values
Bibliografía
[1] J. Johnston, Métodos de Econometria, Ed. Vicens Universidad, 1983.
[21 Wayne W. Daniel, Estadistica con Aplicaciones a las Ciencias Sociales ya la Educación, Ed.
Mc Graw Hill, 1991.
(3] Leonard Kazmier, Alfredo Díaz Mata, Estadística Aplicada a la Administración y a la
Iberoamerica, 1987.
5] Richard L. Mills, Estadíistica para Economía y Administración, Ed. Mc Graw Hill Latinoamer
ica, 1980.
f6] Lincoln L. Chao, Estadistica para las Ciencias Administrativas, Ed. Mc Graw Hill México,
1975.
[71 Ya-Lun Chou, Análisis Estadistico, Nueva Editorial Latinoamericana, 1977.
15

Probabilidad y Estadistica Inferencial Avila Blas

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadistica Inferencial Avila Blas

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad y Estadistica Inferencial Avila Blas

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadística Inferencial:

Dr. Orlando José Avila Bias

Lic. María Cristina Ahumada

Prof. Gisselle Collivadino de Saldeño

Prof. Jorge Osear Roig Aranda

Depósito que marca la Ley 11.723

Salta, República Argentina

• Orlando José Avila Blas

• María Cristina Ahumada

• Gisselle Collivadino de Saldeño

• Jorge Osear Roig Aranda

1 Desarrollo Prob abilístico y Estadístico en el siglo XIX 3

1.4 El papel de Quetelet

1.5 La Ley de los grandes números

nA: "número de veces que ocurre A en las n pruebas"

En base a nA podemos definir otra variable denominada frecuencia relativa de aparición de

P (lfA - PI < f) 2'. 1 - ó

la ley de los grandes números salió victoriosa de toda sospecha.

1.6 Laplace y la Teoría de errores

en probabilidad: débil, fuerte y en media (siendo la convergencia en media cuadrática, la más

\:/{>o, lim P(IX - E(X)I < {) = 1

Más detalles ver en Capítulos 7 y 12.

1.8 Pruebas de hipótesis estadísticas

El cálculo de probabilidades encuentra éxito en el estudio de la ordenación de los fenómenos colec-

Teorema de Bayes ó "de las causas"

1.10 Mecánica estadística y Teoría cinética de la materia

z = foco e - E/KT g(E)dE

dm = 41rN(____!!!__¡2/3 _v2.emv /2KT

La demostración de Maxwell no es del todo satisfactoria, ni siquiera con el perfeccionamiento

1.11 Entes aleatorios generales

1.12 Comentario Final

l'iffre Stmc" de Laplac&

La teoría se basa en dos principios fundamentales que enunciaremos a continuación.

2.2 El Principio Fundamental del Conteo

Por lo que el número de formas de hacer el proceso es:

formas distintas posibles.

S(1) f(2) f(k 2) f(k - 1) f(k)

2.3 El Principiode la Adición

N=n1 + n2++n3 >nË = 1+5+4 =10

Se emplea muy a menudo el esquema matricial siguiente

2.4.1 Subpermutaciones de elementos distintos o Variaciones

y entonces el número de asignaciones posibles se obtiene asignando a la primera paloma (E1)

Vk,neN, k<n, V+1 =

2.5 Permutaciones Circulares

" comenzando con el 1: 1231213123123.

" comenzando con el 2: 23123123123123...

2.6 Permutaciones con elementos indistinguibles

por lo tanto, 2* divide a n!.

la que se puede demostrar usando la fórmula de Wallis como aplicación de la integral:

la que luego de algunas consideraciones acerca de la existencia del límite:

En la práctica se emplea la estimación n! ) V2rn y el error que se comete en esta estimación

Para determinar el número de subconjuntos de k elementos que podemos formar a partir de un

elige el tercer (E3) y cuarto grupo (E4), lo que puede hacer de ng =

Una forma interesante de interpretar las combinaciones de n elementos tomados de a k, viene

2.7.1 Propiedades de los números combinatorios

n! (n -n)! = 1, esto representa al caso de tomar todos los elementos para

" Fórmula de recurrencia: Cp = C

(z+ y)" = k=0

Ejemplos de esta correspondencia son: (todas las tiras tienen n dígitos)

nl n x (n-1) x x(n -k+1)

dm = 41rN(__!!!¡2/3 _v2.emv /2KT

a+)"-(1) z(1+)n- +(2)a+*)n-3-.. -y()=1

(:)()+(1) (11)(i)(")-* (:)