PROBABILIDAD
PROBABILIDAD
PROBABILIDAD
PROBABILIDAD Y ESTADSTICA
INTRODUCCIN
El campo de la estadstica trata de la recoleccin, presentacin, anlisis y uso de los datos para
tomar decisiones, solucionar problemas y disear productos y procesos. La estadstica se divide en
dos grandes ramas, la estadstica descriptiva y la estadstica inferencial. La estadstica descriptiva
analiza un conjunto de datos de una poblacin y las conclusiones que se obtienen son propias de
dicha poblacin. La inferencial tambin estudia a una poblacin pero con base en un subconjunto
de valores, llamado muestra y las conclusiones sobre sta se extrapolan a toda la poblacin.
Los datos obtenidos a travs de encuestas, experimentos o cualquier otro conjunto de medidas,
suelen ser tan numerosos que resultan prcticamente intiles si no son resumidos en forma
adecuada. Por ello la estadstica utiliza tanto tcnicas grficas como numricas, algunas de las
cuales son descritos ms adelante.
TIPOS DE DATOS
Los datos pueden ser de dos tipos: cuantitativos o cualitativos. Los datos cuantitativos son los que
representan una cantidad reflejados en una escala numrica. Estos a su vez pueden clasificarse
como cuantitativos discretos si se refieren al conteo de alguna caracterstica o datos cuantitativos
continuos si se refieren a una medida. La variable espesor pertenece a este ltimo tipo.
Los diagramas de barras son una representacin de cada una de las categoras de la variable
mediante una barra colocada sobre el eje X y cuya altura sea la frecuencia o la frecuencia relativa
de dichas categoras. Los diagramas de sectores son crculos divididos en tantos sectores como
categoras, sectores cuyo ngulo debe ser proporcional a la frecuencia de cada categora.
METODOS GRAFICOS PARA DESCRIBIR DATOS CUANTITATIVOS
Si tenemos una variable cuantitativa discreta y sta toma pocos valores, podemos tratarla como si
fuera una variable cualitativa, calcular su distribucin de frecuencias y dibujar un diagrama de
barras.
Ejemplo. En una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza
un estudio sobre la calidad de produccin. Los datos siguientes informan sobre el nmero de
piezas defectuosas encontradas en una muestra de cajas examinadas:
000000111111111222222222233333334444444555566666777889
0 6
1 9
2 10
3 7
4 7
5 4
6 5
7 3
8 2
9 1
A la derecha el grfico de diagrama de barras, una grfica para datos cuantitativos discretos
Sin embargo, la mayora de variables cuantitativas son de tipo continuo, de manera que toman
demasiados valores como para que la representacin de su distribucin de frecuencias sea til. Por
ello el mtodo grfico ms comn y tradicional para datos cuantitativos es el histograma. El
histograma es una variante del diagrama de barras donde se agrupan los valores de la variable en
intervalos para que estos intervalos tengan frecuencias mayores que uno.
MEDIA: Esta medida es la ms comn dentro de las de tendencia central y corresponde al centro
de gravedad de los datos. Se calcula sumando todos los datos y dividiendo entre el nmero total
de datos. Sea la media poblacional,
La desventaja de la media es que es muy sensible al cambio de uno de sus valores o los valores
demasiado grandes o pequeos. De todos modos, es muy usada y muy til porque su ecuacin se
presta para el manejo algebraico
MEDIANA: Es el valor de la variable que deja el mismo nmero de datos antes y despus que l,
una vez ordenados stos. La mediana es el dato que est en el centro de la serie. El clculo de la
mediana depender de si el nmero de datos, n, es par o impar.
+1
La frmula para la determinar la posicin de la mediana es:
2
Si N es impar, la mediana coincide con el dato que se encuentra en la posicin obtenida en la
frmula. Por ejemplo, sean los siguientes 7, 8, 8, 9, 10, 15, 15, 17, 20, 21, 25. La mediana ocupa la
posicin:
(+1) +1 11+1
= = 6. La mediana es el dato que ocupa la posicin 6.
2 2 2
= 15.
Si N es par, se aplica la misma frmula. Utilizando los mismos datos pero eliminando el ltimo para
que n= 10.
(+1) 10+1
= = 5.5. La mediana ocupa la posicin 5 ms el 50% de la diferencia entre el sexto y
2 2
el quinto. Entonces:
= 10 + .5(15-10) = 12.5
De otra manera, se promedian los dos datos del centro, el quinto y el sexto
+
( )
2
( +1)
2 10+15
= = = 12.5.
2 2
La mediana corresponde exactamente con la idea de valor central de los datos. De hecho, puede
ser un valor ms representativo que la media, ya que es ms robusta que la media. Con un
ejemplo se ilustra esto.
MODA O INTERVALO MODAL: En principio la moda se define como el valor ms frecuente de los
datos. Lo que ocurre es que si stos son datos de una variable continua o discreta con muchos
valores, puede que los datos apenas se repitan. En ese caso, en el que, como vimos en las
representaciones grficas, se debe agrupar por intervalos, no debe darse un valor como moda,
sino un intervalo modal, aqul con mayor frecuencia asociada.
MEDIDAS DE POSICIN
Tratan de valorar de manera relativa cmo es un dato respecto del conjunto global de todos los
datos. Si, por ejemplo, un nio de 4 aos pesa 13 kilos, est desnutrido? est sano? La respuesta
debe ser que depende. Dnde vive el nio? Es importante porque, por ejemplo, en Estados
Unidos los nios son en general ms grandes que, por ejemplo, en Japn.
CUARTILES: Cuando un conjunto ordenado de datos se divide en cuatro partes iguales, los puntos
de divisin se denominan Cuartiles.
2 = 2(n + 1)/4 = 13, dato del puesto 13: 1.38 (no hay necesidad de interpolar)
3 = 3(n + 1)/4 = 19.5, dato del puesto 19: 2.16 + 0.5(2.41 2.16) = 2.285
3 = 3(n + 1)/10 = 3(25 + 1)/10 = 7.8, dato del puesto 7: 0.82 + .8(0.92 0.82) = 0.9
5 = 5(25 + 1)/10 = 13, dato del puesto 13: 1.38 Observe que = 2 = 5
CENTILES O PERCENTILES: La serie ordenada de datos se divide en 100 partes iguales y cada punto
de divisin se llaman Percentiles.
25 = 25(n + 1)/100 = 25(25 + 1)/100 = 6.5, dato del puesto 6: 0.75 + 0.5(0.82 0.75) = 0.785
En estadstica, un valor atpico es un dato que es considerablemente diferente a los otros datos de
la muestra. Con frecuencia, los valores atpicos en un conjunto de datos pueden alertar a los
estadsticos sobre las anormalidades experimentales o los errores en las mediciones tomadas, y
debido a esto puede que los descarten del conjunto de datos.
Con el rango intercuartil (RIC), que es la diferencia entre el 3 y el 1 , se pueden determinar los
datos atpicos de una serie. Al 3 se le suma 1.5RIC y al 1 se le resta 1.5RIC. Los valores se la serie
que queden fuera de ese rango se dice que son datos atpicos. Para eliminar un dato atpico debe
evaluarse si es probable que sea real o es una lectura anmala.
MEDIDAS DE DISPERSIN
Aun cuando la media es til, no comunica toda la informacin a cerca la serie de datos. Con las
medidas de dispersin se cuantifica la diversidad o concentracin de los mismos. La variabilidad o
dispersin de los datos puede describirse con la varianza o la desviacin estndar.
VARIANZA: Es un promedio de las desviaciones de cada uno de los datos con respecto a la media
elevados al cuadrado. As la varianza de la poblacin es
2 (=1 )
=1( ) =1
2 = =
En caso que estuviramos trabajando con muestras el divisor de la frmula sera n-1
2 (=1 )
=1( ) =1
2 = =
1 1
La segunda frmula es recomendable por ser ms fcil el clculo de las sumatorias. Se le conoce
como el mtodo corto. Los siguientes datos son la fuerza de desconexin en libras-pie:
(104)
1353.6
2 8
= = 0.2 (libras-pie)
8
DESVIACIN ESTNDAR: Un problema de la varianza es su unidad de medida. En el ejemplo, la
variable est definida en libras-pie, la media en libras-pie pero la varianza se expresa en (libras-
pie). De esa cuenta es que se define la desviacin estndar como la raz cuadrada de la varianza.
68% de los datos estarn dentro del intervalo 1 (13.0 1(0.45)), 12.55 ------13.0------13.45
95% de los datos estarn dentro del intervalo 2 (13.0 2(0.45)), 12.10 ------13.0------13.90
MEDIDAS DE FORMA
Las medidas de forma tratan de la forma en que se distribuyen los datos con respecto a la media.
Si estn ms distribuidos a la izquierda o a la derecha o si estn ms concentrados o menos
concentrados.
COEFICIENTE DE ASIMETRA
Una situacin ideal es que los datos se repartan en igual medida a la izquierda y a la derecha de la
media. Esa situacin en la que los datos estn repartidos de igual forma a uno y otro lado de la
media se conoce como simetra, y se dice en ese caso que la distribucin de los datos es simtrica.
En ese caso, adems, su mediana, su moda y su
media coinciden. En la grfica del salario actual,
qu nos dice la forma de distribucin de la
variable salario actual que se muestra en el
histograma.
COEFICIENTE DE CURTOSIS
El coeficiente de curtosis permite determinar el nivel de concentracin de los datos con respecto a
la media. Si la concentracin tiene a ser una distribucin normal se dice que es mesocrtica. Una
alta concentracin de datos es leptocrtica y baja concentracin es platicrtica. La frmula del
coeficiente de curtosis es
( )
K= -3
()
Un valor de este coeficiente igual a cero significa un nivel de apuntamiento como el de una
distribucin normal (mesocrtica). Valores mayores que 0, expresan que la distribucin es
leptocrtica, mientras que si son menores que 0 ponen de manifiesto que la distribucin es
platicrtica.
La principal ventaja de la distribucin normal radica en el supuesto que el 95% de los valores se
encuentra dentro de una distancia de dos desviaciones estndar de la media aritmtica; es decir, si
tomamos la media y le sumamos y le restamos dos veces la desviacin estndar, el 95% de los
casos se encontrara dentro del rango que compongan estos valores.
La distribucin de frecuencias que se muestra a continuacin corresponde a las puntuaciones en
un test de habilidades sociales aplicado a una muestra de 86 sujetos tras la tercera de seis
sesiones que recibieron a fin de mejorar este tipo habilidades
0 1 -5 25 -125 625
1 2 -4 32 -128 512
2 4 -3 36 -108 324
3 11 -2 44 - 88 176
4 16 -1 16 -16 16
5 20 0 0 0 0
6 15 1 15 15 15
7 8 2 32 64 128
8 5 3 45 135 405
9 3 4 48 192 768
10 1 5 25 125 625
=1 ( ) 318
S = = = 3.698, S = 3.698 =
86
1.923
( ) 66
As = = = 0.108
() 86(1.923)
( ) 3594
K= -3= - 3 = -0.056
() 86(1.923)
De acuerdo con los coeficientes de As y K que estn dentro del rango sealado, hay normalidad de
los datos.
PROBABILIDAD
EXPERIMENTOS ALEATORIOS
Por ejemplo, en la medicin de la corriente elctrica en un alambre de cobre, el modelo del sistema
podra ser simplemente la ley de Ohm. Debido a las entradas no controladas es de esperarse
variaciones en las mediciones de la corriente. Con suficientes mediciones es posible llegar a una
conclusin de la magnitud de la variacin. En ese sentido es importante incluir ese componente en
el anlisis.
Un experimento aleatorio es aquel que puede producir resultados diferentes, aun cuando se
repita siempre de la misma manera. Por ejemplo, la energa consumida en una reaccin qumica
puede variar cuando se repita en tiempos diferentes. Se trata de un experimento aleatorio con
varios resultados. En un da de produccin de componentes electrnicos se seleccionan dos al azar
y se observan si cumplen con las especificaciones de regulacin del encendido. Los resultados
dependen de las piezas que se hayan elegido por lo que es tambin un experimento aleatorio,
impredecible de antemano.
EVENTOS
Unin de dos eventos es el evento que consta de todos los resultados que estn contenidos en
cualquiera de los dos eventos
Interseccin de dos eventos es el evento que consta de todos los resultados que estn contenidos
en los dos eventos
Por lo menos una no cumple con las especificaciones, E3 = {sn, ns, nn}
E3= {ss} E2 = {ss, sn, ns}
INTERPRETACIN DE LA PROBABILIDAD
Un experimento aleatorio puede producir los siguientes resultados {a, b, c, d} con las
probabilidades 0.1, 0.3, 0.5 y 0.1, respectivamente. Sea A el evento {a,b}; B el evento {b, c, d} y C el
evento {d}. Entonces
Tres reglas fundamentales para resolver problemas en donde se desea determinar la probabilidad
de un evento si se conocen las probabilidades de otros eventos que estn relacionados con l.
La regla de la adicin expresa la probabilidad de que ocurran dos o ms eventos a la vez. Las
operaciones bsicas con conjuntos resultan tiles para determinar la probabilidad de un evento
conjunto. Para eventos mutuamente excluyentes (no tienen elementos en comn), simplemente
se suman ambas probabilidades
Para eventos con interseccin, es decir, eventos traslapados (tienen elementos en comn),
sumamos la probabilidad de A con la probabilidad de B y restamos la interseccin porque no se
pueden sumar dos veces.
P(AUB) = P(A) + P(B) P(AB)
En la rifa de su pueblo usted compra un nmero de los 100 que se emiten. El evento de ganar el
premio lo designaremos como A, por lo que P(A) = 1/100. Al da siguiente de celebrarse el sorteo
alguien le informa que el nmero premiado termina en 5. Ahora, la nueva probabilidad de ganar el
premio ha aumentado, P(A) = 1/10 porque solo hay 10 nmeros terminados en 5.
Supongamos que originalmente su nmero es 35. Repasemos los elementos que han intervenido
en la nueva situacin. El evento original A = {ganar el premio con el nmero 35} pero ahora
tenemos un nuevo evento, B = {el nmero premiado termina en 5}, de cuya ocurrencia se nos
informa a priori. Observamos que AB = {el nmero 35} y que la nueva probabilidad de A
condicionada por la ocurrencia del evento B, denominada probabilidad condicional, es:
Veamos este ejemplo de probabilidad condicional. En un proceso de fabricacin, 10% de las piezas
presentan imperfecciones superficiales visibles y 25% de las piezas con imperfecciones
superficiales son funcionalmente defectuosas. Sin embargo, solo 5% de las piezas sin
imperfecciones superficiales son funcionalmente defectuosas. Sea D el evento de que una pieza es
funcionalmente defectuosa y sea F el evento de que una pieza tiene una imperfeccin superficial.
Se selecciona una pieza, cul es la probabilidad de que sea funcionalmente defectuosa (P(D))
dado que la pieza tiene una imperfeccin superficial (P(DF)?
Un lote de 100 chips semiconductores contiene 20 que estn defectuosos. Se seleccionan dos
chips al azar, sin reemplazo.
En algunos casos la probabilidad condicional P(BA) podra ser igual a P(B). Esta situacin se debe
a que el resultado del evento A no afecta a la probabilidad del evento B, tal como sucedi en el
inciso c) del ejemplo anterior. Hay independencia entre un evento y otro.
La probabilidad de que un conector elctrico que se mantenga seco falle durante el periodo de
garanta de una computadora porttil es 1% y la probabilidad de que un conector se mantenga
seco es del 90%. Sea A el evento de que el conector falle y B el evento de que se mantenga seco.
Entonces la probabilidad de que un conector elctrico durante el periodo de garanta se mantenga
seco y que tambin falle:
P(A) = P(AB) U P(AB) = P(AB)P(B) + P(AB)P(B) = 0.01 X 0.9 + 0.05 X 0.1 = 0.014
La universidad est formada por tres facultades:
P(que sea alumna y que sea de la 1era facultad)= P(AB)= P(BA)P(A) = 0.6 X 0.5 = 0.3 (regla de la
multiplicacin
P(que sea alumno de cualquier facultad) = P(A) = P(AB) + P(AB) + P(AB) = (0.6 X 0.5) + (0.6 X
0.25) + (0.6 X 0.25) = 0.6 (regla de la probabilidad total)
TEOREMA DE BAYES
Antes de las preguntas analicemos el problema. Hay dos situaciones, operar a alta o baja velocidad
y llenar correcta o incorrectamente. Evento A, operar a alta velocidad y evento B, llenar
correctamente.
DISTRIBUCIN BINOMIAL
Un ensayo que solo tiene dos resultados posibles y que los ensayos que constituyen el
experimento son independientes por lo que un ensayo no afecta a otro, se dice que es un ensayo
de Bernoulli. En un ensayo de Bernoulli, la probabilidad de un xito se mantiene constante.
La probabilidad de que un bit transmitido a travs de un canal de transmisin digital se reciba con
error es 0.1 (evidentemente que no se reciba con error es 0.9). Suponiendo que lo ensayos son
independientes. Sea X el nmero de bits con error en los siguientes cuatro bits transmitidos.
Determinar P(X = 2). Con un diagrama de rbol puede determinar todos los posibles resultados
(2^4) = 16. De estos 16 resultados, el evento X = 2 consta de 6 resultados: EEOO, EOEO, EOOE,
OEEO; OEOE, OOEE. La probabilidad de cada uno de estos resultados es:
P(EEOO) = P(E)P(E)P(O)P(O) = 0.1 X 0.1 X 0.9 X 0.9 = 0.0081 (utilizando el supuesto de
independientes. Al ser 6 resultados similares y todos con la misma probabilidad, la probabilidad de
X = 2 es 6(0.0081) = 0.0486
Un experimento aleatorio que consta de n ensayos repetidos tales que: 1) los ensayos son
independientes, 2) cada ensayo produce nicamente dos resultados posibles, etiquetados como
xito y fracaso, y 3) la probabilidad de un xito en cada ensayo, denotada por p, permanece
constante, se llama experimento binomial. La variable aleatoria X que es igual al nmero de
ensayos que producen un xito tiene una distribucin binomial. Su expresin formal es:
P(X= x) = ( ) (1 )
Cada muestra de aire 10% de posibilidades de contener una molcula rara. Suponga que las
muestras son independientes. Cul es la posibilidad de que en las siguientes 18 muestras,
exactamente 2 contengan la molcula rara?
Solucin: Hay un nmero definido de ensayos (n = 18), hay una probabilidad constante = 0.1), y un
valor de X = 2.
18
P(X = 2) = ( ) (0.1)2 (0.9)182 = 153(0.1)2 (0.9)16 = 0.284
2
Determinar la probabilidad de que al menos cuatro muestras contengan la molcula rara.
18
P(X4) = ( ) (0.1)2 (0.9)18
Es mucho ms sencillo usar el evento complementario.
P(X4) = 1 P(X<4) = 1- [P(X = 0) + P(X=1) + P(X=2) + P(X=3)]= 1- (0.150 + 0.300 + 0.284 + 0.168)
P(X4) = 0.098
DISTRIBUCIN GEOMTRICA
En lugar de mantener fijo un nmero constante de ensayos, veamos la situacin de que la variable
aleatoria X denote el nmero de ensayos hasta lograr el primer xito. Por ejemplo, la probabilidad
de que un bit trasmitido a travs de un canal de transmisin digital se reciba con error es 0.1.
Entonces la variable aleatoria X ser el nmero de bits transmitidos hasta el primer error. Por
ejemplo, cual es la probabilidad de que el primer xito se consiga despus de los primeros cuatro,
es decir hasta el 5, P(X=5)
P(X=x) = ( ) p , x = 1, 2, 3, .
= 0.9984
Cul es la probabilidad de que la primera alineacin de xito requiera al menos cuatro ensayos?
Solucin: X =3, r = 1
31
P(X = 3) = ( ) (1 0.6)31 0.61 = 0.092
11
DISTRIBUCIN DE POISSON
P(X = x) =
!
2.3 2.32
P(X = 2) = = 0.265
2!
En la probabilidad de Poisson es importante usar unidades consistentes, es decir, debe
mantenerse la relacin entre el promedio y la longitud del intervalo ya que sta puede variar.
Determinar la probabilidad de 10 imperfecciones en 5 mm. Entonces, 2.3/mm equivalen a 11.5
imperfecciones en 5 mm.
11.511.510
P(X = 10) = = 0.113
10!
4.64.60
P(X 1) = 1- P(X = 0) = 1- = 1 0.01005 = 0.9899 Altsima la probabilidad, lgico
0!
DISTRIBUCION NORMAL
P(X > ) o P(X < ) = 0.5 La probabilidad de que cualquier valor de X sea mayor o menor a es 0.5
P(X = 1) = 0.6827 El 68.27% de los datos de una serie caen dentro de 1 respecto a la media
P(X = 2) = 0.9545 El 95.45% de los datos de una serie caen dentro de 2 respecto a la media
P(X = 3) = 0.9973 El 99.73% de los datos de una serie caen dentro de 3 respecto a la media
= 0.69146 0.30854
= 0.38292
= 0.91924 0.0000
= 0.91924
1000 1000
P(X 950) = 150
=0 !
Habra que calcular la probabilidad uno a uno hasta llegar a 150 y luego sumar los 151 resultados.
La dificultad es evidente. Si > 5 la aproximacin de la normal a la de Poisson es buena. Entonces
el valor de Z de la distribucin normal es
Z=