Apuntesestadistica2009 PDF
Apuntesestadistica2009 PDF
Apuntesestadistica2009 PDF
Para Antropólogos Físicos
José Luis Castrejón y Diana Troncoso
Versión de agosto de 2009
Notas para el curso de Estadística impartido en el primer semestre de la licenciatura en
Antropología Física de la Escuela Nacional de Antropología e Historia. Versión preliminar.
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
UNIDAD I
Éste enfoque sólo puede utilizarse cuando los posibles resultados simples de un
fenómeno aleatorio son EQUIPROBABLES; es decir, tienen la misma probabilidad de
ocurrir.
Dicha característica permite que, sin necesidad de realizar el experimento, las
probabilidades de los eventos puedan ser asignadas a través del razonamiento
abstracto con simplemente dividir el número de elementos del evento entre el número
de elementos del espacio muestral:
EJEMPLO
(lanzamiento de dado balanceado)
Número de elementos del espacio
Espacio muestral del fenómeno
muestral
Ω = {1,2,3,4,5,6} #Ω = 6
Sea U el evento en que, al lanzar un dado, se obtiene el número uno.
Sea D el evento en que, al lanzar un dado, se obtiene el número dos.
Sea T el evento en que, al lanzar un dado, se obtiene el número tres.
Sea C el evento en que, al lanzar un dado, se obtiene el número cuatro.
Sea Q el evento en que, al lanzar un dado, se obtiene el número cinco.
Sea S el evento en que, al lanzar un dado, se obtiene el número seis
Espacio muestral del Número de elementos
Probabilidad
evento del espacio muestral
1
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
U = {1} #U = 1 P (U ) = 1
6
D = {2} #D =1 P ( D) = 1
6
T = {3} #T = 1 P (T ) = 1
6
C = {4} #C = 1 P (C ) = 1
6
Q = {5} #Q =1 P (Q ) = 1
6
S = {6} #S =1 P(S ) = 1
6
Confirmado está entonces que el enfoque clásico es la mejor forma de asignar
probabilidades a priori cuando los eventos de un fenómeno son equiprobables.
EJEMPLO
(sexo de un recién nacido)
Sea M el evento en que el recién nacido es mujer.
Sea H el evento en que el recién nacido es hombre.
La probabilidad de estos eventos, sin embargo, no puede calcularse mediante el
enfoque clásico pues, como atestiguan varias investigaciones, en prácticamente todas
las poblaciones del mundo, nacen más hombres que mujeres.
Según el reporte Mujeres y hombres en México, 20071, en el grupo de 0 a 15 años
hay 103 hombres por cada 100 mujeres, que en términos porcentuales se traduce en
50.7% de niños y 49.3% de niñas. Si ésta es la frecuencia relativa del fenómeno “sexo
de un recién nacido”, podemos determinar que la probabilidad de los eventos M y H
son:
P ( M ) = 0.493 P ( H ) = 0.507
Es decir, antes de asignar probabilidades a los resultados de un fenómeno (cuyos
eventos no son equiprobables) es necesario haber registrado la conclusión de
ensayos anteriores.
1
Instituto Nacional de Estadística, Geografía e Informática, 2007. “Estructura de la población por edad y
sexo” y “Relación hombres-mujeres por entidad federativa y grupos de edad” en Mujeres y hombres en
México, 2007. 6, 8 p.p. Documento electrónico:
http://www.inegi.gob.mx/prod_serv/contenidos/espanol/bvinegi/productos/integracion/sociodemografico/
mujeresyhombres/2007/MyH_2007_1.pdf
2
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Pese a lo anterior, el enfoque frecuentista tampoco es útil cuando no hay posibilidad
de atestiguar el fenómeno gran número de ocasiones, ya sea por falta de tiempo o
simplemente porque el fenómeno ocurrirá una sola vez. El último método disponible
para asignar probabilidades es, por ende, atender la opinión de un experto en el
fenómeno, confiando en que éste tiene la habilidad para juzgar correctamente la
situación.
Dado que ello implica definir probabilidades de manera subjetiva, muchos de esos
juicios se expresan comparando la credibilidad entre los diferentes resultados.
EJEMPLO
(terremoto en California)
Sea S el evento en que se da un terremoto en el sur de California.
Sea T el evento en que se da un terremoto tanto en el sur como en el norte de
California.
Bajo órdenes del gobierno de California y a petición de las aseguradoras privadas
estadounidenses, expertos de tres observatorios geológicos (el Servicio Geológico
Estadounidense, el Centro de Observación de Temblores de la Universidad del Sur de
California y el Servicio Geológico Estatal de California) investigaron —basándose en
observaciones satelitales— la posibilidad de que ocurra un terremoto en el territorio
de California.
Comparando su pronóstico con el temblor que hubo en 1994 en la zona de Northridge
(6.7 grados Richter), el reporte entregado afirma que es "virtualmente cierto que
California experimente por lo menos un temblor mayor para el año 2028", y que uno
de mayor magnitud que ese ocurrirá entre los años 2037 y 2038.
Según la información, hay un 97% de probabilidades de que ocurra un terremoto
mayor en el sur de California en ese periodo, y un 93% de posibilidades de que el
movimiento incluya también al norte de California.2
P ( S ) = 0.97 P (T ) = 0.93
Éste caso es, sin duda alguna, ejemplar para explicar que en muchas ocasiones no
hay forma de atestiguar repetidamente un fenómeno para calcular las probabilidades
de sus eventos. Por ende, es necesario acercarse a los conocimientos de un
especialista para realizar tal tarea.
2
“Prevén un gran terremoto en California entre 2008 y 20038” en El Universal, Secc. El Mundo. Martes
15 de abril del 2008. Formato electrónico: http://www.eluniversal.com.mx/notas/498716.html
3
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
2. EVENTOS Y SUS PROBABILIDADES
EJEMPLO
(lanzamiento de dado)
Y al definir dicho espacio muestral
Ω = {1,2,3,4,5,6} reconocemos el número de resultados #Ω = 6
que tiene este fenómeno aleatorio:
Por otro, se denomina evento (denotado por cualquier letra mayúscula) al resultado
del ensayo de un fenómeno aleatorio. Dado que todo evento es un subconjunto del
espacio muestral, existen diversos tipos de eventos:
EJEMPLO
(lanzamiento de dado)
Sea D el evento en que, al lanzar un dado, se obtiene el número dos.
Donde comprobamos que el evento
D = {2} #D =1
D tiene sólo un resultado posible:
EJEMPLO
(lanzamiento de dado)
Sea P el evento en que, al lanzar un dado, se obtiene un número par.
Evento imposible: No denotado por una letra, sino por el símbolo de “conjunto vacío”
( ∅ ) , el evento imposible es un evento que no contiene elementos.
EJEMPLO
(lanzamiento de dado)
Sea N el evento en que, al lanzar un dado, se obtiene el número nueve.
Ya que ninguna de las caras del dado
N ={ } #N =0
regular posee el número nueve, el
∅ ={ } evento N es imposible ( ∅ ) : #∅ = 0
4
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Evento seguro: Es un evento que comprende los mismos elementos que el espacio
muestral; razón por la cual es denotado también mediante Ω .
EJEMPLO
(lanzamiento de dado)
Sea O el evento en que, al lanzar un dado, se obtiene un número menor a ocho.
El evento O posee los mismos
elementos que el espacio muestral.
O = {1, 2,3, 4,5, 6} Como todos los resultados posibles #O = 6
del lanzamiento del dado son
Ω = {1,2,3,4,5,6} menores a seis, se trata de un evento
#Ω = 6
seguro ( Ω ) ;
EJEMPLO
(lanzamiento de dado)
Sea C el evento en que, al lanzar un dado, se obtiene un número primo y D , el
evento en que se obtiene un número no primo.
C = {1, 2,3,5} Como puede verse, los eventos A y #C = 4
D = {4, 6} B no poseen elementos en común. #D = 2
EJEMPLO
(lanzamiento de dado)
Como el espacio muestra contiene
#Ω = 6 2 = 64
6
6 elementos, el número total de
eventos es 64.
⎧ ( )()( )( )( )( )( )
, 1 , 2 , 3 , 4 , 5 , 6 , ⎫
⎪ ⎪
⎪(1, 2 ) , (1,3) , (1, 4 ) , (1,5 ) , (1, 6 ) , ( 2,3) , ( 2, 4 ) , ( 2,5 ) , ( 2, 6 ) , ( 3, 4 ) , ( 3,5 ) , ( 3, 6 ) , ( 4,5 ) , ( 4, 6 ) , ( 5, 6 ) , ⎪
⎪ 1, 2,3 , 1, 2, 4 , 1, 2,5 , 1, 2, 6 , 1,3, 4 , 1,3,5 , 1,3, 6 , 1, 4,5 , 1, 4, 6 , 1,5, 6 , 2,3, 4 , ⎪
⎪ ( )( )( )( )( )( )( )( )( )( )( ) ⎪
⎪ ⎪
Ω⎨ ( 2,3,5) , ( 2,3, 6 ) , ( 2, 4,5) , ( 2, 4, 6 ) , ( 2,5, 6 ) , ( 3, 4,5 ) , ( 3, 4, 6 ) , ( 3,5, 6 ) , ( 4,5, 6 ) , ⎬
⎪ ⎪
⎪ (1, 2,3, 4 ) , (1, 2,3,5 ) , (1, 2,3, 6 ) , (1, 2, 4,5 ) , (1, 2, 4, 6 ) , (1, 2,5, 6 ) , (1,3, 4,5 ) , (1,3, 4, 6 ) , (1,3,5, 6 ) , ⎪
⎪ (1, 4,5, 6 ) , ( 2,3, 4,5 ) , ( 2,3, 4, 6 ) , ( 2,3,5, 6 ) , ( 2, 4,5, 6 ) , ( 3, 4,5, 6 ) , ⎪
⎪ ⎪
⎪⎩ (1, 2,3, 4,5 ) , (1, 2,3, 4, 6 ) , (1, 2,3,5, 6 ) , (1, 2, 4,5, 6 ) , (1,3, 4,5, 6 ) , ( 2,3, 4,5, 6 ) , (1, 2,3, 4,5, 6) ⎪⎭
5
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
EJEMPLOS DE APLICACIÓN
1. Sea la extracción de una carta (de una baraja con 52 cartas) el fenómeno a
estudiar.
⎧ Α♦, 2♦, 3♦, 4♦, 5♦, 6♦, 7♦, 8♦, 9♦,10♦, J♦,Q♦,R♦, ⎫
⎪ Α♥, 2♥, 3♥, 4♥, 5♥, 6♥, 7♥, 8♥, 9♥,10♥, J♥,Q♥,R♥, ⎪
⎪ ⎪
Ω=⎨ ⎬ ⇒ # Ω = 52
⎪ A♣, 2♣, 3♣, 4♣,5♣, 6♣, 7♣,8♣, 9♣,10♣, J♣,Q♣,R♣, ⎪
⎪⎩ Α♠, 2♠, 3♠, 4♠,5♠, 6♠, 7♠,8♠, 9♠,10♠, J♠,Q♠,R♠ ⎪⎭
a) Gracias a lo cual podemos observar las 52 posibles cartas que pueden ser
extraídas de dicha baraja.
Ahora bien, calculemos el total de subconjuntos de dicho espacio muestral:
2Ω = 252 = 4.5036x1015
b) Como podemos ver, el número de eventos posibles para este fenómeno es
inmenso: 4.5036x1015 .
A = {Α♥} ⇒ # A = 1
D = {10♦} ⇒ # D = 1
, El evento “se extrae una carta de espadas” posee 13 elementos; razón por la
que es un EVENTO COMPUESTO.
6
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
U ={ } ⇒ #U = 0
, El evento “se obtiene una carta con un uno” es un EVENTO IMPOSIBLE, ya
que este tipo de barajas, en vez de tener unos, poseen ases.
J ={ }⇒ #J =0
, El evento “se obtiene una carta con un uno” no tiene elemento alguno, por lo
cual es un EVENTO IMPOSIBLE.
⎧ Α♦, 2♦, 3♦, 4♦, 5♦, 6♦, 7♦, 8♦, 9♦,10♦, J♦,Q♦,R♦, ⎫
⎪ Α♥, 2♥, 3♥, 4♥, 5♥, 6♥, 7♥, 8♥, 9♥,10♥, J♥,Q♥,R♥, ⎪
⎪ ⎪
P=⎨ ⎬ ⇒ # P = 52
⎪ A♣, 2♣, 3♣, 4♣,5♣, 6♣, 7♣,8♣, 9♣,10♣, J ♣,Q♣ ,R ♣, ⎪
⎪⎩ Α♠, 2♠, 3♠, 4♠,5♠, 6♠, 7♠,8♠, 9♠,10♠, J♠,Q♠,R♠ ⎪⎭
Q = {Q♦,Q♥,Q♣,Q♠} ⇒ # Q = 4
7
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
tienen en común a la reina de tréboles.
⎧ Α♦, 2♦, 3♦, 4♦, 5♦, 6♦, 7♦, 8♦, 9♦,10♦, J♦,Q♦,R♦, ⎫
R=⎨ ⎬ ⇒ # R = 26
⎩ Α♥, 2♥, 3♥, 4♥, 5♥, 6♥, 7♥, 8♥, 9♥,10♥, J♥,Q♥,R♥, ⎭
5. Si E es un evento cualquiera, el
evento que contiene todos los elementos
P ( E ) + P ( Ec ) = 1
del espacio muestral que no están en E
es su EVENTO COMPLEMENTO: E c .
Por tanto, la suma de sus probabilidades
es igual a uno.
C. EJEMPLOS DE APLICACIÓN
8
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
enfoque clásico:
18
P ( R) = = 0.4865 , Según éste enfoque, la probabilidad de que la bola caiga
37
en una casilla roja es de 48.65%.
80
P(S ) = = 0.4000 , Gracias a él sabemos que la probabilidad de que salga
200
“sol” en el próximo lanzamiento es de 40.00%.
Ω = {pon una, pon dos, todos ponen (una), toma una, toma dos, toma todo} # Ω = 6
P = {pon una,todos ponen (una),} ⇒ # P = 2
3
“El 30% de la población presenta durante su vida algún tipo de alergia” en Comunicado de prensa No.
318. Secretaría de Salud. 7 de junio del 2006. Documento electrónico:
http://www.salud.gob.mx/ssa_app/noticias/datos/2006-06-07_2254.html
9
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
2
P ( P) = = 0.3333 , Según lo cual, la probabilidad de que alguien o todos
6
pongan una ficha es de 33.33%.
38 40
P (T ) = = 0.3800 P (T ) = = 0.4000
100 100
Si bien no hay forma de aquí tampoco hay forma de repetir el evento, “los
registros históricos muestran una probabilidad del 50 por ciento de que haya
precipitaciones en los días en que se llevarán a cabo las citadas ceremonias, el 8
y el 24 de agosto, respectivamente.”5
Por ende, la probabilidad del evento “lluvia durante las ceremonias” ( L ) es de:
P ( L ) = 0.5000
4
“Aumentan denuncias por delitos ambientales en el DF” en El Universal, Secc. DF. 1° de junio del
2008. Formato electrónico: http://www.eluniversal.com.mx/notas/511216.html
5
“Controlarán clima en JO 2008 con cohetes” en El Siglo de Durango. 2 de enero del 2008. Dirección
electrónica: http://www.elsiglodedurango.com.mx/noticia/152651.controlaran-clima-en-jo-2008-con-
cohetes.siglo
10
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Comprobemos ahora que la probabilidad de todos los eventos de dichos fenómenos
es mayor a cero y menor a uno:
MONEDA
Salga águila ( A ) A = {águila} # A =1 P ( A ) = 1 = 0.5000
2
Salga sol ( S ) S = {sol} #S =1 P ( S ) = 1 = 0.5000
2
DADO
Caiga uno (U ) U = {1} #U = 1 P (U ) = 1 = 0.1667
6
Caiga dos ( D ) D = {2} #D =1 P ( D ) = 1 = 0.1667
6
Caiga tres (T ) T = {3} #T = 1 P (T ) = 1 = 0.1667
6
Caiga cuatro ( C ) C = {4} #C = 1 P ( C ) = 1 = 0.1667
6
Caiga cinco ( Q ) Q = {5} #Q =1 P ( Q ) = 1 = 0.1667
6
Caiga seis ( S ) S = {6} #S =1 P ( S ) = 1 = 0.1667
6
Ahora confirmemos que la suma las probabilidades de todos los eventos de cada
fenómeno es igual a uno:
MONEDA
Salga águila ( A ) P ( A ) = 1 = 0.5000
P ( A) + P ( S ) = 1 + 1 = 2 = 1
2
Salga sol ( S ) P ( S ) = 1 = 0.5000
2 2 2
2
DADO
Caiga uno (U ) P (U ) = 1 = 0.1667 Caiga cuatro ( C ) P ( C ) = 1 = 0.1667
6 6
Caiga dos ( D ) P ( D ) = 1 = 0.1667 Caiga cinco ( Q ) P ( Q ) = 1 = 0.1667
6 6
Caiga tres (T ) P (T ) = 1 = 0.1667 Caiga seis ( S ) P(S ) = 1 = 0.1667
6 6
P (U ) + P ( D ) + P (T ) + P ( C ) + P ( Q ) + P ( S )
TOTAL
= 1 + 1 + 1 + 1 + 1 + 1 = 6 =1
6 6 6 6 6 6 6
MONEDA
Sea A el evento en que sale un águila.
A = {águila} # A =1 P ( A ) = 1 = 0.5000
2
Como el lanzamiento de una moneda sólo tiene dos resultados, el evento
complementos es “sale sol”
S = {sol} #S =1 P ( S ) = 1 = 0.5000
2
La suma de estos eventos debe ser, por tanto, igual a uno:
11
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
P ( A) + P ( S ) = 1 + 1 = 2 = 1
2 2 2
DADO
Sea N el evento en que cae un número non.
N = {1,3,5} #N =3 P ( N ) = 3 = 0.5000
6
El evento complemento de tal evento es: “cae un número par”
P = {2, 4, 6} #P =3 P ( P ) = 3 = 0.5000
6
Eventos cuya suma es igual a uno:
P ( N ) + P ( P) = 3 + 3 = 6 = 1
6 6 6
Por el contrario, dijimos que el evento seguro ( Ω ) es aquél que contiene los mismos
elementos que el espacio muestral. El hecho de que este suceso comprenda todos los
⎡ k
⎤
eventos posibles ⎢ P ( E1 ) + ... + P ( Ek ) =
⎣
∑ P ( E ) =P ( Ω )⎥⎦
i =1
i implica, por tanto, que la
probabilidad del evento seguro siempre sea la máxima ⎡⎣ P ( E ) ≤ 1⎤⎦ ; esto es, igual a
uno:
Evento complemento
Por otro lado, revisamos que un evento complemento (E )c
es aquél que contiene
todos los elementos del espacio muestral que no están en el evento E . Si la suma de
⎣ ( )
sus probabilidades es igual a uno ⎡ P ( E ) + P E c = 1⎤ , la probabilidad del evento
⎦
complemento puede calcularse restando a uno la probabilidad del evento E :
12
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Evento intersección y unión
Las cosas cambian, no obstante, cuando un evento comprende dos o más eventos
( E1 , E2 , E3 ,..., Ek ) . Por ello es que estudiando la teoría de conjuntos recordaremos:
1. Que el conjunto que contiene los elementos comunes a dos conjuntos ( A y B ) es
llamado intersección y denotado por A ∩ B .
2. Que el conjunto que contiene todos los elementos de A y B es llamado unión y
denotado por A ∪ B .
Ahora bien, igual que en la teoría de conjuntos, en probabilidad se denomina evento
intersección al evento que comprende sólo los elementos comunes a dos o más
eventos ( E1 , E2 , E3 ,..., Ek ) :
EVENTO INTERSECCIÓN I = ( E1 ∩ E2 )
Por otro lado, se llama evento unión al evento que contiene los elementos de dos o
más eventos ( E1 , E2 , E3 ,..., Ek ) :
EVENTO UNIÓN U = ( E1 ∪ E2 )
EVENTO INTERSECCIÓN
Evento en que suceden todos I = ( E1 ∩ E2 )
los eventos.
EXPRESIÓN PARA ASIGNAR P ( I ) = P ( E1 ∩ E2 )
PROBABILIDAD A LA
# de elementos comunes entre E1 y E 2
INTERSECCIÓN DE P ( E1 ∩ E2 ) =
EVENTOS CUALESQUIERA # de elementos del espacio muestral
2) Un evento unión sucede cuando se da uno u otro evento. Por tal motivo, la
probabilidad de un evento unión se puede calcular sumando las probabilidades
individuales de los eventos y restando a ello la probabilidad de su intersección:
EVENTO UNIÓN
Evento en que sucede al menos U = ( E1 ∪ E2 )
uno u otro de los eventos.
EXPRESIÓN PARA ASIGNAR
PROBABILIDAD A LA P (U ) = P ( E1 ∪ E2 ) = P ( E1 ) + P ( E2 ) − P ( E1 ∩ E2 )
UNIÓN DE EVENTOS
CUALESQUIERA
13
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Intersección y unión de eventos ajenos
Los eventos ajenos son, sin embargo, un caso especial de las expresiones anteriores.
Dado que no tienen elementos en común ⎡⎣( E3 ∩ E4 ) = ∅ ⎤⎦ , la probabilidad de
intersección entre dos o más de ellos es siempre igual a cero; además, por deducción,
la probabilidad de su evento complemento es igual a uno:
PROBABILIDAD DE EVENTO
PROBABILIDAD DE
COMPLEMENTO RESPECTO A UN
EVENTO INTERSECCIÓN
EVENTO INTERSECCIÓN
ENTRE EVENTOS AJENOS
ENTRE EVENTOS AJENOS
P ( E3 ∩ E4 ) = 0 P ( E3 ∩ E4 ) = 1
c
P (U ) = P ( E3 ∪ E4 ) = P ( E3 ) + P ( E4 ) − P ( E3 ∩ E4 )
P (U ) = P ( E3 ∪ E4 ) = P ( E3 ) + P ( E4 ) − 0
P (U ) = P ( E3 ∪ E4 ) = P ( E3 ) + P ( E4 )
Leyes de probabilidad
Leyes D’Morgan
LEYES D’MORGAN
P ( A ∩ B) = P ( A ∪ B ) P ( A ∪ B ) = P ( Ac ∩ B c )
c c c c
Leyes distributivas
LEYES DISTRIBUTIVAS
P ( A ∩ ( B ∪ C )) = P (( A ∩ B ) ∪ ( A ∩ C )) P ( A ∪ ( B ∩ C )) = P (( A ∪ B ) ∩ ( A ∪ C ))
Revisemos y apliquemos ahora todo lo anterior utilizando, una vez más, un sencillo
fenómeno aleatorio: el lanzamiento de un dado.
14
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Ejemplos de aplicación
D ={ }⇒ #D = 0
El evento es imposible; por tanto: P ( ∅ ) = 0
F = {1} ⇒ # F = 1 P ( F ) = 1 = 0.1667
6
P ( G ) = 1 − P ( F ) = 1 − 0.1667 = 0.8333
15
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
H = {5} ⇒ # H = 1 P ( H ) = 1 = 0.1667
6
I = {1,3,5} ⇒ # I = 3 P ( I ) = 3 = 0.5000
6
H = {5} I = {1,3,5}
16
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
P ( H ∩ J ) = 1− P ( H ∩ J ) = 1− 0 = 1
c
Sabemos que: H = {5} y que I = {1,3,5} . Por tanto, al unir los dos eventos
tenemos: ( H ∪ I ) = {1,3,5,5} . Pero, para calcular la probabilidad, hay que
eliminar el elemento común: ( H ∩ I ) = {5} ⇒ ( H ∪ I ) = {1,3,5} , resultando en:
P ( H ∪ I ) = 3 = 0.5000
6
Esto, claro está, es más sencillo aplicando la expresión para probabilidad de unión
de eventos cualesquiera (no ajenos):
Sabemos que: H = {5} y que J = {1, 2,3} . Por tanto, al unir los dos eventos
17
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Finalmente comprobemos las leyes D’Morgan y las leyes distributivas con ayuda de
tres eventos:
A = {2, 4, 6} ⇒ # A = 3 P ( A ) = 3 = 0.5000
6
B = {4,5, 6} ⇒ # B = 3 P ( B ) = 3 = 0.5000
6
Leyes D’Morgan:
P ( A ∩ B ) = P ( Ac ∪ B c ) P ( A ∪ B ) = P ( Ac ∩ B c )
c c
A = {2, 4, 6} ⇒ # A = 3 P ( A) = 3
6
Ac = {1,3,5} P ( A) = 1 − P ( A) = 1 − 3 = 3
c
6 6
B = {4,5, 6} ⇒ # B = 3 P ( B) = 3
6
B c = {1, 2,3} P ( B) = 1− P ( B) = 1− 3 = 3
c
6 6
( A ∩ B ) = {4, 6} P ( A ∩ B) = 2
6
P ( A ∩ B) = 1− P ( A ∩ B) = 1− 2 = 4
c
, 6 6
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
( A ∪ B ) = {2, 4,5, 6}
no ajenos P ( A ∪ B) = 3 + 3 − 2 = 4
6 6 6 6
P ( A ∪ B) = 1− P ( A ∪ B) = 1− 4 = 2
c
, 6 6
18
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
(A c
∩ B c ) = {1,3} P ( Ac ∩ B c ) = 2
6
P ( Ac ∪ B c ) = P ( Ac ) + P ( B c ) − P ( Ac ∩ B c )
(A c
∪ B c ) = {1, 2,3,5}
no ajenos P ( Ac ∪ B c ) = 3 + 3 − 2 = 4
6 6 6 6
P ( A ∩ B) = 4 P ( A ∪ B) = 2
c c
6 6
P( A ∪ B ) = 4
c c
P( A ∩ B ) = 2
c c
6 6
P ( A ∩ B ) = P ( Ac ∪ B c ) P ( A ∪ B ) = P ( Ac ∩ B c )
c c
= 4 = 0.6667 = 2 = 0.3333
6 6
,
, Finalmente, si sustituimos letras por eventos y elementos, podemos concluir que:
Leyes distributivas:
P ( A ∩ ( B ∪ C )) = P (( A ∩ B ) ∪ ( A ∩ C )) P ( A ∪ ( B ∩ C )) = P (( A ∪ B ) ∩ ( A ∪ C ))
Elementos para comprobar
A = {2, 4, 6} ⇒ # A = 3 P ( A) = 3
6
B = {4,5, 6} ⇒ # B = 3 P ( B) = 3
6
C = {1, 2,3,5} ⇒ # C = 4 P (C ) = 4
6
( A ∩ B ) = {4, 6} P ( A ∩ B) = 2
6
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
( A ∪ B ) = {2, 4,5, 6}
no ajenos P ( A ∪ B) = 3 + 3 − 2 = 4
6 6 6 6
( A ∩ C ) = {2} P( A∩C) = 1
6
P ( A ∪ C ) = P ( A) + P ( C ) − P ( A ∩ C )
( A ∪ C ) = {1, 2,3, 4,5, 6}
no ajenos P( A∪C) = 3 + 4 − 1 = 6
6 6 6 6
( ( A ∪ B ) ∩ ( A ∪ C ) ) = {2, 4,5, 6} P (( A ∪ B ) ∩ ( A ∪ C )) = 4
6
P (( A ∩ B ) ∪ ( A ∩ C )) = P ( A ∩ B ) + P ( A ∩ C )
( ( A ∩ B ) ∪ ( A ∩ C ) ) = {2, 4, 6}
ajenos P (( A ∩ B ) ∪ ( A ∩ C )) = 2 + 1 = 3
6 6 6
19
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
, Es decir:
Probabilidad condicional
20
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Dicho esto, podemos hacer otra excepción a la fórmula general: al ser la probabilidad
de intersección de eventos ajenos igual a cero, su probabilidad condicional deviene
también cero:
Eventos independientes
EVENTOS INDEPENDIENTES P ( A B ) = P ( A)
A y B son eventos independientes ⇔ P ( B A) = P ( B )
REGLA DE LA
P ( A ∩ B)
P ( A B) = MULTIPLICACIÓN DE
P ( B) P ( A ∩ B) EVENTOS
⇒ = P ( A) ⇒ INDEPENDIENTES
P ( B)
P ( A B ) = P ( A) P ( A ∩ B ) = P ( A) ⋅ P ( B )
21
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
P ( E1 ∩ E2 ) = P ( E1 ) ⋅ P ( E2 )
⇒ P ( E1 ∩ E2 ∩ E3 ∩ ... ∩ EK ) = P ( E1 ) ⋅ P ( E2 ) ⋅ P ( E3 ) ⋅ ... ⋅ P ( EK )
k
⇒ P ( E1 ∩ E2 ∩ E3 ∩ ... ∩ EK ) = ∏ P ( Ei )
i =1
Ejemplos de aplicación
22
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
CRIBA
AUSENCIA INCIPIENTE SEVERA
( A) (I ) (S ) TOTAL
FEMENINO
21 34 52 107
(F )
SEXO
MASCULINO
36 20 17 73
(M )
TOTAL 57 54 69 180
a) sea femenino?
b) presente criba incipiente?
c) sea femenino y presente criba incipiente?
d) sea femenino o presente criba incipiente?
e) presente criba incipiente dado que es femenino?
f) presente criba dado que es masculino?
a) sea femenino?
23
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
e) presente criba incipiente dado que es femenino?
OPCIÓN 1 Para tal probabilidad
condicional necesitamos las
P ( F ∩ I ) 34 180
probabilidades individuales
de ambos eventos y la
P I F =
P(F )
= ( = )
6120
107 180 19260
= 0.3178
probabilidad de su
intersección:
OPCIÓN 2
De entrada tenemos que, al haber tres casillas posibles (local, empate y visita), la
probabilidad de atinarle al resultado de cada partido es:
1
P ( Ai ) =
3
Ahora bien, sabemos que para ganar el premio mayor deben marcarse correctamente
el resultado de todos los encuentros. Esto es:
⎡⎛ 1 ⎞ ⎛ 1 ⎞⎛ 1 ⎞⎛ 1 ⎞⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞⎛ 1 ⎞⎛ 1 ⎞⎛ 1 ⎞⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎤
P ( G ) = ⎢⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎥
⎣⎝ 3 ⎠ ⎝ 3 ⎠⎝ 3 ⎠⎝ 3 ⎠⎝ 3 ⎠ ⎝ 3 ⎠ ⎝ 3 ⎠ ⎝ 3 ⎠⎝ 3 ⎠⎝ 3 ⎠⎝ 3 ⎠⎝ 3 ⎠ ⎝ 3 ⎠ ⎝ 3 ⎠ ⎦
14
⎛1⎞
P ( G ) = ⎜ ⎟ = 2.0908 x10−7
⎝ 3⎠
24
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
1 1 1
P (U ) = P ( D) = P (T ) =
56 55 54
1 1 1
P (C ) = P (Q ) = P(S ) =
53 52 51
P ( G ) = ⎡⎣ P (U ) ⋅ P ( D ) ⋅ P (T ) ⋅ P ( C ) ⋅ P ( Q ) ⋅ P ( S ) ⎤⎦
⎡⎛ 1 ⎞ ⎛ 1 ⎞⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎤ 1
P ( G ) = ⎢⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎥ =
⎣⎝ 56 ⎠ ⎝ 55 ⎠⎝ 54 ⎠ ⎝ 53 ⎠ ⎝ 52 ⎠ ⎝ 51 ⎠ ⎦ 2.3377 x10
10
P ( G ) = 4.2777 x10−11
, Y así nos percatamos de que atinarle al Melate es mucho más difícil; de hecho, la
probabilidad de acertar por azar a los seis números es de 0.0000000042777%.
MONEDA
Ω = {águila, sol} #Ω = 2
Aparece “sol”
S = {sol} #S =1 P(S ) = 1
2
25
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
DADOS
Ω = {1,2,3,4,5,6} #Ω = 6
Sale “número primo”
R = {1, 2,3,5} #R = 4 P ( R) = 4
6
RULETA
⎧0,1, 2, 3, 4, 5, 6, 7,8, 9,10,11,12,13,14,15,16,17,18,19, 20, ⎫
Ω=⎨ ⎬ # Ω = 37
⎩ 21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34, 35, 36 ⎭
Cae “número par”
A = {2, 4, 6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32, 34, 36} # A = 18 P ( A ) = 18
37
P ( G ) = P ( R ∩ S ∩ A)
P ( G ) = ⎡⎣ P ( R ) ⋅ P ( S ) ⋅ P ( A ) ⎤⎦
⎛ 1 ⎞ ⎛ 4 ⎞⎛ 18 ⎞ 72
P ( G ) = ⎜ ⎟ ⎜ ⎟⎜ ⎟ = = 0.1622
⎝ 2 ⎠ ⎝ 6 ⎠⎝ 37 ⎠ 444
GRUPO PORCENTAJE
A 20.00%
B 8.00%
AB 1.00%
O 71.00%
Calcular la probabilidad de que una persona X pueda recibir sangre de una persona Y
(ambas elegidas al azar), a sabiendas de las siguientes limitaciones:
⎪⎧ ( A, A) , ( A, B ) , ( A, AB ) , ( A, O ) , ( B, A ) , ( B, B ) , ( B, AB ) , ( B, O ) , ⎪⎫
Ω=⎨ ⎬
⎪⎩( AB, A ) , ( AB, B ) , ( AB, AB ) , ( AB, O ) , ( O, A ) , ( O, B ) , ( O, AB ) , ( O, O ) , ⎪⎭
26
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
⎡ P ( A, A ) + P ( A, O ) + P ( B, B ) + P ( B, O ) + P ( AB, A ) ⎤
P ( D) = ⎢ ⎥
⎢⎣ + P ( AB, B ) + P ( AB, AB ) + P ( AB, O ) + P ( O, O ) ⎥⎦
Y el tipo de sangre de una persona es independiente del grupo sanguíneo que tiene la
otra:
⎡( P ( A ) ⋅ P ( A ) ) + ( P ( A ) ⋅ P ( O ) ) + ( P ( B ) ⋅ P ( B ) ) + ( P ( B ) ⋅ P ( O ) ) + ( P ( AB ) ⋅ P ( A ) ) ⎤
P ( D) = ⎢ ⎥
⎢⎣ + ( P ( AB ) ⋅ P ( B ) ) + ( P ( AB ) ⋅ P ( AB ) ) + ( P ( AB ) ⋅ P ( O ) ) + ( P ( O ) ⋅ P ( O ) ) ⎥⎦
P ( D) = ⎢
( ) ( )
⎡ P ( A )2 + ( P ( A ) ⋅ P ( O ) ) + P ( B )2 + ( P ( B ) ⋅ P ( O ) ) + ( P ( AB ) ⋅ P ( A ) ) ⎤
⎥
⎢
⎢⎣ ( )
+ ( P ( AB ) ⋅ P ( B ) ) + P ( AB ) + ( P ( AB ) ⋅ P ( O ) ) + P ( O )
2 2
( )
⎥
⎥⎦
P ( D) = ⎢
( ) ( )
⎡ ( 0.2 )2 + ( ( 0.2 ) ⋅ ( 0.71) ) + ( 0.08 )2 + ( ( 0.08 ) ⋅ ( 0.71) ) + ( ( 0.01) ⋅ ( 0.2 ) ) ⎤
⎥
⎢
⎢⎣ ( )
+ ( ( 0.01) ⋅ ( 0.08 ) ) + ( 0.01) + ( ( 0.01) ⋅ ( 0.71) ) + ( 0.71)
2
( 2
) ⎥
⎥⎦
P ( D ) = 0.7593
, La probabilidad de que una persona X pueda recibir sangre de una persona Y
(siendo ambas elegidas al azar) es de 75.93%.
7. Revisemos por último el caso de una familia mexicana que, a fin de llevar a
cabo una planificación familiar, ha decidido tener descendientes hasta que nazca la
primer niña; claro está, con un máximo de cinco retoños. De acuerdo al INEGI la
probabilidad de que el recién nacido sea hombre es de 0.507, mientras que la
probabilidad de que nazca una mujer es de 0.493. Suponiendo que dichos eventos son
independientes, calcular las siguientes probabilidades:
Ω = {( F ) , ( M , F ) , ( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
a) ¿Cuál es la probabilidad de que finalmente haya más niños que niñas?
27
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
O = {( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
P (O ) = P (( M , M , F ) ∪ ( M , M , M , F ) ∪ ( M , M , M , M , F ) ∪ ( M , M , M , M , M ))
P ( O ) = ⎡⎣ P ( M , M , F ) + P ( M , M , M , F ) + P ( M , M , M , M , F ) + P ( M , M , M , M , M ) ⎤⎦
⎡ ( P ( M ) ⋅ P ( M ) ⋅ P ( F )) + ( P ( M ) ⋅ P ( M ) ⋅ P ( M ) ⋅ P ( F )) ⎤
P (O ) = ⎢ ⎥
⎢⎣ + ( P ( M ) ⋅ P ( M ) ⋅ P ( M ) ⋅ P ( M ) ⋅ P ( F ) ) + ( P ( M ) ⋅ P ( M ) ⋅ P ( M ) ⋅ P ( M ) ⋅ P ( M ) ) ⎥⎦
⎣ ( 2
) ( 3
) (
P ( O ) = ⎡ ( 0.507 ) ⋅ 0.493 + ( 0.507 ) ⋅ 0.493 + ( 0.507 ) ⋅ 0.493 + ( 0.507 ) ⎤
4 5
⎦ ) ( )
⎣ ( 2
) ( 3
) (
P ( O ) = ⎡ ( 0.507 ) ⋅ 0.493 + ( 0.507 ) ⋅ 0.493 + ( 0.507 ) ⋅ 0.493 + ( 0.507 ) ⎤
4 5
⎦ ) ( )
P ( O ) = ⎡⎣( 0.257 ⋅ 0.493) + ( 0.130 ⋅ 0.493) + ( 0.066 ⋅ 0.493) + ( 0.033) ⎤⎦
, La probabilidad de que esta familia tenga más niños que niñas es de 25.7%.
P (( M , M , F ) ∩ M ) P (( M , M , F ))
P (T ) = P ( ( M , M , F ) M ) =
0.127
= = = 0.250
P(M ) P(M ) 0.507
,La probabilidad de que, dado que el prime hijo es varón, la familia tenga finalmente
tres hijos es de 25.00%
Veamos por último otro par de formas para analizar la probabilidad de eventos
relacionados: 1) la ley de probabilidad total, que tomando en cuenta la probabilidad de
todas las causas posibles, permite determinar la probabilidad de un evento
consecuencia y 2) el teorema de Bayes, que habiendo observado un evento
consecuencia, hace posible deducir la probabilidad de los diferentes eventos
causantes.
28
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Ley de probabilidad total
Considérese primero un conjunto finito de eventos ({ B } i i =1...k ) diferentes al vacío,
mutuamente excluyentes y que conforman un espacio muestral ( Ω ) :
( B1 ∩ B2 ∩ B3 ∩ ... ∩ Bk ) = ∅
k
( B1 ∪ B2 ∪ B3 ∪ ... ∪ Bk ) = ∪ Bi = Ω
i =1
⎛ k ⎞
P ( B1 ∪ B2 ∪ B3 ∪ ... ∪ Bk ) = P ⎜ ∪ Bi ⎟ = P ( Ω )
⎝ i =1 ⎠
P ( B1 ) + P ( B2 ) + P ( B3 ) + ... + P ( Bi ) = 1
( A ∩ Ω) = A
( A ∪ Ω) = Ω
Si los eventos ajenos ( Bi ) tienen partes en común con A , dicho evento cualquiera, su
tamaño y probabilidad pueden ser descritos de la siguiente manera:
A = ⎡⎣ A ∩ ( B1 ∪ B2 ∪ B3 ∪ ... ∪ Bk ) ⎤⎦
A = ⎡⎣( A ∩ B1 ) ∪ ( A ∩ B2 ) ∪ ( A ∩ B3 ) ∪ ... ∪ ( A ∩ Bk ) ⎤⎦
P ( A ) = ⎡⎣ P ( A ∩ B1 ) + P ( A ∩ B2 ) + P ( A ∩ B3 ) + ... + P ( A ∩ Bk ) ⎤⎦
29
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
P ( A ∩ Bi )
P ( A Bi ) = ⇒ P ( A ∩ Bi ) = P ( A Bi ) ⋅ P ( Bi )
P ( Bi )
P ( A ) = ⎡⎣ P ( A B1 ) ⋅ P ( B1 ) + P ( A B2 ) ⋅ P ( B2 ) + P ( A B3 ) ⋅ P ( B3 ) + ... + P ( A Bk ) ⋅ P ( Bk ) ⎤⎦
⎡ k ⎤
LEY DE PROBABILIDAD TOTAL ( )
P ( A) = ⎢∑ P A B j ⋅ P ( B j )⎥
⎣ j =1 ⎦
Como su nombre lo dice, dicha ley permite calcular la probabilidad total de un evento
cualquiera ( A ) tomando en cuenta su probabilidad condicional ⎡⎣ P A B ⎤⎦ , así como ( )
la existencia y probabilidad a priori de otros sucesos ⎡⎣ P ( Bi ) ⎤⎦ .
Gracias a ello, la ley de probabilidad total permite determinar la contribución de cada
uno de los posibles eventos “causa” ( Bi ) a la probabilidad de un evento
“consecuencia” ( A ) .
Teorema de Bayes
Sabiendo que:
(
P ( A ∩ Bj ) = P A Bj ⋅ P ( Bj ) )
Podemos considerar a la probabilidad condicional como:
P ( B j A) =
P ( A ∩ Bj )
=
(
P A Bj ⋅ P ( Bj ))
P ( A) P ( A)
Empero, si un fenómeno cumple con las condiciones para que la ley de probabilidad
total se verifique:
⎡ k ⎤
(
P ( A) = ⎢∑ P A B j ⋅ P ( B j )⎥ )
⎣ j =1 ⎦
La anterior probabilidad condicional se puede definir como:
P ( B j A) =
( )
P A Bj ⋅ P ( Bj )
=
( )
P A Bj ⋅ P ( Bj )
P ( A)
∑ P( A B )⋅ P(B )
k
j j
i =1
30
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
P ( B j A) =
(
P A Bj ⋅ P ( Bj ))
TEOREMA DE BAYES
∑ P( A B )⋅ P(B )
k
j j
i =1
Ejemplos de aplicación
Ω = ( B ∪ Bc )
Dado que sólo hay dos eventos causa, la probabilidad total del evento consecuencia
conlleva dos sumandos donde lo que cambia en la probabilidad condicional y en la
individual es el evento ajeno que se utiliza:
LEY DE ⎡ k ⎤
PROBABILIDAD ( )
P ( A) = ⎢∑ P A B j ⋅ P ( B j )⎥
TOTAL ⎣ j =1 ⎦
APLICACIÓN
⎣ (
P ( A) = ⎡ P ( A B ) ⋅ P ( B ) + P A Bc ⋅ P ( Bc )⎤
⎦ )
En lo que respecta al teorema de Bayes hay dos expresiones posibles: una para
calcular la probabilidad de cada causa, y aunque los denominadores son iguales entre
ellos e iguales a la expresión para la ley de probabilidad total, el numerador difiere de
nuevo en el evento ajeno que se busca:
TEOREMA DE P ( B j A) =
( )
P A Bj ⋅ P ( Bj )
∑ P( A B )⋅ P(B )
k
BAYES
j j
i =1
P ( A B) ⋅ P ( B)
P ( B A) =
P ( A B) ⋅ P ( B) + P ( A B ) ⋅ P ( B )
APLICACIÓN c c
31
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
P ( B A) =
c
( )
P A Bc ⋅ P ( Bc )
( )
P ( A B ) ⋅ P ( B ) + P A Bc ⋅ P ( Bc )
2. Supongamos que en la ENAH, la estatura del 8.0% de los hombres y del 1.0%
de las mujeres es mayor de 1.75 metros ( E ) . Si el 60.0% de los estudiantes son
mujeres y se selecciona un alumno cuya estatura es mayor de 1.75 m.: ¿cuál es la
probabilidad de que el estudiante sea:
a) mujer ( M ) ? b) hombre ( H ) ?
DATOS
Probabilidad de que el alumno mida
más de 1.75 m. dado que es hombre:
P E H = 0.08 ( )
Probabilidad de que el alumno mida
más de 1.75 m. dado que es mujer:
P E M = 0.01 ( )
Probabilidad de que el alumno sea P ( M ) = 0.60
mujer:
Al buscar la probabilidad condicional inversa (de que el estudiante sea hombre o mujer
dado que mide más de 1.75m.) aplicamos el teorema de Bayes:
TEOREMA DE P ( B j A) =
( )
P A Bj ⋅ P ( Bj )
∑ P( A B )⋅ P(B )
k
BAYES
j j
i =1
a) Sea mujer:
P(E M )⋅ P(M )
P(M E) =
P(E M )⋅ P(M ) + P(E H )⋅ P(H )
⇒ P(M E) =
( 0.01)( 0.60 ) = 0.1579
( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )
, La probabilidad de que el estudiante de más de 1.75 metros escogido al azar sea
mujer es de 15.79%.
a) Sea hombre:
P(E H )⋅ P(H )
P(H E) =
P(E M )⋅ P(M ) + P(E H )⋅ P(H )
⇒ P(H E) =
( 0.08 ) ⋅ ( 0.40 ) = 0.8421
( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )
, Dicho resultado también puede alcanzarse por evento complemento gracias a que
el fenómeno posee sólo dos eventos ajenos:
P ( H E ) = P ( M c E ) = 1 − P ( M E ) = 1 − 0.1579 = 0.8421
32
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
, En conclusión, dado que el estudiante elegido al azar mide más de 1.75 m., la
probabilidad de que sea hombre es de 84.21%.
DATOS
Probabilidad de que una persona P( E ) = 0.005
padezca la enfermedad:
, Se infiere la probabilidad de que una P( E c ) = 1 − P ( E ) = 1 − 0.005 = 0.995
persona NO padezca la enfermedad:
Probabilidad de que, dado que el
individuo está enfermo, aparezca una P (+ | E ) = 0.99
prueba positiva:
, Se infiere la probabilidad de que la
prueba sea negativa, aunque el sujeto P (+ c | E ) = 1 − P(+ | E ) = 1 − 0.99 = 0.01
padezca la enfermedad:
Probabilidad de que, dado que el
individuo NO está enfermo, aparezca una P (+ | E c ) = 0.01
prueba positiva:
, Se infiere la probabilidad de que la
prueba sea negativa, dado que el sujeto P (+ c | E c ) = 1 − P (+ | E c ) = 1 − 0.01 = 0.99
no está enfermo:
TEOREMA DE P ( B j A) =
( )
P A Bj ⋅ P ( Bj )
∑ P( A B )⋅ P(B )
k
BAYES
j j
i =1
⇒ P( E | +) =
( 0.99 )( 0.005) = 0.3322
( 0.99 )( 0.005) + ( 0.01)( 0.995 )
, La probabilidad de que el sujeto esté realmente enfermo dado que la prueba dio
positivo es de 33.22%.
33
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
b) la persona no esté enferma, aunque la prueba haya resultado positiva?
P(+ | E c ) ⋅ P( E c )
P( E c | +) =
P(+ | E c ) ⋅ P( E c ) + P(+ | E ) ⋅ P( E )
P( E c | +) =
( 0.01)( 0.995) = 0.6678
( 0.01)( 0.995) + ( 0.99 )( 0.005)
P( E | + c ) =
( 0.01)( 0.005) = 0.00005
( 0.01)( 0.005) + ( 0.99 )( 0.995)
, La probabilidad de que el individuo padezca la enfermedad, pese a un resultado
negativo en la prueba, es de 0.005%. Por lo cual podemos afirmar que la probabilidad
de un falso negativo es muy pequeña.
4. Digamos que una población está conformada por tres grupos étnicos
⎡⎣ Ω = ( X , Y , Z ) ⎤⎦ en la siguiente proporción: 0.30, 0.10 y 0.60. Si el porcentaje de
personas con ojos claros ( C ) en cada grupo es, respectivamente, de 20%, 40% y 5%,
calcular la probabilidad de que:
DATOS
Probabilidad de que el sujeto pertenezca
P ( X ) = 0.3
al grupo X:
Probabilidad de que el sujeto pertenezca
P (Y ) = 0.1
al grupo Y:
Probabilidad de que el sujeto pertenezca P( Z ) = 0.6
al grupo Z:
Probabilidad de que tenga los ojos claros,
dado que pertenece al grupo X: P (C | X ) = 0.2
34
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Probabilidad de que tenga los ojos claros, P(C | Y ) = 0.4
dado que pertenece al grupo Y:
Probabilidad de que tenga los ojos claros, P(C | Z ) = 0.05
dado que pertenece al grupo Z:
Para contestar el primer inciso requerimos la probabilidad total del evento “ojos claros”,
por ende aplicamos la ley de probabilidad total:
⎡ k ⎤
LEY DE PROBABILIDAD TOTAL ( )
P ( A) = ⎢∑ P A B j ⋅ P ( B j )⎥
⎣ j =1 ⎦
Ahora bien, como el problema nos especifica la probabilidad de que un individuo tenga
los ojos claros y sea del grupo X, basta calcular el evento complemento para asignar la
siguiente probabilidad:
b) Un individuo de esa comunidad (elegido al azar) tenga los ojos oscuros y sea
del grupo X:
P (C c | X ) = 1 − P(C | X ) = 1 − 0.2 = 0.8000
, La probabilidad de que el individuo tenga los ojos oscuros y sea del grupo X es de
80.00%.
c) La persona seleccionada sea de uno de los tres grupos, si tiene los ojos
claros:
P(C | X ) ⋅ P ( X ) ( 0.2 )( 0.3)
P( X | C ) = = = 0.4615
P(C ) ( 0.13)
P(C | Y ) ⋅ P(Y ) ( 0.4 )( 0.1)
P(Y | C ) = = = 0.3077
P(C ) ( 0.13)
P (C | Z ) ⋅ P( Z ) ( 0.05 )( 0.6 )
P(Z | C ) = = = 0.2308
P(C ) ( 0.13)
, La probabilidad de que una persona sea del grupo X, Y o Z es, respectivamente:
46.15%, 30.77% y 23.08%. Por tanto, es más probable que una persona de ojos
claros sea del grupo X.
35
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
3. VARIABLES ALEATORIAS
Una variable aleatoria es una característica en la cual los valores que toma dependen
de los resultados de un fenómeno aleatorio. Las variables aleatorias pueden ser sólo
de dos clases:
Por ejemplo:
FENÓMENO
Se lanza una moneda Ω = {águila,sol}
VARIABLE ALEATORIA (discreta)
Sea X la variable aleatoria discreta
que toma los siguientes valores: X = 0,1
X = 0 si cae águila, 1 si cae sol
FENÓMENO
Nace un bebé Ω = {mujer,hombre}
VARIABLE ALEATORIA (discreta)
Sea X la variable aleatoria discreta
que toma los siguientes valores: X = 0,1
X = 0 si es mujer, 1 si es hombre
x =1 P ( x = 1) = 0.5
36
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
∑ P ( x ) = P ( x = 0 ) +P ( x = 1)
TOTAL ∑ P ( x ) = 0.5 + 0.5
∑ P ( x) = 1
NACIMIENTO DE UN BEBÉ
FUNCIÓN GRÁFICA
x P ( x)
Gráfica de distribución de probabilidades
x=0 P ( x = 0 ) = 0.493 0.510
x =1 P ( x = 1) = 0.507
0.505
P(x)
∑ P ( x ) = P ( x = 0 ) +P ( x = 1)
0.500
0.490
-5 -4 -3 -2 -1 0 1 2 3 4 5
NACIMIENTO DE UN BEBÉ
ESPERANZA x = 0 ( 0.493) + 1( 0.507 ) = 0.507
37
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
La esperanza de una variable aleatoria discreta cualquiera es, por ende:
ESPERANZA DE UNA
VARIABLE ALEATORIA X CON E ( x ) = µx = ∑ x ⋅ P ( x )
FUNCIÓN DE PROBABILIDAD P ( x ) x
NACIMIENTO DE UN BEBÉ
E ( x ) = µx = ∑ x ⋅ P ( x )
x
1
ESPERANZA E ( x) = ∑ x ⋅ P ( x)
x =0
Varianza
Igual que la varianza de una variable cualquiera, la varianza de una variable aleatoria
discreta X con función de probabilidad P ( x ) es el promedio de la resta de los
valores con respecto a su media (en este caso, esperanza) elevada al cuadrado para
evitar signos:
∑ (x i − x)
2
Var ( x ) = E ⎡⎣ x − E ( x ) ⎤⎦
2
s =
2 i =1
n −1
Var ( x ) = E ( x 2 ) − ⎡⎣ E ( x ) ⎤⎦
2
VARIANZA DE UNA
VARIABLE ALEATORIA X CON
FUNCIÓN DE PROBABILIDAD P ( x ) Donde: E x 2 = ( ) ∑x 2
⋅ P ( x)
x
38
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Apliquémoslo a nuestros ejemplos:
LANZAMIENTO DE UNA MONEDA
Var ( x ) = E ( x 2 ) − ⎡⎣ E ( x ) ⎤⎦
2
VARIANZA
Elementos que la componen
E ( x2 ) = ∑ x2 ⋅ P ( x )
x
E ( x2 ) = ∑ x2 ⋅ P ( x )
1
E(x 2
) x =0
E(x 2
) = 0 ( 0.5) + 1 ( 0.5)
2 2
⎡⎣ E ( x ) ⎤⎦ ⎡⎣ E ( x ) ⎤⎦ = ( 0.5 ) = 0.25
2 2 2
NACIMIENTO DE UN BEBÉ
Var ( x ) = E ( x 2 ) − ⎡⎣ E ( x ) ⎤⎦
2
VARIANZA
Elementos que la componen
E ( x2 ) = ∑ x2 ⋅ P ( x )
x
E ( x2 ) = ∑ x2 ⋅ P ( x )
1
E(x 2
) x =0
E(x 2
) = 0 ( 0.493) + 1 ( 0.507 )
2 2
⎡⎣ E ( x ) ⎤⎦ ⎡⎣ E ( x ) ⎤⎦ = ( 0.507 ) = 0.257
2 2 2
Recapitulando, se dice que se conoce una variable aleatoria (cuyo valor está sometido
al azar y recibe una asignación numérica en el contexto de los resultados de un
fenómeno aleatorio) si se le caracteriza mediante:
2. Su esperanza E ( x ) = ∑ x ⋅ P(x ) .
x
( )
3. Su varianza Var ( x ) = E x 2 − [E ( x )] , donde E x 2 =
2
( ) ∑x 2
⋅ P ( x) .
x
Ejemplos de aplicación
1. Se tiran dos dados no trucados. Sea X la variable aleatoria que denota los
valores resultantes de:
39
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
⎧(1,1), (1,2 ), (1,3), (1,4 ), (1,5), (1,6 ), (2,1), (2,2 ), (2,3), (2,4 ), (2,5), (2,6 ), ⎫
⎪ ⎪
Ω = ⎨(3,1), (3,2 ), (3,3), (3,4 ), (3,5), (3,6 ), (4,1), (4,2 ), (4,3), (4,4 ), (4,5), (4,6 ),⎬ # Ω = 36
⎪(5,1), (5,2 ), (5,3), (5,4 ), (5,5), (5,6 ), (6,1), (6,2 ), (6,3), (6,4 ), (6,5), (6,6 ),⎪
⎩ ⎭
Ahora, para resolver el primer inciso, observemos los valores que toma la variable
aleatoria:
1/5
1/6
3/20
5/36 5/36
1/9 1/9
P(x)
1/10
1/12 1/12
1/20 1/18 1/18
1/36 1/36
0
0 2 4 6 8 10 12 14
x
40
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Resta entonces calcular su esperanza y varianza:
⎡ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 3 ⎞ ⎛ 4 ⎞ ⎛ 5 ⎞ ⎛ 6 ⎞⎤
⎢ 2 ⎜ 36 ⎟ + 3 ⎜ 36 ⎟ + 4 ⎜ 36 ⎟ + 5 ⎜ 36 ⎟ + 6 ⎜ 36 ⎟ + 7 ⎜ 36 ⎟ ⎥
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥
E ( x) = ⎢
⎢ ⎛ 5 ⎞ ⎛ 4 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎥
⎢ +8 ⎜ ⎟ + 9 ⎜ ⎟ + 10 ⎜ ⎟ + 11⎜ ⎟ + 12 ⎜ ⎟ ⎥
⎣ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎦
2 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12 252
E ( x) = = =7
36 36
E ( x2 ) = ∑ x2 ⋅ P ( x )
12
x=2
⎡ 2 ⎛ 1 ⎞ 2 ⎛ 2 ⎞ 2 ⎛ 3 ⎞ 2 ⎛ 4 ⎞ 2 ⎛ 5 ⎞ 2 ⎛ 6 ⎞⎤
⎢ 2 ⎜ 36 ⎟ + 3 ⎜ 36 ⎟ + 4 ⎜ 36 ⎟ + 5 ⎜ 36 ⎟ + 6 ⎜ 36 ⎟ + 7 ⎜ 36 ⎟ ⎥
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥
E(x ) = ⎢
2
⎢ 2⎛ 5 ⎞ 2⎛ 4 ⎞ 2⎛ 3 ⎞ 2⎛ 2 ⎞ 2⎛ 1 ⎞ ⎥
⎢ +8 ⎜ ⎟ + 9 ⎜ ⎟ + 10 ⎜ ⎟ + 11 ⎜ ⎟ + 12 ⎜ ⎟ ⎥
⎣ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎦
E ( x2 ) ⎡ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 3 ⎞ ⎛ 4 ⎞ ⎛ 5 ⎞ ⎛ 6 ⎞⎤
⎢ 4 ⎜ 36 ⎟ + 9 ⎜ 36 ⎟ + 16 ⎜ 36 ⎟ + 25 ⎜ 36 ⎟ + 36 ⎜ 36 ⎟ + 49 ⎜ 36 ⎟ ⎥
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥
E ( x2 ) = ⎢
⎢ ⎛ 5 ⎞ ⎛ 4 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎥
⎢ +64 ⎜ ⎟ + 81⎜ ⎟ + 100 ⎜ ⎟ + 121⎜ ⎟ + 144 ⎜ ⎟ ⎥
⎣ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎦
E ( x2 ) =
1974
= 54.83
36
⎡⎣ E ( x ) ⎤⎦ ⎡⎣ E ( x ) ⎤⎦ = ( 7 ) = 49
2 2 2
Claro está que tanta operación no sirve de nada si los resultados no son
adecuadamente interpretados:
41
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Empero, como puede verse en la función de probabilidades y en la esperanza, el
valor que mayor posibilidad tiene de salir al repetir varias veces el experimento es el 7
(6/36); no por nada ése es el número de la casa en los casinos. Por su parte, la
varianza nos indica que la dispersión de los valores con respecto al 7 es de 5.83.
1/6
5/36 5/36
1/9 1/9
P(x)
1/12 1/12
1/18 1/18
1/36 1/36
-6 -4 -2 0 2 4 6
x
⎡ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 3 ⎞ ⎛ 4 ⎞ ⎛ 5 ⎞ ⎛ 6 ⎞⎤
⎢ −5 ⎜ 36 ⎟ + −4 ⎜ 36 ⎟ + −3 ⎜ 36 ⎟ + −2 ⎜ 36 ⎟ + −1⎜ 36 ⎟ + 0 ⎜ 36 ⎟ ⎥
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥
E ( x) = ⎢
⎢ ⎛ 5 ⎞ ⎛ 4 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎥
⎢ +1 ⎜ ⎟ + 2 ⎜ ⎟ + 3 ⎜ ⎟ + 4 ⎜ ⎟ + 5 ⎜ ⎟ ⎥
⎣ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎦
E ( x) =
( −5) + ( −8) + ( −9 ) + ( −8) + ( −5) + 0 + 5 + 8 + 9 + 8 + 5 = 0
=0
36 36
42
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
VARIANZA: X = Resta de puntos de dos dados.
Elementos que la componen
E ( x2 ) = ∑ x2 ⋅ P ( x )
12
x=2
⎡ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 3 ⎞ ⎛ 4 ⎞ ⎛ 5 ⎞ ⎛ 6 ⎞⎤
⎢ 25 ⎜ 36 ⎟ + 16 ⎜ 36 ⎟ + 9 ⎜ 36 ⎟ + 4 ⎜ 36 ⎟ + 1⎜ 36 ⎟ + 0 ⎜ 36 ⎟ ⎥
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥
E ( x2 ) = ⎢
⎢ ⎛ 5 ⎞ ⎛ 4 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎥
+1⎜ ⎟ + 4 ⎜ ⎟ + 9 ⎜ ⎟ + 16 ⎜ ⎟ + 25 ⎜ ⎟
E ( x2 ) ⎢
⎣ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠
⎥
⎦
25 + 32 + 27 + 16 + 5 + 0 + 5 + 16 + 27 + 32 + 25
E ( x2 ) =
36
E ( x2 ) =
210
= 5.83
36
⎡⎣ E ( x ) ⎤⎦ ⎡⎣ E ( x ) ⎤⎦ = ( 0 ) = 0
2 2 2
43
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
3/25
1/10
2/25
P(x)
3/50
1/25
1/50
0
0 5 10 15 20 25 30 35 40
x
⎡ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 2 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 4 ⎞ ⎛ 2 ⎞⎤
⎢1⎜ 36 ⎟ + 2 ⎜ 36 ⎟ + 3 ⎜ 36 ⎟ + 4 ⎜ 36 ⎟ + 5 ⎜ 36 ⎟ + 6 ⎜ 36 ⎟ + 8 ⎜ 36 ⎟ ⎥
⎢ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥
⎢ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 4 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎥
E ( x ) = ⎢ +9 ⎜ ⎟ + 10 ⎜ ⎟ + 12 ⎜ ⎟ + 15 ⎜ ⎟ + 16 ⎜ ⎟ + 18 ⎜ ⎟ ⎥
⎢ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎥
⎢ ⎛ 2 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎥
⎢ +20 ⎜ ⎟ + 24 ⎜ ⎟ + 25 ⎜ ⎟ + 30 ⎜ ⎟ + 36 ⎜ ⎟ ⎥
⎣ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎦
1 + 4 + 6 + 12 + 10 + 24 + 16 + 9 + 20 + 24 + 30 + 16 + 36 + 40 + 48 + 25 + 60 + 36
E ( x) =
36
417
E ( x) = = 11.58
36
44
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
VARIANZA: X = Producto de puntos de dos dados.
Elementos que la componen
E ( x2 ) = ∑ x2 ⋅ P ( x )
36
x =1
⎡ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 2 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 4 ⎞ ⎛ 2 ⎞⎤
⎢ 1⎜ 36 ⎟ + 4 ⎜ 36 ⎟ + 9 ⎜ 36 ⎟ + 16 ⎜ 36 ⎟ + 25 ⎜ 36 ⎟ + 36 ⎜ 36 ⎟ + 64 ⎜ 36 ⎟ ⎥
⎢ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥
⎢ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 4 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎛ 2 ⎞⎥
E ( x 2 ) = ⎢ +81⎜ ⎟ + 100 ⎜ ⎟ + 144 ⎜ ⎟ + 225 ⎜ ⎟ + 256 ⎜ ⎟ + 324 ⎜ ⎟ ⎥
⎢ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎥
⎢ ⎥
E ( x2 ) ⎢
⎛ 2 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎛ 2 ⎞
+400 ⎜ ⎟ + 576 ⎜ ⎟ + 625 ⎜ ⎟ + 900 ⎜ ⎟ + 1296 ⎜ ⎟
⎛ 1 ⎞
⎥
⎣ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎝ 36 ⎠ ⎦
E ( x2 ) =
8281
= 230.03
36
⎡⎣ E ( x ) ⎤⎦ ⎡⎣ E ( x ) ⎤⎦ = (11.58 ) = 134.10
2 2 2
Si:
X = {0,1} Y = {1,2,3,4,5,6} W = X +Y
45
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Distribución de probabilidad
1/5
3/20
P(w)
1/10
1/20
0
0 1 2 3 4 5 6 7 8
w
⎛1⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 1⎞
E ( w ) = 1⎜ ⎟ + 2 ⎜ ⎟ + 3 ⎜ ⎟ + 4 ⎜ ⎟ + 5 ⎜ ⎟ + 6 ⎜ ⎟ + 7 ⎜ ⎟
⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠
1 + 4 + 6 + 8 + 10 + 12 + 7
E ( w) =
12
48
E ( w) = =4
12
E ( w 2 ) = ∑ w2 ⋅ P ( w )
7
w =1
⎛1⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 1⎞
E ( w2 ) = 1⎜ ⎟ + 4 ⎜ ⎟ + 9 ⎜ ⎟ + 16 ⎜ ⎟ + 25 ⎜ ⎟ + 36 ⎜ ⎟ + 49 ⎜ ⎟
⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠ ⎝ 12 ⎠
E ( w2 )
1 + 8 + 18 + 32 + 50 + 72 + 49
E ( w2 ) =
12
E ( w2 ) =
230
= 19.17
12
⎡⎣ E ( w ) ⎤⎦ ⎡⎣ E ( w ) ⎤⎦ = ( 4 ) = 16
2 2 2
46
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
CONCLUSIONES: W = Suma del resultado de una moneda y un dado lanzados
, Gracias a esto comprendemos que, de los doce resultados posibles al mezclar los
puntos del dado y la moneda, su suma puede tomar 7 valores, siendo el mínimo 1 y el
máximo 7. Las probabilidades de estos dos (1/12) son menores a la de los
intermedios (2/12), pero, como su nombre lo dice, la esperanza nos indica que 4 es el
promedio o número esperado a obtener si se repite muchas veces el experimento,
mientras que la varianza nos señala que la dispersión del resto de los valores es de
3.17.
47
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
a) Lanzar un par de dados y observar un punto en el primer dado y un punto en el
segundo dado.
b) Ser propietario de un automóvil rojo y tener el cabello rubio.
c) Ser propietario de un automóvil rojo y sufrir una picadura de llanta.
d) Estudiar para un examen y aprobarlo.
8. Si p(A)=0.3, p(B)=0.4 y si A y B son eventos independientes, ¿cuál es el valor de
cada una de las siguientes probabilidades?
a) p(A∩B) b) p(A|B) c) p(B|A)
9. Si p(A)=0.3, p(B)=0.5 y p(A∩B)=0.15, calcular:
a) p(A|B) b) p(B|A) c)¿son independientes A y B?
10. Si p(A)=0.4, p(B)=0.7 y p(A∩B)=0.22, calcular:
a) p(A|B) b) p(B|A) c)¿son independientes A y B?
11. En la siguiente tabla se presentan los resultados de una encuesta durante una
investigación para estudiar las opiniones de los habitantes de cierta ciudad
respecto a la legalización del aborto. Los datos están clasificados de acuerdo
con el área en la que fue aplicada la entrevista. Si un cuestionario es elegido
aleatoriamente,
I. ¿cuál es la probabilidad de que:
a) El entrevistado vote a favor de la legalización del aborto?
b) El entrevistado vote en contra de la legalización?
c) El entrevistado se abstenga?
d) Que el entrevistado viva en el área A? B? C? D? E?
e) El entrevistado vote a favor de la legalización del aborto dado que vive en el
área B?
II) Calcular las siguientes probabilidades
a) P(A∩R) b)P(Q∪R) c) P(D) d) P(Q|D) e)P(B|R) f)P(R)
g)P(A) h)P(F∩E) i)P(R|A) j) P(F∩Q∩R) k)P(B∪E)
12. Por descuido se colocan dos pastillas para el resfriado en un frasco que
contiene dos aspirinas. Las cuatro pastillas son idénticas en apariencia. Del
frasco se selecciona una tableta al azar y se le administra al primer paciente. De
las tres tabletas restantes se selecciona una al azar y se administra al segundo
paciente.
a) Escribir el espacio muestral
Calcula la probabilidad de que:
b) El primer paciente tomó una pastilla para el resfriado
c) Uno de los dos pacientes tomó una tableta para el resfriado
d) Ningún paciente tomó una tableta contra el resfriado
13. Supóngase que la Cd. de México se divide en tres zonas A, B y C de acuerdo al
nivel de contaminación. El 50% de la población vive en la zona A, el 40% en B
y el resto en C. El nivel de contaminación influye en la incidencia de cierta
enfermedad pulmonar, dicha enfermedad afecta a 10 de cada 100 personas que
viven en A, mientras que sólo afecta a 1 de cada 100 de los que viven en B y a 5
de cada 1000 de los que viven en C. Calcular:
48
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
a) La probabilidad de que una persona elegida al azar sufra la enfermedad y viva en
la zona A.
b) La probabilidad de que una persona elegida al azar viva en la zona B sabiendo
que está afectada por dicha enfermedad.
14. Una prueba sanguínea para detectar hepatitis tiene los siguientes niveles de
precisión: si el individuo tiene hepatitis, la prueba da positivo con probabilidad
0.9, mientras que en el 99% de los individuos sin hepatitis la prueba da
negativo.
a) La tasa de incidencia de la enfermedad en la población estudiada es de un
enfermo por cada 10,000 personas. Calcular la probabilidad de que un individuo
que ha dado positivo en la prueba tenga hepatitis.
b) Un individuo es enviado a hacerse la prueba porque tiene pérdida de apetito e
ictericia. El médico sabe que el 50% de los individuos con dichos síntomas
presentan hepatitis. Si la prueba da positivo, ¿cuál es la probabilidad de que el
paciente tenga hepatitis?
15. Una variable aleatoria x puede asumir cinco valores: 0, 1,2 3 y 4. Se muestra
enseguida una parte de de la distribución de probabilidad:
x 0 1 2 3 4
p(x) 0.1 0.3 0.3 ? 0.05
a) Encuentra p(3)
b) Realiza una gráfica de probabilidad para describir p(x)
c) Calcula esperanza y varianza
d) ¿Cuál es la probabilidad de que x sea mayor de 2?
e) ¿Cuál es la probabilidad de que x sea 3 o menos?
16. Verifique si las siguientes expresiones son o no funciones de probabilidad:
5− x
a) p ( x) = para x=1,2,3,4
10
x2 −1
b) p( x) = para x=1,2,3,4
50
17. Sea X la variable aleatoria que representa el número de niños varones en
familias de tres hijos, sabiendo que la probabilidad de que nazca un niño varón
es de 0.45:
a) Encontrar la función de distribución de probabilidades.
b) Graficar la función de probabilidad
c) Calcular Esperanza y Varianza.
49
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
UNIDAD II
4. FUNCIONES DE DISTRIBUCIÓN DE PROBABILIDAD
Introducción
A fin de explicar las variables aleatorias y su caracterización, en el capítulo anterior
vimos el ejemplo del nacimiento de un bebé:
Porque a0 = 1 a1 = a
Ahora bien, igual que en este caso, la función de probabilidades de todas las variables
aleatorias dicotómicas (que toman dos valores: 0 y 1), puede expresarse a través del
siguiente modelo:
P(x p ) = p x (1 − p ) ; x = 0,1
1− x
50
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
De entrada, veamos entonces tres modelos de distribución de probabilidad para
variables aleatorias discretas dicotómicas que pueden utilizarse en tres casos: cuándo
se desea calcular probabilidades de sólo un ensayo, cuando se realizan varios
ensayos y cuando el número de ensayos es muy grande.
Distribución Bernoulli X ~ Be ( p )
Dicho esto podemos afirmar que las variables aleatorias discretas que cumplen con
tales condiciones tienen una distribución de probabilidad Bernoulli con parámetro p :
P(x p ) = p x (1 − p ) ; x = 0,1
1− x
Función de probabilidad:
P ( x = 0 ) = p 0 (1 − p ) = 1(1 − p ) = 1(1 − p ) = 1 − p
1− 0 1
P ( x = 1) = p1 (1 − p ) = p (1 − p ) = p (1) = p
1−1 0
Porque:
1
∑ P ( x ) =P ( x = 0 ) + P ( x = 1) = (1 − p ) + p = 1
x =0
Esperanza
Si el valor esperado de una variable aleatoria discreta cualquiera es:
E ( x) = ∑ x ⋅ P ( x)
x
El valor esperado de una variable aleatoria discreta con distribución Bernoulli es:
1
E ( x p ) = ∑ x ⋅ P ( x ) = 0 (1 − p ) + 1( p ) = p
x =0
Varianza
De igual forma, si la varianza de una variable aleatoria cualquiera es:
( )
Var ( x ) = E x 2 − [E ( x )]
2
1
Debemos remarcar que esta asignación es arbitraria y no tiene ninguna connotación positiva. Baste el
ejemplo de los estudios de mortalidad, en que el éxito es igual a la muerte de un individuo.
51
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
La varianza de una variable aleatoria discreta con distribución Bernoulli es:
( )
Var ( x ) = E x 2 − [ p ]
2
( )
Y sólo nos falta deducir el valor de E x 2 p para calcularle:
1
E ( x2 p ) = ∑ x2 ⋅ P ( x )
x =0
E ( x p ) = 0 (1 − p ) + 12 ( p )
2 2
E ( x 2 p ) = 0 (1 − p ) + 1( p )
E ( x2 p ) = p
Por ende, la varianza de una variable aleatoria discreta con distribución Bernoulli se
puede calcular como:
Var ( x ) = p − [ p ] = p − p 2 = p (1 − p )
2
X ~ Be ( p )
P(x p ) = p x (1 − p ) ; x = 0,1
1− x
FUNCIÓN DE PROBABILIDAD
ESPERANZA E (x ) = p
VARIANZA Var( x ) = p(1 − p )
Ejemplos de aplicación
52
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
E ( x) = p
ESPERANZA
E ( x ) = 0.85
Var ( x ) = p (1 − p )
VARIANZA
Var ( x ) = 0.85 ( 0.15 ) = 0.1275
, Aprobar o no la clase de estadística es una variable con distribución Bernoulli, con
un valor esperado de 0.85 y una varianza de 0.1275.
ESPERANZA E ( x ) = 1 3 = 0.3333
VARIANZA Var ( x ) = 1 3 ( 2 3) = 2 9 = 0.2222
, Elegir al azar la respuesta correcta a una pregunta con 3 opciones es una variable
con distribución Bernoulli, con un valor promedio de 0.3333 y una varianza de 0.2222.
53
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
54
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
variable con distribución Bernoulli, con un valor promedio de 0.28 y una varianza de
0.2016.
Ahora bien, si la variable aleatoria discreta es dicotómica pero en vez de una sola
observación tenemos n número de casos ( xi ) , cada observación tiene una
distribución de probabilidad de tipo Bernoulli:
X = x1 + x2 + x3 + ... + xn
X = {0,1, 2,3,..., n}
P ( x n, p ) = n Cx p x (1 − p )
n− x
; x = 0,1, 2,3,..., n
55
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Analicemos paso a paso el porqué de dicha expresión con el ejemplo de hiperostosis
porótica, cuya probabilidad de presencia en un esqueleto de la colección de “Las
Fuentes” era de 12%:
CARACTERIZACIÓN
Presencia = ÉXITO Ausencia = FRACASO
= P ( xi = 1) = p = 0.12 = P ( xi = 0 ) = 1 − p = 1 − 0.12 = 0.88
TIPO DE VARIABLE X ~ Be ( p = 0.12 )
P(x p = 0.12) = 0.12 x (0.88) ; x = 0,1
1− x
FUNCIÓN DE PROBABILIDAD
ESPERANZA E ( xi ) = 0.12
VARIANZA Var ( xi ) = 0.12 ( 0.88 ) = 0.1056
Caso
Escenario posible
x1 x2 x3
A 0 0 0
B 1 0 0
C 0 1 0
D 0 0 1
E 1 1 0
F 1 0 1
G 0 1 1
H 1 1 1
x1 x2 x3 x1 + x2 + x3 = X X
0 0 0 0+0+0=0 0
1 0 0 1+0+0=1 1
0 1 0 0+1+0=1 1
0 0 1 0+0+1=1 1
1 1 0 1+1+0=2 2
1 0 1 1+0+1=2 2
0 1 1 0+1+1=2 2
1 1 1 1+1+1=3 3
x1 x2 x3 x1 + x2 + x3 = X X P ( x) P ( x)
P ( x ) = (1 − p ) ⋅ (1 − p ) ⋅ (1 − p ) P ( x = 0 ) = (1 − p )
3
0 0 0 0+0+0=0 0
56
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
1 0 0 1+0+0=1 1 P ( x ) = p ⋅ (1 − p ) ⋅ (1 − p )
P ( x ) = (1 − p ) ⋅ p ⋅ (1 − p ) P ( x = 1) = 3 ⎡ p ⋅ (1 − p ) ⎤
2
0 1 0 0+1+0=1 1
⎣ ⎦
0 0 1 0+0+1=1 1 P ( x ) = (1 − p ) ⋅ (1 − p ) ⋅ p
1 1 0 1+1+0=2 2 P ( x ) = p ⋅ p ⋅ (1 − p )
1 0 1 1+0+1=2 2 P ( x ) = p ⋅ (1 − p ) ⋅ p P ( x = 2 ) = 3 ⎡⎣ p 2 ⋅ (1 − p ) ⎤⎦
0 1 1 0+1+1=2 2 P ( x ) = (1 − p ) ⋅ p ⋅ p ⋅
1 1 1 1+1+1=3 3 P ( x) = p ⋅ p ⋅ p ⋅ P ( x = 3) = p 3
P ( x)
P ( x = 0 ) = (1 − p ) = 0.883 = 0.6815
3
P ( x = 3) = p 3 = 0.123 = 0.0017
3
Si bien la probabilidad de los eventos totales o extremos (donde en todos los casos se
presenta o no la característica) es fácil de calcular sin necesidad de la tabla, pues
simplemente se eleva la probabilidad de éxito o fracaso a la potencia del número de
casos; la probabilidad de los eventos combinados es más complicada de predecir.
A fin de evitar tal desarrollo puede determinarse el número que antecederá a las
combinaciones a partir del desarrollo de binomios. Por ejemplo:
( a + b ) = a 2 + 2ab + b 2
2
donde el exponente es el número
( a + b ) = a 3 + 3a 2b + 3ab 2 + b3
3 de casos ( n ) , en tanto que a es
Ahora bien, si el desarrollo de binomios resulta igual de complicado, existen otras tres
formas para descubrir el número que antecede a las combinaciones: una es
observando el Triángulo de Pascal:
57
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
X = {0,1, 2,3} ⇒ # X = 4
n!
Cx =
x !( n − x ) !
n
3! 3! 3 ⋅ 2 ⋅1 6 6
C1 = = = = = =3
2!( 3 − 2 ) ! 2!(1!) ( 2 ⋅1)(1) ( 2 )(1) 2
3
P ( x n, p ) = n Cx p x (1 − p )
n− x
; x = 0,1, 2,3,..., n
PROBABILIDADES
2
La tecla puede variar de acuerdo al modelo de la calculadora, sobre todo en la letra del segundo
subíndice; no obstante, siempre incluye la letra C, que le distingue de la tecla para permutaciones n Pr .
58
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Esperanza
Partiendo de nuevo de la esperanza de una variable aleatoria cualquiera, sabemos
que cada observación tiene como valor promedio:
E ( xi ) = ∑ xi ⋅ P ( xi )
x
Por lo que la esperanza de la variable que les comprende es:
n
E ( x ) = ∑ xi ⋅ P ( xi )
x =0
E ( x ) = ∑ x1 ⋅ P ( x1 ) + ∑ x2 ⋅ P ( x2 ) + ∑ x3 ⋅ P ( x3 ) + ... + ∑ xn ⋅ P ( xn )
E ( x ) = x1 ⋅ P ( x1 ) + x2 ⋅ P ( x2 ) + x3 ⋅ P ( x3 ) + ... + xn ⋅ P ( xn )
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 ) + ... + E ( xn )
HIPEROSTOSIS PORÓTICA
X ~ Be ( p = 0.12 )
Esperanza de E ( x1 ) = 0.12 E ( x2 ) = 0.12 E ( x3 ) = 0.12
cada observación
X ~ Bin ( n = 3, p = 0.12 )
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 )
Esperanza de la E ( x ) = 0.12 + 0.12 + 0.12
variable
E ( x ) = 3 ( 0.12 ) = 0.3600
59
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
La varianza de una variable aleatoria con distribución Binomial es3:
n
Var ( x ) = ∑ p (1 − p ) ⇒ Var ( x ) = n ⋅ p (1 − p )
x =0
Lo que en el caso del ejemplo es:
HIPEROSTOSIS PORÓTICA
X ~ Be ( p = 0.12 )
Varianza de
cada Var ( x1 ) = 0.12 ( 0.88 ) Var ( x2 ) = 0.12 ( 0.88 ) Var ( x3 ) = 0.12 ( 0.88 )
observación
X ~ Bin ( n = 3, p = 0.12 )
Var ( x ) = Var ( x1 ) + Var ( x2 ) + Var ( x3 )
Esperanza de Var ( x ) = 0.12 ( 0.88 ) + 0.12 ( 0.88 ) + 0.12 ( 0.88 )
la variable
Var ( x ) = 3 ( 0.12 )( 0.88 ) = 0.3168
X ~ Bin ( n, p )
P ( x n, p ) = n Cx p x (1 − p )
n− x
FUNCIÓN DE PROBABILIDAD ; x = 0,1, 2,3,..., n
ESPERANZA E ( x) = n ⋅ p
VARIANZA Var ( x ) = n ⋅ p (1 − p )
Ejemplos de aplicación
DATOS GENERALES
n=5 Acertar = P( x = 1) = p = 1 Errar = P( x = 0 ) = 1 − p = 1 − 1 = 2
3 3 3
TIPO DE FENÓMENO X ~ Bin ( n = 5, p = 1 3)
P ( x n, p ) = n C x p x (1 − p )
n− x
; x = 0,1, 2,3,..., n
FUNCIÓN DE
( 3)
= C ( 1 ) (2 )
5− x
PROBABILIDAD P x n = 5, p = 1
x
; x = 0,1, 2,3, 4,5
5 x3 3
E ( x) = n ⋅ p
( 3 ) = 5 3 = 1.6667
ESPERANZA
E ( x) = 5 1
3
Si los eventos no fueran independientes habría que restar la covarianza.
60
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Var ( x ) = n ⋅ p (1 − p )
( 3 )( 2 3 ) = 10 9 = 1.1111
VARIANZA
Var ( x ) = 5 1
a) 5 aciertos:
( 3) (23)
5 5 −5
P ( x = 5 ) = 5 C5 1 = 0.0041
, La probabilidad de obtener, al azar, 5 aciertos en un examen de 5 preguntas con
tres opciones es de 0.41%.
b) 4 aciertos:
( 3) (23)
4 5− 4
P ( x = 4 ) = 5 C4 1 = 0.0412
, La probabilidad de obtener, al azar, 4 aciertos en un examen de 5 preguntas con
tres opciones es de 4.12%.
c) 3 aciertos:
( 3) (23)
3 5−3
P ( x = 3) = 5 C3 1 = 0.1646
, La probabilidad de obtener, al azar, 3 aciertos en un examen de 5 preguntas con
tres opciones es de 16.46%.
d) 2 aciertos:
( 3) ( 3)
2 5− 2
P ( x = 2 ) = 5 C2 1 2 = 0.3292
, La probabilidad de obtener, al azar, 2 aciertos en un examen de 5 preguntas con
tres opciones es de 32.92%.
e) 1 acierto:
( 3) ( 3)
1 5 −1
P ( x = 1) = 5 C1 1 2 = 0.3292
, La probabilidad de obtener, al azar, 1 acierto en un examen de 5 preguntas con
tres opciones es de 32.92%.
f) 0 aciertos:
( ) (23 )
P( y = 0)= 5 C 0 1
3
0 5−0
= 0.1317
, La probabilidad de obtener, al azar, 0 aciertos en un examen de 5 preguntas con
tres opciones es de 13.17%.
Como puede verse, la suma de probabilidades es 1 (100%). Veamos por qué esta
propiedad es tan importante:
61
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Cuando nos piden la probabilidad de más de un valor de X , debemos sumar sus
probabilidades individuales:
g) Menos de 2 aciertos:
P ( x < 2 ) = P ( x = 0 ) + P ( x = 1) = 0.1317 + 0.3292 = 0.4609
h) 2 o más aciertos:
P ( x ≥ 2 ) = 1 − P ( x < 2 ) = 1 − 0.4609 = 0.5391
, Así, sabiendo que la probabilidad de tener menos de dos aciertos es de 46.09%,
fácilmente sabemos que la probabilidad de obtener 2 o más aciertos es el resto:
53.91%.
( 5) ( 5) (45)
120 − x
FUNCIÓN DE x
P x n = 120, p = 1 = Cx 1 ; x = 0,1, 2,...,120
PROBABILIDAD 120
( ) ( 4) ( 3 4)
120 − x
FUNCIÓN DE x
P x n = 120, p = 1 = 120 Cx 1 ; x = 0,1, 2,...,120
PROBABILIDAD 4
ESPERANZA ( 4 ) = 120 4 = 30.0000
E ( x ) = 120 1
62
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Por otro lado, ¿cuál es la probabilidad de adivinar los 14 resultados y cuál es la
probabilidad de no adivinar ninguno?
DATOS GENERALES
n = 14 Acertar = P( x = 1) = p = 1 Errar = P( x = 0 ) = 1 − p = 1 − 1 = 2
3 3 3
TIPO DE FENÓMENO X ~ Bin ( n = 14, p = 1 3)
( ) ( 3) ( 3)
14 − x
FUNCIÓN DE x
P x n = 14, p = 1 = 14 Cx 1 2 ; x = 0,1, 2,...,14
PROBABILIDAD 3
ESPERANZA ( 3 ) = 14 3 = 4.6667
E ( x ) = 14 1
( 3) (23)
14 14 −14
P ( x = 14 ) = 14 C14 1 = 2.0908 x10−7
, Con otro procedimiento mucho más sencillo hemos calculado de nuevo que la
probabilidad de acertar al azar los 14 resultados de la quiniela es ínfima: de
2.0908x10-5%. Sabiendo de fútbol esto se puede modificar, pero así tampoco se evita
las posibles trampas en la liguilla que llegan a afectar los resultados.
( 3) (23)
0 14 − 0
P ( x = 0 ) = 14 C0 1 = 3.4255 x10−3
, La probabilidad de no acertar ninguno de los 14 resultados de la quiniela es
también muy pequeña: ínfima: 3.4255x10-5%.
e) Momios de ninguno/todos
DATOS GENERALES
Presencia
n=6 Ausencia = P( x = 0) = 1 − p = 1 − 0.14 = 0.86
= P( x = 1) = p = 0.14
TIPO DE FENÓMENO X ~ Bin ( n = 6, p = 0.14 )
63
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
FUNCIÓN DE P ( x n = 6, p = 0.14 ) = 6 Cx ( 0.14 ) ( 0.86 )
6− x
; x = 0,1, 2,3, 4,5, 6
x
PROBABILIDAD
ESPERANZA E ( x ) = 6 ( 0.14 ) = 0.8400
VARIANZA Var ( x ) = 6(0.14)(0.86) = 0.7224
a) 0 cráneos:
P ( x = 0 ) = 6 C0 ( 0.14 ) ( 0.86 )
0 6−0
= 0.4046
, La probabilidad de no encontrar ningún cráneo con trepanación en la colección es
de 40.46%
b) 6 cráneos:
P ( x = 6 ) = 6 C6 ( 0.14 ) ( 0.86 )
6 6−6
= 7.5295 x10 −6
, La probabilidad de encontrar 6 cráneos con trepanación en la colección es de
7.5295x10-4%.
c) 4 cráneos:
P ( x = 4 ) = 6 C4 ( 0.14 ) ( 0.86 )
4 6−4
= 0.0043
, La probabilidad de encontrar 4 cráneos con trepanación en la colección es de
0.43%.
d) Más de 4 cráneos:
P ( x > 4 ) = P ( x = 5) + P ( x = 6) = ⎡ 6 C5 ( 0.14 ) ( 0.86 ) ⎤ + 7.5295 x10−6
5 6 −5
⎣ ⎦
P ( y > 4 ) = 2.7752 x10 + 7.5295 x10 = 2.8505 x10−4
−4 −6
e) Momios de ninguno/todos:
⎡ ⎛ y = 0 ⎞⎤ 0.4046
⎢ P⎜⎜ ⎟⎟⎥ = −6
= 53735.3078
⎣ ⎝ y = 6 ⎠⎦ 7.5295 x10
, La probabilidad de no encontrar ningún cráneo con trepanación (40.46%) es
53735.3078 veces la probabilidad de encontrar 6 cráneos con esta característica
(7.5295x10-4%).
DATOS GENERALES
Presencia
n=6 Ausencia = P( x = 0) = 1 − p = 1 − 0.14 = 0.86
= P( x = 1) = p = 0.14
TIPO DE FENÓMENO X ~ Bin ( n = 15, p = 0.28)
FUNCIÓN DE P ( x n = 15, p = 0.28) = 15 Cx ( 0.28) ( 0.72 )
15− x
; x = 0,1, 2,...,15
x
PROBABILIDAD
64
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
a) 0 cráneos:
P ( x = 0 ) = 15 C0 ( 0.28 ) ( 0.72 )
0 15 − 0
= 0.0072
, La probabilidad de no encontrar ningún cráneo con deformación en la colección es
de %.
b) 15 cráneos:
P ( x = 15 ) = 15 C15 ( 0.28 ) ( 0.72 )
15 15 −15
= 5.0977 x10−9
, La probabilidad de que los 15 cráneos analizados de la colección presenten
deformación es de 5.0977x10-7%.
c) 4 cráneos:
P ( x = 4 ) = 15 C4 ( 0.28 ) ( 0.72 )
4 15 − 4
= 0.2262
, La probabilidad de encontrar cuatro cráneos con deformación en la colección es de
22.62%. Lo cual es un resultado coherente, ya que la probabilidad de casos exitosos
siempre será más alta mientras más se acerque al valor de la esperanza de la
variable aleatoria, que en este caso era de 4.2.
d) Más de 13 cráneos:
P ( x > 13) = P ( x = 14 ) + P ( x = 15 ) = ⎡ 15 C14 ( 0.28 ) ( 0.72 ) ⎤ + 5.0977 x10−9
14 15 −14
⎣ ⎦
P ( x > 13) = 1.9662 x10 + 5.0977 x10 = 2.0172 x10 −7
−7 −9
e) Menos de 3 cráneos:
P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )
P ( x < 3) = 0.0072 + ⎡ 15 C1 ( 0.28 ) ( 0.72 ) ⎤ + ⎡ 15 C2 ( 0.28 ) ( 0.72 ) ⎤
1 15 −1 2 15− 2
⎣ ⎦ ⎣ ⎦
P ( x < 3) = 0.0072 + 0.0423 + 0.1150 = 0.1645
, La probabilidad de que tres de los cráneos estudiados presenten deformación es
de 16.45%.
f) Más de 2 cráneos:
P ( x > 2 ) = 1 − P ( x ≤ 2 ) = 1 − ⎡⎣ P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) ⎤⎦ = 1 − P ( x < 3)
P ( x > 2 ) = 1 − 0.1645 = 0.8355
, La probabilidad de hallar más de dos cráneos con deformación es de 83.55%.
Distribución Poisson X ~ Po ( λ )
65
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Finalmente tenemos a la distribución Poisson: un modelo particular de la distribución
Binomial que permite analizar el comportamiento una variable aleatoria discreta
dicotómica cuando la probabilidad de éxito es muy pequeña ( p ≈ 0 ) y la muestra es
muy grande.
Si bien esto implicaría que es posible usar tanto la distribución Binomial como la
Poisson para asignar probabilidades cuando se tienen varias observaciones, es mejor
aplicar la segunda, ya que cuando la n tiende a infinito ( n → N ) la distribución de
probabilidades de la variable tiende a ser exponencial, provocando un cambio
importante en la función de probabilidades:
Expresión donde se
DISTRIBUCIÓN
P ( x n, p ) = n Cx p x (1 − p )
n− x
; x = 0,1, 2,3,..., n especifican los
BINOMIAL
valores que toma X
⇓
Expresión en que no
se hacen explícitos
DISTRIBUCIÓN e− λ λ x
POISSON
P(x λ) = ; x = 0,1, 2,... los valores de X
x! porque la muestra
( n ) es muy grande.
Debe notarse además que en la segunda función de probabilidades los parámetros n
y p no aparecen, pues como no existen criterios universales para determinar cuán
pequeña debe ser la probabilidad de éxito y cuán grande debe ser la muestra, la
distribución Poisson considera como parámetro al número promedio de ocurrencias
del evento, denotado por la letra λ .
Esperanza
Ahora bien, dado que la esperanza de una variable aleatoria discreta dicotómica con
distribución Binomial era:
E ( x) = n ⋅ p
E ( x) = λ
Podemos concluir que:
λ = n⋅ p
Varianza
Por otro lado, si la varianza de una variable aleatoria discreta dicotómica con
distribución Binomial era:
Var ( x ) = n ⋅ p (1 − p )
Pero sabemos que en la distribución Poisson p ≈ 0 y que, por ende, (1 − p ) ≈ 1 ; la
varianza de una variable con tal distribución queda como:
Var ( x ) = n ⋅ p (1 − p )
Var ( x ) = λ (1) = λ
66
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
En resumidas cuentas: cuando se tiene una variable aleatoria discreta dicotómica de la
cual sólo se sabe el número promedio de ocurrencias o se ha investigado, en una
muestra muy grande, que la probabilidad de éxito es muy pequeña, la mejor forma de
caracterizarla es a través del modelo de distribución Poisson:
X ~ Po ( λ )
e− λ λ x
FUNCIÓN DE PROBABILIDAD P ( x) = ; x = 0,1, 2,...
x!
ESPERANZA E (x ) = λ
VARIANZA Var(x ) = λ
Ejemplos de aplicación
DATOS GENERALES
50
n = 10000 Presencia = P ( x = 1) = = 0.0005 λ = (10000 )( 0.0005) = 5
100000
TIPO DE FENÓMENO X ~ Po ( λ = 5)
e− λ λ x
P ( x) = ; x = 0,1, 2,...
FUNCIÓN DE x!
PROBABILIDAD e−5 ( 5 )
x
P ( x λ = 5) = ; x = 0,1, 2,...
x!
E (x ) = λ
ESPERANZA
E ( x) = 5
Var(x ) = λ
VARIANZA
Var ( x ) = 5
a) Ningún sujeto:
e −5 ( 5 )
0
P ( x = 0) = = 0.0067
0!
, La probabilidad de que ningún sujeto presente el mal de Parkinson es de 0.67%.
4
“Se conmemora el Día Mundial del Mal del Parkinson” por Monire Pérez López en Sistema e-once
noticias Internet. 11 de abril del 2007. Página: http://oncetv-
ipn.net/noticias/index.php?modulo=despliegue&dt_fecha=2007-04-11&numnota=3
67
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
e −5 ( 5 )
10000
P ( x = 10000 ) = ≈0
10000!
, La probabilidad de que todas las personas manifiesten el mal de Parkinson es nula.
c) 5 individuos:
e −5 ( 5 )
5
P ( x = 5) = = 0.1755
5!
, La probabilidad de que 5 individuos manifiesten el mal de Parkinson es de 17.55%.
d) Menos de 5 personas:
P ( x < 5 ) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 )
⎛ e−5 ( 5 )1 ⎞ ⎛ e −5 ( 5 )2 ⎞ ⎛ e−5 ( 5 )3 ⎞ ⎛ e −5 ( 5 )4 ⎞
P ( x < 5 ) = 0.0067 + ⎜ ⎟+⎜ ⎟+⎜ ⎟+⎜ ⎟
⎜ 1! ⎟ ⎜ 2! ⎟ ⎜ 3! ⎟ ⎜ 4! ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
P ( x < 5 ) = 0.0067 + 0.0337 + 0.0842 + 0.1404 + 0.1755
P ( x < 5 ) = 0.4405
, La probabilidad de que menos de 5 personas manifiesten el mal de Parkinson es
de 44.05%.
e) Más de 5 personas:
P ( x > 5) = 1 − P ( x ≤ 5)
P ( x > 5 ) = 1 − ⎡⎣ P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 ) + P ( x = 5 ) ⎤⎦
P ( x > 5 ) = 1 − ⎡⎣ P ( x < 5 ) + P ( x = 5 ) ⎤⎦
P ( x > 5 ) = 1 − ( 0.4455 + 0.1755 )
P ( x > 5 ) = 1 − 0.6210 = 0.3790
, Por ende, la probabilidad de que más de 5 personas manifiesten el mal de
Parkinson es de 37.90%.
El Instituto Mexicano del Seguro Social (IMSS), empero, ha informado que más de 50
mil mexicanos padecen el mal de Parkinson5 y que tan sólo durante 2007 otorgó
24,587 consultas a nivel nacional por esta causa6. Así que pese a nuestros cálculos,
existe razón suficiente para seguir investigando los motivos y posibles tratamientos
para este padecimiento.
5
“El IMSS Otorgó más de 24 mil consultas por mal de parkinson en un año” en CDN. 11 de abril de
2008. Página: http://www.cdn.com.mx/?c=118&a=22677
6
“Padecen Parkinson casi 50 mil mexicanos: IMSS” en El siglo de Durango. 23 de diciembre de 2007.
Página: http://www.elsiglodedurango.com.mx/noticia/151670.padecen-parkinson-casi-50-mil-mexicanos-
imss.siglo
7
“El cáncer es la principal causa de muerte en Tuxpan” en Informativo del Sur de Jalisco. 8 de marzo del
2007. Nota en internet: http://www.periodicoelsur.com/noticias_tuxpan.aspx?idnoticia=8858
68
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
b) Menos 4 mujeres le padezcan c) Más de 4 lo presenten.
DATOS GENERALES
n=? Presencia = P ( x = 1) = ? λ =3
TIPO DE FENÓMENO X ~ Po ( λ = 4 )
e−3 ( 3)
x
FUNCIÓN DE
PROBABILIDAD P ( x λ = 3) = ; x = 0,1, 2,...
x!
ESPERANZA E ( x) = 3
VARIANZA Var ( x ) = 3
P ( x = 0) = = 0.0498
0!
, La probabilidad de que ninguna mujer padezca cáncer (de mama o cervicouterino)
es de 4.98%.
b) Menos de 3 le padezcan:
P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )
⎛ e−3 ( 3)1 ⎞ ⎛ e−3 ( 3)2 ⎞
P ( x < 3) = 0.0498 + ⎜ ⎟+⎜ ⎟
⎜ 1! ⎟ ⎜ 2! ⎟
⎝ ⎠ ⎝ ⎠
P ( x < 3) = 0.0498 + 0.1494 + 0.2240
P ( x < 3) = 0.4232
, La probabilidad de que menos de 3 mujeres le padezcan es de 42.32%.
c) Más de 3 le presenten:
P ( x > 3) = 1 − P ( x ≤ 3)
P ( x > 3) = 1 − ⎡⎣ P ( x < 3) + P ( x = 3) ⎤⎦
⎡ ⎛ e −3 ( 3)3 ⎞ ⎤
P ( x > 3) = 1 − ⎢0.4232 + ⎜ ⎟⎥
⎢⎣ ⎜ 3! ⎟ ⎥
⎝ ⎠⎦
P ( x > 3) = 1 − [ 0.4232 + 0.2240]
P ( x > 3) = 1 − 0.6472 = 0.3528
, La probabilidad de que más de 3 mujeres le presenten es de 35.28%.
8
Existen, no obstante, otros síntomas, por ejemplo: edema acentuado del dorso de los pies en el
nacimiento, tórax saliente “en escudo”, pezones hipoplásicos y muy separados, acortamiento del IV
metacarpiano y un sinfín de signos que pueden ir desde una malformación cardiaca a la abundancia de
nevus pigmentarios.
69
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
pacientes, las malformaciones suelen ser discretas y la supervivencia es normal. Si la
frecuencia de este cariotipo (45,X) es de 0.4 por cada 1,000 niñas; dentro de una
muestra de 10,000 mujeres, ¿qué probabilidad hay de que se encuentren el siguiente
número de casos con síndrome de Turner?
DATOS GENERALES
0.4
n = 10000 Presencia = P ( x = 1) = = 0.0004 λ = (10000 )( 0.0004 ) = 4
1000
TIPO DE FENÓMENO X ~ Po ( λ = 4 )
e−4 ( 4 )
x
FUNCIÓN DE
PROBABILIDAD P ( x λ = 4) = ; x = 0,1, 2,...
x!
ESPERANZA E ( x) = 4
VARIANZA Var ( x ) = 4
a) 0 casos:
e −4 ( 4 )
0
P ( x = 0) = = 0.0183
0!
, La probabilidad de que ningún caso presente síndrome de Turner es de 1.83%.
b) 1 caso:
e−4 ( 4 )
1
P ( x = 1) = = 0.0733
1!
, La probabilidad de que aparezca un caso con síndrome de Turner es de 7.33%.
b) Más de 3 casos:
P ( x > 3) = 1 − P ( x ≤ 3)
P ( x > 3) = 1 − ⎡⎣ P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) ⎤⎦
⎡ ⎛ e −4 ( 4 )2 ⎞ ⎛ e−4 ( 4 )3 ⎞ ⎤
P ( x > 3) = 1 − ⎢ 0.0183 + 0.0733 + ⎜ ⎟+⎜ ⎟⎥
⎢⎣ ⎜ 2! ⎟ ⎜ 3! ⎟ ⎥
⎝ ⎠ ⎝ ⎠⎦
P ( x > 3) = 1 − [ 0.0183 + 0.0733 + 0.1465 + 0.1954]
P ( x > 3) = 1 − 0.4335 = 0.5665
, La probabilidad de que aparezcan más de tres casos con síndrome de Turner es
de 56.65%.
70
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
a) 2 casos b) 0 casos c) Más de 2 casos
DATOS GENERALES
1.18
n = 5000 Presencia = P ( x = 1) = = 0.0012 λ = ( 5000 )( 0.0012 ) = 5.9
1000
TIPO DE FENÓMENO X ~ Po ( λ = 5.9 )
e−5.9 ( 5.9 )
x
FUNCIÓN DE
PROBABILIDAD P ( x λ = 5.9 ) = ; x = 0,1, 2,...
x!
ESPERANZA E ( x ) = 5.9
VARIANZA Var ( x ) = 5.9
a) 2 casos:
e −5.9 ( 5.9 )
2
P ( x = 2) = = 0.0477
2!
, La probabilidad de que se presenten 2 casos con el síndrome de Klinefelter es de
4.77%.
b) 0 casos:
e −5.9 ( 5.9 )
0
P ( x = 0) = = 0.0027
0!
, La probabilidad de que ningún caso presente el síndrome de Klinefelter es de
0.27%.
c) Más de 2 casos:
P ( x > 2) = 1 − P ( x ≤ 2)
P ( x > 2 ) = 1 − ⎡⎣ P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) ⎤⎦
⎡ ⎛ e −5.9 ( 5.9 )1 ⎞ ⎤
P ( x > 2 ) = 1 − ⎢ 0.0027 + ⎜ ⎟ + 0.0477 ⎥
⎢⎣ ⎜ 1! ⎟ ⎥⎦
⎝ ⎠
P ( x > 2 ) = 1 − [ 0.0027 + 0.0162 + 0.0477 ] = 1 − 0.0666 = 0.9334
, La probabilidad de que más de dos casos presenten el síndrome de Klinefelter es
de 93.34%.
Una vez revisadas las distribuciones de probabilidad para variables discretas, es turno
de revisar las enfocadas a las variables continuas, donde el área total delimitada por la
curva y el eje de las X es igual a 1; la cual se fragmenta cuando se levantan líneas
perpendiculares para buscar la probabilidad en ciertos intervalos.
71
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
0.6
0.5
0.4
P(x)
0.3
0.2 1
0.1
a b
Por sus características se comprende que, la probabilidad de X (igual en todos los
puntos) en el intervalo, suma 1. Por ende: A = P( x )(b − a ) = 1 y de ello de deriva lo
siguiente:
1
FUNCIÓN DE PROBABILIDAD P(x ) = ; x ∈ (a, b )
(b − a )
E (x ) =
(b + a )
ESPERANZA
2
VARIANZA Var ( x ) =
(a − b )2
12
VARIANZA Var ( x ) =
(10.00 − 13.00) = − 3 2 = 9 = 3 = 0.7500
2
12 12 12 4
a) ¿Cuál es la probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas?
3
( ) 3 3
( )
P(10.50 < x < 12.00 ) = (12.00 − 10.50) 1 = 1.50 1 = 1.50 = 0.5000
, La probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas es del
50.00%.
72
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
3 3
( )
P( x > 12.75) = (13.00 − 12.75) 1 = 0.25 1 = 0.25 = 0.0833
3
( )
, La probabilidad de que nos atiendan después de las 12.45 p.m. es de 8.33%.
a) La curva se acerca pero nunca toca el eje de las X , por lo cual es una curva
asintótica
b) El área bajo la curva (y por ende, la suma de todas las probabilidades) es igual a 1.
>σ
σ
<σ
( x − µ )2
FUNCIÓN DE 1 −
PROBABILIDAD
P( x ) = ⋅e 2σ 2
;−∞ < x < ∞
2πσ 2
73
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
ESPERANZA E (x ) = µ
VARIANZA Var ( x ) = σ 2
El punto es que, por más que tengamos una función de probabilidades específica, al
variar la probabilidad de X continuamente, es necesario resolver integrales para
encontrar la probabilidad de X en un intervalo.
z2
FUNCIÓN DE 1 −
PROBABILIDAD
P(z ) = ⋅ e 2 ;−∞ < x < ∞
2π
Por ello:
1. Cuando se busca la probabilidad de que Z sea menor a un valor, éste se busca
directamente en tablas:
74
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
P(z >valor a) , Se transforma a P(z < valor -a) y se busca la probabilidad de valor –a
P(z >valor -a) , Se transforma a P(z < valor a) y se busca la probabilidad de valor a.
P(valor a < z < valor b) , Se resta P(z < valor b) - P(z < valor a), es decir, se busca
la probabilidad de valor b y se le resta la de valor a.
Estandarización
Estandarizar una variable significa transformar sus valores originales para que los
valores estandarizados tengan una media µ = 1 y una desviación estándar σ = 0 .
Con ello logramos que la distribución de la variable se vuelva de tipo normal estándar,
permitiéndonos el acceso a las tablas de probabilidad.
Veamos, ahora sí, para que nos sirve todo lo anterior con un ejemplo:
75
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
DATOS GENERALES
X~N(µ,σ) µ = 162 σ 2 = 17.5 σ = 4.18 (
X~N µ = 162, σ 2 = 17.5 )
( x −162 ) 2
1 −
P(x ) = ⋅e 2 (17.5 )
2π (17.5)
( x −162 )2
1 −
P(x ) = ⋅e 35
6.28(17.5)
FUNCIÓN DE ( x −162 )2
1 −
PROBABILIDAD P(x ) = ⋅e 35
109.9
( x −162 )2
1 −
P( x ) = ⋅e 35
10.48
−
( x −162 )2
P ( x ) = 0.10 ⋅ e 35
ESPERANZA E ( x ) = 162
VARIANZA Var( x ) = 17.5
a) ¿Qué probabilidad hay de que elijamos al azar a una chica que mida menos de 160
cm?
160
−
( x −162 )2
P( x < 160) = ∫ 0.10 ⋅ e 35
dx
−∞
Como se puede ver, calcular la probabilidad de que X sea menor a 160 implica
resolver esta integral. Si X tuviera una distribución normal estándar con µ = 1 y
σ = 0 , podríamos acceder a las tablas. Entonces lo que haremos es estandarizar la
variable para lograr tal objetivo y poder obtener la probabilidad:
EXPRESIÓN x −µ
PARA Z= i
ESTANDARIZAR σ
⎛ 160 − 162 ⎞ ⎛ −2 ⎞
APLICACIÓN P( x < 160 ) ⇒ P⎜ Z < ⎟ = P⎜ Z < ⎟ = P (Z < −0.48)
⎝ 4.18 ⎠ ⎝ 4.18 ⎠
Observación 1: -0.48 no es la probabilidad de que la chica sea menor a 160 cm., sino el valor
que se ubicará en las tablas intersectando -0.40 (horizontal) y .008 (vertical).
Observación 2: Como se busca la probabilidad de que Z sea MENOR a tal valor, éste se
busca directamente en tablas.
b) ¿Qué probabilidad hay de que elijamos al azar a una chica que mida más de 163
cm?
⎛ 163 − 162 ⎞ ⎛ 1 ⎞
ESTANDARIZACIÓN P( x > 163) ⇒ P⎜ Z > ⎟ = P⎜ Z > ⎟ = P (Z > 0.24 )
⎝ 4.18 ⎠ ⎝ 4.18 ⎠
76
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Observación 3: Como se busca la probabilidad de que Z sea MAYOR a tal valor, se cambian
signos y se busca ese nuevo dato en tablas.
c) ¿Qué probabilidad hay de que elijamos al azar a una chica que mida entre 159 y
161 cm?
DATOS GENERALES
X~N(µ,σ) µ = 20.5 σ 2 = 18.49 σ = 4.3 X~N (µ = 20.5, σ = 4.3)
( x − 20.5 )2
1 −
P(x ) = ⋅ e 2 (18.49 )
2π (18.49 )
( x − 20.5 )2
1 −
P(x ) = ⋅e 36.98
FUNCIÓN DE 6.28(18.49 )
PROBABILIDAD ( x − 20.5 )2
1 −
P( x ) = ⋅e 36.98
116.12
( x − 20.5 )2 ( x − 20.5 )2
1 −
P( x ) =
−
⋅e 36.98
P( x ) = 0.09 ⋅ e 36.98
10.78
ESPERANZA E ( x ) = 20.50
VARIANZA Var( x ) = 18.49
77
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Para cerrar este tema, veremos ahora otras distribuciones basadas en las anteriores,
algunas de las cuales utilizaremos posteriormente.
Distribución exponencial
FUNCIÓN DE P ( x ) = λ e − λx ; x > 0
PROBABILIDAD
ESPERANZA E (x ) = 1
λ
VARIANZA Var ( x ) = 1
λ2
78
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
1
P(x ) =
k −1 −x
⋅ X 2 ⋅e 2 La letra Γ representa la función
FUNCIÓN DE k ⎛k⎞ gamma, que sirve para calcular el
PROBABILIDAD 2 2 Γ⎜ ⎟ factorial de funciones continuas.
⎝2⎠
ESPERANZA E (x ) = k
VARIANZA Var ( x ) = 2k
Z
La variable t se obtiene dividiendo dos variables independientes t = 9
: una con
x
k
distribución normal estándar [Z~N(0,1)] entre una con distribución ji-cuadrada
[X~ χ 2 (k)]; razón por la cual la variable t tiene una distribución-t con K grados de
libertad.
⎛ k +1 ⎞
−⎜ ⎟
⎛ k + 1⎞ ⎛ t ⎞
2 ⎝ 2 ⎠
Γ⎜ ⎟ ⋅ ⎜⎜1 + ⎟⎟
FUNCIÓN DE ⎝ 2 ⎠ ⎝ k⎠
PROBABILIDAD P(t ) = ;−∞ < t < ∞
⎛k⎞
kΠ ⋅ Γ⎜ ⎟
⎝2⎠
ESPERANZA E (t ) = µ = 0
⎛3⎞ ⎛k −2⎞
Γ⎜ ⎟ ⋅ Γ⎜ ⎟⋅k
⎝ 2⎠ ⎝ 2 ⎠
VARIANZA Var (t ) =
⎛1⎞ ⎛k ⎞
Γ ⎜ ⎟ ⋅ Γ⎜ ⎟
⎝2⎠ ⎝ 2⎠
⎛ k + k2 ⎞
Γ⎜ 1 ⎟ k1
−
k1 + k 2
2 ⎠ ⎛ k1 ⎞ ⎛ k ⋅f ⎞
k
FUNCIÓN DE P( f ) = ⎝ ⋅⎜
2
⎟⎟ ⋅ f 2
−1
⋅ ⎜⎜1 + 1 ⎟⎟
2
;f >0
PROBABILIDAD ⎛ k1 ⎞ ⎛ k 2 ⎞ ⎜⎝ k 2 ⎠ ⎝ k2 ⎠
Γ⎜ ⎟ ⋅ Γ⎜ ⎟
⎝2⎠ ⎝ 2⎠
k
ESPERANZA E( f ) = 1
k 2−2
9
Si K es mayor a 30, √x/k ≈ 1; por lo cual la segunda variable tendría una distribución normal estándar.
79
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
2 ⋅ k 2 (k1 + k 2 − 2)
2
VARIANZA Var ( f ) =
k1 (k 2 − 2 ) ⋅ (k 2 − 4)
2 2
Distribuciones muestrales
Se llama distribución muestral a la distribución de todos los valores posibles que
puede tomar una estadística, calculada a partir de muestras del mismo tamaño (n )
seleccionadas aleatoriamente de la misma población (N ) . En otras palabras, es el
procedimiento para inferir los valores estadísticos de una muestra a partir de los
parámetros de una población.
X~N(µ,σ) (
x ∼ N µ ,σ n )
MEDIA µ µ
DESVIACIÓN ESTÁNDAR σ
σ
n
VARIANZA σ 2 σ 2
n
xi − µ
FÓRMULA PARA Xi − µ Z=
Z= σ
ESTANDARIZAR σ
n
a) sea menor de 4 años? b) sea mayor de 7 años? c) esté entre 5.5 y 6.8 años?
DATOS GENERALES
X~N(µ,σ) µ = 4 .5 σ = 1.7 X~N (µ = 4.5, σ = 1.7 )
X~N(µ=4.5,σ=1.7) (
x ∼ N µ ,σ n )
MEDIA µ = 4.5 µ = 4.5
DESVIACIÓN
σ = 1.7 σ = 1.7 = 0.49
ESTÁNDAR 12
σ 2 = (1.7 ) 12 = 0.24
2
VARIANZA σ2 = 2.89
80
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
a) sea menor de 4 años?
FÓRMULA xi − µ
Z=
PARA σ
ESTANDARIZAR n
⎛ ⎞
⎜ ⎟
4 − 4.5 ⎟
APLICACIÓN P(x < 4) = P Z <
⎜ = P(Z < −1.02)
⎜ 1.7 ⎟
⎜ ⎟
⎝ 12 ⎠
P(Z < −1.02) = 0.1539
, La probabilidad de que la media de las muestra de doce estudiantes que usan
drogas sea menor a 4 años es de 15.39%
81
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
PROPORCIÓN PROPORCIÓN
POBLACIONAL MUESTRAL
PROPORCIÓN p=M pˆ = m
N n
P (1 − P )
DESVIACIÓN ESTÁNDAR σ
n
P (1 − P )
VARIANZA σ2
n
pˆ − P
FÓRMULA PARA Xi − µ Z=
Z= P(1 − P )
ESTANDARIZAR σ
n
a) sea menor de 0.30? b) sea mayor de 0.35? c) esté entre 0.36 y 0.40?
DATOS GENERALES
p = 0.38 1 − p = 0.62 n = 15
82
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
c) esté entre 0.36 y 0.40?
⎛ ⎞
⎜ ⎟
⎜ 0.36 − 0.38 0.40 − 0.38 ⎟
P(0.36 < pˆ < 0.40 ) = P <Z< = P(− 0.16 < Z < 0.16 )
⎜ 0.38(0.62 ) 0.38(0.62 ) ⎟
⎜ ⎟
⎝ 15 15 ⎠
P(− 0.16 < Z < 0.16) = P(Z < 0.16) − P(Z < −0.16) = 0.5636 − 0.4364 = 0.1272
, La probabilidad de que la proporción muestral de simpatizantes con el movimiento
del EZLN esté entre 0.36 y 0.40 es del 12.72%.
a) sea mayor del 10%? b) sea menor del 0.15%? c) esté entre 0.11 y 0.14?
DATOS GENERALES
p = 0.12 1 − p = 0.88 n = 15
83
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Comparación de dos medias muestrales ( x1 − x 2 )
MEDIA µ µ1- µ2
DESVIACIÓN ESTÁNDAR
σ σ1 2
+
σ 2
2
n n1 n2
VARIANZA σ2 σ 12 +
σ 22
n n1 n2
xi − µ x1 − x 2 − (µ1 − µ 2 )
FÓRMULA PARA Z= Z=
σ σ 12 +σ2
2
ESTANDARIZAR
n n1 n2
84
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
X~?(µ,σ) Si n > 30 , X~N(µ,σ)
xi − µ
FÓRMULA PARA Z=
X , σ
ESTANDARIZAR
n
DATOS GENERALES
µ = 9 .7 σ = 6.0 n = 14X~? (µ = 4.5, σ = 1.7 )
, No se pueden calcular probabilidades, puesto que no se sabe el tipo de distribución
de probabilidad de este fenómeno y la muestra no es grande (mayor a 30) como para
considerarla de tipo normal.
DATOS GENERALES
µ = 9 .7 σ = 6.0 n = 40 X~? (µ = 4.5, σ = 1.7 )
85
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
⎛ ⎞
⎜ 7 − 9.7 10.5 − 9.7 ⎟
P(7 < x < 10.5) = P⎜ <z< ⎟ = P(− 2.85 < z < 0.84 )
⎜ 6.0 6.0 ⎟
⎝ 40 40 ⎠
P(− 2.85 < z < 0.84) = P( z < 0.84) − P( z < −2.85) = 0.7795 − 0.0022 = 0.7773
, La probabilidad de que la media del espesor del pliegue subescapular en esta
muestra esté entre los 7 y 10.5 milímetros es de 77.73%.
86
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
a) más de 45.2 hrs. Semanales
b) menos de 41.5 hrs. Semanales
c) menos de 38 hrs. Semanales
d) entre 39 y 44 hrs. Semanales
6. El tiempo de gestación para los bebés humanos tiene una distribución
aproximadamente normal con media de 278 días y desviación estándar de 12
días.
a) Encuentre los cuartiles superior e inferior para los tiempos de gestación
b) ¿Sería raro que un bebé naciera antes de 6 meses de gestación? Explique.
7. En una cierta población 15% de las personas tiene sangre Rh negativo. Un
banco de sangre recibe 92 donadores un día particular.
a) ¿Cuál es la probabilidad de que 10 o menos tengan Rh negativo?
b) ¿Cuál es la probabilidad de que entre 15 y 20 de los donadores tengan Rh
negativo?
c) ¿Cuál es la probabilidad de que más de 80% de los donadores tengan Rh
positivo?
8. El 9% de los hombres y el 0.25% de las mujeres no pueden distinguir entre
los colores rojo y verde. Este tipo de daltonismo causa problemas con las
señales de tránsito. Los investigadores necesitan al menos 50 hombres con
este tipo de ceguera al color, de manera que seleccionan aleatoriamente a
600 hombres para un estudio de percepción de las señales de tránsito.
Estima la probabilidad de que al menos 50 de los hombres no distingan entre
el rojo y el verde.
¿Es el resultados lo suficientemente alto como para que los investigadores
puedan confiarse de obtener al menos 50 hombres con daltonismo?
9. La calificación media en un examen de estadística fue de 7.2 y la desviación
estándar de 0.9. En vista de esta situación, el profesor decide que el 12% de
los alumnos con calificaciones mayores obtendrán la nota más alta del
sistema de evaluación. Suponiendo distribución normal en la variable
calificación:
a) ¿Cuál es la calificación mínima que un estudiante debe tener para recibir la
nota más alta?
b) Si el profesor considera que sólo no aprobará el 5% ¿cuál es la calificación
mínima aprobatoria?
10. En cierta población el 98% de las personas tienen Rh positivo. Suponga que
se casan dos personas de esta población que consta de 3643 pobladores.
¿cuál es la probabilidad de que el factor Rh de los dos sea negativo, con lo
cual sería inevitable que sus hijos tuvieran Rh negativo?
11. La enfermedad de Tay-Sachs es una enfermedad mortal del sistema nervioso
que se transmite de padres a hijos. Si ambos padres son portadores de la
enfermedad, la probabilidad de que su descendencia la desarrolle es de 0.25.
Suponga que que una pareja es portadora de la enfermedad y que la esposa
ha estado embarazada en tres ocasiones. Si la ocurrencia de la enfermedad
de Tay-Sachs en cualquier descendiente es independiente de la ocurrencia
en cualquier otro, ¿cuál es la probabilidad de que:
a) Los tres niños desarrollarán la enfermedad de Tay-Sachs?
b) Sólo un niño desarrollará la enfermedad de Tay Sachs?
12. Cada vez más investigaciones y análisis se centran en el número de
enfermedades asociadas con el organismo Escherichia coli que provoca la
descomposición de los glóbulos rojos y hemorragias intestinales en sus
víctimas. En la Cd. de México se han presentado brotes esporádicos de
Escherichia coli a una tasa de 2.5 por cada 100,000 individuos en un periodo
de 2 años.
a) ¿Cuál es la probabilidad de que a lo sumo se den cinco casos de Escherichia
coli en un año determinado?
87
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
b) ¿Cuál es la probabilidad de que se presenten más de 5 caos de Escherichia
coli en un año determinado?
c) ¿Una frecuencia de 95% de Escherichia coli tiene que ver con a lo más cuántos
casos?
13. Supongamos que el peso en niños de último grado de jardín de niños en la
delegación Milpa Alta tiene una distribución aproximadamente normal con
media 18.25 kg. y una desviación estándar de 2.96 kg. Suponiendo que se
toma un niño al azar en esta población, ¿cuál es la probabilidad de que su
peso
a) sea menor de 14 kg.? b) sea menor de 23 kg.?
c) sea mayor de 17 kg.? d) sea mayor de 15 kg.?
e) esté entre 15 y 19 kg.? f) se encuentre entre 24 y 28 kg.?
14. En relación con la población mencionada en el ejercicio 13, se supone que la
variable estatura sigue una distribución aproximadamente normal, con media
de 1066 mm. y una desviación estándar de 46.10 mm. Supongamos que se
selecciona un niño al azar ¿cuál es la probabilidad de que su estatura:
a) sea menor de 1000 mm. b) sea mayor de 1120 mm.
c) se encuentre entre 960 y 1140 mm. d) se encuentre entre 1150 y 1200 mm.
e) Si deseamos seleccionar al 5% de estatura más baja, ¿a partir de qué valor se
consideran?
f) Si deseamos seleccionar al 15% de estatura más alta, ¿a partir de qué valor se
consideran?
15. Investiga la expresión de la función de probabilidades geométrica, su
esperanza y varianza y describe un ejemplo simulado en antropología física.
16. Investiga la expresión de la función de probabilidades hipergeométrica, su
esperanza y varianza y describe un ejemplo simulado en antropología física.
88
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
UNIDAD III
5. ESTADÍSTICA DESCRIPTIVA
Breve historia de la estadística
Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población
y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza
y población se hizo con el objetivo de preparar la construcción de las pirámides. En el
mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo
reparto.
En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los
datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por
otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de
conocer el número de la población[3].
También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos
efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y
militares (cálculo de recursos y hombres disponibles). La investigación histórica revela
que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto
y ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organización política, quienes mejor
supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de
la población y sus funcionarios públicos tenían la obligación de anotar nacimientos,
defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las
riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía
uno de estos empadronamientos de la población bajo la autoridad del imperio[4].
Durante los mil años siguientes a la caída del imperio Romano se realizaron muy
pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras
pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en
el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de
siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del
Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las
tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra[5].
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra,
trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi
olvidados durantes la Edad Media.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás
Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron
grandes operaciones al método científico, de tal forma que cuando se crearon los Estados
Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de
aplicarse a los datos económicos.
Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al
temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la
ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un
brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a
publicar estadística semanales de los decesos. Esa costumbre continuó muchos años, y
en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y
fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban
treinta años y efectuó predicciones sobre el número de personas que morirían de varias
89
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
90
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Conceptos básicos
Variables
91
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Nominales: Variables en las que sólo se nombra o designa con etiquetas a las
observaciones, por lo cual sus valores no pueden ser comparados o
jerarquizados de forma alguna.
Ejemplos: Sexo, nacionalidad, idioma y color de piel.
Variables cuantitativas
Variables que aportan información respecto a cantidades; por tal motivo su valor puede
ser medido y representado numéricamente.
92
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Ahora bien, por cuestiones de tiempo, recursos o costo, las investigaciones pocas veces
recaban información sobre la población; esto es, el conjunto total de entidades de interés
para su estudio, sean individuos, objetos o lugares. Los datos se obtienen entonces de
muestras: subconjuntos o fracciones de la población.
Por ende, si el objetivo de la investigación es, más allá de analizar un caso, estudiar un
fenómeno, es la estadística inferencial quien, basada en la teoría de probabilidades
(bajo el principio de que pese al azar es posible determinar un orden y regularidad en los
procesos), permite hacer afirmaciones sobre la población a partir de lo observado en una
muestra.
A menos que sean muy pocos, los datos recolectados (crudos) no permiten determinar la
información contenida en ellos. Para lograr su análisis la estadística ha propuesto una
serie de técnicas que, dependiendo del tipo de variable, echan mano de herramientas
como tablas, gráficas y ciertas medidas.
A fin de revisar su aplicación, en este capítulo realizaremos algunos ejercicios con las
observaciones recolectadas a través de la cédula “Autopercepción, sexualidad y
antropometría”. Dicha encuesta fue aplicada a los alumnos del turno matutino y vespertino
que asistieron a la materia de Estadística (en la licenciatura de Antropología física de la
Escuela Nacional de Antropología e Historia) en el periodo 2008-1. Para futuras
referencias, la cédula y base de datos generada se anexan como apéndices.
93
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Tablas de frecuencias
Son tablas en las que señala: primero, cuántas veces aparece cada etiqueta de la variable
a lo largo de toda la muestra; es decir, su frecuencia (simple). Después, cuál es su
densidad; esto es, su frecuencia relativa: valor que puede calcularse dividiendo el
número de casos observados entre el tamaño de la muestra (n ) y que, multiplicado por
cien, indica el porcentaje de la etiqueta respecto al total:
FRECUENCIA
VARIABLE FRECUENCIA PORCENTAJE
RELATIVA
Etiqueta 1 # de casos casos n (casos n ) ⋅ 100
Etiqueta 2 # de casos casos n (casos n ) ⋅ 100
Etiqueta 3 # de casos casos n (casos n ) ⋅ 100
(…)
Etiqueta n # de casos casos n (casos n ) ⋅ 100
Tamaño de
muestra (n )
TOTAL 1.0000 100.00
FRECUENCIA
FRECUENCIA FRECUENCIA
VARIABLE FRECUENCIA RELATIVA
RELATIVA ACUMULADA
ACUMULADA
Categoría
1
Casos (c1 ) (c1 n) [(c1 )] [(c1 ) n]
⎡ (c1 ) + (c 2 ) ⎤
Categoría
Casos (c2 ) (c2 n) [(c1 ) + (c2 )] ⎢ ⎥
2 ⎣ n ⎦
⎡ (c1 ) + (c 2 ) + (c3 )⎤
Categoría Casos (c3 ) (c3 n ) [(c1 ) + (c2 ) + (c3 )] ⎢ ⎥
3 ⎣ n ⎦
(…) (…) (…) (…) (…)
Casos (c n ) (cn n )
Categoría Tamaño de
muestra (n )
n 1.00
Tamaño de
muestra (n )
TOTAL 1.00
Gráficas de frecuencias
94
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Otra forma de resumir y a la vez representar los datos de una variable cualitativa es a
través de gráficos. Por tratarse de características cuyos valores son categorías con
determinada frecuencia relativa se sugiere entonces el uso de gráficas de barras o de
gráficas circulares:
Las barras pueden estar separadas debido a que no hay continuidad entre las
categorías.
Se sugiere que las frecuencias utilizadas en la construcción del gráfico sean las
relativas, ya que estas permiten observar y comparar las proporciones o
porcentajes que presentaron las categorías.
60
Porcentaje
40
20
17
0 8
Bajo Elevado Muy elevado
b) Gráficas circulares: Por su parte, las gráficas circulares son más difíciles de
trazar manualmente, pues debe dividirse un círculo (100% = 360°) de acuerdo al
porcentaje que cada categoría mostró (K % = X °) y para ello, más que una regla
de tres, se requiere de un compás y un transportador. Pese a todo, las gráficas
circulares permiten comparar de manera mucho más clara los porcentajes de las
categorías.
Bajo 95
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Tablas de contingencia
Cuando lo que se desea es descubrir si entre dos variables cualitativas existe asociación
(y, dado el caso, su intensidad) se echa mano de las tablas de contingencia: tablas de
dos entradas donde se colocan los datos cruzados de las variables; es decir,
especificando en las celdas el número de casos que cumplen con ambas categorías:
VARIABLE DEPENDIENTE
Categoría Categoría Categoría Categoría TOTAL
(…)
A B C X
Categoría
1
casos(1A) casos(1B ) casos(1C ) (…) casos(1X ) casos(1)
INDEPENDIENTE
Categoría
casos(2 A) casos(2 B ) casos(2C ) (…) casos(2 X ) casos(2)
VARIABLE
2
Categoría
3
casos(3 A) casos(3B ) casos(3C ) (…) casos(3 X ) casos(3)
(…) (…) (…) (…) (…) (…) (…)
Categoría
n casos(nA) casos(nB ) casos(nC ) (…) casos(nX ) casos(n )
Tamaño
TOTAL casos( A) casos(B ) casos(C ) (…) casos( X ) de la
muestra
Sin embargo, interpretar un fenómeno a partir de los datos de las celdas es un error, pues
el valor que éstas presentan depende directamente de los casos observados en cada
categoría. Por ende, en vista de hacer conclusiones correctas es necesario obtener
porcentajes (según se requiera) a partir de una de las siguientes formas:
• Del total: Para obtener estos porcentaje se divide el valor de la celda entre el
tamaño total de la muestra (celda n ) . No obstante, al igual que los valores reales,
dichos porcentajes no proporcionan mucha información ya que se ven afectados
por el número de casos presente en cada categoría.
Aunque pudiera parecer indistinto el uso de porcentajes por columna o por renglón, éste
último resulta más fácil de interpretar y, debido a la estructura de la tabla, permite analizar
de manera más adecuada si alguna característica posee relación con una variable
independiente.
96
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Hemos visto ya que las tablas de contingencia permiten descubrir la asociación entre dos
variables cualitativas. No obstante, el número de datos y porcentajes obtenidos a partir de
ellas pueden confundir a cualquier lector; veamos entonces qué alternativas gráficas
tenemos para representar sus resultados:
80 88
Porcentaje
60 68
40
Sexo
20 Femenino
22
0 8 10 Masculino
Bajo Elevado Muy elevado
97
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
80
Porcentaje
60
40
Sexo
20 Femenino
0 Masculino
Bajo Elevado Muy elevado
Arreglo ordenado
El primer paso para organizar y analizar las variables cuantitativas es, sin duda alguna,
ordenar los datos de manera creciente, pues la lista resultante nos permitirá encontrar los
valores extremos que la variable analizada mostró.
Intervalos de clase
R = Vmax − Vmin
Aunque dicha expresión aplica para la mayoría de los casos, si en la muestra se observan
datos atípicos es mejor excluirlos del cálculo y dejar abiertos los intervalos.
98
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
W =R .
ni
4) Definir los intervalos: Calculado lo anterior, resta hacer explícitos los intervalos:
Tablas de frecuencias
Igual que las tablas de frecuencias de las variables cualitativas de tipo ordinal, las tablas
de frecuencias para las variables cuantitativas están conformadas por cinco columnas: la
primera hace referencia al intervalo y las otras cuatro a las frecuencias de éste:
1
Letra asignada por la palabra ancho en inglés (wide).
99
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
ACUMULADA
Intervalo 1 Casos (n1 ) (n1 n ) [(n1 )] [(n1 ) n]
⎡ (n1 ) + (n 2 ) ⎤
Intervalo 2 Casos (n2 ) (n2 n) [(n1 ) + (n2 )] ⎢ ⎥
⎣ n ⎦
⎡ (n1 ) + (n 2 ) + (n3 ) ⎤
Intervalo 3 Casos (n3 ) (n3 n ) [(n1 ) + (n2 ) + (n3 )] ⎢ ⎥
⎣ n ⎦
(…) (…) (…) (…) (…)
Histogramas
20
20 20
16 16
10
0
18
20
22
24
26
.3
.3
.3
.4
.4
3-
6-
9-
2-
5+
20
22
24
26
.3
.3
.4
.4
8
5
Edad exacta
Polígonos de frecuencia
Los polígonos de frecuencia son gráficas de tipo lineal que también permiten reconocer
la distribución de frecuencia de una variable cuantitativa. Su construcción requiere ubicar
la intersección entre la frecuencia relativa de cada intervalo y las MARCAS DE CLASE;
es decir, los valores situados exactamente a la mitad de cada intervalo. Una vez que se
100
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
marcan dichas intersecciones, éstas se unen mediante una línea que se extiende hasta
tocar el eje de las abscisas en ambos extremos para delimitar un polígono.
El área de éste es igual al área que ocupan las barras de un histograma, razón por la cual
un polígono de frecuencia se interpreta igual que aquél, pero su ventaja es que, al ocupar
menos espacio, permite comparar diferentes grupos respecto a una variable.
DISTRIBUCIÓN DE HOMBRES
POR EDAD EXACTA
Alumnos de estadística 2008-1 (n=25)
30.00%
25.00%
Porcentaje
20.00%
15.00%
10.00%
5.00%
0.00%
18.33 - 20.36 - 22.39 - 24.42 - 26.45 +
20.35 22.38 24.41 26.44
Edad exacta
Ojivas
Finalmente tenemos a las ojivas, gráficos lineales que muestran de manera más clara la
tendencia de una variable y nos permiten inspeccionar visualmente el porcentaje de casos
menores o mayores a uno de sus valores (no necesariamente presente en los datos).
Debido a esto, las ojivas contemplan en el eje de las ordenadas la frecuencia relativa
acumulada (o porcentaje acumulado) y los límites de los intervalos en el eje de las
abscisas:
a) Ojivas menos de: Son las que permitan ubicar el porcentaje de casos menores a
un valor, por tal motivo, su trazo e interpretación implica la siguiente metodología:
101
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
3) Construir una tabla con los datos para la ojiva: En esta tabla debe señalarse
las frecuencias anteriores, cada una con la etiqueta correspondiente “Menos de
L inf i ”. Nótese que las frecuencias acumuladas van en aumento y que:
4) Trazar la ojiva:
OJIVA MENOS DE EDAD
(n=95,429,611)
Calculado esto se traza una gráfica 120
102
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
b) Ojivas más de: Ojivas que hacen posible ubicar el porcentaje de casos mayores a
un valor al indicar en el eje de las abscisas los límites superiores de los intervalos.
Su construcción, por ende, implica seguir una metodología diferente a la que vimos
anteriormente:
3) Construir una tabla con los datos para la ojiva: En esta tabla cada categoría
“Más de L sup i ” implica ir restando la frecuencia simple del intervalo previo.
103
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Ejemplos de aplicación
104
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
VARIABLE
Masculino 405
SEXO
Femenino 391
Alfabeta 487
ALFABETISMO
No alfabeta3 309
a.1 y a.2) Construir una tabla de frecuencia y gráfica circular para cada variable.
b) Si 289 de los hombres eran alfabetos y de las mujeres 198 también, comprobar si
existe una asociación entre ambas variables mediante una tabla de contingencia y una
gráfica de barras.
Para resolver el primer inciso ordenamos los datos de cada variable y obtenemos
entonces sus frecuencias relativas y los porcentajes que éstas implican.
FRECUENCIA
SEXO FRECUENCIA PORCENTAJE
RELATIVA
Masculino 405 405 796 = 0.5088 50.88
Femenino 391 391 796 = 0.4912 49.12
TOTAL 796 1.0000 100.00
FRECUENCIA
ALFABETISMO FRECUENCIA PORCENTAJE
RELATIVA
Alfabeta 487 487 796 = 0.6118 61.18
No alfabeta 309 309 796 = 0.3882 38.82
TOTAL 796 1.0000 100.00
2
s/a, 2004. Estudio Nacional de Salud y Envejecimiento en México (ENASEM) 2001. Documento
metodológico y reporte de proyecto. Formato electrónico:
http://www.mhas.pop.upenn.edu/english/documents/Methodological/Doc_metodologico-v2.pdf
3
Según la afirmación de que no sabían leer ni escribir un recado.
105
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
FUENTE:
Estudio Nacional sobre Salud y Envejecimiento en México (ENASEM), 2001
DISTRIBUCIÓN POR SEXO DISTRIBUCIÓN DEL ALFABETISMO
Indígenas de 50 años o más (n=796) Indígenas de 50 años o más (n=796)
No alfabeta
Femenino Masculino 38.8%
49.1% 50.9% Alfabeta
61.2%
a.2) , Si bien el porcentaje femenino era mayor, más que las frecuencias, la gráfica nos
permite ver que no hubo una gran diferencia en la cantidad de mujeres y hombres
encuestados. Por el contrario, aunque aquí la diferencia en el alfabetismo no es tan fuerte
como en la comparación numérica, la gráfica comprueba un mayor porcentaje de alfabetas.
Ahora, para analizar si existe una asociación entre las variables, construimos la tabla de
contingencia:
ALFABETISMO
TOTAL
Alfabeta No alfabeta
Masculino 289 405
SEXO
Femenino 198 391
TOTAL 487 309 796
Como no se hicieron explícitas las frecuencias de los casos que no sabían leer ni escribir
un recado, basta realizar un par de restas al número total de casos de cada sexo para
obtenerlos: 405 − 289 = 116 y 391 − 198 = 193 ; valores que suman el total de casos no
alfabetas: 116 + 193 = 309
Una vez calculado esto, terminemos de elaborar la tabla y saquemos los porcentajes por
renglón:
ALFABETISMO ALFABETISMO
TOTAL
Alfabeta No alfabeta
289 116 405
Masculino
71.36% 28.64% 100%
SEXO
198 193 391
Femenino
50.64% 49.36% 100%
487 309 796
TOTAL TOTAL
61.18% 38.82% 100%
106
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
71
FUENTE:
60 Estudio Nacional sobre
Salud y Envejecimiento
Porcentaje
51 49
40 en México (ENASEM),
Sexo 2001.
29
20
Masculino
0 Femenino
Alfabeta No alfabeta
Alfabetismo
HOMBRES MUJERES
GRUPO Con Sin Con Sin
QUINQUENAL dificultad dificultad dificultad dificultad
50-54 17 1598 44 1927
55-59 26 1459 46 1686
60-64 33 1116 49 1326
65-69 46 998 46 981
70-74 72 638 60 641
75-79 54 476 61 441
80+ 129 370 202 422
a) Determinar mediante una gráfica de líneas si existe alguna asociación entre estas
variables.
107
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Como el interés reside en averiguar si existe asociación entre la edad y la dificultad para
caminar (presencia de una característica), sólo graficaremos los porcentajes
correspondientes a ésta separando los datos por sexo.
FUENTE:
40
Estudio Nacional sobre
Salud y Envejecimiento
Porcentaje
30
en México (ENASEM),
20
Sexo 2001.
10 Masculino
0 Femenino
50-54 55-59 60-64 65-69 70-74 75-79 80+
Grupo quinquenal
Ante dicha circunstancia, el IMSS sugiere que las personas estén al pendiente de sus
medidas; especialmente de la circunferencia de su cintura, y la interpreten de acuerdo a la
siguiente tabla a fin de tomar acciones preventivas en caso necesario:
4
IMSS, 2005. “Prevención, detección y control de sobrepeso y obesidad” en Guía de la salud de la mujer,
36-42 p.p. Documento electrónico: http://www.imss.gob.mx/NR/rdonlyres/E36D4BB0-C252-4B7C-A44E-
6DE664C76609/0/GCSmuj3150.pdf
108
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
, Si bien pareciera existir un rango mayor en las medidas del perímetro de cintura
femenino, esto se debe a las unidades. Si convertimos dichos valores a la escala más
común (centímetros) el rango del perímetro de cintura masculino fue sólo 0.7 centímetros
menor que el femenino.
Especifiquemos ahora los intervalos para hacer las tablas de frecuencia y los histogramas
correspondientes:
109
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Perímetro de cintura
110
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Más de 633 36 87.80% , Esta tabla señala que un 7.32% de los casos
Más de 711 21 51.22% poseía un perímetro de cintura mayor a 867
Más de 789 8 19.51% milímetros; medida que, al superar los 80.0
Más de 867 3 7.32% centímetros, indica que tales alumnas corrían algún
Más de 946 0 0.00% tipo de riesgo (todavía indiferenciado).
Ahora bien, la ojiva sugiere que menos de un 20% (línea azul claro) tenía una
circunferencia mayor a 80.0 centímetros y que el perímetro de aproximadamente un 10%
era mayor a 88 centímetros .
PERÍMETRO DE CINTURA - ,
HOMBRES Para
FREC. ir
FREC. por
EDAD REL.
ACUM.
ACUM.
Más de 697 25 100.00%
Más de 773.5 13 52.00%
orden de riesgo primero observemos el Más de 850.1 8 32.00%
gráfico: la ojiva señala que Más de 926.7 4 16.00%
aproximadamente un 15.0% de los Más de 1003.3 1 4.00%
hombres corría un riesgo elevado ya Más de 1080 0 0.00% que
tenía una circunferencia mayor a 94
centímetros; estimación no muy alejada al porcentaje real: 12.0% (3 casos). Por otro lado,
si bien la tabla manifiesta que el caso del último intervalo tenían un perímetro mayor a
1003.3, la ojiva confirma que su valor (1080) caía en la zona de riesgo elevado.
111
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
De acuerdo al IMSS, a los siete casos con riesgo elevado (cinco mujeres y 2 hombres) se
les debió sugerir disminuir los alimentos ricos en grasa, colesterol y azúcares refinados,
además de realizar ejercicio aeróbico por lo menos sesenta minutos. En tanto que los
cuatro casos con riesgo muy elevado (tres mujeres y un hombre) debían urgentemente
disminuir su peso corporal, cambiar los malos hábitos de alimentación y realizar también
sesenta minutos de ejercicio aeróbico como mínimo.
Como anteriormente mencionamos, más allá del análisis de frecuencias, otra forma de
resumir los datos y analizar la distribución de una variable son las medidas descriptivas:
números individuales que contienen información importante sobre las observaciones
originales.
Antes de revisar algunas de ellas debemos mencionar que, si éstas se obtienen a partir
de datos poblacionales, las medidas descriptivas reciben la denominación de
parámetros; empero, si son producto de un conjunto de datos muestrales, su expresión
cambia y son llamadas estadísticos, números cuyo valor se intenta sea lo más parecido
al de su parámetro correspondiente.
Las medidas de tendencia central son aquellas que intentan resumir el conjunto de
datos señalando su valor representativo, por ejemplo:
(
Moda Xˆ , xˆ )
La moda es el valor que se presenta con mayor frecuencia en una serie de
observaciones. Esta medida es, por tanto, ideal para encontrar la categoría
representativa en una serie de datos cualitativos. No obstante, es poco confiable
cuando se manejan variables cuantitativas ya que, si todos los valores son diferentes o si
son varios los valores que se repiten (con la misma frecuencia) ha de concluirse que los
datos no tienen moda o que el conjunto es multimodal.
De cualquier forma ha de señalarse que, para denotar su valor, basta añadir un acento
circunflejo (^) a la letra con que se designó la variable:
PARÁMETRO ESTADÍSTICO
X̂ x̂
Mediana ( X , ~
x)
~
NON PAR
x (1) x (1)
112
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
x(2 ) x(2 )
x (3 ) Mediana x (3 )
Mediana
x(4 ) x(4 )
x (5 ) x (5 )
x (6 )
Explicado eso puede afirmarse que la mediana (señalada con una tilde ~) es una medida
de tendencia central muy fácil de calcular cuyo valor, al ser único, resulta sumamente útil
para indicar (por posición) el promedio de un conjunto de datos cuando éstos presentan
cierta simetría o incluyen valores extremos.
PARÁMETRO ESTADÍSTICO
X~ ~
x
Media (aritmética) (µ , x )
La media es, sin duda alguna, la medida de tendencia central más utilizada en la
estadística descriptiva de variables cuantitativas. Si bien su parámetro se representa
con la letra griega µ (Mi), su estadístico se señala agregando una barra horizontal sobre
la letra de la variable:
PARÁMETRO ESTADÍSTICO
N n
∑ xi ∑x i
µ= i =1
x= i =1
N n
Como puede verse, la media es simplemente el producto de sumar todos los valores
observados y dividir el resultado entre el número total de datos5. Es decir, a diferencia de
la mediana, la media es un promedio que toma en cuenta todas las observaciones; sin
5
A diferencia de la moda y la mediana, la media es la única medida de tendencia central que, por su cálculo
aritmético, puede obtenerse con ayuda de la calculadora. Sólo es necesario ingresar los datos en el modo
estadístico y acceder a la función x .
113
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
embargo, dicha característica implica que su cálculo pueda verse afectado por valores
extremos al grado de provocar que su valor no sea verdaderamente representativo.
Medidas de dispersión
Aún cuando las medidas anteriores nos permiten encontrar los valores centrales de un
conjunto de datos, poco dicen sobre el resto de las observaciones: si son parecidas o
difieren por mucho. Precisamente para reconocer dicha variabilidad en la distribución de
una variable es que la estadística ha propuesto las medidas de dispersión6, entre ellas:
Rango (R )
Como vimos en el capítulo anterior, el rango es la diferencia entre el valor más pequeño y
el más grande en un conjunto de datos:
R = Vmax − Vmin
La sencillez del cálculo de esta medida de dispersión (que echa mano de sólo dos
observaciones) es, sin embargo, contrarrestada por su deficiencia en la explicación de la
variabilidad, que se limita a la diferencia más general.
Debido a esto es que, para comprender la cantidad total de variabilidad y resumirla en un
solo número es preciso sacar el promedio de la desviación de los datos con respecto a su
media:
n
∑ (X i − x)
Dispersión = i =1
Esta fórmula, empero, no funciona porque, como veremos a continuación, la suma de las
desviaciones de los datos respecto a la media es siempre igual a cero:
n n n
∑ (X
i =1
i − x) = ∑ Xi − ∑ x
i =1 i =1
n n n
Porque ∑ ( X i + Yi ) = ∑ X i + ∑ Yi
i =1 i =1 i =1
n n
∑ (X
i =1
i − x ) = ∑ X i − xn
i =1
n
Porque ∑ C = cn
i =1
∑ (X
i =1
i − x ) = xn − xn
6
Tales medidas sólo deben aplicarse cuando los datos son distintos, pues si el valor de todas las
observaciones fuera idéntico no habría variabilidad.
114
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
∑X i n
⇒ ∑ X i = xn
Porque
x= i =1
n i =1
n
Entonces ∑ (X
i =1
i − x) = 0
Por lo 0
Dispersión = =0
que n
A fin de salvar este problema, el resto de las medidas de dispersión ocupa entonces una
serie de estrategias para transformar las desviaciones de los datos en distancias, cuyo
valor es siempre positivo o igual a cero.
PARÁMETRO ESTADÍSTICO
N n
∑ Xi − µ ∑X i −x
DM = i =1
dm = i =1
N n
[
No obstante, como el valor absoluto es una función f ( x ) = x que no tiene propiedades ]
algebraicas para realizar desarrollos matemáticos inferenciales, la desviación media es
una medida de dispersión que no se utiliza en la práctica.
(
Varianza σ 2 , s 2 )
La varianza es la medida de dispersión que, para evitar los signos de las desviaciones,
saca el promedio7 de las diferencias de los datos respecto a su media elevadas al
cuadrado:
PARÁMETRO ESTADÍSTICO
7
El promedio se obtiene dividiendo entre n − 1 de acuerdo a los principios teóricos de los grados de libertad:
Basa conocer los valores de n − 1 de las desviaciones, pues el n − ésimo valor queda automáticamente
determinado por la restricción de que todos los valores de n suman siempre cero.
115
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
N n
∑ (X − µ) ∑ (X − x)
2 2
i i
σ2 = i =1
s2 = i =1
N n −1
PARÁMETRO ESTADÍSTICO
N n
∑ (X i − µ ) ∑ (X − x)
2 2
i
σ= i =1
s= i =1
N n −1
n
• ∑ (X − x) :
2
Primero desarrollemos el binomio i
i =1
n n n n
∑ (X − x ) = ∑ X i2 − ∑ 2X i x + ∑ x 2
2
i
i =1 i =1 i =1 i =1
∑ (X
i =1
i − x ) = ∑ X i2 − 2 x ∑ X i + x 2 n
2
i =1 i =1
n n n
Porque ∑ CX i = C ∑ X i
i =1 i =1
∑ C = cn
i =1
∑ (X − x ) = ∑ X i2 − 2 x ( x n ) + x n
2
i
i =1 i =1
n
∑X i n
⇒ ∑ X i = xn
Porque
x= i =1
n i =1
∑ (X − x ) = ∑ X i2 − 2 x 2 n + x n
2
i
i =1 i =1
116
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
n n
∑ (X − x ) = ∑ X i2 − x 2 n
2
i
i =1 i =1
Basado en esto tenemos que una forma más sencilla de calcular manualmente8 la
desviación estándar es a través de la siguiente expresión:
ESTADÍSTICO
n
∑X i
2
− nx 2
s= i =1
n −1
Finalmente, sin importar el método utilizado para su cálculo, debemos remarcar que el
obtener la raíz cuadrada de la varianza implica regresar a las unidades originales. La
desviación estándar, por tanto, puede interpretarse literalmente como el promedio de la
desviaciones de los datos respecto a la media: el que su valor sea muy pequeño indica
que las observaciones están muy cerca de esta medida de tendencia central; en tanto que
un valor grande señala que los datos se hallan muy dispersos y que la media pudiera no
ser un valor realmente representativo del conjunto.
Medidas de posición
Otra forma de analizar la distribución de una variable son las medidas de posición:
números que sirven para descubrir la localización de un dato específico con respecto el
resto de la muestra.
Percentiles (centiles)
8
Igual que la media, el valor de la desviación estándar de un conjunto de observaciones puede obtenerse
mediante las funciones σ n −1 ó s x de la calculadora una vez que se han ingresado los datos en el modo
estadístico.
117
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Dicho esto, si el número total de datos (n ) es el 100%, la forma más sencilla de encontrar
el número k que deja, a los más, al k % por debajo de él y al (100 − k )% por encima de
él es:
nk
=X
100
Cuartiles
Los cuartiles son tres números que dividen a los datos ordenados en cuatro partes
iguales. Sus valores, por tanto, pueden hacerse equivalentes a los de cuatro percentiles:
Como su ubicación es mucho más precisa, los cuartiles no sirven para analizar casos
extremos; no obstante, se utilizan para designar ciertas posiciones cuando se elabora una
gráfica de caja.
Gráficas de caja
Las gráficas de caja (también conocidas como diagramas de caja y bigotes) son
gráficos que muestran la distribución de una variable. Veamos los pasos necesarios para
construirlas:
9
Si el valor de X tiene decimales debe redondearse al número entero que le sigue.
118
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
1) ORDENAR LOS DATOS Y UBICAR VALORES CLAVE: Los primero que debe
hacerse es ordenar los datos para reconocer los valores mínimo, máximo y de los tres
( )
cuartiles: Vmin, q1 , q 2 , q 3 , Vmax .
5) TRAZAR LOS BIGOTES: Finalmente se ubican los valores mínimo y máximo, y a partir
de ellos se traza una línea hasta los extremos inferior y superior de la caja.
1200 52
32
bien, una mayor distancia de la 1100
mediana a uno de los cuartiles
(q1 , q3 ) implica, por ejemplo,
1000
900
una mayor variabilidad en esa 800
mitad del grupo de estudio. 700
Asimismo, una mayor distancia N= 41 25
Por último debe mencionarse que este tipo de gráficas permite también comparar la
distribución de la variable entre las categorías del grupo de estudio. Si es este el caso,
basta con separar los datos de cada categoría, ubicar sus valores y trazar una caja para
cada grupo.
119
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
DISTRIBUCIÓN DE LA VARIABLE
PERÍMETRO DE CADERA
Alumnos de estadística 2008-1 (n=66)
1300
Perímetro de cadera
1200
1100
1000
Turno
900
800 Matutino
700 Vespertino
N= 26 15 13 12
Femenino Masculino
Sexo
Ejemplos de aplicación
1. Son muchos ya los alumnos de la ENAH que han expresado lo incómodo de las
sillas de esta escuela. Si bien resulta imprescindible un cambio en este mobiliario, el costo
que dicho proyecto pudiera alcanzar es inquietante.
Echando mano de los datos de Estatura total, Estatura sentado, Altura de rodilla y Peso
recolectados en los grupos de estadística:
120
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Ahora bien, ejemplifiquemos la aplicación de todas las medidas y las gráficas de caja con
la variable Estatura total:
I. Estatura total
Lo primero que observamos en esta variable es que cinco valores se repiten dos veces a
lo largo de la muestra:
, Por tal motivo puede afirmarse que entre los alumnos de estadística la variable Estatura
es multimodal.
Sin embargo, como la moda ha señalado demasiados valores, buscaremos la mediana del
conjunto para ver si su valor es más representativo. Dado que el número total de datos es
par (n = 66) , debemos averiguar el promedio de los datos que están al centro de la lista.
POSICIÓN
(n = 66) ⎛ 66 ⎞
⎜ ⎟ = 33
⎛ 66 ⎞
⎜ + 1⎟ = 34
⎝ 2 ⎠ ⎝ 2 ⎠
VALOR 1597 1599
MEDIANA 1597 + 1599
x=
~ = 1598.0000
(PROMEDIO) 2
MEDIA 107153
1623 5303
121
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
∑x i
x= i =1
n
, El cálculo aritmético indica que el promedio de la estatura entre los alumnos es de
1623.5303 milímetros (1.62 metros); así que habrá que analizar si la diferencia de dos
centímetros se debe a la variabilidad.
RANGO
R = Vmax − Vmin R = 1852 − 1477 = 375.0000
, El cálculo del rango señala que, entre la menor y la mayor estatura hay 375 milímetros
(37.5 centímetros). No obstante, la cantidad total de variabilidad manifestada por la
variable es de:
DESVIACIÓN ESTÁNDAR
174411215 − 66(1623.5303)
n 2
∑X i
2
− nx 2 s= = 82.7483
s= i =1 66 − 1
n −1
, Esto significa que la distancia promedio de los datos de estatura total respecto a su
media es de 82.7483 milímetros (8.2 centímetros).
DISTRIBUCIÓN DE LA VARIABLE
ESTATURA TOTAL
, Como podemos observar, la mayor
Alumnos de estadística 2008-1 (n=66) variabilidad de la estatura se
1900 manifiesta en la mitad de los alumnos
más altos. Asimismo se observa que el
1800
estudiante con la estatura más alta se
encuentra más alejado del valor
Estatura total
1700
promedio (mediana) que el de menor
1600
estatura.
1500
122
1400
Alumnos
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
DISTRIBUCIÓN DE LA VARIABLE
, El gráfico señala ahora que la
ESTATURA TOTAL POR SEXO estatura de las mujeres es, en
general, menor a la de los hombres.
Alumnos de estadística 2008-1 (n=66)
1900
Dicha afirmación no sólo es
37
39
confirmada al observar una mayor
1800 variabilidad en estaturas mayores
Estatura total
1700
para el sexo femenino, sino también
15
54
44 al descubrir que fue una mujer quien
1600 presentó una estatura atípicamente
1500
baja.
6
1400
N= 41 25
Femenino Masculino
Sexo
Habiendo reconocido la posición de
muchos valores y, echando mano de la tecnología (calculadora o computadora), resulta
sencillo analizar el comportamiento del resto de las variables:
MODA xˆ = 850
, La estatura sentado observada con mayor frecuencia entre los alumnos de
estadística fue de 850 milímetros (85.0 centímetros).
POSICIÓN
(n = 66) ⎛ 66 ⎞
⎜ ⎟ = 33
⎛ 66 ⎞
⎜ + 1⎟ = 34
⎝ 2 ⎠ ⎝ 2 ⎠
VALOR 854 855
MEDIANA 854 + 855
x=
~ = 854.5000
(PROMEDIO) 2
, El valor promedio del conjunto de datos sobre estatura sentado es de 854.5
milímetros (85.4 centímetros).
MEDIA x = 863.42
, La estatura sentado promedio de los alumnos de estadística es de 863.42
milímetros (86.3 centímetros).
123
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
(18.2 centímetros).
900 900
60
800
800
700
700 N= 41 25
N= 66 Femenino Masculino
Alumnos Sexo
, Igual que la estatura total, la variable Estatura sentado muestra mayor variabilidad en la
mitad con valores más altos y pese a que dicha estatura es mayor entre los hombres y
sus valores manifiestan mayor dispersión en las mujeres, se observó un caso atípico del
sexo masculino, que presentó una estatura sentado notoriamente baja.
MODA xˆ = 464
, La altura de rodilla observada con mayor frecuencia entre los alumnos de
estadística es de 464 milímetros (46.4 centímetros).
POSICIÓN
(n = 66) ⎛ 66 ⎞
⎜ ⎟ = 33
⎛ 66 ⎞
⎜ + 1⎟ = 34
⎝ 2 ⎠ ⎝ 2 ⎠
124
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
MEDIA x = 478.35
, La altura de rodilla promedio de los alumnos de estadística es de 478.35
milímetros (47.8 centímetros).
600 600 54 37
Altura de rodilla
54
37
39
500
500
42
50
400
400
300
300 N= 41 25
N= 66 Femenino Masculino
Alumnos Sexo
125
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
IV. Peso
MODA xˆ = 44.4,53.1,57.5,58.4,61.6,62.6
, La repetición de seis valores a lo largo de la muestra señala a los alumnos de
estadística como una muestra multimodal respecto al peso corporal.
POSICIÓN
(n = 66) ⎛ 66 ⎞
⎜ ⎟ = 33
⎛ 66 ⎞
⎜ + 1⎟ = 34
⎝ 2 ⎠ ⎝ 2 ⎠
VALOR 60.4 61.1
MEDIANA 60.4 + 61.1
x=
~ = 60.75
(PROMEDIO) 2
, El valor promedio del conjunto de datos sobre peso es de 60.75 kilogramos.
MEDIA x = 61.62
, El peso promedio de los alumnos de estadística es de 61.6 kilogramos.
126
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
DISTRIBUCIÓN DE LA VARIABLE
PESO CORPORAL
Alumnos de estadística 2008-1 (n=66)
110
100 37
39
Peso corporal 90
80
70
60
50
40
30
N= 66
Alumnos
54
80
atípicos registrados se deben a
70
mujeres.
60
50
40
30
N= 41 25
Femenino Masculino
127
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Esta característica es, empero, la misma razón por la cual la desviación estándar de
distintos grupos (con medias considerablemente diferentes) o variables (con otras
unidades y escalas de medición) no puede ser comparada. Otros procedimiento deben
realizarse entonces para cotejar la variabilidad de dos o más conjuntos de datos:
PARÁMETRO ESTADÍSTICO
⎛σ ⎞ ⎛s⎞
C.V . = ⎜⎜ ⎟⎟100 c.v.. = ⎜ ⎟100
⎝µ⎠ ⎝x⎠
Esto debido a que, al dividir la desviación estándar entre la media no sólo cancelamos las
unidades, sino que también establecemos una medida que, multiplicada por cien, indica
qué tanto por ciento de dispersión existe respecto a la media.
Ahora bien, aunque son los términos porcentuales del coeficiente de variación los que
permiten comparar la variabilidad entre dos o más conjuntos de datos, es su carácter
relativo a la media lo que permite evaluar dicha medida de tendencia central y concluir
que: si el coeficiente de variación es mayor a 30%, la dispersión de las
observaciones afecta el valor de la media; razón por la cual es mejor utilizar a la
mediana como valor promedio.
Otro técnica para cotejar la variabilidad entre dos o más conjuntos de datos es calcular la
proporción o porcentaje aproximado de elementos que se encuentran en una parte de la
distribución manifestada por cada variable.
1 ⎡ ⎛ 1 ⎞ ⎤
k 1− ⎢1 − ⎜ k 2 ⎟100%⎥ INTERPRETACIÓN
k2 ⎣ ⎝ ⎠ ⎦
Al menos 75% de los datos
2 1−
1
2
1 3
= 1 − = = 0.75 (0.75)100% = 75% está a dos desviaciones
2 4 4 estándares de la media.
Al menos 89% de los datos
3 1−
1
2
1 8
= 1 − = = 0.89 (0.89)100% = 89% está a tres desviaciones
3 9 9 estándares de la media.
128
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
1
Si 1− =x
k2
1
1− x = 2
k
Despejamos k
1
= k2
1− x
1
Y tenemos que =k
1− x
1 n
COEFICIENTE DE ∑ ( X i − x )3
n
ASIMETRÍA DE FISHER a = i =1 3
s
129
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
VALOR
INTERPRETACIÓN REPRESENTACIÓN GRÁFICA
DE a
Coeficiente de curtosis
Por otro lado está el coeficiente de curtosis, medida que analiza el grado de
concentración que presentan los datos en torno a la media y señala cuán puntiaguda es la
distribución de la variable respecto a la curva gaussiana (distribución normal):
1 n
COEFICIENTE ∑ ( X i − x )4
n
DE CURTOSIS c = i =1 4 −3
s
VALOR
INTERPRETACIÓN REPRESENTACIÓN GRÁFICA
DE a
130
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Un valor negativo en el
coeficiente de curtosis indica que
los datos se encuentran muy
c<0 dispersos, motivo por el que la
curva que delinea su distribución
es más plana y ancha; esto es
platicúrtica.
Por otra parte, cuando el
coeficiente de curtosis es
aproximadamente cero puede
concluirse que la variable se
c≈0 distribuye con un grado de
concentración medio, así que la
curva es muy parecida a la
gaussiana: mesocúrtica.
Finalmente, un coeficiente de
curtosis positivo es señal de que
los datos se concentran alrededor
c>0 de la media; razón por la cual su
curva es más esbelta y
apuntalada; es decir,
leptocúrtica.
Ejemplos de aplicación
1. A lo largo del último ejercicio del capítulo anterior realizamos algunas gráficas de
cajas para explorar el comportamiento de las variables Estatura total, Estatura sentado,
Altura de rodilla y Peso en los grupos de estadística 2008-1. Si bien establecimos
algunas comparaciones sobre su variabilidad por sexo, todas las conclusiones fueron
hechas visualmente. Calcule entonces las medidas necesarias para:
131
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
rodilla
Peso
57.50 57.30 11.56 65.60 68.71 12.77
corporal
a) , De entrada vemos que ninguno de los coeficientes de variación es mayor a 30, por lo
que puede afirmarse que la media calculada en cada caso es un valor verdaderamente
representativo de los datos. Ahora, aunque en general fue el peso la característica que
presentó mayor variabilidad, la dispersión de las observaciones muestra una diferencia
por sexo: es mayor en la estatura total y la estatura sentado masculina, y mayor en la
altura de rodilla y el peso femenino. Cultural es seguramente el motivo por el que las
mujeres presentan tal variabilidad… pero esa es harina de otro costal a investigar.
Hecho esto, revisemos la distribución de las variables. Primero, para deducir el intervalo
que contiene al 95% de los datos de cada caso, es necesario calcular el valor de k :
Si: Entonces:
1 1
1− = 0.95 = 4.47
k2 1 − 0.95
Sabiendo esto, construyamos los intervalos para cada variable por sexo:
SEXO FEMENINO
VARIABLE DATOS INTERVALO
Estatura total [1576.39 − 4.47(50.01),1576.39 + 4.47(50.01)] [1352.85,1799.93]
Estatura sentado [841.46 − 4.47(25.46),841.46 + 4.47(25.46)] [727.65,955.27]
Altura de rodilla [464.80 − 4.47(28.13),464.80 + 4.47(28.13)] [339.06,590.54]
Peso corporal [57.30 − 4.47(11.56),57.30 + 4.47(11.56)] [5.63,108.97]
SEXO MASCULINO
VARIABLE DATOS INTERVALO
132
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
SEXO FEMENINO
VARIABLE COEFICIENTE DE ASIMETRÍA
1 n
∑ ( X i − 1576.39) 1
(1470507.05)
3
Estatura 35866.03
41 i =1 41
total a= ⇒ a = ⇒a= = 0.29
(50.01) 3
125075.02 125075.02
1 n
Estatura ∑ ( X i − 841.46)3 1
(168650.29)
41 i =1 41 4113.42
sentado a= ⇒a= ⇒a= = 0.25
(25.46) 3
16503.47 16503.47
1 n
Altura de ∑ ( X i − 464.80)3 1
(1666542.97 )
41 i =1 41 40647.39
rodilla a= ⇒ a = ⇒a= = 1.83
(28.13) 3
22259.18 22259.18
1 n
Peso ∑ ( X i − 57.30)3 1
(51861.56)
41 i =1 41 1264.92
corporal a= ⇒a= ⇒a= = 0.82
(11.56) 3
1544.80 1544.80
SEXO FEMENINO
VARIABLE COEFICIENTE DE CURTOSIS
1 n
∑ ( X i − 1576.39)4 1
(717595453.77 )
41 i =1 41
c= −3⇒ c = −3
Estatura
total
(50.01)4 6255001.50
17502328.14
⇒c= − 3 ⇒ c = 2.80 − 3 = −0.20
6255001.50
1 n
∑ ( X i − 841.46) 1
(38946197.76)
4
41 i =1 41
c= − 3 ⇒ c = −3
Estatura
sentado
(25.46)4 420178.28
949907.26
⇒c= − 3 ⇒ c = 2.26 − 3 = −0.74
420178.28
10
Debido a que obtener la diferencia de cada dato respecto a su media es sumamente laborioso, hemos
ocupado un programa de hojas de cálculo para calcular su suma total ya elevada al cubo y a la cuarta potencia.
133
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
1 n
∑ ( X i − 464.80)4 1
(268696141.65)
41 i =1 41
c= −3⇒ c = −3
Altura de
rodilla
(28.13)4 626150.78
6553564.43
⇒c= − 3 ⇒ c = 10.47 − 3 = 7.47
626150.78
1 n
∑ ( X i − 57.30) 1
(2727396.16)
4
41 i =1 41
c= − 3 ⇒ c = −3
Peso
corporal
(11.56)4 17857.94
66521.86
⇒c= − 3 ⇒ c = 3.73 − 3 = 0.73
17857.94
SEXO MASCULINO
VARIABLE COEFICIENTE DE ASIMETRÍA
1 n
Estatura ∑ ( X i − 1700.84)3 1
(2700333.72)
25 i =1 25 108013.35
total a= ⇒a= ⇒a= = 0.38
(65.99) 3
287365.34 287365.34
1 n
Estatura ∑ ( X i − 899.44)3 1
(- 162763.66)
25 i =1 25 - 6510.55
sentado a= ⇒ a = ⇒a= = −0.18
(33.18) 3
36528.27 36528.27
1 n
Altura de ∑ ( X i − 500.56)3 1
(661857.82)
25 i =1 25 26474.31
rodilla a= ⇒a= ⇒a= = 1.00
(29.84) 3
26570.30 26570.30
1 n
Peso ∑ ( X i − 68.71)3 1
(42502.64)
25 i =1 25 1700.11
corporal a= ⇒ a = ⇒a= = 0.82
(12.77 ) 3
2082.44 2082.44
SEXO MASCULINO
VARIABLE COEFICIENTE DE CURTOSIS
1 n
∑ ( X i − 1700.84)4 1
(1323083865.85)
25 i =1 25
c= − 3 ⇒ c = −3
Estatura
total
(65.99)4 18963238.77
52923354.63
⇒c= − 3 ⇒ c = 2.79 − 3 = −0.21
18963238.77
134
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
1 n
∑ ( X i − 899.44)4 1
(77756609.48)
25 i =1 25
c= −3⇒ c = −3
Estatura
sentado
(33.18)4 1212008.11
3110264.38
⇒c= − 3 ⇒ c = 2.57 − 3 = −0.43
1212008.11
1 n
∑ ( X i − 500.56) 1
(77960641.22)
4
25 i =1 25
c= − 3 ⇒ c = −3
Altura de
rodilla
(29.84)4 792857.75
3118425.65
⇒c= − 3 ⇒ c = 3.93 − 3 = 0.93
792857.75
1 n
∑ ( X i − 68.71)4 1
(1803668.36)
25 i =1 25
c= −3⇒ c = −3
Peso
corporal
(12.77 )4 26592.77
72146.73
⇒c= − 3 ⇒ c = 2.71 − 3 = −0.29
26592.77
Por lo cual podemos concluir que, por sexo, las variables presentan la siguiente
distribución:
135
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Altura de rodilla 1.83 1.97 7.47 9.23 1.00 1.13 0.93 1.85
Peso corporal 0.82 0.88 0.73 1.20 0.82 0.92 -0.29 0.22
10
8
8
Frecuencia
Frecuencia
4
4
2
2
5
8
4
Frecuencia
Frecuencia
4
2
2
1
Media =841.46 Media =899.44
Desviación típica =25. Desviación típica =33.
457 183
0 N =41 0 N =25
780 800 820 840 860 880 900 800 850 900 950 1000
Estatura sentado Estatura sentado
136
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
10
15
8
Frecuencia
Frecuencia
10 6
2
Media =464.8 Media =500.56
Desviación típica =28. Desviación típica =29.
127 836
0 N =41 0 N =25
400 450 500 550 600 460 480 500 520 540 560 580 600
Altura de rodilla Altura de rodilla
5
8
4
Frecuencia
Frecuencia
4
2
2
1
Media =57.3 Media =68.71
Desviación típica =11. Desviación típica =12.
556 766
0 N =41 0 N =25
40.0 60.0 80.0 100.0 50.0 60.0 70.0 80.0 90.0 100.0
Peso corporal Peso corporal
Análisis bivariado
Correlación lineal
Cuando se tienen dos variables cuantitativas, la forma más sencilla para comprobar si
existe una relación lineal entre ellas es construyendo un diagrama de dispersión con base
en coordenadas ( X , Y ) . Empero, como veremos a continuación, la estadística cuenta con
estimadores y pruebas más precisas (acordes al tipo y la distribución probabilística de las
variables) para determinar si existe una asociación significativa o no.
Medida sobre la asociación entre dos variables continuas ( X , Y ) , cuyas expresiones para
calcularlo en poblaciones y muestras son:
PARÁMETRO ESTIMADOR
137
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
− µ x )( y i − µ y )
N n
∑ (x i ∑ (x i − x )( y i − y )
ρ= i =1
r= i =1
N ⋅σ x ⋅σ y (n − 1) ⋅ s x ⋅ s y
No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresión del numerador de este estimador:
∑ (x y
i =1
i i − xi y − x y i + x y )
• Repartimos la sumatoria:
n n n n
∑ x y − ∑ x y − ∑ xy + ∑ xy
i =1
i i
i =1
i
i =1
i
i =1
• Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamaño de la muestra:
n n n
∑x y
i =1
i i − y ∑ x i − x ∑ y i + nx y
i =1 i =1
∑x y
i =1
i i − y ⋅ nx − x ⋅ ny + n x y
n n
∑x i n ∑y i n
⇒ ∑ xi = x ⋅ n ⇒ ∑ yi = y ⋅ n
Porque:
x= i =1
y= i =1
n i =1 n i =1
∑x y
i =1
i i − nx y
11
Si bien esta es la forma más sencilla para calcular manualmente el coeficiente de correlación de Pearson,
cabe mencionar que muchas calculadoras científicas lo pueden arrojar directamente al ingresar los datos de
ambas variables en el modo estadístico de regresión lineal; este dato tendrá un valor muy parecido al que se
obtiene haciendo los cálculos manualmente con 4 decimales.
138
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Imprescindible resulta mencionar que el valor de este coeficiente sólo puede encontrarse
en el rango (− 1 < r < 1) y de acuerdo a ello debe interpretarse:
Y
20
18
16
12 14 16 18 20 22
Ejemplos de aplicación
X
HÚMERO FÉMUR
329 444
311 426
297 449
323 427
323 428
290 427
297 417
287 414
333 417
336 440
313 416
322 408
321 420
315 443
309 472
304 466
300 422
¿es posible afirmar que existe una relación lineal entre la longitud del húmero y del fémur?
139
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
480
470
460
450
Fémur
440
430
420
410
400
280 290 300 310 320 330 340
Húmero
, En esta gráfica podemos observar que no existe una linealidad clara entre las
variables.
Pero es necesario comprobar lo que los sentidos nos dicen con un poco de estadística.
En este primer ejemplo desarrollaremos todos los datos necesarios para calcular
manualmente el coeficiente de correlación; no obstante, en los próximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.
HÚMERO FÉMUR X i Yi
329 444 146076
311 426 132486
297 449 133353
323 427 137921
323 428 138244
290 427 123830
297 417 123849
287 414 118818
333 417 138861
336 440 147840
313 416 130208
322 408 131376
321 420 134820
315 443 139545
309 472 145848
304 466 141664
140
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
DATOS GENERALES
n = 17 x = 312.3529 y = 431.5294 s x = 14.8195 s y = 18.2384
n
EXPRESIÓN DEL
COEFICIENTE DE ∑x y i i − nx y
CORRELACIÓN r= i =1
DE PEARSON (n − 1) ⋅ s x ⋅ s y
CÁLCULO 2291339 − 17(312.3529 ⋅ 431.5294)
r= = −0.0189
MANUAL (17 − 1)14.8195 ⋅ 18.2384
VALOR EN
r = −0.0190
CALCULADORA
, El signo negativo indica que la asociación entre la longitud del húmero y la del
fémur sería inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociación entre estas variables es casi nula.
141
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
¿Puede afirmarse que existe asociación entre la longitud del miembro superior y la
estatura?
1740
1720
1700
1680
Estatura
1660
1640
1620
1600
1580
710 720 730 740 750 760 770 780
, Aunque existe dispersión en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociación.
DATOS GENERALES
n = 15 r = 0.5310
, El valor del coeficiente de correlación de Pearson nos indica una asociación lineal
directa aunque no parece ser importante.
Regresión Lineal
El análisis de regresión lineal consiste en aplicar una serie de técnicas para encontrar si
hay causalidad entre dos variables cuantitativas; es decir, si el valor de una variable (Y )
depende y puede explicarse a partir de otra variable (X ) , que se postula como
independiente.
Fundamentos
La regresión es un método que permite encontrar relaciones lineales entre las variables
de un fenómeno. Por ende, primero debemos revisar cómo, a partir de una serie de datos
(como los a continuación que se grafican) podemos encontrar la recta que los define:
142
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
y 2 − y1
Se calcula la pendiente m=
x 2 − x1
Teniendo ese valor y el de un punto, se puede
y − y1 = m( x − x1 )
aplicar la ecuación punto-pendiente
Que se desarrolla de la siguiente forma y − y1 = mx − mx1
Como el objetivo es encontrar la ordenada al
origen; es decir, el valor de Y cuando X es igual a y = y1 + mx − mx1
cero, despejamos Y
y = y1 + m(0) − mx1
Y damos a X el valor de cero
26
24
Como podemos ver, cuando la relación
entre dos variables es clara y constante,
modelos basados en la forma y = a + bx 22
Y
16
12 14 16 18 20 22
143
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
fenómeno de este tipo es la que une las medias de los valores posibles de Y para cada
( )
X i µ y x ; sin dejar de reconocer como error en este modelo la desviación que cada dato
Yi pueda tener con respecto a la recta µ y x .
Conociendo la forma del modelo de regresión lineal que la estadística utiliza para describir
la relación entre dos variables, es ahora necesario saber cómo ajustarlo; es decir, cómo
partiendo de los datos X i , Yi de una muestra de tamaño n , calcular la ordenada al origen
y la pendiente de la recta, logrando que los errores ei del modelo sean mínimos (razón
por la cual ocuparemos el procedimiento de mínimos cuadrados).
i =1
• Por lo cual hay que encontrar la forma en que esta función sea mínima. El punto es
que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la función.
i =1
144
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
df (β 0 , β1 ) n
= 2∑ ( y i − β 0 − β1 xi )(− 1)
dβ 0 i =1
d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx
i =1
− 2∑ ( y i − βˆ 0 − βˆ1 xi ) = 0
n
i =1
∑ (y − βˆ0 − βˆ1 xi ) = 0
n
i =1
i −2
Como 0 =0
#
∑ (y − βˆ 0 − βˆ1 xi ) = 0
n
i
i =1
∑ y − ∑ βˆ − ∑ βˆ x
i =1
i
i =1
0
i =1
1 i =0
∑ yi n ∑x i n
∑ C = nC
⇒ ∑ y i = yn ⇒ ∑ xi = x n
Porque
y= i =1
x= i =1
n i =1 n i =1
145
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
i =1
df (β 0 , β1 ) n
= 2∑ ( y i − β 0 − β1 xi )(− xi )
dβ1 i =1
d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx
• Igualamos a cero:
2∑ ( y i − βˆ 0 − βˆ1 xi )(− xi ) = 0
n
i =1
( )
n
− 2∑ xi y i − βˆ 0 xi − βˆ1 xi2 = 0
i =1
i =1
i i −2
∑x y
i =1
i i − βˆ 0 ∑ xi − βˆ1 ∑ xi2 = 0
i =1 i =1
i =1 i =1
n
βˆ 0 = y − βˆ1 x ∑x i n
⇒ ∑ xi = x n
Porque
x= i =1
n i =1
146
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
∑x y i i − nx y
βˆ1 = i =1
n
∑x
i =1
2
i − nx 2
∑x
i =1
2
i − nx 2
Si bien ambos datos son fundamentales para construir el modelo de regresión lineal, el
valor de βˆ 0 sólo indica el punto donde la recta corta el eje de las Y ; esto es, el valor de
Y cuando X = 0 . Mientras tanto, el valor de βˆ1 resulta mucho más significativo para la
interpretación ya que, dependiendo de su signo y magnitud, indica el cambio en la
variable Y cuando X cambia una unidad. Por ejemplo:
12
Igual que en el caso del coeficiente de correlación de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los cálculos, pues son ya muchas las
calculadoras científicas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo estadístico
de regresión lineal.
147
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Por tanto:
y X aumenta una
Si la pendiente es: y X disminuye una unidad:
unidad:
( )
positiva β̂1 Y disminuye βˆ1 unidades Y aumenta βˆ1 unidades
negativa (− βˆ )1 Y aumenta βˆ1 unidades Y disminuye βˆ1 unidades
Ejemplos de aplicación
1. Los siguientes datos de altura y peso en jóvenes adultos son parte de la muestra
recolectada durante la investigación en Cholula, Puebla (1968-1970).
ESTATURA PESO
1649 49.5
1635 57.5
1611 50.0
1622 53.5
1583 43.0
1613 57.5
1636 50.5
1650 56.0
1579 50.0
1568 50.0
1522 44.5
1554 48.0
1627 51.0
1535 46.0
1565 49.5
Comprobemos entonces si existe asociación lineal entre estas variables por medio de un
diagrama de dispersión y el coeficiente de correlación.
148
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
58
56
54
50
48
46
44
42
1520 1540 1560 1580 1600 1620 1640 1660
a.1) , Si bien en los valores más pequeños de la estatura puede verse una
asociación lineal clara con respecto al peso, conforme la estatura aumenta este
patrón no es tan claro
COEFICIENTE DE PEARSON
r = 0.6786
a.2) , El valor del coeficiente de correlación de Pearson nos indica una asociación
lineal directa considerable entre la estatura y el peso de esta población.
A continuación saquemos los datos necesarios para calcular los estimadores βˆ1 y βˆ 0 a
fin de establecer el modelo de regresión.
DATOS GENERALES
n = 15 x = 1596.6000 y = 50.4333 s x = 41.5379 s y = 4.3006
n n
∑x y
i =1
i i = 1209525 .000 ∑x
i =1
2
i = 38261129.00
EXPRESIÓN PARA n
CALCULAR ∑x y i i − nx y
EL ESTIMADOR βˆ1 = i =1
n
βˆ1 EXPRESIÓN ∑x 2
i − nx 2
PARA i =1
149
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
CÁLCULO
βˆ 0 = 50.4333 − 0.0703(1596.6000 ) = −61.8077
MANUAL
CALCULADORA βˆ 0 = −61.7390
MODELO TEÓRICO y = β 0 + β1 x + e
MODELO AJUSTADO peso = −61.7390 + 0.0703estatura
b) , Según el modelo ajustado, por cada milímetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.
Los siguientes datos de altura y peso también son parte de la muestra recolectada
durante la investigación en Cholula, Puebla (1968-1970), pero pertenecen a adolescentes
hombres:
ESTATURA PESO
1674 58.5
1672 53.5
1710 58.0
1651 57.0
1702 58.0
1656 58.0
1672 56.5
1590 51.5
1612 56.0
1652 57.5
1594 51.5
1566 47.0
1645 54.5
1678 54.0
1740 62.0
64
62
60
Peso adolescentes
58
56
54
52
50
48
46
1500 1600 1700 1800
Estatura adolescentes
a.1) , Pese a la dispersión de algunos datos puede verse una asociación lineal entre
150
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
COEFICIENTE DE PEARSON
r = 0.8382
a.2) , El coeficiente de correlación de Pearson señala una asociación lineal directa
fuerte entre la estatura y el peso de los adolescentes de Cholula.
Ejercicios de Repaso
151
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
III. Hay 15 números en una lista y la media es 25. Un estudiante se ha equivocado
con el número más pequeño que era 12.9 y lo captura como 1.29.
IV. Designar, según sea el caso, como “verdadero” o falso” las siguientes
afirmaciones:
1. La media de una muestra divide siempre a los datos en dos partes, la mitad
con valores mayores y la otra con valores menores que aquella.
2. Una medida de tendencia central es un valor cuantitativo que describe la
variabilidad de los datos con respecto a un valor central.
3. Algunas veces la suma de los cuadrados de las diferencias con respecto a la
media es negativa.
4. En cualquier distribución, la suma de las desviaciones con respecto a la media
es igual a cero.
5. La desviación estándar del conjunto de valores, 2, 2, 2, 2, y 2 es 2.
6. En un examen, la calificación de Carlos ocupa el percentil 50, y la de Guillermo
el 25; por lo tanto la calificación de Carlos es dos veces la de Guillermo.
7. La frecuencia de una clase es el número de datos cuyos valores se encuentran
dentro de las fronteras de esa clase.
8. En estadística se utilizan las distribuciones de frecuencias para presentar, en
forma concisa, cantidades grandes de datos repetidos.
9. Las gráficas de caja permiten comparar dos grupos con respecto a una
variable.
10. Las gráficas de dispersión (tipo XY) permiten comparar dos grupos con
respecto a una variable.
152
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Inserción
Longitud Inserción Longitud
Aplanamient en Aplanamient
Cas máxima Cas en músculo máxima
o músculo o
o de o suboccipita de
por mecapal suboccipita por mecapal
húmero l húmero
l
1 Ausencia Ligera 254 33 Ausencia Moderada 310
2 Ausencia Moderada 254 34 Ausencia Ligera 313
3 Ausencia Moderada 262 35 Ausencia Ligera .
4 Ausencia Moderada 270 36 Ausencia Moderada .
5 Ausencia Moderada 271 37 Ausencia Moderada .
6 Ausencia Ligera 272 38 Ausencia Moderada .
7 Ausencia Marcada 275 39 Ausencia Moderada .
8 Ausencia Ligera 278 40 Ausencia Moderada .
9 Ausencia Ligera 279 41 Ausencia Moderada .
10 Ausencia Moderada 279 42 Ausencia Moderada .
11 Ausencia Ligera 280 43 Ausencia Moderada .
12 Ausencia Moderada 280 44 Ausencia Moderada .
13 Ausencia Moderada 280 45 Presencia Marcada 262
14 Ausencia Marcada 280 46 Presencia Moderada 264
15 Ausencia Moderada 282 47 Presencia Marcada 270
16 Ausencia Moderada 282 48 Presencia Moderada 271
17 Ausencia Moderada 282 49 Presencia Marcada 272
18 Ausencia Moderada 283 50 Presencia Marcada 283
19 Ausencia Moderada 284 51 Presencia Marcada 283
20 Ausencia Moderada 285 52 Presencia Moderada 284
21 Ausencia Moderada 285 53 Presencia Moderada 287
22 Ausencia Moderada 288 54 Presencia Moderada 290
23 Ausencia Moderada 289 55 Presencia Marcada 293
24 Ausencia Ligera 290 56 Presencia Marcada 295
25 Ausencia Marcada 291 57 Presencia Marcada 302
26 Ausencia Marcada 294 58 Presencia Marcada 302
27 Ausencia Moderada 295 59 Presencia Marcada 317
28 Ausencia Moderada 295 60 Presencia Moderada .
29 Ausencia Moderada 297 61 Presencia Moderada .
30 Ausencia Marcada 300 62 Presencia Marcada .
31 Ausencia Moderada 301 63 Presencia Marcada .
32 Ausencia Moderada 307 64 Presencia Marcada .
1. Realizar una tabla cruzada entre Sexo y Persona con la que tuvieron su
primera relación sexual (pregunta 13) utilizando los casos que contestaron SÍ
haber tenido relaciones sexuales.
2. Llenar la siguiente tabla con los datos indicados:
153
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Perímetro de cintura
ICC=
Perímetro de cadera
a fin de realizar una gráfica de de caja para comparar los valores de este índice
por sexo.
154
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Sexo Turno Edad Lug_soc jos_mam L_hijos PIC Estatura Peso Rel_sex Edad_rel_sex P13 P14 P15 P16 P17 P18 Estatura_total
F M 20.9 Ciudad 3 3 1 1.39 44.00 Si 16 Mayor Novio (a) Si Condones A veces 5 1,547
F M 20.4 Ciudad 3 3 5 1.61 63.00 No 1,594
F M 18.2 Ciudad 1 1 2 1.55 50.00 Si 18 Misma edad Novio (a) Si Condones Siempre 1 1,573
F M 22.1 Ciudad 4 3 3 1.55 58.00 Si 19 Misma edad Novio (a) Si Condones Siempre 1 1,538
F M 21.4 Ciudad 5 5 7 1.56 62.00 Si 18 Mayor Novio (a) Si Condones Siempre 2 1,553
F M 18.7 Ciudad 3 1 2 1.58 49.90 Si 17 Misma edad Novio (a) Si Condones Siempre 1 1,560
F M 24.0 Ciudad 3 1 7 1.62 70.00
F M 29.8 Ciudad 3 2 4 1.54 51.00 Si 23 Menor Novio (a) Si Condones Siempre 1 1,524
F M 21.5 Ciudad 2 2 4 1.53 54.00 Si 16 Misma edad Novio (a) Si Condones Siempre 1 1,525
F M 24.0 Ciudad 4 1 5 1.55 70.00 Si 15 Mayor Amigo (a) No A veces 7 1,544
F M 18.9 Ciudad 2 2 2 1.60 50.00 No 1,594
F M 24.1 Ciudad 2 2 3 1.54 49.00 Si 17 Misma edad Novio (a) Si Condones A veces 1 1,521
F M 21.0 Ciudad 2 3 1.68 57.00
F M 19.8 Ciudad 3 3 6 1.68 69.00 Si 15 Misma edad Amigo (a) No Siempre 13 1,666
F M 20.1 Ciudad 2 2 6 1.53 Si 18 Mayor Novio (a) Si Pastillas de emergencia A veces 3 1,513
F M 19.0 Ciudad 2 1 4 1.53 54.00 No 1,494
F M 19.5 Ciudad 5 5 2 1.65 49.00 Si 17 Misma edad Novio (a) No Siempre 4 1,630
F M 22.3 Ciudad 2 1 5 1.69 68.00 Si 16 Misma edad Novio (a) No Siempre 9 1,625
F M 26.6 Ciudad 2 1 3 1.70 65.00 Si 19 Misma edad Novio (a) Si Condones Siempre 2 1,676
F 25.7 Ciudad 3 1 3 1.60 51.00 Si 14 Mayor Novio (a) Si Condones A veces 3 1,586
F M 24.4 Pueblo 4 1 3 1.55 50.00 Si 23 Misma edad Novio (a) Si Condones Siempre 1 1,518
F M 17.8 Ciudad 3 1 3 1.52 51.00 Si 16 Mayor Novio (a) Si otro Siempre 3 1,500
F M 21.2 Ciudad 3 1 3 1.47 40.00 Si 19 Misma edad Novio (a) Si Condones A veces 1 1,475
F M 25.2 Ciudad 3 1 2 1.62 53.40 No 1,604
F M 20.7 Ciudad 2 2 3 1.56 52.80 Si 17 Mayor Novio (a) Si Condones Siempre 3 1,512
F M 18.3 Pueblo 1 1 5 1.60 61.00 Si 16 Mayor Novio (a) Si Pastillas de emergencia Siempre 3 1,581
F V 22.8 Ciudad 3 2 4 1.60 57.00 Si 15 Mayor Novio (a) Si Condones Siempre 2 1,560
F V 23.6 Ciudad 2 1 7 1.50 63.00 Si 20 Mayor Novio (a) Si Condones Siempre 2 1,465
F V 18.4 Ciudad 2 2 3 1.58 58.00 Si 15 Mayor Novio (a) Si Condones Siempre 1 1,542
F V 21.7 Ciudad 3 1 5 1.52 No 1,516
F V 18.4 Ciudad 2 1 3 1.57 47.50 No 1,557
F V 20.2 Ciudad 4 1 6 1.57 60.00 Si 16 Mayor Novio (a) Si Condones A veces 3 1,575
F V 30.7 Ciudad 3 1 3 1.56 52.00
F V 18.3 Ciudad 2 2 6 1.72 62.00 Si 17 Misma edad Novio (a) Si Condones Siempre 1 1,724
F V 19.4 Ciudad 3 1 6 1.54 65.00 No 1,505
F V 19.6 Ciudad 2 2 4 1.56 56.00 Si 15 Mayor Novio (a) Si Pastillas Siempre 3 1,534
F V 20.3 Ciudad 2 1 3 1.60 53.00 Si 15 Mayor Novio (a) Si Condones Siempre 999 1,569
F V 32.2 Ciudad 2 1 7 1.58 70.00 Si 16 Mayor Novio (a) Si Condones Siempre 3 1,584
F V 27.5 Ciudad 4 4 3 1.55 54.00 Si 19 Mayor Novio (a) Si Condones Siempre 5 1,538
F V 21.4 Ciudad 4 3 3 1.62 48.00 Si 18 Misma edad Novio (a) Si Condones Siempre 2 1,610
F V 18.8 Ciudad 6 4 5 1.67 64.00 Si 18 Mayor Esposo (a) Si Pastillas de emergencia Siempre 3 1,638
M M 18.7 Pueblo 2 2 3 1.77 71.00 No 1,736
M M 26.9 Ciudad 3 1 3 1.83 77.00 Si 16 Mayor Conocido (a) Si Condones A veces 30 1,812
M M 22.1 Pueblo 4 4 4 1.68 82.00 Si 16 Misma edad Conocido (a) Si Pastillas de emergencia Siempre 21 1,662
M M Ciudad 1 7 2 1.67 67.50 Si 17 Mayor Novio (a) Si Condones A veces 1 1,668
M M 21.8 Ciudad 2 2 3 1.84 72.00 Si 21 Menor Novio (a) No 1 1,780
M M 21.0 Ciudad 2 1 2 1.62 61.00 No 1,617
M M 37.8 Ciudad 3 1 7 1.80 90.00 Si 18 Misma edad Novio (a) Si Ritmo Siempre 35 1,790
M M 23.6 Ciudad 3 2 2 1.64 60.00 Si 18 Menor Novio (a) Si Condones A veces 16 1,617
M V 19.8 Ciudad 3 2 3 1.65 66.00 Si 15 Misma edad Amigo (a) No 99 Siempre 2 1,632
M V 21.8 Ciudad 2 2 3 1.73 75.00 Si 17 Mayor Novio (a) Si Condones Siempre 3 1,716
M V 20.9 Ciudad 2 1 4 1.78 68.00 Si 18 Misma edad Novio (a) Si Condones Siempre 2 1,771
M V 24.5 Ciudad 1 1 2 1.75 66.00 No 1,697
M V 25.0 Ciudad 4 3 5 1.65 66.50 Si 17 Mayor Novio (a) No Retiro A veces 4 1,614
M V 29.5 Ciudad 6 6 4 1.76 72.00 Si 21 Mayor Amigo (a) Si Condones A veces 3 1,729
M V 30.6 Ciudad 2 1 3 1.74 70.00 Si 18 Misma edad Novio (a) Si Condones A veces 5 1,725
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
Estat_m Peso_corp Peri_cint Est_sent Alt_rod Peri_cad
1.55 36.00 548 814 422 790
1.59 63.50 920 822 444 982
1.57 47.00 680 804 440 860
1.54 54.00 749 804 424 945
1.55 58.50 650 819 434 1,000
1.56 43.00 630 824 430 835
La variable sexo tiene dos posibles valores F para las mujeres y M para los
hombres. Convendremos la siguiente codificación: 1=Femenino, 2=Masculino. Por
lo tanto el nombre de la variable será sexo, será numérica de ancho 2, con 0
decimales y la etiqueta será Sexo del individuo. Al introducir estos valores y
dándole clic en la columna Valores, y enseguida en el botón se muestra la
siguiente pantalla:
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
4
El cuadro gris con tres puntos es un símbolo usado por SPSS que indica que
existe un menú al dar clic en él. Realizando esta acción nos queda el siguiente
menú:
En Valor se introduce el valor numérico o código y en Etiqueta el significado de
ese código. Hay que dar clic en el botón Añadir para adicionar la codificación. En
nuestro caso tenemos 1=Femenino y 2=Masculino. Por lo que debe quedar como
se ve en el siguiente cuadro:
Estadística para antropólogos físicos
José Luis Castrejón Diana Troncoso
5
1. Sexo F M 2. Turno M V
4. Fecha de nacimiento:
día mes año
Folio:
14. ¿Qué relación tenías con la persona con la que tuviste tu primera relación
sexual?
1) Novio(a) 2) Esposo(a) 3) Amigo(a) 4) Conocido(a)
5) Prostituto(a) 6) Familiar 7) Otra relación
17. ¿Cuándo tienes relaciones sexuales acostumbras usar alguno de los métodos
anteriores para evitar un embarazo?
1) Siempre 2) A veces 3) Nunca
DATOS ANTROPOMÉTRICOS
Estatura total: Estatura sentado:
Peso corporal: Altura de rodilla:
Perímetro de cintura: Perímetro de cadera:
Estadística para antropólogos físicos 1
José Luis Castrejón Diana Troncoso
Estadística
Práctica II: Construcción de variables e índices y estadística descriptiva con SPSS
Elaboró: José Luis Castrejón Caballero
La práctica utiliza la base de datos contenida en el archivo cedula estadistica.sav creada en la
práctica I, y utiliza la versión 15 del SPSS en español.
Edad exacta
A) A partir de la variable fecha de nacimiento y considerando que la fecha de toma de
información fue el 16 de enero del 2008 determinar la edad exacta de cada elemento de la
muestra.
Razonamiento: Si determinamos el número de días entre las dos fechas y dividimos esta cifra
entre 365 tendremos una aproximación a la edad exacta. En SPSS existe una función que
determina el número de días entre dos fechas, llamada CTIME.DAYS(time), donde time es un
intervalo de tiempo, que en nuestro caso es la diferencia entre la fecha de toma y la fecha de
nacimiento. Por lo tanto el procedimiento será el siguiente:
1. Crear una variable tipo fecha llamada fechat, tipo fecha, que tenga el valor 16-01-2008 en
todos los casos. Lo haremos en el ambiente de variables (Variable View) insertando la nueva
variable después de la fecha de nacimiento (fecha_nac) lo cual puede realizarse colocándonos
después de esta variable y después seleccionar del menú Edición la opción Insertar variable o
rápidamente con el icono . Después de esta variable insertaremos una nueva variable
llamada edad, numérica con dos decimales, la ventana de variables debe quedar como sigue:
2. En el ambiente Vista de Datos, llenamos todas las celdas de la nueva variable fechat con el
valor de la fecha de toma: 16-01-2008 (usando copiar, pegar), quedando como se muestra en la
figura siguiente:
Estadística para antropólogos físicos 2
José Luis Castrejón Diana Troncoso
3. Utilizaremos las
variables fechat y f_nac
con la función
CTIME.DAYS. Damos
clic en el menú
Transformar luego en
Calcular variable, tal
como se muestra en la
figura de al lado.
Estadística para antropólogos físicos 3
José Luis Castrejón Diana Troncoso
En el recuadro resultante
introducir el nombre edad
en el espacio de Variable
de destino.
Del Grupo de funciones
seleccionamos Extracción
de duración del tiempo y
de las Funciones y
variables especiales
seleccionamos la función
CTIME.DAYS,
introduciéndola en el
espacio de Expresión
numérica, mediante el
botón correspondiente,
cambiando el argumento
como se muestra en la
figura, escribiendo los
paréntesis cono se indica.
4. Dar clic en el botón . Si el programa pregunta sobre cambiar la variable existente dar
clic en el botón . En la ventana de Vista de datos pueden apreciarse los valores de la
variable edad.
Expresión
matemática.
Ahora estamos en
condiciones de calcular el
IMC. En el mismo menú,
introducimos la expresión
matemática, llamaremos
imca a esta nueva variable.
El botón es el operador
que permite elevar a
cualquier potencia un valor
determinado.
Expresión matemática.
Lo que sigue es clasificar los valores del IMC según la propuesta de Luis Vargas y que hemos
explicitado en el cuadro anterior. Para lograr esto construiremos una nueva variable llamada
CIMC la cual tendrá valores que van de 1 a 6 según el valor del IMC.
Estadística para antropólogos físicos 5
José Luis Castrejón Diana Troncoso
En el cuadro de
dialogo resultante,
primero activamos la
opción Incluir si el
caso satisface la
condición:
En el cuadro pasamos
la variable imca y
escribimos la
condición usando los
botones de
calculadora.
Dar clic en
Continuar.
Dar clic en Aceptar.
Estadística para antropólogos físicos 6
José Luis Castrejón Diana Troncoso
Repetimos el
procedimiento para
definir el código 2 como
se muestra en la figura.
Daremos clic en el
botón Si… para
modificar la condición.
Ahora la nueva
condición se escribe
como se indica en el
cuadro.
El símbolo & indica
el conector lógico y,
es decir que se
cumple al mismo
tiempo. Para la opción
o utilizaremos el
símbolo |
De una manera
similar se construyen
los códigos 3 a 6,
situación que queda
como ejercicio para el
estudiante.
Estadística para antropólogos físicos 7
José Luis Castrejón Diana Troncoso
Índice Cadera-Cintura
Uno de los indicadores más usados para determinar riegos cardiovasculares por problemas de
obesidad es la relación entre el perímetro de la cintura y el de la cadera cuya expresión
matemática es:
Perímetro de cintura
ICC=
Perímetro de cadera
Los valores del ICC se clasifican de manera diferente según el sexo. La siguiente tabla es una
propuesta de la OMS en función del riego de padecer una enfermedad de tipo cardiovascular:
Tipo de riesgo
1= Bajo 2 = Elevado 3 = Muy elevado
Hombres <0.90 0.90 a 1.00 >1.00
Mujeres <0.80 0.80 a 0.85 >0.85
Tarea
1. Calcular el valor del ICC
2. Elaborar una variable que contenga la clasificación según sea el sexo, llamarla CICC.
Estadística para antropólogos físicos 8
José Luis Castrejón Diana Troncoso
Estadística descriptiva
En este apartado obtendremos algunos estadísticos descriptivos con el auxilio del SPSS.
Tablas de frecuencias
1. Obtendremos las tablas de
frecuencias de las variables sexo,
turno e imca.
En el opción Analizar del menú
principal seleccionar
Estadísticos Descriptivos y
luego Frecuencias, apareciendo
al cuadro que se muestra a un
lado. Seleccionaremos las
variables Sexo, Turno y CIMC
pasándolas al cuadro de
Variables, como se muestra en la
figura. Dar clic en el botón
.
Sexo
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 41 62.1 62.1 62.1
Masculino 25 37.9 37.9 100.0
Total 66 100.0 100.0
Turno
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Matutino 39 59.1 59.1 59.1
Vespertino 27 40.9 40.9 100.0
Total 66 100.0 100.0
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Bajo peso 7 10.6 10.6 10.6
Normal 40 60.6 60.6 71.2
Soberpeso 16 24.2 24.2 95.5
Obesidad 3 4.5 4.5 100.0
Total 66 100.0 100.0
Estadística para antropólogos físicos 9
José Luis Castrejón Diana Troncoso
Tablas cruzadas
Se desea establecer si existe o no relación entre entre las variables sexo y ¿has tenido relaciones
sexuales? En SPSS utilizaremos el menú Analizar, de donde seleccionaremos la opción
Estadísticos Descriptivos y luego Tablas de contingencia
En el cuadro Filas introducir la variable
sexo y en el de Columnas la variable que
tiene que ver con la primera relación
sexual como se muestra en la figura que se
presenta a un lado.
Dar clic en el botón y
seleccionar de la opción Porcentajes la
opción Fila para obtener porcentajes por
renglón, como se muestra en el cuadro de
abajo. Dar clic en Continuar y después en
Aceptar.
Gráficas de barras
Realizaremos una gráfica de barras para cada sexo de la variable ¿Durante toda tu vida con
cuántas personas diferentes has tenido relaciones sexuales?
Estadística para antropólogos físicos 10
José Luis Castrejón Diana Troncoso
En primer lugar utilizaremos la opción
Segmentar archivo de la opción Datos
del menú principal. Esta opción nos
permite realizar las mismas instrucciones
para los grupos definidos en la variable;
en nuestro caso usaremos la variable
sexo lo que nos permitirá que todas las
instrucciones que hagamos mientras este
activada esta opción se realice para
hombres y mujeres por separado.
Después de seleccionar la opción
Comparar los grupos, se introduce la
variable sexo como se muestra en la figura.
40.0% 40.0%
30.0% 30.0%
Porcentaje
Porcentaje
20.0% 20.0%
10.0% 10.0%
0.0% 0.0%
1 2 3 4 5 6 7 15 1 2 3 4 5 6 10 17
Durante toda tu vida ¿con cuántas personas diferentes has tenido Durante toda tu vida ¿con cuántas personas diferentes has tenido
relaciones sexuales? relaciones sexuales?
Recordemos que en el apartado anterior dejamos activa la opción Segmentar archivo por lo
cual los resultados que se obtengan se repetirán para mujeres y hombres.
Estadísticos
Gráficas de caja
Recordemos que las gráficas de caja se construyen con base en los cuartiles y permiten
comparar dos o más grupos respecto a los valores de una variable cuantitativa. Ilustraremos el
uso del SPSS creando una figura que permita comparar el IMC respecto al sexo y turno de los
alumnos.
Estadística para antropólogos físicos 13
José Luis Castrejón Diana Troncoso
Para realizar la gráfica, del menú Gráficos elegimos la opción Cuadros de dialogo antiguos y
Diagramas de caja. Seleccionamos el tipo Agrupado y damos clic en el botón , con lo
cual aparece la ventana que se ve abajo a la derecha, donde introducimos las variables como se
indica en la ventana. Dar clic en Aceptar.
Estadística para antropólogos físicos 14
José Luis Castrejón Diana Troncoso
La gráfica que se obtiene es la siguiente:
Turno
35.00
Matutino
Vespertino
30.00
imca
25.00
20.00
15.00
Femenino Masculino
Sexo
Tarea
3. Realiza una tabla de frecuencias para las variables: En tu primera relación sexual ¿tú o
tu pareja hicieron algo para evitar tener un embarazo? ¿Qué fue lo que hicieron para
evitar un embarazo? Y Clasificación del índice de masa corporal.
4. Realiza una gráfica de barras para la variable Clasificación del índice cadera-cintura
(CICC) para todos los casos.
5. Realiza una tabla cruzada entre las variables Sexo del individuo y La persona con la que
tuviste la primera relación sexual era.
6. Realiza una gráfica de caja para la variable ICC comparando por sexo.
7. Realiza gráficas de caja para las variables Estatura autopercibida y Peso autopercibido
comparando por sexo.
8. Calcula media, mediana, mínimo, máximo y desviación estándar comparando por sexo
para las variables altura de rodilla, estatura sentado, peso corporal, índice de masa
corporal e índice cintura-cadera.
9. Realiza histogramas para las variables estatura total y estatura sentado para cada sexo.
10. Considerando la estatura total como variable dependiente y la altura a la rodilla como
variable independiente:
a) Graficar los datos en un diagrama de dispersión. ¿Se observa una tendencia lineal en
los datos?
b) Calcular el coeficiente de correlación lineal. Interpretar
c) Ajustar el modelo de regresión lineal. Interpretar
d) ¿Es un modelo adecuado? Calcular R 2 .