Bioestadística. Curso 2014-2015 - Carmen Ma Cadarso
Bioestadística. Curso 2014-2015 - Carmen Ma Cadarso
Bioestadística. Curso 2014-2015 - Carmen Ma Cadarso
Curso 2014-2015
Capítulo 1
Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción a la Bioestadística 2
2 Tipos de variables 3
3 Distribución de frecuencias 4
3.1 Descripción de variables cualitativas. . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Representaciones grácas 8
4.1 Representaciones grácas de variables cualitativas . . . . . . . . . . . . . . . . . . . 8
1
Bioestadística. Grado en Medicina Capítulo 1
1 Introducción a la Bioestadística
La Bioestadística es uno de los campos cientícos que más se ha desarrollado en las últimas décadas.
La creciente atención que está recibiendo en la literatura médica especializada pone de maniesto la
importancia de esta disciplina y el hecho, cada vez más patente, de que los profesionales médicos han
La estadística permite analizar situaciones en las que los componentes aleatorios contribuyen de
forma importante en la variabilidad de los datos obtenidos. La variabilidad es uno de los aspectos más
esenciales de nuestra vida. La consiguiente incertidumbre que genera dicha variabilidad es importante
y en muchos campos, como el de la medicina, es fundamental contar con métodos que nos permitan
Se podría denir la Bioestadística como la ciencia que maneja mediante métodos estadísticos la La Bioestadística
incertidumbre en el campo de la medicina y la salud. En medicina, los componentes aleatorios se es la ciencia que
maneja mediante
deben, entre otros aspectos, al desconocimiento o a la imposibilidad de medir algunos determinantes
métodos
de los estados de salud y enfermedad, así como a la variabilidad en las respuestas de los pacientes.
estadísticos la
La fuente más común de incertidumbre en la medicina es la variabilidad natural de carácter biológico incertidumbre en el
que existe entre individuos. Además, la variabilidad entre laboratorios, observadores, instrumentación, campo de la
medicina y la salud
etc. también son fuentes de incertidumbre a tener en cuenta.
Por supuesto la Bioestadística no sólo se centra en medir incertidumbres sino que se preocupa también
del control de su impacto. Por otra parte el profesional de la medicina no solo se forma para atender
al paciente, sino que tiene además una responsabilidad y obligación social con la colectividad. Debe
por lo tanto conocer los problemas de salud que afectan a su comunidad, los recursos con que cuenta
y sus posibles soluciones, para lo cual necesita conocer la Estadística de Salud Pública y aplicarla en
El campo de la estadística tiene que ver con la recopilación, presentación, análisis y uso de datos para
tomar decisiones y resolver problemas. Cualquier persona, tanto en su carrera profesional como en la
vida cotidiana recibe información en forma de datos a través de periódicos, de la televisión y de otros
medios.
Ejemplo 1: Un cardiólogo, que investiga un nuevo fármaco para rebajar el colesterol, desea conocer
Muestra: Subconjunto de la población cuyos valores de la variable que se pretende analizar son Una muestra
aleatoria es un
conocidos.
subconjunto de
Variable: Rasgo o característica de los elementos de la población que se pretende analizar.
casos o individuos
de una población
En el Ejemplo 1, la población objeto de estudio sería la formada por todos los varones adultos mayores
a todos los individuos de la población. Sin embargo, esto resulta inviable (y así ocurre en muchas
otras situaciones prácticas debido al coste, al tiempo que requiere,...) Entonces se conformará con
extraer una muestra. La muestra proporciona información sobre el objeto de estudio. Lo habitual
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 15
Bioestadística. Grado en Medicina Capítulo 1
cardiólogo seleccionaría al azar a 100 varones adultos mayores de 40 años y estudiaría el consumo de
Ejemplo 2: Se quiere analizar el tiempo que dedican al estudio semanal los alumnos del Grado en
muestra.
Cálculo de Probabilidades. Es una parte de la matemática teórica que estudia las leyes que rigen
Inferencia Estadística. Pretende extraer conclusiones para la población a partir del resultado obser-
vado en la muestra.
La Inferencia Estadística tiene un objetivo más ambicioso que el de la mera descripción de la muestra
2 Tipos de variables
Variables cualitativas: No aparecen en forma numérica, sino como categorías o atributos. Por
ejemplo el sexo, color de ojos, profesión, resultado de un tratamiento, etc. Las variables Es importante
cualitativas se clasican a su vez en: clasicar
correctamente las
Cualitativas nominales: Miden características que no toman valores numéricos. A estas carac-
variables de interés
terísticas se les llama modalidades. Por ejemplo, en la variable sexo las modalidades son hombre ya que los
y mujer. procedimientos que
veremos a
Cualitativas ordinales: Miden características que no toman valores numéricos pero sí presentan
continuación
entre sus posibles valores una relación de orden. Por ejemplo, si se desea examinar el resultado dependerán del tipo
de un tratamiento, las modalidades podrían ser: en remisión, mejorado, estable, empeorado. El de variable con que
trabajemos
nivel de estudios puede tomar los valores: sin estudios, primaria, secundaria, etc.
Variables cuantitativas: Toman valores numéricos porque son frecuentemente el resultado de una
medición. Por ejemplo, el peso (kg.) de una persona, la estatura (m.), número de llamadas
o
diarias a un servicio de urgencias, temperatura ( C) corporal, etc. Las variables cuantitativas
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 15
Bioestadística. Grado en Medicina Capítulo 1
naturales). Por ejemplo el número de hijos de una familia, número de cigarrillos fumados por
día, etc.
Cuantitativas continuas: Toman valores numéricos dentro de un intervalo real. Por ejemplo,
la altura, el peso, concentración de un elemento, tiempo transcurrido hasta que se inicia una
3 Distribución de frecuencias
La primera forma de recoger y resumir la información contenida en la muestra es efectuar un recuento
del número de veces que se ha observado cada uno de los distintos valores que puede tomar la
variable. A eso le llamamos frecuencia. Daremos deniciones precisas del concepto de frecuencia en
Ejemplo 3: En la última hora han acudido al servicio de urgencias de un hospital ocho pacientes,
M 63 1.74 38 0 Leve
En primer lugar, denimos el tamaño muestral, al que denotamos por n, como el número de individuos En la mayor parte
o de observaciones en la muestra. En el Ejemplo 3, el tamaño muestral es n = 8. de procedimientos
estadísticos es
necesario manejar
3.1 Descripción de variables cualitativas. conjuntos de
observaciones
Supongamos que los distintos valores que puede tomar la variable son: c ; c ; : : : ; cm . 1 2 numéricas. Para
representar de
Frecuencia absoluta: Se denota por ni y representa el número de veces que ocurre el resultado ci . forma concisa los
cálculos, se ha
Frecuencia relativa: Se denota por fi y representa la proporción de datos en cada una de las clases, desarrollado una
notación
ni
fi = :
matemática
n abreviada. Por
ejemplo, para
La frecuencia relativa es igual a la frecuencia absoluta dividida por el tamaño muestral.
designar la adición
se usa la letra
Frecuencia absoluta acumulada. Es el número de veces que se ha observado el resultado ci o valores
griega
=
P
anteriores. La denotamos por Ni c c nj .
j i
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 15
Bioestadística. Grado en Medicina Capítulo 1
Frecuencia relativa acumulada. Es la frecuencia absoluta acumulada dividida por el tamaño mues-
Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando es posible establecer
una relación de orden entre los valores de la variable, esto es, cuando la variable es ordinal.
Las frecuencias se pueden escribir ordenadamente mediante una tabla de frecuencias, que adopta Para comprender y
esta forma:
resumir un
conjunto de datos
ci ni fi Ni Fi
es útil presentarlos
en una tabla en la
c 1 n1 1
f N 1 F 1 que aparezcan los
c 2 n2 2
f N 2 F 2 valores posibles de
. . . . .
.
.
.
.
.
.
.
.
.
.
la variable y el
número de veces
cm nm fm Nm Fm
que cada valor se
repite
Propiedades:
0 ni n
Pm
Frecuencias absolutas
Pim=1 ni = n
Frecuencias relativas 0 fi 1 i =1 fi = 1
Frecuencias absolutas acumuladas 0 Ni n Nm = n
las frecuencias relativas es 1. Observa que el último valor de la distribución de frecuencias absolutas
cierto valor de la variable, o entre dos valores especicados, o por encima de cierta cantidad.
Como ejemplo, vamos a construir la tabla de frecuencias para la variable Dolor del Ejemplo 3. La
variable Dolor es una variable cualitativa ordinal que presenta tres modalidades: leve, moderado e
ci ni fi Ni Fi
Interpreta los resultados obtenidos y comprueba que se verican las propiedades de las frecuencias.
¾Qué porcentaje de pacientes que acudieron al servicio de urgencias sufren dolor intenso? ¾Cuántos
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 15
Bioestadística. Grado en Medicina Capítulo 1
Ejercicio 2: Construye la tabla de frecuencias para el resto de variables cualitativas que aparecen
en el Ejemplo 3.
Ejercicio 3: Con el objetivo de estudiar la inuencia de la dureza del agua en ciertos trastornos
Muestra Dureza
1 Agua blanda
2 Agua blanda
3 Agua dura
7 Agua blanda
8 Agua blanda
9 Agua dura
Una variable cuantitativa discreta es una variable que toma un número nito o innito numerable de
valores posibles. La forma de resumir los datos observados de una variable cuantitativa discreta es
similar a la forma de resumir datos de una variable cualitativa. Veremos como construir la tabla de
Considera ahora la variable Visitas del Ejemplo 3. Fíjate que la variable Visitas es discreta ya que puede
tomar los valores 0,1,2,... (un número innito numerable de valores). A continuación construimos la
tabla de frecuencias:
Visitas ni fi Ni Fi
0 4 0:5 4 0:5
1 3 0:375 7 0:875
2 1 0:125 8 1
Fíjate en la información que nos ofrece la tabla de frecuencias. Observamos por ejemplo que el 87.5%
de los pacientes registrados no habían acudido con anterioridad en más de una ocasión al servicio de
urgencias. También observamos que sólo 1 paciente había acudido anteriormente en 2 ocasiones al
servicio de urgencias (lo que representa un 12.5% del total de pacientes registrados).
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 15
Bioestadística. Grado en Medicina Capítulo 1
Ejercicio 4: Consideremos una muestra de 200 familias en las que contamos el número de hijos.
Supongamos que se han observado 50 familias sin hijos, 80 familias con un hijo, 40 fa-
milias con dos hijos, 20 familias con tres hijos y 10 familias con cuatro hijos. Construye
Para construir tablas de frecuencias de variables cuantitativas continuas es habitual agrupar los valores
que puede tomar la variable en intervalos. De este modo contamos el número de veces que la variable
cae en cada intervalo. A cada uno de estos intervalos le llamamos intervalo de clase y a su punto
medio marca de clase. Por tanto, para la denición de las frecuencias y la construcción de la tabla
de frecuencias sustituiremos los valores ci por los intervalos de clase y las marcas de clase. Algunas
Si una variable
número de intervalos el entero más próximo a
p
Aunque no hay unanimidad al respecto, un criterio bastante extendido consiste en tomar como
n.
cuantitativa
discreta toma
Amplitud de cada intervalo: Lo más común es tomar todos los intervalos de igual longitud.
muchos valores
distintos puede ser
Posición de los intervalos: Los intervalos deben situarse allí donde se encuentran las observa-
conveniente una
agrupación por
ciones y de forma contigua. Es aconsejable que los restos de intervalos en los extremos derecho
intervalos como en
e izquierdo del conjunto de observaciones sean similares. el caso continuo
frecuencias para variables cuantitativas continuas. En la resolución de los ejemplos será útil ordenar la
muestra de observaciones y después calcular el recorrido o rango, que denimos como la diferencia
entre el dato más grande y el más pequeño de la muestra. El recorrido se usa para obtener la
amplitud de los intervalos. La ordenación facilita mucho también el recuento de las frecuencias en
cada intervalo.
Considera la variable Peso del Ejemplo 3. En primer lugar vamos a ordenar los datos de la muestra
Muestra ordenada: 47; 55; 57; 58; 63; 70; 84; 87.
Recorrido = 87 47 = 40.
p
Número de intervalos 8 = 2:82 3.
Como 40=3 = 13:3, podemos tomar 3 intervalos de amplitud 14 y así conseguimos contener
[Li ; Li +1 ) ci ni fi Ni Fi
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 15
Bioestadística. Grado en Medicina Capítulo 1
Observamos, por ejemplo, que hay 2 pacientes con peso comprendido en el intervalo [74; 88) y que
Calcula una tabla de frecuencias para la variable Edad organizando los datos en tres
4 Representaciones grácas
La representación gráca de la información contenida en una tabla estadística es una manera de
obtener una información visual clara y evidente de los valores asignados a la variable estadística.
Existen multitud de grácos adecuados a cada situación. Unos se emplean con variables cualitativas
mediante un diagrama de barras. Para ello, situamos las modalidades de la variable en el eje
de abscisas, respetando su orden si lo hubiera, y dibujamos barras verticales sobre ellas. Las
En la Figura 1 se muestra el diagrama de barras de frecuencias absolutas para la variable Dolor del
Ejemplo 3.
Diagrama de sectores: Se obtiene dividiendo un círculo en tantos sectores como modalidades tome
la variable. La amplitud de cada sector debe ser proporcional a la frecuencia del valor corre-
spondiente.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 15
Bioestadística. Grado en Medicina Capítulo 1
Ejercicio 6: Un laboratorio está desarrollando unas nuevas tiras de orina para detectar los niveles de
Representaremos los datos de variables cuantitativas discretas mediante diagramas de barras, al igual
que hicimos con variables cualitativas. En la Figura 3 se muestra el diagrama de barras de frecuencias
Las frecuencias de una variable cuantitativa continua también se pueden representar grácamente. Sin
embargo, el diagrama de barras no parece adecuado para este caso, pues lo que debemos representar
Histograma: Es un gráco para la distribución de una variable cuantitativa continua que representa
intervalos de clase, como trozos de la recta real, y levantando sobre ellos rectángulos con área
proporcional a la frecuencia.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 15
Bioestadística. Grado en Medicina Capítulo 1
el área total
El histograma ayuda a describir cómo es la distribución de la variable, si es simétrica (con un
encerrada por el
histograma sería
eje de simetría), bimodal (con dos máximos),...etc.
igual a uno. Sin
embargo, la
mayoría de
programas
informáticos de
estadística
representan el
histograma
mediante
rectángulos de
altura igual a la
frecuencia absoluta
o relativa de cada
intervalo como se
Figure 4: Histograma.
muestra en la
Figura 4
en la información obtenida en la muestra. Hasta ahora hemos visto como resumir esa información
mediante tablas de frecuencias y representaciones grácas que nos ayudan a visualizar la distribución
de los datos. Estudiaremos ahora como calcular medidas que nos den una descripción muy resumida
sobre alguna propiedad concreta del conjunto de datos. Por medida entendemos, pues, un número
que se calcula sobre la muestra y que reeja cierta cualidad de la misma. El cálculo de estas medidas
requiere efectuar operaciones con los valores que toma la variable. Por este motivo, a partir de ahora
Media aritmética: 1 2
Sean x ; x ; : : : ; xn un conjunto de n observaciones de la variable X . Se dene la
n
=
x 1 + x2 + : : : + xn = 1 X x
x i
i =1
n n
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 10 de 15
Bioestadística. Grado en Medicina Capítulo 1
63 + 58 + 84 + : : : + 55
=
x = 65:125 kg.
8
Observamos que el peso medio es 65.125 kg. Fíjate que la unidad de medida de la
Propiedades:
1. min(xi ) x max(xi ) y tiene las mismas unidades que los datos originales.
3. Si = a + bx.
Ejemplo 5: Se ha detectado un error en la báscula con la que se han pesado los pacientes del
Ejemplo 3. La báscula estaba mal equilibrada y añadía a todos los pacientes 5 kg. a su
real de los pacientes. Para calcular el peso medio correcto no nos haría falta calcular de
nuevo todos los pesos, ya que por las propiedades de la media (propiedad 3) sabemos
que:
= x
y 5 = 60:125 kg.
Efectivamente, los pesos reales serían 58, 53, 79, 42, 65, 52, 82, 50. Por lo tanto la
58 + 53 + 79 + : : : + 50
=
y = 60:125 kg.
8
Mediana: Una vez ordenados los datos de menor a mayor, se dene la mediana como el valor de la
variable que deja a su izquierda el mismo número de valores que a su derecha. Si hay un número
impar de datos, la mediana es el valor central. Si hay un número par de datos, la mediana es la
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 11 de 15
Bioestadística. Grado en Medicina Capítulo 1
Ejemplo 6: Calculamos el peso mediano de los pacientes de urgencias del Ejemplo 3. En primer
58 + 63
Me = = 60:5 kg.
2
Observa que la media y la mediana tendrán valores similares, salvo cuando haya valores atípicos o
cuando la distribución sea muy asimétrica. La mediana es la medida de posición central más robusta
Moda: Es el valor de la variable que se presenta con mayor frecuencia. A diferencia de las otras
medidas, la moda también se puede calcular para variables cualitativas. Pero, al mismo tiempo,
al estar tan vinculada a la frecuencia, no se puede calcular para variables continuas sin agrupación
por intervalos de clase. Al intervalo con mayor frecuencia le llamamos clase modal.
Puede ocurrir que haya una única moda, en cuyo caso hablamos de distribución de frecuencias
Ejemplo 7: Calculamos la moda de la variable Visitas del Ejemplo 3. Fíjate en la tabla de frecuencias
y observa que la mayoría de los pacientes no habían acudido con anterioridad al servicio
Moda = 0:
Para la variable Peso del Ejemplo 3 nos jamos también en la tabla de frecuencias.
Cuantiles: Hemos visto que la mediana divide a los datos en dos partes iguales. Pero también tiene
interés estudiar otros parámetros, llamados cuantiles, que dividen los datos de la distribución en
partes iguales, es decir en intervalos que comprenden el mismo número de valores. En general,
Recuerda ordenar
sea p 2 (0 1)
; . Se dene el cuantil p como el número que deja a su izquierda una frecuencia
las observaciones
relativa p . Observa que la mediana es el cuantil 0: 5. Existen distintos métodos para calcular los de menor a mayor
cuantiles. Una posible forma de calcular el cuantil p consistiría en ordenar la muestra y tomar para calcular la
mediana y el resto
como cuantil el menor dato de la muestra (primero de la muestra ordenada) cuya frecuencia
de cuantiles
relativa acumulada es mayor que p .
Algunos órdenes de los cuantiles tienen nombres especícos. Así los cuartiles son los cuantiles
1 2 3
de orden (0.25, 0.5, 0.75) y se representan por Q , Q , Q . Los cuartiles dividen la distribución
en cuatro partes. Los deciles son los cuantiles de orden (0.1, 0.2,..., 0.9). Los percentiles son
los cuantiles de orden j /100 donde j =1,2,...,99.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 12 de 15
Bioestadística. Grado en Medicina Capítulo 1
Recorrido intercuartílico: se dene como la diferencia entre el cuartil tercero y el cuartil primero, es Una medida de
variabilidad más
decir, RI = Q3 Q1 .
lógica sería
1P 2
=1 (x x) .
n
Varianza: Si hemos empleado la media como medida de posición, parece razonable tomar como
n i i
Propiedades:
2 = s2 .
1. sa +X X La varianza no se ve afectada por cambios de localización.
2. sbX
2 = b2 s 2 . La varianza se mide en el cuadrado de la escala de la variable
X
Que una medida de dispersión no se vea afectada por cambios de localización, como ocurre con
la varianza (propiedad 1), es una condición casi indispensable para admitirla como tal medida de
dispersión. La dispersión de un conjunto de datos no se ve alterada por una mera traslación de los
mismos.
Ejemplo 8: Calculamos la varianza del peso de los pacientes de urgencias del Ejemplo 3. Recuerda
Desviación típica: La propiedad 2 de la varianza nos da pie a calcular la raíz cuadrada de la varianza,
obteniendo así una medida de dispersión que se expresa en la mismas unidades de la variable.
Ejemplo 9: Calculamos la desviación típica del peso de los pacientes de urgencias del Ejemplo 3.
p
s = 201:55 = 14:197 kg.
Coeciente de variación: Si queremos una medida de dispersión que no dependa de la escala y que,
por tanto, permita una comparación de las dispersiones relativas de varias muestras, podemos
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 13 de 15
Bioestadística. Grado en Medicina Capítulo 1
s
CV = :
x
Por supuesto, para que se pueda denir esta medida es preciso que la media no sea cero. Es
más, el coeciente de variación sólo tiene sentido para variables que sólo tomen valores positivos
Ejemplo 10: Calculamos el coeciente de variación del peso de los pacientes del Ejemplo 3.
s 14:197
CV = = = 0:218
x 65:125
saliva humana. Para ello se recogieron datos de 10 personas obteniéndose los siguientes
resultados.
6:59 7:37 7:15 7:08 5:75 5:83 7:12 7:23 7:13 5:60
Ejercicio 8: Realiza un análisis descriptivo completo de cada una de las variables del Ejemplo 3.
)3
Pn
= i =1 (xi x
AsF
ns 3 :
que los datos son simétricos. Si toma valores signicativamente mayores que cero diremos que
los datos son asimétricos a la derecha y si toma valores signicativamente menores que cero
)4
Pn
= i =1 (xi x
ns 4
KF :
como referencia. Así, si este coeciente es menor que 3 diremos que los datos presentan una
forma platicúrtica, si es mayor que 3 diremos que son leptocúrticos y si son aproximadamente
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 14 de 15
Bioestadística. Grado en Medicina Capítulo 1
para realizar diagramas de caja (boxplots) que visualmente nos dan información sobre como están
una caja central que está delimitada por la posición de los cuartiles Q 1 y Q . 3
Dentro de esa caja se dibuja la línea que representa la mediana (cuartil Q ). 2
De los extremos de la caja salen unas líneas (denominadas bigotes) que se extienden hasta los
mayor de las observaciones que es menor o igual que Q 3 + 1:5RI . Estos límites representarían
Los datos que caen fuera de los bigotes se representan individualmente mediante (datos
atípicos moderados) y o (datos atípicos extremos).
La Figura 5 muestra los diagramas de caja para datos de Estatura agrupados por Sexo. Fíjate que en
ambos sexos hay datos atípicos moderados (personas cuyas estaturas están fuera del rango razonable
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 15 de 15
Bioestadística. Curso 2014-2015
Capítulo 2
Carmen M Cadarso, M del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
a a
Contents
1 Introducción histórica 2
2 Conceptos básicos 2
2.1 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3 Deniciones de probabilidad 4
3.1 Denición clásica o de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Probabilidad condicionada 6
5 Independencia de sucesos 7
6 Teoremas clásicos: Regla del producto, ley de probabilidades totales y teorema de Bayes 7
6.1 Regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1
Bioestadística. Grado en Medicina Capítulo 2
1 Introducción histórica
El objetivo de la Estadística es utilizar los datos para inferir sobre las características de una población
a la que no podemos acceder de manera completa. En el tema anterior, hemos visto como realizar
proporciona y estudia modelos para fenómenos aleatorios en los que interviene el azar y sirve de La Teoría de la
Probabilidad surgió
soporte teórico para la Estadística.
de los estudios
Como primeros trabajos con cierto formalismo en Teoría de la Probabilidad cabe destacar los realizados
realizados sobre los
por Cardano y Galilei (siglo XVI), aunque las bases de esta teoría fueron desarrolladas por Pascal y juegos de azar, que
Fermat en el siglo XVII. De ahí en adelante grandes cientícos han contribuido al desarrollo de la se remontan miles
de años atrás.
Probabilidad, como Bernouilli, Bayes, Euler, Gauss,... en los siglos XVIII y XIX. Será a nales del
siglo XIX y principios del XX cuando la Probabilidad adquiera una mayor formalización matemática,
debida en gran medida a la llamada Escuela de San Petesburgo en la que cabe destacar los estudios
2 Conceptos básicos
2.1 Experimento aleatorio
Cuando de un experimento podemos averiguar de alguna forma cuál va a ser su resultado antes de que
se realice, decimos que el experimento es determinístico. Así, podemos considerar que las horas de
salida del Sol, o la pleamar o bajamar son determinísticas, pues podemos leerlas en el periódico antes
de que se produzcan. Por el contrario, no podemos encontrar en ningún medio el número premiado
Nosotros queremos estudiar experimentos que no son determinísticos, pero no estamos interesados
en todos ellos. Por ejemplo, no podremos estudiar un experimento del que, por no saber, ni siquiera
sabemos por anticipado los resultados que puede dar. No realizaremos tareas de adivinación. Por ello
deniremos experimento aleatorio como aquel que verique ciertas condiciones que nos permitan un
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 12
Bioestadística. Grado en Medicina Capítulo 2
Lo denotamos por
.
Suceso elemental: Es un suceso unitario. Está constituido por un solo resultado del experimento
aleatorio.
Ejemplo 3:
= f1 2 3 4 5 6g, los sucesos elementales son:
Si lanzamos un dado, ; ; ; ; ;
= El resultado es un 1 = f1g,
A
= El resultado es un 2 = f2g,
B
...,
= El resultado es un 6 = f6g.
F
Ejemplo 4:
= f1 2 3 4 5 6g, podemos considerar muchos sucesos:
Si lanzamos un dado, ; ; ; ; ;
...
Decimos que ha ocurrido un suceso cuando se ha obtenido alguno de los resultados que lo forman.
El objetivo de la Teoría de la Probabilidad es estudiar con rigor los sucesos, asignarles probabilidades
y efectuar cálculos sobre dichas probabilidades. Observamos que los sucesos no son otra cosa que
conjuntos y por tanto, serán tratados desde la Teoría de Conjuntos. Recordamos las operaciones
Complementario: Ocurre A
c
si y sólo si no ocurre A.
Diferencia de sucesos: n
Ocurre A B si ocurre A, pero no ocurre B . Por tanto, A B n = \A
c
B .
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 12
Bioestadística. Grado en Medicina Capítulo 2
El suceso que salga par y múltiplo de tres se puede expresar como la intersección
A \ = f2 4 6g \ f3 6g = f6g
B ; ; ; .
De la misma manera, el suceso que salga par o múltiplo de tres se puede expresar
como la unión A [ = f2 4 6g [ f3 6g = f2 3 4 6g
B ; ; ; ; ; ; .
Propiedades
Asociativa A [( [ )=( [ )[
B C A B C A \( \ )=( \ )\
B C A B C
Conmutativa A [ = [
B B A A \ = \ B B A
para la intersección A \
= A
Complementario A [ c =
A A \ c =; A
Leyes de de Morgan ( [ )c = c \
A B A B
c
( \ )c = c [ c
A B A B
= A El resultado es par.
3 Deniciones de probabilidad
El principal objetivo de un experimento aleatorio suele ser determinar con qué probabilidad ocurre
cada uno de los sucesos elementales. ¾Pero cómo asignamos probabilidades a los sucesos?
que actuar para asignarle a cada suceso un número entre 0 y 1 que represente la probabilidad de que
el suceso ocurra.
Cuando el espacio muestral es nito, el problema se reduce a asignar probabilidades a los sucesos
elementales. Las probabilidades de los demás sucesos se obtendrán sumando las de los sucesos
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 12
Bioestadística. Grado en Medicina Capítulo 2
Sin duda el caso más fácil es aquél en el que no tenemos razones para suponer que unos sucesos sean
( ) = casos
P A
favorables a
casos posibles
A
:
Ejercicio 2: Lanzamos dos dados y sumamos sus puntuaciones. ¾Cuál es la probabilidad de obtener
Sea
el espacio muestral, y sea P (
) el conjunto formado por todos los sucesos. Se dene la
(
) = 1
P
\ =;) ( [ )= ( )+ ( )
A B P A B P A P B
probabilidades.
1. P (;) = 0
2. Si A1 ; A2 ; : : : ; An son sucesos incompatibles dos a dos, se cumple
( [
P A1 A2 [ ::: [ n ) = ( 1) + ( 2) + + ( n )
A P A P A P A
3. P A ( c) = 1 ( ) P A
4. Si A , entonces ( ) ( )
B P A P B
P A ( [ )= ( )+ ( )
B P A P B P A ( \ )
B :
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 12
Bioestadística. Grado en Medicina Capítulo 2
4 Probabilidad condicionada
El concepto de probabilidad condicionada es uno de los más importantes en Teoría de la Probabilidad.
La probabilidad condicionada pone de maniesto el hecho de que las probabilidades cambian cuando
dado? ¾Y cuál es la probabilidad de sacar un 1 al lanzar un dado si sabemos que el resultado ha sido
un número impar?
los casos posibles de 6 a 3 (sólo puede ser un 1, un 3 o un 5), con lo cual la probabilidad
Supongamos entonces que en el estudio de un experimento aleatorio nos interesa conocer la probabil-
idad de que ocurra un cierto suceso A pero dispongamos de información previa sobre el experimento:
sabemos que el suceso B ha ocurrido. Está claro que ahora la probabilidad de A ya no es la misma
) = ( (\ ) )
(
P A=B siendo ( ) 6= 0
P A
P B
B
; P B
Voz y de El Correo. Los resultados fueron que el 35% de los encuestados lee La Voz, el
20% de los encuestados lee El Correo. Además, analizando las respuestas se concluye
A= Es lector de La Voz.
B = Es lector de El Correo.
( ) = 0 35
P A : .
( )=02
P B : .
( \ ) = 0 05
P A B : .
(
P A=B ) = ( (\ ) ) = 0005
P A
P B
B
2 = 0 25
:
:
: :
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 12
Bioestadística. Grado en Medicina Capítulo 2
5 Independencia de sucesos
Dos sucesos A y B son independientes si
( \ )= ( ) ( )
P A B P A P B
Comentarios:
Si P A ( ) 0,
> A y B son independientes si y sólo si P B=A ( ) = ( ), esto es, el conocimiento
P B
No debemos confundir sucesos independientes con sucesos incompatibles: los sucesos incom-
Recuerda que los
patibles son los más dependientes que puede haber. Por ejemplo, si en el lanzamiento de una dos sucesos son
moneda consideramos los sucesos incompatibles `salir cara' y `salir cruz', el conocimiento de incompatibles si
que ha salido cara nos da el máximo de información sobre el otro suceso: ya que ha salido cara
A\B =;
es imposible que haya salido cruz.
Si los sucesos A y B son independientes, también lo son los sucesos A y B ; los sucesos A
c c
y
c c
B ; y los sucesos A y B .
Ejercicio 3: Se estima que entre la población de Estados Unidos, el 55% padece de obesidad, el
de ejercicios. Los enunciaremos en su forma más general, aunque después veremos por medio de
( \
P A1 A2 \ ::: \ n ) = ( 1) (
A P A P A2 =A1 ) (
P A3 =A1 \ 2) (
A P An =A1 \ A2 \ ::: \ An 1 )
La regla del producto se utiliza en experimentos aleatorios que están formados por etapas consecutivas
(de la 1 a la n ) y nos permite calcular la probabilidad de que ocurra una concatenación (intersección)
etapa n). Esta probabilidad queda expresada como el producto de la probabilidad inicial P A1 ( ) y las
probabilidades en cada etapa condicionadas a las etapas anteriores, conocidas como probabilidades
de transición.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 12
Bioestadística. Grado en Medicina Capítulo 2
etc.
vacuna?
vacuna?
Como siempre, en primer lugar vamos a vamos a ponerle nombre a los sucesos. Deno-
tamos
( 1) = 0 2
P A : .
( 2 1) = 0 6
P A =A : .
( 3 1 \ 2) = 0 8
P A =A A : .
Aplicando la regla de la cadena podemos contestar a las dos preguntas del problema.
P A1( \ 2) = ( 1) (
A P A P A2 =A1 ) = 0 2 0 6 = 0 12
: : : :
P A1( \ A2 \ 3) = ( 1) (
A P A P A2 =A1 ) (
P A3 =A1 \ 2 ) = 0 2 0 6 0 8 = 0 096
A : : : : :
Sistema completo de sucesos. Es una partición del espacio muestral, esto es, es una colección de
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 12
Bioestadística. Grado en Medicina Capítulo 2
se cumple que:
( ) = ( 1) (
P B P A P B=A1 ) + ( 2) (
P A P B=A2 ) + + ( n) (
P A P B=An )
Ejemplo 9: Se sabe que una determinada enfermedad coronaria es padecida por el 7% de los fu-
hay 600 fumadores, ¾cuál es la probabilidad de que una persona elegida al azar sufra
dicha enfermedad?
En este caso:
1= A Es fumador.
2= A Es no fumador.
problema es:
(
P E =A1 ) = 0 07.
:
( 2 ) = 0 025.
P E =A :
( ) = ( 1) (
P E P A P E =A1 ) + ( 2) (
P A P E =A2 ) = 0 12 0 07 + 0 88 0 025 = 0 0304
: : : : :
(
P Ai =B ) = ( i ) ( ()
P A P B=Ai
P B
)
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 12
Bioestadística. Grado en Medicina Capítulo 2
( )= ( ) ( ( ) ( i)
P Ai P B=A
1) + ( 2) ( 2) + + ( n ) ( )
P Ai =B
1 P A P B=A P A P B=A P A P B=An
Ejemplo 10: Volvamos al Ejemplo 9 y supongamos ahora que llega a nuestra consulta una persona
que sufre la enfermedad coronaria citada. ¾Cuál es la probabilidad de que dicha persona
sea fumadora?
( )
En este caso nos están preguntando P A1 =E . Por el Teorema de Bayes,
(
P A1 =E ) = ( 1 ) ( ()
P A
P E
P E =A 1) : 0 07 = 0 2763
= 0 0120304
:
:
:
Las leyes de probabilidad que hemos visto hasta ahora son fundamentales en el campo de ciencias la ciencia que
estudia la
de la salud, en la evaluación de pruebas diagnósticas. Entendemos por prueba diagnóstica cualquier
frecuencia de
procedimiento que pretenda determinar en un paciente la presencia de cierta condición, supuestamente
aparición de la
patológica, no susceptible de ser observada directamente. Antes de estudiar los procedimientos enfermedad y de
estadísticos que permiten evaluar la validez de las pruebas diagnósticas introduciremos dos conceptos sus determinantes
en la población
muy importantes en epidemiología: el de prevalencia e incidencia de una enfermedad.
Incidencia: medida del número de casos nuevos de una enfermedad en un período determinado.
Podría considerarse como una tasa que cuantica las personas que enfermarán en un periodo
de tiempo.
A los médicos les interesa tener mayor capacidad para determinar sin equivocarse la presencia o
Es importante tener en cuenta que las pruebas de detección no siempre son infalibles y que los
Un falso negativo resulta cuando una prueba indica que el estado es negativo, cuando en
realidad es positivo.
Para evaluar la utilidad de los resultados de una prueba, debemos contestar a las siguientes preguntas:
1. Dado que un individuo tiene la enfermedad, ¾qué probabilidad existe de que la prueba resulte
positiva?
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 10 de 12
Bioestadística. Grado en Medicina Capítulo 2
2. Dado que un individuo no tiene la enfermedad, ¾qué probabilidad existe de que la prueba resulte
negativa?
3. Dada un resultado positivo de una prueba de detección, ¾qué probabilidad existe de que el
4. Dada un resultado negativo de una prueba de detección, ¾qué probabilidad existe de que el
Relacionando estas ideas con los conceptos de probabilidad que hemos visto anteriormente, denire-
de que el resultado de la prueba sea positivo condicionada a que el paciente sufre la enfermedad.
Sensibilidad = (+ )
P =E
de que el resultado de la prueba sea negativo condicionada a que el paciente está sano.
Especicidad = ( P =S )
Para responder a las preguntas 3 y 4, denimos:
Valor predictivo positivo: El valor predictivo positivo de una prueba es la probabilidad de que un
individuo tenga la enfermedad, dado que el individuo presenta un resultado positivo en la prueba
Valor predictivo negativo: El valor predictivo negativo de una prueba es la probabilidad de que un
individuo esté sano, dado que el individuo presenta un resultado negativo en la prueba de
detección.
P
P =E
P E P
P E
=E
P =E
P S P =S
:
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 11 de 12
Bioestadística. Grado en Medicina Capítulo 2
Del mismo modo, el valor predictivo negativo de una prueba puede obtenerse también por la regla de
Bayes.
Enfermedad
Positivo 490 70
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 12 de 12
Bioestadística. Curso 2014-2015
Capítulo 3
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción 2
2 Variable aleatoria 2
2.1 Variables aleatorias discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3.2 Varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1
Bioestadística. Grado en Medicina Capítulo 3
1 Introducción
que se efectúan sobre los individuos de una muestra. Así, la Estadística Descriptiva nos permitía
analizar los distintos valores que tomaban las variables sobre una muestra ya observada. Se trataba,
En este tema trataremos las variables situándonos antes de la realización del experimento aleatorio.
Por tanto, haremos uso de los conceptos del tema anterior (Probabilidad), mientras que algunos
2 Variable aleatoria
De manera informal, una variable aleatoria es un valor numérico que corresponde al resultado de
un experimento aleatorio. Por ejemplo, una variable X como resultado de lanzar una moneda al aire
puede tomar el valor 1 si el resultado es cara y 0 si es cruz. De este modo, escribiremos, por ejemplo,
P (X = 1) = 0:5: Otro ejemplo de variable aleatoria, Y; puede ser el resultado de medir en o C la
temperatura corporal de adultos varones sanos. Cuando se han tomado muchísimas observaciones
(innitas), se puede llegar a la conclusión, por ejemplo, que la probabilidad de que la temperatura
corporal sea inferior a 36:8 o C es igual a 0:8, lo que escribimos con P (Y < 36:8) = 0:8:
Denición 1. Llamamos variable aleatoria a una aplicación del espacio muestral asociado a un
experimento aleatorio en R, que a cada resultado de dicho experimento le asigna un número real,
obtenido por la medición de cierta característica.
X:
! R
! ! X (! )
Denotamos la variable aleatoria por una letra mayúscula. El conjunto imagen de esa aplicación es el
conjunto de valores que puede tomar la variable aleatoria, que serán denotados por letras minúsculas.
Las variables aleatorias son equivalentes a las variables que analizábamos en el tema de Estadística Al igual que en el
Descriptiva. La diferencia es que en el tema de Estadística Descriptiva se trabajaba sobre una muestra
tema de Estadística
Descriptiva, las
de datos y ahora vamos a considerar que disponemos de toda la población (lo cual es casi siempre
variables aleatorias
imposible en la práctica). Ahora vamos a suponer que podemos calcular las probabilidades de todos se pueden clasicar
los sucesos resultantes de un experimento aleatorio. en discretas y
De modo idéntico a lo dicho en el tema de Descriptiva, podemos clasicar las variables aleatorias
continuas
en discretas y continuas en función del conjunto de valores que pueden tomar. Así, una variable
aleatoria será discreta si dichos valores se encuentran separados entre sí. Por tanto será representable
por conjuntos discretos. Una variable aleatoria será continua cuando el conjunto de valores que puede
tomar es un intervalo.
Una variable aleatoria es discreta cuando toma una cantidad numerable (que se pueden contar) de
valores. Por ejemplo, el número de caras al lanzar dos veces una moneda o el número de pacientes
Si X es una variable discreta, su distribución viene dada por los valores que puede tomar y las
probabilidades de que aparezcan. Si x1 < x2 < :: < xn son los posibles valores de la variable X, las
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 9
Bioestadística. Grado en Medicina Capítulo 3
p1 = P (X = x1 ) ;
p2 = P (X = x2 ) ;
.
.
.
pn = P (X = xn ) :
constituyen la distribución de X:
Denición 2. La función P (X = x ) se denomina función de probabilidad o función de masa.
La función de probabilidad se puede representar análogamente al diagrama de barras.
Ejercicio 1: Se lanza dos veces una moneda equilibrada. Sea X la variable que expresa el número
Ejercicio 2: Sea X la variable aleatoria que expresa número de pacientes con enfermedades artic-
xi 0 1 2 3 4 5 6 7
pi 0:230 0:322 0:177 0:155 0:067 0:024 0:015 0:01
Comprueba que se trata efectivamente de una función de probabilidad y represéntala.
Denición 3. La función de distribución de una variable aleatoria se dene como: Calcularemos para
variables aleatorias
F : R ! R discretas su función
x0 ! F (x0 ) = P (X x0 ) de masa y su
función de
El diagrama de barras de frecuencias acumuladas para variables discretas del
distribución
tema 1 se puede reinterpretar en términos de probabilidades y da lugar a lo que recibe el nombre de
función de distribución, F (x ) ; denida para cada punto x0 como la probabilidad de que la variable
F (x0 ) = P (X x0 ) :
F ( 1) = 0;
F (+1) = 1:
Suponiendo que la variable X toma los valores x1 < x2 < : : : < xn ; los puntos de salto de la función
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 9
Bioestadística. Grado en Medicina Capítulo 3
F (x1 ) = P (X x1 ) = P (X = x1 )
F (x2 ) = P (X x2 ) = P (X = x1 ) + P (X = x2 )
.
.
.
F (xn ) = P (X xn ) = P (X = x1 ) + ::: + P (X = xn ) = 1
Obsérva la función de distribución es igual a uno en el máximo de todos los valores posibles.
sea menor o igual que 4 y la probabilidad de que haya más de dos pacientes de este
Los conceptos que permiten resumir una distribución de frecuencias utilizando valores numéricos
pueden utilizarse también para describir la distribución de probabilidad de una variable aleatoria. Las
Se dene la media poblacional o esperanza de una variable aleatoria discreta como la media de sus
posibles valores x1 ; x2 ; :::; xk ponderados por sus respectivas probabilidades p1 ; p2 ; :::; pk ; es decir,
k
= E(X ) = x1 p1 + x2 p2 + ::: + xk pk = xi pi :
X
i =1
variable aleatoria. Además, la media puede verse también como el valor central de la distribución de
probabilidad.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 9
Bioestadística. Grado en Medicina Capítulo 3
3.2 Varianza.
Se dene la varianza poblacional de una variable aleatoria discreta con valores x1 ; x2 ; :::; xk como la
k
2 = Var(X ) = (xi )2 pi :
X
i =1
desviación típica poblacional como la raíz cuadrada de la varianza. Los valores pequeños de
indican concentración de la distribución alrededor de la esperanza y valores grandes corresponden a
Estudiaremos ahora distribuciones de variables aleatorias que han adquirido una especial relevancia
por ser adecuadas para modelizar una gran cantidad de situaciones. Presentaremos modelos de
Calcularemos también los momentos (media y varianza) y destacaremos las propiedades de mayor
utilidad.
En muchas ocasiones nos encontramos ante experimentos aleatorios con sólo dos posibles resultados:
Éxito y fracaso (cara o cruz en el lanzamiento de una moneda, ganar o perder un partido, aprobar o
suspender un examen, una prueba diagnóstica da positivo o negativo...). Se pueden modelizar estas
1
(
X=
si Éxito
0 si Fracaso
Lo único que hay que conocer es la probabilidad de éxito, p, ya que los valores de X son siempre los
X 0 1
P (X = xi ) 1 p p
Por tanto, la probabilidad de éxito p determina plenamente la distribución de Bernoulli. La media y
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 9
Bioestadística. Grado en Medicina Capítulo 3
2 = p (1 p).
Como ejemplo, la Figura 1 muestra la función de masa de una variable con distribución de Bernoulli
para p = 0:8.
Empezando con una prueba de Bernoulli con probabilidad de éxito p, vamos a construir una nueva
Ejemplo 1: Supongamos que lanzamos un dado normal 5 veces y queremos determinar la probabil- La distribución
idad de que exactamente en 3 de esos 5 lanzamientos salga el 6. binomial sirve para
Cada lanzamiento es independiente de los demás y podemos considerarlo como un
modelizar
situaciones en las
ensayo de Bernoulli, donde el éxito es sacar un 6 ( p = 1=6). Lo que hacemos es repetir
que nos interesa
el experimento 5 veces y queremos calcular la probabilidad de que el número de éxitos contar el número
sea igual a 3 (es decir, obtener 3 éxitos y 2 fracasos) de éxitos en n
repeticiones de una
prueba de Bernoulli
La variable aleatoria binomial X es el número de éxitos en n repeticiones de una prueba de Bernoulli con probabilidad de
éxito p
con probabilidad de éxito p. Debe cumplirse:
Cada prueba individual puede ser un éxito o un fracaso.
tados siguientes.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 9
Bioestadística. Grado en Medicina Capítulo 3
2 = n p (1 p ).
Como ejemplo, la Figura 2 muestra las funciones de masa de una variable con distribución binomial
Figure 2: En la izquierda, función de masa de una Bin (5; 1=6). En la derecha, función de masa de
En muchas circunstancias (llamadas a una centralita telefónica, átomos que pueden emitir una ra-
diación, . . . ) el número de individuos susceptibles de dar lugar a un éxito es muy grande. Para
modelizar estas situaciones mediante una distribución binomial tendremos problemas al escoger el
abilidad (la fórmula resulta inviable). Sin embargo, se ha observado que si mantenemos constante
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 9
Bioestadística. Grado en Medicina Capítulo 3
2 =
Como ejemplo, la Figura 3 muestra las funciones de masa de una variable con distribución de Poisson
Figure 3: En la izquierda, función de masa de una Poisson (2). En la derecha, función de masa de
cuando n sea grande y p pequeño, en base al límite que hemos visto. Usaremos el siguiente criterio:
Si n > 50, p < 0:1 entonces la distribución binomial de parámetros n y p puede ser aproximada
por una Poisson de parámetro = np.
2000 personas vacunadas haya como mucho tres que reaccionen desfavorablemente.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 9
Bioestadística. Grado en Medicina Capítulo 3
Aunque la distribución de Poisson se ha obtenido como forma límite de una distribución Binomial, La distribución de
tiene muchas aplicaciones sin conexión directa con las distribuciones binomiales. Por ejemplo, la
Poisson sirve como
aproximación de la
distribución de Poisson puede servir como modelo del número de éxitos que ocurren durante un
distribución
intervalo de tiempo o en una región especíca. binomial Bin(n; p)
Denimos el proceso de Poisson como un experimento aleatorio que consiste en contar el número cuando n es grande
de ocurrencias de determinado suceso en un intervalo de tiempo, vericando:
y p pequeño y
también es
El número medio de sucesos por unidad de tiempo es constante. A esa constante la llamamos
adecuada para
modelizar
intensidad del proceso. situaciones en las
Los números de ocurrencias en subintervalos disjuntos son independientes.
que nos interesa
contar el número
En un proceso de Poisson, consideremos X =número de ocurrencias en un subintervalo. Entonces
de ocurrencias de
un determinado
X tiene distribución de Poisson, cuyo parámetro es proporcional a la longitud del subintervalo. suceso en un
intervalo de tiempo
Ejemplo 3: El número de nacimientos en un hospital constituye un proceso de Poisson con inten-
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 9
Bioestadística. Curso 2014-2015
Capítulo 4
Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción 2
3.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1
Bioestadística. Grado en Medicina Capítulo 4
1 Introducción
En el capítulo anterior hemos estudiado variables aleatorias discretas. Recuerda que una variable
clasicar las variables aleatorias en discretas y continuas en función del conjunto de valores que pueden
tomar. Estudiaremos en este tema variables aleatorias continuas y nos centraremos en un modelo
de distribución continua (la distribución normal) que ha adquirido una especial relevancia por ser
El estudio de las variables continuas es más sutil que el de las discretas. Recordemos que la construc-
ción del histograma es más delicado que el del diagrama de barras ya que depende de la elección de
las clases.
Se ha comprobado en la práctica que tomando más observaciones de una variable continua y haciendo
más nas las clases, el histograma tiende a estabilizarse en una curva suave que describe la distribución
de la variable (véase la Figura 1). Esta función, f (x ) ; se llama función de densidad de la variable
X. La función de densidad constituye una idealización de los histogramas de frecuencia o un modelo
del cual suponemos que proceden las observaciones.
Figure 1: Histograma de la capacidad (en ml.) de n = 100, n = 500 y n = 1000 jeringas producidas
por la empresa Clinic, que se dedica a la venta de material clínico. Tomando más observaciones y
haciendo más nas las clases, el histograma tiende a estabilizarse en una curva suave (en rojo) que
Denición 1. Llamamos función de densidad de una variable aleatoria continua X a una aplicación
P (X x0 ) = f (x ) dx
Z
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 9
Bioestadística. Grado en Medicina Capítulo 4
1. f (x ) 0 8x 2 R
R1
2.
1 f (x ) dx = 1:
Cualquier función que verique estas dos propiedades es una función de densidad. La función de
densidad se interpreta como el histograma. Sus valores más altos corresponden a las zonas más
probables y viceversa. Por ejemplo, la densidad de la variable X = Capacidad en ml. de una jeringa
producida por la empresa Clinic de la Figura 1 indica que lo más probable es que la capacidad de
una jeringa esté en el intervalo[4; 6] : Con menos probabilidad la capacidad de la jeringa estará en los
[2; 4] y [6; 8] y será prácticamente imposible que la capacidad supere los 8 ml. o que sea
intervalos
menor de 2 ml.
Del mismo modo que el histograma representa frecuencias mediante áreas, análogamente, la función
de densidad expresa probabilidades por áreas. La probabilidad de que una variable X sea menor que
P (X x0 ) = f (x ) dx;
Z
1
y análogamente, la probabilidad de que la variable tome un valor entre x0 y x1 es,
x1
P (x0 x x1 ) = f (x ) dx:
Z
x0
Es erróneo entender la función de densidad como la probabilidad de que la variable tome un valor
especíco, pues esta siempre es cero para cualquier variable continua ya que el área que queda encima
de un punto es siempre cero. Por ejemplo, la probabilidad de que la capacidad de una jeringa producida
por la empresa Clinic sea exactamente un 5:2 ml. es cero. Sin embargo, la probabilidad de que la
capacidad de una jeringa esté en el intervalo [5:1; 5:3] ; es el área encerrada por la función de densidad
en ese intervalo. De esto deducimos que, para variables continuas,
Ejemplo 1: Se ha comprobado que el tiempo de vida (en años) de cierto tipo de marcapasos es una
1 16 ; t > 0;
(
t=
f (t ) = 16 e si
0; en otro caso.
1 0 16 e e
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 9
Bioestadística. Grado en Medicina Capítulo 4
0 0 20
representa P (T 20 ).
La función de distribución para una variable aleatoria continua se dene como en el caso discreto Calcularemos para
variables aleatorias
por,
F (x0 ) = P (X x0 ) ; continuas su
función de densidad
y su función de
y por tanto,
x0 distribución
F (x0 ) = P (X x0 ) = f (x ) dx;
Z
1
La función de distribución de una variable continua es también no decreciente y verica que,
F ( 1) = 0;
F (+1) = 1:
Además, podemos obtener la función de densidad a partir de la de distribución calculando su derivada:
f ( x ) = F 0 (x ) :
pueden utilizarse también para describir la distribución de probabilidad de una variable aleatoria.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 9
Bioestadística. Grado en Medicina Capítulo 4
Z 1 Z +1
t 16 dt
= E( T ) = tf (t ) dt = t=
= 16:
1 0 16 e
Es decir, la vida media de un marcapasos del tipo descrito en el Ejemplo 1 es 16 años.
variable aleatoria. Además, la media puede verse también como el valor central de la distribución de
probabilidad.
3.2 Varianza
desviación típica poblacional como la raíz cuadrada de la varianza. Los valores pequeños de
indican concentración de la distribución alrededor de la esperanza y valores grandes corresponden a
de probabilidad. Por múltiples razones se viene considerando la más idónea para modelizar una gran
La normal es una familia de variables que depende de dos parámetros, la media y la varianza. Dado que
todas están relacionadas entre si mediante una transformación muy sencilla, empezaremos estudiando
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 9
Bioestadística. Grado en Medicina Capítulo 4
Denición 2. Una variable aleatoria continua Z se dice que tiene distribución normal estándar, y
f (z ) = p1 e 1 2
z
z 2R
2
2 si
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4
3. Si Z 2 N (0; 1) E(Z ) = 0 = 1
entonces y .
Como no existe una expresión explícita para el área existen tablas con algunas probabilidades
ya calculadas.
Las tablas que nosotros utilizaremos proporcionan el valor de la función de distribución, (z ) =
P (Z z ), de la normal estándar para valores positivos de z , donde z está aproximado hasta el
segundo decimal.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 9
Bioestadística. Grado en Medicina Capítulo 4
1 1
Para calcular P (Z 1:03) , en el eje de las x marcamos el valor de Z (en este caso
Ejercicio 1: Supongamos que Z 2 N (0; 1). Calcula usando las tablas de la normal estándar:
P (Z 1:64):
P (Z > 1):
P (Z 0:53):
P (Z > 1:23):
P ( 1:96 Z 1:96):
P ( 1 Z 2):
¾Cuánto vale aproximadamente P (Z > 4:2)?
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 9
Bioestadística. Grado en Medicina Capítulo 4
Ejercicio 2: Sea Z una variable aleatoria con distribución N(0,1). Halla los valores z0 tales que
P (Z z0 ) = 0:87.
P (Z > z0 ) = 0:05.
P (Z > z0 ) = 0:975.
P (jZ j > z0 ) = 0:01.
Efectuando un cambio de localización y escala sobre la normal estándar, podemos obtener una dis-
tribución con la misma forma pero con la media y desviación típica que queramos.
f (x ) = p1 2 (x
2 2
)2
; x 2 R:
2
e
Podemos responder
a cualquier
pregunta sobre
probabilidades de
una distribución
normal
estandarizando y
luego utilizando la
tabla normal
Figure 5: Funciones de densidad de variables normales con distintas medias y varianzas. En rojo
N (0; 1).
estándar. Para
densidad de una estandarizar un
valor, réstale la
En la práctica sólo disponemos de la tabla de la distribución normal estándar. Para efectuar cálculos
media de la
sobre cualquier distribución normal hacemos la transformación inversa, esto es, le restamos la media distribución y luego
y dividimos por la desviación típica. A este proceso le llamamos estandarización de una variable divídelo por la
desviación típica.
aleatoria.
X
Si X 2 N (; ) entonces Z = 2 N (0; 1):
Debemos observar que la estandarización se puede aplicar a cualquier variable aleatoria, tenga o no
distribución normal. Al estandarizar una variable aleatoria, obtendremos otra (variable estandarizada)
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 9
Bioestadística. Grado en Medicina Capítulo 4
P (X 1) = P
X 5 1 5 = P (Z 2)
2 2
Z = X 5 2 N (0; 1):
donde
2 Entonces, consultando las tablas de la normal estándar,
obtenemos que
P (X 1) = P (Z 2) = 0:02275:
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 9
Bioestadística. Curso 2014-2015
Capítulo 5
a a
Carmen M Cadarso, M del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción 2
2 Conceptos básicos. 2
1
Bioestadística. Grado en Medicina Capítulo 5
1 Introducción
Como ya hemos comentado en otras ocasiones, nuestro objetivo es el estudio de una población y sus
características. Llamaremos parámetro a una característica numérica que nos interese conocer de la
población. Por ejemplo, podrían ser parámetros de interés la presión sistólica media de una población,
por eso en la práctica contaremos con una muestra representativa de dicha población. En el capítulo 1
hemos estudiado conceptos básicos de Estadística Descriptiva, que nos proporcionaban herramientas
para resumir, ordenar y extraer los aspectos más relevantes de la información de la muestra. En
el capítulo 2 hemos jado las bases para trabajar con incertidumbres o probabilidades. Ahora, tras
estudiar los principales modelos de variables aleatorias en los capítulos 3 y 4, podremos empezar a
hacer inferencia sobre la población de interés basándonos en lo que observamos en una muestra.
No nos conformaremos con describir unos datos contenidos en una muestra sino que pretendemos
extraer conclusiones para la población de la que fueron extraídos. A esta última tarea la llamamos
Inferencia Estadística. Dependiendo de los objetivos, podremos clasicar las labores de inferencia en
dos grandes categorías: la primera, en la que el interés se centra en estimar o aproximar el valor de
parámetro (por ejemplo, determinar si el nivel de colesterol medio en hombres es superior al nivel de
2 Conceptos básicos.
Veamos algunas deniciones básicas en Inferencia Estadística. Algunas de ellas ya las hemos intro-
Población. Es el conjunto homogéneo de individuos sobre los que se estudian una o varias carac-
terísticas observables. Por ejemplo, la población de un país de la cual nos interesa la proporción de
vacunados de gripe A.
nos imposibilitan observar toda la población. Por ese motivo, extraemos una muestra y con ella
Tamaño de la población o de la muestra. Es el número de individuos que los forman, en cada caso.
Debemos hacer una primera distinción, al hablar de Inferencia, según la naturaleza del problema que
se plantee:
averiguar el parámetro o parámetros de los que depende. Por ejemplo, sabemos que el nivel de
que esté lo más próximo posible al verdadero parámetro. Por ejemplo, la media muestral
proporción poblacional.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 5
Bioestadística. Grado en Medicina Capítulo 5
(b) Intervalos de Conanza. Dado que la estimación puntual conlleva un cierto error, con-
struímos un intervalo que con alta probabilidad contenga al parámetro. La amplitud del
la población.
se denomina variable aleatoria. Por ejemplo, una variable aleatoria sería el nivel de colesterol. El
valor de la variable cambia de individuo a individuo. Otros ejemplos sería la presencia o ausencia de
de distribuciones como por ejemplo la binomial o la normal. Esta familia depende de uno o varios
el caso de la normal, etc. Usualmente es imposible o muy costoso obtener los valores de la variable
de interés sobre todos los individuos de la población para poder determinar así el parámetro que
determina la distribución. En la práctica solo contamos con una muestra representativa y tendremos
que estimar los parámetros de la población en base a valores aproximados a partir de la muestra.
Una muestra aleatoria simple de tamaño n está formada por n variables X1 ; X2 ; ; Xn inde-
Un estadístico es una función de la muestra aleatoria, y por tanto nace como resultado de
cualquier operación efectuada sobre la muestra. Es también una variable aleatoria y por ello
tendrá una cierta distribución, que se denomina distribución del estadístico en el muestreo.
Para resolver el problema de estimación puntual, esto es, para aventurar un valor del parámetro
nuestra realización muestral. Al estadístico escogido para tal n le llamamos estimador del
parámetro. Al valor obtenido con una realización muestral concreta se le llama estimación.
El problema radica, por lo tanto, en elegir un buen estimador, es decir, una función de la muestra
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 5
Bioestadística. Grado en Medicina Capítulo 5
interés. El denominado Teorema Central del Límite que arma que, si X1 ; X2 ; : : : ; Xn son variables
aleatorias independientes y con la misma distribución X, donde X tiene media y varianza 2 ,
entonces para n grande, la variable
X1 + X2 + : : : + Xn
n
es aproximadamente normal con media y varianza =n . Formalmente:
2
Teorema 1 (Teorema central del límite). Sea X1 ; X2 ; : : : ; Xn ; : : : una sucesión de variables aleatorias
independientes y con la misma distribución, con media y varianza 2 todas ellas.
Sea Sn = X1 + : : : + Xn . Entonces,
Sn n
p
n
! N (0; 1):
d
Equivalentemente,
X1 + X2 + : : : + Xn
! N ; pn :
d
n
Además del modelo normal, existen otros modelos que desempeñan un papel importante en la infer-
5.1 La distribución 2
La distribución Chi-cuadrado (o ji-cuadrado) con n grados de libertad 2n es un modelo de variable
Propiedades:
1. La variable Chi-cuadrado toma valores [0; + 1) .
Propiedades:
1. La variable t de Student toma valores en toda la recta real.
3. tk ! N (0; 1)
d
cuando k ! 1.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 5
Bioestadística. Grado en Medicina Capítulo 5
Figure 2: En verde densidad de una t de Student con 2 grados de libertad, en rojo densidad de una
Al igual que ocurría con la distribución normal, calcularemos probabilidades y cuantiles de estas
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 5
Bioestadística. Curso 2014-2015
Capítulo 6
Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción 2
2 Estimación puntual 2
2.1 Estimación puntual de una proporción . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Estimación puntual de la media y la varianza. . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 Estimación puntual de la media . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.2 Estimación puntual de la varianza . . . . . . . . . . . . . . . . . . . . . . . 3
3 Intervalos de conanza 4
3.1 Intervalo de conanza para la media de una población normal . . . . . . . . . . . . 4
3.1.1 Intervalo de conanza para la media con varianza conocida . . . . . . . . . . 4
3.1.2 Intervalo de conanza para la media con varianza desconocida . . . . . . . . 4
3.2 Intervalo de conanza para la diferencia de medias de poblaciones normales . . . . . 6
3.2.1 Muestras independientes, varianzas conocidas . . . . . . . . . . . . . . . . . 6
3.2.2 Muestras independientes, varianzas desconocidas e iguales . . . . . . . . . . 6
3.2.3 Intervalo de conanza para la diferencia de medias. Muestras apareadas . . . 7
3.3 Intervalo de conanza para la proporción . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 Intervalo de conanza para la diferencia de proporciones . . . . . . . . . . . . . . . 9
1
Bioestadística. Grado en Medicina Capítulo 6
1 Introducción
En el capítulo anterior hemos presentado los conceptos básicos de la inferencia estadística. Además,
hemos clasicado las labores de inferencia en dos grandes categorías: la estimación, que se centra en
estimar o aproximar el valor de un parámetro desconocido y el contraste de hipótesis, que se centra
en decidir sobre la veracidad de ciertas hipótesis acerca de los valores del parámetro desconocido. En
este capítulo profundizaremos en los problemas de estimación, tanto en la estimación puntual como
en la construcción de intervalos de conanza. Para todas estas labores será fundamental conocer los
estadísticos adecuados para cada parámetro y sus distribuciones.
2 Estimación puntual
Como comentamos en el capítulo anterior, la estimación puntual de un parámetro desconocido
consiste en aproximar su valor a partir de una muestra. Para resolver el problema de estimación puntual
escogemos el valor que ha tomado un estadístico ^ calculado sobre nuestra realización muestral.
Recordamos que un estadístico es una variable aleatoria y por ello tendrá una cierta distribución.
Denición 1. Diremos que un estimador ^ para un parámetro poblacional es insesgado si
E ^ = :
Que un estimador sea insesgado es una buena propiedad. También nos interesará que la dispersión
del estimador sea pequeña y que disminuya al aumentar el tamaño muestral.
La muestra está formada por n variables X1 ; : : : ; Xn independientes y con la misma distribución que
X . El estimador razonable para p es la proporción muestral
número de individuos con la característica en la muestra X1 + + Xn
p^ = n =
n :
Observamos en primer lugar que E(^ p) = p y, por lo tanto, p^ es insesgado. Ahora que sabemos que p^
está centrado en torno a p, nos interesa que su dispersión sea pequeña. En nuestro caso
p(1 p)
p) =
Var (^
n
p) = 0: Esto signica que al aumentar el tamaño muestral el estimador se aproxima al
y limn!1 Var(^
parámetro poblacional, lo cual también es deseable.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 10
Bioestadística. Grado en Medicina Capítulo 6
De esto se deduce que la media muestral es un estimador insesgado de la media poblacional y que su
varianza es la poblacional dividida por n. Por tanto, la dispersión decrece tendiendo a cero cuando el
tamaño muestral aumenta.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 10
Bioestadística. Grado en Medicina Capítulo 6
3 Intervalos de conanza
La estimación puntual resulta incompleta en el siguiente sentido: ¾qué seguridad tenemos de que un
estadístico se aproxime al verdadero valor del parámetro? Para poder dar respuesta a esta cuestión
construimos intervalos de conanza, que permiten precisar la incertidumbre existente en la estimación.
Denición 2. Un intervalo de conanza es un intervalo construido en base a la muestra y, por tanto,
aleatorio, que contiene al parámetro con una cierta probabilidad, conocida como nivel de conanza.
Sea el parámetro desconocido y L1 y L2 los extremos del intervalo (que son estadísticos ya que se
denen en base a la muestra). Se dice que [L1 ; L2 ] tiene un nivel de conanza 1 , siendo 2 [0; 1], El método que
si P (L1 L2 ) 1 : usaremos para
construir intervalos
El nivel de conanza con frecuencia se expresa en porcentaje. Así, un intervalo de conanza del 95% de conanza se
es un intervalo de extremos aleatorios que contiene al parámetro desconocido con una probabilidad denomina método
pivotal
de 0:95.
X p
= n
2 N (0; 1):
Este estadístico (pivote) nos servirá para construir un intervalo de conanza con nivel de conanza
1 para la media cuando la varianza 2 es conocida. Sea z=2 el valor tal que P (Z > z=2 ) = =2,
siendo Z 2 N (0; 1) (ver Figura 1). Entonces:
X
z=2 p z=2
P =1 :
= n
Equivalentemente,
P X z=2 p X + z=2 p = 1 :
n n
Así, el intervalo de conanza con nivel de conanza 1 para la media cuando la varianza 2 es
conocida será:
z=2 p ; X + z=2 p :
X
n n
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 10
Bioestadística. Grado en Medicina Capítulo 6
z=2
Figure 1: Denotamos z=2 el número real tal que P (Z > z=2 ) = =2, siendo Z 2 N (0; 1).
X p
:
S= n
Recuerda que
n
v
1
u
S (X X )2 :
X
=t
u
n 1 i =1 i
Se cumple que:
X p
2t ;
S= n n 1
es decir, la distribución del estadístico es una t de Student con n 1 grados de libertad. Este
estadístico (pivote) nos servirá para construir un intervalo de conanza con nivel de conanza 1
para la media cuando la varianza 2 es desconocida. Sea t=2 el valor tal que P (T > t=2 ) = =2,
donde T es una variable t de Student con n 1 grados de libertad (ver Figura 2). Entonces:
X
t=2 p t=2
P =1 :
S= n
Equivalentemente,
S S
t=2 p X + t=2 p = 1 :
P X
n n
Así, el intervalo de conanza con nivel de conanza 1 para la media cuando la varianza 2 es
desconocida será:
S S
X t=2 p ; X + t=2 p :
n n
Ejercicio 1: En un estudio sobre trastornos del sueño se evaluó el número de horas de sueño
de 8 individuos seleccionados al azar. Los resultados se muestran a continuación.
6.9, 7.6, 6.5, 6.2, 7.8, 7.0, 5.5, 7.6.
A partir de esta muestra, estima la media y la desviación típica del número de horas de
sueño de la población. Suponiendo normalidad, determina un intervalo de conanza
para el número medio de horas de sueño con una conanza del 95%.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 10
Bioestadística. Grado en Medicina Capítulo 6
t=2
Figure 2: Denotamos t=2 el número real tal que P (Tk > t=2 ) = =2, siendo T una variable t de
Student (con los grados de libertad correspondientes).
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 10
Bioestadística. Grado en Medicina Capítulo 6
Una muestra formada por n1 variables independientes y con la misma distribución N (1 ; 1 ).
n2 variables independientes y con la misma distribución N (2 ; 2 ).
Una muestra formada por
Suponemos que las muestras son independientes y que las varianzas 12 y 22 son desconocidas pero
iguales. Entonces, utilizaremos como estadístico
(X1 X ) (1 2 )
q2 2
Sp Sp2
2 tn
1+ 2n 2 :
n1 + n2
En el estadístico anterior,
(n 1 1)S12 + (n2 1)S22
Sp2 = n1 + n2 2
representa el estimador adecuado para la varianza de las dos poblaciones. El intervalo de conanza
de nivel 1 para la diferencia de medias 1 2 será entonces:
Sp2 Sp2 Sp2 Sp2
s s
(X X2 ) t=2 ; (X1 X2 ) + t=2
n1 + n2 :
1 +
n1 n2
El valor t=2 se obtiene de una distribución t de Student con n1 + n2 2 grados de libertad.
Ejercicio 2: El Verapamil y el Nitroprusside son dos productos utilizados para reducir la hipertensión.
Para compararlos, unos pacientes son tratados con Verapamil y otros con Nitroprus-
side. Los resultados obtenidos se muestran en la siguiente tabla, donde:
X 1 =reducción (en mmHg) de la presión arterial de un paciente con Verapamil.
side.
X1 10 15 18 23 12 16
X2 15 10 19 9 14 12 18
Admitiendo normalidad y sabiendo que ambas variables tienen la misma desviación
típica, construye un intervalo de conanza de nivel 95% para la diferencia de medias
de la reducción de presión arterial.
Ejemplo 1: Se quiere estudiar los efectos del abandono de la bebida sobre la presión sistólica en
individuos alcohólicos. Para ello se mide la presión sistólica en 10 individuos alcohólicos
antes y después de 2 meses de haber dejado al bebida.
Sujeto 1 2 3 4 5 6 7 8 9 10
X1 presión antes 140 165 160 160 175 190 170 175 155 160
X2 presión después 145 150 150 160 170 175 160 165 145 170
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 10
Bioestadística. Grado en Medicina Capítulo 6
X ; : : : ; X n 2 N ( ; ) :
21 2 2 2
D (1 2 )
p
SD = n
2 tn 1 :
El intervalo de conanza de nivel 1 para la diferencia de medias 1 2 será entonces:
S S
t=2 pD ; D + t=2 pD :
D
n n
El valor t=2 se obtiene en este caso de una distribución t de Student con n 1 grados de libertad.
Ejemplo 1: Volviendo al ejemplo sobre los efectos del abandono de la bebida sobre la presión sistólica
en individuos alcohólicos,
Sujeto 1 2 3 4 5 6 7 8 9 10
X1 presión antes 140 165 160 160 175 190 170 175 155 160
X2 presión después 145 150 150 160 170 175 160 165 145 170
Diferencias Di 5 15 10 0 5 15 10 10 10 10
Por lo tanto
5 + 15 + : : : + 10 10
D = 10
= 6:
( 5 6)2 + : : : + ( 10 6)2
SD2 = 9
= 71:111:
p
SD = 71:11 = 8:4327:
El intervalo de conanza de nivel 95% para la diferencia 1 2 de la presión sistólica
media será entonces:
8:4327
=2 p + t=2 p p ; 6 + 2:26 8p
:4327
SD SD
D t ;D = 6 2:26 = ( 0:0266; 12:0266):
n n 10 10
En este caso el valor t=2 se obtiene de una distribución t de Student con n 1=9
grados de libertad.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 10
Bioestadística. Grado en Medicina Capítulo 6
Entonces
p^ p p(1 p) p(1 p)
r r !
1 = P z=2 z= = P p^ z=
2 2
n p p
^ + z=2
n
p(1 p)
q
n
es p (1 p)=n que, por depender de la proporción poblacional p, es desconocida. Por este motivo,
tenemos que tomar p^ (1 p^)=n como estimador de la desviación típica de p^ y usarlo para construir
p
p^ (1 p^) p^ (1 p^)
r r !
p^ z=2 n ; p^ + z=2 n :
Ejercicio 3: Una empresa farmacéutica quiere comercializar un medicamento para cierta dolencia.
Para probar si su medicamento es ecaz, lo administra a 100 pacientes, de los cuales 50
presentan mejoría. Construye un intervalo de conanza para la proporción de pacientes
de la población que mejoran al tomar el medicamento, con una conanza del 99%.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 10
Bioestadística. Grado en Medicina Capítulo 6
X p
Media con varianza conocida N (0; 1)
= n
X p
Media con varianza desconocida tn
S= n 1
D (1 2 )
p
Diferencia de medias. Muestras apareadas tn
SD = n 1
p^ p
Proporción (muestras grandes) N (0; 1)
p (1 p)
q
n
p^ p^2 (p1 p2 )
Diferencia de proporciones (muestras grandes) q1
p^1 (1 p^1 ) + p^2 (1 p^2 )
N (0; 1)
n1 n2
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 10 de 10
Bioestadística. Curso 2014-2015
Capítulo 7
Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción 2
1
Bioestadística. Grado en Medicina Capítulo 7
1 Introducción
Los procedimientos de inferencia que hemos realizado hasta ahora se resumen en dos: la estimación
puntual y los intervalos de conanza. Con la estimación puntual se obtienen valores concretos que
sirven de estimaciones de los parámetros poblacionales de interés, por ejemplo, estimamos la media
poblacional, ; con la media muestral, x. Con los intervalos de conanza se obtienen regiones
aleatorias que contienen a los parámetros de interés con cierta probabilidad, por ejemplo, el intervalo
de conanza con nivel de conanza 1 para la media de una población normal es x z=2 pn ;
cuando la desviación es conocida. La otra gran tarea de la Inferencia Estadística consiste en
responder a preguntas muy concretas sobre la población. Por ejemplo, ¾podemos asumir que el nivel
medio de colesterol es 200?, ¾la prevalencia del infarto de miocardio es mayor que 0:03?, ¾el nivel de
colesterol promedio es el mismo en varones que en mujeres? Como veremos se plantean en términos
de unas hipótesis que debemos aceptar o rechazar. Y esta decisión la tomaremos en base a una
realización muestral. Cuando los datos muestrales discrepen mucho de la hipótesis rechazaremos la
hipótesis.
planteada es compatible con lo que se puede aprender del estudio de los valores muestrales, es decir,
Ejemplo 1: Si nos preguntamos si podemos asumir que el nivel medio de colesterol ( ) es 200, el
contraste planteado sería:
H0 : = 200
(
6 200
H1 : =
La hipótesis nulaH0 : = 200 sólo será rechazada si existe evidencia en los datos
para armar que 6= 200 (hipótesis alternativa).
Además,
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 6
Bioestadística. Grado en Medicina Capítulo 7
Ejemplo 2: Si queremos determinar si la prevalencia del infarto de miocardio ( ) es mayor quep 0:03,
el contraste planteado sería:
H0 : p 0:03
(
H1 : p > 0:03
Ahora la hipótesis nula H0 : p 0:03 es compuesta.
Ejemplo 3: Si nos preguntamos si podemos asumir que el nivel medio de colesterol es el mismo en
H0 : 1 = 2 H0 : 1 2 = 0
( (
6 2
H1 : 1 =
o equivalentemente
6 0
H1 : 1 2 =
siendo 1 el nivel medio de colesterol de los hombres y 2 el nivel medio de colesterol
de las mujeres.
H0 : 1 2 H0 : 1 2 0
( (
H1 : 1 < 2 H1 : 1 2 < 0
o equivalentemente
Decisión
No se rechaza H0 Se rechaza H0
H0 es verdadera Decisión correcta Error tipo I
H0 es falsa
Realidad
Error tipo II Decisión correcta
Llamamos error de tipo I al que cometemos cuando rechazamos la hipótesis nula, siendo cierta.
El error de tipo II es el que cometemos cuando aceptamos la hipótesis nula, siendo falsa.
una población, debemos de tener en cuenta la probabilidad de tomar una decisión incorrecta.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 6
Bioestadística. Grado en Medicina Capítulo 7
que la forma de minimizar la probabilidad del error de tipo I (el nivel de signicación) es mediante un
criterio que acepte H0 la mayor parte de las veces. Sin embargo, así se incrementa la probabilidad
del error de tipo II, es decir, disminuye la potencia del test. Una forma de proceder ante un problema
con dos objetivos como es éste, consiste en jar el nivel de signicación y escoger el criterio que nos
6 0
H1 : =
Dados los valores de una muestra, parece claro que deberíamos rechazar H0 si X está
lejos de 0 en ambas direcciones. Es decir, tendríamos una región crítica como se
muestra a continuación:
0 X
Región de rechazo Región de rechazo
Puntos de corte
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 6
Bioestadística. Grado en Medicina Capítulo 7
planteado sería:
H0 : 0
(
H1 : > 0
Dados los valores de una muestra, parece claro que deberíamos rechazar H0 si X está
lejos de 0 en una sola dirección. Es decir, tendríamos una región crítica como se
muestra a continuación:
0 X
Región de rechazo
Punto de corte
H0 : 0
(
H1 : < 0
Dados los valores de una muestra, parece claro que deberíamos rechazar H0 si X está
lejos de 0 en una sola dirección. Es decir, tendríamos una región crítica como se
muestra a continuación:
0 X
Región de rechazo
Punto de corte
muestra.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 6
Bioestadística. Grado en Medicina Capítulo 7
4. Al jar un nivel de signicación, ; se obtiene implícitamente una división en dos regiones del
conjunto de posibles valores del estadístico de contraste:
H0 : = 0
(
6 0
H1 : =
Según hemos comentado anteriormente, una vez que tenemos una muestra deberíamos rechazar H0
si X está lejos de 0 en ambas direcciones.
Rechazamos H0 : = 0 con una signicación si 0 no pertenece al intervalo de conanza
para de nivel 1 .
1
0 x
● ● ●
X z=2 pn X + z=2 pn
es igual al área rayada y nos sirve para denir la región crítica del test H0 : = 0 . Dada una
muestra, calculamos el valor de X
. Si dicho valor pertenece a la región crítica (como en este ejemplo),
rechazamos H0 con signicación . Equivalentemente, si construimos el intervalo de conanza para
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 6
Bioestadística. Curso 2014-2015
Capítulo 8
a a
Carmen M Cadarso, M del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción 2
1
Bioestadística. Grado en Medicina Capítulo 8
1 Introducción
En el capítulo anterior presentamos los conceptos básicos para el planteamiento y resolución de
un contraste de hipótesis. Recordamos que los contrastes de hipótesis nos permitían responder
a preguntas muy concretas sobre la población. En este capítulo veremos como llevar a cabo los
contrastes de hipótesis en la práctica. Estudiaremos cuáles son los estadísticos de contraste adecuados
dependiendo del parámetro al que haga referencia el test y veremos cómo construir la región crítica
en cada caso.
Supongamos que la varianza 2 es conocida. Se desea contrastar una hipótesis relativa a la media .
6 0
H1 : =
Si la hipótesis nula H0 : = 0 es cierta, entonces
X p0
= n
2 N (0; 1):
El sentido común nos aconseja rechazar la hipótesis nula de que la media poblacional es 0 cuando
la media muestral sea muy distinta de 0 . Para respetar además un nivel de signicación prejado,
rechazamos la hipótesis nula H0 : = 0 frente a H1 : 6= 0 si
X p0 X p0
= n
z=2 ó
= n
z=2 :
Recuerda que z=2 denota el punto tal que P (Z > z=2 ) = =2 siendo Z 2 N (0; 1), ver Figura 1.
Contraste unilateral por la derecha. Supongamos ahora que queremos determinar si la media es
signicativamente mayor que un valor dado 0 . Entonces, el contraste planteado sería:
H0 : 0
(
H1 : > 0
Dados los valores de una muestra, parece claro que deberíamos rechazarH0 si X es considerablemente
mayor que 0 . Rechazamos la hipótesis nula H0 : 0 frente a H1 : > 0 si
X p0
= n
z :
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 15
Bioestadística. Grado en Medicina Capítulo 8
Contraste unilateral por la izquierda. Supongamos ahora que queremos determinar si la media
es signicativamente menor que un valor dado 0 . Entonces, el contraste planteado sería:
H0 : 0
(
H1 : < 0
Dados los valores de una muestra, parece claro que deberíamos rechazarH0 si X es considerablemente
menor que 0 . Rechazamos la hipótesis nula H0 : 0 frente a H1 : < 0 si
X p0
= n
z :
1 1 1
z=2 z=2 z z
X p0 .
Figure 1: Densidad de una N(0,1). Regiones de aceptación y rechazo del estadístico
= n (a)
Contraste bilateral. (b) Contraste unilateral por la derecha. (c) Contraste unilateral por la izquierda.
Ejemplo 1: Según fuentes estadísticas, en la actualidad la edad media de las madres primerizas
30 28 27 28 28 28 24 23 31 30
Asumimos que la edad de las madres primerizas en Portugal sigue una distribución
normal con una desviación típica de 2 años. Para una signicación del 5%, ¾podemos
concluir que la edad media de las madres primerizas en Portugal diere de la de España?
H0 : = 29:3
(
6 29:3
H1 : =
Rechazaremos la hipótesis nula si encontramos evidencia en los datos de que la la edad
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 15
Bioestadística. Grado en Medicina Capítulo 8
Ejemplo 2: La media muestral calculada a partir de los datos es X = 27:7 y, por lo tanto, el
Rechazaremos la hipótesis nula para una signicación = 0:05 si el valor del estadístico
de contraste es menor que z=2 o mayor que z=2 . Buscamos en la tabla de la N(0,1)
el valor que deja a su izquierda una probabilidad 0:975 y obtenemos que z=2 = 1:95,
ver Figura 2 (a). Como conclusión, rechazamos H0 para un nivel de signicación del
distinta de la de España.
distinta de la de España.
(a) (b)
● ● ● ● ● ●
Figure 2: (a) Región crítica del contraste H0 : = 29:3 frente a H0 : 6= 29:3 del Ejemplo 1 para
= 0:05. El estadístico del contraste pertenece a la región crítica y, por lo tanto, se rechaza la
hipótesis nula H0 . (b) El p-valor del contraste 0:01146 se corresponde con el área rayada.
Supongamos ahora que queremos contrastar hipótesis relativas a la media pero desconocemos
la varianza 2 . Podemos repetir toda la argumentación anterior con la salvedad de que cuando la
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 15
Bioestadística. Grado en Medicina Capítulo 8
6 0
H1 : =
Si la hipótesis nula H0 : = 0 es cierta, entonces
X p0
S= n
2 tn 1 :
El sentido común nos aconseja rechazar la hipótesis nula de que la media poblacional es 0 cuando
la media muestral sea muy distinta de 0 . Para respetar además un nivel de signicación prejado,
rechazamos la hipótesis nula H0 : = 0 frente a H1 : 6= 0 si
X p0 X p0
S= n
t=2 ó
S= n
t=2 :
Recuerda que t=2 denota el punto tal que P (T > t=2 ) = =2 siendo T una variable t de Student
Contraste unilateral por la derecha. Supongamos ahora que queremos determinar si la media es
signicativamente mayor que un valor dado 0 . Entonces, el contraste planteado sería:
H0 : 0
(
H1 : > 0
Dados los valores de una muestra, parece claro que deberíamos rechazarH0 si X es considerablemente
mayor que 0 . Rechazamos la hipótesis nula H0 : 0 frente a H1 : > 0 si
X p0
S= n
t :
Contraste unilateral por la izquierda. Supongamos ahora que queremos determinar si la media
es signicativamente menor que un valor dado 0 . Entonces, el contraste planteado sería:
H0 : 0
(
H1 : < 0
Dados los valores de una muestra, parece claro que deberíamos rechazarH0 si X es considerablemente
menor que 0 . Rechazamos la hipótesis nula H0 : 0 frente a H1 : < 0 si
X p0
S= n
t :
En la Figura 3 se muestran las regiones de aceptación y rechazo de los contrastes sobre la media de
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 15
Bioestadística. Grado en Medicina Capítulo 8
1 1 1
t=2 t=2 t t
Figure 3: Densidad de una t de student con n 1 grados de libertad. Regiones de aceptación y
X p0 .
rechazo del estadístico
S= n (a) Contraste bilateral. (b) Contraste unilateral por la derecha. (c)
Ejemplo 2: La amilasa es un enzima que ayuda a digerir los carbohidratos. Se produce principal-
y una desviación típica muestral de 10 unidades por litro. Asumimos que el nivel de
amilasa sigue una distribución normal. Para un nivel de signicación = 0:05, ¾es el
nivel medio de amilasa signicativamente mayor que 40 unidades por litro? ¾Y para
= 0:01?
Ejemplo 3: Si denotamos por el nivel medio de amilasa, el contraste se plantea como un contraste
unilateral de la forma:
H0 : 40
(
H1 : > 40
En este caso la varianza es desconocida y el estadístico de contraste será:
X p0 45 40
p = 2:3979:
=
S= n 10= 23
Rechazaremos la hipótesis nula para una signicación = 0:05 si el valor del estadístico
de contraste es mayor que t . t de Student con n 1 = 22
Buscamos en la tabla de la
grados de libertad el valor que deja a su izquierda una probabilidad 0:95 y obtenemos
que t = 1:72. Como conclusión, rechazamos H0 para un nivel de signicación del 5%.
litro.
Rechazaremos la hipótesis nula para una signicación = 0:01 si el valor del estadístico
de contraste es mayor que t , donde ahora t es el valor que en una t de Student con
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 15
Bioestadística. Grado en Medicina Capítulo 8
Consideremos ahora el siguiente modelo general. Tenemos dos poblaciones normales, con sus respec-
tivas medias y varianzas: N (1 ; 1 ) y N (2 ; 2 ) y queremos contrastar hipótesis que comparen sus
medias, 1 y 2 . Extraemos:
Una muestra formada por n1 variables independientes y con la misma distribución N (1 ; 1 ).
Una muestra formada por n2 variables independientes y con la misma distribución N (2 ; 2 ).
Suponemos que las muestras son independientes, es decir, los individuos donde se han obtenido las
mediciones de la población 1 son distintos de los individuos donde se han obtenido las mediciones de
la población 2. Suponemos además que las varianzas 12 y 22 son conocidas.
Contraste bilateral. Si nos preguntamos si podemos asumir que la media es la misma en ambas
H0 : 1 = 2 H0 : 1 2 = 0
( (
6 2
H1 : 1 =
o equivalentemente
6 0
H1 : 1 2 =
Si la hipótesis nula H0 : 1 = 2 es cierta, entonces
X X2
q12
1 22
2 N (0; 1):
n1 + n2
Siguiendo el mismo razonamiento que en casos anteriores, jado un nivel de signicación , rechaz-
amos la hipótesis nula H0 : 1 = 2 frente a H1 : 1 6= 2 si
X X2 X X2
q12
1 22
z=2 ó q12
1 22
z=2 :
n1 + n2 n1 + n2
Contraste unilateral por la derecha. Supongamos ahora que queremos determinar si la media 1
es signicativamente mayor que 2 . Entonces, el contraste planteado sería:
H0 : 1 2 H0 : 1 2 0
( (
H1 : 1 > 2 H1 : 1 2 > 0
o equivalentemente
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 15
Bioestadística. Grado en Medicina Capítulo 8
Contraste unilateral por la izquierda. Supongamos ahora que queremos determinar si la media 1
es signicativamente menor que 2 . Entonces, el contraste planteado sería:
H0 : 1 2 H0 : 1 2 0
( (
H1 : 1 < 2 H1 : 1 2 < 0
o equivalentemente
Ejemplo 3: ¾Es la talla media de los niños (V) de 3 años mayor que la de las niñas (M) de la misma
edad? Las desviaciones típicas poblacionales (en cm.) son conocidas ( V = 4:6,
M = 4:5). Medimos la talla de nV = 60 niños y nM = 61 niñas y obtenemos los
Ejemplo 4: Denotamos por V la talla media de los niños y por M la talla media de las niñas. El
H0 : V M H0 : V M 0
( (
H1 : V > M H1 : V M > 0
o equivalentemente
X XM q
qV 2
97:1 94:8
= = 2:7797 2:78:
V M2 4:62 4:52
nV + nM 60 + 61
Rechazaremos la hipótesis nula para una signicación = 0:05 si el valor del estadístico
de contraste es mayor que z . Buscamos en la tabla de la N(0,1) el valor que deja
a su izquierda una probabilidad 0:95 y obtenemos que z = 1:64, ver Figura 4 (a).
Como conclusión, rechazamos H0 para un nivel de signicación del 5%. Es decir, la
talla media de los niños de 3 años es signicativamente mayor que la de las niñas de la
misma edad.
de las niñas de la misma edad para cualquier nivel de signicación que verique
0:002718.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 15
Bioestadística. Grado en Medicina Capítulo 8
(a) (b)
● ● ● ●
Figure 4: (a) Región crítica del contraste H0 : V M frente a H0 : V > M del Ejemplo 3 para
= 0:05. El estadístico del contraste pertenece a la región crítica y, por lo tanto, se rechaza la
hipótesis nula H0 . (b) El p-valor del contraste 0:002718 se corresponde con el área rayada.
Como ya hemos comentado en el capítulo de intervalos de conanza, en la práctica los valores de 12
y
2
2 suelen ser desconocidos y por lo tanto es necesario estimarlos. No obstante, puede suceder que
pese a ser desconocidas podamos suponer que ambas varianzas son iguales. Supongamos entonces
Una muestra formada por n1 variables independientes y con la misma distribución N (1 ; 1 ).
Una muestra formada por n2 variables independientes y con la misma distribución N (2 ; 2 ).
Suponemos que las muestras son independientes y que las varianzas 12 y 22 son desconocidas pero
iguales. Si suponemos que las varianzas de las dos poblaciones son iguales ya hemos visto que el
Recuerda que en la ecuación anterior, S12 y S22 denotan la varianza muestral de la primera y segunda
población, respectivamente.
Contraste bilateral. Si nos preguntamos si podemos asumir que la media es la misma en ambas
H0 : 1 = 2 H0 : 1 2 = 0
( (
6 2
H1 : 1 =
o equivalentemente
6 0
H1 : 1 2 =
Si la hipótesis nula H0 : 1 = 2 es cierta, entonces
X X2
q12
Sp Sp2
2 tn +n 2 :
1 2
n1 + n2
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 15
Bioestadística. Grado en Medicina Capítulo 8
Ahora t=2 denota el punto tal que P (T > t=2 ) = =2 siendo T una t de Student con n1 + n2 2
grados de libertad.
Contraste unilateral por la derecha. Supongamos ahora que queremos determinar si la media 1
es signicativamente mayor que 2 . Entonces, el contraste planteado sería:
H0 : 1 2 H0 : 1 2 0
( (
H1 : 1 > 2 H1 : 1 2 > 0
o equivalentemente
Contraste unilateral por la izquierda. Supongamos ahora que queremos determinar si la media 1
es signicativamente menor que 2 . Entonces, el contraste planteado sería:
H0 : 1 2 H0 : 1 2 0
( (
H1 : 1 < 2 H1 : 1 2 < 0
o equivalentemente
Ejercicio 1: El Verapamil y el Nitroprusside son dos productos utilizados para reducir la hipertensión.
Para compararlos, unos pacientes son tratados con Verapamil y otros con Nitroprus-
X1 10 15 18 23 12 16
X2 15 10 19 9 14 12 18
ambas variables tienen la misma desviación típica, ¾se puede aceptar que la reducción
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 10 de 15
Bioestadística. Grado en Medicina Capítulo 8
Como hemos visto en el capítulo de intervalos de conanza, en muchas ocasiones nos interesa com-
parar dos métodos o tratamientos. En ese caso es natural que los individuos donde se aplican los
población y se quieren evaluar sus diferencias, conviene tomar muestras apareadas. Así, se obtiene el
valor de las características X1 y X2 sobre los mismos individuos de la población. Se supone que las
X1 2 N 1 ; 12 X2 2 N 2 ; 22
muestras se han obtenido de poblaciones normales y pero teniendo
D = X1 X2 .
Contraste bilateral. Si nos preguntamos si podemos asumir que la media es la misma en ambas
H0 : 1 = 2 H0 : 1 2 = 0
( (
6 2
H1 : 1 =
o equivalentemente
6 0
H1 : 1 2 =
Si la hipótesis nula H0 : 1 = 2 es cierta, entonces
Dp
2t :
SD = n n 1
Fijado un nivel de signicación , rechazamos la hipótesis nula H0 : 1 = 2 frente a H1 : 1 6= 2 si
Dp Dp
SD = n
t=2 ó t
SD = n =2
siendo t=2 el punto tal que P (T > t=2 ) = =2 en una t de Student con n 1 grados de libertad.
Contraste unilateral por la derecha. Supongamos ahora que queremos determinar si la media 1
es signicativamente mayor que 2 . Entonces, el contraste planteado sería:
H0 : 1 2 H0 : 1 2 0
( (
H1 : 1 > 2 H1 : 1 2 > 0
o equivalentemente
Contraste unilateral por la izquierda. Supongamos ahora que queremos determinar si la media 1
es signicativamente menor que 2 . Entonces, el contraste planteado sería:
H0 : 1 2 H0 : 1 2 0
( (
H1 : 1 < 2 H1 : 1 2 < 0
o equivalentemente
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 11 de 15
Bioestadística. Grado en Medicina Capítulo 8
Ejercicio 2: Se quiere estudiar los efectos del abandono de la bebida sobre la presión sistólica en
Sujeto 1 2 3 4 5 6 7 8 9 10
X1 presión antes 140 165 160 160 175 190 170 175 155 160
X2 presión después 145 150 150 160 170 175 160 165 145 170
abandonar la bebida?
6 p0
H1 : p =
Si la hipótesis nula H0 : p = p0 es cierta, entonces (para muestras grandes)
p^ p0
q
p0 (1 p0 )
N (0; 1):
n
p0 cuando la propor-
El sentido común nos aconseja rechazar la hipótesis nula de que la proporción es
ción muestralp^ sea muy distinta de p0 . Para respetar además un nivel de signicación prejado,
rechazamos la hipótesis nula H0 : p = p0 frente a H1 : p 6= p0 si
p^ p0 p^ p0
q
p0 (1 p0 )
z=2 ó q
p0 (1 p0 )
z=2
n n
Contraste unilateral por la derecha. Supongamos ahora que queremos determinar si la proporción
H0 : p p0
(
H1 : p > p 0
Dados los valores de una muestra, parece claro que deberíamos rechazar H0 si p^ es considerablemente
mayor que p0 . Rechazamos la hipótesis nula H0 : p p0 frente a H1 : p > p0 si
p^ p0
q
p0 (1 p0 )
z
n
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 12 de 15
Bioestadística. Grado en Medicina Capítulo 8
Contraste unilateral por la izquierda. Supongamos ahora que queremos determinar si la proporción
H0 : p p0
(
H1 : p < p 0
Dados los valores de una muestra, parece claro que deberíamos rechazar H0 si p^ es considerablemente
menor que p0 . Rechazamos la hipótesis nula H0 : p p0 frente a H1 : p < p0 si
p^ p0
q
p0 (1 p0 )
z :
n
Ejercicio 3: Una empresa farmacéutica quiere comercializar un medicamento que cura cierta dolen-
cia. Se sabe que el 40% de los pacientes se curan sin tomar este medicamento. La em-
presa debe probar que su medicamento es ecaz y para ello administra el medicamento
Contraste bilateral. Si nos preguntamos si podemos asumir que la proporción es la misma en ambas
H0 : p1 = p2 H0 : p1 p2 = 0
( (
6 p2
H1 : p1 =
o equivalentemente
6 0
H1 : p1 p2 =
Si la hipótesis nula H0 : p1 = p2 es cierta, entonces (para tamaños muestrales grandes)
p^1 p^2
q
p^1 (1 p^1 ) + p^2 (1 p^2 )
N (0; 1)
n1 n2
Siguiendo el mismo razonamiento que en casos anteriores, jado un nivel de signicación , rechaz-
amos la hipótesis nula H0 : p1 = p2 frente a H1 : p1 6= p2 si
p^1 p^2 p^1 p^2
q
p^1 (1 p^1 ) + p^2 (1 p^2 )
z=2 ó q
p^1 (1 p^1 ) + p^2 (1 p^2 )
z=2
n1 n2 n1 n2
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 13 de 15
Bioestadística. Grado en Medicina Capítulo 8
Contraste unilateral por la derecha. Supongamos ahora que queremos determinar si la proporción
H0 : p1 p2 H0 : p1 p2 0
( (
H1 : p1 > p2 H1 : p1 p2 > 0
o equivalentemente
Contraste unilateral por la izquierda. Supongamos ahora que queremos determinar si la proporción
H0 : p1 p2 H0 : p1 p2 0
( (
H1 : p1 < p2 H1 : p1 p2 < 0
o equivalentemente
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 14 de 15
Bioestadística. Grado en Medicina Capítulo 8
Ejemplo 4: La exostosis auditiva externa (EAE) es una anomalía ósea del canal auditivo externo.
Esta lesión está asociada a una prolongada inmersión en agua fría y aparece con fre-
además que la temperatura del agua es un factor que inuye en la prevalencia de EAE.
30 fueron diagnosticados de EAE. Para una signicación del 5%, ¾se puede concluir
unilateral de la forma
H0 : p1 p2 H0 : p1 p2 0
( (
H1 : p1 > p2 H1 : p1 p2 > 0
o equivalentemente
ya que queremos determinar si existe evidencia de que p1 es mayor que p2 . Según los
datos del estudio p^1 = 0:749 y p^2 = 0:4. El estadístico del contraste será en este caso
p^1 p^2
= 5:65:
p^1 (1 p^1 ) + p^2 (1 p^2 )
q
n1 n2
Para un nivel de signicación = 0:05, rechazamos la hipótesis nula ya que el valor del
estadístico es mayor que z = 1:64 (obtenemos z buscando en la tabla de la N(0,1)
el valor que deja a su izquierda una probabilidad 0:95). En resumen, se puede concluir
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 15 de 15
Bioestadística. Curso 2014-2015
Capítulo 9
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
Contents
1 Introducción 2
3 Pruebas Chi-cuadrado 4
3.1 Test Chi-cuadrado de independencia en tablas 2 2 . . . . . . . . . . . . . . . . . 4
4 Tipos de estudios 11
5.2 Odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1
Bioestadística. Grado en Medicina Capítulo 9
1 Introducción
En el capítulo anterior hemos estudiado los métodos básicos para el contraste de hipótesis sobre
parámetros de variables continuas. Los datos con los que trabajábamos consistían en una o dos
muestras (dependiendo de si el contraste era sobre una o dos poblaciones) y asumíamos que dichas
muestras procedían de una distribución normal. Por ejemplo, nos preguntábamos si el nivel medio
de amilasa en sangre es signicativamente mayor que un valor dado o si la talla media de los niños
de tres años es signicativamente superior que la de las niñas de la misma edad. En ambos casos
estamos suponiendo que las variables de interés (nivel de amilasa en sangre, talla de niños y niñas) se
Sin embargo hay ocasiones en que la variable de estudio no es continua, sino que sus valores son de
tipo categórico. Por ejemplo, supongamos que se ha llevado a cabo un estudio en niños y niñas de
resultado observado se clasicó en tres categorías: bajo, normal, alto. Podemos estar interesados en
determinar si existe una relación estadísticamente signicativa entre la talla y el sexo del niño pero
ahora la variable estatura es categórica y los métodos de inferencia que debemos usar serán distintos
a los vistos en el capítulo anterior. En este tema trataremos el estudio de datos categóricos y los
Los datos categóricos son datos que provienen de experimentos cuyos resultados son de tipo categórico,
llamada tabla de contingencia. Las tablas de contingencia están compuestas por las (horizontales),
para la información de una variable y columnas (verticales) para la información de otra variable. En
cada casilla de la tabla se muestra el número de casos o individuos que poseen un nivel de una de las
Las frecuencias
representadas en
Dolor
cada casilla de una
Tratamiento Ausente Leve Moderado Intenso tabla de
A 12 24 31 16 contingencia se
B 20 18 30 14
denominan
frecuencias
observadas
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 14
Bioestadística. Grado en Medicina Capítulo 9
Ejemplo 1: Podemos completar la tabla de contingencia del Ejemplo 1 con los totales.
Dolor
A 12 24 31 16 83
B 20 18 30 14 82
Total 32 42 61 30 165
datos de dos variables, cada una de las cuales presenta dos únicos valores o categorías. En esta
situación la tabla de contingencia se reduce a una tabla 2 2 como la que se muestra a continuación:
Variable 1
Valor 1 a b
Valor 2 c d
Estudio de casos y
Ejemplo 2: Se ha planteado la hipótesis de que el cáncer de mama en mujeres está causado en controles: Este
tipo de estudio
parte por eventos que ocurren entre la edad de la primera menstruación y la edad al
identica a
nacer el primer hijo. En particular, se cree que el riesgo de cáncer de mama aumenta personas con una
cuanto mayor es este intervalo de tiempo. Esto signicaría que la edad a la que las enfermedad (casos)
mujeres tienen su primer hijo es un factor de riesgo importante en la incidencia de y los compara con
un grupo control
esta enfermedad. Se ha llevado a cabo un estudio a nivel internacional para contrastar
apropiado que no
esta hipótesis. En él participaron 3220 mujeres con cáncer de mama (casos) y 10245 tenga la
mujeres sin cáncer de mama (controles). La edad a la que las mujeres del estudio enfermedad. Una
tuvieron su primer hijo fue categorizada en 30 años y 29 años. Los datos del vez seleccionados
estudio se resumen en la siguiente tabla 2 2 .
los individuos en
cada grupo, se
investiga si
Tipo
estuvieron
Edad al tener el primer hijo Caso Control expuestos o no a
30 683 1498 una característica
29 2537 8747
de interés y se
compara la
Las frecuencias observadas son a = 683, b = 1498, c = 2537 y d = 8747. proporción de
expuestos en el
Ejemplo tomado del libro Fundamentals of Biostatistics. Rosner, B. (2000) grupo de casos
frente a la del
grupo de controles.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 14
Bioestadística. Grado en Medicina Capítulo 9
Variable 1
Valor 1 a b a +b
Valor 2 c d c +d
Total a +c b +d a +b+c+d
Tipo
años es a + b = 2181 mujeres. El número de mujeres del estudio que han tenido su
es n = a + b + c + d = 13465 mujeres.
Ante una tabla de contingencia como las anteriores se pueden plantear distintas cuestiones. Por
ejemplo, podemos estar interesados en determinar si existe una relación estadísticamente signicativa
entre las variables estudiadas. Para responder a esta cuestión utilizaremos la metodología de análisis de
las tablas de contingencia. Existen diferentes procedimientos como el test Chi-cuadrado que veremos
a continuación. También nos puede interesar cuanticar la relación entre las variables de interés
y estudiar su relevancia clínica. Esta última cuestión podrá resolverse mediante las denominadas
Tanto las medidas de efecto como las pruebas estadísticas a utilizar dependerán del diseño del estudio
del que proceden los datos. Veremos diferentes tipos de estudios que se pueden llevar a cabo.
3 Pruebas Chi-cuadrado
Las pruebas Chi-cuadrado, o pruebas 2 de Pearson, son un grupo de contrastes de hipótesis que se Las pruebas que
aplican en dos situaciones básicas: tiene por objetivo
determinar si los
Para comprobar armaciones acerca de las funciones de probabilidad (o densidad) de una variable datos se ajustan a
aleatoria. Por ejemplo, si queremos contrastar si una determinada variable sigue una distribución una determinada
normal.
distribución se
denominan pruebas
Para determinar si dos variables son independientes estadísticamente. En este caso la prueba de bondad de
ajuste
que aplicaremos será el test 2 de independencia.
asociadas. Si concluimos que las variables no están relacionadas podremos decir con un determinado
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 14
Bioestadística. Grado en Medicina Capítulo 9
nivel de conanza, previamente jado, que ambas son independientes. El contraste se plantea como:
H0 : X e Y
(
son independientes
H1 : X e Y no son independientes
Veremos como se lleva a cabo el test 2 de independencia en el caso particular de una tabla de
Ejemplo 2: Volvemos al estudio sobre el cáncer de mama. El objetivo es determinar si existe una
H0 : X e Y
(
son independientes
H1 : X e Y no son independientes.
Si la hipótesis nula fuese cierta, la proporción de mujeres con cáncer de mama que
tuvieron su primer hijo con menos de 29 años debería ser la misma que la proporción de
mujeres con cáncer de mama que tuvieron su primer hijo con más de 30 años. Entonces,
si H0 fuese cierta, de las 3220 mujeres con cáncer de mama ¾cuántas esperaríamos que
hubiesen tenido su primer hijo con más de 30 años? ¾y con menos de 29?
El número esperado de casos con más de 30 años de edad al tener el primer hijo sería:
3220
E11 = 2181 13465 = 521:561:
El número esperado de casos con menos de 29 años al tener el primer hijo sería:
3220
E21 = 11284 13465 = 2698:439:
Del mismo modo, si la hipótesis nula fuese cierta, la proporción de mujeres sin cáncer de
mama que tuvieron su primer hijo con menos de 29 años debería ser la misma que la de
mujeres sin cáncer de mama que tuvieron su primer hijo con más de 30 años. Entonces,
si H0 fuese cierta, de las 10245 mujeres sin cáncer de mama ¾cuántas esperaríamos que
hubiesen tenido su primer hijo con más de 30 años? ¾y con menos de 29? El número
10245
E12 = 2181 13465 = 1659:439:
El número esperado de controles con menos de 29 años al tener el primer hijo sería:
10245
E22 = 11284 13465 = 8585:561:
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 14
Bioestadística. Grado en Medicina Capítulo 9
Tipo
Comparamos ahora los datos observados con los datos esperados (entre paréntesis). Si
de independencia.
Los valores esperados en una tabla de contingencia se calculan a través del producto de los totales
marginales dividido por el número total de individuos. En el caso particular de una tabla 2 2 se tiene:
E11 =
(a + c) (a + b)
E12 =
(b + d) (a + b)
a +b+c+d a +b+c+d
E21 =
(a + c) (c + d)
E22 =
(b + d) (c + d)
a +b+c+d a +b+c+d
Si denotamos por Oij los valores observados en la realidad, podemos representar los valores observados
y esperados en la misma tabla como se muestra a continuación.
Variable 1
las dos variables fuesen independientes y los que se han observado en la realidad Oij . El estadístico
Es decir,
X (Oij Eij )2
2 = Eij :
i;j
Cuanto mayor sea la diferencia entre los valores esperados y observados, mayor será el valor de este
imadamente según una distribución Chi-cuadrado. Para el caso de una tabla de contingencia de r
las y s columnas, los grados de libertad son ( r 1)( s 1). Por lo tanto, para el caso particular de
una tabla 2 2 , el estadístico sigue aproximadamente una distribución Chi-cuadrado con 1 grado de
libertad bajo H0 .
En resumen, para tablas de contingencia 2 2 , rechazaremos la hipótesis nula de independencia para
una signicación si
X (Oij Eij )2
2 = Eij
i;j
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 14
Bioestadística. Grado en Medicina Capítulo 9
donde es el punto que deja a su derecha una probabilidad en una distribución Chi-cuadrado con Para que la
1 grado de libertad, ver Figura 1.
aproximación por la
distribución
Chi-cuadrado sea
buena, es
conveniente que las
frecuencias
esperadas sean
grandes. Como
criterio en tablas
2 2 se pide que
todos los valores
1 esperados E sean
ij
mayores que 5.
Figure 1: Densidad de una
2
con 1 grado de libertad. Regiones de aceptación y rechazo del
estadístico
2
de Pearson para tablas de contingencia 2 2.
Ejemplo 2: Calculamos el valor del estadístico 2 para el ejemplo del estudio sobre el cáncer de
mama. Se tiene:
(683 :
521 561)2 (1498 :
1659 439)2 (2537 :
2698 439)2 (8747 :
8585 561)2
2 = + + + :
= 78 369 :
:
521 561 :
1659 439 2698 439 : :
8585 561
= 3:84.
el primer hijo ya que el valor del estadístico es mayor que
7:88. Por lo tanto, podemos concluir que el cáncer de mama está signicativamente
asociado con la edad a la que la mujer tiene el primer hijo.
● ●
0 3:84 78:369
Región crítica
= 0:05
Figure 2: Región crítica del contraste de independencia del Ejemplo 2. El estadístico del contraste
Además, para el caso de una tabla 2 2 , la expresión del estadístico 2 puede simplicarse y obtenerse
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 14
Bioestadística. Grado en Medicina Capítulo 9
como:
2
(a + b + c + d)(ad bc)
2 = (a + b)(c + d)(a + c)(b + d)
Ejemplo 2: Comprobamos que el estadístico 2 para los estudio sobre el cáncer de mama se calcula
también como:
(a + b + c + d)(ad
2 = (a + b)(c + d)(a + c)(b + d) =
bc)
2
13465 (683 8747
1498 2537)2
: :
2181 11284 3220 10245 = 78 369
contrastes sobre dos proporciones vistos en el capítulo anterior. Recuerda que el prob-
lema planteaba la hipótesis de que la edad a la que las mujeres tienen su primer hijo
Ejemplo 2: De entre los casos, 683 mujeres tuvieron su primer hijo con más de 30 años. De entre
los controles, 1498 mujeres tuvieron su primer hijo con más de 30 años. En base a esos
datos, ¾hay evidencia signicativa de que retrasar la edad a la que se tiene el primer
mujeres con cáncer de mama que han tenido su primer hijo con más de 30 años y p2
a la proporción de mujeres sin cáncer de mama que han tenido su primer hijo con más
H0 : p1 = p2 H0 : p1 p2 = 0
( (
6 p2
H1 : p1 =
o equivalentemente
6 0
H1 : p1 p2 =
En este caso p^1 = 683=3220 = 0:212 y p^2 = 1498=10245 = 0:146. El estadístico del
contraste será:
p^1 p^2
q
p^1 (1 p^1 ) + p^2 (1 p^2 )
= 8 231 : :
n1 n2
Para un nivel de signicación = 0:05, rechazamos la hipótesis nula ya que el valor
del estadístico es mayor que z=2 = 1:95. Se concluye entonces que hay evidencia
signicativa de que la proporción de mujeres con cáncer de pecho que han tenido su
primer hijo con más de 30 años es signicativamente distinta que la de mujeres sin
cáncer de pecho que han tenido su primer hijo con más de 30 años. Además, puedes
H0 : p1 p2 H0 : p1 p2 0
( (
H1 : p1 > p2 H1 : p1 p2 > 0
o equivalentemente
pecho que han tenido su primer hijo con más de 30 años es signicativamente mayor
que la de mujeres sin cáncer de pecho que han tenido su primer hijo con más de 30
años.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 14
Bioestadística. Grado en Medicina Capítulo 9
Ya hemos comentado que, para que la aproximación por la distribución Chi-cuadrado sea buena, es
conveniente que las frecuencias esperadas sean grandes. Como criterio en tablas 2 2 se pide que
todos los valores esperados Eij sean mayores que 5. Aun así, en tablas 2 2 la aproximación a la
Chi-cuadrado puede no ser buena y, por eso, se suele aplicar la llamada corrección por continuidad La notación jj se
utiliza para
de Yates. Esta corrección consiste en restar :
05 a cada una de las diferencias (sin signo) entre valores
representar valor
observados y esperados, es decir: absoluto. El valor
absoluto de un
X (jOij Eij j :
0 5)2 número es su valor
2corregido = Eij : numérico sin tener
i;j en cuenta su signo
Ejemplo 2: Calculamos el valor del estadístico 2 corregido para el ejemplo del estudio sobre el
cáncer de mama. Observamos que las diferencias entre valores observados y esperados
son todas 161 438 : o :
161 438. Entonces:
:
(161 438 :
0 5)2 :
(161 438 :
0 5)2 :
(161 438 :
0 5)2 :
(161 438 :
0 5)2
2corregido = + + +
521 561 : :
2698 439 :
1659 439 :
8585 561
= :
77 885 :
el primer hijo ya que el valor del estadístico corregido es mayor que = 3:84.
Ejemplo 3: Se ha llevado a cabo una encuesta sobre salud en un determinado país. En la siguiente
tabla se muestran los resultados de dos de las preguntas incluidas en el cuestionario. La
primera pregunta era: En general, ¾deniría su estado de salud como excelente, bueno,
normal o deciente?. La segunda pregunta era: ¾Puede hace frente al pago de los
servicios sanitarios que necesita? Las posibles respuestas eran casi nunca, normalmente
no , normalmente sí o siempre .
Recordamos que estamos interesados en determinar si dos variables cualitativas XeY están o no
asociadas. Ahora XoY pueden presentar más de dos posibles valores o categorías. El contraste se
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 14
Bioestadística. Grado en Medicina Capítulo 9
plantea como:
H0 : X e Y
(
son independientes
H1 : X e Y no son independientes
Igual que antes, el test 2 de independencia mide la diferencia entre los valores esperados Eij que
deberíamos haber obtenido si las dos variables fuesen independientes y los que se han observado en
2
(observados esperados)
2 = :
X
esperados
todas las celdas
Los valores esperados se calculan usando el mismo método que para tablas 2 2 . Para cada celda, se
multiplican los totales marginales de la la y columna correspondiente y se divide el resultado entre
Total de individuos
Ejemplo 3: Nos preguntamos si el estado de salud está relacionado con la capacidad que tienen
los pacientes de hacer frente al pago de los servicios sanitarios. Calculamos la tabla de
valores observados y esperados (entre paréntesis) para la tabla del Ejemplo 3.
hacer frente al pago de los servicios sanitarios, el número esperado de pacientes con un
estado de salud bueno y que normalmente pueden hacer frente al pago de los servicios
E23 =
309 103 : :
= 53 04
600
Una vez calculada la tabla de valores observados y esperados, podemos calcular el valor del estadístico
Chi-cuadrado,
X (Oij Eij )2
2 = Eij :
i;j
Cuanto mayor sea la diferencia entre los valores esperados y observados, mayor será el valor de este
estadístico. Por lo tanto, deberemos rechazar H0 cuando el valor de 2 sea grande. Bajo la hipótesis
nula de independencia, se sabe que los valores del estadístico se distribuyen aproximadamente según
una distribución Chi-cuadrado. Para el caso de una tabla de contingencia de r las y s columnas, los
grados de libertad son ( r 1)( s 1). Es decir, rechazaremos la hipótesis nula de independencia para
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 10 de 14
Bioestadística. Grado en Medicina Capítulo 9
inferiores a 5.
1
Figure 3: Densidad de una
2
con ( 1)( r s
1) grado de libertad. Regiones de aceptación y rechazo
del estadístico
2
de Pearson para tablas de contingencia . r s
(4 :
8 40)2 (20 :
22 32)2 (17 :
25 83)2
2 = :
8 40
+
:
22 32
+ ::: + :
25 83
:
= 30 7078 :
frente al pago de los servicios sanitarios ya que el valor del estadístico es mayor que
= 16:9.
4 Tipos de estudios
Los estudios epidemiológicos son los estudios en los que se basa la investigación médica y permiten
establecer la relación entre las causas de una enfermedad y la inuencia de éstas en el desarrollo (o
de si atendemos a su nalidad, a su secuencia temporal, al control que se tenga sobre los factores del
estudio,...
Clasicaremos aquí los estudios epidemiológicos según el tipo de intervención que exista en el estudio.
Estudios observacionales: Son aquellos en los que el factor de estudio no es controlado por el
Estudios casocontrol: En los estudios de casos y controles los sujetos incluidos proceden
típicamente de dos grupos, según sean casos (con la enfermedad o daño en estudio) o
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 11 de 14
Bioestadística. Grado en Medicina Capítulo 9
controles (sin el daño en cuestión). La idea es comparar los antecedentes de los enfermos
de una población con los de los sanos de la misma población. Se trata de poner de
de dos o más grupos de individuos que han sido divididos según el grado de exposición
inicio, ninguno de los individuos incluidos en ambos grupos tiene la enfermedad o daño
en estudio. Los individuos son seguidos durante un período de tiempo para observar
concluir que existe una asociación estadística entre la exposición a la variable y la incidencia
de la enfermedad.
entre las enfermedades y otras variables de interés en una población y momento determi-
la investigación. Este tipo de estudios se utilizan para evaluar la ecacia de diferentes terapias,
Ensayos clínicos: Los ensayos clínicos son experimentos planicados sobre pacientes cuyo
tudio de cohorte que se inició en 1948 bajo la dirección del Instituto Nacional Cardíaco,
Pulmonar y Sanguíneo de EEUU. El objetivo del mismo era la identicación de los fac-
constituirían las bases para el análisis de los patrones comunes relacionados con el
http://www.framinghamheartstudy.org/index.html
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 12 de 14
Bioestadística. Grado en Medicina Capítulo 9
algunos factores de riesgo potenciales incluyó a 400 mujeres con edades entre 50 y
La relación entre las variables se puede cuanticar mediante el cálculo de medidas de asociación como
El riesgo relativo (RR) es una razón que relaciona la incidencia en dos grupos de población que dieren
Incidencia en el grupo 1
RR =
Incidencia en el grupo 2
riesgo) mientras que el grupo 1 se encuentra expuesto al factor de riesgo. De esta forma, un RR
mayor que 1 indicaría efectos nocivos del factor de riesgo, es decir, la presencia del factor de riesgo se
asocia a una mayor incidencia. Un RR menor que 1 indicaría que la presencia del factor de riesgo se
asocia a una menor incidencia (factor de protección). Un RR igual a 1 indicaría que no hay asociación
Presente a b
Ausente c d
se tendría:
=(a + b)
=(c + d) :
a
RR =
c
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 13 de 14
Bioestadística. Grado en Medicina Capítulo 9
5.2 Odds-ratio
En muchas ocasiones el número de sujetos clasicados como enfermos es pequeño comparado con el
a +b b
c +d d
=
:
a b ad
= =
OR
c d = bc
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 14 de 14
Bioestadística. Curso 2014-2015
Capítulo 10
Carmen M Cadarso, M del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro
a a
Contents
1 Introducción 2
2 Conceptos generales 2
2.1 El diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Coeciente de correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1
Bioestadística. Grado en Medicina Capítulo 10
1 Introducción
En el primer capítulo nos hemos ocupado de la descripción de variables estadísticas unidimensionales,
es decir, cada individuo de la muestra era descrito de acuerdo a una única característica. Sin embargo,
lo habitual es que tendamos a considerar un conjunto amplio de características para describir a cada
uno de los individuos de la población, y que estas características puedan presentar relación entre el-
las. Así, si para un mismo individuo observamos simultáneamente k características obtenemos como
resultado una variable estadística k -dimensional. Nos centraremos en el estudio de variables estadísti-
cas bidimensionales, es decir, tendremos dos características por cada individuo. Representaremos por
(X; Y ) la variable bidimensional estudiada, donde X e Y son las variables unidimensionales correspon-
dientes a las primera y segunda características, respectivamente, medidas para cada individuo. En el
estudio de variables bidimensionales tiene mucho interés buscar posibles relaciones entre las variables
X e Y . Por ejemplo, ¾existe relación entre la altura en el peso?, ¾cómo se relaciona la cantidad de
dinero que se ha invertido un laboratorio para anunciar un nuevo fármaco con las cifras de ventas
durante el primer mes?, ¾está relacionada la altura de un padre con la de su hijo?. El tipo de relación
más sencilla que se establece entre un par de variables es la relación lineal. Estudiaremos en este
capítulo este tipo de relaciones.
2 Conceptos generales
Estudiaremos las características (X ,Y ) de una población a partir de la información recogida en una
muestra de tamaño n de la forma (x1 ; y1 ); : : : ; (x ; y ): n n
VEF 1.7 1.9 2.0 2.1 2.2 2.5 2.7 3.0 3.1 3.4 3.8 3.9
(a este gráco también se le llama nube de puntos) reeja la posible relación entre las variables. A
mayor relación entre las variables más estrecha y alargada será la nube. En la Figura 1 se muestran
ejemplos de diferentes diagramas de dispersión.
Ejercicio 1: ¾Te parece que existe relación lineal entre las variables X e Y representadas en los
grácos de dispersión de la Figura 1? ¾Qué tipo de relación crees que existe en cada
uno de los ejemplos representados?
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 7
Bioestadística. Grado en Medicina Capítulo 10
●
● ●
4.0
20 ●
●
●
●
● ●
3.5
● ●
● ●
● ● ● ●
10
●
●
● ●
●
● ●
●
● ●
3.0
● ● ● ● ●
●
y
y
● ● ●
●
●
●
0
●
● ● ●
●
●
2.5
●
● ●
● ●
●
● ● ●
−10
2.0
●
●
●
● ●
0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8
x x
●
●
200
5
●
●
150
● ●
● ●
4
● ●
●
●
y
y
● ●
100
●
●
● ●
●
●
●
●
3
● ●
●
●
●
● ●
● ●
●
50
●
● ●
● ●
●
●● ●
● ● ●
2
●●
● ●
●●
●
● ●●
● ●
● ●
0
0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 1.0
x x
Ejemplo 1: Para los datos del Ejemplo 1, se obtiene el diagrama de dispersión de la Figura 2. A
partir de la gráca se observa que parece existir una clara relación lineal entre ambas
variables, de manera que a medida que aumenta la estatura, también aumenta el VEF
y además lo hace de forma lineal.
●
3.5
●
3.0
●
VEF
●
2.5
●
2.0
Estatura
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 7
Bioestadística. Grado en Medicina Capítulo 10
2.2 Covarianza
La mayoría de las medidas características estudiadas en el caso unidimensional (como por ejemplo
la media) pueden extenderse al caso bidimensional. Además, en el contexto bidimensional surgen
nuevas medidas que nos permiten cuanticar la dispersión conjunta de dos variables estadísticas.
Consideremos una muestra de n observaciones de una variable bidimensional cuantitativa (X; Y ).
1
n
La covarianza puede interpretarse como una medida de relación lineal entre las variables X e Y .
Propiedades:
Ejemplo 1: Para los datos del Ejemplo 1 se obtiene que la estatura media es x = 156 centímetros
y el VEF medio es y = 2:691 litros. La covarianza entre X e Y se calcula como
(134 156) (1:7 2:691) + : : : + (178 156) (3:9 2:691)
s = = 10:672
xy
11
El signo de la covarianza nos indica que hay una relación positiva, es decir, a medida
que aumenta la estatura aumenta el VEF.
La correlación lineal toma valores entre 1 y 1 y sirve para investigar la relación lineal entre las
variables. Así, si toma valores cercanos a 1 diremos que tenemos una relación inversa entre X e Y
(esto es, cuando una variable toma valores altos la otra toma valores bajos). Si toma valores cercanos
a +1 diremos que tenemos una relación directa (valores altos de una variable en un individuo, asegura
valores altos de la otra variable). Si toma valores cercanos a cero diremos que no existe relación
lineal entre las variables. Cuando el valor de la correlación lineal sea exactamente 1 o 1 diremos que
existe una dependencia exacta entre las variables mientras que si toma el valor cero diremos que son
incorreladas.
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 7
Bioestadística. Grado en Medicina Capítulo 10
Ejemplo 1: Para los datos del Ejemplo 1 se obtiene que la desviación típica de la estatura es
s = 14:422 centímetros y la desviación típica del VEF es s = 0:748 litros. Por lo
x y
variables. La más sencilla de estas relaciones es la dependencia lineal donde se supone que la relación regresión lineal
Y = 0 + 1 X + ,
entre dos variables X e Y viene dada por la ecuación Y = 0 + 1 X . Sin embargo, este modelo supone la variable Y recibe
que una vez determinados los valores de los parámetros 0 y 1 es posible predecir exactamente la el nombre de
respuesta Y dado cualquier valor de la variable de entrada X . En la práctica tal precisión casi nunca variable
es alcanzable, de modo que lo máximo que se puede esperar es que la ecuación anterior sea válida dependiente,
respuesta o
sujeta a un error aleatorio, es decir, la relación entre la variable dependiente (Y ) y la variable explicada. La
nombre de variable
Y = 0 + 1 X + ": independiente,
regresora o
explicativa
cidos 0 y 1 (mediante estimadores ^0 y ^1 ) de manera que la recta denida ajuste de la mejor forma
posible a los datos. Aunque existen muchos métodos, el más clásico es el conocido como método
de mínimos cuadrados que consiste en encontrar los valores de los parámetros que, dada la muestra
de partida, minimizan la suma de los errores al cuadrado. Los estimadores ^0 y ^1 se determinan
minimizando las distancias verticales entre los puntos observados, y , y las ordenadas previstas por la i
1X 1X
n n
M (0 ; 1 ) = "2 = (y (0 + 1 x ))2 :
n i =1
i
n i =1
i i
Los valores de los parámetros se obtienen, por tanto, derivando e igualando a cero. Se tiene:
s
^1 = xy
s2 x
y
^0 = y ^1 x
que serán llamados coecientes de la regresión. De esta manera obtendremos la ecuación de la
recta de regresión:
s
y = ^0 + ^1 x = y ^1 x + ^1 x = y + ^1 (x x) = y + xy
(x x)
s2
x
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 7
Bioestadística. Grado en Medicina Capítulo 10
que llamaremos recta de regresión de Y sobre X para resaltar que se ha obtenido suponiendo que Intercambiando los
recta de regresión
Ejemplo 1: Volvamos al Ejemplo 1, donde se recogían datos de la estatura (X ) y el VEF (Y ). Los llamada recta de
coordenadas será
En la Figura 3 se muestra la recta de regresión de ecuación: en general distinta
a la recta de
coincidirán en el
●
● caso de que la
relación entre X e
3.5
● Y sea exacta.
●
3.0
●
VEF
●
2.5
●
2.0
Estatura
Figure 3: Recta de regresión y = 5:312 + 0:0513x para los datos del Ejemplo 1
La variabilidad de toda la muestra la denominamos variabilidad total (VT) o suma total de cuadrados
y se calcula como
n
VT = (y y)2 :
X
i
i =1
La variabilidad total se descompone en dos sumandos:
El primero de ellos representa las desviaciones de las predicciones y^ = ^0 + ^1 x respecto a la i i
media global. Por tanto, sirve como medición de la variabilidad que podemos explicar en base
al modelo de regresión. Se denomina variabilidad explicada (VE).
n n
2
VE = ^0 + ^1 x y = y y)2 :
X X
i (^ i
i =1 i =1
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 7
Bioestadística. Grado en Medicina Capítulo 10
El segundo representa las desviaciones de los valores observados y respecto de las predicciones, i
y en consecuencia reeja la variabilidad no explicada (VNE) por la regresión, sino debida al error.
Por ello se interpreta como variabilidad residual, se calcula mediante la suma de los residuos al
cuadrado, denominada también como suma residual de cuadrados:
n n
2
VNE = y (^0 + ^1 x ) (y y^ )2 :
X X
i i = i i
i =1 i =1
VT = VE + VNE:
R2 = r 2
xy
Ejemplo 1: Para los datos del Ejemplo 1 se puede observar que la recta de regresión no pasa por
todos los puntos observados (ver Figura 3). Sin embargo, están muy próximos a ella,
el grado de ajuste viene determinado por el coeciente de determinación
R2 = 0:98812 = 0:976
que se calcula como el cuadrado del coeciente de correlación. Es decir, con el modelo
de regresión lineal simple hallado, la variable X es capaz de explicar el 97:6% de la
variación de Y .
Carmen M
a Cadarso, M
a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 7