Bioestadística Apuntes Completos
Bioestadística Apuntes Completos
Bioestadística Apuntes Completos
BIOESTADÍSTICA
EXAMEN FINAL
Paula Calls
TEMA 1 INTRODUCCIÓN CONCEPTUAL E HISTÓRICA
Desde que existen las primeras sociedades humanas, fue necesario desarrollar un sistema
para contar el número de personas, animales, alimentos, etc.
Hace más de 3000 años se usaban en Babilonia tablas de arcilla donde se recopilaban datos
de la producción agrícola y actividades comerciales. En esa época, en Egipto, desarrollaron
sistemas de cálculo y medida, obligados por la necesidad de redistribución de las tierras tras
las inundaciones periódicas del Nilo.
Conocemos que tanto griegos como chinos realizaron cómputos de población con fines
tributarios, militares y sociales. Fue con los romanos cuando se utilizó con mayor rigor todos
los recursos de la estadística para recoger una gran cantidad de datos.
En la Edad Media, al igual que todas las ciencias, se sufrió una considerable regresión.
Aunque se conocen algunos censos minuciosos realizados en Europa. Fue en 1086 por orden
de Guillermo I cuando se realizó el Domesday book o Libro del gran catastro, considerado el
primer compendio estadístico de Inglaterra.
Considerado “el príncipe de las matemáticas” y “el matemático más grande desde la
antigüedad”. Es uno de los matemáticos más influyentes de la historia.
Reconocido como uno de los padres de la estadística moderna y fundador de la ciencia social
cuantitativa moderna, fue el primero en aplicar la estadística y la teoría de la probabilidad
a los fenómenos sociales.
Desarrolló el concepto de hombre medio, como modelo social que permite expresar las
diferencias entre los individuos en términos de desviación de la norma. Esto llevo a Quetelet
a formular su “teoría de la oscilación”, por la cual, conforme aumentan los contactos sociales
y las relaciones interraciales, las diferencias entre los hombres disminuyen en intensidad
gracias a un proceso social y cultural de oscilación que dará lugar a un equilibrio cada vez
mayor y, finalmente, al equilibrio y a la paz universales.
La pasión por la medida que Galton desarrolló durante su vida es paradigmática. Es conocido
su empeño por contar y medir cualquier cosa que presentara un aspecto de regularidad. Fue
el primero en proponer las huellas dactilares como procedimiento de identificación, invento
los términos altas y bajas presiones para meteorología.
Estableció los fundamentos del análisis de datos en relación con la “gestión de calidad” y las
“auditorias de los cuidados de la salud”
Es más conocido como student, seudónimo con el que firmaba sus trabajos, debido a que su
empresa le prohibió expresamente que sus empleados publicaran cualquier tipo de
información.
Gosset es uno de los estadísticos con más influencia en los métodos actuales. Especialmente
conocidos son sus trabajos sobre la forma de distribución t y t-test (conocida como prueba t
de Student), para muestras pequeñas, una de las pruebas de contraste de hipótesis más
utilizadas en la práctica.
Fisher sentó las bases del diseño de experimentos, con lo que la estadística incorporó
plenamente a la investigación científica. Introdujo el análisis de varianza, de la covarianza
y otras pruebas no paramétricas.
TEMA 2 POBLACIÓN Y MUESTRA
2.1 CONCEPTOS PRELIMINARES
La estadística obtiene y estudia datos sobre individuos, que no tienen que ser
necesariamente personas. El conjunto de todos los individuos posibles constituye el
universo.
Normalmente, se estudian poblaciones, aunque obtener y analizar los datos de toda una
población suele ser imposible, por lo que suele estudiarse una muestra de individuos de la
población.
2.2 INDIVIDUO
Es cada elemento que lleva asociada una medida, un número de orden o una característica
predeterminada.
2.3 UNIVERSO
Es el conjunto, finito o infinito, de todos los posibles individuos que cumplen ciertas
propiedades.
2.4 POBLACIÓN
Debemos distinguir entre población diana o población objetivo (población a la que se desea
extrapolar los resultados del estudio) y población accesible (población cuyos individuos son
directamente accesibles al investigador). Una población puede ser finita o infinita.
2.5 MUESTRA
Una muestra es una porción de algo. Así, una muestra es una parte de la población en la que
se observa el fenómeno a estudiar y de donde sacaremos unas conclusiones generalizables a
toda la población. Una muestra se considera grande cuanto tiene 30 o más individuos, si
tiene menos de 30 se considera pequeña. Para que la muestra sea representativa debe:
Parte de una igualdad absoluta de todos los elementos de la población para ser seleccionados,
de manera que conocemos la probabilidad que tiene un elemento de ser incluido en la
muestra.
Es el más sencillo, aunque en la práctica es difícil aplicar este tipo de muestreo de una
manera eficaz. Consiste en elegir al azar los individuos que formaran la muestra, para ello
se siguen los siguientes pasos:
Es una variable del muestro aleatorio simple, que parte también de la lista total de la
población, pero en lugar de extraer “n” número aleatorios, sólo se extrae uno y se
seleccionan los demás a intervalos (5, 10, 15, …), siendo el tamaño del intervalo el resultado
de dividir población entre muestra.
Este muestreo estratificado puede ser proporcional (cada estrato aporta una proporción a
la muestra según su número de individuos) o no proporcional (cada estrato aporta el mismo
número de elementos).
2.7.4 MUESTREO ALEATORIO POR CONGLOMERACIÓN
Se basa en usar los sujetos a los que se tiene fácil acceso o mayor comodidad. Un caso
particular que puede incluirse en esta categoría es el de los sujetos voluntarios.
Son las que pueden medirse numéricamente, pudiendo cuantificarse mediante valores con
significado matemático a partir de unas determinadas unidades de medida. Pueden ser
continuos o discretas.
Es en la que encontramos infinitos valores entre dos datos aportados. La dificultad para
encontrar todos los valores intermedios se debe a las limitaciones del instrumento de
medida. Son ejemplos de variables cuantitativas continuas el peso de una persona en Kg, la
altura en cm, la glucemia en sangre, la temperatura corporal, etc.
Son en las que entre dos valores no podemos encontrar ningún otro valor. Son ejemplos de
variables cuantitativas discretas el número de alumnos, camas de un hospital, médicos de
una comarca, leucocitos en sangre.
Son las que únicamente presentan dos categorías, como el sexo (hombre o mujer). A su vez
pueden ser auténticas, cuando sólo pueden tomar dos valores por la naturaleza intrínseca
de la variable (el sexo) o artificiales, cunado son variables dicotomizadas artificialmente
(alto-bajo).
Son las que presentan más de dos categorías, como el estado civil, el grupo sanguíneo o la
afiliación religiosa.
Son variables cualitativas pero sus categorías pueden ordenarse siguiendo un criterio o una
escala establecida (el intervalo entre categorías no es necesario que sea uniforme).
notas de un examen: ex, notable, aprobado suspenso
medallas: plata, oro, bronce
La variable independiente es la que se supone causa del fenómeno estudiado, de manera que
no varía en función de ora variable, sino que es la supuesta causa en una asociación causa-
efecto. El investigador puede observar y manipular deliberadamente la variable
independiente para descubrir la asociación que existe con la variable dependiente.
La variable aleatoria es aquella que el investigador no controla, sino que toma valores en
cada individuo dependiendo de sus características propias. El valor de la PA tras la ingesta
de un fármaco es un ejemplo de variante aleatoria.
Para un análisis correcto es fundamental conocer el tipo de medida que puede aplicarse a las
diferentes variables. Las escalas de medida son el sistema para la asignación de números a
los objetos o fenómenos que se estudian. Una escala de mediada contiene todos los valores
que podrían presentar una variable determinada.
- Escala nominal
- Escala ordinal
- Escala de intervalo
- Escala de proporción o razón
4.1 TABULACIÓN
Es el proceso de presentar de una manera ordenada una serie de datos en una tabla. La
agrupación de variables cuantitativas continuas en intervalos de clase se utiliza para
sintetizar la información en el tratamiento estadístico de números elevados. Sin embargo, el
uso de programas informáticos en los análisis estadísticos ha hecho innecesario este
procedimiento.
Actualmente, el análisis estadístico suele comenzar por la introducción de los valores de las
variables en el editor de datos del programa estadístico que se utilice.
Expresan el número de veces que tiene lugar un determinado valor de la variable. La suma
de todas las frecuencias absolutas es igual al total de individuos estudiados (N).
∑ fi = N
,+
ℎ+ =
-
La suma de todas las frecuencias relativas es igual a la unidad.
∑ hi = 1
4.3.3 PORCENTAJES pi
pi = hi • 100
∑ pi = 100
Se obtiene sumando a cada frecuencia relativa la frecuencia relativa anterior. La última será
igual a 1.
Se obtiene sumando a cada porcentaje el porcentaje acumulado anterior. El último será igual
a 100.
Ventajas:
Inconvenientes:
Los más usados son los gráficos basados en el sistema de coordenadas cartesianas
ortogonales. Este sistema consta de dos ejes:
70
60
50
40
30
20
10
0
Medicina Interna Urgencias UCI Pediatría Cirugía
Fumar - Sexo
60
50
40
30
20
10
0
NO SI
Mujer Hombre
Tabla contingencia: Fumar - sexo
Sexo
Total
Mujer Hombre
Si Fuman 56 10 66
No Fuman 19 8 27
Total 75 18 93
En esta representación cada una de las variables ocupa una porción de la superficie de un
circulo. Son especialmente utilizados para representar categorías de variable medidas en
escala nominal, donde el orden entre ellas no tiene ninguna relevancia. Los sectores deberán
ajustarse proporcionalmente a la frecuencia de aparición de los valores de la variable, por lo
que deberemos calcular los grados del ángulo que ocupa cada sector.
Otros gráficos usados son los pictogramas, gráficos que utilizan dibujos que simbolizan la
variable y en los que la frecuencia es proporcional al tamaño o número de dibujos. Y los
cartogramas, que utilizan mapas geográficos para indicar los valores de la variable.
4.8 GRÁFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS
4.8.1 HISTOGRAMAS
Son adecuados para variables cuantitativas continuas. En el eje de abscisas se sitúan los
extremos verdaderos de los intervalos y encima de cada intervalo se levanta un rectángulo
cuya área es igual a la frecuencia del intervalo.
Es importante calcular la medida de tendencia central que más interese para lo que se desea:
un valor promedio (media), el valor central de la distribución (mediana) o el valor que
aparece en más ocasiones (moda).
∑ (xi - !̅ ) = 0
∑ 9:
!̅ =
;
Ejemplo: Las edades de 10 pacientes atendidos en urgencias: 21, 32, 15, 59, 60, 61, 64, 60,
71 y 80 ¿Cuál sería la media de edad de estos pacientes?
<=>?<>=@>@A>BC>B=>BAD>BC>E=>FC
!̅ = = 52,3 años
=C
5.4 CÁLCULO DE LA MEDIA CON LOS DATOS AGRUPADOS POR FRECUENCIAS
Cuando disponemos de la frecuencia, en vez de sumar tantas veces el valor de la variable
como indica su frecuencia, se multiplica cada valor de la variable por su frecuencia y se
divide por el número de frecuencias.
∑ 9: ∗ H:
!̅ =
;
Ejemplo: Peso en kg de 100 pacientes agrupados por frecuencias. Halla el peso medio.
Xi fi Xi fi Xi f i
54 20 54 20 1080
∑ 9: ∗ H: BC=C
59 30 59 30 1770
!̅ = = = 60,10 kg
63 40 63 40 250 ; =CC
64 10 64 10 640
Total 100 6010
2- A un conjunto de 5 números cuya media es 7.31 se le añaden los números 4.47 y 10.15.
¿Cuál es la media del nuevo conjunto de números?
Xi fi
61 5
64 18
67 42
70 27
73 8
fi
10-15 3
25-20 5
20-25 7
25-30 4
30-35 2
4- Un grupo de 6 amigas tienen distintas edades. Son las siguientes: 2 de ellas tienen 28
años y otras 2 tienen 32 años, el resto tienen 29 y 30 años respectivamente. Calcula la
media aritmética del grupo.
5- En clase de inglés 10 alumnos han sacado las siguientes notas: 7, 6.5, 4, 1, 9, 5, 8, 8.5, 2,
5.5. Siendo 10 la mayor nota y 0 la más baja. Calcula la media aritmética de las notas de la
clase.
6- Tenemos los siguientes datos sobre el número de televisores que encontramos en diez
hogares: 1, 2, 3, 4, 1, 2, 3 ,1, 1 y 2. Encuentra la media aritmética
9- El piloto estuvo yendo dos horas a la velocidad de 120 km a la hora y horas a la velocidad
de 90 km a la hora. Calcule la velocidad media del coche durante la carrera.
Solución. Calculemos la media aritmética de las velocidades del coche por cada hora del
camino:
∑ 9: O:
MN =
∑ PQ
Ejemplo I: Un profesor que evalúa mediante una escala de 0-10, concede diferente valor a los
tres exámenes, siendo este:
- Primer parcial = 2
- Segundo parcial = 3
- Examen final = 5
¿Cuál será la nota final de un alumno con 6,5 en el primer parcial, 6 en el segundo y 4 en el
examen final?
Xi fi Xi f i
6,5 2 13 ∑ 9: O: @=
6 3 18 MN = = = 5,1 nota final
4 5 20 ∑ PQ =C
B 10 51
Ejemplo II: Las estaturas medias de tres grupos de estudiantes son de 1,69, 1,72 y 1,70.
Calcula la estatura media de todos los estudiantes sabiendo que en el primer grupo hay 50,
en el segundo 20 y en el tercero 10.
Xi fi Xi f i
1,69 50 84,5 ∑ 9: O: =?@,A
1,72 20 34,4 MN = = = 1,70 metros
∑ PQ FC
1,70 10 17
Total 80 135,9
2- Para calcular la nota final del curso de literatura en donde cada apartado ha tenido
distinta importancia. Los dos primeros trabajos tienen valor de 20% y 20% respectivamente,
y el examen de 60%; las calificaciones respectivas son de 6.4, 9.2 y 8.1.
3- La nota final de una asignatura es una media ponderada de las notas que han obtenido los
alumnos en los cuatro elementos evaluables que determina el profesor. El responsable de la
asignatura otorga un peso de 3 al examen inicial, de 1 al trabajo entregable, 2 al trabajo final
y 4 al examen final. Las notas de un alumno han sido las siguientes:
∑^
Z̅ = [∏ ]+
∑^
Z̅ = [∏ ]+ = b
[(2)(4)(8) =
b
√64 = 4
∑^
Z̅ = d∏ !+H
1- Calcular la media geométrica del número de hermanos que tienen Berta, Borja y Diana si
tienen 2, 2 y 4 respectivamente.
2- Tenemos los siguientes datos sobre el número de televisores que encontramos en diez
hogares: 1, 2, 3, 4, 1, 2, 3, 1, 1, 1 y 2. Calcula la media geométrica
5.6.2 LA MEDIA CUADRÁTICA
La media cuadrática (e̅ ) se define como la raíz cuadrada de la media de los cuadrados. Se
calcula para solucionar los problemas que plantea trabajar con números negativos. Para
ellos se elevan los números al cuadrado
∑9 f
e̅ = d :
;
Ejemplo I: Calcula la media cuadrática de los valores 2, 3 y 7.
∑9 f f > ?f > Ef
< B<
e̅ = d : = d = d = √20,67 = 4,55
; ? ?
Cuando los datos están agrupados por frecuencias, se eleva al cuadrado cada uno de los
valores y se multiplica por su frecuencia.
∑ 9:f H:
e̅ = d
;
Ejemplo: Calcula la media cuadrática de la siguiente distribución de frecuencias:
Xi fi Xi fi !+< !+< ,+
2 14 4 54
2 14 ∑ 9:f H: @D@
3 17
9 153 e̅ = d d = 3,24
4 21 3 17 ; @<
4 21 16 336
Total 52 545
La media armónica (g̅) se define como el inverso de la media de los inversos. Para calcularla,
se obtienen los inversos de todos los valores, siendo 1/x el inverso de x. a continuación se
obtiene la media normalmente y se calcula el inverso de esta.
=
g̅ = h
∑
i:
^
Ejemplo: Calcula la media armónica de los valores 2, 3 y 7
= = = =
g̅ = h = h h h = m,no C,?? = 3,03
=
∑ k k
i: f b l b
^ b
Si los datos están agrupados por frecuencias. Se multiplica por su frecuencia cada uno de los
inversos de los valores de la variable.
Ejemplo. Calcula la media armónica de la siguiente distribución de frecuencia
t
vw xw x = =
vw w =
2 14 g̅ = h = hl,nf = = 2,94
∑( )p C,?D
3 17 5,67 i: : qf
4 21 5,25
^
Total 52 17,92
5.7 LA MEDIANA
La mediana es el valor de la distribución que deja a su derecha y a su izquierda el mismo
número de individuos. La mediana es la medida de tendencia central que divide la serie de
datos en dos mitades completamente iguales. Esto lleva implícito el ordenamiento de menor
a mayor de las variables.
Uno de sus usos es cuando la distribución presenta valores extremos, ya que la media no se
ve afectada por valores muy alejados.
y ?C
zw xw zw xw {w Calculamos = =15
55 3 3 < <
55 3
62 7 62 7 10 Buscamos la frecuencia acumulada superior
a 15. En este caso Fi=26. Esta frecuencia nos
69 16 69 16 26
indica que la mediana corresponde al
76 3 76 3 29 número 69
83 1 83 1 30
y =<
zw xw {w Calculamos = =6
2
< <
2 2
3 2 4 El resultado coincide con una frecuencia acumulada, por lo tanto, la
mediana corresponde a la media aritmética del valor de la xi
4 2 6
correspondiente a esta frecuencia con el siguiente.
6 3 9
7 1 10 D>B
8 2 12
=5
<
EJERCICIOS MEDIANA
1- Halla la mediana de los datos 4, 5, 2, 7, 5, 9, 5, 2 y 8
Nº de
Altura
jugadores
1,70 1
1,75 3
1,80 4
1,85 8
1,90 5
1,95 2
zw xw
1 2
2 2
3 4
4 5
5 8
6 9
7 3
8 4
9 3
6- Encuentre la mediana del conjunto 2, 5, 8, 11, 16, 21, 30
5.10 LA MODA
La moda (Mo) es el valor más frecuente de la variable, es decir, el valor que tiene más
frecuencia. La moda es una medida de tendencia central adecuada para escalas nominales.
Una distribución puede tener más de una moda, de manera que puede ser bimodal, trimodal,
etc. al igual que puede no tener moda y ser amodal.
Para calcular la moda crearemos una tabla con las frecuencias absolutas y buscaremos el
valor o valores con la frecuencia más alta.
Si tenemos dos modas y los valores no son consecutivos será una distribución bimodal, si
son consecutivos, la moda es la media aritmética de los dos valores.
EJERCICIOS MODA
1- Encuentre la moda del conjunto 2, 3, 5, 5, 7, 9, 9, 9, 10, 12
6.1 CUARTILES
Los cuartiles dividen los valores de la variable en cuatro partes porcentuales iguales. Hay
tres cuartiles: Q1, Q2 y Q3. El primer cuartil (Q1) es el que deja una cuarta parte de las
observaciones por debajo suyo y tres cuartas partes por encima de él. El segundo cuartil (Q2)
deja el 50% a cada lado y coincide con el valor de la mediana. El tercer cuartil (Q3) Deja tres
cuartas partes por detrás de él y una cuarta parte por delante.
6.2 DECILES
Son los valores de la variable que dividen la distribución en diez partes iguales: D1, D2, D3,
D4 ….. D9.
Son los valores de la variable que dividen la distribución en cien partes iguales: C1, C2, C3, C4,
C5 ……….. C99
6.4 EQUIVALENCIAS
Ejemplo: Calcula los cuartiles de la siguiente distribución del número de hijos de cien
familias.
zw xw zw xw F1
; =CC
0 14 0 14 14 Q1= = = 25 Fi cercana a 25= 39 Q1 = 2
1 10 D D
1 10 24
2 15 2 15 39 <; <CC
3 26 3 26 65 Q2= = = 50 Fi cercana a 50= 65 Q2 = 3
D D
4 20 4 20 85
5 15 5 15 100 ?; ?CC
Total 100
Q3= = = 75 Fi cercana a 75= 85 Q3 = 4
Total 100 D D
; <; ?; A;
El cálculo es similar al de la mediana y los cuartiles, pero desde la formula , , ,…
=C =C =C =C
Utilizando la misma tabla del ejemplo anterior el decil 7 seria:
E; ECC
D7= = = 70 Fi cercana a 70= 85 D7 = 4
=C =C
; <; ?; AA;
El cálculo es similar al de los otros cuantiles, pero desde la formula , , ,…
=CC =CC =CC =CC
Utilizando la misma tabla del ejemplo anterior el centil 15 sería:
=@; =@CC
C15= = = 15 Fi cercana a 15= 24 C15 = 1
=CC =CC
Porcentaje
zw xw Porcentaje
acumulado
18 27 29,0 29,0
19 26 28,0 57,0
20 9 9,7 66,7
21 5 5,4 72,0
22 12 12,9 84,9
23 3 3,2 88,2
24 4 4,3 92,5
25 1 1,1 93,5
26 3 3,2 96,8
28 1 1,1 97,8
39 1 1,1 98,9
42 1 1,1 100
Total 93 100
Con los deciles será de la misma manera, pero superando los datos de 10 en 10. Por ejemplo,
el D4 sería equivalente al 40% y equivaldría al dato 57, por lo que el D4 = 19.
Con los centiles/percentiles simplemente debemos buscar el valor en la tabla que supere ese
centil que buscamos. Por ejemplo, el C65 sería equivalente al 65% y equivaldría al 66,7, por
lo que el C65 = 20.
EJERCICIOS DE CUANTILES
- Todos cuartiles
- Deciles 3 y 7
- Centiles 22 y 45
zw xw
1 2
2 4
3 2
4 6
5 4
6 2
7 2
8 2
2- Con los siguientes datos calcular los cuartiles:
- 10, 13, 4, 7, 8, 11, 10, 16, 18, 12, 3, 6, 9, 9, 4, 13, 20, 7, 5, 10, 17, 10, 16, 14, 8 y 18
- 3, 5, 2, 7, 6, 4 y 9
- 3, 5, 2, 7, 6, 4, 9 y 1
- Cuartiles 1 y 3
- Deciles 8 y 9
- Centiles 25, 65, y 82
zw xw
1 20
2 15
3 30
4 25
5 4
6 23
7 11
8 8
9 65
10 30
11 10
12 5
13 22
14 47
15 33
16 21
17 12
18 11
19 2
20 5
TEMA 7 MEDIDAS DE DISPERSIÓN
Las medidas de dispersión indican cómo se sitúan los valores en la tabla: si se agrupan
mayoritariamente en torno a las medidas centrales, o si, por el contrario, se encuentran
dispersos y alejados de su centro.
A = Xi (máxima) – Xi (mínima)
Ejemplo: La amplitud de la distribución 2, 3, 3, 5, 6, 6, 7, y 9 es: 9 – 2 = 7
Para este cálculo la frecuencia de los valores no se tiene en consideración. Este dato es poco
fiable dado que únicamente tiene en cuenta dos valores, pero en cambio su cálculo es muy
sencillo.
Es la medida de intervalo que hay entre Q1 y Q3. Nos permite valorar la dispersión de los
valores mayoritarios, desechando el 25% superior e inferior de los valores extremos. Es una
medida adecuada para distribuciones con pocos valores extremos.
AQ = Q3 – Q1
ÖÜ
DQ =
<
La desviación media (DM) tiene en cuenta todos los valores, calculando cuanto se desvía
cada valor de la media y luego halla el promedio de estas desviaciones. Por lo tanto, la DM es
la media aritmética de los valores absolutos de las desviaciones respecto a la media.
∑|]+ − !̅ |
áà =
ã
Si lo valores están agrupados por frecuencias, cada una de las desviaciones se multiplica por
su frecuencia absoluta:
∑|]+ − !̅ | ,+
áà =
ã
En este cálculo no se tienen en cuenta los signos, dado que lo que nos interesa es el promedio
de las desviaciones. Además, la media de las desviaciones de los valores con su media, si se
tiene en cuenta el signo es siempre igual a 0.
8 + 9 + 10 + 11 + 12 50
!̅ = = = 10
5 5
Segundo- Calculamos los valores absolutos de las desviaciones:
zw |]+ − !̅ |
8 2
9 1
10 0
11 1
12 2
Total 6
Tercero- Ya podemos calcular la desviación media aplicando la fórmula:
∑|]+ − !̅ | 6
áà = = = t, å áçéèQêëQíã àçìQê
ã 5
∑|]+ − !̅ | ,+ 272
áà = = = å, îå áçéèQêëQíã àçìQê
ã 100
EJERCICIOS DESVIACIÓN MEDIA
- 2, 3, 6, 8 y 11
- 12, 6, 7, 3, 15, 10, 18 y 5
- 18, 82, 36, 14, 35 ,25 ,35, 64 ,12, 5, 75, 64, 51,44 y 2
zw xw
12 3
17 5
22 7
27 4
32 2
zw xw
82 8
85 4
99 8
120 4
125 3
135 2
150 5
152 9
160 5
185 2
190 1
195 1
220 3
7.5 LA VARIANZA
Dado que es la media aritmética de las desviaciones de los valores de la variable con su
aritmética, elevadas al cuadrado, su fórmula, si se trata de una muestra es:
∑(]+ − !̅ )<
<
ï =
ã−1
En caso de ser una población y no una muestra la fórmula sufre alguna pequeña variación:
<
∑(]+ − µ)<
í =
-
4 + 5 + 6 + 7 + 7 + 7 + 8 + 9 + 10 63
!̅ = = =7
9 9
Segundo – Calcularemos las desviaciones:
zw #
zw − v # )å
( vw − v
4 -3 9
5 -2 4
6 -1 1
7 0 0
7 0 0
7 0 0
8 1 1
9 2 4
10 3 9
Total 28
Aplicamos la fórmula de la varianza:
<
∑(]+ − !̅ )< 28 28
ï = = = = ñ, óu
ã−1 9−1 8
Cuando tenemos los datos agrupados por frecuencia, la varianza se calcula igual, pero
multiplicando cada desviación al cuadrado por su frecuencia.
∑(]+ − !̅ )< ,+
<
ï =
ã−1
zw xw
61 5
64 18
67 42
70 27
73 8
n = 100
zw xw zw xw #
zw − v v)å xw
(zw − #
61 5 305 -6,45 208,01
64 18 1152 -3,45 214,25
67 42 2814 -0,45 8,50
70 27 1890 2,55 175,57
73 8 584 5,55 246,42
Total n = 100 6745 852,75
6745
!̅ = = 67,45
100
Segundo – Calculamos la varianza aplicando la fórmula:
7.11COEFICIENTE DE VARIACIÓN
Es una medida sencilla que nos indica si la distribución está concentrada en torno a la media.
Es útil para comparar dispersiones entre variables medidas con escala distinta, pues es
invariante ante cambios de escala. Se obtiene dividiendo la desviación típica por la media y
multiplicando el cociente por 100. Los valores superiores a 50 indican una gran dispersión.
ù
eú = 100
9̅
EJERCICIOS DE VARIANZA
- 2, 3, 6, 8 y 11
- 12, 6, 7, 3, 15, 10, 18 y 5
- 18, 82, 36, 14, 35 ,25 ,35, 64 ,12, 5, 75, 64, 51,44 y 2
2- Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 niños de su consulta
en el momento de andar por primera vez. Calcula la varianza.
Meses Niños
9 1
10 4
12 16
13 11
14 8
15 1
zw xw
12 2
17 5
22 6
25 4
27 2
32 10
35 2
39 5
45 9
55 8
58 3
zw xw
15 1
25 8
35 10
45 9
55 8
65 4
75 4
85 8
TEMA 8 MEDIDAS DE FORMA
Estas medidas nos aportan información sobre la forma de la distribución: si es simétrica en
cuanto al eje central y si se produce un aplanamiento o elevación excesiva en el centro de la
distribución.
Una figura es simétrica cuando existe una aplicación biyectiva entre los dos conjuntos de
puntos situados a cada lado del eje. Del mismo modo, una distribución estadística es
simétrica cuando su grafica también cumple esta condición.
El parámetro que mide el grado de simetría es el coeficiente de asimetría (As), que estima la
asimetría de la distribución de los valores respecto a la media.
Un As>0 indica una asimetría positiva, de modo que hay más valores por encima de la moda
que por debajo, es decir a la derecha de la escala. Esta distribución se dice que está sesgada
hacia la derecha.
Un As<0 indica una asimetría negativa, de modo que hay más valores por debajo de la moda
que por encima, es decir a la izquierda de la escala. Esta distribución se dice que está sesgada
hacia la izquierda.
# = ûü = û†
Asimetría nula: v
# > ûü > û†
Asimetría positiva: v
# < ûü < û†
Asimetría negativa: v
8.3 CURTOSIS O APUNTAMIENTO
Cu = 0 Distribución mesocúrtica
Un experimento es todo proceso que se efectúa para obtener información de los individuos
de la población estudiada, estos pueden dividirse en deterministas y aleatorios. Un suceso
determinista es aquel en el que el investigador puede predecir los resultados antes de
llevarlo a cabo, ya que siempre sucede de la misma manera. Un suceso aleatorio es aquel en
que el resultado no puede predecirse con certeza.
a) Espacio muestral finito: Consta de un número finito de elementos (como las veces que
lanzamos un dado).
b) Espacio muestral infinito: Consta de un número infinito de elementos, que pueden
denominarse mediante los números naturales (pacientes que se asisten en
urgencias).
c) Espacio muestral continuo: Consta de un número infinitos de sucesos, pero que no
pueden denominarse mediante la sucesión de números naturales (peso de un
neonato).
9.3.2 SUCESO
a) Sucesos elementales: Son los que constan de uno solo de los distintos elementos del
espacio muestral Ω.
b) Sucesos compuestos: Son los que están formados por dos o más sucesos elementales.
c) Sucesos seguros: Son los que están formados por todos los sucesos del espacio
muestral.
d) Sucesos imposibles: Son los que no constan de ningún elemento del espacio muestral.
Se simboliza con un Ø.
e) Sucesos complementarios: Dado un suceso “A” de un espacio muestral, se denomina
suceso complementario (Ac) al que sucede siempre que no sucede “A”.
f) Sucesos de unión: Dados los sucesos “A” y “B” del espacio muestral Ω, llamamos suceso
de unión al suceso constituido por los elementos de Ω que pertenecen a “A” o “B”, o a
los dos a la vez. Se simboliza A ⋃ B.
g) Sucesos intersección: Dados los sucesos “A” y “B” del espacio muestral Ω, llamamos
suceso de intersección al suceso constituido por los elementos de Ω que pertenecen
simultáneamente a “A” y “B”. Se simboliza A ⋂ B.
h) Sucesos compatibles: Dados los sucesos “A” y “B” del espacio Ω, se denominan sucesos
compatibles aquellos sucesos cuya aparición simultanea es posible, ya que tienen
elementos comunes.
i) Sucesos incompatibles: Dados los sucesos “A” y “B” del espacio Ω, se denominan
sucesos incompatibles o mutuamente excluyentes aquellos sucesos cuya aparición
simultanea es imposible. Es decir, aquellos en los que la intersección de A ⋂ B = Ø no
tienen ningún elemento común.
Muchos de los datos observados en las ciencias sociales, físicas y biológicas siguen un modelo
común: la ley normal. Variables continuas como el peso, la estatura, el cociente intelectual,
etc. siguen este modelo, distribuyéndose según una función de densidad en forma de
campana, con parámetros µ y σ.
Diremos que una distribución sigue una distribución normal de media µ y desviación típica
σ, cuando la representación gráfica de su función de densidad es una curva continua,
simétrica respecto a la media, que tiene dos puntos de inflexión situados a ambos lados de la
media (µ - σ y µ + σ, respectivamente). Una distribución con este modelo tendrá las siguientes
características:
Además, puede conocerse cuántos individuos se encuentran entre dos valores cualesquiera.
En concreto:
Para el cálculo de las probabilidades con variables que siguen la distribución normal se
utilizan tablas. Necesitamos transformar las puntuaciones X en puntuaciones Z,
correspondientes a una distribución normal estandarizada N (0, 1) mediante el proceso de
“tipificación de la variable”. De esta manera, todas las posibles distribuciones normales, con
distintas µ y σ, quedan convertidas en una distribución normal estándar o tipificada, con µ=0
y con σ=1, cuyas probabilidades están contenidas en las tablas de la curva normal tipificada.
Del mismo modo, una puntuación Z puede convertirse en el valor X con la transformación
que se obtiene de la formula anterior:
1. Dado un punto de la escala, hallar el porcentaje de casos por encima y por debajo.
a) Calcular el porcentaje de casos que están por encima o por debajo de una puntuación
dada.
Z = 1,33 = 0,4082
Tercero - Como este es el área entre 0 y Z y lo que nos interesa es el área entre Z y ∞,
obtendremos el área que no interesa mediante la resta:
c) Determinar si una puntuación elegida se encuentra por encima o por debajo de una
puntuación determinada:
Z= -2 = 0,4772
d) Hallar la probabilidad de que un valor elegido al azar esté comprendido entre dos
puntuaciones dadas.
Ejemplo: ¿Cuál es la probabilidad de que un individuo elegido al azar tenga un CI entre 120
y 130?
Primero – Tipificamos las puntuaciones:
òô™ =<Cô=CC
©= =©= = 1,33
´ =@
òô™ =?Cô=CC
©= =©= =2
´ =@
Segundo – Buscamos las áreas correspondidas a las respectivas puntuaciones Z:
Z = 1,33 = 0,4082
Z = 2 = 0,4772
Tercero – La diferencia entre el área de Z=1,33 y Z=2 nos dará la probabilidad pedida:
2. Hallar las puntuaciones o valores de la escala por debajo o por encima de los cuales queda
un porcentaje de frecuencia determinado.
Ejemplo: ¿Qué valor de CI tiene una probabilidad de 0,25 de ser superado por un individuo
elegido al azar?
Primero – Buscamos la Z correspondiente al área más próxima a 0,25:
Tercero - como este valor corresponde al área entre 0 y Z, hemos de sumarle el área
correspondiente a la otra mitad de la curva, de manera que:
Tercero – Corresponde al área entre 0 y Z, pero como lo que buscamos es el área entre -∞ y
Z, calcularemos:
òô™ =@@ô=B?
©= =©= = 1,14
´ E
Segundo – Buscamos en la tabla el área correspondiente:
Ejercicio II: El peso de los niños nacidos en un hospital durante un año se distribuye
normalmente con una media de 2,6 Kg y una desviación típica de 0,5 kg.
a) Si se estima que los niños nacidos con menos de 1,7 Kg necesitan pasar un período en
la incubadora, ¿Qué porcentaje de niños necesitaran pasar por este período?
Primero - Tipificamos la X
òô™ =,Eô<,B
©= =©= = 1,8
´ C,@
b) ¿Entre qué pesos, centrados alrededor de la media, se encontrará el 80% de los niños
nacidos en este hospital?
Primero – Tendremos dos áreas iguales, a ambos lados de la media, con el 40% en cada una
de ellas. Buscamos la puntuación Z correspondiente al área más cercana a 0,40.
1- En una ciudad se estima que la temperatura máxima en el mes de junio sigue una
distribución normal, con media de 23° y desviación típica de 5°. Calcula el número de días
al mes en los que se espera alcanzar máximas entre 21° y 27 °.
a) Entre 60 y 75 Kg
b) Más de 90 Kg.
c) Menos de 64 Kg.
d) 64 kg.
e) 64Kg o menos.
3- Se supone que los resultados de un examen siguen una distribución normal con media de
78 y desviación típica de 36.
a) ¿Cuál es la probabilidad de que una persona que se presenta al examen obtenga una
calificación superior a 72?
b) Calcular la proporción de estudiantes que tienen puntuaciones que exceden por lo
menos cinco puntos de la puntuación que marca la frontera entre Apto y no-Apto (Son
declarados no-Aptos el 25% de los estudiantes que obtuvieron la puntuación más baja)
c) Si se sabe que la calificación de un estudiante es mayor que 72 ¿Cuál es la probabilidad
de que su calificación se superior a 84?
4- En una comunidad de 120 vecinos la media de ingresos es de 25.000 euros con una
varianza de 4.000. Suponiendo que siga una distribución normal.
A partir de la observación de unos datos que siguen una distribución conocida, la estimación
puntual de un parámetro consiste en estimar este parámetro mediante un solo número. No
obstante, la información que se proporciona suele ser insuficiente, por lo que suele
proporcionarse un intervalo formado por dos valores, el cual, con una probabilidad fijada a
priori, contiene el verdadero valor del parámetro. El intervalo de confianza para un
parámetro al nivel de confianza ß= 1- α es el intervalo de longitud mínima que contiene el
verdadero valor del parámetro con una probabilidad igual a ß.
Las pruebas estadísticas se utilizan para decidir si una propiedad supuesta para una
población es confirmada por la observación de la muestra. En la práctica, nos vemos
obligados a tomar decisiones respecto a una población sobre la base de información
procedente de una muestra.
Si suponemos que una hipótesis es cierta, pero observamos que los estadísticos observados
difieren notablemente de los esperados bajo tal hipótesis, entonces diremos que las
diferencias observadas son significativas y nos veremos inclinados a descartar la hipótesis
o, al menos, a no aceptarla. Así, si en 20 tiradas de una moneda salen 16 caras, estaremos
inclinados a no aceptar la hipótesis de que la moneda es buena, aunque cabe la posibilidad
de equivocarnos.
Los procedimientos que nos capacitan para determinar si los datos de las muestras
observadas difieren significativamente de los esperados y que, por tanto, nos ayudan a
decidir si aceptamos o no una hipótesis, se denominan contrastes o test de hipótesis o de
significación.
11.5 HIPÓTESIS NULA
Toda hipótesis que difiere de la hipótesis nula se denomina hipótesis alternativa. Por
ejemplo, si una hipótesis es p=0,5, posibles hipótesis alternativas podrían ser p=0,7; p<0,5;
p>0,5. Una hipótesis alternativa a la hipótesis nula se simboliza con H1.
Para decidir si la diferencia entre los datos observados y los datos teóricos o esperados es
muy grande, o lo que es lo mismo, si la probabilidad de encontrar dicha diferencia, cuando la
hipótesis nula es cierta, es muy pequeña, deje fijarse un nivel de probabilidad tal que sucesos
con probabilidad menor que dicho nivel induzcan a no aceptar la hipótesis nula y a aceptar
la hipótesis alternativa. El nivel de probabilidad elegido se denomina nivel de significación
α. En general, sus valores suelen fijarse en 0,05 o 0,01. Así, por ejemplo, si se escoge un nivel
de significación de α de 0,05 (5%), tenemos 5 probabilidades entre 100 de no aceptar la
hipótesis nula cuando deberíamos haberla aceptado; es decir, tenemos un nivel de confianza
ß (ß= 1- α) del 95% (0,95) de que hemos adoptado la decisión adecuada. En tal caso, decimos
que la hipótesis nula ha sido descartada al nivel de significación 0,05, lo que significa que la
hipótesis alternativa tiene una probabilidad de 0,05 de ser falsa.
11.8 EL VALOR-P
De manera más comprensible, podemos definir valor-p como la probabilidad que tenemos de
tomar la decisión correcta si aceptamos la hipótesis nula, o, lo que es lo mismo, la
probabilidad de equivocarnos si aceptamos la hipótesis alternativa. Según esto, cuanto
menor sea el valor-p, más evidencia tendremos de que la hipótesis alternativa es verdadera
y debemos rechazar la hipótesis nula. Así, por ejemplo, si obtenemos un valor-p igual o
inferior a 0,05 pero superior a 0,01, aceptaremos la hipótesis alternativa con un nivel de
confianza del 95%. En el caso de que el valor-p sea también inferior a 0,01, el nivel de
confianza asumido será del 99%. Cuando el valor-p es superior a 0,05, no podemos rechazar
la hipótesis nula, ya que, por consenso, se ha establecido en el 95% el nivel de confianza
mínimo para poder aceptar la hipótesis alternativa en un contaste estadístico de hipótesis.
Para rechazar una hipótesis nula es necesario que las evidencias sean muy fuertes y
garanticen que los cambios no son debidos al azar, sino a otras causas. Debemos fijar un
intervalo dentro del cual los cambios pueden ser atribuidos al azar, de manera que, si los
cambios se mantienen en este intervalo, seguiremos aceptando la hipótesis nula. Este
intercambio se denomina región de aceptación y su tamaño depende del nivel de confianza
1 – α que se asuma.
La región critica o región de rechazo es la que queda fuera de esta región de aceptación e
indica que los cambios no se pueden atribuir al azar, sino a otras causas, de manera que
debemos rechazar la hipótesis nula y aceptar la hipótesis alternativa. A la hora de
determinar la región de aceptación y la región de rechazo, nos podemos encontrar con dos
casos: contrastes bilaterales o contrastes unilaterales.
Las contrastes bilaterales o de dos colas se dan en el caso de que la hipótesis nula es del tipo
H0: Æ = k (o también H0: P = k); siendo, por tanto, la hipótesis alternativa del tipo H1: Æ ≠ k (o
bien H1: P ≠ k). En estos casos, la región crítica o de rechazo se encuentra dividida en dos
partes discontinuas, situadas en las dos colas de la distribución, mientras que la región de
aceptación corresponde al intervalo central (1 – α).
En los contrastes unilaterales o de una cola, la región crítica se sitúa en una sola zona
(derecha o izquierda) de la distribución. Se da cundo la hipótesis nula es del tipo H0: Æ ≥ k (o
también H0: P ≥ k); siendo la hipótesis alternativa H1: Æ < k (o bien H1: P < k).
11.12 PRUEBAS DE CONTRASTE DE HIPÓTESIS PARAMÉTRICAS O NO
PARAMÉTRICAS
Antes de proceder a la prueba de contraste de hipótesis hay que determinar si las variables
que forman la hipótesis siguen o no una distribución normal. En las que se ajustan a una
distribución normal, podemos aplicar pruebas paramétricas, de lo contrario deben aplicarse
pruebas no paramétricas.
Las pruebas paramétricas se llaman así porque el cálculo implica una estimación de los
parámetros de la población tomando como base muestras estadísticas. Cuanto más grande
sea la muestra, más exacta será la estimación. Estas pruebas exigen que los datos a los que
se aplican cumplan los siguientes requisitos:
Las pruebas paramétricas más conocidas y usadas son la prueba t de Student, la prueba F
(en honor a Fisher) y el coeficiente de correlación de Pearson, simbolizado por r.
Supongamos que se dispone de una muestra de una población y que en cada individuo de la
muestra medimos la variable X, que se ajusta a una distribución normal. La prueba t de
Student se utiliza para contrastar la hipótesis nula de que la muestra procede de una
población en la que la media X es igual a una determinada constante m.
±C : Æ9 = ≥
Ejemplo: Un total de 409 alumnos de enfermería han contestado la Death Anxiety Scale,
habiendo obtenido una media de 6,95. Se desea efectuar un estudio con una muestra
aleatoria de 50 alumnos. Una vez obtenida, mediante el programa informático, la muestra
aleatoria, queremos comprobar si esta muestra puede considerarse válida para la población
de la que ha sido obtenida.
Estadísticos
Total
N Válidos 409
N Perdidos 0
Media 6,95
Desviación típica 2,809
La t de Student para muestras independientes tiene distintas fórmulas en función de que las
varianzas de los grupos sean o no iguales, por lo que previamente habrá que contrastar la
igualdad de varianzas de la variable en los dos grupos, mediante la prueba de Levene. En la
prueba de Levene la hipótesis nula es la igualdad de varianzas, de manera que si el valor-p
de la prueba es mayor de 0,05 asumiremos que las varianzas son iguales, mientras que si es
igual o menor a 0,05 asumiremos varianzas desiguales. En uno u otro caso, la interpretación
se hará en la fila que proceda.
Estadísticos de grupo
Desviación Error típico de
N Media
típica la media
DAS estudiantes 200 7,01 2,742 0,194
DAS enfermeras 200 6,68 2,832 0,200
El ANOVA se aplica para contrastar la hipótesis nula de que K medias son iguales, es decir:
±C = Æ= = Æ< = Æ? = ÆD …
Cuando el ANOVA halla una diferencia significativa entre las medias de varios grupos, quiere
decir que hay una diferencia significativa entre al menos dos de las medias, por no indica
entre qué medias hay diferencias. Para ello es necesario hacer un análisis posterior y
comprobar la diferencia entre todos los pares de medias utilizadas.
Descriptivos
Intervalo de confianza para
Desviación la media al 95%
N Media
típica Límite Límite
inferior superior
Primero 79 83,10 9,376 81,00 85,20
Segundo 63 81,54 10,455 78,91 84,17
Tercero 39 84,67 7,811 82,13 87,20
Total 181 82,90 9,485 81,50 84,29
ANOVA
Suma de cuadrados gl Media cuadrática F Sig.
Intergrupos 241,498 2 120,749 1,347 0,263
Intragrupos 15.953,507 178 89,626
Total 16.195,006 180
Tenemos que el valor-p asociado a F es 0,263>0,05 de manera que aceptamos la hipótesis
nula de igualdad de medias en los tres cursos.
±C = Æ= = Æ< = Æ? = ÆD …
Ejemplo: Se desea saber si la dutasterida modifica los niveles de PSA prostáticos en hombres
con hiperplasia benigna de próstata. Para ello se toman, en un grupo de 60 pacientes, medias
de PSA antes del tratamiento, a los tres meses, a los seis meses y al año.
Factores
intrasujetos Estadísticos descriptivos
Variable Media Desv. Tip. N
Tiempo
dependiente Niveles Basales 9,4800 3,14879 60
1 Basal Tres meses 8,7800 2,96035 60
Seis meses 8,8200 3,42418 60
2 Tres meses
Un año 8,5000 2,74918 60
3 Seis meses
4 Un año
El coeficiente de correlación de Pearson (r) mide el grado de asociación lineal entre dos
variables cuantitativas, tomando calores entre -1 y 1. Los valores próximos a 1 indican una
fuerte asociación lineal positiva (a medida que aumentan los valores de una de las dos
variables, aumentan los de la otra); los valores próximos a -1 indican una fuerte asociación
lineal negativa (a media que aumentan los valores de una de las dos variables, disminuyen
los de la otra); lo valores próximos a 0 indican que no existe asociación lineal entre las
variables.
Correlaciones
Zung STAI
Zung Correlación de Pearson
Zung Sig. (bilateral)
Zung N
STAI Correlación de Pearson 0,657
STAI Sig. (bilateral) 0,000
STAI N 91
En la tabla proporcionada por SPSS vemos que el coeficiente de Pearson es igual a 0,657, lo
que indica una fuerte asociación positiva entre las puntuaciones de la escala de depresión de
Zung y la escala de ansiedad general STAI. Por otro lado, dado el valor-p asociado es
0,000>0,01 podemos considerar que esta asociación es estadísticamente significativa con
un nivel de confianza del 99% (¥ = 0,01).
TEMA 13 PRUEBAS NO PARAMÉTRICAS
Prueba de Kolmogorov-Smirnov
Zung
N 336
Parámetros normales Media 47,70
Parámetros normales Desviación típica 13,107
Diferencias más extremas Absolutas 0,061
Diferencias más extremas Positivas 0,061
Diferencias más extremas Negativas -0,045
Z de Kolmogorov-Smirnov 1,122
Sig. Asintót. (bilateral) 0,161
La prueba ∂ < permite determinar si dos variables cualitativas están o no asociadas. Si al final
del estudio concluimos que no está asociadas podremos afirmar con un determinado nivel
de confianza que ambas son independientes.
Por lo tanto, la prueba ∂ < se aplica para contrastar la hipótesis nula de que dos variables
cualitativas son independientes.
±∑ = ] ç ∏ éíã QãìçPçãìQçãπçé
La prueba se basa en la comparación de las frecuencias esperadas con las frecuencias
observadas en realidad. El estadístico ∂ < proporciona una medida de discrepancia existente
entre las frecuencias observadas o empíricas y las frecuencias teóricas o esperadas bajo la
hipótesis nula. Si el valor-p asociado a la ∂ < es igual o menor que ¥, rechazaremos la hipótesis
nula de independencia y asumiremos que ambas variables están relacionadas, con un nivel
de confianza de 1- ¥.
Otra de las limitaciones de ∂ < se refiere al tamaño muestral. Como norma se exige que una
tabla de contingencia, el 80% de las celdas deben tener valores mayores a 5. Por lo tanto, en
una tabla 2x2 será necesario que todas las celdas verifiquen esta condición. En lo casos que
no se verifique este requisito, existe un test que puede utilizarse como alternativa al ∂ < y que
se conoce como test exacto de Fisher, que permite analizar si dos variables dicotómicas
están asociadas cuando la muestra que se debe estudiar es demasiado pequeña y no se
cumplen las condiciones necesarias para que la aplicación del test ∂ < sea adecuada.
Pruebas ji cuadrado
Sig. Asintótica Sig. Exacta Sig. Exacta
Valor gl
(bilateral) (bilateral) (unilateral)
Ji cuadrado de Pearson 1,073 1 0,300
Corrección por continuidad 0,686 1 0,407
Razón de verosimilitud 1,075 1 0,300
Estadístico exacto de Fisher 1 0,408 0,204
Asociación lineal por lineal 1,062 1 0,303
N de casos válidos 100
Resulta que el valor-p de la prueba (sig. Asintótica) es 0,300>0,05. Por lo tanto, aceptamos
la hipótesis nula de independencia de variables, de manera que no podemos afirmar que los
antecedentes de tabaquismo estén asociados al diagnostico de demencia tipo Alzheimer.
Es una medida del grado de asociación entre dos variables dicotómicas basadas en el
estadístico ∂ < , que toma valores entre 0 y 1. Los próximos 0 indican la no-asociación entre
las variables, mientras que los valores cercanos a 1 indican una fuerte asociación entre ellas.
En el caso del Alzheimer y el tabaquismo, el coeficiente Phi es igual a 0,104. Por lo tanto,
debemos considerarlo una asociación muy débil.
Es una extensión del coeficiente Phi al caso de las variables politómicas. De la misma
manera, los valores de V próximos a 0 indican la no-asociación entre las variables y los
valores próximos a 1 indican una fuerte asociación.
Medidas simétricas
Valor Sig. Aproximada
Nominal por Phi -0,104 0,300
Nominal V de Cramer 0,104 0,300
N de casos válidos 100
Ejemplo: Deseamos saber si existen diferencias significativas entre las edades de 22 mujeres
y 14 hombres residentes en un centro sociosanitario. Los resultados que nos proporciona el
programa son los siguientes:
Prueba de Mann-Whitney
Sexo N Rango promedio Suma de rangos
Edad mujeres 22 21,95 483,00
Edad hombres 16 16,13 258,00
Total 38
Estadísticas de contraste
Edad El valor-p asociado al estadístico Z es
U de Mann-Whitney 122,000 0,109>0,05, por lo que aceptamos la hipótesis
Z -1,603 nula de igualdad de medias. Es decir, no
Sig. Asintót. (bilateral) 0,109 existen diferencias significativas entre las
Sig. Exacta [2 (Sig. Bilateral) 0,114 edades de los hombres y las de las mujeres
13.6 PRUEBA PARA DOS MUESTRAS RELACIONADAS: LA PRUEBA DE WILCOXON
Estadísticas de contraste
Colesterol postratamiento –
colesterol pretratamiento
Z -2,041
Sig. Asintót. (bilateral) 0,041
El valor-p de la prueba es igual a 0,041< 0,05; por tanto, rechazamos la hipótesis nula de
igualdad de medias y aceptamos la hipótesis alternativa de diferencias significativas. Como
la prueba nos indica también que el colesterol postratamiento < colesterol pretratamiento,
podemos afirmar, con un nivel de confianza del 95%, que el tratamiento es útil para reducir
de forma significativa las cifras de colesterol.
Ejemplo: Se desea saber si existen diferencias significativas entre las puntuaciones medias
en la escala de actitud ante el SIDA por 22 estudiantes de primer curso, 29 estudiantes de
segundo curso y 25 estudiante de tercer curso.
Prueba de Kruskal-Wallis
Curso N Rango promedio
Actitud SIDA 1 curso 22 37,41
Actitud SIDA 2 curso 29 20,57
Actitud SIDA 3 curso 25 60,26
Total 76
Estadísticos de contraste
Actitud SIDA
Ji cuadrado 46,210
gl 2
Sig. Asintót. 0,000
El valor-p de la prueba es 0,000 < 0,01, por lo que rechazamos la hipótesis nula de igualdad
de medias y asumimos, con un nivel de confianza del 99%, que existen diferencias
significativas entre las puntuaciones de los tres cursos.
Esta prueba podemos considerarla una extensión de Wilcoxon para el caso de más de dos
muestras relacionadas. Es la prueba no paramétrica paralela al ANOVA de medidas
repetidas y, al igual que éste, contrasta la hipótesis nula de igualdad de tres o más muestras
relacionadas.
Prueba de Friedman
Rangos promedios
Inicio 3,61
Tres meses 2,29
Seis meses 1,84
Un año 2,24
Estadísticos de contraste
N 19
Ji cuadrado 2,0475
gl 3
Sig. Asintót. 0,000
El valor-p de la prueba es 0,000 < 0,001, de manera que podemos asumir la hipótesis
alternativa de diferencia significativa entre las medias de los pesos, con un nivel de
confianza del 99%.
Se utiliza para medir el grado de acuerdo entre varios jueces y observadores, cuando estos
han de evaluar una misma variable. El coeficiente W toma valores entre 1 y 0. Los valores
de W próximos a 0 indican desacuerdo entre los observadores, mientras que los valores
próximos a 1 indican total acuerdo.
El valor W es 0,154, que indica un grado de acuerdo bajo entre las puntuaciones de las
enfermeras.
Ejemplo: En una muestra de 72 neonatos, se desea saber si existe correlación entre el peso
del niño y la puntuación del test de Apgar asignada en el momento del nacimiento.
Correlación
Peso Apgar
Rho de Spearman Correlación coeficiente PESO 1,00 0864
Sig. (bilateral) PESO - 0,000
N 72 72
Correlación coeficiente APGAR 0,864 1,000
Sig. (bilateral) APGAR 0,000 -
N 72 72
El coeficiente de Spearman es igual a 0,864, lo que indica una fuerte correlación positiva
entre las puntuaciones del test de Apgar y el peso del niño. Con el valor-p asociado de
0,000<0,01, podemos considerar que esta asociación es estadísticamente significativa, con
un nivel de confianza del 99% (¥ = 0,01).
PREGUNTAS VERDADERO-FALSO
1 La estadística es un modelo de análisis cualitativo V F
La estadística analítica se aplica al análisis de un conjunto de datos
2 V F
obtenidos de una población o muestra
3 Generalmente, los parámetros se simbolizan con letras griegas V F
La estadística permite interpretar datos cuya característica fundamental
4 V F
es la variabilidad
Para que una variable cualitativa esté bien definida es necesario que sus
34 V F
categorías sean exhaustivas y mutuamente excluyentes
El valor del segundo cuartil coincide con el centil 50, el del decil 5 y la
78 V F
mediana.
El centil 35 es el valor de la variable que nos indica que el 35% de los
79 V F
valores son iguales o inferiores a esta puntuación.
El decil 6 es el valor de la variable que nos indica que el 60% de los valores
80 V F
son iguales o superiores a este valor.
102 Asimetría y curtosis son dos índices del apuntamiento de una distribución. V F
109 Una curva con mayor elevación que la normal se denomina leptocúrtica. V F
2 F 29 F 56 F 83 V
3 V 30 V 57 F 84 V
4 V 31 V 58 F 85 F
5 V 32 F 59 V 86 V
6 F 33 V 60 V 87 V
7 V 34 V 61 F 88 F
8 V 35 F 62 F 89 V
9 F 36 F 63 V 90 F
10 V 37 V 64 F 91 V
11 F 38 F 65 F 92 F
12 V 39 F 66 V 93 V
13 F 40 V 67 F 94 F
14 V 41 V 68 V 95 F
15 V 42 F 69 V 96 V
16 F 43 V 70 V 97 F
17 F 44 V 71 F 98 V
18 V 45 F 72 V 99 V
19 F 46 F 73 F 100 V
20 F 47 F 74 V 101 F
21 F 48 V 75 V 102 F
22 F 49 V 76 F 103 F
23 V 50 F 77 F 104 V
24 F 51 F 78 V 105 F
25 F 52 V 79 V 106 V
26 V 53 V 80 F 107 F
27 V 54 F 81 F 108 F
109 V 138 F 167 V
118 F 147 V
119 V 148 V
120 F 149 F
121 F 150 V
122 F 151 V
123 V 152 F
124 F 153 V
125 F 154 F
126 V 155 V
127 F 156 V
128 F 157 V
129 V 158 F
130 V 159 V
131 F 160 V
132 V 161 F
133 V 162 V
134 V 163 F
135 F 164 V
136 F 165 V
137 V 166 F
PREGUNTAS DE OPCIÓN MÚLTIPLE
1. Se entiende por población diana:
a. La totalidad de casos que se adaptan a un conjunto de criterios y de los cuales
se puede obtener una información.
b. El conjunto de casos que cumplen los criterios predeterminados y que son
accesibles al investigador como sujetos de estudio.
c. El conjunto de casos que cumplen los criterios a los cuales se pretende
extrapolar los resultados del estudio.
d. El conjunto de casos representativos seleccionados mediante procedimientos
de muestreo probabilístico
e. A y C son ciertas.
2. Una muestra es:
a. Un subconjunto de la población que es representativo de la misma.
b. Un conjunto de individuos que cumplen unos determinados criterios de
inclusión.
c. Un subconjunto de la población del cual se pretende obtener información.
d. Un conjunto de individuos a los cuales se pretende extrapolar los resultados del
estudio.
e. A, B y C son ciertas.
3. El método de muestreo que asegura la representatividad de la muestra es el:
a. Probabilístico.
b. Al azar.
c. Aleatorio.
d. Por cuotas.
e. A, B y C son ciertas.
4. ¿Cuál de los siguientes muestreos es de tipo no probabilístico?
a. Muestreo sistemático.
b. Muestreo estratificado.
c. Muestreo por cuotas.
d. Muestreo aleatorio simple.
e. Muestreo por conglomerados.
5. Se ha realizado un estudio para conocer el efecto de un nuevo analgésico. La
variable principal de respuesta es una escala de dolor con los siguientes valores:
1 (no dolor), 2 (dolor leve), 3 (dolor moderado) y 4 (dolor intenso). ¿De qué
tipo de variable se trata?
a. De una variable dicotómica.
b. De una variable continua.
c. De una variable discreta.
d. De una variable ordinal.
e. De una variable cuantitativa.
6. Es una variable cualitativa nominal politómica:
a. La edad.
b. El grupo sanguíneo.
c. La evolución de una enfermedad (buena, intermedia, mala).
d. El sexo.
e. La escala de ansiedad (de 0 a 4).
7. Las diversas religiones pueden considerarse como:
a. Una variable cuantitativa continua.
b. Una variable cuantitativa discreta.
c. Una variable cualitativa dicotómica.
d. Una variable cualitativa politómica.
e. Una variable cuasicuantitativa.
17. Para medir variables cuantitativas con cero arbitrario, la escala de medida será:
a. Nominal.
b. Ordinal.
c. De intervalo.
d. De proporción.
e. Cualquiera de ellas, pues la última comprende las demás.
18. Para medir variables como el sexo o la profesión, el tipo de escala utilizada será:
a. Nominal.
b. Ordinal.
c. De proporción.
d. De intervalo.
e. Nominal u ordinal, indistintamente.
19. La escala de medida que sirve para ordenar a los individuos según los conceptos
de mayor, igual o menor, es:
a. De proporción.
b. Nominal.
c. De intervalo.
d. Ordinal.
e. Todas las anteriores.
20. Los pictogramas:
a. Son gráficos que reflejan una evolución temporal.
b. Son un tipo de diagrama para representar las variables.
c. Se emplean para mostrar la información mediante un dibujo alusivo al colectivo
que se estudia, con el área (o su altura) proporcional a la frecuencia que
representa.
d. Se utilizan en el cálculo de la covarianza.
e. Todas las respuestas son ciertas.
22. Si a todos los valores de una distribución les sumamos un mismo número, la media
aritmética de los nuevos valores:
a. Es igual a la media de los anteriores.
b. Es igual a la media de los anteriores más el número que se ha sumado.
c. Es igual a la media de los anteriores multiplicada por el número que se ha
sumado.
d. Es igual a la media de los anteriores más el cuadrado del número que se ha
sumado.
e. Todas las respuestas anteriores son falsas.
24. Un grupo de 50 niños tiene una estatura media de 115 cm y otro grupo de 30 niños
de la misma edad tiene una estatura media de 122 cm. ¿Cuál es la estatura media
de todos los niños?
a. 115,25 cm.
b. 12,48 cm.
c. 116,50 cm.
d. 117,62 cm.
e. 118,50 cm.
25. En la provincia de Barcelona se construyeron 15 centros sanitarios hace 20 años,
30 centros hace 10 años y 50 centros hace 5 años. ¿Cuál es la media de años que
llevan construidos todos estos centros?
a. 8,95 años.
b. 11,67 años.
c. 10,91 años.
d. 12,24 años.
e. 9,33 años.
26. En la siguiente distribución de frecuencias: 5, 9, 7, 11, 18, 5, 12 y 15, la mediana
es:
a. 7
b. 8
c. 9
d. 10
e. 11
27. En la siguiente distribución de frecuencias 9, 10, 12, 7, 11 y 7 la mediana es:
a. 7
b. 7,5
c. 8
d. 9,5
e. 10
28. Dadas las puntuaciones 1, 5, 7, 10, 15, 10, 7, 5, 1 y 1 la mediana vale:
a. 5
b. 7
c. 6
d. 6,5
e. Ninguna de los anteriores.
29. A partir de las siguientes distribuciones (14, 10, 6, 18, 6 y 8), ¿Cuál es el valor
de la mediana y de la moda, respectivamente?
a. 6 y 12
b. 9 y 6
c. 12 y 6
d. No se puede calcular con estos datos.
e. Todas las respuestas anteriores son falsas.
30. La medida de tendencia central aplicable a una variable cualitativa politómica
es:
a. La media aritmética.
b. La mediana.
c. La moda.
d. El coeficiente de variación.
e. Cualquiera de ellas.
31. El cálculo de la mediana de una muestra requiere:
a. Tipificar los datos.
b. Ordenar los datos de menor a mayor.
c. Calcular previamente la moda.
d. Calcular previamente la amplitud de la muestra.
e. Conocer el valor del coeficiente de curtosis.
32. Si la distribución de una variable cuantitativa es muy asimétrica, el índice de
tendencia central más representativo de esta distribución es:
a. La media aritmética.
b. La mediana.
c. La moda.
d. La amplitud intercuartil.
e. El coeficiente de variación.
34. En una distribución de pesos, la cantidad de 55 kilos equivale al percentil 80. Esto
indica que:
a. Una minoría de individuos de esta distribución pesan igual o menos de 55 kilos.
b. La mayoría de los individuos de esta distribución pesan igual o más de 55 kilos.
c. Hay 80 individuos de esta distribución que pesan 55 kilos.
d. La mayoría de los individuos de esta distribución pesan igual o menos de 55
kilos.
e. La mediana de los pesos de la distribución es de 55 kilos.
35. Si una cierta puntuación de una variable corresponde al percentil 35, significa que:
a. El 35% de los valores observados son iguales o superiores a esta puntuación.
b. El 35% de los valores observados son iguales o inferiores a esta puntuación.
c. El 35% de los valores observados son iguales a esta puntuación.
d. El 65% de los valores observados son iguales o inferiores a esta puntuación.
e. Ninguna de las respuestas anteriores es cierta.
54. Supongamos que, en general, el hecho de que en una familia fume el padre es
independiente del hecho de que fume la madre. Si la probabilidad de que fume el
padre es de 0,7 y la probabilidad de que fumen la madre es de 0,4, entonces, la
probabilidad de que fume el padre y la madre es:
a. 0,11
b. 0,30
c. 0,28
d. 0,57
e. No pude calcularse con esos datos.
55. Al lanzar un dado al aire, ¿Cuál es la probabilidad de que salga un número impar?
a. 0
b. 0,5
c. 0,25
d. 0,33
e. 0,17
58. Una bolsa contiene bolas de color rojo y bolas de color negro, sumando un total de
120 bolas. Si sabemos que, al extraer una bola al azar, la probabilidad de que ésta
sea roja es de 0,75, ¿Cuántas bolas negras hay en la bolsa?
a. 65
b. 90
c. 100
d. 80
e. 30
59. Lanzando al aire tres dados iguales, ¿Cuál es la probabilidad de que salgan tres
ases?
a. 1/18
b. 1/72
c. 1/216
d. 1/3
e. 1/6
61. En una clase de 140 alumnos, sabemos que la probabilidad de que al elegir un
alumno al azar éste sea de sexo masculino es de 0,15. ¿Cuántas alumnas hay en la
clase?
a. 82
b. 115
c. 113
d. 119
e. 125
62. En una muestra de 1000 personas se encontró que 120 presentaban alteraciones
del oído y 50 eran diabéticas. El número de personas que presentaban alteraciones
de oído eran a la vez diabéticas era de 6. Con estos datos se puede concluir que:
a. La diabetes y las alteraciones de oído son dos características independientes.
b. La diabetes protege de padecer alteraciones de oído.
c. Los diabéticos tienen más probabilidad de padecer alteraciones del oído.
d. Hay interacción entre diabetes y alteraciones del oído.
e. Los datos presentados son insuficientes para considerar ninguna de las
afirmaciones anteriores.
63. El peso de los niños varones españoles en el momento del nacimiento sigue una
distribución normal de media 3,25 Kg y desviación típica 0,82 Kg. ¿Cuál es la
probabilidad de que el peso de un niño al nacer sea superior a 4 Kg?
a. 0,0038
b. 0,9146
c. 0,3186
d. 0,1814
e. 0,0091
64. Las estaturas de una población se distribuyen normalmente con una media de 168
cm y una desviación típica de 8 cm. ¿Cuál es la probabilidad de que una persona de
esta población elegida al azar mida como máximo 170 cm?
a. 0,0250
b. 0,0987
c. 0,4013
d. 0,9013
e. 0,5987
66. Referente al ejercicio anterior, entre qué pesos, centrados alrededor de la media,
se encontrarán el 80% de los niños nacidos en este hospital?
a. 2,43 y 4,05
b. 1,57 y 3,07
c. 2,13 y 3,99
d. 1,96 y 3,24
e. 3,05 y 4,77
67. La edad de los trabajadores en un centro de atención primaria se distribuye
normalmente con una media de 30 años y una varianza de 9 años. ¿Cuál es la
probabilidad de que un trabajador tenga una edad superior a 24 años?
a. 0,2897
b. 0,0228
c. 0,9687
d. 0,9772
e. 0,7486
68. A partir del enunciado anterior, ¿entre qué edades se encuentran el 94% de la
población?
a. Entre 24,36 y 35,64
b. Entre 25,04 y 36,32
c. Entre 28,99 y 40,35
d. Entre 34,29 y 45,65
e. Entre 26,76 y 38,12
75. El test estadístico más adecuado para determinar si existen diferencias en el nivel
sérico de un metabolito entre hombres y mujeres, suponiendo que las variables se
distribuyen normalmente, es:
a. La prueba t de Student para muestras apareadas.
b. La prueba de Wilcoxon.
c. El ANOVA de Kruskal-Wallis.
d. La prueba t de Student para dos muestras independientes.
e. La prueba U de Mann-Whitney.
76. Al realizar una prueba estadística inferencial, la hipótesis que se debe contrastar
se denomina:
a. Hipótesis nula.
b. Hipótesis alternativa.
c. Hipótesis de investigación.
d. Estadístico de contraste.
e. Valor-p
77. Un nivel de significación ª de 0,05 supone que:
a. Asumimos un nivel de confianza del 99%.
b. Asumimos un nivel de confianza del 5%.
c. Asumimos un nivel de confianza del 90%
d. Asumimos un nivel de confianza del 1%.
e. Todas las respuestas son falsas.
79. Rechazar una hipótesis nula al nivel de significación ª=0,01, significa que:
a. La hipótesis nula tiene un 1% de probabilidades de ser cierta.
b. La hipótesis nula tiene un 1% de probabilidades de ser falsa.
c. La hipótesis alternativa tiene un 1% de probabilidades de ser cierta.
d. La hipótesis alternativa tiene un 99% de probabilidades de ser falsa.
e. La hipótesis nula tiene un 99% de probabilidades de ser cierta.
80. Aceptar una hipótesis alternativa al nivel de significación ª= 0,05, significa que:
a. La hipótesis nula tiene un 5% de probabilidades de ser falsa.
b. La hipótesis alternativa tiene un 5% de probabilidades de ser cierta.
c. La hipótesis nula tiene un 95% de probabilidades de ser cierta.
d. La hipótesis nula tiene un 5% de probabilidades de ser cierta.
e. La hipótesis alternativa es cierta.
82. La prueba t de Student para dos muestras relacionadas se utiliza para contrastar
la hipótesis nula de que:
a. Existen diferencias significativas entre las medias de ambas muestras.
b. Las medias de ambas muestras son iguales.
c. Las muestras pertenecen a poblaciones diferentes.
d. A y C son ciertas.
e. Todas las respuestas son falsas.
83. La prueba t de Student para dos muestras independientes se utiliza para
contrastar la hipótesis nula de que:
a. La media de la variable es la misma en ambas muestras.
b. Existen diferencias significativas entre las medias de ambas muestras.
c. Las muestras proceden de poblaciones diferentes.
d. La media de la variable en la muestra difiere significativamente de la media de
la variable de la población.
e. B y C son correctas.
87. Para determinar si la distribución de una variable se ajusta a una ley normal.
Aplicamos la prueba de Kolmogorov-Smirnov, obteniendo un valor-p asociado al
estadístico de contraste de p= 0,02. Con este dato podemos tomar la decisión de que:
a. Los valores de la variable se ajustan a una distribución normal, con un nivel de
confianza del 99%.
b. Los valores de la variable se ajustan a una distribución normal, con un nivel de
confianza del 95%.
c. Los valores de la variable no se ajustan a una distribución normal, con un nivel
de confianza del 99%.
d. Los valores de la variable no se ajustan a una distribución normal, con un nivel
de confianza del 95%.
e. Todas las respuestas son falsas.
88. Deseamos saber si el hecho de recibir lactancia materna o lactancia artificial está
relacionado con el hecho de padecer sarampión durante los 10 primeros años de
vida. Para efectuar el estudio, tomamos una muestra de 100 niños que recibieron
lactancia materna y otros 100 que recibieron lactancia artificial. ¿Qué prueba de
contraste de hipótesis seria de elección en este caso?
a. La prueba t de Student para muestras independientes.
b. La prueba t de Student para muestras relacionadas.
c. El análisis de la varianza de un factor (ANOVA).
d. La comparación de medias.
e. La prueba ji cuadrado.
89. Con relación al ejercicio anterior, una vez aplicada la prueba de contraste de
hipótesis, obtenemos un valor-p asociado al estadístico de contraste de p= 0,638.
Con este dato podemos tomar la decisión que:
a. Las variables están relacionadas, con un nivel de confianza del 95%.
b. Las variables no están relacionadas.
c. Las variables están relacionadas, con un nivel de confianza del 99%.
d. Las medias de ambas variables pueden considerarse iguales.
e. Todas las respuestas son falsas.