T8 Asociación

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 43

BIOESTADÍSTICA

Tema 9. Estudios de asociación

Tema 9: Estudios de asociación 1


Análisis bivariante de variables cualitativas

TABLAS 2×2

Ejemplo: Clasificación de 2013 trabajadores según que


trabajen en condiciones de estrés o no y que hayan
desarrollado alguna enfermedad coronaria

Los resultados obtenidos se recogen en una TABLA DE


CONTINGENCIA.

Tema 9: Estudios de asociación 2


Análisis bivariante de variables cualitativas

Tablas de contingencia
Tabla de contingencia estres * CHD

Recuento
CHD
SI CHD NO CHD Total
estres SI ESTRES 97 307 404
NO ESTRES 200 1409 1609
Total 297 1716 2013

Frecuencias absolutas

3
Tablas de frecuencias relativas
Tabla de contingencia estres * CHD

CHD
SI CHD NO CHD Total
estres SI ESTRES Recuento 97 307 404
% del total 4,8% 15,3% 20,1%
NO ESTRES Recuento 200 1409 1609
% del total 9,9% 70,0% 79,9%
Total Recuento 297 1716 2013
% del total 14,8% 85,2% 100,0%

Condicionando por estrés: Condicionando por CHD:


Tabla de contingencia estres * CHD Tabla de contingencia estres * CHD

CHD CHD
SI CHD NO CHD Total SI CHD NO CHD Total
estres SI ESTRES Recuento 97 307 404 estres SI ESTRES Recuent o 97 307 404
% de estres 24,0% 76,0% 100,0% % de CHD 32,7% 17,9% 20,1%
NO ESTRES Recuento 200 1409 1609 NO ESTRES Recuent o 200 1409 1609
% de estres 12,4% 87,6% 100,0% % de CHD 67,3% 82,1% 79,9%
Total Recuento 297 1716 2013 Total Recuent o 297 1716 2013
% de estres 14,8% 85,2% 100,0% % de CHD 100,0% 100,0% 100,0%

4
Asociación entre variables cualitativas

TABLAS 2×2

Ejemplo: Se realiza un estudio para determinar la asociación


entre la aparición de Leucemia y un historial de alergia. Se
selecciona una muestra de 50 pacientes de Leucemia y 50
controles y se determina la existencia o no de un historial de
alergia.

Los resultados obtenidos se recogen en una TABLA DE


CONTINGENCIA.

Tema 9: Estudios de asociación 5


Asociación entre variables cualitativas
TABLA DE CONTINGENCIA:
  Casos Controles
H. Alergia 44 15
No H. Alergia 6 35

Se observa que la mayoría de los controles no tienen historial de alergia y que la


mayoría de los pacientes sí lo tienen, lo que sugiere la existencia de una asociación
entre ambas variables. Habrá que determinar en qué medida esa asociación
observada en la muestra es debida o no al azar.

Hipótesis nula: NO HAY ASOCIACIÓN


Hipótesis alternativa: HAY ASOCIACIÓN

Tema 9: Estudios de asociación 6


Test Chi-cuadrado de No asociación

Condiciones de aplicación: nij > 4

Tema 9: Estudios de asociación 7


Test Chi-cuadrado de No asociación
Hipótesis nula: NO HAY ASOCIACIÓN
Hipótesis alternativa: HAY ASOCIACIÓN

Frecuencias observadas:

Ejemplo: Tabaco y grupos de edad


Grupo de
Tabaco
edad   Grupos de Edad
SI 15-16 Tabaco 15-16 17-18 Total
NO 17-18
NO 15-16 NO 2 3 5
NO 17-18 SI 3 1 4
NO 15-16 Total 5 4 9
SI 17-18
SI 15-16
SI 15-16
Tema 9: Estudios de asociación 8
NO 17-18
Test Chi-cuadrado de No asociación

Frecuencias observadas:   Grupos de Edad


Tabaco 15-16 17-18 Total
NO 2 3 5
SI 3 1 4
Total 5 4 9

Frecuencias esperadas:

  Grupos de Edad
Tabaco 15-16 17-18 Total
NO e11 e12 n1+
SI e21 e22 n2+
Grupos de
Total n+1 n+2 n++   Edad
Tabaco 15-16 17-18
NO 2,78 2,22
SI 2,22 1,78
Tema 9: Estudios de asociación 9
Test Chi-cuadrado de No asociación
frecuencias observadas
  Casos Controles  
H. Alergia 44 15 59
No H. Alergia 6 35 41
  50 50 100

frecuencias “esperadas”
  Casos Controles
H. Alergia 29.5 29.5
No H. Alergia 20.5 20.5

(44 − 29.5)2 (15 − 29.5)2 (6 − 2 0 .5)2 (35 − 2 0 .5)2


𝒕 𝒐𝒃𝒔 = + + + =𝟑𝟒 .𝟕𝟕
29.5 29.5 2 0 .5 2 0 .5
𝒑 =𝑷 ( 𝑻 ≥𝒕 𝒐𝒃𝒔 ) ≈ 𝑷 ( 𝝌 𝟐𝟏 ≥𝟑𝟒 .𝟕𝟕 ) ≤𝟎 . 𝟎𝟎𝟏

Conclusión: se rechaza .

Tema 9: Estudios de asociación 10


Test de no asociación en tablas r x c
Para contrastar la hipótesis de no asociación entre dos variables categóricas , con y categorías
respectivamente, se dispone de las frecuencias observadas al clasificar individuos en una tabla
de contingencia :
… …
Si la hipótesis nula, : no hay asociación, fuera cierta,
… …
entonces la frecuencia “esperada” (estimada) en la casilla
de la tabla es: … … …  … … … …
Una medida de la discrepancia de lo observado, , con lo … …
que cabría “esperar”, , si fuera cierta, es el estadístico:
… … …  … … … …

𝒓 𝒄
(𝒏𝒊𝒋 −𝒆 𝒊𝒋 )𝟐 … …

si el valor de ∑ ∑ 𝒆
Se rechaza
𝑻 = es “grande”. … …
𝒊 =𝟏 𝒋 =𝟏 𝒊𝒋

Si fuera cierta, entonces (chi-cuadrado), aproximadamente.


Por tanto, el p-valor es:

Condiciones: Todos los > 1 y al menos el 80% > 4

Tema 9: Estudios de asociación 11


Ejemplo
• Como parte de un estudio con 3558 pacientes, se quiere evaluar la asociación entre el
estado civil y el consumo de cafeína.
frecuencias observadas,   : -0- 1-150 >150  sum
Casado 652 1537 598 2787
Divorciado, separado o viudo 36 46 38 120
Soltero 218 327 106 651
 sum 906 1910 742 3558

frecuencias “esperadas”, , (estimadas) bajo :


  -0- 1-150 >150  
Casado 709.7 1496.1 581.2 2787
𝒏𝒊 +¿ 𝒏
𝒆 𝒊𝒋 = +𝒋
¿ Divorciado, separado o viudo 30.6 64.4 25.0 120
𝒏++¿ ¿ Soltero 165.8 349.5 135.8 651
  906 1910 742 3558

𝒓 𝒄
(𝒏𝒊𝒋 −𝒆 𝒊𝒋 )𝟐
𝑻 =∑ ∑ El valor observado de es = 43.68
𝒊 =𝟏 𝒋 =𝟏 𝒆 𝒊𝒋
Se rechaza la no asociación

Tema 9: Estudios de asociación 12


Tabla de contingencia
1. Género Total
Masculino Femenino
Recuento 195 184 379
% dentro
No
de 66.3% 73.0% 69.4%
Sedentarismos
1.Género
(Lunes a
Recuento 99 68 167
Viernes)
% dentro
Si
de 33.7% 27.0% 30.6%
1.Género
Recuento 294 252 546
% dentro
Total 100.0
de 100.0% 100.0%
%
1.Género

Pruebas de chi-cuadrado
Valor gl Sig. Sig. exacta Sig. exacta
asintótica (bilateral) (unilateral)
(bilateral)
Chi-cuadrado de Pearson 2.860a 1 .091
Corrección por continuidad b
2.554 1 .110
Razón de verosimilitudes 2.873 1 .090
Estadístico exacto de Fisher .094 .055
Asociación lineal por lineal 2.855 1 .091
N de casos válidos 546
a. 0 casillas (0.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima
esperada es 77.08.
b. Calculado sólo para una tabla de 2x2.
Tema 9: Estudios de asociación 13
Tabla de contingencia Medio (localidad) * Índice de masa corporal (categorías)
Índice de masa corporal (categorías) Total
Bajo Peso Obesidad
peso adecuado Sobrepeso

Recuento 2 85 12 6 105
Rural % dentro de
1.9% 81.0% 11.4% 5.7% 100.0%
Medio (localidad)
Medio (localidad)
Recuento 9 338 50 3 400
Urbano % dentro de
2.2% 84.5% 12.5% 0.8% 100.0%
Medio (localidad)
Recuento 11 423 62 9 505
Total % dentro de
2.2% 83.8% 12.3% 1.8% 100.0%
Medio (localidad)

Pruebas de chi-cuadrado
Valor gl Sig.
asintótica
(bilateral)
Chi-cuadrado de
11.749a 3 .008
Pearson
Razón de
9.041 3 .029
verosimilitudes
Asociación lineal por
3.565 1 .059
lineal
N de casos válidos 505
a. 2 casillas (25.0%) tienen una frecuencia esperada
inferior a 5. La frecuencia mínima esperada es 1.87.

Tema 9: Estudios de asociación 14


Análisis bivariante de variables cuantitativas

Ejemplo: ¿Está relacionada la circunferencia de la


cadera con la circunferencia de la cintura?

A partir de estos datos se calcularía el coeficiente de


correlación

Tema 9: Estudios de asociación 15


Coeficiente de correlación
• Mide el grado de relación lineal entre dos
variables cuantitativas y su sentido (si es
directo o inverso).

• Si la relación lineal es perfecta el coeficiente


vale 1 ó -1.

• Valores próximos a cero indican que no


existe relación entre las variables analizadas
o dicha relación no es lineal.
Interpretación:

• Cuando el resultado esté más próximo a 1 ó -1 la


correlación será más fuerte

• No cuantifica el grado de dicha relación para ello


tendríamos que realizar un modelo de regresión
lineal.

• Es adimensional
Coeficiente de correlación de Pearson:
Se utiliza cuando ambas variables son cuantitativas
siguiendo una distribución normal.
Sxy
r=
Sx  Sy

Sxy Covarianza de las variables X e Y


1 n
S 2
xy = 
(n  1 ) i=1
(x i  x)  (y i  y)

Sx y Sy Desviación típica
18
Correlaciones positivas:
330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

19
Correlaciones negativas:
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

20
Contraste de hipótesis:

Para cada coeficiente obtenido se puede realizar un


contraste de hipótesis para determinar si el
coeficiente es igual a cero :

H 0 : ρ= 0
H 1 : ρ≠ 0
Correlaciones:
Correlaciones

Base máxima Altura máxima Agudeza


ECO ECO Visual (Afecto) PIO (afecto) Edad
Base máxima ECO Correlación de Pearson 1 ,666** -,043 ,017 -,140
Sig. (bilateral) ,000 ,674 ,865 ,167
N 100 100 99 98 99
Altura máxima ECO Correlación de Pearson ,666** 1 -,145 -,016 -,096
Sig. (bilateral) ,000 ,151 ,876 ,340
N 100 101 100 99 100
Agudeza Visual (Afecto) Correlación de Pearson -,043 -,145 1 ,029 -,170
Sig. (bilateral) ,674 ,151 ,772 ,091
N 99 100 101 100 100
PIO (afecto) Correlación de Pearson ,017 -,016 ,029 1 ,011
Sig. (bilateral) ,865 ,876 ,772 ,913
N 98 99 100 100 99
Edad Correlación de Pearson -,140 -,096 -,170 ,011 1
Sig. (bilateral) ,167 ,340 ,091 ,913
N 99 100 100 99 101
**. La correlación es significativa al nivel 0,01 (bilateral).

22
Regresión lineal
Un ejemplo: ¿Es posible “explicar”, “predecir”, “estudiar” cómo se comporta el
valor de la hemoglobina a partir del conocimiento de la edad, en las mujeres de
una cierta población?
Se dispone de los valores de ambas variables en 20 mujeres:

edad HB edad HB

16
20 11.1 45 15.1
22 10.7 49 13.9
25 12.4 54 16.2

hemoglobina
28 14.0 55 16.3

14
28 13.1 57 16.8
31 10.5 60 17.1
32 9.6 62 16.6
12

35 12.5 63 16.9
38 13.5 65 15.7
40 13.9 67 16.57
10

20 30 40 50 60
edad
Tema 9: Estudios de asociación 23
Regresión:
• El análisis de regresión sirve para predecir una
medida en función de otra medida (o varias).
– Y = Variable dependiente
• predicha
• explicada
– X = Variable independiente
• predictora
• explicativa
– ¿Es posible descubrir una relación?
• Y = f(X) + error
– f es una función de un tipo determinado
– el error es aleatorio, pequeño, y no depende de X

24
Modelo de regresión lineal simple:
En el modelo de regresión lineal simple:
Y (dependiente)
X (independiente, explicativa, predictora)

buscamos encontrar una función de X muy simple (lineal) que nos


permita aproximar Y mediante
ˆ  ˆ  ˆ  x  e
y

̂ : ordenada en el origen, constante


ˆ : pendiente de la recta

Y e Ŷ rara vez coincidirán por muy bueno que sea el


modelo de regresión. A la cantidad:
e  y y ˆ se le denomina residuo o error residual (parte
aleatoria que mide el error) 25
Regresión Lineal Simple
y
=α+
β
x+e
Representación gráfica:

26
Representación de los Residuos:
y=ˆ
α
+βˆ
x+e
i i i Residuo

Valor observado Valor pronosticado o estimado

27
Residuos del modelo de regresión

28
• En el diagrama de dispersión se aprecie una clara relación lineal directa.

Correlaciones

Base máxima Altura máxima


ECO ECO

• La tabla de correlaciones nos


Base máxima ECO Correlación de Pearson 1 ,712**
Sig. (bilateral) ,000

muestra que 0,712


N 169 168
Altura máxima ECO Correlación de Pearson ,712** 1
Sig. (bilateral) ,000
N 168 178
**. La correlación es significativa al nivel 0,01 (bilateral).

• El modelo de regresión lineal simple es



Coeficientesa

Coeficientes no
B
a
s
e
m
áx
i
m
aˆ


A
ˆl
t
u
ra

x
i
m
a estandarizados
Modelo B Error típ.
̂  7, 276 1 (Constante) 7,276 ,452


ˆ  0 ,7 73
Altura máxima ECO
a. Variable dependiente: Base máxima ECO
,773 ,059

29
Regresión lineal

La recta de regresión pasa por , “centro de gravedad” de la nube de puntos

La pendiente b de la recta tiene el mismo signo que el coeficiente de


correlación y es una estimación del cambio en el valor medio de la
variable respuesta frente a un cambio en una unidad en la variable explicativa.

El ajuste es tanto mejor cuanto mayor sea el cual representa el


porcentaje de la variabilidad de la respuesta explicada por la regresión.

Tema 9: Estudios de asociación 30


Ejemplo: recta de regresión
• La variabilidad total de la variable respuesta Y se puede
descomponer en una parte explicada por la regresión y en
otra no explicada o variabilidad "residual“

• Esta descomposición se resume en una tabla ANOVA:


Analysis of Variance Table
Response: HB
Df Sum Sq Mean Sq F value Pr(>F)
edad 1 84.804 84.804 61.531 3.239e-07 ***
Residuals 18 24.808 1.378

Tema 9: Estudios de asociación 31


Bondad de ajuste de un modelo
• La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de
determinación R2
• Es una cantidad adimensional que sólo puede tomar valores en [0, 1]

Cuando un ajuste es bueno, R2 será cercano a uno. Cuando un ajuste es malo R2 será
cercano a cero.

• Se le denomina porcentaje de variabilidad explicado por el modelo de regresión. Se


obtiene a partir del cociente entre la variabilidad explicada y la total

• En el modelo lineal simple, R=r

• Un modelo de regresión con R2 ≥ 75% se puede considerar aceptable

• El valor de R2 se ve afectado por la presencia de valores extremos (outliers)

• Si el número de datos es pequeño el valor de R2 es muy sensible a los valores n y k


(tamaño muestral y número de varaibles explicativas respectivamente)
Evolución de r y diagrama de dispersión
Ejemplo: recta de regresión
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.23979 0.79426 10.374 5.06e-09
edad 0.13425 0.01711 7.844 3.24e-07

Multiple R-squared: 0.7737


𝟒 𝒙

16
𝟏𝟑
𝟎 + 𝟎.
𝟐𝟒
𝟖.

hemoglobina
Se estima que el nivel medio de 𝒚=

14
hemoglobina aumenta 1.34
unidades al aumentar la edad de
las mujeres en 10 años.
12
La correlación lineal entre la
edad y el nivel de hemoglobina
se estima en 0.880.
10

20 30 40 50 60
edad

Tema 9: Estudios de asociación 34


• En el diagrama de dispersión se aprecie una clara relación lineal directa.

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,712a ,507 ,504 2,839
a. Variables predictoras: (Constante), Altura máxima ECO

Correlaciones

Base máxima Altura máxima


ECO ECO

• La tabla de correlaciones nos


Base máxima ECO Correlación de Pearson 1 ,712**
Sig. (bilateral) ,000

muestra que 0,712


N 169 168
Altura máxima ECO Correlación de Pearson ,712** 1
Sig. (bilateral) ,000
N 168 178
**. La correlación es significativa al nivel 0,01 (bilateral).

• El modelo de regresión lineal simple es



Coeficientesa

Coeficientes no
B
a
s
e
m
áx
i
m
aˆ


A
ˆl
t
u
ra

x
i
m
a estandarizados
Modelo B Error típ.
̂  7, 276 1 (Constante) 7,276 ,452


ˆ  0 ,7 73
Altura máxima ECO
a. Variable dependiente: Base máxima ECO
,773 ,059

35
• Salario / Educación-experiencia-sexo

• Cosecha / Abono-lluvias-temperaturas

• Ventas / Gastos publicidad-precios

• Gasto / Aceleración-peso-consumo- cilindrada

• Tensión arterial / Consumo de sal- IMC-


ejercicio físico
Regresión lineal múltiple
Un modelo de regresión lineal múltiple tiene
una expresión de la forma:

y
=
α
+
β
1
x
+


x
2
2+
β

x
3
3+
β

x
4
4+
β

x
5
5+

+
β
x
+
k
ke

Componente Aleatorio
modelo
Parámetros del
modelo
Constante del
Variable Dependiente

explicativas
Variables
Componentes de la ecuación:
• Variable Dependiente: variable de interés en el estudio,
aquella que queremos relacionar
• Variables explicativas: Variables que desde el punto de
vista del investigador están relacionadas con la principal
del estudio
• Constante del modelo (, intercept): valor (numérico)
que tomaría la variable dependiente cuando el resto de
variables tomen valor 0 (Valor Desconocido)
Componentes de la ecuación:
• Parámetros (1, 2,…, k): indica el peso relativo de esa
variable en la ecuación, representa el incremento por
término medio en la variable respuesta por cada unidad
adicional en la variable explicativa (Valores Desconocidos)

• Componente Aleatoria (e): Residuos del modelo,


diferencias entre las respuestas observadas y las
predichas por el modelo (parte que las variables
independientes no son capaces de explicar)
Case study: Depression in Older People: Visual Impairment
and Subjective Ratings of Health
The aim of this study was to investigate associations between physical and visual
disability and depression.
We analyzed cross-sectional baseline data from 391 participants aged 75 years with
visual acuity of 6/24 (20/80) or less, recruited for a randomized controlled trial of
interventions to prevent falls (the VIP trial).
Regression models were developed to investigate the association between
depression scores and physical, psychological, and visual disability.
Variables
Response: Geriatric depression scale-15 item (GDS-15) to evaluate the prevalence of
depression
Explanatories: Research site; Gender; Age; Visual function: (VF-14, visual function index-14
item); Physical disability: {sit to stand (able/disable), HAP, human activity profile, PCS, physical
component summary score of the SF-36; MFES, modified falls efficacy scale, 4-test balance
scale (highest level achived, scored 1-4)}; Psychological state: {STAI-6, state trait anxiety scale-
6 item, MCS, mental component summary score of the SF-36}; Visual acuity: {level of vision
loss: moderate, severe, profound, near total, total}; Living situation: {NEADL, Nottingham
extended activities of daily living; Living at home/institution}; Ethnicity; Number of
medications; Use of antidepressants. Tema 9: Estudios de asociación 40
Case study: Depression in Older People: Visual Impairment
and Subjective Ratings of Health
TABLE 2. Initial regression model explaining GDS-15 score
Unstandardized Coefficients B SE p
Research site (Dunedin/Auckland) 0.156 0.268 0.561
Gender (male/female) 0.401 0.236 0.090
Sit to stand (able/not able) 0.520 0.370 0.160
Age (years) 0.014 0.023 0.553
HAP score 0.022 0.011 0.040
NEADL score 0.078 0.043 0.073
VF-14 score 0.215 0.087 0.014
STAI-6 score 6.064 1.314 0.000
MFES score 0.034 0.093 0.716
PCS score 0.060 0.013 0.000
MCS score 0.143 0.014 0.000
Level of vision loss (moderate,severe, profound,
near total, total) 0.117 0.113 0.301
Ethnicity (New Zealand European/other) 0.046 0.248 0.852
Total number of medications 0.213 0.171 0.215
Takes antidepressants (yes/no) 0.135 0.361 0.709
Living situation (living athome/institution) 0.424 0.185 0.022
4-test balance scale (highest level, scored as 1–4) 0.261 0.138 0.058
B, beta; SE, standard error;
Visual function, as measured by the VF-14, physical disability, and psychological state, as measured by the STAI-6
and SF-36, were associated with depressive symptomatology, whereas visual acuity, age, gender, living
situation, ethnicity, and use of antidepressants were not associated.

Tema 9: Estudios de asociación 41


Case study: Depression in Older People: Visual Impairment
and Subjective Ratings of Health

Final multiple regression model exploring relative contribution of visual, physical,


and mental health disability factors to GDS-15 Score

R2 B SE p
Constant 10.506 1.945 0.000
Mental health factors
Mental health (SF-36 MCS score) -0.143 0.014 0.000
Anxiety (STAI-6 score) 0.125 5.427 1.285 0.000
Physical health factors
Physical health (SF-36 PCS score) -0.059 0.012 0.000
Physical activity (HAP score) 0.341 -0.021 0.009 0.018
Visual function (VF-14 score) 0.400 -0.220 0.064 0.001
Lives with others versus lives alone -0.159 0.216 0.446
Lives in retirement versus lives alone -0.551 0.472 0.047
Overall R2 0.421

Tema 9: Estudios de asociación 42


Case study: Depression in Older People: Visual Impairment
and Subjective Ratings of Health

Physical, visual, and psychological factors collectively explained


41% of the variance in the depression score in a linear regression
model (R2 0.421,adjusted R2 0.410, F (7,382) 39.680, p 0.001).
Depression was not related to age, gender, living situation,
ethnicity, or number of prescription or antidepressant medications
taken.

Tema 9: Estudios de asociación 43

También podría gustarte