Apunte Modelos Lineales

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 38

Facultad de Ciencia

Departamento de Matemática y Ciencia de la


Computación

MODELOS LINEALES
“Parte I - Explicando la teoría”

Segundo Semestre 2023

Autor: Diego Cariaga Román


Índice
1. Regresión Lineal Simple 4
1.1. Supuestos del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Estimación de los Parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Estimación por mínimos cuadrados ordinarios (MICO) . . . . . . . . . . . . 4
1.3. Ajuste del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1. Coeficiente de determinación R2 . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Regresión Lineal Múltiple 7


2.1. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Estimación por mínimos cuadrados ordinarios (MICO) . . . . . . . . . . . . 8
2.2. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1. ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Coeficientes de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1. Correlación simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2. Correlación Múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.3. Correlación Parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.4. Correlación Semiparcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4. Confusión e Interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5. Criterios de selección de variables del modelo . . . . . . . . . . . . . . . . . . . . . 12
2.5.1. Especificar el máximo modelo a considerar: . . . . . . . . . . . . . . . . . . 12
2.5.2. Especificar un criterio para la selección de un modelo: . . . . . . . . . . . . 12
2.5.3. Especificar una estrategia para aplicar el criterio . . . . . . . . . . . . . . . 13
2.5.4. Evaluar la confiabilidad del modelo obtenido . . . . . . . . . . . . . . . . . 14

3. Diagnostico en Regresión 15
3.1. De los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1. Tipos de residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2. Observaciones influyentes o Valores atípicos . . . . . . . . . . . . . . . . . . 16
3.2. Análisis de supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1. Normalidad de los errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2. No autocorrelación de los errores . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3. No multicolinealidad de variables explicativas/predictoras . . . . . . . . . . 20
3.2.4. Error de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.5. Extrapolación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4. Regresión Logística 21
4.1. Odds y Razón de disparidad (OR) . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3. Dócimas para el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.1. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.2. Test de Razón de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.3. Devianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.4. Pseudo R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4. Análisis de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.1. Sensibilidad y Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5. Curva ROC - Indicadores de discriminación . . . . . . . . . . . . . . . . . . . . . . 25
4.5.1. Punto de Corte Óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.6. Estimación mediante intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.6.1. Intervalo para los coeficientes del modelo . . . . . . . . . . . . . . . . . . . 26
4.6.2. Intervalo para la tasa de incidencia . . . . . . . . . . . . . . . . . . . . . . . 26
4.6.3. Intervalo para la predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1
5. Regresión Poisson 27
5.1. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2. Variable de Exposición (offset) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.3. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.4. Dócimas para significancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4.1. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4.2. Test de Razón de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.5. Tasa de riesgo relativo (RR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.5.1. Variables Categóricas y numéricas . . . . . . . . . . . . . . . . . . . . . . . 29
5.6. Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.6.1. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.6.2. Equidispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7. Estimación mediante intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.7.1. Intervalo para los coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.7.2. Intervalo para la tasa de incidencia . . . . . . . . . . . . . . . . . . . . . . . 30
5.7.3. Intervalo para la predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6. Análisis de sobrevivencia 31
6.1. Función de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.1.1. Función de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.1.2. Tiempo de vida medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2. Estimación mediante Kaplan - Meier . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

7. Regresión de Cox 33
7.1. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.2. Supuesto de Riesgos Proporcionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.2.1. Residuos de Schoenfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.3. Comparación de m tratamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

8. Referencias 37

2
Resumen
Con la intensión de ser una guía y fuente de acceso a conocimientos del curso de modelos lineales se
presenta el siguiente escrito. Este contiene elementos teóricos básicos y más elaborados, así como
su implementación en el Software R. La idea es siempre poder realizar las conclusiones suficientes
con los datos que se obtengan.

Los modelos lineales son una rama de la estadística y se caracterizan por reproducir eventos o
fenóomenos de la realidad a través de datos. Un modelo contiene variables independientes o ex-
plicativas, que van a ayudar a explicar el comportamiento de la variable respuesta. Como solo es
un modelo matematico, no explica en su totalidad a la realidad, por lo que dicho modelo tambien
debe incluir el termino del error, el cual es una variable aleatoria.

Existen distintos tipos de modelos que se diferencian por el tipo de variable respuesta y el enfoque
que se desea estudiar. Se abarcará la regresión lineal múltiple, en el cual la variable respuesta es
una variable cuantitativa; la regresión logística, en el cual la variable respuesta es de tipo binaria;
la regresión Poisson, en el cual la variable respuesta es de tipo conteo y la regresión de Cox,
en el cual se intenta modelar tiempos de supervivencia. De todos estos modelos se verán sus
respectivas caracterásticas, supuestos, diagnósticos, estimaciones, inferencias, predicciones, entre
otros aspectos.

3
1. Regresión Lineal Simple
En regresión lineal simple se analiza la relación entre dos variables cuantitativas. Los objetivos
fundamentales para este análisis son: determinar si las respectivas variables están asociadas y en
que sentido se da dicha asociación, y, estudiar si los valores de una variable pueden ser utilizados
para predecir el valor de la otra.

Y →
− respuesta, dependiente, endógena, explicada
X−
→ predictora, independiente, exógena, explicativa

1.1. Supuestos del Modelo


Para el modelo planteado se necesitan estimaciones, que son funciones muestrales, para los para-
metros

1.- Valor esperado: El valor esperado de la perturbación poblacional, condicionado a los valores
de las variables explicativas es cero, E(ϵi |xi ).

2.- No estocásticas: Las variables exógenas son no-estocásticas, de ser estocásticas estarán
distribuidas independientemente de las perturbaciones E(ϵi , xi ).

3.- Homocedasticidad: La varianza condicional de ϵi es una constante. V ar(ϵi |xi ) = σy|x


2

4.- No autocorrelación: Las perturbaciones son no correlacionadas E(ϵi , ϵj ) = 0, con i ̸= j

5.- Modelo correcto: El modelo supuesto corresponde a E(y|x) = µy|x = β0 + β1 X

6.- Normalidad: Los errores distribuyen normal, con este supuesto se puede hacer inferencia
estadística. ϵi ∼ N (0, σ 2 )
Se plantea análizar el modelo de regresión dado por:

E(y|x) = µy|x = β0 + β1 X

1.2. Estimación de los Parámetros


Para el modelo planteado se necesitan estimaciones, que son funciones muestrales, para los pa-
2
rámetros β0 , β1 y σy|x i
. Una vez conocidas las estimaciones, se aplican a los datos obteniendo la
ˆ
ecuación yi = βˆ0 + βˆ1 X1 que corresponderá al valor estimado o valor predicho por la variable x1 .
Por otro lado, la diferencia entre el valor real y el valor predicho ϵi = yi − yˆi se corresponde con
los residuos asociados a los valores de cada x

1.2.1. Estimación por mínimos cuadrados ordinarios (MICO)


Se estiman los parámetros de forma que los residuos sean lo más pequeños posible, vale decir,
minimizar la distancia entre los valores observados (reales) y los predichos por la recta estimada.

X
n X
n
Se minimiza la suma de cuadrados residual SCResiduos = (yi − yˆi )2 = (yi − βˆ0 − β1 x1 )2 ,
i=1 i=1
realizando los calculos correspondientes, las estimaciones quedan:

X
n
(xi − X̄)(yi − Ȳ )
i=1 cov(x, y)
βˆ1 = = ; βˆ0 = Ȳ − βˆ1 X̄ (1)
X
n
V (X)
(xi − X̄) 2

i=1

4
Por otro lado

X
n X
n
(yi − yˆi )2 ϵ2i
σˆ2 Y |X = i=1
= i=1 2
= Sy|x (2)
n−2 n−2
Donde tenemos que:

σˆ2 Y |X : Es el “error entandar de la estimación”.

βˆo : Es el intercepto, este representa el punto en el cual la recta de regresión intercepta al eje
Y, si esta fuera del recorrido no tiene una interpretación clara.
βˆ1 : Es la pendiente de la recta de regresión, esta representa la cantidad de incremento o
decrecimiento en la E(Y|X) por cada unidad en que se incrementa X.

método de máxima verosimilitud: Se obtienen los mismos resultados al estimar los paráme-
tros con el.

1.3. Ajuste del Modelo


Una vez ajustado el modelo, es decir, una vez obtenido yˆi = βˆ0 + βˆ1 x1, es necesario conocer la
calidad de este, para eso consideramos la variabilidad total de Y , y puesto que no depende del
modelo ajustado, esta se puede descomponer de la siguiente forma:

X
n X
n X
n
(yi − Ȳ )2 = (yˆi − Ȳ )2 + (yi − yˆi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Suma de cuadrados Totales (SCT) Suma de cuadrados del Modelo (SCM) Suma de cuadrado Residual (SCR)

Esta forma de descomponer la variabilidad total, da lugar a la conocida como tabla ANOVA, que
se presenta a continuación.

Fuente de variación gl Suma de Cuadrados (SC) SCM Estadístico


X
n
(yˆi − Ȳ )2
X
n
Modelo 1 (yˆi − Ȳ )2 i=1
1
X
n

i=1
(yˆi − Ȳ )2
X
n i=1
(yi − yˆi )2 1
X
n Fobs =
X
n
Residuos n−2 (yi − yˆi ) 2 i=1
n−2 (yi − yˆi )2
i=1
Xn i=1
Total n−1 (yi − Ȳ )2 n−2
i=1

Cuadro 1: Tabla ANOVA para regresión lineal simple

Es a partir de esta “Tabla ANOVA” que se contrasta la hipótesis de significancia del modelo, la
cual tiene la siguiente forma.

H0 : β 1 = 0 V /S H1 : β1 ̸= 0 (3)
Donde se tiene que:
CM M
∼ F1,n−2
Fobs =
CM R
Además, considerando una significancia α (conocida), se presenta la siguiente región crítica:

5
C = {F |Fobs > F1,n−2,1−α }
Enseguida se puede calcular el P-Valor como P (F1,n−2,1−α ) ≥ Fobs ), donde si este valor es menor
a nuestro α, se dice que existe evidencia estadística suficiente para dudar de la veracidad de la
hipótesis nula H0 .

Para cada β es posible calcular un intervalo confidencial mediante las siguientes expresiones:
 q 
ˆ ˆˆ
IC(β1 , 1 − α) = β1 ± t(n−2,1−(α/2)) V ( β1)
 q 
ˆ
IC(β0 , 1 − α) = βˆ0 ± t(n−2,1−(α/2)) V ( ˆβ0)

1.3.1. Coeficiente de determinación R2


Es una medida que refleja la bondad del ajuste de un modelo a la variable que pretender explicar, es
decir, se interpreta como “el porcentaje de varianza de Y que es explicada por X”, este coeficiente
oscila entre 0 y 1, y mientras más cerca de 1 se encuentre su valor, mayor podemos decir que será
el ajuste del modelo a la variable respuesta. De forma inversa, cuanto más cerca de cero, menos
ajustado estará el modelo y, por tanto, menos fiable será.

Considerando lo siguiente podemos construir el coeficiente R2

X
n X
n X
n
(yi − Ȳ )2 (yˆi − Ȳ )2 (yi − yˆi )2
i=1 i=1 i=1
= +
X
n X
n X
n
(yi − Ȳ )2 (yi − Ȳ )2 (yi − Ȳ )2
i=1 i=1 i=1
X
n X
n
(yi − yˆi )2 (yˆi − Ȳ )2
i=1 i=1
1− =
X
n X
n
(yi − Ȳ )2 (yi − Ȳ )2
i=1 i=1
X
n
(yi − yˆi )2
i=1
R2 = 1 −
X
n
(yi − Ȳ )2
i=1
X
n
(yˆi − Ȳ )2
i=1
R2 =
X
n
(yi − Ȳ )2
i=1
SCM SCR
R =2
=1−
SCT SCT
Donde en un MRLS √ (Modelo de Regresión Lineal Simple) el coeficiente de determinación R2 se
corresponde con r = R2 , siendo r el coeficiente de correlación lineal de Pearson

6
2. Regresión Lineal Múltiple
El modelo de regresión lineal múltiple pretende establecer una relación lineal entre una variable
respuesta Y con un conjunto de predictores X1 , ..., xp independientes entre sí para un conjunto de
n observaciones, un objetivo adicional es analizar si los valores de la variable independiente pueden
ser utilizados para predecir el valor de la variable respuesta

El modelo para la i − esima observación viene dado por la siguiente expresión:

Yi = β0 + βi1 X1 + ... + βj Xij + ... + βp Xip + ϵi i ∈ 1, 2, ..., n (4)


Donde:

Yi : Corresponde a la i − sima observación de la variable dependiente.

β0 : Corresponde al valor de la variable respuesta cuando los valores de la variable predictora


son cero.
βj : Corresponde al cambio de la variable respuesta (Yi ) por cada unidad de la j − sima
variable independiente mientras las demás permanecen constantes
Xij : Corresponde a la i − sima observación de la j − sima variable independiente.

ϵi : Corresponde a la variable aleatoria referente a la i − sima observación denominada


componente de error aleatorio

Respecto de los errores aleatorios, estos deben cumplir los siguientes supuestos:

1. E(ϵi ) = 0 para i ∈ 1, 2, ..., n, esto es identico a decir que E(Yi ) = β0 + βi1 X1 + ... + βp Xip

2. V (ϵi ) = σ2 para i ∈ 1, 2, ..., n, lo que significa que V (Yi = σ 2


3. Cov(ϵi , ϵj ) = 0 para todo i ̸= j, vale decir, Cov(Yi , Yj ) = 0

Considerando que ahora contamos con p variables independientes, se adopta una forma matricial
de escritura.

Yn×1 = Xn×(p+1) β(p+1)×1 + ϵn×1 (5)


o bien, se puede expresar como

⃗ = Xβ⃗ + ⃗ϵ
Y
Donde X es considerada una matriz constante de rango completo, también es denominada matriz
de diseño.
Esta escritura se traduce como:
       
Y1 1 x1,1 x2,1 ··· xp1 β0 ϵ1
 Y2  1 x1,2 x2,2 ··· xp2   β1   ϵ 2 
       
 ..  =  .. .. .. .. ..  ×  ..  +  .. 
 .  . . . . .  . .
Yn 1 x1n x2n ··· xpn βp ϵn

2.1. Estimación de los parámetros


Los parámetros β⃗ y σ 2 son constantes desconocidas, por esta razón se busca estimar dichos pará-
metros.

7
2.1.1. Estimación por mínimos cuadrados ordinarios (MICO)
La idea principal fue desglosada en la sección 1.2.1, la diferencia fundamental es que el enfoque
matricial plantea la siguiente ecuación a minimizar, expresada como:

X
n
⃗ϵt⃗ϵ = (Y ⃗ ′ (Y
⃗ − Xβ) ⃗ =
⃗ − Xβ) ϵ2i
i=1

Teorema -. Si Y ⃗ = Xβ⃗ + ⃗ϵ, donde X es una matriz de de n × (p + 1), luego el vector de valores
⃗′
β = (β0 , β1 , ..., βp ) que minimizan la ecuación anterior viene dado por:
ˆ
β⃗ = (X’X)−1 × X’

Estimación para σ 2 : Es posible definir un estimador insesgado para σ 2 basado en los estimado-
res por mínimos cuadrados, se tiene que σ 2 es el mismo para cada Yi y que E(ϵi ) = 0 i = 1, ..., n.
Además, σ 2 se define como E[Yi −E(Yi )]2 , de donde se obtiene.

σ 2 = E[Yi −Xi′ β]
⃗2

Pudiéndose estimar insesgadamente con la siguiente expresión:

⃗ Y
Y’ ⃗ − β⃗ˆ′ X’Y

σˆ2 =
n−k−1

2.2. Ajuste del modelo


De la misma forma que en regresión lineal simple interesa saber si el modelo es apropiado, para
esto la variabilidad total de Y se descompone de esta manera:

X
n X
n X
n
(yi − Ȳ )2 = (yˆi − Ȳ )2 + (yi − yˆi )2
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCM SCR

Como estamos trabajando de forma matricial, esto queda expresado como:

Y’Y − n(Ȳ)2 = β̂ ′ X’Y − n(Ȳ)2 + Y’Y − β̂ ′ X’Y


| {z } | {z } | {z }
SCT SCM SCR

2.2.1. ANOVA
Esta descomposición de la variabilidad se puede resumir en la que llamaremos “Tabla ANOVA
de regresión lineal múltiple”

Fuente de variación gl SC SCM Estadístico


βˆ′ (X’Y)−n(Ȳ)2
Modelo p β̂ ′ (X’Y) − n(Ȳ) 2
p βˆ′ (X’Y)−n(Ȳ)2
p
βˆ′ (X’Y)−n(Ȳ)2 Fobs =
Residuos n − (p + 1) (Y’Y) − β̂ ′ (X’Y) n−(p+1)
βˆ′ (X’Y)−n(Ȳ)2
n−(p+1)
Total n−1 (Y’Y) − n(Ȳ)2

Cuadro 2: Tabla ANOVA para regresión lineal múltiple

Donde se observa que σˆ2 Y |X = CM R y Fobs = CM M


CM R ∼ Fp,n−(p+1)

8
Dócimas de hipótesis en regresión lineal múltiple:
1 Test de hipótesis global: Este test permite evaluar si el conjunto de todas las variables
independientes X1 , X2 , ...Xp explican o no la variabilidad del modelo. La dócima proviene de
la tabla ANOVA, y se plantea como:

H0 : β0 = β1 = ... = βp = 0 V /S H1 : βj ̸= 0, para algún j, j = 1, ..., p

Donde sabemos que el estadístico de prueba tiene la siguiente forma:

CM M
Fobs = ∼ Fp,n−(p+1)
CM R
Una forma alternativa de calcular el estadístico de prueba es utilizar el ya definido R2

R2 × (n − (p + 1))
Fobs =
(1 − R2 ) × p

Con un nivel de significancia conocido se define la siguiente región crítica:

C = {F |Fobs > F(p,n−(p+1),1−(α/2)) }

Finalmente, se puede calcular el p−valor = P (F(p,n−(p+1) > Fobs ) en donde si el p−valor < α
se rechaza la hipótesis nula.
2 Test de hipótesis individual: Si en el test anterior se rechaza la hipótesis nula significa que
al menos hay un parámetro significativo para el modelo, para ver cual o cuales parámetros
aportan información al modelo se debe realizar la siguiente dócima de hipótesis:

H0 : βj = 0 V /S H1 : βj ̸= 0, ∀j = 1, ...p

Se considera el estadístico construido de la siguiente forma.

βˆj
t= q ∼ t(n−(p+1))
ˆˆ
V ( βj)

Si el nivel de significancia es conocido se presenta la siguiente región crítica:

C = {t|tobs > t(n−(p+1),1−(α/2)) }

Se puede considerar un intervalo de confianza para los βj , tal y como se muestra a continua-
ción:
 q 
ˆ
IC(βj , 1 − α) = βj ± t(n−(p+1),1−(α/2)) V ( ˆβj)

Al igual que con el test global, se puede calcular el p − valor = 2P (t(n−(p+1) > tobs ). Donde
si el p − valor < α se rechaza la hipótesis nula.

3 Test de hipótesis para un conjunto de parámetros: Este test compara dos modelos,
uno completo que posea todas las variables (p), y uno restringido con k de las p variables,
tal como se muestra a continuación

• Modelo Completo: Y = β0 + β1 X1 + ... + βk Xk + ... + βp Xk + ϵc


• Modelo Reducido: Y = β0 + β1 X1 + ... + βk Xk + ϵr

9
La dócima de hipótesis es la siguiente:

H0 : βk+1 = βk+2 = ... = βp = 0 V /S H1 : βj ̸= 0 para algún j , j = k +1, k +2, ..., p, k < p

Para este caso, el estadístico de prueba se construye como se muestra a continuación:

SCRr − SCRc
p−k
Fparcial = ∼ Fp−k,n−(p+1)
SCRc
n − (p + 1)

Al igualq que en los casos anteriores, si el nivel de significancia α es conocido, se tiene la


siguiente región crítica:

C = {F |Fobs > Fp−k,n−(p+1),(1−α) }

Por otro lado, se puede calcular el p−valor = P (Fp−k,n−(p+1) > Fobs ) donde si el p−valor < α
se rechaza la hipótesis nula, por lo tanto el modelo más adecuado sería el completo, cuyo error
va a ser menor en comparación al modelo reducido.

NOTA: pueden considerarse las hipótesis como H0 : El modelo reducido es el mejor V/S
H1 : El modelo completo es el mejor

2.3. Coeficientes de correlación


Se considera un modelo de regresión lineal múltiple, en donde existen diferentes medidas de aso-
ciación entre las variables, las cuales se desglosarán a continuación.

2.3.1. Correlación simple


Se define el coeficiente de correlación lineal de Pearson Muuestral simple entre Xj y Xj ′ como:

X
n
(Xij − X̄j )(Xij ′ − X̄j )
\
Cov(X ij , Xij ′ )
rXj ,Xj′ = qP i=1
Pn = ; j, j ′ = 1, ..., p + 1
n
− X̄j )2 − X̄j )2 SXij SXij′
i=1 (Xij i=1 (X ij ′

A partir de estos coeficientes de correlación simple, se puede formar una matriz de correlaciones,
dicha matriz es simétrica y se ve de la siguiente forma:
 
1 r1,2 · · · r1,p+1
 r1,2 1 
· · · r2,p+1 

R(p+1)×(p+1) =  . . .. . 
 .. .. . .. 
rp+1,1 rp+1,2 · · · 1

2.3.2. Correlación Múltiple


Mide la asociación de una variable dependiente Y con un conjunto de variables independientes, se
denota por: RY |X1 ,...,Xp

Sea Ybi , con i = 1, ..., n el conjunto de valores predichos una vez que se ajustado el modelo de
regresión lineal múltiple, el coeficiente de correlación múltiple corresponde entonces a:
SCM SCT − SCR
RY2 |X1 ,...,Xp = =
SCT SCT

10
2.3.3. Correlación Parcial
Esta mide la asociación entre una respuesta de interés y algún factor principal, bajo el efecto de
otras variables

De primer Orden: Correlación parcial controlado por X2 en presencia de X1 :

r(Y,X1 ) − r(Y |X2 ) r(X1 |X2 )


r(Y,X1 |X2 ) = r  
1 − r(Y,X
2
2)
1 − r 2
(X1 ,X2 )

De segundo Orden: Correlación parcial controlado por X2 y X3 en presencia de X1 :

r(Y,X |x ) − r(Y,X2 |X3 ) r(X1 ,X2 |X3 )


r(Y,X1 |X2 ,X3 ) = r 1 3  
1 − r(Y,X
2
2 |X3 )
1 − r 2
(X1 ,X2 |x3 )

En este caso tenemos que:

• r(Y,X1 |X3 ) : Correlación parcial controlado por X3 en presencia de X1


• r(Y,X2 |X3 ) : Correlación parcial controlado por X3 en presencia de X2
• r(X1 ,X2 |X3 ) : Correlación parcial controlado por X3 en presencia de X2

2.3.4. Correlación Semiparcial


Mide la contribución de variables nuevas que se podrán introducir en el modelo, en presencia de
las variables ya existentes en el modelo.

De primer Orden: La correlación semiparcial de incluir X2 en presencia de X1 viene dada


por:

SCR(Y |X1 ) − SCR(Y |X1 , X2 )


rY (X2 |X1 ) = r(Y |X1 ,X2 ) − r(Y |X1 ) =
SCT
De segundo Orden: La correlación semiparcial de incluir X3 en presencia de X1 y X2 viene
dada por:

SCR(Y |X1 , X2 ) − SCR(Y |X1 , X2 , X3 )


rY (X3 |X1 ,X2 ) = r(Y |X1 ,X2 ,X3 ) − r(Y |X1 ,X2 ) =
SCT

2.4. Confusión e Interacción


Existen conceptos como la confusión e interacción, que están relacionados con uno de los objetivos
del uso de modelos de regresión, vale decir, que están relacionados con evaluar la asociación entre
una respuesta continua (Y ) y uno o más factores de interés (exposiciones)

Confusión: La variable de confusión es una covariante, la cual al estar o no en el modelo, hace


que la asociación de la respuesta con el efecto de interés se vea alterada.
Interacción: Es una condición en donde la relación de interés es diferente para los distintos
niveles de la variable, es decir, cambian la intensidad o el sentido de la relación entre el factor
de exposición y la variable respuesta. (esta puede ser evaluada estadísticamente)

11
2.5. Criterios de selección de variables del modelo
Si se considera una variable Y como variable respuesta, y se presenta un conjunto X ⃗ = X1 , .., Xp
de variables que acompañan a nuestra variable respuesta (independientes), es importante poder
obtener un subconjunto de variables X ⃗ que nos permita realizar un buen ajuste y poder describir
de mejor forma Y . Es importante tener presente que los mecanismos de selección de variables
no son sencillos de especificar ya que estos dependen en gran medida de que tipo de modelos se
desea obtener; predicativo o explicativo. Sin embargo, siempre que se tengan presentes 2 modelos
similares se escogerá de entre ellos el que entregue una explicación más sencillas y que requiera en
si una menor cantidad de supuestos, esto se llama principio de parsimonia.

Con el objetivo de conseguir modelos confiables con respecto a predecir o explicar una muestra
Kleinbaum, Kupper y Muller proponen lo siguiente a la hora se seleccionar variables:

1. Especificar el máximo modelo a considerar


2. Especificar un criterio para la selección de un modelo
3. Especificar una estrategia para aplicar el criterio
4. Realizar el análisis expuesto
5. Evaluar la confiabilidad del modelo obtenido

Siguiendo estos pasos se tiene lo siguiente.

2.5.1. Especificar el máximo modelo a considerar:


El máximo modelo es aquel que se confecciona considerando todas las variables independientes
presentes, éste se considera como el modelo “correcto” para la población, ya que el coeficiente de
determinación obtiene un valor muy elevado.

Yi = β0 + β1 x1i + ... + βp xpi + ϵi , i = 1, ...n


Es importante considerar el tamaño de la muestra, ya que si se presentan pocas observaciones el
modelo no podrá tener una cantidad elevada de variables predictoras (esto ya que n − p − 1 > 0,
i.e, n < p + 1)1 .

2.5.2. Especificar un criterio para la selección de un modelo:


Se quiere escoger una medida que pueda ser de utilidad a la hora de comparar los modelos que
se van a considerar en el proceso de selección. Dentro de las medidas comunes o más usadas se
encuentran:

1. R2 ajustado: El coeficiente de correlación múltiple al cuadrado corregido entrega una va-


riación de la variable dependiente ( % de variación), sin embargo, considerando el número
de variables incluidas en el modelo. Es sabido que el R2 aumenta a medida que se incluyen
más variables explicativas al modelo, inclusive si estas no son significativas para este, lo que
trae un problema, ya que aumenta la cantidad de parámetros a estimar, sin resguardar la
2
significancia de estos. Como solución a este problema surge el Rajus dado por:

n−1
2
Rajus = 1 − (1 − R2 )
n−p−1
2. F parciales: Con esto podemos comparar el modelo completo con p variables con uno res-
tringido a k variables (k < p), y dicha estadística es:

SCRrestringido − SCRcompleto /(p − k)


Fparcial = ∼ F(p−k;n−p−1)
SCRcompleto /(n − p − 1)
1 Un regla es que se disponga de al menos 10 observaciones por cada variable independiente del modelo

12
Con está estadística se evalúa la perdida en el ajuste al eliminar variables2 .
3. Cp Mallow: El método indica que a partir de un modelo de p variables, y uno reducido de
k es posible compararlos mediante la siguiente expresión:

SCRreducido
Cp = − n − 2(k + 1)
CM Rcompleto

En este caso es recomendable escoger aquel modelo con un menor Cp 3 .

4. AIC: La estadística AIC se basa en la teoría de la información que contiene a la función de


verosimilitud del modelo, es una medida de la calidad relativa de un modelo Estadístico para
un conjunto dado de datos. Mientras más pequeño sea el valor de AIC mejor es la bondad
de ajuste del modelo. El AIC viene dado por:

AIC = 2p − 2 ln(L(β̂))

SCR
AIC = n + ln(2π) + n ln( ) + 2p
n
Donde L corresponde a la función de verosimilitud del modelo.
5. BIC: El criterio de información Bayesiana, de igual forma que el AIC, es un criterio que
involucra la información contenida en la verosimilitud del modelo, para obtener el BIC se
tiene:

BIC = p ln(n) − 2 ln(L)

Donde L es la función de verosimilitud del modelo. Al igual que en el AIC, mientras más
peque no sea el valor de BIC mejor es la bondad de ajuste del modelo4 .

6. CMR: Aqí se considera el cuadrado medio residual CM R = σY2ˆ|X , por lo tanto, modelo a
preferir/escoger es aquel con menor varianza residual.

2.5.3. Especificar una estrategia para aplicar el criterio


Cuando se deben seleccionar variables que se pretende formen parte del modelo, es posible seguir
diferentes procedimientos, entre ellos se pueden destacar los siguientes.

1. Backward (dirección hacia atrás): Con esta estrategia estamos eliminando variables partiendo
desde un modelo general, dicha eliminación se realiza hasta que la totalidad de las variables
del modelo sean significativas, se presentan las 3 etapas de este procedimiento:

a) Ajustar un modelo con p variables, obtener los F y t parciales


b) Seleccionar el menor F o t parcial, y comparar este valor con el F o t critico para el
nivel de significancia α previamente establecido. Si el p − valor asociado al F o t parcial
escogido es mayor a α, se avanza al paso 3 en caso contrario se termina el proceso.
c) Eliminar la variable y ajustar un modelo sin esa variable.

2 Si las diferencias entre las sumas de cuadrados residuales es pequeña usar el modelo más pequeño
3o bien seleccionar aquel modelo en donde Cp ≈ p
4 Desde un punto de vista Bayesiano, es natural adoptar como mejor modelo el que tenga mayor probabilidad a

posteriori.

13
2. Forward (dirección hacia adelante): A diferencia de la estrategia anterior, ahora la idea con-
siste en agregar/incluir variables en cada etapa, esto hasta que ninguna de las variables que
no ingresaron justifiquen su inclusión al modelo como algo significativo. Las etapas constan
de:

a) Ingresar al modelo la variable que tenga mayor relación lineal con l avariable respuesta.
Ajustar el modelo y evaluar la contribución de la variable agregada. Si el F global es
significativo, la variable ingresada queda en el modelo, en caso contrario se detiene el
proceso en esta etapa.
b) Se calculan los coeficientes de correlación parcial de cada variable que aun no ingresa
al modelo, en presencia si, de la variable ingresada anteriormente. Elegir la variable con
mayor correlación parcial y agregarla al modelo.
c) Ajustar el nuevo modelo, evaluar nuevamente la contribución de la variable que ingre-
sa. si F global no es significativo, el proceso se detiene, en caso contrario la variable
permanece y se repite el paso 2.

3. Stepwise (Paso a paso): En esta estrategia tenemos una combinación de las dos anteriores,
se inicia de igual manera que el Forward pero tras cada incorporación se realiza un test de
extracción de predictores no útiles como en el Backward. La ventaja es que a medidas que
se agregan los predictores si alguno de los ya establecidos en el modelo deja de contribuir a
este, el criterio lo elimina.

(falta)

Realizar el análisis expuesto Una vez seleccionado el modelo, el criterio y la estrategia de


selección, corresponde continuar con el análisis

2.5.4. Evaluar la confiabilidad del modelo obtenido


Una de las técnicas más usada para evaluar la confiabilidad de un modelo consiste en subdividir
la muestra. Si se esta en precencia de una muestra de n observaciones, los pasos son los siguientes.

1. Subdividir la muestra en 2 submuestras de tamaños n1 y n2 . Se trabaja con la primera sub-


muestra y se utiliza la segunda submuestra para hacer validación de los resultados obtenidos.
2. Se ajusta el modelo con los datos de la primera submuestra, i.e, se estiman los parámetros.
Sean βˆo , ..., βˆp las estimaciones de los parámetros, obteniendo

X
p
Yc ˆ
1i = β0 + β̂i x1i i = 1, ..., n1
i=1

Donde el (1) indica que pertenecen a la primera submuestra5

3. Utilizar el modelo estimado para predecir los valores de la segunda submuestra.

X
p
Yc ˆ
2i = β0 + β̂i x1i i = n1 + 1, n1 + 2, ..., n
i=1

4. Calcular el coeficiente de determinación R22 , llamado coeficiente de validación cruzada


5. Se obtiene la diferencia entre R12 y R22 . Se acepta como modelo confiable si la diferencia es
menor a un 10 % (0.10).
5 Calcular el R12

14
3. Diagnostico en Regresión
A continuación se consideran varios enfoques para verificar la adecuación, validez del modelo y las
suposiciones correspondientes en un modelo de regresión. Además se realiza un diagnóstico respecto
a valores atípicos y la influencia de estos en el modelo.

3.1. De los residuos


El vector de residuos ⃗e no es observable, por ende se estima mediante:

⃗ − Xβ⃗ˆ = Y
⃗e = Y ⃗ˆ
⃗ −Y

Es por esto que podemos definir los residuos como las diferencias entre los valores observados de
la variable dependiente, y los valores predichos por el modelo.
⃗ = X(X’X)−1 X’Y
El vector de los valores predicho se puede escribir como Y ⃗ = HY ⃗ , donde
H ∈ Mn×n se llama matriz sombrero.Algunas características importante de los residuos son:

1. E(⃗e) = 0
2. El estimador de la varianza está basado en los residuo:
Pn 2
2ˆ i=1 ei (Y ′ Y ) − β̂(X ′ Y )
σY |X = CM R = =
n−p−1 n−p−1

3. ⃗eX = ⃗0

3.1.1. Tipos de residuos


Existen diferentes tipos de residuos y estos presentan diferentes utilidades en lo que al diagnostico
de regresiones refiere, dentro de ellos se presentan 3 de ellos.

El vector de residuos presenta la misma media que el de errores, salvo que V ar(⃗ϵ) = σ 2 I no se
cumple, esto implica que los residuos no son independientes. Sin embargo, los hij son pequeños
(para i ̸= j), y además la dependencia de estos no altera las técnicas de diagnostico y validación
del modelo.

1. Residuos estandarizados: El i-esimo residuo estandarizado se define como:

ϵ̂
Zi = p ; E(Zi ) = 0 ; V ar(Zi ) = 1
σ 1 − hij

2. Residuos estudentizados: Cuando los supuestos del modelo se cumplen se tiene que:

ϵ̂ 1 X n
ri = p ∼ t(n−p−1) ; E(ri ) = 0 ; V ar(i ) = r2 ≥ 1
σ̂ 1 − hij n − k − 1 i=1 i

3. residuos Jackknife: también llamado residuo recortado, este método considera una estimación
de la varianza después de que se excluye la i-ésima observación, se calcula como:

ϵˆ 1 X n
ti = √i ; E(ti ) = 0 ; V ar = r2
σˆ−i 1 − hi n − k − 1 i=1 −i

15
3.1.2. Observaciones influyentes o Valores atípicos
Estas son observaciones que tienen un impacto (muchas veces desproporcionado) en un modelo
de regresión, los valores atípicos corresponden a aquellos que presentan residuos muy grandes
(en valor absoluto). Es interesante ver/ saber el efecto que tiene esta observaciones, ya que una
observación influyente marca una diferencia importante en la pendiente de un modelo de regresión.

De forma general se acepta que si |hii | > 2(k+1)


n
6
, entonces la observación es considerada punto
leverage y este podría eventualmente ser considerado un punto influyente. Asimismo ocurre si
|ri | > 2, pudiendo este ser considerado outlier.

Por estas razones de consideran diferentes diagnósticos7 , basados en medidas que permiten eviden-
ciar si una observación es o no un valor outlier o un punto leverage alto, estos son:

1. En primer lugar se presenta la llamada Distancia de Cook, esta distancia mide la influencia
de la i-esima observación, su expresión esta dada por:
!2   
ei hii 1
CDi = √ ˆ 1 − hii k
σ 1 − h − ii

Si este valor es mayor a 1, se dice que la observación es potencialmente influyente, si es menor


a 0,5 se presta atención, en cambio si el valores menor a 0,1 dicha observación no se considera
influyente. (existe tabla de valores críticos, donde, no se > _ <).
2. Enseguida se presentan los DFFITS, esta medida entrega evidencia de que si la i-esima
observación es o no influyente. Es muy similar a la Distancia de cook, con algunas modifica-
ciones.

Ybi − Y\i(−i)
DF F IT Si = q

σ(−i) hii


Se observa que widehatYi(−i) corresponde al valor estimado omitiendo el i-esimo caso, y σ(−i)
viene a ser la varianza estimada del error excluyendo la observación i-esima. Para esta medida
se presentan los siguientes ptos criticos.
q
a) considerando la distribución T, se considera el siguiente criterio: |DF F IT Si | ≥ 3 nk
q
b) Si la muestra es de gran tamaño se considera o siguiente: |DF F IT Si | ≥ 2 n−k k

3. COVRATIO, en este caso se mide el efecto en la variabilidad de los coeficientes de regresión


al excluir/remover/eliminar la i-esima observación. Se define como:

det[σY2\ ′
|X(−i) (X(−i) X(−i) )
−1
]
COV RAT IOi =
det[σ[
2 ′
Y |X (X X)
−1 ]

o equivalentemente:
 k
2ˆ  
σ(−i) 1
COV RAT IOi =  
ˆ 1 − hii

6o bien 3k
,o siendo más flexibles considerando k > 2
n
7 Estos metodfos están basados en distancias

16
Los criterios para esta medidas son:

a) COV RAT IOi > 1 + 3k n Entonces existe evidencia de que la i-esima observación es un
valor influyente (alto o grande).
b) de igual forma si COV RAT IOi < 1 − 3k
n

4. Finalmente consideraremos la medida DFBETAS, esta mide la influencia de la observación


en cada coeficiente de la regresión, de la siguiente manera:

βˆp − βp(−i)
ˆ
DF BET ASpi = p
σ(−i)
ˆ Cpp

En esta ecuación Cpp corresponde al elemento p-esimo de la diagonal de la matriz (X’X)−1 ,


se tiene que si |DF BET ASpi | > √2n indica que el i-esimo valor es una posible observación
influyente.

3.2. Análisis de supuestos del modelo


3.2.1. Normalidad de los errores
Es un supuesto necesario para garantizar la validez de las pruebas t y F en MICO. La forma
más sencilla de analizar este supuesto es inspeccionar la grafica de normalidad, esta contrasta los
cuantiles de una variable contra los cuantiles de una distribución normal. Mientras más cerca estén
los cuantiles de la variable a los cuantiles de la normal, mas cerca está de ser normal.

Alternativamente un método formal pa-


ra detectar evidencia de normalidad es
realizar pruebas/docimas de bondad de
ajuste, dentro de estas tenemos por
ejemplo, para tamaños muestrales ma-
yores a cincuenta (50) se recomienda el
test de Lillierfors, en cambio si el tama-
ño muestral es menor a 50, se recomien-
da el test/prueba de Shapiro-Wilks.a
a Existen otras pruebas de normalidad, tales

como, Kolmogorov-Dmirnov y Anderson


Darling.

Figura 1: Q-Q plot

¿Que pasa si no se verifica este supuesto? Una manera de “solucionarlo” consiste en


hacer transformaciones a la variable dependiente y a la vez considerar procedimientos de estimación
alternativos.8

Lamentablemente no siempre realizar transformaciones soluciona los problemas, o es probable que


al intentar subsanar este problema se genere uno nuevo. Una transformación de la variable respuesta
suele ser denominada como Transformación de Box-Cox.

Transformación de Box-Cox: El método de box-cox consiste en realizar transformacio-


nes a la variable respuesta. Hay que tener en consideración al proponer una transformación,
8 Al aplicar transformaciones a la respuesta, muchas veces es posible simplificar el modelo de predicción de un

conjunto de datos.

17
como se producen los errores (variable respuesta e independientes), esto ya que toda trans-
formación sobre la respuesta es una transformación sobre ellos.

Generalmente es complejo encontrar una transformación, es por eso que existe un método
que permite obtener de forma rápida una transformación.

 (yiλ − 1)
si λ ̸= 0
zλ,i = λ−1
 λŷ
ŷln(yi ) si λ=0

Donde se tiene que ŷ corresponde a la media geométrica de las observaciones. Una vez estima-
do el nuevo parámetro λ (por método de máxima verosimilitud), se obtiene un modelo lineal
aditivo zλ = Xβ + ϵ, con errores normales, independientes y con una varianza constante.

Si no se remedia la situación, i.e, si los errores no siguen una distribución normal, aún así el
estimador de mínimos cuadrados presenta la menor de las varianzas entre los estimadores lineales
insesgados. En rigor, la normalidad no es necesaria para la descomposición de la variabilidad.

LA fuerza de este supuesto esta en la validación de los test de significancia, además de permitir
realizar estimaciones mediante intervalos de confianza. Es importante considerar que si n es muy
grande, las conclusiones que se obtengan de pruebas t − student y F son asintoticamente validas
inclusive si el supuesto de normalidad de errores no es valido.
Homocedasticidad de los errores
No es posible Observar si estamos o no en presencia de heterocedasticidad, ya que mayoritaria-
mente se está en la situación de que cada valor de de X tiene pocos valores de Y asociados.

Una estrategia consiste en visualizar si los residuos mantienen una varianza constante observando
algún gráfico, de entre los cuales podemos encontrar varias alternativas, como por ejemplo observar
los residuos en función de los valores observados, o bien los residuos en función de los valores
ajustados, también se puede considerar realizar un gráfica del valor cuadrático del residuo, etc.

Una metodología formal para la detección de heterocedasticidad (varianzas diferentes en los erro-
res), consiste en realizar la siguiente docima de hipótesis, conocida como docima de Breush-Pagan.
Dicho test permite determinar la heterocedasticidad de un modelo de regresión lineal, analizando
si la varianza de los residuos de la regresión dependen de los valores de las variables indepen-
dientes.

Considerando la estimación de los errores ei , tenemos:

e2 = α0 + α1 X1 + ... + αp Xp + νi ; Considerando ν : Error aleatorio


Dicho modelo al ser estimado se representa como:

e2 = αˆ0 + αˆ1 X1 + αˆ2 X2 + ...αˆk Xk


Con esto establecemos el siguiente contraste de hipótesis

H0 : α0 = α1 = ... = αp = 0 V /S H1 : αi ̸= 0 para algúni = 1, ..., k


La estadística presente en este test se representa como:

(n − k − 2)Re2
T =
(k + 1)(1 − Re2 )
Es importante notar que Re2 corresponde al coeficiente de determinación del nuevo modelo de
regresión que utilizó los residuos al cuádralo. La región crítica se representa como:

R = T |T > F(1−α;k+a;n−k−2)

18
¿Que efectos tiene la ausencia de hocedasticidad? La ausencia de varianzas constantes
trae como consecuencia que los estimadores MICO dejan de ser precisos (entre los estimadores
insesgados), y las estimaciones de la varianza respecto a los parámetros son incorrectas.9

3.2.2. No autocorrelación de los errores


La forma más intuitiva de detectar autocorrelación en los errores es mediante una gráfica, en ella
se representan los residuos respecto de las observaciones, con el fin de evidencia si existe alguna
tendencia en ellos.

La metodología formal para la detección de autocorrelación es mediante una docima de hipótesis, el


test de Durbin - Watson. Este test es de regazo 1, ¿qué significa eso?, pues para una observación
i, sólo analiza respecto a la observación anterior y posterior. Si decimos que ei es el residuo, la
prueba busca estudiar la importancia del coeficiente de la siguiente expresión:

ei = ρei−1 + νi
Se presenta el siguiente contraste de hipótesis.

H0 : ρ = 0 V /S H1 : ρ ̸= 0
Estableciendo una estadística definida como:
Pn
(ei − ei−1 )2
d = i=2Pn 2
i=1 ei

Ya que d ≈ 2(1 − r), donde r corresponde al coeficiente de autocorrelación de primer orden de


residuos. Este valor d se mantiene d∈ [0, 4], si d = 2 se dice que no hay autocorrelación.

Para probar autocorrelación positiva:


Si d < dL;α , existe evidencia significativa de que los términos de error están autocorrelacio-
nados consecutiva y positivamente.
Si d > dU ;α , no existe evidencia significativa de que los términos de error estpan autocorre-
lacionados consecutiva y positivamente.
Si dL;α ≥ d ≤ dU ;α , entonces la prueba no es concluyente

Para probar autocorrelación negativa:


Si (4 − d) < dL;α , existe evidencia significativa de que los términos de error están autocorre-
lacionados consecutiva y negativamente.
Si (4 − d) > dU ;α , no existe evidencia significativa de que los términos de error estpan
autocorrelacionados consecutiva y negativamente.
Si dL;α ≥ (4 − d) ≤ dU ;α , entonces la prueba no es concluyente

¿Que ocurre cuando los errores están correlacionados? en este caso se concluye que los
estimadores de mínimos cuadrados siguen siendo insesgados, pero dejan de ser los mejores estima-
dores.10
9 Hay errores en las docimas de significancia, y posibilidad de cometer errores de tipo II
10 Los estimadores de varianzas de los parámetros β ′ s son sesgados

19
3.2.3. No multicolinealidad de variables explicativas/predictoras
El término de Multicolinealidad es una situación en la que se presenta una fuerte correlación
entre las variables explicativas del modelo. Dicha correlación debe ser muy alta (ya que siempre
existirá correlación entre estas variables), vale decir que, la no correlación de dos variables es un
proceso idílico. Para continuar, se definen dos casos de multicolinealidad.

Multicolinealidad perfecta: Esta ocurre cuando una variable independiente, p, es una


combinación lineal de las restantes, esto provoca que det(X t X) = 0, lo que convierte la
matriz X t X sea singular. Se expresa de la siguiente manera:

X
p−1
Xp = β j Xj
j=1

Cuasi Multicolinealidad11 : Existe una cuasi multicolinealidad, cuando existe una o más
variables, no son exactamente una combinación lineal de la otra, pero existe un coeficiente
de determinación entre estas variables es muy cercano a 1, vale decir, det(X t X) ≈ 0. Se
expresa de la siguiente manera:

X
p−1
Xp = βj Xj + τ
j=1

¿Que pasa si existe multicolinealidad o cuasi multicolinealidad? Si esta es perfecta, ya


vimos que det(X ′ X) = 0, y por lo tanto la solución al sistema de ecuaciones normales deja de
ser única. Por otro la si no es perfecta (cuasi multicolinealidad) existe solución al sistema pero las
estimaciones de los parámetros del modelo no serán del todo precisas. Como punto importante es
mencionar que el efecto más fuerte de la multicolinealidad reside en las pruebas F , tanto global
como parciales, ya que en presencia de esta el F global puede ser significativo a un nivel de α, pero
en cambio ninguno de los F parciales será.

3.2.4. Error de medición


Es importante chequear la correcta medición de las variables independientes (explicativas) ya que
si estas están mal medidas, o bien el modelo en si ignora variables independientes importantes
se sesga el estimador de MICO, además de la estimación de la varianza.

3.2.5. Extrapolación
Se llama extrapolación a la acción de estimar con valores que están más allá del intervalo de
datos original12 , está sujeta a incertidumbre y a un mayor riesgo de producir/arrojar resultados
insignificantes. Existen diferentes tipos de extrapolación, en especifico extrapolación oculta.

Está situación está presente cuando se realizan predicciones para puntos fuera de la nube de
puntos/datos de las variables explicativas (independientes), y por lo tanto no se corresponden
como predicciones validas.

11 Multicolinealidad aproximada
12 Proceso similar a la interpolación

20
4. Regresión Logística
La regresión logística es una herramienta estadística que permite modelar una relación entre una
variable respuesta categórica binaria y un conjunto de variables explicativas (continuas y/o
categóricas).

Esta herramienta estadística permite estimar la probabilidad de que un evento ocurra, vale
decir, permite calcular el valor esperado de variables binarias con un conjunto de variables
predictoras. Sea Y la variable respuesta, se tiene que:

 1 Si aparece el evento en estudio
Y =

0 Si no aparece el evento en estudio
Y considerando al conjunto X ⃗ = (X1 , X2 , ..., Xk ) de variables predictoras (Y ∼ Bernoulli(p)) con
p ∈ (0, 1). Se puede iniciar modelando la probabilidad de que si aparezca el evento en estudio
(Y = 1), considerando el modelo de regresión lineal múltiple se tiene que:

⃗ = β0 + β1 X1 + ... + βk Xk
P (Y = 1|X)
Sin embargo existen problemas en la estimación de un modelo de regresión cuando la variable
respuesta es binaria, estos son:
Heterocedasticidad del término de residuos, i.e, los estimadores MICO no son los más eficien-
tes.
Las probabilidades predichas son inconsistentes13
Los β ′ s del modelo (interpretación), suponen que el efecto de las variables predictoras en la
probabilidad actúa como constante y es lineal en su recorrido.
No se cumple el supuesto de normalidad de os errores, ya que la respuesta es binaria.
R2 no apropiado.
Debemos de contemplar siempre que la relación que se quiere modelar no es lineal, y por ende
se debe ajustar lo anterior transformando la variable respuesta, para esto debemos definir más
adelante lo que llamaremos Odds

En rigor nos gustaría un modelo que represente de forma adecuada el comportamiento de la función
de probabilidad f (y) = P[Yi = 1|X]
⃗ ∈ (0, 1), y considerar que las variables independientes tengan
un efecto lineal. Para obtener esto, se presenta la siguiente corrección

e−x β 1
P(y = 1|x) = = = π(x)
1 + ex′ β 1 + e−(β0 +β1 X1 +...βk Xk)

ex β 1
P(y = 0|x) = 1 − P (y = 1|x) = 1 − x ′β = (β +β X1 +...βk Xk)
= 1 − π(x)
1+e 1+e 0 1

Entonces se obtiene que:



 1 Con probabilidad π(x)
Y =

0 Con probabilidad 1 − π(x)
⃗ corresponde a la probabilidad de que ocurra el evento de estudio dado
De esta forma, P [y = 1|X]
un conjunto de valores de las variables independientes. Para obtener una regresión lineal primero
debemos linealizar P(y = 1|X),
⃗ en este caso aplicando logaritmo natural obtenemos:
!
P(Y = 1|X)

⃗ −
log = β0 + β1 X1 + ... + βk Xk = logit(P(Y = 1|X)) → Función logit
P(Y = 0|X)

13 No hay garantías de que estén entre 0 y 1

21
4.1. Odds y Razón de disparidad (OR)
Los Odds corresponden a la probabilidad de que el evento aparezca/esté en el estudio dado un
cierto preductor X ⃗ sobre la probabilidad de que el evento no aparezca en el estudio dado el mismo
predictor, de esto se deduce lo siguiente:
" # " #  
P(Y = 1|X)
⃗ P(Y = 1|X)
⃗ p
ln = ln = ln = logit(p)
P(Y = 0|X)
⃗ 1 − P(Y = 1|X)
⃗ 1−p
Con esto en mente podemos definir los Odds como el cociente entre las dos probabilidades posibles
(Y = 1 o bien Y = 0) de la siguiente forma:
" # " #   h
P(Y = 1|X)
⃗ P(Y = 1|X)
⃗ π(x) ′
i h i
Odd = = = = ex β = eh(x)
P(Y = 0|X)
⃗ 1 − P(Y = 1|X)
⃗ 1 − π(x)
Donde se observa que h(x) corresponde a una función con la forma de β0 + β1 X1 + ... + βk Xk 14 ,
entonces un Odd es la razón entre la probabilidad de ocurrencia de un evento y la
probabilidad de no ocurrencia de dicho evento

Por otro lado, dada unan variable binaria Y , llamaremos razón de disparidad a aquella razón
que permite saber cuantas veces más (o menos) es posible que Y tome el valor 1, para
ciertos valores de X ⃗ comparado con algún otro valor X⃗ ∗ , con esto en mente se define la
razón de disparidad (Odss Ratio o bien OR) como:
 P(Y =1|X)
⃗ 
⃗X


= e
β
exp{β⃗ X}

OR = 
1−P(Y =1|X) ⃗ X⃗ − X⃗ ∗ )}
⃗∗
= = exp{β(
P(Y =1|X)
⃗ ⃗X

e β exp{β⃗ X⃗∗ }
1−P(Y =1|X)
Entonces, podemos decir que la razón de disparidad permite medir el riesgo en términos de cambio
a partir de:
OR < 1 Existe menor probabilidad de poseer la característica, es decir, menores probabili-
dades de asociación entre el riesgo y la variable respuesta.
OR > 1 Existe mayor probabilidad de poseer la característica, es decir, mayores probabili-
dades de asociación entre el riego y la variable respuesta
OR = 1 No existe factor de riesgo, o bien, no existe asociación entre el riesgo y la variable
respuesta.

4.2. Estimación de los parámetros


Corresponde ahora ver la estimación de los parámetros, entonces, dadas y1 , ..., yk variables aleato-
iid
rias, tal que, yi ∼ Bernoulli(p) se usa el Método de máxima verosimilitud para estimas los

β s del modelo. La función corresponde a:

Y
k
⃗ =
L(β) pyi i (1 − pi )1−yi
i=1
Yk  y i
pi
= (1 − pi )
i=1
1 − pi
( k  ) Y
X pi
k
= exp yi ln (1 − pi ) Entonces
i=1
1 − pi i=1
( k ) k
X Y 1
= exp ⃗′ ⃗
yi ( β X i )
⃗′ ⃗
i=1 i=1 1 + exp(β Xi )
14 Regresión lineal múltiple

22
Aplicando logaritmo a esta función de verosimilitud se obtiene lo siguiente

X
k
⃗ =
log L(β) yi (β⃗′ X
⃗ i ) − ln(1 + exp(β⃗′ X
⃗ i ))
i=1
⃗ se obtiene la estimación de los parámetros.
Al maximizar esta función log-likelihood (L(β))

4.3. Dócimas para el modelo


Con el objetivo de buscar y/o verificar la significancia de cada parámetro y del modelo global,
se realizan las siguientes dócimas de hipótesis.

4.3.1. Test de Wald


Con el objetivo de hacer una prueba para la significancia estadística de cada coeficiente (β ′ s), se
plantea la siguiente dócima:

H0 : β j = 0 V /S H1 : βj ̸= 0
Donde debemos definir la estadística de Wald como:
 2
βˆj βˆj
Wj = q ∼ N (0, 1) o bien Wj2 =  q  ∼ χ21
Vd
ar(βˆj ) Vd
ar(βˆj )
En este caso la región critica está definida por:
n o
R = m.a de tamaño n|wj > χ2(1,1−α)

4.3.2. Test de Razón de Verosimilitud


Con el objetivo de analizar la significancia de todos los coeficiente de forma conjunta, se presenta
un contraste que afirma la NO significancia de ellos de la siguiente manera:

H0 : β1 = β2 = ... = βj V /S H1 : βj ̸= 0
Esta dócima de hipótesis considera la siguiente estadística:

D = 2(ln(L(θ⃗M.C )) − ln(L(θ⃗M.N ))) (6)


Donde M.C corresponde al modelo Completo y M.N al modelo Nulo, y siendo L la función de
verosimilitud, a partir de esto se obtiene que:
Modelo Completo: Es aquel modelo que contiene tantos parámetros como variables
Modelo Nulo: Es aquel modelo de referencia, bien, el modelo bajo H0 cierta.
En este caso la región critica está definida por:
n o
R = m.a de tamaño n|D > χ2(1−α;n−k)

4.3.3. Devianza
Está se define como el doble logaritmo del estadístico de verosimilitud vale decir, D = −2 ln(L),
esta tiene una distribución χ2 y compara los valores observados en dos momentos15 . Se calcula la
devianza ddel nuevo modelo y se le resta la del modelo de referencia, obteniendo lo que llamaremos
ratio-likelihood.

χ2 = 2 ln(LM.N ) − 2 ln(LM.R ) ∼ χ2(knuevo −1)


15 Modelo de referencia y Modelo con variables predictoras

23
Por o tanto si el modelo es bueno la devianza tiene a disminuir, y eventualmente aproximarse a
cero.

4.3.4. Pseudo R2
Como ya vimos la relación entre la variable respuesta y sus predictoras no es lineal, es por está
razón que el coeficiente de determinación clásico NO ES VALIDO, por esta razón se ha propuesto
una medida alternativa conocida como Índice de cociente de Verosimilitudes, y se define como:

ln(LM.E )
P seudo − R2 = 1 −
ln()LM.rs
Donde LM.R corresponde a la función de verosimilitud del Modelo Estimado, en cambio LM.rs
corresponde a la verosimilitud del modelo restringido. Entonces, si las verosimilitudes son iguales,
eso quiere decir que todos los coeficientes estimados serían cero, obteniendo que el P seudo−R2 = 0,
este estadístico se aproxima al 1 cuando la función de verosimilitud del modelo estimado se acerca
a su valor máximo (uno).

4.4. Análisis de clasificación


4.4.1. Sensibilidad y Especificidad
Una ves seleccionado el mejor modelo, la idea es utilizar las probabilidades obtenidas para
discriminar el evento en cuestión, esto dependerá plenamente del umbral seleccionado. En pri-
mer lugar se debe dividir la muestra en dos, donde la primera submuestra se utilizará para el
procedimiento, y la segunda será el grupo de validación. Con esto podemos medir/cuantificar el
comportamiento de los datos al ajustarlos al modelo.

Considerando como pi a la probabilidad modelada para la observación i, se puede realizar la


siguiente clasificación:

b 1, si pi > U mbral
Yi =
0, si pi ≤ U mbral
Con esto, se puede generar una tabla de clasificación que resume la clasificación contrastando
valores observados Y con los predicho por el modelo Ŷ .

Valores predichos
Valores reales P.N Ŷ = 0 P.P Ŷ = 1 Total
R.N Verdadero Negativo Falso Positivo
VN+FP
Y =0 (VN) (FP)
R.P Falso Negativo Verdadero Positivo
FN+VP
Y =1 (FN) (VP)

A partir de estos datos es que se definen conceptos como la Sensibilidad y Especificidad

VP: Corresponde a las observaciones positivas correctamente clasificadas


FP: Corresponde alas observaciones negativas correctamente clasificadas
FN: Corresponde a las observaciones positivas clasificadas incorrectamente
VN: Corresponde a las observaciones negativas clasificadas incorrectamente

Donde:

Sensibilidad: Es la Probabilidad de que clasificar correctamente a la variable cuan-


do esta toma el valor 1

VP
P(Ŷ = 1|Y = 1) =
V P + FN

24
Especificidad: Es la Probabilidad de que clasificar correctamente a la variable
cuando esta toma el valor 0

VN
P(Ŷ = 0|Y = 0) =
FP + V N
Exactitud: Corresponde a la probabilidad de que una observación se clasifique correctamente

VP +VN
Exactitud =
T otal
Tasa de error: Corresponde a la probabilidad de que una observación se clasifique incorrec-
tamente

FP + FN
T asa de error =
T otal
Valor predictivo positivo: Corresponde a la probabilidad de que los valores predichos
positivos sean clasificados correctamente

VP
V PP =
V P + FP
Valor predictivo negativo: Corresponde a la probabilidad de que los valores predichos
negativos sean clasificados correctamente

VN
V PP =
V N + FN

4.5. Curva ROC - Indicadores de discriminación


Diremos que la curva ROC representa una relación entre la sensibilidad y los falsos positivos
(1-especificidad). La curva se genera por la unión de todos los posibles umbrales de corte,
y entrega una medida de la capacidad que tiene el modelad e discriminar.

Se puede afirmar que mientras mayor sea el área de esta curva, mejor será el poder de discrimi-
nación, a este indicador se le conoce mas por su s siglas en ingles AUC (area under curve).

Se puede probar que el indicador AUC


puede responder a la siguientes catego-
rías:

Valor AUC Nivel de Discriminación


0.9 - 1.0 Excelente Discriminación
0.8 - 0.9 Buena Discriminación
0.7 - 0.8 Suficiente Discriminación
0.6 - 0.7 Mala Discriminación
0.5 - 0.6 Insuficiente Discriminación

Figura 2: Criterios ROC-AUC

4.5.1. Punto de Corte Óptimo


Ya vimos que el AUC es un indicador de la potencia de discriminación, ahora, debemos escoger el
punto en la curva asociado a esta discriminación. La idea consiste en minimizar la distancia con el
valor 1 en el eje de la sensibilidad.

25
Enfoque Clásico Deseamos que el punto (x, y) ∈ ROC, tenga mínima distancia al eje de sensi-
bilidad, para esto llamaremos z a la distancia que deseamos minimizar, luego se define la distancia
usual entre dos puntos como:

z = ||(x, y) − (0, 1)||


Al definir esta distancia, el problema ahora consiste en minimizar z 2 = x2 + (y − 1)2 , es decir, si
llamamos y = f (x) a la curva ROC tenemos el siguiente problema:

δ
z 2 = x2 + [f (x) − 1]2 / (·)
δx
δz δf δz δf x
z = [f (x) − 1] ⇒ = 0 ⇐⇒ =
δx δx δx δx 1 − f (x)

Entonces se obtiene que los puntos de corte son aquellos que satisfacen que:
1−E
m = f ′ (1 − E) =
1−S
Donde se observa que si la pendiente es mayor, tendremos una mejor clasificación de especificidad
que de sensibilidad y viceversa.

4.6. Estimación mediante intervalos


Al igual que en la regresión lineal múltiple es posible estimar intervalos de confianza para los
coeficientes, y en particular en este caso para la tasa de incidencia.

4.6.1. Intervalo para los coeficientes del modelo


Considerando una confianza (1 − α) %, para un coeficiente arbitrario j del modelo de regresión
logística, su intervalo viene dado por la siguiente expresión:

IC(1 − α; βj ) = βˆj ± Sβj N(1− α2 ) (0, 1)


De aquí podemos rescatar que, Sβ2j se corresponde con el estimador de la varianza del βj , vale decir
d βˆj )
que S 2 = Var(
βj

4.6.2. Intervalo para la tasa de incidencia


Considerando una confianza (1 − α) %, para razón de disparidad η dado un vector de observa-
ciones su intervalo viene dado por la siguiente expresión:
h n oi−1
ˆ⃗
IC(1 − α; η) = 1 + exp −β⃗ X ˆ ⃗ N(1− α
0⃗ ) (0, 1)
β X0
2


⃗0 S 2 X
De aquí podemos rescatar que S ⃗ˆ ⃗ = X ⃗
β X0 ˆ 0
⃗ β

4.6.3. Intervalo para la predicción


Considerando una confianza (1 − α) %, para la predicción y − 0 su intervalo viene dado por la
siguiente expresión:
r
⃗ ′ S2 X
IC(1 − α; y0 ) = pˆ0 ± pˆ0 (1 − pˆ0 ) 1 + X ⃗
⃗ 0 N(1− 2 ) (0, 1)
α
0 βX

26
5. Regresión Poisson
La regresión Poisson, es una herramienta estadística dentro de la familia de modelos lineales ge-
neralizados de tipo exponencial que nos permite estudiar/analizar una variable aleatoria Y que
posea una distribución poisson, vale decir, que su recorrido corresponda a los nume-
ro enteros NO NEGATIVOS (Y ∼ P oisson(λ)). En rigor esta regresión modela la tasa de
incidenciaλ asociada a la variable Y , pero esta condicionada a un conjunto X⃗k {x1 , x2 ..., xk } de
variables explicativas.

5.1. Modelo de regresión


Como ya dijimos anteriormente la variable Y (respuesta) sigue una distribución poisson, e indica
el número de EVENTOS ocurridos en un periodo de tiempo determinado (variable
discreta), donde tenemos que X⃗k corresponde al vector de variables explicativas y λ es la tasa de
incidencia de la variable respuesta, para la situación descrita se representa el siguiente modelo:

λ = E[Y |X⃗k ] = exp{β0 + β1 X1 + ... + βk Xk }


El valor eβ0 corresponde al valor esperado de la respuesta en la categoría de referencia, o cuando
las variables explicativas numérica velan cero, las exponenciales con cada coeficiente representan
tasas de incremento de la respuesta esperada al aumentar en una unidad la variable.

Es posible conseguir linealizar el modelo obteniendo la siguiente expresión16 para este:

ln(λ) = β0 + β1 X1 + ... + βk Xk
Este modelo se usa frecuentemente cuando se desea representanr tasas de incidencia, que se
calculan como λ = Y /N , con Y el número de eventos de cada grupo de estudio (durante el
seguimiento), y N corresponde al número de personas en la población estudiada, todo esto en un
instante/periodo de tiempo.

Al asumir que Y ∼ poisson(λ), su valor esperado corresponde al producto de la tasa de incidencia,


por el número de personas en la población, vale decir, E(Y ) = λ ∗ N . De esto se concluye que la
probabilidad de observar Y eventos corresponde a:

(λ ∗ N )Y e−λ∗N
P(Y = y|X⃗k ) =
Y!

5.2. Variable de Exposición (offset)


Cuando el conteo de observaciones se base en instante o períodos de tiempo, tamaños po-
blacionales o espaciales no homogéneos entre valores de las variables explicativas, es
posible incluir en el modelo lo que llamaremos variable de exposición, esto seria de la siguiente
forma:

X
k
ln(E(Y |X⃗k )) = ln(λi ) = ln(ti ) + β0 + β i Xi
i=1

5.3. Estimación de parámetros


Al igual que en la regresión logística se presenta que la estimación de los parámetros β0 , β1 , ..., βk
se hace a través de método de máxima verosimilitud, donde se tiene que la función a maximizar
es:
16 Este procedimiento se realiza mediante una función de enlace, se llama a este modelo log-lineal o de

riesgo multiplicativo debido a la función de enlace aplicada de la forma g(λ) = ln(λ)

27
Y
n
(exp{β0 + β1 X1 + ... + βk Xk })yi exp{−exp{β0 + β1 X1 + ... + βk Xk }}
⃗ =
L(β)
i=1
yi !
Yn
exp{yi (β0 + β1 X1 + ... + βk Xk )}exp{−exp{β0 + β1 X1 + ... + βk Xk }}
= / Ln()
i=1
yi !
X
n
exp{yi (β0 + β1 X1 + ... + βk Xk )}exp{−exp{β0 + β1 X1 + ... + βk Xk }}
⃗ =
ln L(β)
i=1
yi !
Xn
= (yi (β0 + β1 X1 + ... + βk Xk )) − exp{β0 + β1 X1 + ... + βk Xk } − ln(yi !)
i=1

⃗ y así obtener la estimación de los parámetros.17


Corresponde ahora maximizar la función ln L(β)

5.4. Dócimas para significancia


Al igual que en el modelos de regresión logística es de interés docimar la significancia global del
modelo, así como la significancia individual de cada parámetro estimado.

5.4.1. Test de Wald


Con el objetivo de hacer una prueba para la significancia estadística de cada coeficiente (β ′ s), se
plantea la siguiente dócima:

H0 : β j = 0 V /S H1 : βj ̸= 0
Donde debemos definir la estadística de Wald como:
 2
βˆj βˆj
Wj = q ∼ N (0, 1) o bien Wj2 =  q  ∼ χ21
Vd
ar(βˆj ) Vd
ar(βˆj )
En este caso la región critica está definida por:
n o
R = m.a de tamaño n|wj > χ2(1,1−α)

5.4.2. Test de Razón de Verosimilitud


Con el objetivo de analizar la significancia de todos los coeficiente de forma conjunta, se presenta
un contraste que afirma la NO significancia de ellos de la siguiente manera:

H0 : β1 = β2 = ... = βj V /S H1 : βj ̸= 0
Esta dócima de hipótesis considera la siguiente estadística:

D = 2(ln(L(θ⃗M.C )) − ln(L(θ⃗M.N ))) (7)


Donde M.C corresponde al modelo Completo y M.N al modelo Nulo, y siendo L la función de
verosimilitud, donde:
Modelo Completo: Es aquel modelo que contiene tantos parámetros como variables
Modelo Nulo: Es aquel modelo de referencia, bien, el modelo bajo H0 cierta.
En este caso la región critica está definida por:
n o
R = m.a de tamaño n|D > χ2(1−α;n−k)
Como se observa, corresponde a las mismas docimas que se realizan la regresión Logística.
17 Un mecanismo para esta estimación y la de regresión logística es el método de Newton-Raphson

28
5.5. Tasa de riesgo relativo (RR)
Es importante, una vez estimados los parámetros y haber seleccionado el modelo adecuado, ser
capaz de interpretar esto mismos. Como estos coeficientes están relacionados mediante la trans-
formación realizada (logaritmo natural), la interpretación se dará mediante lo que conoceremos
como Riego Relativo sobre la tasa de incidencia de los sucesos - RR, esto asociado a un
aumento de una unidad en la covariable Xk

5.5.1. Variables Categóricas y numéricas


Variables Categóricas: Diremos que el riego relativo de estudiar el cambio entre 2 tratamientos
(α y η) de una misma variable categórica se representa como:

λ(X = α)
RR(Xαη ) =
λ(X = η)
= exp{βη − βα }

Observación: Si la variable es Binaria el procedimiento es exactamente el mismo.

Variables Numéricas: Diremos que el riego relativo al incrementar en una unidad el valor de
la variable predictora X⃗k se representa como:

λ(Xk = x + 1)
RR(Xk ) =
λ(Xk = x)
= exp{βk }

Esta interpretación es que: por cada unidad de aumento en la variable Xk el riesgo relativo
aumenta en (RR − 1) % siempre y cuando el RR > 1, en caso contrario se dice que disminuye en
(1 − RR) %.18

5.6. Supuestos del modelo


5.6.1. Independencia
Las observaciones deben de ser independientes entre sí, para que esto ocurra la muestra debe ser
aleatoria.19

5.6.2. Equidispersión
Una de las características más importantes de la distribución Poisson es que se cumple que E[Y ] =
V[Y ], es decir, la esperanza de la variable coincide con la varianza de esta. A esta igualdad se le
conoce como equidispersión. Sin embargo, existen situaciones en las que de forma no tan poco
frecuente esta igualdad no se cumple, y podemos tener las siguientes situaciones:

Subdispersión: Ocurre cuando se observa que Var[Y ] < E[Y ]20


Sobredispersión: Ocurre cuando se observa que Var[Y ] > E[Y ]

En ambos casos el criterio para analizar el tipo de dispersión que se presenta es el mismo, mediante:

Var[Yi ]
CV =
E[Yi ]
Entonces podemos concluir que si el CV < 1, estamos en presencia de subdispersión, y en caso
contrario contamos con sobredispersión. La existencia de es un problema, ya que las estimaciones
18 En el supuesto de tener variables categóricas se realiza la misma interpretación
19 Se puede verificar esto con el test de rachas
20 Este efecto es muy poco usual de ver

29
de los errores estandar estaran sesgadas, lo que podría inducir a errore e/o inconsistencias en
kas inferencias de los parámetros del modelo generado.

¿A que se debe la presencia de sobredispersión? Esto puede ser debido a múltiples factores,
por ejemplo el que los evento no sean independientes en el tiempo, o quizas los datos presentan
una alta variabilidad, o hasta una mala elección de función de enlace.21

¿Existe alguna forma de detectar sobredispersión? La respuesta es si, un criterio para


evaluar esta sobredispersión es analizar la razón entre la estadística D, vista anteriormente:

D = 2(ln(L(θ⃗M.C )) − ln(L(θ⃗M.N ))) (8)


2
Y sus grados de libertad, así com la razón entre la estadística χ de Pearson y sus respectivos
grados de libertad, donde sabemos que para muestras grandes χ2 ∼ χ2n−k , con k el número de
parámetros del modelo. Entonces tenemos que si:

D χ2
>1 ∧ >1
n−k n−k
Decimos que existe Sobredispersión.

5.7. Estimación mediante intervalos


Finalmente, es de interés poder entregar intervalos de confianza para las estimaciones de los pará-
metros del modelo, en rigor para los coeficientes, la tasa de incidencia y la predicción.

5.7.1. Intervalo para los coeficientes


Si se desea construir un intervalo de confianza para los coeficientes β ′ s del modelo a un nivel de
confianza (1.α) %, este viene dado por:
h i
IC(1 − α; βj ) = βˆj ± Sβ N(1− α ) (0, 1) j 2

Es importante notas que Sβj corresponde al estimador de la matriz de varianzas covarianzas del
estimador del coeficiente βj .22

5.7.2. Intervalo para la tasa de incidencia


Por otro lado, si se desea construir un intervalo de confianza para la tasa de incidencia λ, dado un
cierto vector de observaciones, con una confianza de (1 − α) %, viene dado por:
h i
ˆ ˆ
IC(1 − α; λ) = exp{β⃗ ′ x⃗0 } ± exp{β⃗ ′ x⃗0 }Tx⃗o 23 N1− α2

5.7.3. Intervalo para la predicción


Finalmente, si se desea construir un intervalo de confianza para la predicción yo , dado un cierto
vector de observaciones, con una confianza de (1 − α) %, viene dado por:
h i
ˆ ˆ
IC(1 − α; y0 ) = exp{β⃗ ′ x⃗0 } ± exp{β⃗ ′ x⃗0 }Px⃗o 24 N1− α2
21 Transformación*
√ √
22 S
βj = Ŵ −1 = (X ′ V̂ (Y )X)−1

30
6. Análisis de sobrevivencia
Ahora comenzamos a estudiar lo que corresponde al análisis del tiempo de sobrevivencia
(tiempo de funcionamiento o tiempo de vida) de poblaciones ya sea de objetos o seres vivos.
En estas entidades existen casos de censura (procedimiento interrumpido por imposibilidad de
continuar, abandono del estudio, o se conservan a través del tiempo).

6.1. Función de sobrevivencia


Se define Z como una variable aleatoria continua NO negativa la cual referencia el tiempo de
sobrevivencia de las entidades en el estudio, entonces se define la función de sobrevivencia S(t)
como la probabilidad de sobrevivir más allá de un tiempo t como:

S(t) = P(Z > t) = 1 − F(t), ∀t > 0


Aquí diremos que F se define como la función de distribución acumulada, pero asociada a Z.
Una vez definida la función de sobrevivencia, podemos definir la función de Riesgo y el tiempo
de vida medio.

6.1.1. Función de Riesgo


Esta función se puede definir dependiendo exclusivamente del “ambito” de aplicación de diferentes
maneras25 , entonces diremos que r(t) corresponde a la función de riesgo, que se caracteriza por
ser el coeficiente de proporcionalidad de la probabilidad de sobrevivencia como se observa a
continuación:

S ′ (t) δ
r(t) = = − [ln S(t)], ∀t > 0
S(t) δt
Rt
Tenemos que S(t) = exp{− o
r(z)δz}, y con esta expresión podemos definir la Función de Riesgo
acumulada (R(t)) como:
Z t
R(t) = r(z)δz
0

Con esto podemos decir que S(t) = exp{−R(t)} representa la función de densidad Z del tiempo
de sobrevivencia. Esto en términos de la función de supervivencia y os riesgos:

 Z t 
S(t) = 1 − F(t) ⇐⇒ exp − r(z)δz = 1 − F(t)
0
Z t
⇐⇒ − r(z)δz = ln (1 − F(t))
0
F′ (t)
⇐⇒ −r(z)δz =
1 − F(t)
⇐⇒ f (t) = −r(t)S(t)

Observando esto, y la definición inicial de la función de riesgo, se puede concluir que la densidad
de Z en términos de S(t) corresponde a f (t) = −S ′ (t).

25 Función de riesgo de ocurrencia de un siniestro, tasa instantánea de falla, fuerza de mortalidad, entre otras

31
6.1.2. Tiempo de vida medio
Consideremos la misma variable Z, y ahora definimos el tiempo de vida medio, en términos de la
función de sobrevivencia S(t) respecto al tiempo como:

Z +∞ Z +∞
E(Z) = t ∗ f (t)δt = − t ∗ S ′ (t)δt
0 0
 Z +∞  Z +∞
= − t ∗ S(t)|+∞
0 − S(t)δt = S(t)δt
0 0

6.2. Estimación mediante Kaplan - Meier


Continuando con la función de sobrevivencia, la estimación mediante Kaplan - Meier es un
método no paramétrico que está basado en la descomposición de la función de sobrevivencia
definida antes, como producto de probabilidades condicionadas. Bajo este método es posible
obtener la estimación para cada instante t ≥ 0 de acuerdo con:



1 , si t = 0
Yk  
Ŝ(t) = nj − d j

 , si t > 0
nj
{j/t>tj }

¿Que son esos términos?


nj (t): Número total de entidades en riego en el tiempo/instante t.

dj (t): Número de entidades que registran el evento de interés en el tiempo/instante t.

6.3. Censura
Cuando se realiza análisis de supervivencia muchas veces el tiempo exacto hasta que se presenta el
suceso no consigue ser observado (por diversas razones), a este resultado se le denomina censura. La
censura corresponde a “cortes” en el seguimiento del evento de interés, entre estos se destacan
326 . A continuación se presentan cada uno de estos tipos de censura, así como su descripción.

1. Censura por la Izquierda: Decimos que una observación presenta censura por la izquierda
cuando desconocemos el valor del tiempo T hasta la ocurrencia del evento de interés, pero sin
embargo, se sabe que el evento ocurrió antes de inicio del seguimiento T0 .
2. Censura por la Derecha: Decimos que una
observación presenta censura por la derecha cuan-
do desconocemos el valor del tiempo T hasta la
ocurrencia del evento de interés, pero sin embargo
se sabe que este tiempo es mayor a algún tiempo
Tj , donde Tj corresponde al último instante de
tiempo de seguimiento.

2. Censura por Intervalos: Decimos que una


observación presenta censura por intervalos cuan-
do desconocemos el valor del tiempo hasta la ocu-
rrencia del evento de interés, pero se sabe que este
tiempo está en un intervalo, es decir, este evento
ocurre entre dos tiempos, pero se descono-
ce el valor exacto de este. Figura 3: Tipos de censura
26 Existe la Censura aleatoria, esta ocurre sin ningún control por parte del investigador (abandono, Salida forzosa,

Finaliza el ensayo)

32
7. Regresión de Cox
Finalmente se presenta el modelo de Cox, también conocido como modelo de riesgos proporcionales.
Este modelo corresponde a un mecanismo de estimación semi-paramétrico de la función de
sobrevivencia.

Se considera una muestra aleatoria de entidades, donde el experimento consiste en estudiar la


sobrevivencia de una población, considerando para esto la función de riesgo r(t), para esto es
importante mencionar que las características del vector de variables independientes (variables res-
puesta o explicativas) no se vea afectado o dependa del tiempo/instante de ocurrencia de nuestro
evento de interés. Por lo general el modelo de Cox se plantea como:

⃗ = r0 (t)exp{β,⃗X}
r(t, X) ⃗

Acá se puede observar que X⃗ es un vector aleatorio de variables explicativas, mientras que β⃗ es un
vector de constantes, en conjunto dan forma a ala expresión con forma exponencial, estas partes
representan lo paramétrico del modelo.

Ahora que identificamos la parte paramétrica del modelo, ¿Cual es la parte no paramétrica?,
esta viene por la expresión r0 (t) = r(t, ⃗0, la que es conocida riesgo basal. El riesgo basal representa
el riesgo de la entidad que tiene X ⃗ = 0, a esta entidad se le conoce como entidad (individuo,
sujeto) de referencia). Con esto en mente podemos reescribir el modelo, para obtener lo que
llamaremos Modelo de Regresión de Cox Log-Lineal:
" #

r(t, X)
ln = β⃗ X

ro (t)
Antes vimos que:
 Z t 
S(t) = exp − r(z)δz
0
Si extendemos esta relación entre la sobrevivencia y el riesgo podemos obtener que:
 Z t 
S0 (t) = S(t, 0) = exp −
⃗ ⃗
r(z, 0)δz
0
⃗ se obtiene que:r(z,)
Entonces, cambiando ⃗0 por X

 Z t 
S(t, ⃗0) = exp − ⃗
r(z, X)δz
0
 Z t n o 
= exp − r(z, ⃗0)exp β⃗ X
⃗ δz
0
 Z t exp{β⃗X⃗ }
= exp − ⃗
r(z, 0)δz
0
exp{β ⃗}
⃗X
= [S0 (t)]
Con esta expresión se plantea el modelo de regresión de Cox en términos de la función de sobre-
vivencia.

¿Cuando se usa el modelo de Cox? El modelo de Cox se puede utilizar en los siguientes casos:
Cuando no se tiene información previa acerca de la dirección temporal de la función de riesgo
Cuando la función de riesgo no puede determinarse a través de un método paramétrico
Cuando interesa la magnitud y la dirección de los efectos de las variables explicativas, teniendo
controlada la dirección temporal

33
7.1. Estimación de parámetros
Una de las características que hacen especial al modelo de Cox es que no existe supuesto de
distribución para la variable respuesta27 , entonces no es posible formular una probabilidad
completa basada en la distribución de resultados.

Dada una muestra aleatoria de n observaciones, para lograr estimar los parámetros β⃗ se consideran
p apariciones del evento de interés, por ende n − k censuras. Sean ordenados los tiempos de sobre-
vivencia para las n observaciones de la muestra, sea X⃗1 , ..., X⃗n las variables exógenas asociadas y
Ei el conjunto de entidades en riesgo hasta antes de ti .

Si suponemos Z una variable de tiempo de ocurrencia (discreta), cuyo soporte sea igual a los puntos
de ocurrencia sin censura, entonces se define:

fi|Ei (t) = P(Z = ti |Ei )


Como la probabilidad de que la entidad i sea el que falle en el tiempo ti de entre los
ni expuestos que conforman Ei . Con las relaciones vistas es posible concluir que:

exp{β⃗′ X
⃗ i}
f − i|Ei (t) = P(Z = ti |Ei ) = P
Xi∈Eiexp{β⃗′ X ⃗ i}

Dado esto se puede construir la función de verosimilitud parcial:

Y
n
⃗ =
L(β) fi|Ei (t)
i=1
Yn
exp{β⃗′ X
⃗ i}
= P
i=1 exp{β⃗′ X
Xi∈Ei
⃗ i}

⃗ y así obtener la estimación de parámetros que se desea.28


Ahora basta con maximizar L(β)

7.2. Supuesto de Riesgos Proporcionales


⃗ = ⃗x y el
Para dos sujetos con con diferente vector de covariables, donde el primero de ellos X

segundo X = x∗,⃗ al comparar estos, definimos la razón de riesgos conocida como Hazard -
Ratio o HR, estos son:


r(t, x∗) ⃗ x∗
HR = = exp{β( ⃗ − ⃗x)}
r(t, ⃗x)
La definición es similar a los OR de regresión logística, para los cuales se evalúa en el numerador
el grupo de mayor riesgo y en el denominador el grupo de menor riesgo. En la razón de riesgos,
tenemos que HR cuantifica cuántas veces es mayor el riesgo con perfil x∗⃗ respecto con ⃗x.

Como las covariables no dependen del tiempo, es posible supone que HR tampoco lo hace, y por
ende los riesgos son proporcionales29

27 respuesta hasta el tiempo del evento


28 Esteresultado y los cálculos asociados se realizan mediante aproximación numérica
29 Formal: se establece que los riesgos son proporcionales si ∃c ∈ R/HR = c para ⃗
x y x∗

34
7.2.1. Residuos de Schoenfeld
Si alguna de las variables explicativas o su coeficiente varían con el tiempo, decimos que el supuesto
de riesgos proporcionales no se cumple. Para poder detectar la existencia de alguna dependencia
se utilizan los residuos Schoenfeld:
P !
⃗′ ⃗
Xk ∈Ek Xkj exp{β Xk }
Rij = δi Xij − P
Xk ∈Ekexp{β⃗′ X⃗k }
Donde tenemos que:

1 si i no es censurada
δi =
0 si i es censurada
Entonces tenemos que solo se calculan los residuos para aquellas observaciones no censuradas.
Luego de calculados los residuos, se deben orden los tiempos de sobrevivencia. Luego se calcula la
correlación entre los residuos y la variable creada para realizar la siguiente docima de hipótesis:

H0 : ρ = 0 V /S H1 : ρ ̸= 0
Para cada covariable por separado. En caso de aceptar la hipótesis nula, entonces se cumplirá
la hipótesi de riesgos proporcionales para el predictor correspondiente.

35
ANEXO
Análisis de Varianza (ANOVA)
Análisis de varianza comprende a todos aquellos contenidos que se basan en una descomposición
de la varianza de la variable de estudio. De forma particular esta metodología es aplicada para la
comparación de tratamientos. Consideremos lo siguiente:
m: condiciones, situaciones o tratamientos.
nj : mediciones o respuestas en cada tratamiento.
Yij : variable respuesa i-esima en el j-esimo tratamiento.
yij : observacióni-esima en el j-esimo tratamiento
donde se tiene que:
 
y1,1 ... y1,j ...
y1,m
 .. ..  = Matriz de Información
 . . 
yn1 ,1 . . . ynj ,j . . . ynm ,m
Considerando que cada respuesta es producto de una respuesta común de toda la población frente
a los m tratamientos es que se presenta el siguiente modelo para analizar los efectos y/o impactos
de cada tratamiento.

Yij = µ + τj +ϵij i=1,...,n , j=1,...m


Donde:
Yij : Variable respuesta
µ: efecto principal general de la población
τj : efecto de cada tratamiento j
ϵ: Componente de error (no depende del tratamiento, y es independiente para cada sujeto)
aleatorio.
Para la componente del error se consideran los siguientes supuestos:
1. ϵi ∼ N (0, σ 2 ), ∀i = 1, ..., n.
2. cov(ϵi , ϵj ) = 0, ∀i ̸= j.
3. Conjuntamente normal (se entiende mejor con Métodos Multivariantes)

7.3. Comparación de m tratamientos


El problema de comparación se puede plantear mediante la siguiente docimasia de hipótesis.

H0 : τ1 = . . . = τj = . . . = τm V /S H1 : τi = τj ∀j = 1, ..., m
Bajo el supuesto de normalidad de os residuos la docima planteada permite deducir las siguientes
variables aleatorias y su comportamiento:
SCT SCM SCE
∼ χ2N −1 , ∼ χ2m−1 , ∼ χ2N −m
σ2 σ2 σ2
Al ser SCM y SCE independientes la siguiente transformación entrega un indicador con significancia
evaluable para el problema planteado.

σ 2 /n − 1 SCM /m − 1
SCM
T = = ∼ F(m−1,N −m)
σ 2 /N − m
SCE SCE/N − m
(falta)

36
8. Referencias

37

También podría gustarte