Apunte Modelos Lineales
Apunte Modelos Lineales
Apunte Modelos Lineales
MODELOS LINEALES
“Parte I - Explicando la teoría”
3. Diagnostico en Regresión 15
3.1. De los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1. Tipos de residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2. Observaciones influyentes o Valores atípicos . . . . . . . . . . . . . . . . . . 16
3.2. Análisis de supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1. Normalidad de los errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2. No autocorrelación de los errores . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3. No multicolinealidad de variables explicativas/predictoras . . . . . . . . . . 20
3.2.4. Error de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.5. Extrapolación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4. Regresión Logística 21
4.1. Odds y Razón de disparidad (OR) . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3. Dócimas para el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.1. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.2. Test de Razón de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.3. Devianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.4. Pseudo R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4. Análisis de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.1. Sensibilidad y Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5. Curva ROC - Indicadores de discriminación . . . . . . . . . . . . . . . . . . . . . . 25
4.5.1. Punto de Corte Óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.6. Estimación mediante intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.6.1. Intervalo para los coeficientes del modelo . . . . . . . . . . . . . . . . . . . 26
4.6.2. Intervalo para la tasa de incidencia . . . . . . . . . . . . . . . . . . . . . . . 26
4.6.3. Intervalo para la predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1
5. Regresión Poisson 27
5.1. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2. Variable de Exposición (offset) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.3. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.4. Dócimas para significancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4.1. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4.2. Test de Razón de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.5. Tasa de riesgo relativo (RR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.5.1. Variables Categóricas y numéricas . . . . . . . . . . . . . . . . . . . . . . . 29
5.6. Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.6.1. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.6.2. Equidispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.7. Estimación mediante intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.7.1. Intervalo para los coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.7.2. Intervalo para la tasa de incidencia . . . . . . . . . . . . . . . . . . . . . . . 30
5.7.3. Intervalo para la predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6. Análisis de sobrevivencia 31
6.1. Función de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.1.1. Función de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.1.2. Tiempo de vida medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2. Estimación mediante Kaplan - Meier . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
7. Regresión de Cox 33
7.1. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.2. Supuesto de Riesgos Proporcionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.2.1. Residuos de Schoenfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.3. Comparación de m tratamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
8. Referencias 37
2
Resumen
Con la intensión de ser una guía y fuente de acceso a conocimientos del curso de modelos lineales se
presenta el siguiente escrito. Este contiene elementos teóricos básicos y más elaborados, así como
su implementación en el Software R. La idea es siempre poder realizar las conclusiones suficientes
con los datos que se obtengan.
Los modelos lineales son una rama de la estadística y se caracterizan por reproducir eventos o
fenóomenos de la realidad a través de datos. Un modelo contiene variables independientes o ex-
plicativas, que van a ayudar a explicar el comportamiento de la variable respuesta. Como solo es
un modelo matematico, no explica en su totalidad a la realidad, por lo que dicho modelo tambien
debe incluir el termino del error, el cual es una variable aleatoria.
Existen distintos tipos de modelos que se diferencian por el tipo de variable respuesta y el enfoque
que se desea estudiar. Se abarcará la regresión lineal múltiple, en el cual la variable respuesta es
una variable cuantitativa; la regresión logística, en el cual la variable respuesta es de tipo binaria;
la regresión Poisson, en el cual la variable respuesta es de tipo conteo y la regresión de Cox,
en el cual se intenta modelar tiempos de supervivencia. De todos estos modelos se verán sus
respectivas caracterásticas, supuestos, diagnósticos, estimaciones, inferencias, predicciones, entre
otros aspectos.
3
1. Regresión Lineal Simple
En regresión lineal simple se analiza la relación entre dos variables cuantitativas. Los objetivos
fundamentales para este análisis son: determinar si las respectivas variables están asociadas y en
que sentido se da dicha asociación, y, estudiar si los valores de una variable pueden ser utilizados
para predecir el valor de la otra.
Y →
− respuesta, dependiente, endógena, explicada
X−
→ predictora, independiente, exógena, explicativa
1.- Valor esperado: El valor esperado de la perturbación poblacional, condicionado a los valores
de las variables explicativas es cero, E(ϵi |xi ).
2.- No estocásticas: Las variables exógenas son no-estocásticas, de ser estocásticas estarán
distribuidas independientemente de las perturbaciones E(ϵi , xi ).
6.- Normalidad: Los errores distribuyen normal, con este supuesto se puede hacer inferencia
estadística. ϵi ∼ N (0, σ 2 )
Se plantea análizar el modelo de regresión dado por:
E(y|x) = µy|x = β0 + β1 X
X
n X
n
Se minimiza la suma de cuadrados residual SCResiduos = (yi − yˆi )2 = (yi − βˆ0 − β1 x1 )2 ,
i=1 i=1
realizando los calculos correspondientes, las estimaciones quedan:
X
n
(xi − X̄)(yi − Ȳ )
i=1 cov(x, y)
βˆ1 = = ; βˆ0 = Ȳ − βˆ1 X̄ (1)
X
n
V (X)
(xi − X̄) 2
i=1
4
Por otro lado
X
n X
n
(yi − yˆi )2 ϵ2i
σˆ2 Y |X = i=1
= i=1 2
= Sy|x (2)
n−2 n−2
Donde tenemos que:
βˆo : Es el intercepto, este representa el punto en el cual la recta de regresión intercepta al eje
Y, si esta fuera del recorrido no tiene una interpretación clara.
βˆ1 : Es la pendiente de la recta de regresión, esta representa la cantidad de incremento o
decrecimiento en la E(Y|X) por cada unidad en que se incrementa X.
método de máxima verosimilitud: Se obtienen los mismos resultados al estimar los paráme-
tros con el.
X
n X
n X
n
(yi − Ȳ )2 = (yˆi − Ȳ )2 + (yi − yˆi )2
i=1 i=1 i=1
| {z } | {z } | {z }
Suma de cuadrados Totales (SCT) Suma de cuadrados del Modelo (SCM) Suma de cuadrado Residual (SCR)
Esta forma de descomponer la variabilidad total, da lugar a la conocida como tabla ANOVA, que
se presenta a continuación.
i=1
(yˆi − Ȳ )2
X
n i=1
(yi − yˆi )2 1
X
n Fobs =
X
n
Residuos n−2 (yi − yˆi ) 2 i=1
n−2 (yi − yˆi )2
i=1
Xn i=1
Total n−1 (yi − Ȳ )2 n−2
i=1
Es a partir de esta “Tabla ANOVA” que se contrasta la hipótesis de significancia del modelo, la
cual tiene la siguiente forma.
H0 : β 1 = 0 V /S H1 : β1 ̸= 0 (3)
Donde se tiene que:
CM M
∼ F1,n−2
Fobs =
CM R
Además, considerando una significancia α (conocida), se presenta la siguiente región crítica:
5
C = {F |Fobs > F1,n−2,1−α }
Enseguida se puede calcular el P-Valor como P (F1,n−2,1−α ) ≥ Fobs ), donde si este valor es menor
a nuestro α, se dice que existe evidencia estadística suficiente para dudar de la veracidad de la
hipótesis nula H0 .
Para cada β es posible calcular un intervalo confidencial mediante las siguientes expresiones:
q
ˆ ˆˆ
IC(β1 , 1 − α) = β1 ± t(n−2,1−(α/2)) V ( β1)
q
ˆ
IC(β0 , 1 − α) = βˆ0 ± t(n−2,1−(α/2)) V ( ˆβ0)
X
n X
n X
n
(yi − Ȳ )2 (yˆi − Ȳ )2 (yi − yˆi )2
i=1 i=1 i=1
= +
X
n X
n X
n
(yi − Ȳ )2 (yi − Ȳ )2 (yi − Ȳ )2
i=1 i=1 i=1
X
n X
n
(yi − yˆi )2 (yˆi − Ȳ )2
i=1 i=1
1− =
X
n X
n
(yi − Ȳ )2 (yi − Ȳ )2
i=1 i=1
X
n
(yi − yˆi )2
i=1
R2 = 1 −
X
n
(yi − Ȳ )2
i=1
X
n
(yˆi − Ȳ )2
i=1
R2 =
X
n
(yi − Ȳ )2
i=1
SCM SCR
R =2
=1−
SCT SCT
Donde en un MRLS √ (Modelo de Regresión Lineal Simple) el coeficiente de determinación R2 se
corresponde con r = R2 , siendo r el coeficiente de correlación lineal de Pearson
6
2. Regresión Lineal Múltiple
El modelo de regresión lineal múltiple pretende establecer una relación lineal entre una variable
respuesta Y con un conjunto de predictores X1 , ..., xp independientes entre sí para un conjunto de
n observaciones, un objetivo adicional es analizar si los valores de la variable independiente pueden
ser utilizados para predecir el valor de la variable respuesta
Respecto de los errores aleatorios, estos deben cumplir los siguientes supuestos:
1. E(ϵi ) = 0 para i ∈ 1, 2, ..., n, esto es identico a decir que E(Yi ) = β0 + βi1 X1 + ... + βp Xip
Considerando que ahora contamos con p variables independientes, se adopta una forma matricial
de escritura.
⃗ = Xβ⃗ + ⃗ϵ
Y
Donde X es considerada una matriz constante de rango completo, también es denominada matriz
de diseño.
Esta escritura se traduce como:
Y1 1 x1,1 x2,1 ··· xp1 β0 ϵ1
Y2 1 x1,2 x2,2 ··· xp2 β1 ϵ 2
.. = .. .. .. .. .. × .. + ..
. . . . . . . .
Yn 1 x1n x2n ··· xpn βp ϵn
7
2.1.1. Estimación por mínimos cuadrados ordinarios (MICO)
La idea principal fue desglosada en la sección 1.2.1, la diferencia fundamental es que el enfoque
matricial plantea la siguiente ecuación a minimizar, expresada como:
X
n
⃗ϵt⃗ϵ = (Y ⃗ ′ (Y
⃗ − Xβ) ⃗ =
⃗ − Xβ) ϵ2i
i=1
Teorema -. Si Y ⃗ = Xβ⃗ + ⃗ϵ, donde X es una matriz de de n × (p + 1), luego el vector de valores
⃗′
β = (β0 , β1 , ..., βp ) que minimizan la ecuación anterior viene dado por:
ˆ
β⃗ = (X’X)−1 × X’
Estimación para σ 2 : Es posible definir un estimador insesgado para σ 2 basado en los estimado-
res por mínimos cuadrados, se tiene que σ 2 es el mismo para cada Yi y que E(ϵi ) = 0 i = 1, ..., n.
Además, σ 2 se define como E[Yi −E(Yi )]2 , de donde se obtiene.
σ 2 = E[Yi −Xi′ β]
⃗2
⃗ Y
Y’ ⃗ − β⃗ˆ′ X’Y
⃗
σˆ2 =
n−k−1
X
n X
n X
n
(yi − Ȳ )2 = (yˆi − Ȳ )2 + (yi − yˆi )2
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCM SCR
2.2.1. ANOVA
Esta descomposición de la variabilidad se puede resumir en la que llamaremos “Tabla ANOVA
de regresión lineal múltiple”
8
Dócimas de hipótesis en regresión lineal múltiple:
1 Test de hipótesis global: Este test permite evaluar si el conjunto de todas las variables
independientes X1 , X2 , ...Xp explican o no la variabilidad del modelo. La dócima proviene de
la tabla ANOVA, y se plantea como:
CM M
Fobs = ∼ Fp,n−(p+1)
CM R
Una forma alternativa de calcular el estadístico de prueba es utilizar el ya definido R2
R2 × (n − (p + 1))
Fobs =
(1 − R2 ) × p
Finalmente, se puede calcular el p−valor = P (F(p,n−(p+1) > Fobs ) en donde si el p−valor < α
se rechaza la hipótesis nula.
2 Test de hipótesis individual: Si en el test anterior se rechaza la hipótesis nula significa que
al menos hay un parámetro significativo para el modelo, para ver cual o cuales parámetros
aportan información al modelo se debe realizar la siguiente dócima de hipótesis:
H0 : βj = 0 V /S H1 : βj ̸= 0, ∀j = 1, ...p
βˆj
t= q ∼ t(n−(p+1))
ˆˆ
V ( βj)
Se puede considerar un intervalo de confianza para los βj , tal y como se muestra a continua-
ción:
q
ˆ
IC(βj , 1 − α) = βj ± t(n−(p+1),1−(α/2)) V ( ˆβj)
Al igual que con el test global, se puede calcular el p − valor = 2P (t(n−(p+1) > tobs ). Donde
si el p − valor < α se rechaza la hipótesis nula.
3 Test de hipótesis para un conjunto de parámetros: Este test compara dos modelos,
uno completo que posea todas las variables (p), y uno restringido con k de las p variables,
tal como se muestra a continuación
9
La dócima de hipótesis es la siguiente:
SCRr − SCRc
p−k
Fparcial = ∼ Fp−k,n−(p+1)
SCRc
n − (p + 1)
Por otro lado, se puede calcular el p−valor = P (Fp−k,n−(p+1) > Fobs ) donde si el p−valor < α
se rechaza la hipótesis nula, por lo tanto el modelo más adecuado sería el completo, cuyo error
va a ser menor en comparación al modelo reducido.
NOTA: pueden considerarse las hipótesis como H0 : El modelo reducido es el mejor V/S
H1 : El modelo completo es el mejor
X
n
(Xij − X̄j )(Xij ′ − X̄j )
\
Cov(X ij , Xij ′ )
rXj ,Xj′ = qP i=1
Pn = ; j, j ′ = 1, ..., p + 1
n
− X̄j )2 − X̄j )2 SXij SXij′
i=1 (Xij i=1 (X ij ′
A partir de estos coeficientes de correlación simple, se puede formar una matriz de correlaciones,
dicha matriz es simétrica y se ve de la siguiente forma:
1 r1,2 · · · r1,p+1
r1,2 1
· · · r2,p+1
R(p+1)×(p+1) = . . .. .
.. .. . ..
rp+1,1 rp+1,2 · · · 1
Sea Ybi , con i = 1, ..., n el conjunto de valores predichos una vez que se ajustado el modelo de
regresión lineal múltiple, el coeficiente de correlación múltiple corresponde entonces a:
SCM SCT − SCR
RY2 |X1 ,...,Xp = =
SCT SCT
10
2.3.3. Correlación Parcial
Esta mide la asociación entre una respuesta de interés y algún factor principal, bajo el efecto de
otras variables
11
2.5. Criterios de selección de variables del modelo
Si se considera una variable Y como variable respuesta, y se presenta un conjunto X ⃗ = X1 , .., Xp
de variables que acompañan a nuestra variable respuesta (independientes), es importante poder
obtener un subconjunto de variables X ⃗ que nos permita realizar un buen ajuste y poder describir
de mejor forma Y . Es importante tener presente que los mecanismos de selección de variables
no son sencillos de especificar ya que estos dependen en gran medida de que tipo de modelos se
desea obtener; predicativo o explicativo. Sin embargo, siempre que se tengan presentes 2 modelos
similares se escogerá de entre ellos el que entregue una explicación más sencillas y que requiera en
si una menor cantidad de supuestos, esto se llama principio de parsimonia.
Con el objetivo de conseguir modelos confiables con respecto a predecir o explicar una muestra
Kleinbaum, Kupper y Muller proponen lo siguiente a la hora se seleccionar variables:
n−1
2
Rajus = 1 − (1 − R2 )
n−p−1
2. F parciales: Con esto podemos comparar el modelo completo con p variables con uno res-
tringido a k variables (k < p), y dicha estadística es:
12
Con está estadística se evalúa la perdida en el ajuste al eliminar variables2 .
3. Cp Mallow: El método indica que a partir de un modelo de p variables, y uno reducido de
k es posible compararlos mediante la siguiente expresión:
SCRreducido
Cp = − n − 2(k + 1)
CM Rcompleto
AIC = 2p − 2 ln(L(β̂))
SCR
AIC = n + ln(2π) + n ln( ) + 2p
n
Donde L corresponde a la función de verosimilitud del modelo.
5. BIC: El criterio de información Bayesiana, de igual forma que el AIC, es un criterio que
involucra la información contenida en la verosimilitud del modelo, para obtener el BIC se
tiene:
Donde L es la función de verosimilitud del modelo. Al igual que en el AIC, mientras más
peque no sea el valor de BIC mejor es la bondad de ajuste del modelo4 .
6. CMR: Aqí se considera el cuadrado medio residual CM R = σY2ˆ|X , por lo tanto, modelo a
preferir/escoger es aquel con menor varianza residual.
1. Backward (dirección hacia atrás): Con esta estrategia estamos eliminando variables partiendo
desde un modelo general, dicha eliminación se realiza hasta que la totalidad de las variables
del modelo sean significativas, se presentan las 3 etapas de este procedimiento:
2 Si las diferencias entre las sumas de cuadrados residuales es pequeña usar el modelo más pequeño
3o bien seleccionar aquel modelo en donde Cp ≈ p
4 Desde un punto de vista Bayesiano, es natural adoptar como mejor modelo el que tenga mayor probabilidad a
posteriori.
13
2. Forward (dirección hacia adelante): A diferencia de la estrategia anterior, ahora la idea con-
siste en agregar/incluir variables en cada etapa, esto hasta que ninguna de las variables que
no ingresaron justifiquen su inclusión al modelo como algo significativo. Las etapas constan
de:
a) Ingresar al modelo la variable que tenga mayor relación lineal con l avariable respuesta.
Ajustar el modelo y evaluar la contribución de la variable agregada. Si el F global es
significativo, la variable ingresada queda en el modelo, en caso contrario se detiene el
proceso en esta etapa.
b) Se calculan los coeficientes de correlación parcial de cada variable que aun no ingresa
al modelo, en presencia si, de la variable ingresada anteriormente. Elegir la variable con
mayor correlación parcial y agregarla al modelo.
c) Ajustar el nuevo modelo, evaluar nuevamente la contribución de la variable que ingre-
sa. si F global no es significativo, el proceso se detiene, en caso contrario la variable
permanece y se repite el paso 2.
3. Stepwise (Paso a paso): En esta estrategia tenemos una combinación de las dos anteriores,
se inicia de igual manera que el Forward pero tras cada incorporación se realiza un test de
extracción de predictores no útiles como en el Backward. La ventaja es que a medidas que
se agregan los predictores si alguno de los ya establecidos en el modelo deja de contribuir a
este, el criterio lo elimina.
(falta)
X
p
Yc ˆ
1i = β0 + β̂i x1i i = 1, ..., n1
i=1
X
p
Yc ˆ
2i = β0 + β̂i x1i i = n1 + 1, n1 + 2, ..., n
i=1
14
3. Diagnostico en Regresión
A continuación se consideran varios enfoques para verificar la adecuación, validez del modelo y las
suposiciones correspondientes en un modelo de regresión. Además se realiza un diagnóstico respecto
a valores atípicos y la influencia de estos en el modelo.
⃗ − Xβ⃗ˆ = Y
⃗e = Y ⃗ˆ
⃗ −Y
Es por esto que podemos definir los residuos como las diferencias entre los valores observados de
la variable dependiente, y los valores predichos por el modelo.
⃗ = X(X’X)−1 X’Y
El vector de los valores predicho se puede escribir como Y ⃗ = HY ⃗ , donde
H ∈ Mn×n se llama matriz sombrero.Algunas características importante de los residuos son:
1. E(⃗e) = 0
2. El estimador de la varianza está basado en los residuo:
Pn 2
2ˆ i=1 ei (Y ′ Y ) − β̂(X ′ Y )
σY |X = CM R = =
n−p−1 n−p−1
3. ⃗eX = ⃗0
El vector de residuos presenta la misma media que el de errores, salvo que V ar(⃗ϵ) = σ 2 I no se
cumple, esto implica que los residuos no son independientes. Sin embargo, los hij son pequeños
(para i ̸= j), y además la dependencia de estos no altera las técnicas de diagnostico y validación
del modelo.
ϵ̂
Zi = p ; E(Zi ) = 0 ; V ar(Zi ) = 1
σ 1 − hij
2. Residuos estudentizados: Cuando los supuestos del modelo se cumplen se tiene que:
ϵ̂ 1 X n
ri = p ∼ t(n−p−1) ; E(ri ) = 0 ; V ar(i ) = r2 ≥ 1
σ̂ 1 − hij n − k − 1 i=1 i
3. residuos Jackknife: también llamado residuo recortado, este método considera una estimación
de la varianza después de que se excluye la i-ésima observación, se calcula como:
ϵˆ 1 X n
ti = √i ; E(ti ) = 0 ; V ar = r2
σˆ−i 1 − hi n − k − 1 i=1 −i
15
3.1.2. Observaciones influyentes o Valores atípicos
Estas son observaciones que tienen un impacto (muchas veces desproporcionado) en un modelo
de regresión, los valores atípicos corresponden a aquellos que presentan residuos muy grandes
(en valor absoluto). Es interesante ver/ saber el efecto que tiene esta observaciones, ya que una
observación influyente marca una diferencia importante en la pendiente de un modelo de regresión.
Por estas razones de consideran diferentes diagnósticos7 , basados en medidas que permiten eviden-
ciar si una observación es o no un valor outlier o un punto leverage alto, estos son:
1. En primer lugar se presenta la llamada Distancia de Cook, esta distancia mide la influencia
de la i-esima observación, su expresión esta dada por:
!2
ei hii 1
CDi = √ ˆ 1 − hii k
σ 1 − h − ii
Ybi − Y\i(−i)
DF F IT Si = q
2ˆ
σ(−i) hii
2ˆ
Se observa que widehatYi(−i) corresponde al valor estimado omitiendo el i-esimo caso, y σ(−i)
viene a ser la varianza estimada del error excluyendo la observación i-esima. Para esta medida
se presentan los siguientes ptos criticos.
q
a) considerando la distribución T, se considera el siguiente criterio: |DF F IT Si | ≥ 3 nk
q
b) Si la muestra es de gran tamaño se considera o siguiente: |DF F IT Si | ≥ 2 n−k k
det[σY2\ ′
|X(−i) (X(−i) X(−i) )
−1
]
COV RAT IOi =
det[σ[
2 ′
Y |X (X X)
−1 ]
o equivalentemente:
k
2ˆ
σ(−i) 1
COV RAT IOi =
ˆ 1 − hii
6o bien 3k
,o siendo más flexibles considerando k > 2
n
7 Estos metodfos están basados en distancias
16
Los criterios para esta medidas son:
a) COV RAT IOi > 1 + 3k n Entonces existe evidencia de que la i-esima observación es un
valor influyente (alto o grande).
b) de igual forma si COV RAT IOi < 1 − 3k
n
βˆp − βp(−i)
ˆ
DF BET ASpi = p
σ(−i)
ˆ Cpp
conjunto de datos.
17
como se producen los errores (variable respuesta e independientes), esto ya que toda trans-
formación sobre la respuesta es una transformación sobre ellos.
Generalmente es complejo encontrar una transformación, es por eso que existe un método
que permite obtener de forma rápida una transformación.
(yiλ − 1)
si λ ̸= 0
zλ,i = λ−1
λŷ
ŷln(yi ) si λ=0
Donde se tiene que ŷ corresponde a la media geométrica de las observaciones. Una vez estima-
do el nuevo parámetro λ (por método de máxima verosimilitud), se obtiene un modelo lineal
aditivo zλ = Xβ + ϵ, con errores normales, independientes y con una varianza constante.
Si no se remedia la situación, i.e, si los errores no siguen una distribución normal, aún así el
estimador de mínimos cuadrados presenta la menor de las varianzas entre los estimadores lineales
insesgados. En rigor, la normalidad no es necesaria para la descomposición de la variabilidad.
LA fuerza de este supuesto esta en la validación de los test de significancia, además de permitir
realizar estimaciones mediante intervalos de confianza. Es importante considerar que si n es muy
grande, las conclusiones que se obtengan de pruebas t − student y F son asintoticamente validas
inclusive si el supuesto de normalidad de errores no es valido.
Homocedasticidad de los errores
No es posible Observar si estamos o no en presencia de heterocedasticidad, ya que mayoritaria-
mente se está en la situación de que cada valor de de X tiene pocos valores de Y asociados.
Una estrategia consiste en visualizar si los residuos mantienen una varianza constante observando
algún gráfico, de entre los cuales podemos encontrar varias alternativas, como por ejemplo observar
los residuos en función de los valores observados, o bien los residuos en función de los valores
ajustados, también se puede considerar realizar un gráfica del valor cuadrático del residuo, etc.
Una metodología formal para la detección de heterocedasticidad (varianzas diferentes en los erro-
res), consiste en realizar la siguiente docima de hipótesis, conocida como docima de Breush-Pagan.
Dicho test permite determinar la heterocedasticidad de un modelo de regresión lineal, analizando
si la varianza de los residuos de la regresión dependen de los valores de las variables indepen-
dientes.
(n − k − 2)Re2
T =
(k + 1)(1 − Re2 )
Es importante notar que Re2 corresponde al coeficiente de determinación del nuevo modelo de
regresión que utilizó los residuos al cuádralo. La región crítica se representa como:
R = T |T > F(1−α;k+a;n−k−2)
18
¿Que efectos tiene la ausencia de hocedasticidad? La ausencia de varianzas constantes
trae como consecuencia que los estimadores MICO dejan de ser precisos (entre los estimadores
insesgados), y las estimaciones de la varianza respecto a los parámetros son incorrectas.9
ei = ρei−1 + νi
Se presenta el siguiente contraste de hipótesis.
H0 : ρ = 0 V /S H1 : ρ ̸= 0
Estableciendo una estadística definida como:
Pn
(ei − ei−1 )2
d = i=2Pn 2
i=1 ei
¿Que ocurre cuando los errores están correlacionados? en este caso se concluye que los
estimadores de mínimos cuadrados siguen siendo insesgados, pero dejan de ser los mejores estima-
dores.10
9 Hay errores en las docimas de significancia, y posibilidad de cometer errores de tipo II
10 Los estimadores de varianzas de los parámetros β ′ s son sesgados
19
3.2.3. No multicolinealidad de variables explicativas/predictoras
El término de Multicolinealidad es una situación en la que se presenta una fuerte correlación
entre las variables explicativas del modelo. Dicha correlación debe ser muy alta (ya que siempre
existirá correlación entre estas variables), vale decir que, la no correlación de dos variables es un
proceso idílico. Para continuar, se definen dos casos de multicolinealidad.
X
p−1
Xp = β j Xj
j=1
Cuasi Multicolinealidad11 : Existe una cuasi multicolinealidad, cuando existe una o más
variables, no son exactamente una combinación lineal de la otra, pero existe un coeficiente
de determinación entre estas variables es muy cercano a 1, vale decir, det(X t X) ≈ 0. Se
expresa de la siguiente manera:
X
p−1
Xp = βj Xj + τ
j=1
3.2.5. Extrapolación
Se llama extrapolación a la acción de estimar con valores que están más allá del intervalo de
datos original12 , está sujeta a incertidumbre y a un mayor riesgo de producir/arrojar resultados
insignificantes. Existen diferentes tipos de extrapolación, en especifico extrapolación oculta.
Está situación está presente cuando se realizan predicciones para puntos fuera de la nube de
puntos/datos de las variables explicativas (independientes), y por lo tanto no se corresponden
como predicciones validas.
11 Multicolinealidad aproximada
12 Proceso similar a la interpolación
20
4. Regresión Logística
La regresión logística es una herramienta estadística que permite modelar una relación entre una
variable respuesta categórica binaria y un conjunto de variables explicativas (continuas y/o
categóricas).
Esta herramienta estadística permite estimar la probabilidad de que un evento ocurra, vale
decir, permite calcular el valor esperado de variables binarias con un conjunto de variables
predictoras. Sea Y la variable respuesta, se tiene que:
1 Si aparece el evento en estudio
Y =
0 Si no aparece el evento en estudio
Y considerando al conjunto X ⃗ = (X1 , X2 , ..., Xk ) de variables predictoras (Y ∼ Bernoulli(p)) con
p ∈ (0, 1). Se puede iniciar modelando la probabilidad de que si aparezca el evento en estudio
(Y = 1), considerando el modelo de regresión lineal múltiple se tiene que:
⃗ = β0 + β1 X1 + ... + βk Xk
P (Y = 1|X)
Sin embargo existen problemas en la estimación de un modelo de regresión cuando la variable
respuesta es binaria, estos son:
Heterocedasticidad del término de residuos, i.e, los estimadores MICO no son los más eficien-
tes.
Las probabilidades predichas son inconsistentes13
Los β ′ s del modelo (interpretación), suponen que el efecto de las variables predictoras en la
probabilidad actúa como constante y es lineal en su recorrido.
No se cumple el supuesto de normalidad de os errores, ya que la respuesta es binaria.
R2 no apropiado.
Debemos de contemplar siempre que la relación que se quiere modelar no es lineal, y por ende
se debe ajustar lo anterior transformando la variable respuesta, para esto debemos definir más
adelante lo que llamaremos Odds
En rigor nos gustaría un modelo que represente de forma adecuada el comportamiento de la función
de probabilidad f (y) = P[Yi = 1|X]
⃗ ∈ (0, 1), y considerar que las variables independientes tengan
un efecto lineal. Para obtener esto, se presenta la siguiente corrección
′
e−x β 1
P(y = 1|x) = = = π(x)
1 + ex′ β 1 + e−(β0 +β1 X1 +...βk Xk)
′
ex β 1
P(y = 0|x) = 1 − P (y = 1|x) = 1 − x ′β = (β +β X1 +...βk Xk)
= 1 − π(x)
1+e 1+e 0 1
21
4.1. Odds y Razón de disparidad (OR)
Los Odds corresponden a la probabilidad de que el evento aparezca/esté en el estudio dado un
cierto preductor X ⃗ sobre la probabilidad de que el evento no aparezca en el estudio dado el mismo
predictor, de esto se deduce lo siguiente:
" # " #
P(Y = 1|X)
⃗ P(Y = 1|X)
⃗ p
ln = ln = ln = logit(p)
P(Y = 0|X)
⃗ 1 − P(Y = 1|X)
⃗ 1−p
Con esto en mente podemos definir los Odds como el cociente entre las dos probabilidades posibles
(Y = 1 o bien Y = 0) de la siguiente forma:
" # " # h
P(Y = 1|X)
⃗ P(Y = 1|X)
⃗ π(x) ′
i h i
Odd = = = = ex β = eh(x)
P(Y = 0|X)
⃗ 1 − P(Y = 1|X)
⃗ 1 − π(x)
Donde se observa que h(x) corresponde a una función con la forma de β0 + β1 X1 + ... + βk Xk 14 ,
entonces un Odd es la razón entre la probabilidad de ocurrencia de un evento y la
probabilidad de no ocurrencia de dicho evento
Por otro lado, dada unan variable binaria Y , llamaremos razón de disparidad a aquella razón
que permite saber cuantas veces más (o menos) es posible que Y tome el valor 1, para
ciertos valores de X ⃗ comparado con algún otro valor X⃗ ∗ , con esto en mente se define la
razón de disparidad (Odss Ratio o bien OR) como:
P(Y =1|X)
⃗
⃗X
⃗
⃗
= e
β
exp{β⃗ X}
⃗
OR =
1−P(Y =1|X) ⃗ X⃗ − X⃗ ∗ )}
⃗∗
= = exp{β(
P(Y =1|X)
⃗ ⃗X
⃗
e β exp{β⃗ X⃗∗ }
1−P(Y =1|X)
Entonces, podemos decir que la razón de disparidad permite medir el riesgo en términos de cambio
a partir de:
OR < 1 Existe menor probabilidad de poseer la característica, es decir, menores probabili-
dades de asociación entre el riesgo y la variable respuesta.
OR > 1 Existe mayor probabilidad de poseer la característica, es decir, mayores probabili-
dades de asociación entre el riego y la variable respuesta
OR = 1 No existe factor de riesgo, o bien, no existe asociación entre el riesgo y la variable
respuesta.
Y
k
⃗ =
L(β) pyi i (1 − pi )1−yi
i=1
Yk y i
pi
= (1 − pi )
i=1
1 − pi
( k ) Y
X pi
k
= exp yi ln (1 − pi ) Entonces
i=1
1 − pi i=1
( k ) k
X Y 1
= exp ⃗′ ⃗
yi ( β X i )
⃗′ ⃗
i=1 i=1 1 + exp(β Xi )
14 Regresión lineal múltiple
22
Aplicando logaritmo a esta función de verosimilitud se obtiene lo siguiente
X
k
⃗ =
log L(β) yi (β⃗′ X
⃗ i ) − ln(1 + exp(β⃗′ X
⃗ i ))
i=1
⃗ se obtiene la estimación de los parámetros.
Al maximizar esta función log-likelihood (L(β))
H0 : β j = 0 V /S H1 : βj ̸= 0
Donde debemos definir la estadística de Wald como:
2
βˆj βˆj
Wj = q ∼ N (0, 1) o bien Wj2 = q ∼ χ21
Vd
ar(βˆj ) Vd
ar(βˆj )
En este caso la región critica está definida por:
n o
R = m.a de tamaño n|wj > χ2(1,1−α)
H0 : β1 = β2 = ... = βj V /S H1 : βj ̸= 0
Esta dócima de hipótesis considera la siguiente estadística:
4.3.3. Devianza
Está se define como el doble logaritmo del estadístico de verosimilitud vale decir, D = −2 ln(L),
esta tiene una distribución χ2 y compara los valores observados en dos momentos15 . Se calcula la
devianza ddel nuevo modelo y se le resta la del modelo de referencia, obteniendo lo que llamaremos
ratio-likelihood.
23
Por o tanto si el modelo es bueno la devianza tiene a disminuir, y eventualmente aproximarse a
cero.
4.3.4. Pseudo R2
Como ya vimos la relación entre la variable respuesta y sus predictoras no es lineal, es por está
razón que el coeficiente de determinación clásico NO ES VALIDO, por esta razón se ha propuesto
una medida alternativa conocida como Índice de cociente de Verosimilitudes, y se define como:
ln(LM.E )
P seudo − R2 = 1 −
ln()LM.rs
Donde LM.R corresponde a la función de verosimilitud del Modelo Estimado, en cambio LM.rs
corresponde a la verosimilitud del modelo restringido. Entonces, si las verosimilitudes son iguales,
eso quiere decir que todos los coeficientes estimados serían cero, obteniendo que el P seudo−R2 = 0,
este estadístico se aproxima al 1 cuando la función de verosimilitud del modelo estimado se acerca
a su valor máximo (uno).
Valores predichos
Valores reales P.N Ŷ = 0 P.P Ŷ = 1 Total
R.N Verdadero Negativo Falso Positivo
VN+FP
Y =0 (VN) (FP)
R.P Falso Negativo Verdadero Positivo
FN+VP
Y =1 (FN) (VP)
Donde:
VP
P(Ŷ = 1|Y = 1) =
V P + FN
24
Especificidad: Es la Probabilidad de que clasificar correctamente a la variable
cuando esta toma el valor 0
VN
P(Ŷ = 0|Y = 0) =
FP + V N
Exactitud: Corresponde a la probabilidad de que una observación se clasifique correctamente
VP +VN
Exactitud =
T otal
Tasa de error: Corresponde a la probabilidad de que una observación se clasifique incorrec-
tamente
FP + FN
T asa de error =
T otal
Valor predictivo positivo: Corresponde a la probabilidad de que los valores predichos
positivos sean clasificados correctamente
VP
V PP =
V P + FP
Valor predictivo negativo: Corresponde a la probabilidad de que los valores predichos
negativos sean clasificados correctamente
VN
V PP =
V N + FN
Se puede afirmar que mientras mayor sea el área de esta curva, mejor será el poder de discrimi-
nación, a este indicador se le conoce mas por su s siglas en ingles AUC (area under curve).
25
Enfoque Clásico Deseamos que el punto (x, y) ∈ ROC, tenga mínima distancia al eje de sensi-
bilidad, para esto llamaremos z a la distancia que deseamos minimizar, luego se define la distancia
usual entre dos puntos como:
δ
z 2 = x2 + [f (x) − 1]2 / (·)
δx
δz δf δz δf x
z = [f (x) − 1] ⇒ = 0 ⇐⇒ =
δx δx δx δx 1 − f (x)
Entonces se obtiene que los puntos de corte son aquellos que satisfacen que:
1−E
m = f ′ (1 − E) =
1−S
Donde se observa que si la pendiente es mayor, tendremos una mejor clasificación de especificidad
que de sensibilidad y viceversa.
′
⃗0 S 2 X
De aquí podemos rescatar que S ⃗ˆ ⃗ = X ⃗
β X0 ˆ 0
⃗ β
26
5. Regresión Poisson
La regresión Poisson, es una herramienta estadística dentro de la familia de modelos lineales ge-
neralizados de tipo exponencial que nos permite estudiar/analizar una variable aleatoria Y que
posea una distribución poisson, vale decir, que su recorrido corresponda a los nume-
ro enteros NO NEGATIVOS (Y ∼ P oisson(λ)). En rigor esta regresión modela la tasa de
incidenciaλ asociada a la variable Y , pero esta condicionada a un conjunto X⃗k {x1 , x2 ..., xk } de
variables explicativas.
ln(λ) = β0 + β1 X1 + ... + βk Xk
Este modelo se usa frecuentemente cuando se desea representanr tasas de incidencia, que se
calculan como λ = Y /N , con Y el número de eventos de cada grupo de estudio (durante el
seguimiento), y N corresponde al número de personas en la población estudiada, todo esto en un
instante/periodo de tiempo.
(λ ∗ N )Y e−λ∗N
P(Y = y|X⃗k ) =
Y!
X
k
ln(E(Y |X⃗k )) = ln(λi ) = ln(ti ) + β0 + β i Xi
i=1
27
Y
n
(exp{β0 + β1 X1 + ... + βk Xk })yi exp{−exp{β0 + β1 X1 + ... + βk Xk }}
⃗ =
L(β)
i=1
yi !
Yn
exp{yi (β0 + β1 X1 + ... + βk Xk )}exp{−exp{β0 + β1 X1 + ... + βk Xk }}
= / Ln()
i=1
yi !
X
n
exp{yi (β0 + β1 X1 + ... + βk Xk )}exp{−exp{β0 + β1 X1 + ... + βk Xk }}
⃗ =
ln L(β)
i=1
yi !
Xn
= (yi (β0 + β1 X1 + ... + βk Xk )) − exp{β0 + β1 X1 + ... + βk Xk } − ln(yi !)
i=1
H0 : β j = 0 V /S H1 : βj ̸= 0
Donde debemos definir la estadística de Wald como:
2
βˆj βˆj
Wj = q ∼ N (0, 1) o bien Wj2 = q ∼ χ21
Vd
ar(βˆj ) Vd
ar(βˆj )
En este caso la región critica está definida por:
n o
R = m.a de tamaño n|wj > χ2(1,1−α)
H0 : β1 = β2 = ... = βj V /S H1 : βj ̸= 0
Esta dócima de hipótesis considera la siguiente estadística:
28
5.5. Tasa de riesgo relativo (RR)
Es importante, una vez estimados los parámetros y haber seleccionado el modelo adecuado, ser
capaz de interpretar esto mismos. Como estos coeficientes están relacionados mediante la trans-
formación realizada (logaritmo natural), la interpretación se dará mediante lo que conoceremos
como Riego Relativo sobre la tasa de incidencia de los sucesos - RR, esto asociado a un
aumento de una unidad en la covariable Xk
λ(X = α)
RR(Xαη ) =
λ(X = η)
= exp{βη − βα }
Variables Numéricas: Diremos que el riego relativo al incrementar en una unidad el valor de
la variable predictora X⃗k se representa como:
λ(Xk = x + 1)
RR(Xk ) =
λ(Xk = x)
= exp{βk }
Esta interpretación es que: por cada unidad de aumento en la variable Xk el riesgo relativo
aumenta en (RR − 1) % siempre y cuando el RR > 1, en caso contrario se dice que disminuye en
(1 − RR) %.18
5.6.2. Equidispersión
Una de las características más importantes de la distribución Poisson es que se cumple que E[Y ] =
V[Y ], es decir, la esperanza de la variable coincide con la varianza de esta. A esta igualdad se le
conoce como equidispersión. Sin embargo, existen situaciones en las que de forma no tan poco
frecuente esta igualdad no se cumple, y podemos tener las siguientes situaciones:
En ambos casos el criterio para analizar el tipo de dispersión que se presenta es el mismo, mediante:
Var[Yi ]
CV =
E[Yi ]
Entonces podemos concluir que si el CV < 1, estamos en presencia de subdispersión, y en caso
contrario contamos con sobredispersión. La existencia de es un problema, ya que las estimaciones
18 En el supuesto de tener variables categóricas se realiza la misma interpretación
19 Se puede verificar esto con el test de rachas
20 Este efecto es muy poco usual de ver
29
de los errores estandar estaran sesgadas, lo que podría inducir a errore e/o inconsistencias en
kas inferencias de los parámetros del modelo generado.
¿A que se debe la presencia de sobredispersión? Esto puede ser debido a múltiples factores,
por ejemplo el que los evento no sean independientes en el tiempo, o quizas los datos presentan
una alta variabilidad, o hasta una mala elección de función de enlace.21
D χ2
>1 ∧ >1
n−k n−k
Decimos que existe Sobredispersión.
Es importante notas que Sβj corresponde al estimador de la matriz de varianzas covarianzas del
estimador del coeficiente βj .22
30
6. Análisis de sobrevivencia
Ahora comenzamos a estudiar lo que corresponde al análisis del tiempo de sobrevivencia
(tiempo de funcionamiento o tiempo de vida) de poblaciones ya sea de objetos o seres vivos.
En estas entidades existen casos de censura (procedimiento interrumpido por imposibilidad de
continuar, abandono del estudio, o se conservan a través del tiempo).
S ′ (t) δ
r(t) = = − [ln S(t)], ∀t > 0
S(t) δt
Rt
Tenemos que S(t) = exp{− o
r(z)δz}, y con esta expresión podemos definir la Función de Riesgo
acumulada (R(t)) como:
Z t
R(t) = r(z)δz
0
Con esto podemos decir que S(t) = exp{−R(t)} representa la función de densidad Z del tiempo
de sobrevivencia. Esto en términos de la función de supervivencia y os riesgos:
Z t
S(t) = 1 − F(t) ⇐⇒ exp − r(z)δz = 1 − F(t)
0
Z t
⇐⇒ − r(z)δz = ln (1 − F(t))
0
F′ (t)
⇐⇒ −r(z)δz =
1 − F(t)
⇐⇒ f (t) = −r(t)S(t)
Observando esto, y la definición inicial de la función de riesgo, se puede concluir que la densidad
de Z en términos de S(t) corresponde a f (t) = −S ′ (t).
25 Función de riesgo de ocurrencia de un siniestro, tasa instantánea de falla, fuerza de mortalidad, entre otras
31
6.1.2. Tiempo de vida medio
Consideremos la misma variable Z, y ahora definimos el tiempo de vida medio, en términos de la
función de sobrevivencia S(t) respecto al tiempo como:
Z +∞ Z +∞
E(Z) = t ∗ f (t)δt = − t ∗ S ′ (t)δt
0 0
Z +∞ Z +∞
= − t ∗ S(t)|+∞
0 − S(t)δt = S(t)δt
0 0
6.3. Censura
Cuando se realiza análisis de supervivencia muchas veces el tiempo exacto hasta que se presenta el
suceso no consigue ser observado (por diversas razones), a este resultado se le denomina censura. La
censura corresponde a “cortes” en el seguimiento del evento de interés, entre estos se destacan
326 . A continuación se presentan cada uno de estos tipos de censura, así como su descripción.
1. Censura por la Izquierda: Decimos que una observación presenta censura por la izquierda
cuando desconocemos el valor del tiempo T hasta la ocurrencia del evento de interés, pero sin
embargo, se sabe que el evento ocurrió antes de inicio del seguimiento T0 .
2. Censura por la Derecha: Decimos que una
observación presenta censura por la derecha cuan-
do desconocemos el valor del tiempo T hasta la
ocurrencia del evento de interés, pero sin embargo
se sabe que este tiempo es mayor a algún tiempo
Tj , donde Tj corresponde al último instante de
tiempo de seguimiento.
Finaliza el ensayo)
32
7. Regresión de Cox
Finalmente se presenta el modelo de Cox, también conocido como modelo de riesgos proporcionales.
Este modelo corresponde a un mecanismo de estimación semi-paramétrico de la función de
sobrevivencia.
⃗ = r0 (t)exp{β,⃗X}
r(t, X) ⃗
Acá se puede observar que X⃗ es un vector aleatorio de variables explicativas, mientras que β⃗ es un
vector de constantes, en conjunto dan forma a ala expresión con forma exponencial, estas partes
representan lo paramétrico del modelo.
Ahora que identificamos la parte paramétrica del modelo, ¿Cual es la parte no paramétrica?,
esta viene por la expresión r0 (t) = r(t, ⃗0, la que es conocida riesgo basal. El riesgo basal representa
el riesgo de la entidad que tiene X ⃗ = 0, a esta entidad se le conoce como entidad (individuo,
sujeto) de referencia). Con esto en mente podemos reescribir el modelo, para obtener lo que
llamaremos Modelo de Regresión de Cox Log-Lineal:
" #
⃗
r(t, X)
ln = β⃗ X
⃗
ro (t)
Antes vimos que:
Z t
S(t) = exp − r(z)δz
0
Si extendemos esta relación entre la sobrevivencia y el riesgo podemos obtener que:
Z t
S0 (t) = S(t, 0) = exp −
⃗ ⃗
r(z, 0)δz
0
⃗ se obtiene que:r(z,)
Entonces, cambiando ⃗0 por X
Z t
S(t, ⃗0) = exp − ⃗
r(z, X)δz
0
Z t n o
= exp − r(z, ⃗0)exp β⃗ X
⃗ δz
0
Z t exp{β⃗X⃗ }
= exp − ⃗
r(z, 0)δz
0
exp{β ⃗}
⃗X
= [S0 (t)]
Con esta expresión se plantea el modelo de regresión de Cox en términos de la función de sobre-
vivencia.
¿Cuando se usa el modelo de Cox? El modelo de Cox se puede utilizar en los siguientes casos:
Cuando no se tiene información previa acerca de la dirección temporal de la función de riesgo
Cuando la función de riesgo no puede determinarse a través de un método paramétrico
Cuando interesa la magnitud y la dirección de los efectos de las variables explicativas, teniendo
controlada la dirección temporal
33
7.1. Estimación de parámetros
Una de las características que hacen especial al modelo de Cox es que no existe supuesto de
distribución para la variable respuesta27 , entonces no es posible formular una probabilidad
completa basada en la distribución de resultados.
Dada una muestra aleatoria de n observaciones, para lograr estimar los parámetros β⃗ se consideran
p apariciones del evento de interés, por ende n − k censuras. Sean ordenados los tiempos de sobre-
vivencia para las n observaciones de la muestra, sea X⃗1 , ..., X⃗n las variables exógenas asociadas y
Ei el conjunto de entidades en riesgo hasta antes de ti .
Si suponemos Z una variable de tiempo de ocurrencia (discreta), cuyo soporte sea igual a los puntos
de ocurrencia sin censura, entonces se define:
exp{β⃗′ X
⃗ i}
f − i|Ei (t) = P(Z = ti |Ei ) = P
Xi∈Eiexp{β⃗′ X ⃗ i}
Y
n
⃗ =
L(β) fi|Ei (t)
i=1
Yn
exp{β⃗′ X
⃗ i}
= P
i=1 exp{β⃗′ X
Xi∈Ei
⃗ i}
⃗
r(t, x∗) ⃗ x∗
HR = = exp{β( ⃗ − ⃗x)}
r(t, ⃗x)
La definición es similar a los OR de regresión logística, para los cuales se evalúa en el numerador
el grupo de mayor riesgo y en el denominador el grupo de menor riesgo. En la razón de riesgos,
tenemos que HR cuantifica cuántas veces es mayor el riesgo con perfil x∗⃗ respecto con ⃗x.
Como las covariables no dependen del tiempo, es posible supone que HR tampoco lo hace, y por
ende los riesgos son proporcionales29
34
7.2.1. Residuos de Schoenfeld
Si alguna de las variables explicativas o su coeficiente varían con el tiempo, decimos que el supuesto
de riesgos proporcionales no se cumple. Para poder detectar la existencia de alguna dependencia
se utilizan los residuos Schoenfeld:
P !
⃗′ ⃗
Xk ∈Ek Xkj exp{β Xk }
Rij = δi Xij − P
Xk ∈Ekexp{β⃗′ X⃗k }
Donde tenemos que:
1 si i no es censurada
δi =
0 si i es censurada
Entonces tenemos que solo se calculan los residuos para aquellas observaciones no censuradas.
Luego de calculados los residuos, se deben orden los tiempos de sobrevivencia. Luego se calcula la
correlación entre los residuos y la variable creada para realizar la siguiente docima de hipótesis:
H0 : ρ = 0 V /S H1 : ρ ̸= 0
Para cada covariable por separado. En caso de aceptar la hipótesis nula, entonces se cumplirá
la hipótesi de riesgos proporcionales para el predictor correspondiente.
35
ANEXO
Análisis de Varianza (ANOVA)
Análisis de varianza comprende a todos aquellos contenidos que se basan en una descomposición
de la varianza de la variable de estudio. De forma particular esta metodología es aplicada para la
comparación de tratamientos. Consideremos lo siguiente:
m: condiciones, situaciones o tratamientos.
nj : mediciones o respuestas en cada tratamiento.
Yij : variable respuesa i-esima en el j-esimo tratamiento.
yij : observacióni-esima en el j-esimo tratamiento
donde se tiene que:
y1,1 ... y1,j ...
y1,m
.. .. = Matriz de Información
. .
yn1 ,1 . . . ynj ,j . . . ynm ,m
Considerando que cada respuesta es producto de una respuesta común de toda la población frente
a los m tratamientos es que se presenta el siguiente modelo para analizar los efectos y/o impactos
de cada tratamiento.
H0 : τ1 = . . . = τj = . . . = τm V /S H1 : τi = τj ∀j = 1, ..., m
Bajo el supuesto de normalidad de os residuos la docima planteada permite deducir las siguientes
variables aleatorias y su comportamiento:
SCT SCM SCE
∼ χ2N −1 , ∼ χ2m−1 , ∼ χ2N −m
σ2 σ2 σ2
Al ser SCM y SCE independientes la siguiente transformación entrega un indicador con significancia
evaluable para el problema planteado.
σ 2 /n − 1 SCM /m − 1
SCM
T = = ∼ F(m−1,N −m)
σ 2 /N − m
SCE SCE/N − m
(falta)
36
8. Referencias
37