Transformaciones de Box-Cox PDF
Transformaciones de Box-Cox PDF
Transformaciones de Box-Cox PDF
9/14/2006
Transformaciones de Box-Cox
Resumen
El procedimiento para las Transformaciones de Box-Cox es diseado para determinar una
transformacin optima para Y mientras se estima un modelo de regresin lineal. Es muy til
cuando la variabilidad de Y cambia como una funcin de X. A menudo, una apropiada
transformacin de Y estabiliza la variabilidad y produce que las desviaciones alrededor del
modelo sean ms normalmente distribuidas.
Y = (Y + 2 ) 1
(1)
en la cual los datos son calculados en una potencia de 1 despus de cambiarlo a una cierta
cantidad 2. Posteriormente, el parmetro de cambio 2 se fija igual a 0. Esta clase incluyen
races cuadradas, logaritmos, recprocos, y otras transformaciones comunes, que dependen sobre
una potencia. Los ejemplos incluyen:
Es deseable determinar un modelo relacionando el nivel de plasma para la edad de los nios.
Entrada de Datos
La caja de dialogo para la entrada de datos requiere los nombres de las columnas que contienen
la variable dependiente Y y la variable independiente X:
W = 0 + 1 X + (2)
[
1 + K 1 (Y + 2 )1 1
] 1 0
W = si (3)
1 + K ln (Y + ) 1 = 0
2 2
y
1/ n
n
K 2 = (Yi + 2 ) (4)
i =1
1
K1 = (5)
1 K 21 1
Note que K2 es la media geomtrica de Y+2. Despus de Box y Cox (1964), la transformacin
ptima es la que minimiza el cuadrado medio del error de W. La razn para usar la variable
estandarizada W en vez de Y es ajustar la magnitud sobre la suma de cuadrados del error para
que haya el efecto de la transformacin potencia.
Anlisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P
Modelo 198.285 1 198.285 149.24 0.0000
Residuo 30.5593 23 1.32866
Total (Corr.) 228.845 24
Se incluye en la salida:
Parmetros de Potencia y Cambio: Los valores de 1 y 2. Por defecto, el parmetro de
potencia es optimizado, mientras que el parmetro de cambio es fijado en 0. Esto se puede
cambiar usando Opciones del Anlisis. Tambin se incluye al final de la pantalla una
Media del Error Absoluto El promedio de los valores absolutos de los residuales.
En los datos del ejemplo, la transformacin seleccionada est muy cerca de una raz cuadrada
inversa, implicando que 1 / NivelPlasma es una funcin lineal de la Edad. Sin embargo, de
acuerdo al intervalo de confianza, La transformacin optima real puede ser cualquiera entre un
reciproco y un logaritmo.
Potencia: El valor del parmetro de potencia 1. Si Optimizar esta seleccionado, esto sirve
como el valor inicial de la bsqueda de optimizacin cuando se presiona OK. Si Optimizar
no esta seleccionado, este es el valor usado para la transformacin.
Cambio: El valor del parmetro de potencia 2. Este valor se resta de la variable dependiente
Y antes que la transformacin de potencia sea desarrollada.
20
Plasma Level
16
12
0
0 1 2 3 4
Age
El grfico incluye:
La lnea del mejor ajuste o ecuacin de prediccin. Esta es la ecuacin que ser utilizada
para predecir valores de la variable dependiente Y dado los valores de la variable
independiente X. Note que se realiza un trabajo relativamente bueno al tomar el
incremento de la variabilidad del Nivel de Plasma sobre Edades bajas, as como la
relacin de la curvatura.
Lmites de Prediccin para nuevas observaciones. Estos son los lmites externos del
grfico anterior y describen como exactamente uno podra predecir donde mentira una
nueva observacin. Sin importar el tamao de muestra, las nuevas observaciones varan
alrededor de la verdadera lnea.
La inclusin de los lmites de confianza y prediccin y su nivel de confianza por defecto esta
determinado por la configuracin sobre la seccin Regresin/ANOVA de la caja de dialogo
Preferencias, accesible desde el men Edicin.
Resolucin del Eje X: El nmero de valores de X en los cuales se determina la lnea cuando
se grafica. Altas resoluciones dan como resultado grficos ms suaves.
Comparacin MSE
lambda2 = 0.0
12
10
8
MSE
0
-2 -1 0 1 2
lambda1
Las lneas verticales se dibujan en 1 calculado y sus lmites de confianza. Note que el CME
alcanza un mnimo cercano a 1 = 0.5, aunque es relativamente plano con una regin amplia
alrededor del valor ptimo, indicando que la potencia puede cambiarse a otros valores sin afectar
sustancialmente el modelo.
Las Opciones del Panel son las mismas que para el grfico.
-2
-2 -1 0 1 2
lambda1
La estandarizacin del sesgo y la curtosis se presenta para ambas entre 2 y +2 para una
transformacin adecuada a los datos normalizados. El grfico muestra una lnea horizontal entre
2 y +2, con la lnea vertical indicando el valor ptimo de 1 y sus lmites de confianza.
Es de inters primario el valor P para la falta-de-ajuste. Un valor P pequeo (menor que 0.05 si
esta operando un nivel de significancia al 5%) indica que el modelo seleccionado no describe
adecuadamente la relacin observada.
Para los datos del ejemplo, el valor P grande indica que el modelo lineal explica adecuadamente
la relacin entre Nivel de Plasma y Edad.
24
20
16
observados
12
0
0 4 8 12 16 20 24
predichos
Grfico de Residuales
Como con todos los modelos estadsticos, es una buena practica examinar los residuales. En una
regresin, los residuales estn definidos por:
ei = Wi W i (7)
ej., los residuales son las diferencias entre los valores transformados de los datos y la estimacin
del modelo de regresin lineal.
1. contra X.
2. contra valores predichos W .
3. contra nmero de fila.
Residuales contra X
Este grfico es provechoso en la visualizacin cuando fue buena la transformacin considerada
para cualquier curvatura en los datos.
Grfica de Residuos
3.3
Residuos Estudentizados
2.3
1.3
0.3
-0.7
-1.7
-2.7
0 1 2 3 4
Age
Grfica de Residuos
3.3
Residuos Estudentizados
2.3
1.3
0.3
-0.7
-1.7
-2.7
5.4 7.4 9.4 11.4 13.4 15.4
Plasma Level predicho
Si la transformacin fue efectiva, la variabilidad puede ser aproximadamente igual por todas
partes.
Grfica de Residuos
3.3
Residuos Estudentizados
2.3
1.3
0.3
-0.7
-1.7
-2.7
0 5 10 15 20 25
nmero de fila
Si los datos fueron arreglados en orden cronolgico, cualquier patrn en los dato sindican una
influencia extrema.
Residuales Inusuales
Una vez que se ha estimado el modelo, es til estudiar los residuales para determinar donde
existe cualquier valor atpico que deba ser removido de los datos. El panel Residuales Inusuales
lista todas las observaciones que tienen un residual estandarizado mayor que 2.0 en valor
absoluto.
Residuos Atpicos
Y Residual
Row X Y Predicha Residual Estudentizado
4 0.0 20.09 13.9249 6.16515 2.22
18 3.0 5.14 6.63425 -1.49425 -2.64
Los puntos pueden removerse de la estimacin mientras se examina con el Grfico del Modelo
Estimado dando clic sobre un punto y presionando el botn Excluir/Incluir sobre la barra de
herramientas:
20
Plasma Level
16
12
0
0 1 2 3 4
Age
Los puntos excluidos son marcados con una X. Para los datos del ejemplo, removiendo la fila 18
se tiene poco efecto sobre el modelo estimado o la transformacin optima.
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 12
STATGRAPHICS Rev. 9/14/2006
Puntos Influyentes
En la estimacin de un modelo de regresin, todas las observaciones no tienen la misma
influencia sobre la estimacin de los parmetros en el modelo estimado. En una regresin lineal
simple, los puntos localizados con valores muy bajos o altos de X tienen mayor influencia que
los que estn localizados cerca de la media de X. El panel de Puntos Influyentes despliega
cualquier observacin que tiene una alta influencia sobre la estimacin del modelo:
Puntos Influyentes
Y Residual
Fila X Y Predicha Estudentizado Leverage
Valor de influencia promedio de un punto = 0.08
La tabla anterior muestra todos los puntos con palancada igual o mayor a 3 veces sobre un valor
promedio de los datos, donde la palancada de una observacin es una medida de la influencia
sobre la estimacin de los coeficientes del modelo. En general, valores con palancada excesiva a
5 veces sobre de un valor promedio de los datos deben ser examinados a detalle, puesto que
tienen inusualmente un alto impacto sobre la estimacin del modelo. En los datos del ejemplo,
no hay observaciones con palancada inusualmente grande.
Pronsticos
El panel de Pronsticos crea predicciones usando el modelo estimado.
Valores Predichos
95.00% 95.00%
Predicho Lmites de Prediccin Lmites de Confianza
X Y Inferior Superior Inferior Superior
0.0 13.9226 9.83804 21.2112 12.3424 15.8276
1.0 10.534 7.82401 14.9464 9.77386 11.3866
2.0 8.24875 6.34227 11.1674 7.81234 8.72285
3.0 6.63479 5.22299 8.70911 6.25099 7.05514
4.0 5.45266 4.35965 7.01618 5.05345 5.90123
5.0 4.5609 3.68238 5.79685 4.15302 5.03211
Se incluyen en la tabla:
Por ejemplo, en X = 3, 95% de todos los nios se espera tener niveles de plasma entre 5.47 y
8.53.
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 13
STATGRAPHICS Rev. 9/14/2006
Grabar Resultados
Los siguientes resultados pueden grabarse en la base de datos:
1. Valores Predichos El valor predicho de Y correspondiente a cada una de las n
observaciones.
2. Limite de Prediccin Inferior El lmite de prediccin inferior para cada valor predicho.
3. Limite de Prediccin Superior El lmite de prediccin superior para cada valor predicho.
4. Limite de Prediccin Inferior de la Media El lmite de confianza inferior para la media
de Y en cada n valores de X.
5. Limite de Prediccin Superior de la Media El lmite de confianza superior para la
media de Y en cada n valores de X.
6. Residuales Los n residuales.
7. Residuales Estandarizados Los n residuales estandarizados.
8. Palancadas Los valores de palancadas correspondientes a n valores de X.
9. Transformacin de los Datos Los n valores transformados W.
Clculos