Manual de Estadística Multivariante
Manual de Estadística Multivariante
Manual de Estadística Multivariante
ESTADÍSTICA MULTIVARIANTE
1. Preliminares 7
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Principales parámetros probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Principales parámetros muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5. Nociones básicas de Álgebra Lineal . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. Problema de clasificación 53
4.1. Planteamiento general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2. Análisis Discriminate Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1. LDA y ejes discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2. Estrategia cuadrática de Fisher . . . . . . . . . . . . . . . . . . . . . . . 60
4.3. Métodos alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.1. Regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.2. Vecino más próximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.3. Árbol de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5
Introducción
5. Reducción dimensional 73
5.1. Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2. Justificación geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3. Representación de observaciones y variables . . . . . . . . . . . . . . . . . . . . 77
5.3.1. Representación de observaciones . . . . . . . . . . . . . . . . . . . . . . . 79
5.3.2. Representación de variables . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.3.3. Representación conjunta de observaciones y variables . . . . . . . . . . . 80
5.3.4. Rotación de ejes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.4. Análisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.4.1. Modelos con factores latentes . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5. Indicaciones sobre Análisis de Correspondencias . . . . . . . . . . . . . . . . . . 85
5.6. Multicolinealidad y PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6. Análisis de conglomerados 91
6.1. Método de k-medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.2. Método jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.4. Análisis de conglomerados bietápico . . . . . . . . . . . . . . . . . . . . . . . . . 97
6
Capítulo 1
Preliminares
En este capítulo intentaremos fijar la notación, así como definir e interpretar conceptos
fundamentales en el contexto de la Estadística Multivariante, muchos de los cuales deben ser
conocidos. También llevaremos a cabo un breve repaso de Álgebra Lineal.
1.1. Notación
En general, solemos manejar en estadística dos tipos de lenguajes: probabilístico y muestral.
El primero sirve para expresar las propiedades de la población objeto del estudio, entendiendo
población en un sentido amplio; el segundo se utiliza para expresar las propiedades de una
muestra de n datos extraídos, se supone que aleatoriamente, de dicha población.
El marco formal en el que se desarrolla el estudio poblacional es el espacio L2 de funciones
reales de cuadrado integrable, definidas sobre cierto espacio de probabilidad. Queremos decir
que las variables aleatorias que estudiemos se identificarán con elementos de L2 . El estudio
muestral tiene lugar en el espacio Euclídeo Rn , es decir que, dada una variable aleatoria X ∈ L2 ,
una muestra aleatoria de tamaño n de dicha variable se identificará con un vector X de Rn ,
cuyas componentes Xi serán las distintas mediciones de la misma. Obsérvese que hemos utilizado
distintas fuentes de letra para denotar ambos conceptos, norma que intentaremos seguir en la
medida de lo posible.
En el contexto del análisis multivariante, X puede denotar con frecuencia un vector aleatorio
p-dimensional de componentes X[1], . . . , X[p]. En tal caso, una muestra aleatoria de tamaño n
para dicho vector aleatorio se expresará mediante la matriz X ∈ Mn×p que descompone así:
X01
X1 [1] . . . X1 [p]
X = (X[1], . . . , X[p]) = .. .. = .. (1.1)
. . .
Xn [1] . . . Xn [p] X0n
A título de ejemplo, en el cuadro 1.1 se expone una muestra de tamaño n = 38 de un vector
aleatorio de dimensión p = 8. Los datos corresponden a medidas de la motilidad de esperma-
tozoides en moruecos y fueron recogidos por J.A. Bravo en el CENSYRA de Badajoz.
L2 forma parte de una categoría de espacios que generalizan el concepto de espacio Euclídeo
por estar también dotados de un producto interior. Concretamente, dados f, g ∈ L2 , se define
hf, gi = EP [f · g] (1.2)
7
Capítulo 1 Notación
EP se entiende como el funcional que asigna a cada variable aleatoria su integral respecto a la
probabilidad P definida en el espacio de origen. El subíndice P suele omitirse. En el contexto
estadístico en podemos considerar en Rn el siguiente producto interior proporcional al conocido
como producto escalar:
n
1X
ha, bi = ai bi (1.3)
n i=1
En ambos espacios, los respectivos productos inducen sendas normas (al cuadrado), definidas
en general mediante kak2 = ha, ai y, en consecuencia, sendas métricas basadas en la norma al
cuadrado de las diferencias:
d2 (X, Y ) = E[(X − Y )2 ], X, Y ∈ L2 (1.4)
1X
d2n (X, Y) = (Xi − Yi )2 , X, Y ∈ R n (1.5)
n i
La segunda es, salvo una homotecia, la distancia Euclídea al cuadrado en Rn . El uso de estas
distancias para cuantificar errores se asocia al denominado método de Mínimos Cuadrados. Por
otra parte, del producto interior se deriva a su vez una noción de ortogonalidad o perpendicu-
laridad. En Rn decimos que a y b son ortogonales entre sí cuando ha, bi = 0, en cuyo caso se
denota a ⊥ b. En L2 se define de manera análoga.
6
E
e − PV e
e
1
t PV e
0
V
Figura 1.1: Proyección ortogonal
8
Capítulo 1 Principales parámetros probabilísticos
La colección de resultados teóricos conocida como Leyes de los Grandes Números y Teore-
ma Central del Límite establecen una clara conexión entre los espacios Rn y L2 , si entendemos
X ∈ Rn como una muestra aleatoria simple de una variable aleatoria X ∈ L2 . La idea germi-
nal de estos resultados y, por lo tanto, la conexión entre Estadística y Probabilidad, podría
ilustrarse mediante el triángulo de Pascal y enunciarse en términos intuitivos así: si asumimos
una completa simetría en la elección de n individuos (equiprobabilidad e independencia), la
media de sus respectivos datos se estabiliza conforme n aumenta, debido a la conmutatividad
(invarianza ante permutaciones) de la operación suma.
En todo caso, lo más importante en esta sección es resaltar que todos las definiciones
en L2 expresadas en términos del producto interior pueden traducirse automáticamente al
lenguaje muestral e interpretarse de manera completamente análoga. Por ello, en este capítulo
nos centraremos principalmente en el estudio de los parámetros probabilísticos o poblacionales
(salvo en la sección 1.3, donde se fijará la notación de los parámetros muestrales), dejando como
ejercicio para el lector el estudio paralelo en términos muestrales. Por lo general seguiremos
la costumbre habitual de expresar los parámetros probabilísticos mediante letras griegas y sus
homólogos muestrales con notación latina.
Si X es una familia de k elementos, bien sean de L2 o de Rn (en el segundo caso puede
identificarse con una matriz n × k), se denota por hX i su expansión lineal. En el espacio L2
se denotará por 1 la variable aleatoria con valor constante 1, siendo entonces h1i el subespacio
unidimensional de las funciones constantes en L2 ; se denotará por h1i⊥ su ortogonal, que es
un hiperplano de L2 . Análogamente, se denotará por 1n al vector de Rn cuyas componentes
son todas 1, siendo por tanto h1n i la recta de los vectores constantes y h1n i⊥ su ortogonal, de
dimensión (n − 1).
9
Capítulo 1 Principales parámetros probabilísticos
Ejercicio 4. Probar que E[X] es el vector aleatorio constante que más se aproxima a X en
términos de la distancia (1.10) y que, además,
denotándose también por σij . Se trata de una generalización de la varianza, pues σii = σi2 ,
que describe, según veremos en la próxima sección, el grado de relación lineal existente entre
las variabilidades, es decir, el grado de relación afín existente entre las variables originales.
Se dice que dos variables son incorreladas cuando su covarianza es nula, es decir, cuando sus
variabilidades son ortogonales.
Ejercicio 5. Probar que −σi σj ≤ σij ≤ σi σj
10
Capítulo 1 Principales parámetros probabilísticos
cuya diagonal está compuesta por las diferentes varianzas. Suele denotarse por la letra Σ. Lo
mismo ocurre con los coeficientes de correlación, que componen una matriz de correlaciones
p × p simétrica cuya diagonal está compuesta por unos.
Ejercicio 6. ¿Por qué es simétrica Σ? ¿Por qué la diagonal de la matriz de correlaciones está
compuesta por unos?
Es muy frecuente contemplar transformaciones de un vector aleatorio del tipo X̃ = A0 X +b,
con A ∈ Mp×m y b ∈ Rm .
Ejercicio 7. Probar que, en ese caso, el vector m-dimensional X̃ verifica
También es frecuente considerar una partición del vector aleatorio p-dimensional X en dos
vectores X1 y X2 de dimensiones p1 y p2 , respectivamente, lo cual da lugar a su vez a particiones
obvias de la media y la matriz de covarianzas:
X1 µ1 Σ11 Σ12
X= , µ= , Σ= (1.16)
X2 µ2 Σ21 Σ22
En el caso particular p1 = 1, es decir, cuando X1 es una variable aleatoria real y X2 un vector
aleatorio (p − 1)-dimesional, la descomposición de Σ será de la forma
2
σ1 Σ12
Σ= (1.17)
Σ21 Σ22
En tal caso cabe definir el coeficiente de correlación lineal múltiple (al cuadrado) entre X1 y
X2 mediante
Σ12 Σ−1
22 Σ21
ρ212 = (1.18)
σ12
Se trata de una generalización del coeficiente de correlación simple (al cuadrado) que interpre-
taremos en la siguiente sección.
11
Capítulo 1 Regresión lineal
sxy = n−1 hX − X, Y − Yi
= n−1 (X − X)0 (Y − Y)
n
X
−1
= n (Xi − x)(Yi − y)
i=1
En general, si X denota una matriz dimensiones n×p, se define la matriz de covarianzas muestral
X · A = X · A, Sx·A = A0 Sx A (1.22)
12
Capítulo 1 Regresión lineal
E = h1i⊥ 6
X1 − E[X1 ] X1 − E[X1 ] − β 0 (X2 − E[X2 ])
1
v
β 0 (X2 − E[X2 ])
0
hX2 − E[X2 ]i
β = Σ−1
22 Σ21 (1.26)
13
Capítulo 1 Regresión lineal
X1 − E[X1 ]
E = h1i⊥ 6
σ12 σ12 (1 − ρ212 )
1
v
σ12 ρ212
0
hX2 − E[X2 ]i
14
Capítulo 1 Nociones básicas de Álgebra Lineal
La independencia supone sin embargo una propiedad estrictamente más fuerte que la incorre-
lación. Efectivamente, puede ocurrir que entre X1 y X2 no se dé relación afín alguna pero que,
sin embargo, exista entre ambas una relación de otro tipo, que podría ser incluso funcional.
E[X1 |X2 ] ◦ X2 es la función medible de X2 que mejor se aproxima a X1 según la métrica (1.4) y
no podemos en general afirmar que se trate de una función afín. Eso sí ocurre bajo el supuesto
de (p1 + p2 )-normalidad, como veremos en el próximo capítulo. En ese caso, debe verificarse
entonces E[X1 |X2 ] ◦ X2 = α + βX2 , con α y β definidas como antes.
El concepto probabilístico de independencia lo suponemos conocido. Desde un punto de
vista geométrico, podría definirse como sigue: primeramente, dado un vector k-dimensional
Y con componentes en L2 , denótese por M(Y ) el espacio de las variables en h1i⊥ que son
funciones medibles de Y . En tal caso, se verifica
Al igual que podemos establecer una conexión entre el coeficiente de correlación y el concep-
to de independencia, podríamos asociar el coeficiente de correlación parcial al de independencia
condicional.
Ejercicio 11. Probar (1.31) y (1.32). Deducir entonces que la independencia implica incorre-
lación.
Ejercicio 12. Interpretar los parámetros muestrales definidos en la sección 3 en los términos
de la sección 4.
Este producto interior permite generalizar la distancia (1.5) al conjunto Mn×p mediante:
15
Capítulo 1 Nociones básicas de Álgebra Lineal
donde a0i y b0i denotan las filas de A y B, respectivamente. Esta distancia generalizada puede
entenderse a su vez como una versión muestral de la distancia (1.10). Entre otras propiedades,
podemos destacar que tr(A0 B) = tr(B 0 A) y que, si A, B, C son matrices cuadradas de orden
m, se verifica que tr(ABC) = tr(CAB) = tr(BCA).
Ejercicio 13. Probar (1.34) y (1.36).
Ejercicio 14. Dada una matriz de datos X ∈ Mn×p , probar que la varianza total muestral
de X, definida de manera análoga a (1.9) como la suma de las varianzas muestrales de sus
p-componentes, verifica
s2T = d2n,p (X, X) (1.37)
Matriz ortogonal: Se dice que una matriz Γ ∈ Mm×m es ortogonal cuando sus columnas
constituyen una base ortonormal de Rm , es decir, cuando Γ0 = Γ−1 . El conjunto de matrices
ortogonales de orden m se denotará por Om .
16
Capítulo 1 Nociones básicas de Álgebra Lineal
Teorema 1.5.1. Dada una matriz A ∈ Mm×m simétrica, si ∆ denota la matriz diagonal
compuesta por los autovalores δ1 , . . . , δm de A ordenados de mayor a menor y contados con su
multiplicidad, existe una matriz Γ ∈ Om , cuyos vectores columnas se denotan por γ1 , . . . , γm ,
tal que
A = Γ∆Γ0 (1.40)
Se verifica además que δ1 = máx{γ 0 Aγ : kγk = 1}, que se alcanza con γ = γ1 , y que, para
todo j = 2, . . . , m, δj = máx{γ 0 Aγ : kγk = 1, γ ⊥ hγ1 , . . . , γj−1 i}, alcanzándose con γ = γj .
Del teorema se sigue directamente que las columnas de Γ constituyen una base ortonormal
de autovectores asociados a los correspondientes autovalores. También podemos de deducir de
(1.40) que ∆ = Γ−1 AΓ. Por lo tanto, la aplicación lineal identificada con la matriz A para la
base vectorial original admite una expresión diagonal respecto a una base ortonormal canónica
de autovectores. Es decir, el cambio a la base de autovectores permite expresar la matriz de
forma sencilla. A modo de ejemplo, podemos utilizar ese procedimiento para demostrar las
siguientes propiedades;
Ejercicio 16. Dada una matriz simétrica A, probar:
(ii) Si A ≥ 0, sus autovalores son todos no negativos. Si A > 0, son todos estrictamente
positivos.
(iii) Si A ≥ 0, existe una matriz simétrica A1/2 tal que A = A1/2 A1/2 . Si A > 0, existe
también una matriz simétrica A−1/2 tal que A−1 = A−1/2 A−1/2 .
(iv) Si A ≥ 0, existe una matriz X con las mismas dimensiones tal que A = X 0 X.
A partir del teorema 1.5.1 y del ejercicio 1 podemos probar el siguiente resultado en el cual
se fundamenta el capítulo 5:
Lema 1.5.2. En las condiciones del teorema 1.5.1 y dado k ≤ m, si Γ1 es la matriz con los
autovectores asociados a los k primeros autovalores de A, se verifica que
k
X
máx{tr(B 0 AB) : B ∈ Mm×k , B 0 B = Id} = δi (1.41)
i=1
y se alcanza en B = Γ1 .
17
Capítulo 1 Nociones básicas de Álgebra Lineal
18
Capítulo 2
En este capítulo expondremos los aspectos más generales del modelo lineal normal multiva-
riante. Previamente, estudiaremos con brevedad las distribuciones de probabilidad relacionadas
con este modelo así como el modelo lineal normal (univariante) que pretende generalizar.
19
Capítulo 2 Distribución normal multivariante
20
Capítulo 2 Distribución normal multivariante
2
1
0
y
-1
-2
-3
-3 -2 -1 0 1 2
mientras que en la figura 2.2 se podemos ver un diagrama de dispersión con una muestra
aleatoria simple de tamaño n = 150 de dicha distribución en la que aparecen marcados dos
contornos elípticos de la misma.
Consideremos un vector aleatorio X (p1 + p2 )-normal que descompone de la forma
X1 µ1 Σ11 Σ12
X= ∼ Np1 +p2 , (2.6)
X2 µ2 Σ21 Σ22
El siguiente resultado puede probarse teniendo en cuenta el hecho conocido de que la densidad
de la distribución condicional P X1 |X2 puede calcularse mediante
Como consecuencia se deduce que, bajo el supuesto de normalidad, E[X1 |X2 ]◦X2 = α+β 0 X2 .
Es más, podemos garantizar que
Esta afirmación puede probarse también teniendo en cuenta la proposición 2.1.6, (1.31) y (1.32).
En definitiva, establece una clara conexión entre los conceptos de normalidad y linealidad.
21
Capítulo 2 El modelo lineal
Ejercicio 19. Simular de manera aproximada una muestra de tamaño n = 200 de la distribu-
ción (2.5).
Desde el punto de vista estadístico, podemos proponer tests para contrastar la hipótesis
inicial de normalidad multivariante. En Bilodeau y Brenner (1999) se recoge un test que se
basa en el hecho de que, para una muestra aleatoria simple de tamaño n de una distribución
p-normal, las distancias de Mahalanobis entre las observaciones y la media aritmética de la
misma dada la matriz de covarianzas muestral siguen una distribución de la familia Beta y
tienden a la incorrelación conforme aumenta el tamaño de muestra. Desde una perspectiva
eminentemente práctica, si realmente tenemos la intención de utilizar alguno de los procedi-
mientos de tipo paramétrico que expondremos a continuación, resulta más realista comprobar
que los diagramas de dispersión entre las diferentes componentes revelan al menos relaciones
de tipo lineal, estando muy pendiente de la presencia de sesgos, que pueden conducirnos a
transformar las variables originales, o fragmentaciones de los datos, que pueden conducirnos a
introducir factores cualitativos en el modelo.
22
Capítulo 2 El modelo lineal
psico1
psico2
psico3
psico4
psico5
psico6
1 1
2
kPE Yk2 ∼ χ2dim E (δ), δ= 2
kPE µk2 (2.10)
σ σ
Por otra parte, se verifica además que E [kPE Yk2 ] = (dim E)σ 2 (1 + δ). Como caso particular,
si µ ∈ E ⊥ , entonces kPE Yk2 ∼ σ 2 χ2dim E .
Ejercicio 21. Probar que, dados E1 ⊥ E2 y X ∼ Nn (µ, σ 2 Id), se verifica que kPEi Yk2 ∼
σ 2 χ2dim Ei (kPEi µk2 /σ 2 ),
para i = 1, 2, y son independientes. Página 1
23
Capítulo 2 El modelo lineal
Nótese que el cociente entre las medias del numerador y el denominador es (1 + δ) y, por lo
tanto, 1 cuando δ = 0. La distribución m · Fm,n converge a χ2m cuando n tiende a infinito.
E2 ⊂ hµi⊥
'$
0
u
E1
-
PE1 Y
&%
E1 ⊕ E2 ⊂ Rn
24
Capítulo 2 El modelo lineal
La restricción lineal µ ∈ V vendrá dada, bien por la presencia de factores cualitativos, bien por
la relación lineal respecto a otras variables numéricas con valores conocidos.
Si una matriz X ∈ Mn×dim V constituye una base de V , podemos parametrizar el mode-
lo (2.12) a través de las coordenadas β de µ respecto a X, es decir, Y ∼ Nn (Xβ, σ 2 Id), o
equivalentemente,
Y = β0 · 1n + Zβ + E (2.16)
25
Capítulo 2 El modelo lineal
β0 = µr , βj = µj − µr , j = 1, . . . , r − 1 (2.17)
Ejercicio 22. Probar (2.17). Indicar así mismo cómo se relacionaría µ con β si consideráramos
la base natural X̃ = (1n , v1 − vr , . . . , vr−1 − vr ).
Los vectores Z[1], . . . , Z[r − 1] de X en la parametrización anterior recogen valores concretos
de unas variables denominadas dummys que indican la muestra o categoría a la que pertenece
cada dato. Que las medias µ1 , . . . , µr sean idénticas, es decir, que las muestras procedan de una
única distribución común, equivale a que β sea nulo, independientemente de la parametrización
particular considerada. En otras palabras, la ausencia de relación entre el factor cualitativo que
distingue las muestras con la variable numérica Y equivale a la ausencia de relación de ésta
con las variables numéricas dummys.
Ejercicio 23. Desarrollar con detalle los modelos asociados a los cuatro ejemplos anteriores.
µ̂ = PV Y (2.18)
En tal caso, resulta también razonable estimar σ 2 mediante la distancia (1.5) entre Y y µ̂, es
2 −1 2
decir, σ̂M V = n kPV ⊥ Yk . Puede probarse que ambos estimadores son independientes y que
constituyen un estadístico suficiente y completo. Se sigue entonces del teorema de Lehmann-
Scheffe, que µ̂ es el estimador insesgado de mínima varianza (EIMV) de µ. También puede
2
probarse a partir de (2.3) que (µ̂, σ̂M V ) constituyen un estimador de máxima verosimilitud
2 2
(EMV) de (µ, σ ). Sin embargo, σ̂M V no es insesgado, de ahí que se proponga el siguiente
estimador que es, según el teorema de Lehmann-Scheffe, EIMV:
1
σ̂ 2 = kP ⊥ Yk2 (2.19)
n − dim V V
Si el modelo está parametrizado de la forma (2.13), podemos estimar β como las coordenadas
del estimador de µ, es decir:
β̂ = (X0 X)−1 X0 Y (2.20)
En definitiva, los estimadores de µ y σ 2 pueden entenderse geométricamente según la figura 2.4
con E1 = V y E2 = V ⊥ .
Ejercicio 24. Obtener los estimadores µ̂ y σ̂ 2 para los ejemplos 1 y 2.
Ejercicio 25. Obtener µ̂ para el ejemplo 3. Probar que, en dicho ejemplo, el EIMV de σ 2 es
i r n
2 1 XX
σ̂ = (Yij − yi· )2 (2.21)
n − r i=1 j=1
26
Capítulo 2 El modelo lineal
Ejercicio 26. Probar que, en el ejemplo 4, podemos estimar β a partir de las medias aritméticas
del vector Y y la matriz Z, así como de la matriz de covarianza muestral conjunta mediante
−1
β̂ = Szz Szy , β̂0 = y − z0 β̂ (2.22)
Para resolver el anterior ejercicio se aconseja utilizar un razonamiento análogo al que se ilustra
en la figura 1.2, pero en términos muestrales, y tener en cuenta la descomposición ortogonal
hXi = h1n i ⊕ hZ − Zi.
2 1 2
Ejercicio 27. Probar que, en el ejemplo 4, σ̂M V puede relacionarse con la varianza sy del
2
vector Y y el coeficiente de correlación múltiple al cuadrado R de Y respecto a Z, definido en
(1.21), mediante
2 −1 2 2
σ̂M V = n (n − 1)sy (1 − R ) (2.23)
El problema de contraste de hipótesis relativas al parámetro σ 2 no será expuesto aquí debido
a que los tests que los resuelven son sensibles ante la violación del supuesto de normalidad.
No ocurre lo mismo con el test F o anova que resuelve el contraste de hipótesis de tipo lineal
sobre el parámetro µ pues, tal y como se prueba en Arnold (1981), es asintóticamente válido
aunque no se verifique el supuesto de normalidad. Además, es relativamente robusto ante la
heretocedasticidad. Lo mismo ocurre en el modelo multivariante.
Anova: Nos ocuparemos pues del contraste de hipótesis tipo H0 : µ ∈ W , para algún subes-
pacio lineal W ⊂ V . Veamos ejemplos de hipótesis de este tipo:
Ejercicio 28. En el ejemplo 1 podemos contrastar si la media ν de la distribución es nula.
Probar que se corresponde con W = 0.
Ejercicio 29. En los ejemplos 2 y 3 podemos contrastar si todas las muestras consideradas pro-
vienen de una misma distribución de probabilidad. Probar que en ambos casos se corresponde
con W = h1n i.
Ejercicio 30. En el ejemplo 4 podemos contrastar si los vectores explicativos Z[1], . . . , Z[q]
no intervienen en la explicación de Y, lo cual equivale a β = 0. Probar que se corresponde con
W = h1n i. Dicho contraste se denomina total.
Ejercicio 31. En las condiciones del ejemplo 4 podemos contrastar también hipótesis del tipo
βj = 0. Probar que, por ejemplo, en el caso j = q, se corresponde con W = h1n , Z[1], . . . , Z[q −
1]i. Dicho contraste se denomina parcial.
Si se denota V |W = W ⊥ ∩ V, la hipótesis inicial H0 : µ ∈ W equivale a PV |W µ = 0. Ello
invita a descomponer Rn en tres subespacios ortogonales: Rn = W ⊕ V |W ⊕ V ⊥ . De dicha
descomposición se deriva la siguiente descomposición ortogonal del vector de observaciones:
Y = PW Y + PV |W Y + PV ⊥ Y (2.24)
Si W = 0, como en el ejercicio 28, la descomposisión (2.24) se reduce a los dos últimos sumandos.
Teniendo en cuenta el Principio de Invarianza y el hecho de que (µ̂, σ̂ 2 ) es suficiente, se
sigue que la decisión correspondiente al contraste de H0 debe depender de la observación Y
a través del cociente entre kPV |W Y k2 y kPV ⊥ Y k2 . Si dividimos ambos números positivos por
Pn
1
Nos referimos al estimador insesgado de la varianza s2y = (n − 1)−1 Yi − y)2 .
i=1 (
27
Capítulo 2 El modelo lineal
El caso de mayor interés práctico es W = h1n i (como en los ejercicios 29 y 30), en el cual
la decomposión (2.24) de kYk2 es la siguiente:
Ejercicio 32. Probar que, si consideramos cualquier matriz Z tal que de h(1n |Z)i = V y R2
denota el coeficiente de correlación múltiple entre Y y Z, como en (2.23), la igualdad (2.28)
puede expresarse también así
Nótese que el Principio de Invarianza nos conduce a desentendernos del primer sumando,
correspondiente a un vector en h1n i, y concentranos en el cociente entre el segundo y el tercero,
tal y como se ilustra mediante la figura 2.5, que es la versión muestral de la figura 1.3.
Este razonamiento nos ayuda a comprender que el valor del coeficiente de correlación li-
neal múltiple R2 depende exclusivamente del subespacio V (conteniendo a h1n i) sobre el que
deseemos proyectar las observaciones, independientemente de la matriz (1n |Z) que escojamos
como base del mismo, lo cual invita a entender de manera más general la definición propuesta
en (1.21). Concretamente, dados Y ∈ Rn y V ⊂ Rn conteniendo a h1n i, se puede definir el
coeficiente de correlación de Y respecto a V mediante
kPV |h1n i Yk2
R2 = (2.30)
kPh1n i⊥ Yk2
Ejercicio 33. Relacionar la descomposición (2.28) con los términso de la tabla 2.1.
28
Capítulo 2 El modelo lineal
E = h1n i⊥ Y−Y
6
s2y (1 − R2 )s2y
1
t R2 s2
y
0
V |h1n i
SCH/(r − 1)
F = , (2.31)
SCE/(n − r)
donde
X
SCH = ni (Yi· − y·· )2 , (2.32)
i
XX
SCE = (Yij − yi· )2 (2.33)
i j
Ejercicio 36. Probar que el test anova que resuelve el contrate para W = h1n i consiste en
confrontar con la distribución Fdim V −1,n−dim V el estadístico de contraste
n − dim V R2
F = · . (2.34)
dim V − 1 1 − R2
29
Capítulo 2 El modelo lineal
coeficiente de correlación parcial muestral entre Y y Z[q], dados Z[1], . . . Z[q − 1], que se denota
por ry,z[q]·(z[1],...,z[q−1]) , o abreviadamente por rq∗ , mediante
2
rq∗
F = [n − (q + 1)] · 2
(2.36)
1 − rq∗
Ejercicio 38. Probar que2 el estadístico de contraste (2.37) puede expresarse también a través
de β̂q y del coeficiente de correlación múltiple de Z[q] respecto al resto de variables explicativas
Z[1], . . . , Z[q − 1], que se denota abreviadamente por Rq∗ , mediante
β̂q2 2
F =n· · (1 − Rq∗ ) (2.37)
σ̂ 2 · s−2
z[q]
2
El término 1−Rq∗ que aparece a la derecha en (2.37) se denomina tolerancia y su inverso, factor
de inflación de la varianza (FIV). (2.37) y (2.36) vienen a expresar pues , en términos intuitivos,
que una redundancia lineal entre las variables explicativas, que a su vez puede asociarse a bajas
correlaciones parciales, resta fiabilidad a las estimaciones de los coeficientes de regresión.
Por otra parte, teniendo en cuenta que, en las condiciones del ejemplo 3, la hipótesis inicial
H0 : µ1 = . . . = µr equivale a β = 0 para cualquier parametrización del modelo mediante
variables dummys, se sigue de (2.35) que la decisión al respecto se puede expresar a través de
la correlación múltiple R2 de Y con dichas variables dummys, independientemente de cuáles se
elijan. Esto hecho, que tendrá lugar igualmente en el modelo multivariante, justifica el estudio
de los coeficientes de correlación canónicos.
En la salida de SPSS recogida en el cuadro 2.1 podemos apreciar muchos de los ingredientes
estudiados en la sección.
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo corregido 63,212a 2 31,606 119,265 ,000
Intersección 5121,682 1 5121,682 19326,505 ,000
species 63,212 2 31,606 119,265 ,000
Error 38,956 147 ,265
Total 5223,850 150
Total corregida 102,168 149
a. R cuadrado = ,619 (R cuadrado corregida = ,614)
Ejercicio 39. Construye mediante SPSS dos variables dummys para distinguir las tres especies
de flores de irisdata y comprueba que el coeficiente de correlación múltiple R2 entre sepleng y
dichas variables es el que aparece en la tabla 2.1.
2
Ver Manual de Modelos Lineales, Montanero (2008).
30
Capítulo 2 Modelo multivariante
Ejercicio 40. En el cuadro 2.2 aparece el resultado del anova para comparar los valores medios
de glucemia de cuatro categorías de recién nacidos (control, respiratoria, metabólica y mixta)
mediante un diseño equilibrado. Relacionar los valores que aparecen en dicha tabla con las
columnmas de la matriz de datos del cuadro 2.6, donde a los datos originales se les ha añadido
las proyecciones relacionadas con la descomposición (2.24), las sumas de cuadrados correspon-
dientes a las descomposición (2.28) y las variables dummys asociadas a la parametrización del
ejercicio 22.
31
Capítulo 2 Modelo multivariante
con detalle en Arnold (1981). La función de densidad se define, para cada matriz X ∈ Mn×p ,
mediante
1 1 −1 0
f ( x) = exp − tr[(X − µ)Σ (X − µ) ] (2.38)
(2π)np |Σ|n/2 2
Distribución de Wishart: Generaliza la distribución χ2 . Dado Y ∼ Nn,p (µ, Id, Σ), puede
probarse que la distribución de Y0 Y depende de µ a través de µ0 µ. Teniendo en cuenta eso y
dado E ⊂ Rn , se define la distribución de Wishart mediante Y 0 PE Y ∼ Wp (dim E, δ, Σ), con
δ = µ0 PE µ. Si δ = 0 se denota Wp (dim E, Σ). Las propiedades de la distribución de Wishart
son por completo análogas a la de la distribución χ2 y se estudian con detalle en Arnold (1981).
Ejercicio 41. Comprobar que W1 (m, δ, σ 2 ) = σ 2 χ2m (δ/σ 2 )
mX 0 W −1 X ∼ Tp,m
2
(δ), δ = ν 0 Σ−1 ν (2.39)
32
Capítulo 2 Modelo multivariante
2
En el caso δ = 0 se denota Tp,m . En Arnold (1981) se prueba que esta distribución no es en
esencia nueva, sino que se identifica, salvo un factor escala, con un modelo tipo F , lo cual
garantiza que está bien definida. Concretamente
2 mp
Tp,m (δ) = Fp,m−p+1 (δ) (2.40)
m−p+1
2
En particular, se verifica que T1,m = t2m , por lo que debemos entender la distribución T 2 una
generalización en sentido estadístico de la distribución t2 . Es decir, que se utilizará en aquellos
problemas multivariantes cuyos análogos univariantes precisen de la distribución t-Student,
concretamente, en el contraste de hipótesis del tipo H0 : µ ∈ W con dim V |W = 1. Veremos
que en tales casos el estadístico de contraste puede entenderse geométricamente como una
2
distancia de Mahalanobis. Además, puede probarse que Tp,m converge en distribución a χ2p
conforme m tiende a infinito.
Los cuatro problemas univariantes (ejemplos 1-4) considerados en el apartado 2.2.2 se genera-
lizan al caso multivariante dando lugar a los siguientes problemas estadísticos multivariantes
que se estudiarán con más detalle en el siguiente capítulo. Basta tener en cuenta que la variable
respuesta Y se convierte en este caso en un vector respuesta p-dimensional de componentes
Y [1], . . . , Y [p].
Ejemplo 5. [Muestra aleatoria simple de una distribución p-normal] Consideremos Y1 , . . . , Yn
iid Np (ν, Σ). En ese caso, la matriz aleatoria Y = (Y1 , . . . , Yn )0 sigue un modelo de distribución
Nn,p (µ, Id, Σ) con µ ∈ V = h1n i y Σ > 0. Efectivamente, se verifica que cada columna µ[j] de
µ, que corresponde a la componente Y [j] del vector Y , pertenece a V .
Ejemplo 6. [Muestras independientes de p-normales con idénticas matrices de covarianzas]
Consideremos, para i = 1, 2, sendas muestras independientes Yi1 , . . . , Yini iid Np (µi , Σ). Si se
denota n = n1 + n2 e Y = (Y11 , . . . , Y2n2 )0 , se verifica que Y ∼ Nn,p (µ, Id, Σ) con Σ > 0 y
µ ∈ V = hv1 , v2 i.
Ejemplo 7. [Diseño completamente aleatorizado multivariante] Se generaliza el caso univarian-
te como en los ejemplos 5 y 6.
33
Capítulo 2 Modelo multivariante
Para cada coeficiente βi [j], el subíndice i y el índice entre corchetes j indican, respectivamente,
a qué vector explicativo y a qué vector respuesta hace referencia. La primera fila, relativa al
término independiente, se denota por β0 , y el resto de la matriz por β.
Al igual que en el caso univariante, un problema como el del ejemplo 7 puede parametrizarse
de idéntica forma mediante variables dummys para convertirse en un problema de regresión
lineal multivariante, donde el contraste de la igualdad de las r medias equivale al contraste
total de la hipótesis β = 0.
Estos cuatro problemas se abordarán con más detalle en el siguiente capítulo. A continuación
estudiaremos brevemente la solución teórica a los problemas de estimación y contraste de
hipótesis.
µ̂ = PV Y, (2.43)
1
Σ̂ = Y0 P V ⊥ Y (2.44)
n − dim V
S 1 = Y 0 PW Y , S2 = Y0 PV |W Y, S 3 = Y0 P V ⊥ Y (2.46)
34
Capítulo 2 Modelo multivariante
Ejercicio 43. Probar que,las tres matrices aleatorias siguen las siguientes distribuciones, in-
dependientes entre sí:
Ejercicio 44. Probar que p autovalores reales y no negativos de la matriz simétrica y semidefi-
0
nida postiva Z2 S−1 −1
3 Z2 los son a su vez de la matriz S3 S2 . Además, si p > b, los últimos p − b au-
tovalores de ambas matrices son necesariamente nulos. Lo mismo puede decirse de (θ1 , . . . , θp ),
definidos como los autovalores de la matriz Σ−1 µ0 PV |W µ, de los cuales (t1 , . . . , tb ) pueden con-
siderarse estimadores. Nótese que la hipótesis inicial H0 : µ ∈ W equivale a θ1 = . . . = θb = 0.
Así pues, el Principio de Invarianza nos conduce a considerar sólo los tests que se constru-
yan a partir de los b primeros autovalores de S−13 S2 , (t1 , . . . , tb ). En el capítulo 3 se verá un
interpretación precisa de estos autovalores. Sólo en el caso b = 1 estaremos en condiciones de
formular directamente un test basado en la distribución de t1 . Se da tal situación cuando p = 1
o dim V |W = 1:
(i) Si p = 1 las matrices de (2.46) son números positivos y t1 es, salvo una constante, el
estadístico F . Se trata pues del propio anova.
(ii) Si dim V |W = 1 puede probarse que t1 sigue, salvo una constante, una distribución T 2 -
Hotelling, lo cual permite formular un test UMP-invariante y de razón de verosimilitudes.
Si, además, p = 1, estaremos hablando del test de Student.
Dado que en el caso b > 1 el Principio de Invarianza no propicia una simplificación completa
de la información, el problema se ha abordado históricamente acogiéndose a otros diferentes
principios estadísticos que conducen a respectivas soluciones razonables, que pueden expresarse
a partir de los mencionados autovalores, es decir, que son invariantes. De esta manera aparecen
en la literatura estadística cuatro tests diferentes: el test de Wilks, que es el TRV y, por lo tanto,
responde al Principio de Máxima Verosimilitud; el test de Lawley-Hotelling, que responde al
Principio de Sustitución (o método plug-in); el test de Pillay, que sigue la línea del test anterior
pero utilizando los coeficientes de correlación canónica (ver apartado 3.4.1), y por último el
de Roy, que obedece al Principio de Unión-Intersección3 . La formulación precisa de estos tests
como funciones de los autovalores t1 , . . . , tb se comentará brevemente en el apartado 3.4.1. No
obstante, nos centraremos aquí en el test de Wilks por dos razones: por obedecer al Principio de
Máxima Verosimilitud que es, posiblemente, el más intuitivo en Estadística, y porque facilita
3
Los detalles de los principios mencionados los podemos encontrarlos en Arnold (1981) o en el Manual 59
citado en la bibliografía.
35
Capítulo 2 Modelo multivariante
|S3 |
λ(Y) = (2.49)
|S2 + S3 |
Ejercicio 45. Probar que λ(Y) puede expresarse a través de t1 , . . . , tb mediante
b
Y
λ(Y) = (1 + ti )−1 (2.50)
i=1
Se demuestra en Arnold (1981) o, también, en el Manual 59, que bajo la hipótesis nula,
−(n− dimV ) log λ converge en distribución a χ2p·dim V |W cuando n tiende a infinito. Este resultado
es incluso cierto aunque no se respete el supuesto de normalidad, siempre y cuando el diseño de
la muestra respete ciertas condiciones razonables. Los otros tres tests recogidos por la literatura
(Lawley-Hotelling, Pillay y Roy) también convergen asintóticamente a la distribución χ2p·dim V |W .
En definitiva, para muestras de gran tamaño utilizaremos la distribución χ2 como referencia,
aunque el programa SPSS puede trabajar con otras aproximaciones a la distribución F . En el
cuadro 2.3 podemos apreciar un esquema explicativo.
Cuadro 2.3: Distribuciones en los contrastes de la media en función de las dimensiones del modelo
lineal V y de la hipótesis inicial W , del número p de variables y del tamaño n de la muestra.
También se recogen en Arnold (1981), Dillon y Goldstein (1984), Flury (1996) y Rencher
(1995), entre otras referencias, diversos tests para contrastes de hipótesis relativos a la matriz
de covarianzas implementados en los programas estadísticos, como el test M de Box, el de
esfericidad de Barlett y algunos otros, que no abordamos aquí por brevedad y dado que son
sensibles ante la violación del supuesto de normalidad.
36
Capítulo 3
En este capítulo desarrollaremos los cuatro problemas estadísticos formulados en los ejem-
plos 5-8 de la página 33 del capítulo anterior, cuyo denominador común es que se formalizan
mediante el modelo lineal multivariante. Añadimos además un apartado dedicado al análisis de
correlación canónica, relacionado directamente con el problema de regresión lineal multivarian-
te, y una sección dedicada al análisis de perfiles, relacionado con los tres problemas restantes.
Por último, ilustraremos con un ejemplo algunas de las técnicas estudiadas. En los distintos
casos se aplicarán los métodos teóricos de estimación y contraste de hipótesis expuestos en el
capítulo anterior. Se da por supuesto que el lector conoce ya las técnicas univariante análogas
(test de Student para muestras independientes y relacionadas, anova de una vía y estudio de
regresión lineal múltiple), que puede consultar, por ejemplo, en Peña (2010). A lo largo del
capítulo se hará uso del siguiente resultado, comúnmente conocido como teorema de los mul-
tiplicadores finitos de Langrange, que se deduce del teorema de la función implícita y permite
obtener valores extremos para una función definida en Rp bajo una serie de restricciones.
Lema 3.0.1. Sean k < p enteros y φ y f funciones derivables de Rp en R y Rk , respectivamente,
tales que existe máx{φ(x) : f (x) = 0} alcanzándose en c ∈ Rp tal que 5f (c) 6= 0. Entonces,
existe η ∈ Rk tal que 5(φ − η 0 f )(c) = 0.
37
Capítulo 3 Inferencia para una media
Esta región geométrica es un elipsoide cuyo centro es y y cuya forma viene dada por Σ̂. Si
pretendemos contrastar la hipótesis inicial H0 : ν = 0, que equivale a µ ∈ W = 0, la proposición
2
3.1.2 invita confrontar con la distribución Tp,n−1 el estadístico de contraste
Tanto el elipsoide (3.2) como el estadístico de contraste (3.3) pueden expresarse en términos
de la distancia de Mahalanobis DΣ̂2 definida en (1.38). Concretamente,
Por otra parte, del Teorema Central el Límite y la Ley Débil de los Grandes Números se
sigue:
38
Capítulo 3 Inferencia para dos medias
b
Contrastes multivariados
Gl de la
Efecto Valor F hipótesis Gl del error Sig.
a
Intersección Traza de Pillai ,802 44,582 3,000 33,000 ,000
a
Lambda de Wilks ,198 44,582 3,000 33,000 ,000
a
Traza de Hotelling 4,053 44,582 3,000 33,000 ,000
a
Raíz mayor de Roy 4,053 44,582 3,000 33,000 ,000
a. Estadístico exacto
b. Diseño: Intersección
Este resultado otorga validez asintótica al test propuesto aunque no se verifique el supuesto
de normalidad. Nótese también que podemos construir una región de confianza a nivel 1 − α sin
utilizar técnicas multivariantes, calculando para cada componente del vector respuesta Y un
intervalo de confianzas a nivel 1 − α∗ y componiendo entonces un rectángulo en dimensión p.
El valor de α∗ puede determinarse mediante de manera conservadora mediante la desigualdad
de Bonferroni:
\m Xm
P Aci
P Ai ≥ 1 − (3.6)
i=1 i=1
y[2] y
y[1]
El elipsoide (3.2) delimita una región del espacio de menor tamaño que el del rectángulo,
siendo mayor su diferencia cuanto mayor sea la correlación entre las variables. Ello es debido a
que el método univariante no hace uso en ningún momento de las covarianzas y, por lo tanto,
emplea menos información que el multivariante. Si las componentes del vector aleatorio Y
fueran incorreladas (independientes bajo el supuesto de p-normalidad) el rectángulo anterior
podría construirse sin recurrir a la desigualdad de Bonferroni (3.6) y tendría un área similar al
de la elipse, cuyos ejes coincidirían con los ejes de coordenadas. En ese caso no procedería el
uso de métodos multivariantes. Página 1
39
Capítulo 3 Inferencia para dos medias
40
Capítulo 3 Inferencia para dos medias
b
Contrastes multivariados
Gl de la
Efecto Valor F hipótesis Gl del error Sig.
a
Intersección Traza de Pillai 1,000 6886,561 9,000 15,000 ,000
a
Lambda de Wilks ,000 6886,561 9,000 15,000 ,000
a
Traza de Hotelling 4131,937 6886,561 9,000 15,000 ,000
a
Raíz mayor de Roy 4131,937 6886,561 9,000 15,000 ,000
a
Sex Traza de Pillai ,784 6,038 9,000 15,000 ,001
a
Lambda de Wilks ,216 6,038 9,000 15,000 ,001
a
Traza de Hotelling 3,623 6,038 9,000 15,000 ,001
a
Raíz mayor de Roy 3,623 6,038 9,000 15,000 ,001
a. Estadístico exacto
b. Diseño: Intersección + Sex
Nótese, por otra parte, que la j-ésima componente del vector respuesta, Y [j] es la proyec-
ción del vector Y sobre el j-ésimo eje de coordenadas. Si ej denota un vector unitario que lo
determina, podemos expresar Y [j] = e0j Y . En general, para cada eje hai con kak = 1, podemos
considerar la proyección a0 Y sobre hai que da lugar, teniendo en cuenta (1.15), a dos muestras
independientes
0
a Y11 , . . . , a0 Y1n1 iid N1 (a0 µ1 , a0 Σa)
(3.10)
a0 Y21 , . . . , a0 Y2n2 iid N1 (a0 µ2 , a0 Σa)
y a una hipótesis inicial H0a : a0 µ1 = a0 µ2 , que puede contrastarse a partir de los datos pro-
yectados mediante el test de Student. Concretamente, se confronta con la distribución tn1 +n2 −2
el estadístico de contrate thai (Y) definido como t(Ya). Conocido Y, debe existir necesariamente
un eje ha1 i que aporte un valor máximo para thai (Y). Teniendo en cuenta (1.15) y el lema 3.0.1
obtenemos la solución concreta1
41
Capítulo 3 Manova de una vía
Es más, si se denota
Wij [1] = a01 Yij , i = 1, 2, j = 1, . . . , ni (3.12)
se verifica entonces que t2 (W[1]) = T 2 (Y). En ese sentido podemos afirmar que distinguir las
dos muestras en dimensión p es equivalente a distinguirlas en dimensión 1 sobre el eje ha1 i,
que se denomina (primer) eje discriminante. El vector de proyecciones W[1] = Ya1 se denomina
vector de las (primeras) puntuaciones discriminantes. En la figura 3.2 el eje discriminante se
representa con líneas discontinuas:
42
Capítulo 3 Manova de una vía
positivos2 de S−13 S2 , donde S2 y S3 se calculan según (2.46) y, a partir de los mismos, obtenemos
el valor del estadístico λ de Wilks definido según (2.50), cuya distribución exacta depende de
θ1 ≥ . . . ≥ θb ≥ 0, definidos en el ejercicio 44; por último, se confronta con la distribución
χ2p(r−1) el valor −(n − r) log λ(Y).
En el caso p = 1 el test obtenido es el anova de una vía; en el caso r = 2 es el test (3.9); en
general se denomina manova de una vía, que será asintóticamente válido aunque no se verifique
el supuesto de normalidad si n1 , . . . , nr tienden a infinito.
Desde este punto de vista, el problema de contrastar una hipótesis tipo H0 : µ ∈ W se
reduce a obtener las matrices S2 y S3 adecuadas. En este caso particular, pueden obtenerse
trivialmente de manera similar a SCE y SCH en (2.31).
Ejercicio 52. Probar que
SCH11 . . . SCH1p SCE11 . . . SCE1p
S2 = .. .. S3 = .. ..
, (3.13)
. . . .
SCH1p . . . SCHpp SCE1p . . . SCEpp
donde, para h, k = 1, . . . , p,
r
X
SCHhk = ni yi· [h] − y·· [h] · yi· [k] − y·· [k] (3.14)
i=1
ni
r X
X
SCEhk = Yij [h] − yi· [h] · Yij [k] − yi· [k] (3.15)
i=1 j=1
Aunque no vamos a estudiar aquí diseños de experimentos multivariantes con dos o más
factores, el lector debe percatarse de que, si es capaz de resolver el problema en el caso univa-
riante, basta con proceder de manera análoga a (3.14) y (3.15) para obtener la solución general
para el caso multivariante.
El interés de estas dos últimas secciones radica en la vinculación existente entre el manova
de una vía (y también el test (3.9), entendido como caso particular) con el LDA (análisis
discriminate lineal) de Fisher. Por otra parte, el problema de comparación de medias en un
diseño completamente aleatorizado puede entenderse como un problema de regresión lineal,
multivariante en este caso, respecto a r − 1 variables dummys de asignación a categorías, lo
cual justifica a su vez el estudio del problema de regresión lineal multivariante que desarrollamos
en la siguiente sección.
43
Capítulo 3 Regresión multivariante
Ejercicio 54. Utilizando el lema 3.0.1 y teniendo en cuenta (1.22), probar que Fha1 i (Y) =
n−r
r−1
· t1 , siendo t1 el primer autovalor de S−1 0
3 S2 y a1 un autovector asociado tal que a1 S3 a1 = 1.
W=YA (3.17)
donde A verifica
t1 0 0 0
.. ..
.
.
0 tb 0 0
A0 S3 A = Id, A 0 S2 A = (3.18)
0 0 0 0
.. ..
. .
0 0 0 0
Por otra parte, tal y como se adelantaba en el ejericio 44, los autovalores ti pueden entenderse
respectivamente como estimadores de los autovalores probabilísticos θ1 , . . . , θp de la matriz
Σ−1 µ0 PV |W µ. La hipótesis inicial H0 (1) : θ1 = 0 equivale a H0 : µ1 = . . . = µr = 0, y se
contrasta mediante el manova de una vía a partir de t1 , . . . , tb , tomando como referencia la
distribución χ2p(r−1) . Sin embargo, la veracidad de la hipótesis inicial H0 (2) : θ2 = 0 equivale
en términos intuitivos a que toda la discriminación entre las medias recaiga exclusivamente
en el primer eje discriminante. La hipótesis H0 (2) puede contrastarse a partir de t2 , . . . , tp y
tomando como referencia la distribución χ2(p−1)(r−2) . De esta forma puede evaluarse la capacidad
de discriminación de sucesivos ejes, aunque en la práctica la valoraremos directamente en
términos muestrales ponderando los autovalores t1 , . . . , tb .
Ejercicio 56. Interpretar en los términos de la teoría los cuadros 3.5 y 3.6, correspondientes
a la comparación multivariante de medias entre las tres especies de flores de irisdata.
44
Capítulo 3 Regresión multivariante
Autovalores
Correlación
Función Autovalor % de varianza % acumulado canónica
a
1 32,192 99,1 99,1 ,985
a
2 ,285 ,9 100,0 ,471
a. Se han empleado las 2 primeras funciones discriminantes
canónicas en el análisis.
Lambda de Wilks
Lambda de
Contraste de las funciones Wilks Chi-cuadrado gl Sig.
1 a la 2 ,023 546,115 8 ,000
2 ,778 36,530 3 ,000
El test de Wilks consiste en confrontar −[n − (q + 1)] log λ(Y)(Z) con con la distribución χ2pq ,
donde
b
Y
λ(Y)(Z) = (1 + ti )−1 , t1 > . . . > tb > 0 autovalores positivos de S−1
3 S2 (3.22)
Página 1
i=1
45
Capítulo 3 Regresión multivariante
Es decir que, si p = 1, el test total puede expresarse en función del coeficiente de correlación
múltiple (al cuadrado) definido en (1.21), según (3.23). En el caso multivariante p ≥ 1 podemos
generalizar la relación anterior si definimos r12 > . . . > rb2 > 0 como los autovalores positivos
−1 −1
de Syy Syz Szz Szy .
Ejercicio 59. Probar que
ti ri2
ri2 = , es decir, ti = , i = 1, . . . , b (3.24)
1 + ti 1 − ri2
Los autovalores r12 > . . . > rb2 > 0 se denominan coeficientes de correlación canónica
muestrales (al cuadrado) y, según hemos visto, contienen información relevante en el contraste
de la hipótesis H0 : β = 0. De hecho, podemos considerarlos como estimadores de los coeficientes
de correlación canónica probabilísticos ρ21 ≥ . . . ≥ ρ2b , que se definen según el teorema 3.4.1, de
manera, que para todo i, θi = ρ2i /(1 − ρ2i ). Es decir, que la hipótesis inicial puede expresarse en
términos de correlaciones canónicas mediante H0 : ρ21 = . . . = ρ2b = 0. No obstante, podemos
ofrecer una interpretación más clara de los coeficientes de correlación canónica.
En lenguaje probabilístico, si Y y Z son vectores aleatorios de dimensiones p y q, respec-
tivamente, buscamos α1 ∈ Rp y β1 ∈ Rq tales que las variables U1 = α10 Y y V1 = β10 Z tengan
varianza 1 y su correlación sea máxima entre todas las proyecciones de Y y Z sobre sendos
ejes de Rp y Rq . En ese caso, los ejes obtenidos, hα1 i y hβ1 i, se denominan primer par de ejes
canónicos, y (U1 , V1 ), el primer par de variables canónicas. La correlación(al cuadrado) entre
ambas se denota por ρ21 y se denomina primer coeficiente de correlación canónica. El siguiente
paso es determinar otro par de ejes y, por lo tanto, otro par de proyecciones (U2 , V2 ), incorrela-
das con (U1 , V1 ) y con una correlación entre sí, ρ22 , máxima, y así sucesivamente hasta llegar a
b = mı́n{p, q}. Consideremos las siguientes matrices cuadradas de orden p y q, respectivamente,
y rango b = mı́n{p, q}:
Σ−1 −1
yy Σyz Σzz Σzy (3.25)
Σ−1 −1
zz Σzy Σyy Σyz (3.26)
Ejercicio 60. Probar que los b primeros autovalores de las matrices (3.25) y (3.26) coinciden
(no así sus respectivos autovectores).
La demostración del siguiente resultado, que se recoge en el manual 59 de la UEx, se basa
fundamentalmente en el lema 3.0.1:
Teorema 3.4.1. Con las notaciones precedentes se verifica:
(i) Los coeficientes de correlación canónicas ρ21 . . . , ρ2b son los b primeros autovalores de la
matriz (3.25).
(ii) Los vectores α1 , . . . , αb que determinan los ejes canónicos asociados a Y pueden obtenerse
como autovectores de la matriz (3.25) asociados a ρ21 . . . , ρ2b , respectivamente. Análoga-
mente, los vectores β1 , . . . , βb que determinan los ejes canónicos para Z pueden obtenerse
como autovectores de la matriz (3.26) asociados a ρ21 . . . , ρ2b , respectivamente.
En definitiva, los ejes canónicos permiten entender de manera más natural la correlación
lineal entre las variables respuestas y las explicativas.
ρ
Z1 V1 ←→
1
U1 Y 1
.. . .. .
. −→ .. . ←− ..
ρb
Zq Vb ←→ Ub Yp
46
Capítulo 3 Regresión multivariante
sumarles el elemento neutro del producto, es decir, bi=1 (1 + ti )−1 (se invierte porque el TRV
Q
se ha expresado así tradicionalmente).
47
Capítulo 3 Análisis de perfiles
h1n ZR i
λ(Y )(ZR |ZD )
*
h1n ZR ZD i H λ(Y )(ZR )
HH
H
λ(Y )(Z) HH
j?
H
h1n i
48
Capítulo 3 Análisis de perfiles
En este caso, que los tres tratamientos tengan efectos idénticos por término medio equivale Pág
a la hipótesis inicial H0 : µ1 = µ2 = µ3 del diseño completamente aleatorizado, que se contrasta
3
J. Rodríguez Mansilla et al. Clinical Rehabilitation (2014).
49
Capítulo 3 Análisis de perfiles
mediante el manova de una vía. No obstante, también puede resultar de interés contrastar, por
ejemplo, el paralelismo de los perfiles, que se interpreta como una evolución similar desde la
fase inicial. Si contamos con sólo p = 2 mediciones, una inicial y otra final, estaremos ante un
diseño conocido como de muestras relacionadas. Se resuelve calculando la diferencia D, con
media ν, entre las dos fases. De esta forma, la hipótesis inicial H0 : µ[1] = µ[2] equivale a ν = 0
y se contrasta mediante el test de Student para una muestra aplicado a D. La hipótesis inicial
de paralelismo entre los r perfiles equivale a ν1 = . . . = νr y se contrasta mediante el anova de
una vía.
Sin embargo, cuando consideramos más de 2 fases debemos calcular la diferencia entre cada
variable y la anterior, dando lugar a un vector D en dimensión p − 1. La hipótesis inicial
H0 : µ[1] = . . . = µ[p] se contrasta mediante el test (3.3) aplicado a D, y la de paralelismo
entre los r perfiles, mediante el manova de una vía.
Abordar un análisis de perfiles mediante un manova es sólo una de las posibles opciones
y, seguramente, no la más popular. Los supuestos es los que basa son la normalidad multiva-
riante y la igualdad de matrices de covarianzas (en el caso de incluir un factor intersujeto en
el modelo, como es el tratamiento en el estudio del dolor). Del primero sabemos que puede
obviarse asintóticamente, lo cual justifica la robustez del modelo. Como principal alternativa
podemos destacar4 el modelo de medidas repetidas que, en principio, supone además dos con-
diciones adicionales sobre la matriz o matrices de covarianzas: la igualdad de las varianzas de
las componentes, por un lado, y la igualdad de las covarianzas por otro. Un caso particular de
esta hipótesis es el supuesto de esfericidad (homocedasticidad y covarianzas nulas), que con-
duciría a aplicar un test F , pudiendo aplicarse correcciones en los grados de libertad tanto del
4
Rencher (1996), sección 6.9.
50
Capítulo 3 Análisis de perfiles
numerador como del denominador en dichos test en función del grado de desviación respecto
al modelo esférico. En eso consiste en la práctica el análisis de medidas repetidas. Si no existe
un factor intergrupo y no estamos dispuestos a asumir hipótesis relativas a la distribución del
vector (salvo la continuidad del mismo) contamos con la alternativa de Friedman basada en
rangos.
51
Capítulo 3 Análisis de perfiles
52
Capítulo 4
Problema de clasificación
53
Capítulo 4 Planteamiento general
Manova
Clasificación
54
Capítulo 4 Planteamiento general
Puede probarse también que la clase estrategias no aleatorias {Sq : q ∈ [0, 1]} constituyen
una familia completa maximal, es decir: cualquier estrategia no aleatoria que no pertenece a
la famila es mejorada estrictamente por alguna de la familia, y no existe ninguna dentro de la
familia mejorada estrictamente por alguna otra. Así pues, deberíamos seleccionar una estrategia
de este tipo, pero la elección depende del valor de q que queramos considerar y ello nos situaría
en un marco Bayesiano. Si no estamos en condiciones de proponer una distribución a priori,
podemos optar por escoger la estrategia no aleatoria minimax, que es el elemento maximal
para el orden definido a partir del máximo de los riesgos. Puede probarse que es la estrategia
no aleatoria asociada a la estrategia Bayes para una distribución a priori uniforme, es decir,
S0.5 , y que RS0.5 (1) = RS0.5 (2). Ésta es la que adoptaremos por defecto si no estamos dispuestos
a asumir el marco teórico Bayesiano, teniendo en cuenta que, en todo caso, la introducción de
una distribución a priori en el modelo se traduciría simplemente en una corrección trivial de
la estrategia minimax según (4.3). En definitiva, la estrategia minimax consiste en asignar y a
P1 cuando se verifica
p1 (y) ≥ p2 (y) (4.4)
Es decir, se asigna la observación a la distribución que la hace más verosímil. Se trata pues
de una aplicación directa del Principio de Máxima Verosimilitud y ésta es la idea fundamental
que debe prevalecer. En el caso general de r categorías se procede de forma idéntica, asignando
y a Pi cuando
pi (y) ≥ pj (y), ∀j 6= i (4.5)
55
Capítulo 4 Análisis Discriminante Lineal o LDA
Podemos comprobar que la función anterior se trata, efectivamente, de una densidad. Una vez
estimadas las densidades de las distintas categorías procederemos a establecer las regiones de
clasificación según (4.6). En la literatura estadística encontramos núcleos diferentes a (4.9),
denominado gaussiano, como el triangular, el del coseno o de Epanechnikov, entre otros. Hay
que tener en cuenta que la estimación de las densidades, y por tanto la estrategia de clasifi-
cación, depende de la elección del núcleo K y del ancho de banda δ. Diversos trabajos vienen
a convencernos de que la elección del núcleo es poco determinante. Sin embargo, la elección
del ancho de banda sí lo es. No podemos hablar, desde luego, de un ancho de banda universal,
sino que debe depender del problema considerado. La selección de un ancho de banda excesiva-
mente grande tenderá a estimar la densidad demasiado plana, mientras que uno excesivamente
pequeño la estimará de manera excisivamente abrupta.
Otro inconveniente a tener en cuenta es la denominada “maldición de la dimensión”, que
consiste en que el número de datos requerido para lograr una estimación satisfactoria de la
densidad crece exponencialmente en relación con la dimensión considerada. Por lo tanto, cuan-
do tengamos un amplio número de variables precisaremos de una cantidad ingente de datos
para obtener una estimación fiable de la densidad. Eso explica el hecho de que sigamos hacien-
do hincapié aquí en el método tradicional para clasificar observaciones, denominado Análisis
Discriminante Lineal (LDA), debido a Fisher.
56
Capítulo 4 Análisis Discriminante Lineal o LDA
y L denota la denominada función logística, representada en la figura 4.6, que se define mediante
1
L(x) = , x∈R (4.15)
1 + ex
De esta forma, al condicionar sobre los valores numéricos de las observaciones, Yi1 , . . . , Yini , i =
1, 2, en el modelo original Bayesiano, obtenemos el conocido como modelo de regresión logística,
que es del tipo lineal generalizado. Por contra, si condicionamos respecto a las categorías
de las observaciones tendremos dos muestras aleatorias simples e independientes de sendas
distribuciones Np (µi , Σ), lo cual supone un modelo lineal normal multivariante.
Tanto (4.11) como (4.12) expresan la estrategia en función de parámetros poblacionales
que en la práctica serán desconocidos. En la regresión logística, los parámetros se estimarán
siguiendo la técnica propia de los modelo lineales generalizados. Sin embargo, el método LDA se
deriva de la estrategia no aleatoria minimax, es decir, la asociada a la estrategia aleatoria óptima
(4.11) para q = 0.51 , o equivalentente (4.4), pero sustituyendo los parámetros probabilísticos µ1 ,
µ2 y Σ por estimadores óptimos de los mismos, según el modelo lineal normal multivariante. Es
decir, se considera como estimador de µi a la media muestral Yi· de la categoría i-ésima; como
estimador de Σ tomaremos (n1 + n2 )−1 (S1 + S2 ), siendo Si la matriz de covarianzas muestral de
la i-ésima categoría. En ese caso, el método asigna Y a la media más cercana según la distancia
DΣ̂2 . En general, si se trata de un problema de clasificación respecto a r categorías, la estrategia
minimax consiste en asignar Y a la categoría i-ésima cuando se verifica
57
Capítulo 4 Análisis Discriminante Lineal o LDA
SPSS diseña la estrategia LDA a partir de los datos ya asignados a categorías y es capaz de
clasificar en función de la misma cualquier otro dato que aparezca desagrupado. También recla-
sifica según la estrategia los propios datos agrupados, como el caso que vemos a continuación.
La reclasificación aporta una estimación de los riesgos de la estrategia, que son, según el cuadro
4.2, del 0 % para setosa, del 2 % para virginica y 4 % para vesicolor.
Discriminante
Grupo mayor
Resultados de la clasificacióna
siendo f la densidad de la distribución N (0, 1), y θ = DΣ2 (µ1 , µ2 ). Se trata del parámetro θ que
aparece en (3.8) en relación con el contraste de la hipótesis inicial H0 : µ1 = µ2 , que se identifica
con θ = 0. Por lo tanto, si µ1 = µ2 , la estrategia de Fisher se comportaría asintóticamente como
un sorteo a cara o cruz. Sin embargo, a medida que las medias se alejan según la métrica de
Mahalanobis, los riesgos asintóticos tienden a 0. En la práctica, que las distribuciones estén bien
diferenciadas suele ser mucho más importante que el cumplimiento de los supuestos del modelo
de cara a lograr una estrategia con riesgos bajos, que es lo que a la postre nos interesa. Eso es
lo que ocurre con irisdata: no estamos en condiciones de asumir la normalidad ni la igualdad
de matrices de covarianzas, pero las tres especies consideradas se diferencian claramente según
Página 1
58
Capítulo 4 Análisis Discriminante Lineal o LDA
sus medidas morfológicas, de ahí el éxito de la estrategia de Fisher, que queda patente en el
cuadro 4.2.
En definitiva, el manova de una vía Manova
y la estrategia de clasificación lineal de Fisher son
métodos que parten del mismo modelo, aunque en el primer caso es el factor el que desempeña
Factor cualitativo Variables
la función explicativa, mientras que en el segundo es el vector numérico. Un resultado poco
significativo a la hora de comparar las medias no ofrece expectativas de éxito en la clasificación,
Clasificación
justo al contrario que un resultado significativo. Por eso decimos que el manova y la clasificación
son el anverso y el reverso de una misma moneda. De hecho, es el problema de clasificación el
que da pleno sentido al estudio del manova y, dado que este último puede entenderse como una
regresión multivariante respecto a las variables dummys, da sentido al estudio de los coeficientes
de correlación canónica, pues el contraste de igualdad de medias puede expresarse en términos
de los mismos según (3.24).
Una vez hemos entendido el problema de clasificación como un problema de relación entre
un vector aleatorio p-dimensional y un factor con r categorías, cobra especial interés el método
de selección de variables Lambda de Wilks, estudiado en el capítulo 3, pues permite desechar
aquellas componentes del vector que no aportan información particular en el problema de
clasificación.
59
Capítulo 4 Análisis Discriminante Lineal o LDA
Se sigue entonces de (3.19) que, si k > b, dado que tk = 0, Wj· [k] = W·· [k] para todo j, es
decir, que el sumando k-ésimo en (4.20) será constante en j y, por lo tanto, no interviene en la
búsqueda del mínimo en j. Por eso podemos ignorar las puntuaciones discriminantes asociadas a
autovalores nulos, de manera que el problema queda reducido a minimizar distancias Euclídeas
en dimensión b. Si el valor de b es bajo podemos pues visualizar el problema de clasificación
mediante un gráfico b-dimensional. Por ejemplo, en el caso de irisdata, tenemos el diagrama de
dispersión de la figura 4.3.
Para valores altos de b podemos visualizar igualmente el problema desechando las puntua-
ciones discriminantes asociadas a autovalores pequeños pues, razonando de manera análoga,
los correspondientes sumandos en (3.19) serán casi constantes y, por lo tanto, tendrán escasa
influencia en el problema de minimización. Por ejemplo, en la figura 4.4 representamos las tres
primera puntuaciones discriminantes en un problema de clasificación respecto a 7 categorías,
desechando pues la información aportada por los tres últimos ejes discriminantes. Para deter-
minar si el eje discriminante k-ésimo puede ser despreciado podríamos en principio resolver un
contraste de hipótesis del tipo H0 (k) : θk = 0, según se ve en el apartado 3.3.1. No obstante,
este método requiere de supuestos teóricos relativos a la distribución de los datos y, además,
es muy conservador. Lo habitual es ponderar desde un punto de vista puramente muestral los
autovalores t1 , . . . , tb que, a su vez, se asocian según (3.24) a los coeficientes de correlación
canónica r1 , . . . , rb .
En el caso de irisdata (figura 4.3), podemos apreciar que el peso de la discriminación recae
casi exclusivamente en la primera puntuación discriminante, según sabíamos ya por el cuadro
3.5. En la figura 4.4 (izquierda) se aprecia cierta confusión entre algunas de las variedades de
aceituna a partir de 17 variables numéricas medidas2 al representar las dos primeras puntua-
ciones discriminantes. Sin embargo, la confusión se resuelve en parte al introducir la tercera
puntuación, como se aprecia en la figura de la derecha.
60
Capítulo 4 Métodos alternativos
61
Capítulo 4 Métodos alternativos
nvar nvar
6,00000
CARRASQUEÑA CARRASQUEÑA
CACEREÑA CACEREÑA
5,00000
CORNICHE CORNICHE
CORNEZUELO CORNEZUELO
MORISCA
Segunda puntuación discriminante
MORISCA
2,00000
0,00000
0,00000
-2,50000
-2,00000
-5,00000
-4,00000
-5,00000 -2,50000 0,00000 2,50000 5,00000 -5,00000 -2,50000 0,00000 2,50000 5,00000
R2 Lineal R2 Lineal
= 0,986 = 0,993
Página 1
1,0 1,0
Página 1
Probabilidad diabetes Reg Log
,8 ,8
Probabilidad CHD Reg Log
,6 ,6
y=7,12E-3+0,95*x y=1,25E-3+0,99*x
,4 ,4
,2 ,2
,0 ,0
,0 ,2 ,4 ,6 ,8 1,0 ,0 ,2 ,4 ,6 ,8 1,0
Figura 4.5: Comparativa entre las probabilides de dabetes tipo II (izquierda) y enfermedad coronaria
(derecha) predichas mediante LDA Bayesiano y regresión logística, a partir de los datos de Diabetes
Data Study (Schoderling) y South African Heart Disease Study (Rousseauw), respectivamen-
te.
62
Página 1 Página 1
Capítulo 4 Métodos alternativos
Si el factor cualitativo distingue r > 2 categorías podemos aplicar el método de regresión logís-
tica multinomial. A grandes rasgos, consiste en una composición de r − 1 regresiones logísticas
tomando una categoría como referencia. Cada una de estas regresiones permite estimar la pro-
babilidad de que un dato concreto pertenezca a una categoría dada, dividida por la probabilidad
de que pertenezca a la categoría de referencia. Si los r − 1 cocientes resultan ser inferiores a 1,
el dato se asigna a la categoría de referencia; en caso contrario, se asigna a la que aporte un
cociente máximo.
63
Capítulo 4 Métodos alternativos
Grupo
A
B
14,00
12,00
x1
10,00
8,00
5,00 6,00 7,00 8,00 9,00 10,00
x2
Página 1
64
Capítulo 4 Métodos alternativos
optimización se realiza mediante una gran cantidad de ensayos, por lo que no se concibe sin el
uso de un ordenador. De ahí que métodos como éste o como el del vecino más próximo sean
relativamente recientes. Se estudia con detalle en Hastie et al. (2008).
65
Capítulo 4 Métodos alternativos
X≤X1 X1 X>X1
subsegmentos delimitados por X1 . El punto de corte óptimo X1 será aquél que maximice esa
ganancia. Desde un punto de vista computacional, el problema se reduce a ensayar diferentes
puntos de cortes a lo largo del eje X en busca de la mínima media ponderara entre las va-
rianzas resultantes. Si tenemos p variables debemos ensayar a lo largo de cada uno de los ejes
explicativos.
Una vez encontrado el primer punto de corte óptimo, debemos proceder de igual forma para
obtener un segundo punto de corte X2 en alguna de las variables explicativas, lo cual supondrá
un nuevo nivel de ramificación en algún nodo ya existente, y así sucesivamente. Las medias de
los nodos terminales resultantes nos darán la aproximación categórica a Y . En la figura 4.10
se representa esquemáticamente cuatro iteraciones de ramificación en un problema con p = 2
variables (ejes) explicativas. Ello da lugar a cinco nodos terminales o categorías diferentes. La
mayor proximidad entre colores simboliza un separación más tardía entre los respectivos nodos.
Dejando a un lado la idea que inspira el método, que es integral de Riemann, entenderemos
en lo sucesivo el procedimiento como un algoritmo iterativo de dicotomización, que busca en
cada paso la mínima media ponderada de las varianzas ponderada resultantes al reemplazar
el valor medio del nodo parental por los valores medios de los nodos filiales. Este algoritmo
puede aplicarse pues sin problema en presencia de variables explicativas de tipo cualitativo.
Por lo tanto, no implica la asunción de supuesto alguno respecto al conjunto de p variables
explicativas.
Sobreajuste: Dado que, en la práctica, no contamos con una variable Y ∈ L2 sino con una
muestra Y de tamaño n de la misma, bastaría considerar un árbol en el que cada elemento de la
muestra constituyera un nodo terminal para conseguir un ajuste perfecto con error cuadrático
nulo. Las situaciones de ese tipo se denominan sobreajustes y debe evitarse a toda costa.
Efectivamente, en el contexto de la Minería de Datos, no valoramos una estrategia S concreta
sino el algoritmo que la genera. Es decir, nuestra intención es programar lo mejor posible un
algoritmo que, dada una muestra ξ de tamaño n de (X, Y ) y una observación independiente
X0 de X, determine a partir de ξ una estrategia Sξ para predecir el valor de Y correspondiente
a X = X0 . Así pues, una vez establecido el algoritmo, la predicción Ŷ = Sξ (X0 ) se entiende
66
Capítulo 4 Métodos alternativos
X4 X1
X2
X3
como una función real de ξ y X0 . Podemos entender intuitivamente que la varianza de Ŷ |X=x0
crece según aumenta el grado de sobreajuste en el algoritmo programado, porque aquello que
está diseñado para explicar demasiado bien una muestra concreta ξ puede diferir mucho de lo
que está diseñado para explicar otra distinta ξ 0 . En ese sentido, el sobreajuste es el enemigo
oculto en la Minería de Datos al igual que la violación de los supuestos del modelo lo era en la
Inferencia Paramétrica.
Para evitar esta patología podemos optar por imponer una cantidad mínima de datos por
nodo. De esta manera renunciamos a árboles complejos a menos que trabajemos con grandes
muestras. También pueden limitarse los niveles de ramificación aplicando mecanismos automá-
ticos de “poda” a partir de un árbol con error 0. La intensidad de dicha poda puede modularse
a partir de cierto parámetro α cuyo valor mínimo es 0 (consultar los detalles en Hastie et al.
(2008)).
Predicción categórica de una variable cualitativa: Pero en este capítulo estamos inten-
tando aproximarnos al valor de una variables respuesta Y que no es numérica sino cualitativa,
con r posibles categorías. El algoritmo del árbol de decisión puede aplicarse también en ese
caso con una serie de modificaciones bastante naturales. Si Y es una variable cualitativa el
algoritmo consiste en asignar a cada nodo filial la categoría de Y predominante en el mismo
(en lugar de la media). La dicotomización se realiza en cada paso de manera que se logre la
máxima reducción en una medida de error de clasificación expresada en función de cierto ín-
dice. Existen diferentes formas de medir dicho error 5 . En este manual y en cada nodo nos
decantamos por el denominado índice de Gini que se define como sigue: si en cierto nodo N se
denota por p̂N (i) la proporción de datos pertenecientes de la categoría i de Y en N , se define
la medida de Gini de N mediante
r
X
G(N ) = p̂N (i) 1 − p̂N (i) (4.22)
i=1
Nótese que, si todos los datos del nodo N pertenecieran a una cierta categoría, los r sumandos
de G(N ) serían nulos. Lo mismo ocurriría si ninguno perteneciera a i. Es más, para cada i,
5
Hastie et al. (2008)
67
Capítulo 4 Métodos alternativos
p̂N (i) es la media de la función indicador que asigna 1 a los datos en i y 0, al resto, siendo
p̂N (i) 1 − p̂N (i) su varianza. Así pues, el índice de Gini puede interpretarse como una suma
de varianzas o, más concretamente, como una varianza en el sentido más amplio definido en
(1.9), lo cual refuerza la analogía con el caso numérico. Así pues, la ganancia en términos de
Gini al pasar de un nodo parental a dos filiales se define como la diferencia ente la medida de
Gini (varianza) inicial y la media ponderada (en función de las proporciones de datos) de las
varianzas filiales. A lo largo de las diferentes iteraciones podemos ir contabilizando, para cada
variable, la ganancia que supondría en la misma una dicotomización óptima según el índice de
Gini (aunque en la práctica sólo se generará una ramificación en la variable que logre la máxima
reducción). Este contador acumulado da lugar a la denominada función de importancia.
Importancia normalizada
0 25 50 75 100
petleng
Variable independiente
petwidt
sepleng
sepwidt
Importancia
Método de crecimiento:CRT
Variable dependiente:species
Figura 4.11: Función de importancia para iris data
la muestra en dos partes, no necesariamente iguales: una para diseñar la estrategia (muestra
de entrenamiento) y otra para validarla (muestra de validación). Es decir, los datos que se
utilizan para estimar los riesgos de la estrategia no se han usado en el diseño de la misma. Si
finalmente estos riesgos se consideran apropiados, podemos reconstruir la estrategia contando
con la muestra completa.
Por ejemplo, en la figura 4.12 podemos apreciar el árbol de decisión que ofrece el programa
SPSS para determinar la especie a la que pertenece un lirio a partir de sus medidas de pétalo
y sépalo. A partir de (aproximadamente) la mitad la muestra y mediante dos iteraciones (ya
que en el algoritmo hemos impuesto un tamaño mínimo de los nodos de 10) se ha diseñado un
árbol de decisión con tres nodos terminales. Para este árbol se estiman, mediante el resto de la
68
Capítulo 4 Métodos alternativos
muestra, los riesgos de clasificación errónea, que son concretamente del del 0 % para setosa, 9 %
para vesicolor y del 15 % para virgínica. En la figura 4.11 se expresa la función de importancia
asociada al árbol.
species
Nodo 0
Categoría % n
setosa 33,3 50
setosa vesicolor 33,3 50
vesicolor virginica 33,3 50
virginica Total 100,0 150
petleng
Mejora=0,333
Nodo 1 Nodo 2
Categoría % n Categoría % n
setosa 100,0 50 setosa 0,0 0
vesicolor 0,0 0 vesicolor 50,0 50
virginica 0,0 0 virginica 50,0 50
Total 33,3 50 Total 66,7 100
petwidt
Mejora=0,260
Nodo 3 Nodo 4
Categoría % n Categoría % n
setosa 0,0 0 setosa 0,0 0
vesicolor 90,7 49 vesicolor 2,2 1
virginica 9,3 5 virginica 97,8 45
Total 36,0 54 Total 30,7 46
Técnicas derivadas del árbol de decisión: El árbol de decisión 4.12 se ejecuta en SPSS
a través del cuadro de diálogos 4.8. Existen otros métodos más sofisticados basados en los
mismos principios que son los preferidos por numerosos autores (ver Hastie et al. (2008)) para
afrontar un problema de clasificación: Random Forest y Adaboost, ejecutables en R mediante las
librerías randomForest y Adabag, repectivamente. El primero consiste básicamente en diseñar
diferentes árboles simples a partir de submuestras escogidas al azar (bootstrap) y con un
determinado número de variables escogidas también al azar. Cada árbol simple consiste en una
única partición binaria escogiendo la variable y el punto óptimo; en el árbol complejo final se
clasifica la observación en la categoría mayoritaria entre todos los árboles simples diseñados.
Por su parte, el método adaboost itera un árbol binario incrementando el peso de los datos mal
clasificados; cada árbol binario se pondera a su vez en función de su capacidad predictiva,
Página 1 de
manera que se establece como estrategia de clasificación la suma ponderada de los diferentes
árboles binarios.
69
Capítulo 4 Métodos alternativos
la variable respuesta en función de una o varias capas sucesivas de variables ocultas que se
calculan a partir de las observadas, combinando funciones lineales con otras no lineales muy
específicas.
El modelo más simple, con una única capa, consiste en explicar un vector respuesta P =
(P1 , . . . , Pk )0 a partir de las variables observadas Y = (Y1 , . . . , Yp0 ) como P = g ◦ T ◦ Z(Y ),
donde g = (g1 , . . . , gk )0 , Z = (Z1 , . . . , ZM )0 y T = (T1 , . . . , Tk )0 . Las opciones más habituales
para un problema de clasificación respecto a k + 1 categorías son las siguientes:
0
Zm (Y ) = L(α0m + α1m Y ), m = 1, . . . , M (4.23)
0
Tk (Z) = β0k + β1k Z, k = 1, . . . , K (4.24)
eTk
gk (Tk ) = , k = 1, . . . , K (4.25)
1 + eTk
En ese caso, Pk (Y ) se entiende como la probabilidad estimada de que la observación Y perte-
nezca a la categoría k-ésima del factor respuesta. Nótese que, si K = M = 1 y, además, g = Id
(que es la opción que se suele considerar por defecto), el método consistiría e una regresión
logística binaria, luego podríamos considerar las redes neuronales como una generalización en
sentido muy amplio de dicha técnica.
Sesgo
famhist=0
famhist=1
Sesgo
sbp
H(1:1)
tobacco
H(1:2) chd=0
ldl
H(1:3) chd=1
adiposity
H(1:4)
typea
H(1:5)
IMC
alcohol
age
Página 1
Figura 4.13: Probabilidad de enfermedad coronaria según red neuronal
70
Capítulo 4 Métodos alternativos
aplica con frecuencia al reconocimiento de imágenes. Por contra, genera un efecto denominado
de “caja negra” que impide entender la influencia de las variables observadas en la respuesta.
En la figura 4.13 podemos apreciar la red neuronal utilizada para pronosticar la probabilidad
de enfermedad coronaria a partir de los datos de South African Heart Disease Study.
Si efectuamos una comparativa entre los métodos estudiados (LDA, regresión logística, ve-
cino más próximo, árbol de decisión y redes neuronales) a través de los datos de Southafrica
Heart Disease, observamos en el cuadro 4.3 muy altas correlaciones entre las probabilidades
pronosticadas de LDA Bayesiano, regresión logística binaria y red neuronal (muy especialmente
entre los dos primeros), como cabría esperar por lo razonado anteriormente. Además, los por-
centajes de clasificación correcta para estos métodos son muy similares (en torno al 85 % para
los sanos y al 55 % para los enfermos coronarios); para el método LDA minimax los porcentajes
de clasificación correcta son del 70 % para los sanos y 73 % para los enfermos; los otros dos
métodos (KNN y árbol) correlacionan menos entre sí y con los demás. Presentan porcentajes
de clasificación correcta en torno al 95 % para los sanos y al 25 % para los enfermos, calculadas
a partir de las muestras de validación.
71
Capítulo 4 Métodos alternativos
72
Capítulo 5
Reducción dimensional
73
Capítulo 5 Justificación geométrica
74
Capítulo 5 Justificación geométrica
6 X[2]
s s
@ @
@
s @
@ @ @ @
s @ @ s @ @s
@ @
@ @s
@ @
@ @s
@s X[1]
-
En el caso trivial k = 0, el teorema afirma que el vector de Rp constante por el que debemos
reemplazar las observaciones Xi con el menor error cuadrático posible es la media aritmética x,
siendo la varianza total muestral, definida en (1.37), la medida de dicho error.
Ejercicio 76. Probar que s2T = pj=1 dj
P
75
Capítulo 5 Justificación geométrica
cual equivale a un fuerte grado de correlación lineal (afín) entre las variables medidas para los
datos observados. Ésa es la cualidad que permite obtener una reducción dimensional profunda
mediante la técnica PCA, cosa que parece más factible bajo el supuesto de p-normalidad.
En todo caso, el método puede generalizarse mediante el uso de las denominadas curvas y
superficies principales, que pueden aproximarse mediante iteraciones descritas en Hastie et al.
(2008), si bien es en Gifi (1990) donde se le dedica más espacio a este tipo de problema.
En lo que resta supondremos sin pérdida de generalidad (ya veremos por qué) que x = 0.
En ese caso y para cada j = 1, . . . , p, se denota U[j] = X · gj , es decir, el vector de Rn que
recoge las proyecciones de cada observación Xi , i = 1, . . . , n, sobre el eje hgj i determinado por
el j-ésimo autovector de S. Dicho eje se denomina j-ésimo eje principal y U[j] se denomina
j-ésima componente principal. Las p componentes principales ordenadas constituyen una nueva
matriz U ∈ Mn×p definida mediante
U = XG (5.5)
que expresa las coordenadas de X respecto de la base ortonormal canónica de autovectores G.
Dado k ≤ p, se denota por U la matriz n × k compuesta por las k componentes principales,
cuyas filas y columnas se denotarán con el mismo criterio que en (1.1). Por otra parte, se denota
E = (U[k + 1], . . . , U[p])G02 ∈ Mn×p . En ese caso, se sigue de (5.5) que
X = UG01 + E (5.6)
siendo UG01 la matriz en Mn×p que permite alcanzar las distancia mínima a X en el teorema
5.2.1.
Ejercicio 77. Probar que las componentes principales son incorreladas entre sí. Probar que
el primer eje principal es aquél sobre el que hay que proyectar las observaciones para obtener
una máxima varianza, que vale d1 .
Ejercicio 78. Probar que el segundo eje principal es aquél sobre el que hay que proyectar
las observaciones para obtener la máxima varianza de entre todas la variables incorreladas con
la primera componente principal, que vale d2 , y así sucesivamente. Probar que el último eje
principal es aquél sobre el que hay que proyectar para obtener una mínima varianza.
Ejercicio 79. ¿Cómo se interpreta dp = 0? ¿Cómo se interpreta |Σ| = 0 para un vector
aleatorio con distribución Np (µ, Σ)?
Ejercicio 80. Probar que la matriz de covarianzas de U es SU = D1 .
Así pues, los ejes principales resuelven el problema de maximización de la varianza, mientras
que los ejes discriminantes, estudiados en los capítulos 3 y 4, solucionan el problema de maxi-
mización relativo a la discriminación entre categorías, que a su vez puede entenderse como una
maximización de correlaciones lineales. Esto puede llevar a una cierta confusión en problemas
multivariantes con presencia de un factor cualitativo (como, por ejemplo, el caso del irisdata de
Fisher). La figura 5.2 trata de clarificar la relación que se da en tales casos entre los distintos
tipos de ejes, teniendo en cuenta que, según la notación utilizada en 3.13, la varianza total s2
de una proyección dada, que también podemos denotar mediante SCT , descompone según la
figura 2.5 mediante SCT = SCH + SCE.
76
Capítulo 5 Representación de observaciones y variables
Ejes principales
SCT=SCH+SCE
Maximizar
F α SCH/SCE R2=SCH/SCT
Al trabajar con variables tipificadas podemos suponer que la media es nula, como indicábamos
antes.
77
Capítulo 5 Representación de observaciones y variables
√
denominan ejes factoriales y, salvo una constante (dado que todos tienen norma Euclídea n),
constituyen un sistema ortonormal3 .
Por otra parte, para que se siga verificando la ecuación (5.6), transformamos de manera
1/2
inversa G1 definiendo Λ = G1 D1 ∈ Mp×k . La matriz Λ se expresará así
λ1 [1] . . . λk [1]
Λ = ... .. (5.9)
.
λ1 [p] . . . λk [p]
O, lo que es lo mismo,
X1 [1] . . . X1 [p] F1 [1] . . . F1 [k] λ1 [1] . . . λ1 [p]
.. .. = .. .. · .. .. + E
. . . . . . (5.11)
Xn [1] . . . Xn [p] Fn [1] . . . Fn [k] λk [1] . . . λk [p]
78
Capítulo 5 Representación de observaciones y variables
→
− Pk →
− →
−
Xi = j=1 Fi [j] · λ j + E i (5.13)
En consecuencia, al reemplazar las observaciones originales por los puntos expresados me-
diante
Pp las puntuaciones factoriales cometemos unos error global cuya cuya media cuadrática
es j=k+1 dj . Si este término es pequeño podemos considerar que una representación de las
observaciones en dimensión k, como lo que tenemos en la figura 5.5, se aproxima a la realidad.
→
− Pk →
− →
−
X [l] = j=1 λj [l] · F [j] + E [l] (5.17)
Por otra parte, dado que estamos trabajando con los datos tipificados, se verifica que R =
n−1 X0 X. Se deduce nuevamente de (5.10) junto con (5.12) que
Luego, podemos reproducir la correlación entre las variables originales multiplicando sus com-
ponentes en dimensión k, salvo un error determinado por el segundo sumando que acotaremos
a continuación: en primer lugar, se deduce de la desigualdad de Cauchy-Schwarz que
−1 →− →
− →
− →
−
q
n h E [l], E [s]i ≤ n−1 k E [l]k2Rn · n−1 k E [s]k2Rn (5.20)
Esta desigualdad puede expresarse también en función de las componentes de la variable te-
niendo en cuenta la igualdad (5.18) aplicada a los elementos de la diagonal. Efectivamente,
para todo l = 1, . . . , p,
→
− →
−
n−1 k E [l]k2Rn = 1 − k λ [l]k2Rk (5.21)
79
Capítulo 5 Representación de observaciones y variables
→
−
Si se denota el término k λ [l]k2Rk por h2l (que estará comprendido en todo caso entre 0 y 1), se
deduce entonces de (5.19), (5.20) y (5.21) que
→
− →
− q
rls − h λ [l], λ [s]i ≤ (1 − h2l )(1 − h2s ) (5.22)
En lo sucesivo, los términos h21 , . . . , h2p se denominarán comunalidades de las respectivas va-
riables. La desigualdad (5.22) se interpreta pues como sigue: si tanto la comunalidad de la
variables l-ésima como de la de la s-ésima son próximas a 1, podremos reproducir la correla-
ción entre ambas variables, salvo un pequeño error, mediante el producto en Rk de sus vectores
de componentes, como los que se representan, por ejemplo, en la figura 5.5. En tal caso, si dichos
vectores están aproximadamente en la misma dirección cabrá pensar en una fuerte correlación
lineal, que será positiva si están en el mismo sentido y negativa en caso contrario; por contra,
si están direcciones aproximadamente perpendiculares, cabrá pensar en una escasa correlación
lineal.
Ejercicio 82. Probar que, si se denota h2 = p1 pj=1 h2j (es decir, la media aritmética de las
P
comunalidades), se verifica
d(k) = h2 (5.23)
Por lo tanto, la media aritmética de las comunalidades equivale a laP proporción de varianza
total explicada por las k primeras componentes principales. Luego, si pj=k+1 dj es próximo a
0 tendremos un buen comportamiento global de las comunalidades y, por lo tanto, el análisis
de los vectores componentes en Rk nos dará una idea bastante aproximada de la correlación
real entre las variables estudiadas.
→
− →
−
Ejercicio 83. Probar que λj [l] es el coeficiente de correlación lineal entre X [l] y U [j]. Por
lo tanto, la matriz Λ recoge las correlaciones entre las variables originales y las componentes
principales.
Podemos apreciar en las ecuaciones (5.13) y (5.17) que los papeles que desempeñan las
matrices F y Λ se permutan tal y como se indica en el cuadro 5.1 según representemos las
observaciones o las variables.
k ejes k coordenadas
n observaciones Λ F
p variables F Λ
También hemos de advertir que la representación de las variables mediante sus componentes
constituye tan sólo una simplificación de la información que nos aporta ya de por sí la matriz
de correlaciones R. Concretamente, consideramos en (5.18) la aproximación R ' ΛΛ0 , donde la
diferencia entre ambas se denota por Ψ, denominándose varianzas especificas los elementos de
su diagonal, ψjj , j = 1, . . . , p. De esta forma, la igualdad (5.21) puede expresarse así
1 = h2j + ψjj , 1≤j≤p (5.24)
80
Capítulo 5 Representación de observaciones y variables
− →
→ −
Xi [l] = h F i , λ [l]i + Ei [l] (5.25)
𝜆𝜆⃗[j]
B C
81
Capítulo 5 Representación de observaciones y variables
bien bcf y wob no quedan satisfactoriamente representada por este gráfico, como hemos dicho
anteriormente. Además, podemos apreciar qué espermatozoides presentan valores altos, medios
o bajos para las distintas variables. Se ha superpuesto en el gráfico la circunferencia unidad
para que podamos apreciar qué variables presentan una comunalidad próxima a 1.
82
Página 1
Capítulo 5 Análisis factorial
Esto resulta especialmente útil cuando k > 2, porque en ese caso no podemos representar
satisfactoriamente las variables. Además, el análisis numérico de las correlaciones a través de la
matriz de componentes puede resultar en principio complicado. No obstante, tras una rotación
adecuada, el análisis de dicha matriz resulta más sencillo porque deja más claro con qué eje se
identifica cada variable (aquél en el que se obtenga una coordenada próxima a ±1).
En el cuadro de diálogos 5.6 se indica a grandes rasgos cómo ejecutar un analisis de com-
ponentes princiapales (PCA) con SPSS. La ejecución con R se realiza a través del comando
princomp.
83
Capítulo 5 Análisis factorial
Se basa en la idea de que, de darse una buena agrupación de muchas variables en pocos
factores, deberían observarse fuertes correlaciones simples pero bajas correlaciones parciales.
Concretamente, la suma de coeficientes de correlación simple al cuadrado entre cada posible par
de variables diferentes debe ser grande en relación con la suma de los coeficientes de correlación
2
P
parcial al cuadrado entre cada par, conocidas el resto, que se denota por i6=j aij en (5.26). En
la práctica, valores de KMO inferiores a 0.6 suelen considerase un mal indicio de cara a una
clara simplificación del problema de correlación.
Ejercicio 84. Razonar por qué un valor de KMO próximo a 1 se asocia a una reducción
profunda en el análisis factorial.
En otros contextos se utilizan también métodos como oblimin5 que aplican una transfor-
→
−
mación lineal, no necesariamente ortogonal, alos diferentes vectores λ [j], de manera que las
puntuaciones factoriales transformadas dejan de ser necesariamente incorreladas. Este tipo de
transformación permite una agrupación más clara de las variables en factores aunque éstos no
sean incorrelados y pierdan, por lo tanto, su sentido original.
84
Capítulo 5 Introducción al Análisis de Correspondencias
85
Capítulo 5 Multicolinealidad y PCA
r X s
X (Oij − Eij )2
χ2 = (5.28)
i=1 j=1
Eij
Nótese que se entiende (5.28) como una distancia entre la tabla de contingencia observada O y
su proyección E sobre el subespacio que identificamos con la independencia entre las variables
cualitativas. Para ser precisos, la matriz de valores esperados E es, de entre aquellas cuyas pro-
porciones condicionadas equivalen a las proporciones marginales, la más próxima a la matriz
de valores observados según cierta distancia, que en tal caso vale χ2 . Los detalles pueden estu-
diarse en Greenacre (1984) y también se desarrollan en el Manual de Análisis Multivariante7 ,
se basa pues en una generalización del teorema 5.2.1, y tiene como producto final un gráfico
denominado biplot, como el de la figura 5.7, que se interpreta de manera parecida al caso
numérico.
Cuando tenemos más de dos variables categóricas podemos optar por varios métodos: el
primero consiste en agrupar las diferentes variables categóricas en dos (con gran cantidad de
categorías) con la intención de aplicar un análisis de correspondencias simple. Por ejemplo, en
un estudio8 de relación entre la especie germinada (se distinguen 11 categorías de leguminosas)
y tres variables que caracterizan las condiciones del terreno, con 4, 3 y 4 categorías anidadas,
respectivamente, se optó por agrupar las tres variables del terreno en una única variable cuali-
tativa denominada grupo que distingue entre 28 categorías diferentes. El biplot de la izquierda
en la figura 5.7, que recoge el 63 % de la distancia χ2 9 , ilustra las asociaciones entre las especies
y las diferentes condiciones del terreno. El cuadro de diálogos 5.8 ilustra cómo se ejecuta esta
técnica con SPSS.
El segundo método consiste en una generalización de la técnica anterior denominada análisis
de correspondencias múltiples. Esta técnica, que también se estudia con detalle en Greenacre
(1984), se basa en la aplicación del análisis simple a una supermatriz denominada de índices.
Su mayor inconveniente radica en la gran pérdida en la explicación de la distancia χ2 (o de la
inercia) que suele conllevar en estos casos la representación gráfica en baja dimensión. Téngase
en cuenta que en estas circunstancias podemos llegar a barajar dimensiones por encima de 1000,
por lo que resultaría poco verosímil explicar más de un 25 % de la inercia en un simple plano.
No obstante, a pesar de su tendencia al simplismo, ofrece una visión global del problema de
correlación que puede resultar muy útil como referencia inicial. Por ejemplo, en la parte derecha
de la figura 5.7 se esquematiza en un biplot la relación conjunta entre 11 variables cualitativas,
algunas de ellas con muchas categorías, relacionadas con un estudio sobre duración da bajas
laborales10
7
Montanero (2008)
8
Pérez-Fernández et al. (2006).
9
Se suele trabajar realmente con la inercia, que es χ2 /n.
10
González-Ramírez et al. (2017).
86
Capítulo 5 Multicolinealidad y PCA
Age
Children
1,0 Civil status
Bronchitis Widow/er Co-diagnostic
T. villosa
O-4 Bronchitis-AC >52 Diagnostic
Renal-colic
Divorced Gender
O-3 Operators 43 Inguinal hernia
D. glomerata Cold Occupation
O-1 Giddiness Children-yes
O-2 Flu-others Payment
0,5 Flu Married
Ax4 Gastr.-NI UNDER 15 Regime
especie Male
Gastroent. Diarrhea Headache Craft Agric-forest-fish Duration
Ax1 Axx2 Zone3
grupo
Ac-pharingitisMigraine Zone4 Meniscus-injury
Bxx3 Elementary
Zone
Axx1 Axx4 38 Sciatica Carpian tunnel
C. cristatus Indirect-payment Zone2
Dimensión 2
Single
-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0
Dimensión 1
Página 1
Figura 5.8: Cuadro de diálogos Análisis de Correspondencias Simple
donde Rj∗ denota el coeficiente de correlación múltiple de Z[j] respecto al resto de variables
explicativas. Como podemos observar, dado que las variables explicativas están tipificadas, la
87
Capítulo 5 Multicolinealidad y PCA
varianza del estimador depende de la varianza del modelo σ 2 , del tamaño de la muestra n
y del grado de correlación respecto al resto de variables explicativas según el FIV, es decir,
2 −1
(1 − Rj∗ ) . En virtud de (2.37), queda claro que una fuerte dependencia lineal de Z[j] respecto
al resto de variables explicativas dificulta la significación en el contrate parcial H0 : βj = 0.
Hablando en términos más intuitivos, las redundancias lineales entre las variables explicativas
se traducen en una menor confianza en los signos de sus coeficientes estimados, como ya se
comentó en el capítulo 2.
En la figura 5.9 se ilustran los efectos de la multicolinealidad (derecha) sobre la varianza
de los estimadores de regresión a partir de variables tipificadas, en contraposición con una
situación en las que las variables explicativas son incorreladas (izquierda). En ambos casos se
calculan los coeficientes de regresión para dos muestras diferentes, Y1 e Y2 .
Z[2] 6
2 Z[2]
2 r
P Y
u hzi
β̂ 2 Phzi Y 2
1 u
1 r
P Y
u hzi 2
r
β̂ 2 β̂ 2 Phzi Y 1
u
*
Z[1]
r
1 r
1
β̂ 2 β̂ 1
r r - r
2 1 Z[1]
2
β̂ 1 β̂ 1 β̂ 1
88
Capítulo 5 Multicolinealidad y PCA
Ejercicio 87. Probar que el coeficiente de correlación múltiple R2 de Y respecto a las varia-
bles explicativas Z permanece invariante si reemplazamos estas últimas por sus componentes
principales U. Probar que R2 puede obtenerse como la suma de los coeficientes de correlación
simple al cuadrado entre Y y cada una de las componentes principales (cosa que no sucede en
general con las variables explicativas originales).
Ejercicio 88. ¿Por qué una fuerte variabilidad de los estimadores se asocia a resultados no
significativos en los tests parciales?
89
Capítulo 5 Multicolinealidad y PCA
Una vez estimado el vector η̂ con los coeficientes de regresión respecto de U, debemos
deshacer el cambio teniendo en cuenta (5.5), obteniendo así la estimación
ˆ
β̂ = Gη̂
Si hemos eliminado las últimas componentes principales en los tests parciales, esta nueva es-
timación de β estará sometida a tantas restricciones lineales como componentes eliminadas,
y será sesgada pero con menor varianza que el EIMV β̂. En las condiciones de la simulación
propuesta en el ejercicio 86, el primer eje principal es h(1, 1)0 i. Luego, si se desecha la segunda
componente principal, la ecuación estimada consistirá en multiplicar Z[1] y Z[2] por un mismo
coeficiente.
Desde un punto de vista práctico, distinguimos pues dos posibles circunstancias: que se
eliminen componentes principales en la regresión lineal, lo cual conduce a considerar una ecua-
ción más estable que puede entenderse como una especie compromiso entre las distintas varia-
bles correlacionadas, como en el ejemplo comentado anteriormente; o bien que no se eliminen
componentes principales, lo cual debe entenderse como que la muestra consta de información
suficiente para determinar qué variables poseen influencia real en la respuesta, en cuyo caso
debemos acatar el resultado que aporten los tests parciales.
En la figura 5.10 representa una ecuación (plano) de regresión construida a partir de dos
variables explicativas fuertemente correlacionadas. En ese caso, el plano estimado se apoya
fundamentalmente, por así decirlo, en el primer eje principal, siendo muy sensible a pequeños
cambios en el segundo (linea verde), ante los cuales bascularía fuertemente. Precisamente, el
contraste parcial de la segunda componente principal determina si la posición respecto al segun-
do eje es estable (significativa), es decir, si la segunda componente principal recoge información
suficiente respecto a Y como para otorgar fiabilidad a la ecuación obtenida. En caso contrario,
se ignora y la ecuación se reduce a la recta que determina la primera componente (roja).
Una opción intermedia puede ser la denominada regresión Ridge que, en última instancia,
se traduce (ver Hastie et al. (2008) sec. 3.4.1) en una ponderación del peso de las diferentes
componentes principales en función de la varianza de las mismas en una estimación sesgada de
la media. Concretamente, se define el estimador Ridge de β para λ ≥ 0 mediante
ridge
β̂ λ = argmin{kY − Y − Zbk2 + λ · kbk2 : b ∈ Rq } (5.30)
El caso λ = 0 proporciona el EIMV β̂. Puede probarse a través del cálculo de derivadas parciales
que el estimador Ridge de β verifica, en términos de las puntuaciones factoriales F [1], . . . , F [q]
de Z (tipificada),
q
ridge X dj
Zβ̂ λ = F[j] F[j]0 Y (5.31)
j=1
d j + λ
Es decir, dado que uno de los efectos de la multicolinealidad puede ser la inflación en el tamaño
del estimador β̂, puede compensarse imponiendo una cota al mismo mediante una penalización
(no eliminación) de las componentes principales con baja varianza.
90
Capítulo 6
Análisis de conglomerados
70
60
50
eruption
En las dos primeras secciones abordaremos un breve estudio de los dos métodos tradicionales
del análisis de conglomerados: el de k-medias y el jerárquico. En la tercera sección introducire-
mos escuetamente el algoritmo de agrupación EM, basado en un modelo de mezclas. Este tipo
de técnica va más allá de la mera agrupación de observaciones pues tiene el ambicioso objeto
de determinar de manera sencilla y precisa la distribución probabilística que las explica.
91
Capítulo 6 Método jerárquico
En todo caso, para hablar de similitud entre observaciones es preciso definirla previamente
en el espacio Rp . La opción más utilizada es considerar la distancia Euclídea, aunque puede
optarse por medidas de similitud alternativas, algunas bastantes parecidas y otras, como la
correlación entre datos que definiremos más tarde, no tanto. Si optamos por cualquiera de las
dos medidas antes mencionadas debemos tener presente que no son invariantes ante cambios
de escala en cualquiera de las variables consideradas, lo cual afecta de manera decisiva a la
agrupación. De ahí que, en la mayoría de las situaciones, el análisis de conglomerados deba
ir precedido de la tipificación de los datos. No sería el caso si optásemos, por ejemplo, por la
distancia de Mahalanobis, dada la matriz de covarianzas muestral, que es sí invariante.
92
Capítulo 6 Método jerárquico
93
Capítulo 6 Algoritmo EM
por dos, podremos comprobar que el más pequeño está compuesto exclusivamente por flores
tipo setosa, mientras que el más grande está compuesto por flores tipo vesicolor y virgínica.
De lo dicho hasta ahora se deduce que el mayor problema a la hora de formar conglomerados
es determinar de una manera mínimamente objetiva el número k de clústers. No obstante,
podemos optar por diferentes combinaciones entre ambas técnicas para lograr una solución
aproximada: por ejemplo, podemos seleccionar a partir de la muestra original una pequeña
muestra piloto y determinar k a partir del dendrograma de la segunda. También puede invertirse
el orden agrupando primeramente respecto a un número elevado m de semillas, que da lugar
a m centroides finales. Éstos se someten entonces a un análisis jerárquico, de manera que los
grupos correspondientes a centroides próximos se unirán dando lugar a un número menor de
conglomerados homogéneos.
Cluster Dendrogram for Solution HClust.2
40
30
Height
20
10
0
17
9
33
3
22
16
24
29
32
12
13
18
19
25
23
27
20
30
15
26
4
31
10
1
34
2
35
8
14
21
28
5
11
6.3. Algoritmo EM
En la sección anterior destacamos lo conflictivo que resulta determinar el número k de con-
glomerados a configurar a partir de la observación de la muestra. Aunque ya propusimos dos
métodos (bastante subjetivos) para tal fin, existen diversos procedimientos semiautomáticos
basados en principios bastante intuitivos, como el método gráfico del codo y el de Calinsky-
Harabasz. El método Bayesiano que describimos a continuación está basado en un modelo de
mezclas, es decir, en la aproximación de distribucionesde probabilidad p-dimensional mediante
94
Capítulo 6 Algoritmo EM
El método esperanza-maximización consiste en reemplazar θ̂0 por el parámetro θ̂1 que maximice
la esperanza condicional dado Y expresada en primer término en (6.4). Es decir, se trata de
encontrar mediante las técnicas de Calculo Diferencial habituales los valores de (qj , µj , Σj ), con
j = 1, . . . , k, que maximicen la siguiente expresión
n X
X k
Pθ̂0 [Ii = j|Yi ] · [log qj + log pj (µj , Σj ; Yi )] (6.5)
i=1 j=1
Las probabilidades a posteriori Pθ̂0 [Ii = j|Yi ] se calculan mediante la regla de Bayes según se
indica en (6.7). Dado que, en virtud de la desigualdad de Jensen, el término que figura restando
en (6.4) alcanza su máximo en θ = θ̂0 , se deduce que
95
Capítulo 6 Algoritmo EM
2. En la fase s = 0 se efectúa una estimación inicial θ̂0 mediante los parámetros muestrales
q̂j0 , µ̂j0 y Σ̂j0 , j = 1, . . . , k, obtenidos con un algoritmo de k-medias. La forma de estimar
las matrices de covarianzas, tanto en este paso como los sucesivos, dependerá de las
restricciones lineales que les impongamos.
5. θ̂s+1 reemplaza a θ̂s y vuelven a aplicarse los pasos 3 y 4 sucesivamente hasta alcanzar
suficiente estabilidad en L(θ̂, Y).
6. Este procedimiento se lleva a cabo con diferentes valores de k y diversos grados de res-
tricción para la matriz de covarianzas, seleccionando el modelo que maximize el BIC. En
dicho modelo, cada observación Yi se asigna al clúster (índice) que maximiza la probabi-
lidad a posteriori (6.7) en la última iteración.
Este método puede ejecutase haciendo uso del paquete mclust del programa R, que consi-
dera 14 tipo de restricciones sobre las matrices de covarianzas. Si, por ejemplo, lo aplicamos a
los datos de Old Faithful, el método proporciona un valor máximo del BIC para k = 3 com-
ponentes, con matrices de covarianzas asociadas a elipses con el mismo volumen, excentricidad
y orientación (EEE). En la parte izquierda de la figura 6.4 se muestran la comparativa entre
los 126 diferentes modelos considerados; en la parte derecha, se muestran los diferentes clústers
con las tres distribuciones 2-normales superpuestas; por último, en la figura 6.5 se muestra la
densidad estimada como mezcla de dichas distribuciones. En ocasiones como ésta y a la vista
1
En este caso mostramos las estimaciones de las matrices de covarianzas que corresponderían al modelo sin
restricciones.
96
Capítulo 6 Algoritmo EM
del gráfico, puede procederse a agrupar clusters (verde y azul) cuya separación no resulte na-
tural. Es decir, que este método aparentemente automático también puede precisar en última
instancia de decisiones subjetivas, por lo que, en definitiva, no difiere tanto de los comentados
en la sección anterior.
Classification
-2500
90
80
-3000
waiting
BIC
70
-3500
60
EII EVE
VII VEE
EEI VVE
VEI EEV
50
EVI VEV
VVI EVV
-4000
EEE VVV
0.015
0.025
0.0
35 4
0.0
80
0.03
waiting
0.02
70
0.01
0.005
0.005
0.015
60
0.025
3
0.0
50
0.02
0.01
eruption
97
Capítulo 6 Algoritmo EM
numéricas y multinomiales las cualitativas (no obstante, el procedimiento resulta ser bastante
robusto ante la violación de este supuesto).
En un primer paso se generan por similaridad un cierto número de conglomerados que no
puede superar un máximo establecido. Los conglomerados se van formando conforme se leen
los datos en el orden en el que aparecen enel archivo (lo cual puede resultar trascendental). La
medida de similaridad por defecto es el logaritmo de la verosimilitud, calculada a partir de las
p variables numéricas. De los conglomerados formados sólo interesará, en la siguiente fase, sus
centroides (medias en dimensión p). El siguiente paso es un procedimiento de aglomeración de
dichos centroides hasta llegar a un conglomerado (centroide) único. En esta fase se consideran
las proporciones de las categorías correspondientes a las variables cualitativas a la hora de
calcular el logaritmo de la verosimilitud y los centroides. El árbol resultante debe podarse
para obtener una solución óptima en función del BIC y teniendo además en cuenta unas cotas
máximas de complejidad a niveles horizontal y vertical predeterminadas.
Este método posee dos desventajas, al menos aparentes: su complejidad y los fuertes su-
puestos sobre los que descansa teóricamente. Por contra, tiene como ventaja principal, a parte
de su automatismo, que contempla el uso de variables cualitativas.
98
Bibliografía
99
Capítulo 6 Algoritmo EM
100
Índice alfabético
101
ejes factoriales, 77 matriz de componentes, 81
ejes principales, 78, 81 matriz de correlaciones, 12, 77, 81
elipsoide de confianza, 37 matriz de covarianzas, 12, 20, 22
elipsoides, 22 matriz idempotente, 16
escalamiento multidimensional, 85 matriz ortogonal, 16, 23
espacio L2 , 7, 65 matriz positiva, 16
espacio Euclídeo, 7 media, 9
esperanza, 9 medidas de similitud, 93
esperanza condicional, 15, 21 minería de datos, 64
esperanza-maximización EM, 95 modelo lineal multivariante, 37
estimación, 26, 34 modelo lineal normal, 22, 24
estimación sesgada, 90 modelo lineal normal multivariante, 31
estimador de máxima verosimilitud EMV, 26, muestra aleatoria, 7
34 muestra aleatoria simple de una distribución
estimador insesgado de mínima varianza EIMV, normal, 25, 33, 37
26, 34, 37, 40 muestras independientes de distribuciones nor-
estimador Ridge, 90 males con idéntica varianza, 25
estrategia de Bayes, 53, 55 muestras independientes de distribuciones nor-
estrategia LDA, 57 males con idénticas matrices de cova-
estrategia LDA Bayesiana, 57, 62 rianzas, 33, 40
estrategia minimax, 55 multicolinealidad, 87
estrategia no aleatoria, 53
nodo filial, 65
factor, 84 nodo paranetal, 65
factor de inflación de la varianza FIV, 30, 88 nodos terminales, 66
factores latentes, 84 norma en L2 , 8
familia completa maximal, 55 norma Euclídea, 8, 23
función característica, 19
función de densidad, 20, 21, 55 odds ratio, 63
función logística, 57, 63 ortogonalidad en Rn , 8
ortogonalidad en L2 , 8
grados de libertad, 23, 28
parametrización de un modelo, 26
heterocedasticidad, 27 preorden en estrategias, 54
principio de Invarianza, 23, 24, 27, 35
importancia, 68
principio de Máxima Verosimilitud, 55
incorrelación, 8, 10, 14, 20
independencia, 8, 14, 20 problema de clasificación, 53
inercia, 86 producto escalar en Rn , 8
producto interior en L2 , 7
lema fundamental de Neyman-Pearson, 28 proporción de varianza total explicada, 80
leyes de los Grandes Números, 9, 38, 55 proyección ortogonal, 8, 16
puntuaciones discriminantes, 42, 44, 59
método de Mínimos Cuadrados, 8 puntuaciones factoriales, 79, 81
método del eje principal, 85
método del vecino más próximo KNN, 63 redes neuronales, 69
método Lambda de Wilks, 48, 59 regla de Bayes, 54, 96
método núcleo, 55 regresión lineal múltiple, 25
manova, 34, 42, 47, 50, 53 regresión lineal multivariante, 34, 45
regresión logística, 61
riesgo, 54, 58
rotación de ejes factoriales, 82
rotación oblicua, 84, 85
rotación varimax, 82
semilla, 92
sobreajuste, 66, 95
subespacios h1i y h1n i, 9
suficiencia, 27
tabla de contingencia, 85
teoría de la Decisión, 53
teorema Central del Límite, 38
teorema de Lehmann-Scheffé, 26
teorema de los multiplicadores finitos de La-
grange TMFL, 37, 41
teorema Fundamental del Cálculo, 55
teorema Límite Central, 9
test F , 28, 35, 43
test de Friedman, 51
test de Hosmer-Lemeshov, 63
test de Lawley-Hotelling, 35, 47
test de Pillay, 35, 47
test de razón de verosimilitudes TRV, 28, 35,
38, 40
test de Roy, 35, 47
test de Student, 28, 35, 40
test de Wilks, 35, 43, 45, 47
test UMP-invariante, 28, 38, 40
tipificación, 77, 92
tolerancia, 30
variabilidad, 10
variabilidad parcial, 13
variables dummys o ficticias, 26, 30, 47, 48, 59
varianza, 9
varianza parcial, 13
varianza total, 10, 16, 74, 75
varianzas específicas, 80
vector aleatorio, 7, 19
vector de componentes de la variable, 78, 80
vinculación inter-grupos, 93