Analisis Cluster PDF
Analisis Cluster PDF
Analisis Cluster PDF
Santiago de la Fuente Fernández
Análisis Cluster
ÍNDICE
Teoría Análisis Cluster …………………………………………………………… 1
Análisis Cluster No Jerárquico con SPSS …..…………………….……… 25
Análisis Cluster Jerárquico con SPSS ……………………………………… 36
Análisis Cluster No Jerárquico/Jerárquico con SPSS ………………. 55
Análisis Cluster en Dos Etapas ………………………………………………. 63
Análisis Cluster Supuesto de Mercado …………………………………… 76
Santiago de la Fuente Fernández
ANÁLISIS DE CONGLOMERADOS (CLUSTERS)
El Análisis Cluster, conocido como Análisis de Conglomerados, es una técnica estadística
multivariante que busca agrupar elementos (o variables) tratando de lograr la máxima
homogeneidad en cada grupo y la mayor diferencia entre los grupos.
1
El análisis cluster se puede utilizar para agrupar individuos (casos) y también para agrupar
variables. En adelante, cuando se hace una referencia a grupos de individuos (o casos)
debe sobreentenderse que también se hace a un conjunto de variables. El proceso es
idéntico tanto si se agrupan individuos como variables.
Es decisiva la selección de las variables que realmente sean relevantes para identificar a
los grupos, de acuerdo con el objetivo que se pretenda lograr en el estudio. De lo contrario,
el análisis carecerá de sentido.
Para seleccionar la medida de proximidad es conveniente estar familiarizado con este tipo
de medidas, básicamente similitudes y distancias, ya que los conglomerados que se forman
lo hacen en base a las proximidades entre variables o individuos. Los grupos que se forman
en cada paso dependen de la proximidad, distintas medidas de proximidad pueden dar
resultados distintos para los mismos datos.
Para seleccionar el criterio de agrupación conviene conocer como mínimo los principales
métodos de análisis cluster.
Ordinales Discretas
Cualitativas Cuantitativas
Nominales Continuas
Cada medida refleja asociación en un sentido particular y es necesario elegir una medida
apropiada para el problema concreto que se esté tratando.
Cuando se elige una distancia como medida de asociación (por ejemplo, la distancia
euclídea) los grupos formados contendrán individuos parecidos de forma que la distancia
entre ellos tiene que ser pequeña.
2
Cuando se elige una medida de similaridad (por ejemplo, el coeficiente de correlación)
los grupos formados contendrán individuos con una similaridad alta entre ellos. La
correlación de Pearson y los coeficientes de Spearman y de Kendall son índices de
similitud.
d(x, x) 0
d(x, y) 0 x y
d(x, y) d(y, x)
d(x, z) d(x, y) d(y, z)
s(x, y) s0
s0 número real finito arbitrario s(x, x) s0
s(x, y) s(y, x)
s(x, y) s0
s(x, x) s
0
s(x, y) s(y, x)
s(x, y) s x y
0
NOTA.- Dependiendo del tipo de análisis (por variables o por individuos) que se realiza,
existen distintas medidas de asociación aunque, técnicamente, todas las medidas pueden
utilizarse en ambos casos.
MEDIDAS DE ASOCIACIÓN
Coseno del ángulo de dos vectores (invarianza, salvo signo, frente a homotecias)
Xi \ X j 1 0 Totales
1 a b a+b
0 c d c+d
Totales a+c b+d m=a+b+c+d
a
Medida de Ochiai
(a b)(a c)
3
ad bc
Medida
(a b)(c d)(a c)(b d)
a a
Medida de Russell y Rao
abc d m
ad ad
Medida de Parejas simples
abc d m
a
Medida de Jaccard
abc
2a
Medida de Dice
2a b c
ad
Medida de Rogers-Tanimoto
a d 2(b c)
p q
nij2
Distancia : m
2 2
m
i1 j1 i•
1
m• j
CLASIFICACIÓN:
Disociativos: Se parte de un solo grupo que contiene todos los casos y a través de
sucesivas divisiones se forman grupos cada vez más pequeños.
Los métodos jerárquicos permiten construir un árbol de clasificación o dendograma.
4
3.2 MÉTODOS NO JERÁRQUICOS
MÉTODOS DE ANÁLISIS CLUSTER
K Medias
Reasignación
Nubes Dinámicas
Análisis Modal
Búsqueda Métodos Taxap
No de densidad Método de Fortin
Método de Wolf
Jerárquicos
Métodos Directos : Block Clustering
Métodos Reductivos : Análisis Factorial tipo Q
5
DISTANCIAS ENTRE CONGLOMERADOS
Las distancias entre los conglomerados son funciones de las distancias entre
observaciones, hay varias formas de definirlas:
Sean A y B dos conglomerados:
Promedio de grupo
1
d(A, B) d(i, j)
nA . nB i A, j B
6
MÉTODO LINKAGE SIMPLE AGLOMERATIVO (Vecino más cercano)
Una vez que se conocen las distancias existentes entre cada dos individuos se observa
cuáles son los individuos más próximos en cuanto a esta distancia o similaridad (qué dos
individuos tienen menor distancia o mayor similaridad). Estos dos individuos forman un
grupo que no vuelve a separarse durante el proceso.
Se repite el proceso, volviendo a medir la distancia o similaridad entre todos los individuos
de nuevo (tomando el grupo ya formado como sí de un solo individuo se tratara) de la
siguiente forma:
Distancia A B C D
A 0
B 9 0
C 4 5 0
D 7 3 11 0
d(B, D) 3
Distancia mínima
B - D forman un grupo
Distancia A B-D C
A 0
B-D 7 0
C 4 5 0
d(C, A) 4
Distancia mínima
A - C forman un grupo
d(A C, B D) 5
Distancia mínima
A - C - B - D forman un grupo
7
El proceso seguido se representa en un árbol
de clasificación llamado DENDOGRAMA
Conocidas las distancias o similaridades existentes entre cada dos individuos se observa
cuáles son los individuos más próximos en cuanto a esta distancia o similaridad (qué dos
individuos tienen menor distancia o mayor similaridad). Estos dos individuos formarán un
grupo que no vuelve a separarse durante el proceso.
Posteriormente, se repite el proceso, volviendo a medir la distancia o similaridad entre
todos los individuos de la siguiente forma:
Distancia A B C D E
A 1
B 0,39 1
C 0,75 0,24 1
D 0,56 0,63 0,42 1
E 0,81 0,72 0,12 0,93 1
s(D, E) 0,93
Similaridad máxima
D - E forman un grupo
Distancia A B C D-E
A 1
B 0,39 1
C 0,75 0,24 1
D-E 0,56 0,63 0,42 1
s(C, A) 0,75
Similaridad máxima
A - C forman un grupo
8
Se miden las similaridades de nuevo:
s(B, D E) 0,63
Similaridad máxima
B - D - E forman un grupo
Distancia A -C B-D-E
A -C 1
B-D-E 0,12 1
s(A C, B D E) 0,12
Similaridad máxima
A - B - C - D - E forman un grupo
objeto v1 v2
1 1 1
2 2 1
3 4 5
4 7 7
5 5 7
9
A partir de estos datos, se considera la matriz de distancias euclídeas
p
d(xi , x j ) (x
c 1
ic x jc ) 2 entre los objetos.
Inicialmente hay 5 clusters, uno para cada uno de los objetos a clasificar. De acuerdo con la
matriz de distancias, los objetos (clusters) más similares son el 1 y el 2 (con distancia 1),
por lo que se fusionan los dos construyendo un nuevo cluster A (1-2).
Se repite el proceso, volviendo a medir la distancia del cluster A al resto de los objetos
(clusters). Para ello, se toma como representante del grupo el centroide de los puntos que
forman el cluster, es decir, el punto que tiene como coordenadas las medias de los valores
de las variables para sus componentes.
cluster v1 v2
A (1-2) 1,5 1
La tabla de datos es: 3 4 5
4 7 7
5 5 7
A partir de la nueva tabla se calcula la nueva matriz de distancias entre los clusters que hay
en este momento:
Los clusters más similares son el 4 y el 5 (con distancia 2), que se fusionan en un nuevo
cluster B (4-5), cuyo centroide es el punto (6, 7).
cluster v1 v2
A (1-2) 1,5 1
La tabla de datos:
B (4-5) 6 7
3 4 5
10
Se vuelve a repetir el procedimiento con la nueva tabla de datos:
La distancia más pequeña está entre el cluster B(4-5) y el 3 (distancia 2,8), que se fusionan
en un nuevo cluster C (3-4-5), cuyo centroide será
C (4 7 5) / 3 , (5 7 7) / 3 C(5,3 , 6,3) .
cluster v1 v2
La tabla de dados es: A (1-2) 1,5 1
C (3-4-5) 5,3 6,3
11
Se observa que se obtienen 2 clusters.
Ahora bien, si se corta como en la figura de abajo, se obtendrían 3 clusters:
12
Para tomar una decisión sobre el número de clusters
se suelen representar los distintos pasos del
algoritmo y la distancia a la que se produce la fusión.
En los primeros pasos el salto en las distancias es
pequeño, mientras que en los últimos el salto entre
pasos será mayor. El punto de corte será aquel en el
que comienzan a producirse saltos bruscos.
El salto brusco se produce entre los pasos 3 y 4 el
punto óptimo será el 3, en donde había 2 clusters.
Existen diversas formas de medir la distancia entre clusters que producen diferentes
agrupaciones y diferentes dendogramas. No existe un criterio para seleccionar cual de los
algoritmos es mejor. La decisión es normalmente subjetiva y depende del método que
mejor refleje los propósitos de cada estudio particular.
En primero lugar, se comienza con una exposición general de los métodos para continuar
con expresiones particulares de los mismos:
Si dos objetos o grupos A y B se han agrupado, la distancia de grupos con otro objeto C
puede calcularse como una función de las distancias entre los tres objetos o grupos de la
siguiente forma:
En la tabla siguiente se muestran los pesos para algunos de los métodos más comunes.
13
Método 1 2 3 4
1 1 1
Salto mínimo 0
2 2 2
1 1 1
Salto máximo 0
2 2 2
nA nB
Media 0 0
nA nB nA nB
nA nB nA nB
Centroide 0
nA nB nA nB (nA nB ) 2
1 1 1
Mediana 0
2 2 4
nC nA nC nB nC
Ward 0
nC nA nB nC nA nB nC nA nB
Método 1 1
0
Flexible 2 2
objetos 1 2 3 4 5
1 0
2 1 0
3 5 4,5 0
4 8,5 7,8 3,6 0
5 7,2 6,7 2,2 2 0
objetos 1 2 distancia
3 5 4,5 (5 4,5) / 2 4,75 4,75
4 8,5 7,8 (8,5 7,8) / 2 8,15 8,15
5 7,2 6,7 (7,2 6,7) / 2 6,95 6,95
14
objetos A (1-2) 3 4 5
A (1-2) 0
3 4,75 0
4 8,15 3,6 0
5 6,95 2,2 2 0
objetos 4 5 distancia
A 8,15 6,95 (8,15 6,95) / 2 7,55 7,75
3 3,6 2,2 (3,6 2,2) / 2 2,9 2,9
El valor más pequeño es 2,9, luego se fusionan B con 3 formando el cluster C(3-4-5).
objetos 3 4 5 distancia
A (1-2) 4,75 8,15 6,95 (4,75 8,15 6,95) / 3 6,62 6,62
objetos A C
A 0
C 6,62 0
En el proceso se han utilizado únicamente las distancias, de forma que para este
procedimiento no es necesario disponer de los valores originales de las variables.
El método de las medias proporciona clusters ni demasiado grandes ni pequeños,
tendiendo a fusionar clusters con varianzas pequeñas y a proporcionar clusters con la
misma varianza.
15
MÉTODO DEL VECINO MÁS PRÓXIMO (AVERAGE LINKAGE)
En el método del vecino más próximo la distancia entre dos clusters es el mínimo de las
distancias entre un objeto de un cluster y un objeto del otro.
objetos 1 2 3 4 5
1 0
2 1 0
3 5 4,5 0
4 8,5 7,8 3,6 0
5 7,2 6,7 2,2 2 0
objetos 1 2 distancia
3 5 4,5 mín(5, 4,5) 4,5 4, 5
4 8,5 7,8 mín(8,5, 7,8) 7,8 7,8
5 7,2 6,7 mín(7,2, 6,7) 6,7 6,7
objetos A (1-2) 3 4 5
A (1-2) 0
3 4, 5 0
4 7,8 3,6 0
5 6,7 2,2 2 0
objetos 4 5 distancia
A 7,8 6,7 mín(7,8, 6,7) 6,7 6,7
3 3,6 2,2 mín(3,6, 2,2) 2,2 2,2
El valor más pequeño es 2,2, luego se fusionan B con 3 formando el cluster C(3-B).
16
Se calcula la distancia entre C y A:
objetos A C
A 0
C 4,5 0
El método del vecino más próximo tiende a construir clusters demasiado grandes y sin
sentido. Es útil para detectar outliers (estarán en los últimos en unirse a la jerarquía). No es
útil para resumir datos.
En el método del vecino más lejano la distancia entre dos clusters es el máximo de las
distancias entre un objeto de un cluster y un objeto del otro.
objetos 1 2 3 4 5
1 0
2 1 0
3 5 4,5 0
4 8,5 7,8 3,6 0
5 7,2 6,7 2,2 2 0
objetos 1 2 distancia
3 5 4,5 máx (5, 4,5) 5 5
4 8,5 7,8 máx (8,5, 7,8) 8,5 8,5
5 7,2 6,7 máx (7,2, 6,7) 7,2 7,2
17
objetos A (1-2) 3 4 5
A (1-2) 0
3 5 0
4 8,5 3,6 0
5 7,2 2,2 2 0
objetos 4 5 distancia
A 8,5 7,2 máx (8,5, 7,2) 8,5 8,5
3 3,6 2,2 máx (3,6, 2,2) 3,6 3,6
El valor más pequeño es 3,6, luego se fusionan B con 3 formando el cluster C(3-B).
objetos A C
A 0
C 8,5 0
El método del vecino más lejano tiende a construir clusters demasiado pequeños y
compactos. Es útil para detectar outliers.
18
CLUSTERS NO JERÁRQUICOS
La clasificación de todos los casos de una tabla de datos en grupos separados configura el
propio análisis de clusters no jerárquicos. Est denominación alude a la no presencia de una
estructura vertical de dependencia entre los grupos formados y, por tanto, éstos no se
presentan en distintos niveles de jerarquía. El análisis precisa que el investigador fije de
antemano el número de clusters en que desea agrupar los datos.
Otra diferencia de los métodos no jerárquicos es que trabajan con la matriz de datos
originales y no requieren su conversión en una matriz de proximidades.
Resulta muy intuitivo suponer que una clasificación correcta debe ser aquélla en que la
dispersión dentro de cada grupo formado sea la menor posible. Esta condición se denomina
criterio de varianza, y lleva a seleccionar una configuración cuando la suma de las
varianzas dentro de cada grupo (varianza residual) sea mínima.
El valor mínimo de varianza determina una configuración de nuevos grupos con sus
respectivas medias. Se asignan otra vez todos los casos a estos nuevos centroides en un
proceso que se repite hasta que ninguna transferencia puede ya disminuir la varianza
residual; o bien se alcance otro criterio de parada: un número limitado de pasos de iteración
prefijado o, simplemente, que la diferencia obtenida entre los centroides de dos pasos
consecutivos sea menor que un valor prefijado.
Como cualquier otro método de clasificación no jerárquica, proporciona una solución final
única para el número de clusters elegido, a la que llegará con menor número de iteraciones
cuanto más cerca estén las medias de arranque de las que van a ser finalmente obtenidas.
Los programas estadísticos seleccionan generalmente estos primeros valores, tantos como
grupos se pretenda formar, entre los puntos más separados de la nube.
19
Los clusters no jerárquicos están indicados para grandes tablas de datos, y son también
útiles para la detección de casos atípicos: Si se elige previamente un número elevado de
grupos, superior al deseado, aquéllos que contengan muy escaso número de individuos
servirán para detectar casos extremos que podrían distorsionar la configuración. Es
aconsejable realizar el análisis definitivo sin ellos, ya que con el número deseado de grupos
para después, opcionalmente, asignar los atípicos al cluster adecuado que habrá sido
formado sin su influencia distorsionante.
Resaltar que un problema importante para clasificar los datos en grupos es la elección de
un número adecuado de clusters. Siempre será conveniente efectuar varios tanteos, la
selección del más apropiado al fenómeno que se analiza se basa en criterios tanto
matemáticos como de interpretación.
20
A partir de una tabla inicial de n x p datos es preciso calcular una matriz de distancias entre
individuos n x n . La distancia euclídea es la más sencilla y utilizada, utilizada también en el
análisis de componentes principales cuyos factores son muchas veces datos previos para
entrar en un análisis de clusters.
El proceso finaliza con único grupo (recogiendo a todos los individuos), formado por
agrupaciones sucesivas en distintos niveles. Este es el fundamento de la agregación
ascendente. En contraposición se encuentra la disgregación (descendente) que opera de
forma inversa. El proceso disdegrativo parte del grupo total de individuos para llegar, tras
varias etapas de partición, hasta tantos clusters como individuos.
Método del Vecino más próximo (distancias mínimas, method single): Agrupa a los
casos que se encuentran a menor distancia. Unidos dos casos, a continuación se forma el
tercer conglomerado buscando la distancia más corta entre los tres elementos. El problema
de este método es que suele provocar un efecto línea al unir los casos más cercanos, al
tiempo que es muy sensible a la presencia de casos extremos.
21
Método del Vecino más lejano (distancias máximas, method complete): Similar al
vecino más próximo, aunque aquí se procede a unir los casos que se encuentran a mayor
distancia, siendo un método más restrictivo que el anterior. Elimina el efecto línea, aunque
también es muy sensible a la presencia de casos extremos.
Método del centroide (method centroid): La distancia entre dos grupos es la distancia
existente entre sus centros de gravedad (centroides). El proceso comienza calculando el
centro de gravedad de cada conglomerado, para agrupar los conglomerados cuya distancia
entre centroides sea mínima. Tras unir dos conglomerados se calculo el nuevo centro de
gravedad y se procede de forma similar. Con este procedimiento se reduce la influencia de
casos extremos.
22
El procedimiento Análisis de conglomerados en dos fases de SPSS es una
herramienta de exploración diseñada para descubrir las agrupaciones naturales (o
conglomerados) de un conjunto de datos que, de otra manera, no sería posible detectar. El
algoritmo que emplea este procedimiento incluye varias funciones que lo hacen diferente de
las técnicas de conglomeración tradicionales:
Euclídea: La medida euclídea es la distancia según una línea recta entre dos
conglomerados. Sólo se puede utilizar cuando todas las variables son continuas.
23
Existe una opción de recuento de variables continuas que proporciona un resumen de las
especificaciones acerca de la tipificación de variables continuas realizadas en las opciones.
CONSIDERACIONES
El Análisis cluster en dos fases trabaja con variables continuas y variables categóricas. Los
casos presentan los objetos que se van a conglomerar y las variables representan los
atributos en los que se va a basar la conglomeración.
Las comprobaciones empíricas reflejan que este procedimiento es robusto frente a las
violaciones tanto del supuesto de independencia como de las distribuciones. No obstante,
es preciso tener en cuenta hasta qué punto se cumplen estos supuestos.
24
ANÁLISIS CLUSTER CON SPSS
El análisis cluster es una técnica exploratoria de análisis estadístico de datos diseñada para
revelar concentraciones en los datos o en las variables y que sugiere modos
potencialmente útiles de agrupar las observaciones. Señalar que pueden agruparse tantos
casos como variables.
Las observaciones muy cercanas deben de caer dentro del primer cluster y las muy lejanas
deben de caer en clusters diferentes, de modo que las observaciones dentro de un cluster
sean homogéneas y lo más diferentes posibles de las contenidas en otros clusters.
Hay que tener presente el tipo de datos que se maneja. Si las variables de aglomeración
están en escalas completamente diferentes será necesario estandarizar previamente las
variables, o por lo menos trabajar con desviaciones respecto de la media (esta tarea se
puede hacer en el procedimiento Descriptivos). Este procedimiento supone que ha
seleccionado el número apropiado de conglomerados y que ha incluido todas las variables
relevantes. Si ha seleccionado un número inapropiado de conglomerados o ha omitido
variables relevantes, los resultados podrían ser equívocos.
La solución del análisis cluster no tiene porqué ser única, pero no deben de encontrarse
soluciones contradictorias por distintos métodos. El número de observaciones en cada
cluster debe ser relevante, ya que en caso contrario puede haber valores atípicos. Además,
los conglomerados deben de tener sentido conceptual y no variar mucho al variar la
muestra o el método de aglomeración.
Las distancias se calculan utilizando la distancia euclídea simple. Para utilizar otra medida
de distancia o de similaridad se utiliza el procedimiento Análisis de conglomerados
jerárquicos.
25
ANÁLISIS CLUSTER NO JERÁRQUICO CON SPSS
SPSS incorpora un procedimiento que analiza el análisis cluster no jerárquico mediante el
método de k-medias.
Respecto a los datos, las variables deben de ser cuantitativas en el nivel de intervalo o de
razón. Si las variables son binarias o recuentos, se utiliza el procedimiento Análisis de
conglomerados jerárquicos.
26
Se puede elegir el método de Iterar y clasificar o el método Sólo clasificar.
Conglomerado de pertenencia que crea una nueva variable que indica el conglomerado
final al que pertenece cada caso (los valores de la nueva variable van desde el 1 hasta el
número de conglomerados)
Distancia desde centro del conglomerado, que indica la distancia euclídea entre cada
caso y su centro de configuración.
27
Una vez elegidas las especificaciones, se pulsa el botón Aceptar para obtener los
resultados del análisis cluster de k-medias, según muestra el Visor:
Se pueden analizar las variables brutas o elegir de entre una variedad de transformaciones
de estandarización. Si las variables son binarias o recuentos se utiliza sólo el procedimiento
Análisis de conglomerados jerárquicos.
28
Surge la pregunta: ¿Cuáles son los grupos de países con población, densidad de población
y población urbana similares?.
El botón Estadísticos...
Matriz de las distancias proporciona las distancias o similaridades entre los elementos.
29
El botón Método... .
30
Las opciones disponibles en Binaria son: Distancia euclídea, Distancia euclídea al
cuadrado, Diferencia de tamaño, Diferencia de configuración, Varianza, Dispersión, Forma,
Concordancia simple, Correlación phi de 4 puntos, Lambda, D de Anderberg, Dice,
Hamann, Jaccard, Kulczynski 1, Kulczynski 2, Lance y Williams, Ochiai, Rogers y Tanimoto,
Russel y Rao, Sokal y Sneath 1, Sokal y Sneath 2, Sokal y Sneath 3, Sokal y Sneath 4,
Sokal y Sneath 5, Y de Yule y Q de Yule.
31
Lance y Williams: Se calcula a partir de una tabla 2x2 como (b+c)/(2a+b+c), donde a
representa la casilla correspondiente a los casos presentes en ambos elementos y b y c
representan las casillas diagonales correspondientes a los casos presentes en un elemento
pero ausentes en el otro. Esta medida oscila entre 0 y 1. También se conoce como
coeficiente no métrico de Bray-Curtis.)
Ochiai: Este índice es la forma binaria de la medida de similaridad del coseno. Varía
entre 0 y 1.
Rogers y Tanimoto: Se trata de un índice en el que se ofrece una ponderación doble a
las discordancias.
Russel y Rao: Se trata de una versión binaria del producto interno (punto). Se ofrece
una ponderación igual a las concordancias y a las discordancias. Ésta es la medida por
defecto para los datos de similaridad binarios.
Sokal y Sneath 1: Se trata de un índice en el que se ofrece una ponderación doble a
las concordancias.
Sokal y Sneath 2: Se trata de un índice en el que se ofrece una ponderación doble a
las discordancias y no se toman en cuenta las ausencias conjuntas.
Sokal y Sneath 3: Ésta es la razón de concordancias y discordancias. Este índice tiene
un límite inferior de 0 y carece de límite superior. No está definido teóricamente cuando no
existen discordancias; sin embargo, el programa asigna un valor arbitrario de 9999,999
cuando el valor no está definido o cuando es mayor que esta cantidad.
Sokal y Sneath 4: Este índice se basa en la probabilidad condicional de que la
característica de un elemento coincida con el valor del otro. Para calcular este valor se
promedian los distintos valores para cada elemento que actúa como predictor del otro.
Sokal y Sneath 5: Este índice es la media geométrica al cuadrado de las
probabilidades condicionales de concordancias positivas y negativas. Es independiente de
la codificación de elementos. Varía entre 0 y 1.
Y de Yule: Este índice es una función de la razón cruzada para una tabla 2x2 y es
independiente de los totales marginales. Varía entre -1 y 1. También se conoce como el
coeficiente de coligación.
Q de Yule: Este índice es un caso especial de gamma de Goodman y Kruskal. Es una
función de la razón cruzada y es independiente de los totales marginales. Varía entre -1 y 1.
Si se desea, se puede cambiar los campos Presente y Ausente para especificar los valores
que indican que una característica está presente o ausente. El procedimiento ignorará
todos los demás valores.
32
Transformar valores permite transformar los valores generados por la medida de distancia.
Se aplican después de calcular la medida de distancia. Las opciones disponibles son:
Valores absolutos, Cambiar el signo y Cambiar la escala al rango 0–1.
El botón Guardar...
Las variables guardadas pueden emplearse en análisis posteriores para explorar otras
diferencias entre los grupos.
El botón Gráficos...
33
Una vez elegidas las especificaciones, se pulsa el botón Aceptar para obtener los
resultados del análisis cluster jerárquico, según muestra el Visor:
34
35
ANÁLISIS DE CONGLOMERADOS JERÁRQUICO EN SPSS
REQUISITOS: Después de describir las variables, se comienza con un primer análisis de la
información para eliminar la influencia de casos atípicos (Analizar/Estadísticos
descriptivos/Descriptivos), observados en Gráfico de Caja (Analizar/Estadísticos
descriptivos/Explorar).
Dos soluciones permiten solventar el problema de los casos atípicos:
(a) Cambiar los datos iniciales del ejemplo por datos promedio (por ejemplo, número de
salas de cine por mil habitantes).
(b) Realizar transformaciones de la distribución de datos (en especial cuando hay
imposibilidad de disponer de datos promedio, o bien cuando se ha invertido una gran
cantidad de dinero en conseguir los datos y es poco factible otra recogida de datos),
utilizando la escalera de transformaciones de Tukey.
La asimetría positiva se puede corregirse con raíces cuadradas y logaritmos naturales
cuando tienen valores bajos, y con funciones inversas o inversos cuadráticos cuando los
valores son elevados. De menor a mayor potencia: la raíz cuadrada, la transformación
logarítmica, y el negativo del inverso de la raíz cuadrada.
La asimetría negativa se corrige mediante antilogaritmos cuando es muy elevada, y con
elevaciones cúbicas y cuadráticas cuando es más suave.
Tras eliminar la influencia de los casos atípicos, antes de proceder al Análisis Cluster es
necesario comprobar hasta qué punto los datos cumplen los supuestos del análisis de
clasificación.
El análisis cluster estudia las características estructurales de un conjunto de observaciones
con el fin de agruparlas en conjuntos homogéneos, de modo que al no ser propiamente una
técnica de inferencia estadística apenas tienen importancia las exigencias de normalidad,
linealidad y homocedasticidad tan importantes en procedimientos de inferencia.
Sin embargo, una correcta aplicación del Análisis Cluster requiere que los datos cumplan
tres condiciones básicas:
Ausencia de correlación entre las variables.
Número de variables no muy elevado.
Que las variables no estén medidas en unidades diferentes.
36
La existencia de correlación (Analizar/Correlaciones/Bivariadas) entre las variables implica
que unas variables son combinaciones lineales de otras, que comparten información con
otras variables; lo que implica que esta información compartida tiene una mayor importancia
(ponderación). Además, cuando las variables están correlacionadas se corre el peligro de
incluir información redundante en el modelo, algo que se debe evitar (principio de
parsimonia).
Por este motivo es importante que el investigador analice cuidadosamente la matriz de
correlaciones antes de llevar a cabo el Análisis Cluster, colocando un mismo número de
variables de cada temática o utilizando una medida (como la distancia de Mahalanobis) que
compense esta correlación. Cuando no existe correlación entre variables esta distancia es
similar a la distancia euclídea.
Otra solución posible, cuando las variables están correlacionadas, es aplicar un Análisis
Factorial que reduzca todo el conjunto de variables observadas a un número menor de
factores comunes incorrelacionados entre sí. Este mismo procedimiento puede utilizarse
cuando el número de variables utilizadas es muy elevado.
37
DEFINICIÓN DEL PROBLEMA A INVESTIGAR.- El objetivo del análisis de
conglomerados es identificar grupos homogéneos de casos considerando una serie de
criterios.
Los métodos jerárquicos se caracterizan porque comienzan con casos individuales que van
siendo clasificados hasta formar un único conglomerado.
Nº espectadores
Películas Películas Recaudación
CCAA Nº Cines Nº Películas
Españolas Extranjeras (miles pesetas)
1 Andalucía 448 330 1380202 13976149 7709721
2 Aragón 76 310 580526 3513294 2370874
3 Asturias 55 383 207100 1524423 1000709
4 Baleares 68 523 280851 2081987 1496299
5 Canarias 94 394 345213 4056725 2288764
6 Cantabria 26 315 190540 1149257 847231
7 Cast. Mancha 211 295 1049698 5319556 3464668
8 Cast. León 102 234 404716 2406798 1490303
9 Cataluña 585 502 2179229 19324988 14234196
10 Valencia 300 435 1267581 9849692 6061359
11 Extremadura 69 309 226139 1614986 912405
12 Galicia 166 341 570921 4465381 2680531
13 Madrid 474 764 3188742 1926469 15282573
14 Murcia 88 358 326445 2669391 1647870
15 Navarra 37 441 245750 1403940 981839
16 País Vasco 171 385 730241 5277214 3673712
17 La Rioja 22 309 120135 769674 526496
2.992 6.628 13.294.029 81.329.924 66.669.550
Los casos a agrupar son las Comunidades Autónomas (CCAA) y los criterios para realizar
esta agrupación están relacionados con la actividad de los cines durante 1998.
La actividad se refiere: al número de cines, número de películas proyectadas (títulos),
número de espectadores de películas españolas, número de espectadores de películas
extranjeras y recaudación obtenida en miles de pesetas.
38
El análisis refleja que el número de cines oscila entre 22 de la Rioja y 585 cines de
Cataluña, que proporciona una media de 176 salas de cine por Comunidad Autónoma.
En cada Comunidad se proyectaron una media de 390 nuevas películas (títulos), que
fueron vistas por 94.623.953 ( 13.294.029 + 81.329.924 ) espectadores. El número medio de
espectadores de las películas extranjeras es muy superior al de películas españolas. En
este sentido, la cuota de pantalla del cine español es del 14% ( 13.294.029 / 94.623.953 ).
De otra parte, los 66.669.550 miles de pesetas recaudados, proporciona un gasto medio
de 705 pesetas ( 66.669.550.000 / 94.623.953 ).
Gasto medio (en miles) por Comunidad: (Exp Pelis España Exp Pelis Extranjero ) x 0,705
39
En el gráfico se observa como el número de cines presenta tres casos atípicos
identificados con los números 1 (Andalucía), 9 (Cataluña) y 13 (Madrid), que son las
Comunidades con mayor número de cines. Análogamente, también se presenta un caso
atípico en el número de títulos estrenados, identificado con el 13 (Madrid).
40
La localización de los casos atípicos en la parte superior de la distribución indica que se
trata de distribuciones con asimetría positiva (como se refleja en la tabla de Estadísticos
descriptivos), distribuciones que será necesario simetrizar antes de aplicar el Análisis
Cluster.
Tras describir las variables y eliminar la influencia de los casos atípicos, antes de proceder
con el Análisis Cluster es necesario comprobar hasta qué punto los datos cumplen con los
supuestos del análisis de clasificación.
Una correcta aplicación del Análisis Cluster requiere que se cumplan tres requisitos
básicos: (a) Ausencia de correlación entre las variables. (b) Número de variables no muy
elevado. (c) Que las variables no se encuentren medidas en unidades diferentes.
41
Si las variables se encuentran correladas se corre el peligro de incluir información
redundante que se debe evitar en todo momento. Por este motivo es importante analizar la
matriz de correlaciones antes de proseguir con el estudio.
Se detecta una elevada relación de la variable Recaudación con el resto de las variables
del modelo, relaciones significativas al 0,01 por lo que se precede a eliminarlas del modelo.
Para ello, en lugar de la variable Recaudación se utiliza la variable Gasto-medio por
espectador.
Cuando existe correlación entre las variables se utiliza una medida (distancia de
Mahalanobis) para compensar la correlación. Cuando no existe correlación entre variables
esta distancia es similar a la distancia euclídea.
La métrica de las variables se soluciona estandarizando (o tipificando) todas las unidades a
tratar. Analizar/Estadísticos descriptivos/Descriptivos
42
Las Comunidades Autónomas españolas serán clasificadas considerando el número de
cines (ZCinesR), el número de películas proyectadas (ZPeliculasR), el número de
espectadores de películas españolas (ZPelis_EspañaR), el número de espectadores de
películas extranjeras (ZPelis_ExtranR) y el gasto medio por espectador (ZGasto_medio).
43
Conglomerado en dos fases: Está pensado para análisis con un número grande de
individuos, que pueden tener problemas de clasificación con otros procedimientos. Tiene la
particularidad que permite trabajar conjuntamente con variables de tipo mixto (cualitativas y
cuantitativas). Puede realizarse cuando el número de cluster (conglomerado) es conocido a
priori y también cuando no se conoce.
Conglomerados de k medias: Se puede aplicar sólo a variables cuantitativas y requiere
conocer el número de conglomerados a priori. Puede realizarse para un número de objetos
relativamente grande pues no requiere el cálculo de todas las posibles distancias.
Conglomerados jerárquicos: Se utiliza para variables cuantitativas o cualitativas. No se
conoce el número de conglomerados a priori y cuando el número de objetos no es muy
grande.
El Método de conglomeración permite optar por varias opciones:
Vinculación inter-grupos, Vecino más próximo, Vecino más lejano, Agrupación de
centroides, Agrupación de medianas y Método de Ward.
44
Vinculación inter-grupos (promedio entre grupos): La distancia entre los grupos es la
media aritmética de las distancias existentes entre todos los componentes de cada grupo,
considerados dos a dos. Se consiguen grupos con varianzas similares y pequeñas.
Vinculación intra-grupos (promedio intra-grupos o media ponderada): Es una variante
del anterior, aunque en este caso se combinan los grupos buscando que la distancia
promedio dentro de cada conglomerado sea la menor posible. Así en lugar de considerar
los pares de los elementos que pertenecen a cada uno de los grupos, se consideran todos
los pares resultantes en caso de que los dos grupos se uniesen.
Vecino más próximo (distancias mínimas): Agrupa a los casos que se encuentran a
menor distancia. Unidos dos casos, a continuación se forma el tercer conglomerado
buscando la distancia más corta entre los tres elementos. El problema de este método es
que suele provocar un efecto línea al unir los casos más cercanos, al tiempo que es muy
sensible a la presencia de casos extremos.
Vecino más lejano (distancias máximas): Similar al vecino más próximo, aunque aquí
se procede a unir los casos que se encuentran a mayor distancia, siendo un método más
restrictivo que el anterior. Elimina el efecto línea, aunque también es muy sensible a la
presencia de casos extremos.
Agrupación de centroides: La distancia entre dos grupos es la distancia existente
entre sus centros de gravedad (centroides). El proceso comienza calculando el centro de
gravedad de cada conglomerado, para agrupar los conglomerados cuya distancia entre
centroides sea mínima. Tras unir dos conglomerados se calculo el nuevo centro de
gravedad y se procede de forma similar. Con este procedimiento se reduce la influencia de
casos extremos.
Agrupación de medianas: Es una variación de la agrupación de centroides, donde no
se considera el número de individuos que forman cada uno de los agrupamientos. En el
método anterior se calcula el centroide en función del número de individuos de cada
conglomerado, de modo que cuando se une un gran conglomerado (por ejemplo 10 casos)
con otro muy pequeño (por ejemplo 2 casos), este último apenas varía la situación del
centroide inicial. En el método de la mediana no se considera el número de elementos de
cada conglomerado, sino el número de conglomerados.
Método de Ward (o método de pérdida de la inercia mínima): Cuando se unen dos
conglomerados, con independencia del método utilizado, la varianza aumenta. El método
de Ward une los casos buscando minimizar la varianza dentro de cada grupo. Para ello se
calcula, en primer lugar, la media de todas las variables en cada conglomerado. A
continuación, se calcula la distancia entre cada caso y la media del conglomerado,
sumando después las distancias entre todos los casos. Posteriormente se agrupan los
conglomerados que generan menos aumentos en la suma de las distancias dentro de cada
conglomerado. Este procedimiento crea grupos homogéneos y con tamaños similares.
45
Donde se presentan las opciones: Distancia euclídea, Distancia euclídea al cuadrado,
Coseno de vectores, Correlación de Pearson (asociación), Distancia métrica de Chebychev,
Bloque Manhattan o City-block y Distancia de Minkowski.
En este caso, se selecciona Ninguno porque ya se han estandarizado los datos utilizando la
opción Guardar valores tipificados aplicando la opción Analizar/Estadísticos
descriptivos/Descriptivos
46
Por último, existe la posibilidad de Transformar las medidas de distancia, entre:
Valores absolutos: Considera el valor absoluto de la distancia, eliminando el signo.
Interesante cuando interesa la magnitud de la distancia y no su signo.
Cambiar el signo: Transforma medidas de distancia en medidas de similitud, y viceversa.
Cambiar escala al rango 0-1: Estandariza los valores restando el valor de la distancia
menor y dividiendo después entre el rango, consiguiendo de esta forma convertir todas las
medidas al rango 0-1.
47
Dendograma: Gráfico donde se muestra el proceso de agrupamiento entre los casos y la
distancia en que se produce cada agrupamiento. Es la representación gráfica del historial
de conglomeración visto en la opción estadísticos, y proporciona información muy valiosa
sobre el número final de conglomerados a conservar.
Témpanos: Presenta un diagrama de témpanos donde se muestra el proceso de
combinación de los casos en cada conglomerado. Existe la posibilidad de mostrar todos los
conglomerados o un determinado rango.
Con la opción Guardar el programa permite guardar una solución única o un rango de
soluciones. Esta variable recibirá el nombre de CLU*_1.
En este caso, se crean las nuevas variables CLU5_1, CLU4_1 y CLU3_1. Estas soluciones
podrán ser utilizadas en análisis posteriores.
48
Los coeficientes de la matriz de distancias indican la distancia entre las Comunidades
Autónomas considerando las variables del análisis, de modo que cuanto mayor sea el
coeficiente entre dos Comunidades existirá mayor distancia entre ellas, y en consecuencia
serán más diferentes.
Un análisis detallado de los coeficientes de la tabla revela una gran similitud en la actividad
de los cines de Cantabria y La Rioja (con una distancia de 0,142). Otras Comunidades con
pautas parecidas son Galicia y País Vasco (con una distancia de 0,213).
Las Comunidades más diferentes en cuanto a la actividad cinematográfica son Cataluña y
Cantabria (con una distancia de 50,466).
49
Conviene retener esta información para realizar un seguimiento del proceso de formación
de los agrupamientos, con la ayuda del Historial de Aglomeración, así como su
representación gráfica (Dendograma).
Resaltar que las Comunidades más similares son Asturias (número 3) y Extremadura
(número 11), y por esto son las primeras que se unen en el Historial de Aglomeración, a
una distancia de 0,014 (tercera columna). De la última columna (Próxima etapa) se
desprende que este primer agrupamiento volverá a ser utilizado en la etapa 7.
Una vez realizado el primer conglomerado, el programa vuelve a recalcular una nueva
matriz de distancias entre los 16 elementos restantes, es decir los 15 elementos y la
agrupación (Asturias - Extremadura). Este primer cluster volverá a ser utilizado en
la etapa 4.
En la tercera etapa se unen las Comunidades de Cantabria (6) y Navarra (15), a una
distancia de 0,076, este tercer cluster volverá a ser utilizado en la etapa 7.
En la cuarta etapa se produce la unión de Baleares (4) y Castilla y León (8), a una
distancia de 0,163, cluster que volverá a ser utilizado en la etapa 10.
En la séptima etapa se produce la unión de Asturias (3) y Cantabria (6), a una distancia de
0,551, cluster que volverá a ser utilizado en la etapa 9.
50
En la etapa cuarta, Baleares (4) se une al conglomerado 8, formado en la segunda etapa
con Castilla y León (8) y Murcia (14).
El proceso continúa hasta formar un solo grupo, que marca el final del proceso de
formación de clusters jerárquicos aglomerativos.
Un aspecto importante del historial es la columna central (Coeficientes), que recoge las
distancias en las que se produce cada agrupamiento, distancias que van aumentando a
medida que se van formando nuevos grupos. Las distancias pequeñas reflejan
conglomerados (clusters) muy homogéneos, mientras que las distancias grandes indican
conglomerados heterogéneos.
Considerando que el objetivo del análisis es agrupar a las Comunidades en conglomerados
homogéneos, será conveniente prestar mucha atención a los incrementos de distancias.
En la etapa catorce los dos conglomerados se unen a una distancia de 16,514, mientras
que en la etapa quince se unen a una distancia de 25,801, aumentando 9 puntos desde la
etapa anterior. Llama la atención este elevado aumento, mucho más cuando en etapas
anteriores la distancia aumentaba poco.
51
El programa ofrece la composición de cada
uno de los conglomerados, presentando el
rango de soluciones solicitado (entre 3 y 5).
52
Conglomerado 1: Andalucía, Cataluña, Valencia.
Conglomerado 2: Aragón, Asturias, Baleares, Canarias, Cantabria, Castilla y León,
Extremadura, Murcia, Navarra, País Vasco, La Rioja.
Conglomerado 3: Castilla La Mancha, Galicia
Conglomerado 4: Madrid
53
En la tabla aparecen los resultados obtenidos:
54
PRÁCTICO DE ANÁLISIS CLUSTER JERÁRQUICO Y NO JERÁRQQUICO
Cargado el fichero aficiones.sav se restringe el estudio a los 14 primeros casos.
En el análisis cluster es necesario tipificar las variables, pues al trabajar con distancias,
todas las variables han de expresarse en las mismas unidades. En este sentido, se tipifican
las variables afectadas (fútbol, paga2 y tv).
En la salida del Visor se observa que la variación y el rango (máximo y mínimo) de las tres
variables son completamente distintos por lo que no hay comparación posible de
desviaciones típicas.
55
Para tener una idea de los grupos que podrían formarse, antes de realizar un análisis
cluster, se puede obtener un gráfico de dispersión en tres dimensiones para las tres
variables tipificadas.
56
Se realiza un análisis cluster no jerárquico
(Analizar/Clasificar/Conglomerado de k medias)
La salida del Visor presenta los centros iniciales de los conglomerados. Para el comienzo
del método iterativo, en un principio se seleccionan tantos individuos como conglomerados
se hayan solicitado, de modo que estos individuos iniciales tengan distancia máxima entre
ellos y al estar separados lo suficiente produzcan los centros iniciales.
Una vez estimados los centroides iniciales se calcula la distancia de cada punto a cada uno
de ellos y en función de la mínima distancia obtenida se irán clasificando los individuos en
los tres grupos de conglomerados. Elaborados los tres grupos, se calculan los tres centros
y se repite el proceso para hacer otra agrupación, y así sucesivamente hasta agotar las
iteraciones o hasta que se cumpla el criterio de parada.
57
El procedimiento presenta la pertenencia de cada individuo a su conglomerado con la
distancia de cada uno al centro de su grupo. Así como los centros de los conglomerados
finales obtenidos al final del proceso iterativo.
Se presenta una tabla ANOVA para los conglomerados cuyas pruebas F sólo se deben
utilizar con una finalidad descriptiva, puesto que los conglomerados han sido elegidos para
maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos
no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que
los centros de los conglomerados son iguales.
Lo relevante son los valores de F, que no deben de ser muy pequeños (lo más alejados
posible del valor 1) para que las variables sean realmente efectivas en la identificación de
clusters.
58
Se realiza un análisis cluster jerárquico
(Analizar/Clasificar/Conglomerados jerárquicos)
En agrupamientos simples:
En la primera etapa se unen los individuos (casos) 13 y 14, a una distancia de 0,122
(tercera columna). De la última columna (Próxima etapa) se desprende que este primer
agrupamiento volverá a ser utilizado en la etapa 5.
59
Una vez realizado el primer agrupamiento, el programa vuelve a recalcular una nueva
matriz de distancias entre los 13 elementos restantes, es decir los 12 elementos y la
agrupación realizada. Este primer cluster volverá a ser utilizado en
la etapa 5.
En la segunda etapa se unen los individuos 5 y 9, a una distancia de 0,279. Este segundo
conglomerado (cluster) volverá a ser utilizado en la etapa 7 (Próxima etapa).
En la tercera etapa se unen los individuos 3 y 11, a una distancia de 0,612, este tercer
cluster volverá a ser utilizado en la etapa 8.
Para formar clusters con la unión de los clusters formados anteriormente, se recurre a
las columnas 5ª y 6ª, en donde se indica la etapa en la que el conglomerado ha aparecido
por primera vez.
En la etapa quinta, el individuo (4) se une al conglomerado 1, formado en la primera etapa
con la unión de los individuos 13 y 14.
En la etapa 7, se unen el conglomerado 5 (formado en la segunda etapa por el individuo 4
y el individuo 13) con el individuo 6.
En la etapa 9 se unen los conglomerados 3 y 5, el primero formado en la etapa 8 con los
individuos 3 y 12; el segundo formado en la etapa 7 con los individuos 5 y 6.
El proceso continúa hasta formar un solo grupo, que marca el final del proceso de
formación de clusters jerárquicos aglomerativos.
El diagrama de témpanos permite ver como se han ido uniendo los individuos etapa a
etapa. Se lee de abajo a arriba. El número de fila representa el número de conglomerados
que hay en ese momento. En este sentido:
En la etapa 1, con 13 conglomerados se unieron los individuos 14 y 13, por eso aparece
una cruz de unión entre esos dos individuos, los demás no están conectados.
En la etapa 2, con 12 conglomerados, además de los anteriores (14, 13), se unieron los
individuos 9 y 5, los demás están desconectados.
En la etapa 3, con 11 conglomerados, además de los anteriores (14, 13, 9, 5), se unieron
los individuos 11 y 3, los demás están desconectados.
Así sucesivamente hasta que, en la última etapa con 1 conglomerado todos están unidos.
60
El Dendograma sugiere los conglomerados: 13, 14, 4 , 1, 2 , 5, 9, 6 , 3, 11, 12 y
7, 8, 10 , que están muy lejos de los del caso anterior.
61
El programa ofrece la
composición de cada uno de los
conglomerados, presentando el
rango de soluciones solicitado
(entre 3 y 5).
Resultan los conglomerados: 1, 2 , 3, 5, 6, 9, 11, 12 4, 13, 14 7, 8, 10
No muy lejos de los obtenidos anteriormente: 13, 14, 4 , 1, 2 , 5, 9, 6 , 3, 11, 12 y
7, 8, 10 , uniendo los clusters tercero y cuarto.
Con la opción Guardar el programa permite guardar una solución única o un rango de
soluciones. Esta variable recibirá el nombre de CLU*_1.
En este caso, se crean las nuevas variables CLU5_1, CLU4_1 y CLU3_1. Estas soluciones
podrán ser utilizadas en análisis posteriores.
62
SUPUESTO PRÁCTICO DE ANÁLISIS CLUSTER EN DOS ETAPAS
Está basado en un algoritmo que produce resultados óptimos si todas las variables son
independientes, las variables continuas están normalmente distribuidas y las variables
categóricas son multinomiales. Pero es un procedimiento que funciona razonablemente
bien en ausencia de estos supuestos.
La solución final depende del orden de entrada de los datos, para minimizar el efecto se
debería ordenar el fichero de forma aleatoria.
Algoritmo del procedimiento. Los dos pasos de este procedimiento se pueden resumir
como sigue:
Primer paso: Formación de precluster de los casos originales. Estos son clusters de los
datos originales que se utilizarán en lugar de las filas del fichero original para realizar los
clusters jerárquicos en el segundo paso. Todos los casos pertenecientes a un mismo
precluster se tratan como una entidad sencilla.
Segundo paso: Los nodos de las hojas del árbol CF se agrupan utilizando un algoritmo
de agrupamiento aglomerativo. El cluster se puede utilizar para producir un rango de
soluciones. Para determinar el número de clusters óptimo, cada una de estas soluciones
de cluster se compara utilizando el Criterio Bayesiano de Schwarz (BIC) o el Criterio de
Información de Akaike (AIC) como criterio de agrupamiento.
Variables tipo numérico: ventas (en miles), reventa (Valor de reventa en 4 años), tipo
{Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}, precio (en miles), motor
(Tamaño del motor), CV (Caballos), pisada (Base de neumáticos), ancho (Anchura),
largo (Longitud), peso_neto (Peso neto), depósito (Capacidad de combustible), mpg
Consumo).
63
En el botón Opciones...
Tratamiento de valores atípicos: Permite tratar los valores atípicos de manera especial
durante la formación de cluster si se llena el árbol de características de los clusters (CF).
Este árbol se considera lleno si no puede aceptar ningún caso más en un nodo hoja y no
hay ningún nodo hoja que se pueda dividir.
64
conglomerado de valores atípicos se le asigna un número de identificación de –1 y no se
incluirá en el recuento del número de conglomerados.
Al pulsar Avanzado>>
Criterios de ajuste del árbol CF: Los siguientes ajustes del algoritmo de conglomeración
se aplican específicamente al árbol de características de conglomerados (CF) y deberán
cambiarse con cuidado:
Umbral del cambio en distancia inicial: Éste es el umbral inicial que se utiliza para hacer
crecer el árbol CF. Si se ha insertado una determinada hoja en el árbol CF que produciría
una densidad inferior al umbral, la hoja no se dividirá. Si la densidad supera el umbral, se
dividirá la hoja.
Nº máximo de ramas (por nodo hoja): Número máximo de nodos filiales que puede tener
una hoja.
65
Máxima profundidad de árbol: Número máximo de niveles que puede tener un árbol CF.
Máximo número posible de nodos. Indica el número máximo de nodos del árbol CF que
puede generar potencialmente el procedimiento, de acuerdo con la función (bd+1 – 1) /
(b – 1), donde b es el número máximo de ramas y d es la profundidad máxima del árbol.
Tener en cuenta que un árbol CF excesivamente grande puede agotar los recursos del
sistema y afectar negativamente al rendimiento del procedimiento. Como mínimo, cada
nodo requiere 16 bytes.
Al pulsar Gráficos...
66
Gráfico del porcentaje intra-conglomerado: Muestra los gráficos que indican la variación
dentro del conglomerado de cada variable. Para cada variable categórica, se genera un
gráfico de barras agrupado, mostrando la frecuencia de la categoría por identificador de
conglomerado. Para cada variable continua, se genera un gráfico de barras de error,
indicando las barras de error por identificador de conglomerado.
Gráfico de sectores de los conglomerados: Muestra un gráfico de sectores que muestra
el porcentaje y las frecuencias de observaciones correspondientes a cada conglomerado.
Gráfico de la importancia de las variables. Muestra varios gráficos diferentes que indican la
importancia de cada variable dentro de cada conglomerado. Los resultados se ordenan
según el nivel de importancia de cada variable.
Ordenar variables: Esta opción determina si los gráficos que se crearán para cada
conglomerado (Por variable) o para cada variable (Por conglomerado).
Medida de la importancia: Esta opción l permite seleccionar la medida de la
importancia de las variables que se va a representar en el gráfico. Chi-cuadrado o
prueba t de significación muestra un estadístico chi-cuadrado de Pearson como la
importancia de una variable categórica y un estadístico t como importancia de una
variable continua. Significación muestra uno menos el valor p para la prueba de igualdad
de las medias para una variable continua y la frecuencia esperada del conjunto de datos
global para una variable categórica.
Nivel de confianza: Esta opción permite establecer el nivel de confianza para la
prueba de igualdad de la distribución de una variable dentro de un conglomerado frente
a la distribución global de la variable. Especifique un número inferior a 100 y superior o
igual a 50. El valor del nivel de confianza se muestra como una línea vertical en los
gráficos de la importancia de las variables, si los gráficos se crean por variable o si se
representa gráficamente la medida de la significación.
Omitir variables no significativas. Las variables que no son significativas para el nivel
de confianza especificado no aparecen en los gráficos de la importancia de las
variables.
Al pulsar Resultados...
Estadísticos: Este grupo proporciona opciones para la presentación de tablas con los
resultados de la conglomeración. Se generan los estadísticos descriptivos y las frecuencias
67
de los conglomerados para el modelo de conglomerados final, mientras que la tabla de
criterio de información muestra los resultados correspondientes a varias soluciones de
conglomerados.
Descriptivos por conglomerado: Muestra dos tablas que describen las variables de
cada conglomerado. En una tabla, se informa de las medias y las desviaciones típicas
para las variables continuas por conglomerado. La otra tabla informa de las frecuencias
de las variables categóricas por conglomerado.
Frecuencias de los conglomerados: Muestra una tabla que informa del número de
observaciones existentes en cada conglomerado.
Criterio de información (AIC o BIC): Muestra una tabla que contiene los valores de
AIC o BIC, dependiendo del criterio elegido en el cuadro de diálogo principal, para
diferentes números de conglomerados. Sólo se proporciona esta tabla cuando el número
de conglomerados se determina automáticamente. Si el número de conglomerados es
fijo, se ignora este ajuste y no se proporciona la tabla.
Conjunto de datos activo: Este grupo permite guardar las variables en el conjunto de
datos activo.
Crear variable del conglomerado de pertenencia. Esta variable contiene un número
de identificación de conglomerado para cada caso. El nombre de esta variable es tsc_n,
donde n es un número entero positivo que indica el ordinal de la operación de
almacenamiento del conjunto de datos activo realizada por este procedimiento en una
determinada sesión.
Archivos XML: El modelo de conglomerados final y el árbol CF son dos tipos de archivos
de resultados que se pueden exportar en formato XML.
Exportar modelo final: También se puede exportar el modelo de conglomerado final al
archivo especificado en formato XML (PMML). SmartScore y servidor de SPSS (un
producto independiente) pueden utilizar este archivo del modelo para aplicar la
información del modelo en otros archivos de datos con fines de puntuación.
Exportar árbol CF: Esta opción permite guardar el estado actual del árbol de
conglomerados y actualizarlo más tarde utilizando nuevos datos.
La primera parte de la salida del Visor es un informe sobre las posibles agrupaciones
en conglomerados.
Inicialmente el número de conglomerados adecuado es aquél que tiene un mayor BIC, pero
hay tramos del BIC decreciendo cuando crece el número de conglomerados, será necesario
considerar la tasa de cambio (no unitaria) del BIC simultáneamente con el propio BIC,
eligiendo como número de conglomerados el correspondiente a los mayores BIC y su tasa
de cambio simultáneamente.
68
Se forman tres conglomerados, cuya distribución de observaciones se muestra en la tabla:
Se observa que de los 157 casos totales, se excluyeron 5 del análisis debido al efecto de
los valores perdidos. De los 152 casos asignados a los clusters, 62 casos se asignaron al
primer cluster (40,8%), 39 casos al segundo cluster (25,7%) y 51 casos al tercer cluster
(33,6%). La última columna presenta los porcentajes respecto al número total de casos (sin
desaparecidos).
69
La tabla de frecuencias por tipo de vehículo (automóviles o camiones) clarifica las
propiedades de los clusters según los valores de la variable categórica considerada:
El segundo cluster está formado exclusivamente por camiones
El tercer cluster está formado exclusivamente por automóviles
El primer cluster tiene un porcentaje alto de automóviles y 1 sólo camión (2,5% del total)
70
Para el cluster 3 las variables
Caballos, Anchura, Longitud,
Tamaño del motor, Peso neto y
Precio en miles toman valores
mayores que su valor medio.
No tienen importancia en la
formación del cluster, por no
alcanzar la línea discontinua de la
t-student, las variables Base de
neumáticos y Capacidad de
combustible.
Se obtienen intervalos de confianza al 95% para las medias de las variables cuantitativas
en los tres conglomerados, divididos por una línea que indica la presencia o no de cada una
de las dos clases de la variable categórica.
Se presentan estos intervalos de confianza para las variables cuantitativas consideradas:
71
72
73
IMPORTANCIA SEGÚN VARIABLE CATEGÓRICA:
74
PERFILES DE CONGLOMERADOS:
75
SUPUESTO DE MERCADO: ANÁLISIS CLUSTER JERÁRQUICO
Se desea hacer un estudio de mercado sobre las preferencias de los consumidores al
adquirir un vehículo, para ello se dispone de una base de datos, ventas_vehiculos.sav,
de automóviles y camiones en los que figura una serie de variables como el fabricante,
modelo, ventas, etc.
El estudio de mercado se desea realizar sólo en automóviles de mayor venta y para ello
se utiliza el procedimiento Análisis de conglomerados jerárquico para agrupar los
automóviles de mayor venta en función de sus precios, fabricante, modelo y propiedades
físicas.
Como el estudio se va a realizar para los automóviles que se vendieron al menos 100.000
unidades se selecciona la opción Si se satisface la condición y en la opción se pone
ventas>100&tipo=0
76
En el Editor de datos (están tachados los casos para los que no se va a llevar a cabo el
análisis cluster) aparece una nueva variable filter_$ con dos valores (0 = “No
Seleccionado” y 1 = “Seleccionado”).
En el campo de Variables: precio (en miles), motor (Tamaño del motor), CV (Caballos),
pisada (Base de neumáticos), ancho (Anchura), largo (Longitud), peso_neto (Peso neto),
depósito (Capacidad de combustible), mpg (Consumo).
Los casos se etiquetan (opción no obligatoria) mediante la variable modelo.
77
El método de cluster Vecino más próximo es apropiado cuando se desea examinar los
grados de similitud pero es pobre en la construcción de distintos grupos. Por lo tanto,
después de examinar los resultados con este método se debería realizar de nuevo el
estudio con un método distinto del cluster.
En la primera etapa se unen los casos 8(Accord) y 11(Camry), porque son los que tienen la
distancia más pequeña (1,260).
El grupo creado por 8 y 11 aparece de nuevo en la etapa 7 (Próxima etapa), donde se une
al cluster 2 (formado en la etapa 3). Por lo tanto en esta etapa se unen los grupos creados
en las etapas 1 y 3 y el grupo resultante formado por (8, 11, 2 y 9) aparece en la siguiente
etapa la 8.
78
En la segunda etapa se unen los casos 6(Focus) y 7(Civic), porque son los que tienen la
segunda distancia más pequeña (1,579).
El grupo creado por 6 y 7 aparece de nuevo en la etapa 4 (Próxima etapa), donde se une al
cluster 1 (formado en la etapa 1). Por lo tanto en esta etapa se unen los grupos creados en
las etapas 2 y 1 y el grupo resultante formado por (6, 7, 8 y 11) aparece en la siguiente
etapa la 6.
79
La salida del procedimiento en el Visor:
La primera gran diferencia se encuentra entre las etapas 5 y 6 (6 clusters), la segunda entre
8 y 9 (3 clusters) y la tercera entre 9 y 10 (2 clusters).
La división inicial del árbol forma dos grupos: (8, 11, 1, 6, 7, 10) y (2, 9, 3, 5, 4).
El cluster primero contiene los automóviles más pequeños y el cluster segundo contiene
los coches más grandes.
80
El grupo de coches más pequeños se puede dividir en dos subgrupos, uno de ellos
formado por los coches más pequeños y más baratos.
81
ÍNDICE
82