Clase Cluster
Clase Cluster
Clase Cluster
Campus Guadalajara
El análisis cluster agrupa a los individuos y a los objetos en conglomerados, de tal forma que
los objetos del mismo conglomerados son más parecidos entre sí que a los objetos de otros
conglomerados. Lo que se intenta es maximizar la homogeneidad de los objetos dentro de los
conglomerados mientras que a la vez se maximiza la heterogeneidad entre los agregados.
¿Qué es el análisis Cluster?
El análisis cluster es la denominación de un grupo de técnicas multivariantes cuyo principal
propósito es agrupar objetos basándose en las características que poseen.
El análisis cluster clasifica objetos (es decir, encuestados, productos u otras entidades) de tal
forma que cada objeto es muy parecido a los que hay en el conglomerado con respecto a algún
criterio de selección predeterminado. Los conglomerados de objetos resultantes deberían
mostrar un alto grado de homogeneidad interna (dentro del conglomerado) y un alto grado de
heterogeneidad externa (entre conglomerados). Por tanto, si la clasificación es acertada, los
objetos dentro de los conglomerados estarán muy próximos cuando se representen
gráficamente, y los diferentes grupos estarán muy alejados.
El Análisis Cluster tiene una importante tradición de aplicación en muchas áreas de
investigación. Sin embargo, junto con los beneficios del Análisis Cluster existen algunos
inconvenientes. El Análisis Cluster es una técnica descriptiva y no inferencial.
El Análisis Cluster no tiene bases estadísticas sobre las que deducir inferencias estadísticas
para una población a partir de una muestra, es un método basado en criterios geométricos y se
utiliza fundamentalmente como una técnica exploratoria, descriptiva pero no explicativa.
El objetivo principal del análisis cluster es definir la estructura de los datos colocando
las observaciones más parecidas en grupos.
Pero para llevar a cabo esta tarea, debemos tratar tres cuestiones básicas.
En primer lugar, ¿cómo medimos la similitud? Necesitamos un método de observaciones
simultáneamente comparadas sobre dos variables de aglomeración. Son posibles varios
métodos, incluyendo la correlación entre objetos, una medida de asociación utilizada en otras
técnicas multivariantes o quizá midiendo su proximidad en un espacio bidimensional de tal
forma que la distancia entre las observaciones indica similitud.
En segundo lugar, ¿cómo formamos los conglomerados? No importa cómo se mida la similitud,
el procedimiento debe agrupar aquellas observaciones que son más similares dentro de un
conglomerado. Este procedimiento debe determinar la pertenencia al grupo de cada
observación.
Based on cost
Hierarchical Others
function optimization
K-means
Métodos de análisis cluster
MÉTODOS JERÁRQUICOS
Agrupar cluster para formar uno nuevo o separar alguno
ya existente para dar origen a otros dos de forma que se
maximice una medida de similaridad o se minimice
alguna distancia.
CLASIFICACIÓN:
• Asociativos o Aglomerativos: Se parte de tantos
grupos como individuos hay en el estudio y se van
agrupando hasta llegar a tener todos los casos en un
mismo grupo.
• Disociativos: Se parte de un solo grupo que contiene
todos los casos y a través de sucesivas divisiones se
forman grupos cada vez más pequeños.
Método del vecino más lejano: en donde la distancia entre los agrupamientos se define como aquella
entre sus dos miembros más lejanos.
Método del centroide: en donde la distancia entre los agrupamientos se define como aquella entre las
medias de los propios agrupamientos.
Método del promedio: en donde la distancia entre los agrupamientos se define como el promedio de
todas las distancias entre todas las parejas posibles de puntos tales que uno de cada pareja esté en cada
agrupamiento.
Método de la varianza mínima de Ward: en donde la distancia entre dos agrupamientos se define como
el cuadrado de la distancia entre las medias de esos agrupamientos dividida entre la suma de los
recíprocos de la cantidad de puntos que se encuentra dentro de cada uno de estos.
Medición de la similitud
Para poder unir variables o individuos es necesario tener algunas medidas numéricas que caractericen
las relaciones entre las variables o los individuos.
Cada medida refleja asociación en un sentido particular y es necesario elegir una medida apropiada
para el problema concreto que se esté tratando.
La medida de asociación puede ser una distancia o una similaridad.
• Cuando se elige una distancia como medida de asociación (por ejemplo, la distancia euclídea) los
grupos formados contendrán individuos parecidos de forma que la distancia entre ellos ha de ser
pequeña.
• Cuando se elige una medida de similaridad (por ejemplo, el coeficiente de correlación) los grupos
formados contendrán individuos con una similaridad alta entre ellos.
Similitud-distancia
distancias
Distancia métrica.
Es la distancia Euclidiana estándar, también llamada distancia métrica, que es la distancia
entre dos observaciones, si se pudieran representar las dos observaciones en el espacio muestral p-
dimensional y se midiera la distancia entre ellas usando una regla.
Distancia de Mehalanobis
Esto requeriría las estimaciones de las matrices de varianza-covarianza dentro de los
agrupamientos, después de lo cual estas matrices se combinarían a través de los agrupamientos. Por
tanto no se puede calcular una distancia de Mahalanobis hasta que no se hayan agrupado los puntos en
agrupamientos iniciales. Incluso entonces, la utilidad de esta medida de la distancia dependería de cuán
bien se identifican los agrupamientos.
Similitud-distancia
Un problema al que se enfrentan todas las medidas de distancia es que el uso de datos no
estandarizados implica inconsistencias entre las soluciones cluster cuando cambia la escala de las
variables.
Por ejemplo, suponga que tres objetos, A, B y C se miden sobre dos variables, probabilidad de compra de
la marca X (en porcentajes) y cantidad de tiempo gastado viendo anuncios de la marca X (en minutos o
segundos).
Los valores de cada observación se muestran en la Tabla
Con esta información, se pueden calcular las medidas de distancia. En nuestro ejemplo, calculamos dos
medidas de distancia para cada par de objetos: distancia Euclídea simple y la distancia Euclídea al
cuadrado
Similitud-distancia
Este proceso convierte cada puntuación de los datos originales en un valor estandarizado con una
media de 0 y desviación estándar de 1.
Cuando el tiempo de visión en minutos y en segundos se estandariza, los valores son los mismos. Por
tanto, al utilizar las variables estándar se eliminan verdaderamente los efectos debidos a las diferencias
de escala no sólo entre las variables, sino también para la misma variable
Similitud-distancia
Ejemplo distancias
Suponga que un investigador de mercado desea determinar los segmentos del mercado en una
comunidad reducida basándose en sus pautas de lealtad a marcas y tiendas. Se selecciona
una reducida muestra de siete encuestados como contrastación de prueba de cómo se aplica
el análisis cluster. Se miden dos medidas de lealtad — V1 (lealtad a la tienda) y V2 (lealtad a la
marca)— para cada encuestado en una escala de 0 a 10.
A B C D E F G clientes
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
Gráfico de Dispersión
v2 8
7
6
5
4
3
2
1
0
0 2 4 6 8
v1
Similitud-distancia
La similitud será medida de acuerdo con la distancia Euclídea (en línea recta) entre cada par
de observaciones. Ejemplo: La Tabla contiene medidas de proximidad entre cada uno de los
siete encuestados (ejemplo de lealtad a marcas y tiendas) . Al utilizar la distancia como medida
de proximidad, debemos recordar que las distancias más pequeñas indican mayor similitud, de
tal forma que las observaciones E y F son las más parecidas (1.414), y A y F son las más
diferentes (6.403).
Distancias A B C D E F G
A 0
B 3.162 0
C 5.099 2.000 0
D 5.099 2.828 2.000 0
E 5.000 2.236 2.236 4.123 0
F 6.403 3.606 3.000 5.000 1.414 0
G 3.605 2.236 3.606 5.000 2.000 3.162 0
Agglomerative hierarchical
clustering
• Algorithm
16
Jerárquico-aglomerativo (método simgle linkage)
ẟ Ss,S=908
Selecciono
la distancia
más
pequeña
San
Distancias Barcelona Madrid Sevilla Valencia
Sebastián
Barcelona 0
Madrid 639 0
Ejemplo de distancias por carretera (en km) entre ciudades San
606 474 0
Sebastián
Sevilla 1181 542 908 0
Valencia 364 355 597 679 0
B-M-V-Ss 0
S 542 0
San
Distancias Barcelona Madrid Sevilla Valencia
Sebastián
Dendograma: Un dendograma es una
Barcelona 0 representación gráfica en forma de
Madrid 364 0 árbol que resume el proceso de
San
474 474 0 agrupación en un análisis de clusters.
Sebastián
Sevilla 542 542 542 0
1 1
0 1 5 6.4 7.4
2 1
p=
1 0 4.2 5.7 6.7
5 4 D=
5 4.2 0 1.4 2.5
6 5
6.4 5.7 1.4 0 1.1
6.
6 7.4 6.7 2.5 1.1 0
5
Distance between clusters
0 4.2 5.7 6.7
0 5.7 1.4
D=
4.2 0 1.4 2.5 D= 5.7 0 4.2
5.7 1.4 0 1.1 1.4 4.2 0
6.7 2.5 1.1 0
D= 0 4.2
4.2 0
0 1 5 6.4 7.4
D= 1 0 4.2 5.7 6.7
5 4.2 0 1.4 2.5
6.4 5.7 1.4 0 1.1
7.4 6.7 2.5 1.1 0
Distancia entre clusters
1 1
2 1
D= 5 4
6 5
6.
6
5
23
Ejercicio
Para ilustrar como funciona el método del vecino más cercano (distancia mínima), considere una
muestra que contiene seis puntos y supóngase que las distancias entre estos se expresan por la
siguiente matriz
Distancias 1 2 3 4 5 6
Distancias 1 2 3-5 4 6
1-3-5-6 0.28
2 4 3 5 6 1
2-4
0.04
C4 = {1,2,3,4,5,6} 0.07
0.21 0.23
0.28
2 67 140 1
Un diseñador que trabaja para una 1 74 186 1
2 66 164 1
empresa de artículos deportivos 2 65 121 0
desea evaluar un nuevo guante de 1 75 208 1
2 63 120 1
portero de fútbol. El diseñador pide a 1 69 172 0
20 atletas que usen el nuevo guante y 1 77 197 1
2 62 118 1
recoge información sobre sexo, 2 60 125 1
estatura, peso y lateralidad manual de 2 62 134 1
2 68 145 0
los atletas. El diseñador desea 1 70 196 0
agrupar a los atletas por sus 1 72 197 1
2 64 138 1
similitudes. 1 70 191 0
1 71 180 1
1 70 188 1
2 66 140 0
1 70 180 1
Estadísticas > Análisis multivariado > Conglomerados de observaciones
Especifique los datos para el análisis, seleccione los métodos de enlace y distancia, indique si
desea estandarizar las variables, especifique la partición final y seleccione las opciones de
gráficas.
En Matriz de distancia o variables, ingrese las columnas que contienen los datos de las mediciones o
una matriz de distancia almacenada que contenga las distancias entre todos los pares de observaciones.
En Método de vinculación, seleccione un método para
especificar cómo se define la distancia entre dos conglomerados.
Se recomienda probar varios métodos de enlace para
determinar cuál método proporciona los resultados más útiles
para los datos.
NOTA
Cuando se trata de Conglomerados de observaciones, distancia
se refiere a la distancia entre las observaciones y enlace
(vinculación) se refiere a la distancia entre los conglomerados
de observaciones. En el caso de los Conglomerados de variables,
distancia se refiere a la distancia entre las variables y enlace se
refiere a la distancia entre los conglomerados de variables.
Promedio. La distancia entre dos conglomerados, es la distancia media entre una observación (o
variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Aunque los
métodos de enlace individuales y completos se basan en las distancias entre pares individuales, el
método de enlace promedio utiliza una medida de ubicación más central.
Centroide. La distancia entre los dos conglomerados, es la distancia entre los centroides o las medias
de los conglomerados. Al igual que el método de enlace promedio, este método también es una
técnica de determinación del promedio.
Completo. La distancia entre dos conglomerados, es la distancia máxima entre una observación (o
variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Este
método, también conocido como el método del vecino más lejano, garantiza que todas las
observaciones (o variables) en un conglomerado se encuentren dentro de una distancia máxima y
tiende a producir conglomerados con diámetros similares. Sin embargo, los resultados se ven
afectados considerablemente por los valores atípicos.
Ward. La distancia entre dos conglomerados es la suma de los cuadrados de las desviaciones desde
los puntos hasta los centroides. El objetivo del método de enlace de Ward es minimizar la suma de
los cuadrados dentro del conglomerado. Este método tiende a producir conglomerados que tienen
números similares de observaciones (o variables), pero es sensible a los valores atípicos. Además, la
distancia entre dos conglomerados a veces puede ser mayor que dmax, que el valor máximo en la
matriz original de distancias. Cuando esto sucede, el valor de similitud es negativo.
Especificar la medida de distancia
SUGERENCIA. Si seleccionó Promedio, Centroide, Mediana o Ward como el método de enlace, por
lo general debería usar una de las medidas de distancia al cuadrado.
Especificar la partición final
Número de conglomerados: Seleccione esta opción para ingresar el número de conglomerados para la
partición final.
Nivel de similitud: Seleccione esta opción para ingresar el nivel de similitud para los conglomerados de
la partición final.
Si no sabe qué valor ingresar para especificar la partición final, primero realice el análisis utilizando el
valor predeterminado (1 conglomerado en la partición final). Se muestran los resultados para todos los
números posibles de conglomerados. Utilice los resultados para determinar el valor que ingresará para
la partición final. Luego repita el análisis y especifique la partición final que determinó.
INTERPRETAR LOS RESULTADOS
Lo ideal sería que los conglomerados tuvieran un nivel de similitud relativamente alto y un nivel de
distancia relativamente bajo. Sin embargo, esa meta se debe equilibrar con tener un número
razonable y práctico de conglomerados.
Resultados clave: Nivel similitud, nivel de distancia
Por ejemplo, para cortar este dendrograma en cuatro conglomerados, imagine trazar una línea
horizontal alrededor de la mitad del eje vertical, justo por debajo del nivel de similitud de 41 o
distancia de 2.82 aproximadamente.
Paso 3: Examinar la partición final
Después de determinar las agrupaciones finales en el paso
2, vuelva a ejecutar el análisis y especifique el número de
conglomerados (o el nivel de similitud) de la partición
final. Se desplegará la tabla de la partición final, que
muestra las características de cada conglomerado incluido
en la partición final. Por ejemplo, la distancia promedio
desde el centroide proporciona una medida de la
variabilidad de las observaciones dentro de cada
conglomerado.
4.79
3.19
Distancia
1.60
0.00
1 3 6 9 10 11 15 4 12 19 2 14 17 20 18 5 8 7 13 16
Observaciones
Distancia al
Distancia al Distancia al Distancia al
Conglomerado Centroide del
Sexo Altura Peso Pref mano Centroide del Centroide del Centroide del
destino Conglomerado
Conglomerado 1 Conglomerado 2 Conglomerado 3
4
2 67 140 1 1 0.79860946 2.84250828 2.13725018 3.30658389
1 74 186 1 2 3.45231985 0.32084217 3.71685549 2.32579916
2 66 164 1 1 1.1208118 2.58648046 2.32371966 3.07996275
2 65 121 0 3 2.19618961 4.03731833 0.54907406 3.05761881
1 75 208 1 2 3.98656578 0.74678788 4.17849046 2.52237536
2 63 120 1 1 0.4696491 3.68358534 2.30147987 3.88344173
1 69 172 0 4 3.36241054 2.35606588 2.35789384 0.48847994
1 77 197 1 2 4.08295784 0.95186103 4.2092165 2.67956967
2 62 118 1 1 0.61017255 3.85182651 2.39322522 4.0052854
2 60 125 1 1 0.80177309 4.00215828 2.55504666 4.0884354
2 62 134 1 1 0.31024298 3.55496485 2.32617873 3.74124115
2 68 145 0 3 2.37362162 3.40582108 0.47955946 2.39603279
1 70 196 0 4 3.79654572 2.21341764 2.88671899 0.32285901
1 72 197 1 2 3.38380213 0.25305122 3.72380669 2.21383561
2 64 138 1 1 0.17651779 3.21568506 2.18816387 3.50897288
1 70 191 0 4 3.71280298 2.20708363 2.77793187 0.16825989
1 71 180 1 2 2.95481776 0.5132778 3.38590928 2.15641626
1 70 188 1 2 2.98483014 0.5966871 3.44911539 2.12884747
2 66 140 0 3 2.20724649 3.63176238 0.16825989 2.59004217
1 70 180 1 2 2.83973245 0.68721992 3.32737828 2.13811693
prom 0.6125 0.5813 0.3989 0.3265
Uso de componentes principales
0.8
Segundo componente
0.6
0.4
0.2
Sexo Peso
Altura
0.0
0.5
Segundo componente
0.0
-0.5
-1.0
-1.5
-2 -1 0 1 2 3
Primer componente
Realizar Gráfico de dispersión con grupo (número de
conglomerado) de las coordenadas de componente 1 y
componente 2 generadas por componentes principales.
0.0
c2
-0.5
-1.0
-1.5
-2 -1 0 1 2 3
c1
Métodos de no jerárquicos
Los procedimientos no jerárquicos no construyen estructuras de árbol, sino que asignan los objetos una
vez que se determina el número de grupos. La mayor parte de los métodos trabajan con un esquema
como el siguiente:
Start
Data, kclusters
Initialize centroids
Distance to centroids
Grouping based on
minimum distance
Conglomerados de K-medias utiliza un procedimiento no jerárquico para agrupar las observaciones. Por
lo tanto, en el proceso de formación de conglomerados, dos observaciones podrían dividirse en
conglomerados separados después de ser agrupadas.
Para inicializar el proceso de creación de conglomerados utilizando una columna de datos, debe
tener una columna de valores que indique los miembros de los conglomerados. La columna de
inicialización debe contener enteros positivos consecutivos o ceros (no debe contener
solamente ceros). Inicialmente, cada observación se asigna al conglomerado identificado por el
valor correspondiente en esta columna. Una inicialización de cero significa que una observación
no se asignó inicialmente a un grupo. El número de enteros positivos distintos en la columna de
partición inicial es igual al número de conglomerados en la partición final.
Especificar la partición inicial
Columna de partición inicial: Seleccione esta opción para especificar una columna que
contiene los miembros de los conglomerados iniciales. Utilice números enteros positivos
para las observaciones que definen los conglomerados iniciales y utilice ceros para las
observaciones restantes.
Tasa
EJEMPLO MINITAB Compañía Clientes Retorno Ventas Años Inicial
A 150 15.4 50400200 18 1
B 144 11.3 42100650 15 0
Un analista de negocios desea clasificar 22 empresas C 120 9.9 39440420 12 0
de manufactura pequeñas y medianas en grupos D 110 12.5 36500520 16 0
significativos para futuros análisis. El analista recoge E 100 9.7 40650005 10 0
datos sobre el número de clientes, la tasa de retorno, F 99 15.2 45665230 12 0
las ventas y los años que las empresas han estado en G 56 9.2 25978080 8 0
el negocio. Para iniciar el proceso de clasificación, el H 120 13.1 37900800 12 2
I 122 12.4 42560000 13 0
analista divide a las empresas en tres grupos iniciales:
J 142 14.6 48900090 15 0
establecidas, crecimiento medio y recientes.
K 132 13.4 46500200 16 0
L 68 8.7 26400500 9 0
M 79 12.7 19800800 7 0
N 103 11.5 32568740 6 0
O 140 13.9 47635980 13 0
P 130 11.5 47005600 14 0
Q 74 8.6 24652000 6 3
R 49 9.8 14568990 6 0
S 75 11.7 37555000 8 0
T 46 8.7 22342600 5 0
U 79 8.9 32465890 9 0
V 90 9.4 34560000 10 0
•Elija Estadísticas > Análisis multivariado > Conglomerados de K-medias.
En Variables, ingrese: Clientes 'Tasa Retorno' Ventas Años.
En Especificar la partición por, seleccione Columna de partición inicial e ingrese Inicial.
Seleccione Estandarizar variables.
Haga clic en Almacenamiento.
En Columna de membresía del conglomerado, escriba Final.
Haga clic en Aceptar en cada cuadro de diálogo.
Interpretar los resultados
Con base en la agrupación inicial proporcionada por
el analista de negocios, el conglomerado de k-
medias clasifica a las 22 empresas en 3 grupos: 4
empresas establecidas, 8 empresas de mediano
crecimiento y 10 empresas de reciente creación.
Minitab almacena a qué conglomerado pertenece
cada observación en la columna Final de la hoja de
trabajo.
En estos resultados, la distancia promedio desde el
centroide más baja es la del Conglomerado 1 (0.578)
y la más alta es la del Conglomerado 3 (1.093). Esto
indica que el Conglomerado 1 tiene la menor
variabilidad y Conglomerado 3 tiene la mayor
variabilidad. Sin embargo, el Conglomerado 1 tiene
la menor cantidad de observaciones (4) y el
Conglomerado 3 tiene el mayor número de
observaciones (10), lo cual pudiera explicar en parte
la diferencia en la variabilidad.