Clase Cluster

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 54

Universidad Panamericana

Campus Guadalajara

Análisis avanzado de datos

Profesor: Avelina Alejo Reyes


Análisis Cluster
Introducción
Los académicos y los investigadores de mercado se encuentran a menudo con situaciones
cuya mejor forma de resolverlas es definiendo grupos de objetos homogéneos, tanto si son
individuos como si son empresas, productos o incluso comportamientos.

El análisis cluster agrupa a los individuos y a los objetos en conglomerados, de tal forma que
los objetos del mismo conglomerados son más parecidos entre sí que a los objetos de otros
conglomerados. Lo que se intenta es maximizar la homogeneidad de los objetos dentro de los
conglomerados mientras que a la vez se maximiza la heterogeneidad entre los agregados.
¿Qué es el análisis Cluster?
El análisis cluster es la denominación de un grupo de técnicas multivariantes cuyo principal
propósito es agrupar objetos basándose en las características que poseen.

El análisis cluster clasifica objetos (es decir, encuestados, productos u otras entidades) de tal
forma que cada objeto es muy parecido a los que hay en el conglomerado con respecto a algún
criterio de selección predeterminado. Los conglomerados de objetos resultantes deberían
mostrar un alto grado de homogeneidad interna (dentro del conglomerado) y un alto grado de
heterogeneidad externa (entre conglomerados). Por tanto, si la clasificación es acertada, los
objetos dentro de los conglomerados estarán muy próximos cuando se representen
gráficamente, y los diferentes grupos estarán muy alejados.
El Análisis Cluster tiene una importante tradición de aplicación en muchas áreas de
investigación. Sin embargo, junto con los beneficios del Análisis Cluster existen algunos
inconvenientes. El Análisis Cluster es una técnica descriptiva y no inferencial.

El Análisis Cluster no tiene bases estadísticas sobre las que deducir inferencias estadísticas
para una población a partir de una muestra, es un método basado en criterios geométricos y se
utiliza fundamentalmente como una técnica exploratoria, descriptiva pero no explicativa.
El objetivo principal del análisis cluster es definir la estructura de los datos colocando
las observaciones más parecidas en grupos.

Pero para llevar a cabo esta tarea, debemos tratar tres cuestiones básicas.
En primer lugar, ¿cómo medimos la similitud? Necesitamos un método de observaciones
simultáneamente comparadas sobre dos variables de aglomeración. Son posibles varios
métodos, incluyendo la correlación entre objetos, una medida de asociación utilizada en otras
técnicas multivariantes o quizá midiendo su proximidad en un espacio bidimensional de tal
forma que la distancia entre las observaciones indica similitud.

En segundo lugar, ¿cómo formamos los conglomerados? No importa cómo se mida la similitud,
el procedimiento debe agrupar aquellas observaciones que son más similares dentro de un
conglomerado. Este procedimiento debe determinar la pertenencia al grupo de cada
observación.

En tercer lugar, ¿cuántos grupos formamos?


Puede utilizarse cualquier número de «reglas», pero la tarea fundamental es evaluar la similitud
«media» dentro de los conglomerados, de tal forma que a medida que la media aumenta, el
conglomerado se hace menos similar.
Categories of clustering algorithms

Based on cost
Hierarchical Others
function optimization

Agglomerative Divisive Hard Probabilistic Fuzzy Density

K-means
Métodos de análisis cluster
MÉTODOS JERÁRQUICOS
Agrupar cluster para formar uno nuevo o separar alguno
ya existente para dar origen a otros dos de forma que se
maximice una medida de similaridad o se minimice
alguna distancia.
CLASIFICACIÓN:
• Asociativos o Aglomerativos: Se parte de tantos
grupos como individuos hay en el estudio y se van
agrupando hasta llegar a tener todos los casos en un
mismo grupo.
• Disociativos: Se parte de un solo grupo que contiene
todos los casos y a través de sucesivas divisiones se
forman grupos cada vez más pequeños.

Los métodos jerárquicos permiten construir un árbol de


clasificación o dendograma.
MÉTODOS NO JERÁRQUICOS
El procedimiento es elegir una partición de los individuos
en K grupos e intercambiar los miembros de los clusters
para tener una partición mejor.
Métodos de agrupación jerárquica

Método del vecino más lejano: en donde la distancia entre los agrupamientos se define como aquella
entre sus dos miembros más lejanos.

Método del centroide: en donde la distancia entre los agrupamientos se define como aquella entre las
medias de los propios agrupamientos.

Método del promedio: en donde la distancia entre los agrupamientos se define como el promedio de
todas las distancias entre todas las parejas posibles de puntos tales que uno de cada pareja esté en cada
agrupamiento.

Método de la varianza mínima de Ward: en donde la distancia entre dos agrupamientos se define como
el cuadrado de la distancia entre las medias de esos agrupamientos dividida entre la suma de los
recíprocos de la cantidad de puntos que se encuentra dentro de cada uno de estos.
Medición de la similitud
Para poder unir variables o individuos es necesario tener algunas medidas numéricas que caractericen
las relaciones entre las variables o los individuos.

Cada medida refleja asociación en un sentido particular y es necesario elegir una medida apropiada
para el problema concreto que se esté tratando.
La medida de asociación puede ser una distancia o una similaridad.

• Cuando se elige una distancia como medida de asociación (por ejemplo, la distancia euclídea) los
grupos formados contendrán individuos parecidos de forma que la distancia entre ellos ha de ser
pequeña.
• Cuando se elige una medida de similaridad (por ejemplo, el coeficiente de correlación) los grupos
formados contendrán individuos con una similaridad alta entre ellos.
Similitud-distancia

distancias
Distancia métrica.
Es la distancia Euclidiana estándar, también llamada distancia métrica, que es la distancia
entre dos observaciones, si se pudieran representar las dos observaciones en el espacio muestral p-
dimensional y se midiera la distancia entre ellas usando una regla.

Distancia métrica estandarizada.


Otra posibilidad para medir la distancia entre una pareja de puntos es, en primer lugar,
estandarizar todas las variables y, en seguida, calcular la distancia euclidiana estándar entre los puntos,
usando sus valores Z estandarizados. Para la mayoría de las situaciones, probablemente ésta sea la mejor
elección para medir distancias.

Distancia de Mehalanobis
Esto requeriría las estimaciones de las matrices de varianza-covarianza dentro de los
agrupamientos, después de lo cual estas matrices se combinarían a través de los agrupamientos. Por
tanto no se puede calcular una distancia de Mahalanobis hasta que no se hayan agrupado los puntos en
agrupamientos iniciales. Incluso entonces, la utilidad de esta medida de la distancia dependería de cuán
bien se identifican los agrupamientos.
Similitud-distancia

Impacto de los datos no estandarizados

Un problema al que se enfrentan todas las medidas de distancia es que el uso de datos no
estandarizados implica inconsistencias entre las soluciones cluster cuando cambia la escala de las
variables.
Por ejemplo, suponga que tres objetos, A, B y C se miden sobre dos variables, probabilidad de compra de
la marca X (en porcentajes) y cantidad de tiempo gastado viendo anuncios de la marca X (en minutos o
segundos).
Los valores de cada observación se muestran en la Tabla

Con esta información, se pueden calcular las medidas de distancia. En nuestro ejemplo, calculamos dos
medidas de distancia para cada par de objetos: distancia Euclídea simple y la distancia Euclídea al
cuadrado
Similitud-distancia

Impacto de los datos no estandarizados


Medidas de distancia basadas en la probabilidad Medidas de distancia basadas en la probabilidad
de compra y tiempo en minutos de visión de de compra y tiempo en segundos de visión de
anuncios anuncios

La forma más común de estandarización es la conversión de cada variable a unas puntuaciones


estándar (también conocidas como puntuaciones Z) restando la media y dividiendo por la desviación
típica de cada variable.

Este proceso convierte cada puntuación de los datos originales en un valor estandarizado con una
media de 0 y desviación estándar de 1.

Cuando el tiempo de visión en minutos y en segundos se estandariza, los valores son los mismos. Por
tanto, al utilizar las variables estándar se eliminan verdaderamente los efectos debidos a las diferencias
de escala no sólo entre las variables, sino también para la misma variable
Similitud-distancia

Ejemplo distancias
Suponga que un investigador de mercado desea determinar los segmentos del mercado en una
comunidad reducida basándose en sus pautas de lealtad a marcas y tiendas. Se selecciona
una reducida muestra de siete encuestados como contrastación de prueba de cómo se aplica
el análisis cluster. Se miden dos medidas de lealtad — V1 (lealtad a la tienda) y V2 (lealtad a la
marca)— para cada encuestado en una escala de 0 a 10.

A B C D E F G clientes
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4

Gráfico de Dispersión
v2 8
7
6
5
4
3
2
1
0
0 2 4 6 8
v1
Similitud-distancia

La similitud será medida de acuerdo con la distancia Euclídea (en línea recta) entre cada par
de observaciones. Ejemplo: La Tabla contiene medidas de proximidad entre cada uno de los
siete encuestados (ejemplo de lealtad a marcas y tiendas) . Al utilizar la distancia como medida
de proximidad, debemos recordar que las distancias más pequeñas indican mayor similitud, de
tal forma que las observaciones E y F son las más parecidas (1.414), y A y F son las más
diferentes (6.403).

Distancias A B C D E F G
A 0
B 3.162 0
C 5.099 2.000 0
D 5.099 2.828 2.000 0
E 5.000 2.236 2.236 4.123 0
F 6.403 3.606 3.000 5.000 1.414 0
G 3.605 2.236 3.606 5.000 2.000 3.162 0
Agglomerative hierarchical
clustering
• Algorithm

16
Jerárquico-aglomerativo (método simgle linkage)

Ejemplo 2. Distancias por carretera (en km) entre ciudades


Distancias Barcelona Madrid San Sebastián Sevilla Valencia
Barcelona 0
Madrid 639 0
San Sebastián 606 474 0
Sevilla 1181 542 908 0
Valencia 364 355 597 679 0

Etapa cero: C0 = {B} + {M} + {Ss} + {S} + {V } Inicio con 5 conglomerados

Selecciono la distancia más pequeña

Etapa uno: C1 = {B} + {M,V } + {Ss} + {S} Ahora 4 conglomerados


y se recalculan las distancias (por ejemplo, mediante el método del mínimo) del conglomerado
{M,V} al resto.
Distancias B M-V Ss S
ẟ(MV),B=min{δM,B, δV,B} = min{639, 364} = 364 B 0
ẟSs,B= 606 M-V 364 0
Ss 606 474 0
ẟS,B= 1181
S 1181 542 908 0
ẟ (MV),Ss=min{δM,Ss, δV,Ss} = min{474,597} = 474 Selecciono
ẟ (MV),S=min{δM,S, δV,S} = min{542,679} = 542 la distancia
más
ẟS,Ss= 908 pequeña
San
Distancias Barcelona Madrid Sevilla Valencia
Sebastián
Barcelona 0
Madrid 639 0
Ejemplo de distancias por carretera (en km) entre ciudades San
606 474 0
Sebastián
Sevilla 1181 542 908 0
Valencia 364 355 597 679 0

Etapa dos: C2 = {B,M,V} + {Ss} + {S} Ahora 3 conglomerados


y se recalculan las distancias (por ejemplo, mediante el método del mínimo) del conglomerado
{B,M,V} al resto.
Distancias B-M-V Ss S
B-M-V 0
Ss 474 0
S 542 908 0

ẟ(BMV),Ss=min{δB,Ss δM,Ss δV,Ss } = min{606,474,597} = 474

ẟ(BMV),S=min{δB,S δM,S δV,S } = min{1181,542,679} = 542

ẟ Ss,S=908

Selecciono
la distancia
más
pequeña
San
Distancias Barcelona Madrid Sevilla Valencia
Sebastián
Barcelona 0
Madrid 639 0
Ejemplo de distancias por carretera (en km) entre ciudades San
606 474 0
Sebastián
Sevilla 1181 542 908 0
Valencia 364 355 597 679 0

Etapa dos: C3 = {B,M,V,Ss} + {S} Ahora 2 conglomerados


y se recalculan las distancias (por ejemplo, mediante el método del mínimo) del conglomerado
{B,M,V,Ss} al resto.
Distancias B-M-V-Ss S

B-M-V-Ss 0
S 542 0

ẟ(BMV,Ss),S=min{δB,S δM,S δV,S δSs,S} = min{1181,542,679,908} = 542

Etapa dos: C4 = {B,M,V,Ss,S} Ahora 1 conglomerado


Resumen del algoritmo de clasificación
Etapa Distancias Conglomerados
0 - C0 = {B} + {M} + {Ss} + {S} + {V }
1 δM,V = 355 C1 = {B} + {M,V } + {Ss} + {S}
2 δB,MV = 364 C2 = {B,M,V } + {Ss} + {S}
3 δBMV,Ss = 474 C3 = {B,M,V, Ss} + {S}
4 δB,M,V,Ss,S = 542 C4 = {B,M,V, Ss, S}

San
Distancias Barcelona Madrid Sevilla Valencia
Sebastián
Dendograma: Un dendograma es una
Barcelona 0 representación gráfica en forma de
Madrid 364 0 árbol que resume el proceso de
San
474 474 0 agrupación en un análisis de clusters.
Sebastián
Sevilla 542 542 542 0

Valencia 364 355 474 542 0


Ejemplo:
Distancia entre clusters (single linkage)

1 1
0 1 5 6.4 7.4
2 1
p=
1 0 4.2 5.7 6.7
5 4 D=
5 4.2 0 1.4 2.5
6 5
6.4 5.7 1.4 0 1.1
6.
6 7.4 6.7 2.5 1.1 0
5
Distance between clusters
0 4.2 5.7 6.7
0 5.7 1.4
D=
4.2 0 1.4 2.5 D= 5.7 0 4.2
5.7 1.4 0 1.1 1.4 4.2 0
6.7 2.5 1.1 0

D= 0 4.2
4.2 0

0 1 5 6.4 7.4
D= 1 0 4.2 5.7 6.7
5 4.2 0 1.4 2.5
6.4 5.7 1.4 0 1.1
7.4 6.7 2.5 1.1 0
Distancia entre clusters

1 1
2 1
D= 5 4
6 5
6.
6
5

23
Ejercicio
Para ilustrar como funciona el método del vecino más cercano (distancia mínima), considere una
muestra que contiene seis puntos y supóngase que las distancias entre estos se expresan por la
siguiente matriz
Distancias 1 2 3 4 5 6

1 0.31 0.23 0.32 0.26 0.25


2 0.34 0.21 0.36 0.28
3 0.31 0.04 0.07 C0 = {1} + {2} + {3,5} + {4} + {6 }
4 0.31 0.28
5 0.09
6

Distancias 1 2 3-5 4 6

1 0.31 0.23 0.32 0.25


2 0.34 0.21 0.28
3-5 0.31 0.07 C1 = {1} + {2} + {3,5,6} + {4 }
4 0.28
6
Ejercicio
Distancias 1 2 3-5-6 4 Distancias 1 2-4 3-5-6
1 0.31 0.23 0.32 1 0.31 0.23
2 0.28 0.21 2-4 0.28
3-5-6 0.28 3-5-6
4

C2 = {1} + {2,4} + {3,5,6} C3 = {1,3,5,6} + {2,4}

Distancias 1-3-5-6 2-4

1-3-5-6 0.28
2 4 3 5 6 1
2-4
0.04
C4 = {1,2,3,4,5,6} 0.07

0.21 0.23

0.28

Diagrama de árbol jerárquico


EJEMPLO MINITAB. Sexo Altura Peso Pref mano

2 67 140 1
Un diseñador que trabaja para una 1 74 186 1
2 66 164 1
empresa de artículos deportivos 2 65 121 0
desea evaluar un nuevo guante de 1 75 208 1
2 63 120 1
portero de fútbol. El diseñador pide a 1 69 172 0
20 atletas que usen el nuevo guante y 1 77 197 1
2 62 118 1
recoge información sobre sexo, 2 60 125 1
estatura, peso y lateralidad manual de 2 62 134 1
2 68 145 0
los atletas. El diseñador desea 1 70 196 0
agrupar a los atletas por sus 1 72 197 1
2 64 138 1
similitudes. 1 70 191 0
1 71 180 1
1 70 188 1
2 66 140 0
1 70 180 1
Estadísticas > Análisis multivariado > Conglomerados de observaciones

Especifique los datos para el análisis, seleccione los métodos de enlace y distancia, indique si
desea estandarizar las variables, especifique la partición final y seleccione las opciones de
gráficas.

En Matriz de distancia o variables, ingrese las columnas que contienen los datos de las mediciones o
una matriz de distancia almacenada que contenga las distancias entre todos los pares de observaciones.
En Método de vinculación, seleccione un método para
especificar cómo se define la distancia entre dos conglomerados.
Se recomienda probar varios métodos de enlace para
determinar cuál método proporciona los resultados más útiles
para los datos.
NOTA
Cuando se trata de Conglomerados de observaciones, distancia
se refiere a la distancia entre las observaciones y enlace
(vinculación) se refiere a la distancia entre los conglomerados
de observaciones. En el caso de los Conglomerados de variables,
distancia se refiere a la distancia entre las variables y enlace se
refiere a la distancia entre los conglomerados de variables.

Promedio. La distancia entre dos conglomerados, es la distancia media entre una observación (o
variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Aunque los
métodos de enlace individuales y completos se basan en las distancias entre pares individuales, el
método de enlace promedio utiliza una medida de ubicación más central.

Centroide. La distancia entre los dos conglomerados, es la distancia entre los centroides o las medias
de los conglomerados. Al igual que el método de enlace promedio, este método también es una
técnica de determinación del promedio.
Completo. La distancia entre dos conglomerados, es la distancia máxima entre una observación (o
variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Este
método, también conocido como el método del vecino más lejano, garantiza que todas las
observaciones (o variables) en un conglomerado se encuentren dentro de una distancia máxima y
tiende a producir conglomerados con diámetros similares. Sin embargo, los resultados se ven
afectados considerablemente por los valores atípicos.

Mediana. La distancia entre dos conglomerados es la mediana de la distancia entre una


observación (o variable) en un conglomerado y una observación (o variable) en el otro
conglomerado. Puesto que esta técnica de determinación del promedio utiliza la mediana en lugar
de la media, el efecto de los valores atípicos se reduce.
Individual
La distancia entre dos conglomerados es la distancia mínima entre una observación (o variable) en
un conglomerado y una observación (o variable) en el otro conglomerado. Este método, también
conocido como el método del vecino más cercano, es una opción adecuada cuando los
conglomerados están obviamente separados. Cuando las observaciones (o variables) están
cercanas entre sí, el método de enlace individual tiende a identificar largos conglomerados en
forma de cadena, con distancias relativamente grandes entre las observaciones situadas en los
extremos de la cadena.

Ward. La distancia entre dos conglomerados es la suma de los cuadrados de las desviaciones desde
los puntos hasta los centroides. El objetivo del método de enlace de Ward es minimizar la suma de
los cuadrados dentro del conglomerado. Este método tiende a producir conglomerados que tienen
números similares de observaciones (o variables), pero es sensible a los valores atípicos. Además, la
distancia entre dos conglomerados a veces puede ser mayor que dmax, que el valor máximo en la
matriz original de distancias. Cuando esto sucede, el valor de similitud es negativo.
Especificar la medida de distancia

En Medición de la distancia, seleccione el método para calcular la distancia entre pares de


observaciones.
Euclidiano. La medida de distancia más común, que calcula la raíz cuadrada de la suma de la
diferencias al cuadrado.
Euclidiano cuadrado. El cuadrado de la distancia que se calcula utilizando el método euclidiano.
Este método concede más peso a los valores atípicos.
Pearson. La raíz cuadrada de la suma de las distancias al cuadrado dividida entre las varianzas. Este
método hace que las varianzas sean iguales y se utiliza para estandarizar.
Pearson cuadrado. El cuadrado de la distancia que se calcula utilizando el método de Pearson. Este
método concede más peso a los valores atípicos y hace que las varianzas sean iguales.
Manhattan. La suma de las distancias absolutas. Este método concede menos peso a los valores
atípicos.

SUGERENCIA. Si seleccionó Promedio, Centroide, Mediana o Ward como el método de enlace, por
lo general debería usar una de las medidas de distancia al cuadrado.
Especificar la partición final

Indique los criterios que desea utilizar para determinar las


agrupaciones finales.

Número de conglomerados: Seleccione esta opción para ingresar el número de conglomerados para la
partición final.

Nivel de similitud: Seleccione esta opción para ingresar el nivel de similitud para los conglomerados de
la partición final.

Si no sabe qué valor ingresar para especificar la partición final, primero realice el análisis utilizando el
valor predeterminado (1 conglomerado en la partición final). Se muestran los resultados para todos los
números posibles de conglomerados. Utilice los resultados para determinar el valor que ingresará para
la partición final. Luego repita el análisis y especifique la partición final que determinó.
INTERPRETAR LOS RESULTADOS

En Personalizar Dendograma, seleccionar : Etiquetar Y con distancia.


INTERPRETAR LOS RESULTADOS
Almacenar los resultados para Conglomerados de observaciones
Estadísticas > Análisis multivariado > Conglomerados de observaciones > Almacenamiento

Columna de membresía del conglomerado


Ingrese una columna para almacenar a qué
conglomerado final pertenece cada observación.
Esta columna puede utilizarse luego como una
variable categórica en otros análisis de Minitab,
como el análisis discriminante.

Distancia entre las observaciones y los centroides del conglomerado


Ingrese columnas para almacenar la distancia entre cada observación y cada centroide de
conglomerado. El número de columnas especificado debe ser igual al número de conglomerados
especificado para la partición inicial. Se almacenan las distancias como distancias euclidianas. Estos
valores pueden ayudar a evaluar la variación dentro del conglomerado. Por ejemplo, es posible
identificar las observaciones, como los valores atípicos extremos, que son más semejantes o más
diferentes de la observación promedio de cada conglomerado.
Matriz de distancia
Ingrese una matriz de almacenamiento (M) para la matriz de distancia N x N, donde N es el número de
observaciones. Para ver la matriz almacenada, elija Datos > Mostrar datos.
INTERPRETAR LOS RESULTADOS

Complete los siguientes pasos para interpretar un análisis de conglomerado de observaciones. La


salida clave incluye los valores de similitud y distancia, el dendrograma y la partición final.

Paso 1: Examinar los niveles de similitud y de distancia


En cada paso del proceso de amalgamación, vea los conglomerados que se forman y examine sus
niveles de similitud y distancia. Cuanto mayor sea el nivel de similitud, más similares serán las
observaciones de cada conglomerado. Cuanto menor sea el nivel de distancia, más cerca estarán las
observaciones en cada conglomerado.

Lo ideal sería que los conglomerados tuvieran un nivel de similitud relativamente alto y un nivel de
distancia relativamente bajo. Sin embargo, esa meta se debe equilibrar con tener un número
razonable y práctico de conglomerados.
Resultados clave: Nivel similitud, nivel de distancia

En estos resultados, los datos contienen un total de


20 observaciones. En el paso 1, dos conglomerados
(las observaciones 13 y 16 de la hoja de trabajo) se
unen para formar un nuevo conglomerado. Este paso
crea 19 conglomerados en los datos, con un nivel de
similitud de 96.6005 y un nivel de distancia de
0.16275. Aunque el nivel de similitud es alto y el
nivel de distancia es bajo, el número de
conglomerados es demasiado alto como para ser
útil. En cada paso posterior, a medida que se forman
nuevos conglomerados, el nivel de similitud
disminuye y el nivel de distancia aumenta. En el paso
final, todas las observaciones se unen en un único
conglomerado.
Paso 2: Determinar las agrupaciones finales para los datos
Busque un cambio abrupto en el nivel de similitud entre los
pasos. El paso que precede al cambio abrupto en la
similitud puede representar un punto de corte adecuado
para la partición final. Para la partición final, los
conglomerados deben tener un nivel de similitud
razonablemente alto. También debería utilizar su
conocimiento práctico de los datos para determinar las
agrupaciones finales que tienen más sentido para su
aplicación.
Por ejemplo, la siguiente tabla de amalgamación muestra
que el nivel de similitud disminuye en incrementos de
aproximadamente 3 o menos hasta el paso 15. La similitud
disminuye en más de 20 (de 62.0036 a 41.0474) en los
pasos 16 y 17, cuando el número de conglomerados cambia
de 4 a 3. Estos resultados indican que 4 conglomerados
pueden ser suficientes para la partición final. Si esta
agrupación tiene sentido intuitivo, entonces es probable
que sea una elección adecuada
La decisión acerca de la agrupación final también se conoce como cortar el dendrograma. Cortar
el dendrograma es similar a trazar una línea horizontal a lo largo del dendrograma para especificar
la agrupación final.

Por ejemplo, para cortar este dendrograma en cuatro conglomerados, imagine trazar una línea
horizontal alrededor de la mitad del eje vertical, justo por debajo del nivel de similitud de 41 o
distancia de 2.82 aproximadamente.
Paso 3: Examinar la partición final
Después de determinar las agrupaciones finales en el paso
2, vuelva a ejecutar el análisis y especifique el número de
conglomerados (o el nivel de similitud) de la partición
final. Se desplegará la tabla de la partición final, que
muestra las características de cada conglomerado incluido
en la partición final. Por ejemplo, la distancia promedio
desde el centroide proporciona una medida de la
variabilidad de las observaciones dentro de cada
conglomerado.

Examine los conglomerados incluidos en la partición final


para determinar si la agrupación parece lógica para la
aplicación específica. Si aún no está seguro, puede repetir
el análisis y comparar diferentes agrupaciones finales en
los dendrogramas para determinar cuál de ellas tiene más
sentido para los datos.
Dendrograma
Enlace completo, Distancia euclediana

4.79

3.19

Distancia
1.60

0.00
1 3 6 9 10 11 15 4 12 19 2 14 17 20 18 5 8 7 13 16
Observaciones
Distancia al
Distancia al Distancia al Distancia al
Conglomerado Centroide del
Sexo Altura Peso Pref mano Centroide del Centroide del Centroide del
destino Conglomerado
Conglomerado 1 Conglomerado 2 Conglomerado 3
4
2 67 140 1 1 0.79860946 2.84250828 2.13725018 3.30658389
1 74 186 1 2 3.45231985 0.32084217 3.71685549 2.32579916
2 66 164 1 1 1.1208118 2.58648046 2.32371966 3.07996275
2 65 121 0 3 2.19618961 4.03731833 0.54907406 3.05761881
1 75 208 1 2 3.98656578 0.74678788 4.17849046 2.52237536
2 63 120 1 1 0.4696491 3.68358534 2.30147987 3.88344173
1 69 172 0 4 3.36241054 2.35606588 2.35789384 0.48847994
1 77 197 1 2 4.08295784 0.95186103 4.2092165 2.67956967
2 62 118 1 1 0.61017255 3.85182651 2.39322522 4.0052854
2 60 125 1 1 0.80177309 4.00215828 2.55504666 4.0884354
2 62 134 1 1 0.31024298 3.55496485 2.32617873 3.74124115
2 68 145 0 3 2.37362162 3.40582108 0.47955946 2.39603279
1 70 196 0 4 3.79654572 2.21341764 2.88671899 0.32285901
1 72 197 1 2 3.38380213 0.25305122 3.72380669 2.21383561
2 64 138 1 1 0.17651779 3.21568506 2.18816387 3.50897288
1 70 191 0 4 3.71280298 2.20708363 2.77793187 0.16825989
1 71 180 1 2 2.95481776 0.5132778 3.38590928 2.15641626
1 70 188 1 2 2.98483014 0.5966871 3.44911539 2.12884747
2 66 140 0 3 2.20724649 3.63176238 0.16825989 2.59004217
1 70 180 1 2 2.83973245 0.68721992 3.32737828 2.13811693
prom 0.6125 0.5813 0.3989 0.3265
Uso de componentes principales

Cuando el número de dimensiones es mayor a 2, se puede llevar a cabo un análisis de componentes


principales para ver si, en realidad caen dentro de un espacio de dimensiones reducidas. Si es posible
hacer que la dimensionalidad efectiva llegue hasta dos, es decir, si los datos se encuentran en un plano
dentro del espacio muestral p-dimensional, entonces podrían representarse gráficamente las
calificaciones de las dos primeras componentes principales correspondientes a cada unidad
experimental del conjunto de datos, y luego se podrían seleccionar visualmente los agrupamientos.
Cargando gráfica de Sexo, ..., Pref mano
Pref mano
1.0

0.8

Segundo componente
0.6

0.4

0.2

Sexo Peso
Altura
0.0

Es posible representar en 2 componentes principales -0.50 -0.25 0.00 0.25


Primer componente
0.50 0.75

-almacenar las puntuaciones (coordenadas) de los dos


primeros componentes
-realizar un diagrama de dispersión
Gráfica de puntuación de Sexo, ..., Pref mano

0.5
Segundo componente

0.0

-0.5

-1.0

-1.5

-2 -1 0 1 2 3
Primer componente
Realizar Gráfico de dispersión con grupo (número de
conglomerado) de las coordenadas de componente 1 y
componente 2 generadas por componentes principales.

Gráfica de dispersión de c2 vs. c1


Conglomerado
destino
1
0.5 2
3
4

0.0

c2
-0.5

-1.0

-1.5

-2 -1 0 1 2 3
c1
Métodos de no jerárquicos
Los procedimientos no jerárquicos no construyen estructuras de árbol, sino que asignan los objetos una
vez que se determina el número de grupos. La mayor parte de los métodos trabajan con un esquema
como el siguiente:

a) Se hace una primera partición de los datos en un número especificado de conglomerados y se


calculan sus centroides.
b) Se asigna cada objeto al conglomerado a cuyo centroide se parece más.
c) Se calculan nuevos centroides revisando los casos.
d) Se repiten los pasos 2 y 3 hasta que los objetos no cambian de conglomerado.

Un problema importante en este método es la decisión sobre el número de conglomerados, decisión


que algunos procedimientos (k-medias) demandan antes de comenzar los cálculos.
K-means
Dado un conjunto de observaciones (x1, x2, …, xn), donde cada observación es un vector real
de d dimensiones, k-means construye una partición de las observaciones en k conjuntos
(k ≤ n) a fin de minimizar la suma de los cuadrados dentro de cada grupo: S = {S1, S2, …, Sk}.

donde µi es la media de puntos en Si.


K-means Flow chart

Start

Data, kclusters

Initialize centroids

Distance to centroids

Grouping based on
minimum distance

Recalculate centroids Stop? End


Conglomerados de K-medias

Utilice Conglomerados de k-medias para agrupar observaciones en conglomerados que comparten


características comunes. Este método es apropiado cuando se tiene suficiente información para hacer
designaciones iniciales adecuadas de las observaciones a los conglomerados.

Conglomerados de K-medias utiliza un procedimiento no jerárquico para agrupar las observaciones. Por
lo tanto, en el proceso de formación de conglomerados, dos observaciones podrían dividirse en
conglomerados separados después de ser agrupadas.

Dónde encontrar este análisis

•Para realizar un análisis de conglomerados de K-medias, elija:

Estadísticas > Análisis multivariado > Conglomerados de K-medias.


Conglomerados de K-medias

Para inicializar el proceso de creación de conglomerados utilizando una columna de datos, debe
tener una columna de valores que indique los miembros de los conglomerados. La columna de
inicialización debe contener enteros positivos consecutivos o ceros (no debe contener
solamente ceros). Inicialmente, cada observación se asigna al conglomerado identificado por el
valor correspondiente en esta columna. Una inicialización de cero significa que una observación
no se asignó inicialmente a un grupo. El número de enteros positivos distintos en la columna de
partición inicial es igual al número de conglomerados en la partición final.
Especificar la partición inicial

Indique las designaciones iniciales de conglomerados. Los procedimientos de k-medias funcionan


mejor cuando usted proporciona puntos iniciales adecuados para los conglomerados. Base los
conglomerados iniciales en el conocimiento práctico y/o de ingeniería acerca de las
observaciones que se agruparán.

 Número de conglomerados: Seleccione esta opción si no tiene un conocimiento a priori de


los conglomerados iniciales. Ingrese un valor para especificar el número de conglomerados
que desea formar. Los conglomerados iniciales son las primeras filas de datos en la hoja de
trabajo. Por ejemplo, si ingresa 3, entonces las primeras tres filas de datos son los centroides
de los conglomerados iniciales.

 Columna de partición inicial: Seleccione esta opción para especificar una columna que
contiene los miembros de los conglomerados iniciales. Utilice números enteros positivos
para las observaciones que definen los conglomerados iniciales y utilice ceros para las
observaciones restantes.
Tasa
EJEMPLO MINITAB Compañía Clientes Retorno Ventas Años Inicial
A 150 15.4 50400200 18 1
B 144 11.3 42100650 15 0
Un analista de negocios desea clasificar 22 empresas C 120 9.9 39440420 12 0
de manufactura pequeñas y medianas en grupos D 110 12.5 36500520 16 0
significativos para futuros análisis. El analista recoge E 100 9.7 40650005 10 0
datos sobre el número de clientes, la tasa de retorno, F 99 15.2 45665230 12 0
las ventas y los años que las empresas han estado en G 56 9.2 25978080 8 0
el negocio. Para iniciar el proceso de clasificación, el H 120 13.1 37900800 12 2
I 122 12.4 42560000 13 0
analista divide a las empresas en tres grupos iniciales:
J 142 14.6 48900090 15 0
establecidas, crecimiento medio y recientes.
K 132 13.4 46500200 16 0
L 68 8.7 26400500 9 0
M 79 12.7 19800800 7 0
N 103 11.5 32568740 6 0
O 140 13.9 47635980 13 0
P 130 11.5 47005600 14 0
Q 74 8.6 24652000 6 3
R 49 9.8 14568990 6 0
S 75 11.7 37555000 8 0
T 46 8.7 22342600 5 0
U 79 8.9 32465890 9 0
V 90 9.4 34560000 10 0
•Elija Estadísticas > Análisis multivariado > Conglomerados de K-medias.
En Variables, ingrese: Clientes 'Tasa Retorno' Ventas Años.
En Especificar la partición por, seleccione Columna de partición inicial e ingrese Inicial.
Seleccione Estandarizar variables.
Haga clic en Almacenamiento.
En Columna de membresía del conglomerado, escriba Final.
Haga clic en Aceptar en cada cuadro de diálogo.
Interpretar los resultados
Con base en la agrupación inicial proporcionada por
el analista de negocios, el conglomerado de k-
medias clasifica a las 22 empresas en 3 grupos: 4
empresas establecidas, 8 empresas de mediano
crecimiento y 10 empresas de reciente creación.
Minitab almacena a qué conglomerado pertenece
cada observación en la columna Final de la hoja de
trabajo.
En estos resultados, la distancia promedio desde el
centroide más baja es la del Conglomerado 1 (0.578)
y la más alta es la del Conglomerado 3 (1.093). Esto
indica que el Conglomerado 1 tiene la menor
variabilidad y Conglomerado 3 tiene la mayor
variabilidad. Sin embargo, el Conglomerado 1 tiene
la menor cantidad de observaciones (4) y el
Conglomerado 3 tiene el mayor número de
observaciones (10), lo cual pudiera explicar en parte
la diferencia en la variabilidad.

También podría gustarte