Modul Clustering Data Mining-Modul Clustering
Modul Clustering Data Mining-Modul Clustering
Modul Clustering Data Mining-Modul Clustering
=
2
Yi) (Xi Y) D(X,
2) Squared Euclidean Distance
Merupakan ukuran jarak antara dua item X dan Y.
=
2
Yi) (Xi Y) D(X,
3) Pearson Correlation
Korelasi antara vektor nilai :
) 1 N (
Z Z
) Y , X ( S
yi xi
=
di mana Z
xi
adalah nilai x yang telah distandarkan untuk item ke-i dan N adalah
jumlah itemnya.
4) Chebychev
i i i
Y X max ) Y , X ( D =
5) Block
=
i i
Y X ) Y , X ( D
6) Minkowski
| |
p
1
p
i i
Y X ) Y , X ( D
=
p = 1 (absolute metric)
p = 2 (euclidian metric)
7) Chi-Square
+
=
) Yi ( E
)) Yi ( E Yi (
) Xi ( E
)) Xi ( E Xi (
) Y , X ( D
2 2
8) Phi-Square
|
|
\
|
+
=
) Yi ( E
)) Yi ( E Yi (
) Xi ( E
)) Xi ( E Xi (
n
1
) Y , X ( D
2 2
9) Hamming
D(P,Q) = ( )
=
k
k
qk pk
X X
1
.
Dimana : ( )
=
lainnya
X X if
X X
qk pk
qk pk
, 0
, 1
,
2.5 Teknik Teknik dalam Analisis Cluster
METODE HIRARKI
Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk
kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur
pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara
bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk
dendogram. Metode-metode yang digunakan dalam teknik hirarki:
1) Agglomerative Methods
Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya
masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya
obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan
membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar
obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari
keseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu:
a) Single linkage (nearest neighbor methods)
Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari
dua obyek terdekat dan keduanya membentuk cluster yang pertama.
Pada langkah selanjutnya terdapat dua kemungkinan, yaitu :
obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau
dua obyek lainnya akan membentu cluster baru.
Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metode
ini jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0
Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat, yaitu 1.0 maka obyek A dan A
bergabung menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= min {d
AC
, d
BC
}= d
BC
= 3.0
D
(AB)D
= min {d
AD
, d
BD
}= d
AD
= 6.0
D
(AB)E
= min {d
AE
, d
BE
}= d
BE
= 7.0
Dengan demikian terbentu matriks jarak yang baru
AB C D E
AB 0.0 3.0 6.0 7.0
C 3.0 0.0 4.0 6.0
D 6.0 4.0 0.0 2.0
E 7.0 6.0 2.0 0.0
3. Mencari obyek dengan jarak terdekat
D dan E mempunyai jarak yang terdekat yaitu 2.0 maka obyek D dan E
bergabung menjadi satu cluster.
4. menghitung jarak antara cluster dengan obyek lainnya.
D
(AB)C
= 3.0
D
(AB)(DE)
= min {d
AD,
d
AE
, d
BD
, d
BE
} = d
AD
= 6.0
D
(DE)C
= min {d
CD
, d
CE
} = d
CD
= 4.0
5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan cluster AB
6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.
b) Complete linkage (furthest neighbor methods)
Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single
linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.
Contoh : Terdapat matriks jarak antara lima buah obyek yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0
Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung
menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= max {d
AC
, d
BC
}= d
AC
= 5.0
D
(AB)D
= max {d
AD
, d
BD
}= d
BD
= 8.0
D
(AB)E
= max {d
AE
, d
BE
}= d
AE
= 8.0
Dengan demikian terbentuk matriks jarak yang baru
AB C D E
AB 0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0
3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung
menjadi satu cluster
4. Menghitung jarak antar cluster dengan obyek lainnya.
D
(AB)C
= 5.0
D
(AB)(DE)
= max {d
AD
, d
AE
, d
BD
, d
BE
} = d
AE
= d
BD
= 8.0
D
(DE)C
= max {d
CD
, d
CE
} = d
CE
= 6.0
5. Maka terbentuklah matriks jarak yang baru, yaitu :
AB C DE
AB 0.0 5.0 8.0
C 5.0 0.0 6.0
DE 8.0 6.0 0.0
6. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan cluster AB
7. Pada langkah yang terakhir cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.
c) Average linkage methods ( between groups methods)
Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya.
Prinsip ukuran jarak yang digunakan adalah jarak rata-rata antar tiap pasangan
obyek yang mungkin.
Contoh :
Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0
Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat, yaitu 1,0 maka obyek A dan B
bergabung menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya
d
(AB)C
= max {d
AC
, d
BC
} = d
AC
= 5,0
d
(AB)D
= max {d
AD
, d
BD
} = d
BD
= 8,0
d
(AB)E
= max {d
AE
, d
BE
} = d
AE
= 8,0
Dengan demikian terbentuk matriks jarak yang baru :
AB C D E
AB
0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0
3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E
bergabung menjadi satu cluster.
4. Menghitung jarak antara cluster dengan obyek lainnya.
d
(AB)C
= 4,0
d
(AB)(DE)
= 1/2{d
AD
, d
AE,
d
BD
, d
BE
} = 7,25
d
(DE)C
= 1/2{d
CD
, d
CE,
} = d
CE
= 5,00
Maka terbentuklah matrik jarak yang baru, yaitu :
AB C DE
AB 0.0 4.0 7.25
C 4.0 0.0 5.00
DE 7.25 5.0 0.00
5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan clster AB.
6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.
d) Wards error sum of squares methods
Ward mengajukan suatu metode pembentukan cluster yang didasari oleh
hilangnya informasi akibat penggabungan obyek menjadi cluster. Hal ini diukur
dengan jumlah total dari deviasi kuadrat pada mean cluster untuk tiap observasi.
Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan
digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan
yang ada.
ESS =
( )
2
ij j
2
ij
X n
1 X
Dengan X
ij
adalah nilai untuk obyek ke-i pada cluster ke-j.
e) Within groups methods
f) Median methods
g) Centroid methods
2) Divisive Methods
Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-
tama diawali dengan satu cluster besar yang mencakup semua observasi (obyek).
Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan
dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan
sehingga mencapai sejumlah cluster yang diinginkan.
a) Splinter average distance methods
Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek
dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek
lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan
jarak terjauh sehingga terbentuklan dua group. Kemudian dibandingkan dengan
jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya
sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group
splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan
dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah
stabil, yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak
obyek itu ke group splinter, maka proses berhenti dan dilanjutkan dengan tahap
pemisahan dalam group.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0 12 9 32 31
B 12 0 9 25 27
C 9 9 0 23 24
D 32 25 23 0 9
E 31 27 24 9 0
Perhitungan :
1. Menghitung jarak rata-rata antar obyek
A = (12+9+32+31) = 21 D = (32+25+23+9) = 22.25
B = (12+9+25+27) = 18.25 E = (31+27+24+9) = 22.75
C = (9+9+23+24) = 16.25
Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E
dipisahkan dari group utama dan membentuk group splinter.
2. Menghitung jarak rata-rata obyek dengan group utama dengan group splinter
Obyek
Jarak Rata-rata dengan
Group Splinter (x)
Jarak Rata-rata dengan
Group Utama (y)
x - y
A 31 17.67 -13.33
B 27 15.33 -11.67
C 24 13.67 -10.33
D 9 26.67 17.67
Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan
group utama. Dengan demikian D harus dikeluarkan dari group utama dan
masuk ke group splinter.
3. Perhitungan jarak rata-rata
Obyek
Jarak Rata-rata dengan
Group Splinter (x)
Jarak Rata-rata dengan
Group Utama (y)
x - y
A 31.5 10.5 -21.0
B 26 10.5 -15.5
C 23.5 9.0 -14.5
Karena jarak semua obyek ke group utama sudah lebih besar daripada
jaraknya ke group splinter, maka komposisinya sudah stabil.
METODE O-HIRARKI
Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means
Clustering) dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah
yang diinginkan dan kemudian obyek digabungkan ke dalam cluster-cluster tersebut.
1) Sequential Threshold Procedure
Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek
dasar yang akan dijadikan nilai awal cluster, kemudian semua obyek yang ada
didalam jarak terdekat dengan cluster ini akan bergabung lalu dipilih cluster kedua
dan semua obyek yang mempunyai kemiripan dimasukkan dalam cluster ini.
Demikian seterusnya hingga terbentuk beberapa cluster dengan keseluruhan obyek
didalamnya.
2) Parallel Threshold Prosedure
Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan
pemilihan terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan
penggabungan obyek ke dalamnya secara bersamaan.
3) Optimizing
Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi
pada penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan
krteria optimasi.
Teknik partisi (Partitioning Methods) mencakup :
K-Means Clustering
Methods based on the trace
Prosedur analisis cluster K-means digunakan untuk mengelompokkan
sejumlah kasus besar yang lebih dari 200 dengan lebih efisien. Metode ini berdasarkan
nearest centroid sorting, yaitu pengelompokan berdasarkan jarak terkecil antara kasus
dengan pusat dari cluster. Teknik ini membutuhkan jumlah cluster yang ditentukan
terlebih dahulu oleh pemakai. Untuk tujuan tersebut dapat menggunakan analisis
hierarkikal dalam menentukan jumlah cluster. Teknik ini juga dapat digunakan untuk
menempatkan data baru untuk dikelompokkan ke dalam cluster terdekat. Agar hasil
cluster dapat digunakan dengan baik, maka sebaiknya dilakukan tahapan interpretasi dan
validasi.
Yang perlu diperhatikan pada tahapan interpretasi adalah karakteristik yang
membedakan masing-masing cluster sehingga kita dapat memberikan label pada
masing-masing cluster tersebut. Dengan demikian perlu kiranya dispesifikasikan
kriteria-kriteria yang mendasari kelompok-kelompok yang telah terbentuk.
Pada tahap validasi dilakukan pengujian terhadap cluster yang telah terbentuk.
Uji yang dapat dilakukan antara lain dengan membandingkan hasil yang telah diperoleh
dengan algoritma yang berbeda. Sebagai contoh, apabila pertama kali kita menggunakan
algoritma hierarkikal, maka kemudian dicoba dengan menggunakan algoritma
nonhierarkikal dan kemudian dilihat apakah hasilnya mirip atau tidak. Dengan demikian
kita sudah melakukan pengujian terhadap cluster yang kita bentuk.