Modul Clustering Data Mining-Modul Clustering

LABORATORIUM DATA MINING
JURUSAN TEKNIK INDUSTRI

FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA

Modul Modul Modul Modul II II II II
CLUSTERING CLUSTERING CLUSTERING CLUSTERING

TUJUA PRAKTIKUM
1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan
penelitian pasar.
2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari Analisis
Cluster dalam Data Mining, mulai dari pengambilan data, pengolahan data sampai
dengan tahap pengelompokan, serta mengaplikasikannya dalam kasus-kasus yang
dihadapinya.

LADASA TEORI
2.1 Clustering Concept
Analisis cluster merupakan salah satu teknik data mining yang bertujuan untuk
mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu
yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada
dalam kelompok yang sama relatif lebih homogen daripada obyek yang berada pada
kelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung pada
banyak dan variasi data obyek. Tujuan dari pengelompokan sekumpulan data obyek ke
dalam beberapa kelompok yang mempunyai karakteristik tertentu dan dapat dibedakan
satu sama lainnya adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan
tujuan penelitian yang dilakukan. Model yang diambil diasumsikan bahwa data yang
dapat digunakan adalah data yang berupa data interval, frekuensi dan biner. Set data
obyek harus mempunyai peubah dengan tipe yang sejenis tidak campur antara tipe yang
satu dengan lainnya.

2.2 Tujuan Analisis Cluster
Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik
ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang

dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar.
Tujuan analisis cluster di dalam pemasaran adalah sebagai berikut :
1. Membuat segmen pasar (segmenting the market)
Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan
yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari
pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari.
2. Memahami perilaku pembeli
Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli
yang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok
perlu dikaji secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada
self-reported importance yang terkait pada setiap faktor pilihan yang digunakan
untuk memilih toko atau mall di mana para pembeli membeli barang yang
dibutuhkan.
3. Mengenali peluang produk baru
Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa
ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain,
daripada merek dari klaster lain.
4. Mereduksi data. Analisis cluster digunakan sebagai suatu alat mereduksi data secara
umum, untuk mengembangkan klaster atau sub-group dari data yang mudah dikelola
dari kumpulan data asli, secara individual.

2.3 Prosedur Analisis Cluster

Menentukan segmentasi Pasar
Rumuskan Masalah
Pilih Ukuran Jarak
Pilih Prosedur Peng-cluster-an
Penentuan Banyaknya Cluster
Profilisasi Customer

Secara umum proses dimulai dengan merumuskan masalah pengklasteran
dengan mendefinisikan variabel-variabel yang dipergunakan untuk dasar
pengklasteran/pembentukan klaster. Kemudian pengambilan p pengukuran peubah pada
n obyek pengamatan. Data tersebut dijadikan matriks data mentah berukuran m x p.
Matrik tersebut ditransformasikan ke dalam bentuk matriks similaritas (kemiripan)
berupa n x n yang dihitung berdasarkan pasangan-pasangan obyek p peubah. Konsep
dasar pengukuran analisis cluster adalah konsep pengukuran jarak (distance) dan
kesamaan (similarity). Distance adalah ukuran tentang jarak pisah antar obyek
sedangkan similarity adalah ukuran kedekatan. Konsep ini penting karena
pengelompokan pada analisis cluster didasarkan pada kedekatan. Pengukuran jarak
(distance type measure) digunakan untuk data-data yang bersifat matriks, sedangkan
pengukuran kesesuaian (matching type measure) digunakan untuk data-data yang
bersifat kualitatif.

2.4 Teknik Pengukuran Jarak
1) Euclidean Distance
Merupakan ukuran jarak antara dua item X dan Y.
=
2
Yi) (Xi Y) D(X,
2) Squared Euclidean Distance
Merupakan ukuran jarak antara dua item X dan Y.
=
2
Yi) (Xi Y) D(X,
3) Pearson Correlation
Korelasi antara vektor nilai :
) 1 N (
Z Z
) Y , X ( S
yi xi
=

di mana Z
xi
adalah nilai x yang telah distandarkan untuk item ke-i dan N adalah
jumlah itemnya.

4) Chebychev
i i i
Y X max ) Y , X ( D =
5) Block
=
i i
Y X ) Y , X ( D

6) Minkowski
| |
p
1
p
i i
Y X ) Y , X ( D

=
p = 1 (absolute metric)
p = 2 (euclidian metric)
7) Chi-Square

+
=
) Yi ( E
)) Yi ( E Yi (
) Xi ( E
)) Xi ( E Xi (
) Y , X ( D
2 2

8) Phi-Square
|
|
\
|
+
=

) Yi ( E
)) Yi ( E Yi (
) Xi ( E
)) Xi ( E Xi (
n
1
) Y , X ( D
2 2

9) Hamming
D(P,Q) = ( )
=
k
k
qk pk
X X
1
.
Dimana : ( )

=
lainnya
X X if
X X
qk pk
qk pk
, 0
, 1
,

2.5 Teknik Teknik dalam Analisis Cluster

METODE HIRARKI
Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk
kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur
pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara
bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk
dendogram. Metode-metode yang digunakan dalam teknik hirarki:
1) Agglomerative Methods
Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya
masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya
obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan
membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar
obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari
keseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu:
a) Single linkage (nearest neighbor methods)
Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari
dua obyek terdekat dan keduanya membentuk cluster yang pertama.
Pada langkah selanjutnya terdapat dua kemungkinan, yaitu :
obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau
dua obyek lainnya akan membentu cluster baru.
Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metode
ini jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat, yaitu 1.0 maka obyek A dan A
bergabung menjadi satu cluster.

2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= min {d
AC
, d
BC
}= d
BC
= 3.0
D
(AB)D
= min {d
AD
, d
BD
}= d
AD
= 6.0
D
(AB)E
= min {d
AE
, d
BE
}= d
BE
= 7.0
Dengan demikian terbentu matriks jarak yang baru
AB C D E
AB 0.0 3.0 6.0 7.0
C 3.0 0.0 4.0 6.0
D 6.0 4.0 0.0 2.0
E 7.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat
D dan E mempunyai jarak yang terdekat yaitu 2.0 maka obyek D dan E
4. menghitung jarak antara cluster dengan obyek lainnya.
D
(AB)C
= 3.0
D
(AB)(DE)
= min {d
AD,
d
AE
, d
BD
, d
BE
} = d
AD
= 6.0
D
(DE)C
= min {d
CD
, d
CE
} = d
CD
= 4.0
5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan cluster AB
6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.

b) Complete linkage (furthest neighbor methods)
Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single
linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.
Contoh : Terdapat matriks jarak antara lima buah obyek yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung
menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= max {d
AC
, d
BC
}= d
AC
= 5.0
D
(AB)D
= max {d
AD
, d
BD
}= d
BD
= 8.0
D
(AB)E
= max {d
AE
, d
BE
}= d
AE
= 8.0

Dengan demikian terbentuk matriks jarak yang baru
AB C D E
AB 0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung
menjadi satu cluster
4. Menghitung jarak antar cluster dengan obyek lainnya.
D
(AB)C
= 5.0
D
(AB)(DE)
= max {d
AD
, d
AE
, d
BD
, d
BE
} = d
AE
= d
BD
= 8.0
D
(DE)C
= max {d
CD
, d
CE
} = d
CE
= 6.0

5. Maka terbentuklah matriks jarak yang baru, yaitu :
AB C DE
AB 0.0 5.0 8.0
C 5.0 0.0 6.0
DE 8.0 6.0 0.0

bergabung dengan cluster AB

7. Pada langkah yang terakhir cluster ABC bergabung dengan DE sehingga

c) Average linkage methods ( between groups methods)
Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya.
Prinsip ukuran jarak yang digunakan adalah jarak rata-rata antar tiap pasangan
obyek yang mungkin.
Contoh :
Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

A dan B mempunyai jarak terdekat, yaitu 1,0 maka obyek A dan B
2. Menghitung jarak antara cluster AB dengan obyek lainnya
d
(AB)C
= max {d
AC
, d
BC
} = d
AC
= 5,0
d
(AB)D
= max {d
AD
, d
BD
} = d
BD
= 8,0
d
(AB)E
= max {d
AE
, d
BE
} = d
AE
= 8,0
Dengan demikian terbentuk matriks jarak yang baru :
AB C D E
AB
0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E
4. Menghitung jarak antara cluster dengan obyek lainnya.
d
(AB)C
= 4,0
d
(AB)(DE)
= 1/2{d
AD
, d
AE,
d
BD
, d
BE
} = 7,25
d
(DE)C
= 1/2{d
CD
, d
CE,
} = d
CE
= 5,00

Maka terbentuklah matrik jarak yang baru, yaitu :
AB C DE
AB 0.0 4.0 7.25
C 4.0 0.0 5.00
DE 7.25 5.0 0.00

bergabung dengan clster AB.
6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga

d) Wards error sum of squares methods
Ward mengajukan suatu metode pembentukan cluster yang didasari oleh
hilangnya informasi akibat penggabungan obyek menjadi cluster. Hal ini diukur
dengan jumlah total dari deviasi kuadrat pada mean cluster untuk tiap observasi.
Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan
digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan
yang ada.
ESS =
( )

2
ij j
2
ij
X n
1 X

Dengan X
ij
adalah nilai untuk obyek ke-i pada cluster ke-j.

e) Within groups methods
f) Median methods
g) Centroid methods

2) Divisive Methods
Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-
tama diawali dengan satu cluster besar yang mencakup semua observasi (obyek).
Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan
dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan
sehingga mencapai sejumlah cluster yang diinginkan.
a) Splinter average distance methods
Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek
dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek
lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan
jarak terjauh sehingga terbentuklan dua group. Kemudian dibandingkan dengan
jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya
sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group
splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan
dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah
stabil, yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak
obyek itu ke group splinter, maka proses berhenti dan dilanjutkan dengan tahap
pemisahan dalam group.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0 12 9 32 31
B 12 0 9 25 27
C 9 9 0 23 24
D 32 25 23 0 9
E 31 27 24 9 0

Perhitungan :
1. Menghitung jarak rata-rata antar obyek
A = (12+9+32+31) = 21 D = (32+25+23+9) = 22.25
B = (12+9+25+27) = 18.25 E = (31+27+24+9) = 22.75
C = (9+9+23+24) = 16.25
Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E
dipisahkan dari group utama dan membentuk group splinter.

2. Menghitung jarak rata-rata obyek dengan group utama dengan group splinter

Obyek
Jarak Rata-rata dengan
Group Splinter (x)
Group Utama (y)

x - y
A 31 17.67 -13.33
B 27 15.33 -11.67
C 24 13.67 -10.33
D 9 26.67 17.67

Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan
group utama. Dengan demikian D harus dikeluarkan dari group utama dan
masuk ke group splinter.
3. Perhitungan jarak rata-rata

Obyek
Group Splinter (x)
Group Utama (y)

x - y
A 31.5 10.5 -21.0
B 26 10.5 -15.5
C 23.5 9.0 -14.5

Karena jarak semua obyek ke group utama sudah lebih besar daripada
jaraknya ke group splinter, maka komposisinya sudah stabil.

METODE O-HIRARKI
Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means
Clustering) dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah
yang diinginkan dan kemudian obyek digabungkan ke dalam cluster-cluster tersebut.
1) Sequential Threshold Procedure
Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek
dasar yang akan dijadikan nilai awal cluster, kemudian semua obyek yang ada
didalam jarak terdekat dengan cluster ini akan bergabung lalu dipilih cluster kedua
dan semua obyek yang mempunyai kemiripan dimasukkan dalam cluster ini.
Demikian seterusnya hingga terbentuk beberapa cluster dengan keseluruhan obyek
didalamnya.

2) Parallel Threshold Prosedure
Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan
pemilihan terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan
penggabungan obyek ke dalamnya secara bersamaan.
3) Optimizing
Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi
pada penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan
krteria optimasi.

Teknik partisi (Partitioning Methods) mencakup :
K-Means Clustering
Methods based on the trace

Prosedur analisis cluster K-means digunakan untuk mengelompokkan
sejumlah kasus besar yang lebih dari 200 dengan lebih efisien. Metode ini berdasarkan
nearest centroid sorting, yaitu pengelompokan berdasarkan jarak terkecil antara kasus
dengan pusat dari cluster. Teknik ini membutuhkan jumlah cluster yang ditentukan
terlebih dahulu oleh pemakai. Untuk tujuan tersebut dapat menggunakan analisis
hierarkikal dalam menentukan jumlah cluster. Teknik ini juga dapat digunakan untuk
menempatkan data baru untuk dikelompokkan ke dalam cluster terdekat. Agar hasil
cluster dapat digunakan dengan baik, maka sebaiknya dilakukan tahapan interpretasi dan
validasi.
Yang perlu diperhatikan pada tahapan interpretasi adalah karakteristik yang
membedakan masing-masing cluster sehingga kita dapat memberikan label pada
masing-masing cluster tersebut. Dengan demikian perlu kiranya dispesifikasikan
kriteria-kriteria yang mendasari kelompok-kelompok yang telah terbentuk.
Pada tahap validasi dilakukan pengujian terhadap cluster yang telah terbentuk.
Uji yang dapat dilakukan antara lain dengan membandingkan hasil yang telah diperoleh
dengan algoritma yang berbeda. Sebagai contoh, apabila pertama kali kita menggunakan
algoritma hierarkikal, maka kemudian dicoba dengan menggunakan algoritma
nonhierarkikal dan kemudian dilihat apakah hasilnya mirip atau tidak. Dengan demikian
kita sudah melakukan pengujian terhadap cluster yang kita bentuk.

Modul Clustering Data Mining-Modul Clustering

Diunggah oleh

Hak Cipta:

Format Tersedia

Modul Clustering Data Mining-Modul Clustering

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Modul Clustering Data Mining-Modul Clustering

Diunggah oleh

Hak Cipta:

Format Tersedia

LABORATORIUM DATA MINING

JURUSAN TEKNIK INDUSTRI

Anda mungkin juga menyukai