Analisa Cluster DGN Stata
Analisa Cluster DGN Stata
Analisa Cluster DGN Stata
ANALISA CLUSTER
I. Latar Belakang
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek/cases berdasarkan karakteristik yang dimilikinya. Analisis cluster
mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek lain
berada dalam cluster yang sama. Cluster-cluster yang terbentuk memiliki homogenitas internal
yang tinggi dan heterogenitas eksternal yang tinggi. Berbeda dengan teknik multivariat lainnya,
analisis ini tidak mengestimasi set vaiabel secara empiris sebaliknya menggunakan set variabel
yang ditentukan oleh peneliti itu sendiri. Fokus dari analisis cluster adlah membandingkan objek
berdasarkan set variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel
sebagai tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabel yang
merpresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan analisis faktor adalah
bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus
pada kelompok variabel.
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap penyelesaian/solusi
tergantung pada beberapa elemen prosedur dan beberapa solusi yang berbeda dapat diperoleh
dengan mengubah satu elemen atau lebih. Solusi cluster secara keseluruhan bergantung pada
variabel-variaabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau
pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasi analisisi
cluster.
Algoritma cluster harus dapat memaksimalkan perbedaan relatif cluster terhadap variasi
dalam cluster. Ada tiga metode analisa cluster yang dapat digunakan, yaitu metode grafik,
metode Hirarkhi dan metode nonhirarkhi. Dua metode paling umum dalam algoritma cluster
adalah metode hirarkhi dan metode non hirarkhi. Penentuan metode mana yag akan dipakai
tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori
dan konsep yang berlaku. Ketiganya memiliki kelebihan sendiri-sendiri. Metode grafik
merupakan metode yang paling sederhana dalam analisa cluster. Keuntungan metode hirarkhi
adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun kelemahannya
metode ini dapat menimbulkan kesalahan. Sama dengan metode grafik, metode hirarkhi tidak
baik diterapkan untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi
memiliki keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada
data outlier, ukuran jarak yang digunakan, dan termasuk variabel tak relevan atau variabel
yang tidak tepat. Keuntungannya hanya dengan menggunakan titik bakal nonrandom,
penggunaan metode non hirarkhi untuk titik bakal random secara nyata lebih buruk dari pada
metode hirarkhi.
Salah satu metode yang digunakan adalah Plot Profil yaitu membuat plot terhadap parameter
individu dengan grafik garis
8
Nilai
5
Mat Fis Bio Sej Kew Sos Seni
Mata Ajaran
Andi Benny Budi Ika Maya Ana
Intrepretasi
ANDI dan MAYA mempunyai profil yang mirip, keduanya mempunyai kemampuan yang
tinggi di bidang IPA
BENNY, BUDI, dan ANNA, keduanya pencinta ilmu sosial
IKA mempunyai kearekteristik sendiri
Metode pengelompokan objek yang dimulai dari dua objek yang paling mirip/tdk mirip
kemudian diteruskan ke objek berikutnya. Beberapa metode yang digunakan dalam
Hierarchy Cluster:
Single Linkage Metode ini mengelompokan berdasarkan dua objek yang memiliki jarak
terdekat terlebih dahulu.
Complete Linkage Metode ini akan mengelompokan dua objek yang memiliki jarak yang
paling jauh terlebih dahulu.
Average Linkage Metode ini mengelompokan berdasarkan jarak rata-rata yang didapat
dengan melakukan rata-rata semua jarak antar objek terlebih dahulu. Yang memiliki jarak
rata-rata terdekat akan mengelompok terlebih dahulu.
Wards Method Metode yang mengelompokan jarak berdasarkan jarak Sum of Squares
diantara dua objek. Yang memiliki jarak sum of Square terkecil akan mengelumpok terlebih
dahulu.
Centroid Method Pada metode ini, yang mengelompok adalah dua objek yang jarak
centroidnya paling dekat. Centroid pada sebuh objek adalah nilai rata-rata parameter yang
dimiliki oleh objek tersebut.
Dalam metode ini kita menentukan jumlah cluster yang diinginkan. Kemudian dari setiap
cluters ditentukan nilai tengah kondinat awal. Melalui proses iterasi makan akan didapatkan
nilai kordinat akhir yang letaknya ditengah data sehingga jarak data ketitik tersebut adalah jarak
yang minimal.
Statndarisasi data digunakan ketika variabel yang digunakan untuk menjelasakan karakteristik
memiliki satuan yang cukup berbeda. Contohnya cluster berdasarkan pendapatan, jumlah anak
dan usia. Terlihat bahwa pendapatan relatif memiliki satuan yang lebih besar dan rentang yang
relatif lebih besar juga (Ratusan ribu hingga jutaan), sedang jumlah anak maksimal hanya
belasan, dan usia juga maksimal puluan (kurang dari 100). Kesenjangan data seperti ini
umumnya diakali dengan melakukan standarisasi terhadao data tersebut.
=1( )
= Dimana =
1
IV. Prosedur Metode Berhirarki
Data : Cereal.dta
0 5 10 15 20
L2 dissimilarity measure
Setiap melakukan analisa cluster program akan memberikan nama file hasil analisa
yang telah dilakukan. Kita dapat merubah nama file yang sudah tersimpat atau
menghapus file tersebut. Berikut cara menghapus file hasil analisa cluster
Data penjualan 157 mobil yang berasal dari berbagai tipe dan merek mobil. Ingin
diklasifikasikan 157 mobil yang terjual berdasarkanan Variable Engine Size, Horsepower,
Wheelbase, Width, Length, Curb weight, Fuel capacity dan Fuel efficiency
Data : cars_sales.dta
.
Melihat Profil Setiap Cluster
tab kelompok1
| kelompok1
manufacturer | 1 2 | Total
--------------+----------------------+----------
Acura | 1 3 | 4
Audi | 1 2 | 3
BMW | 1 2 | 3
Buick | 1 3 | 4
Cadillac | 0 5 | 5
Chevrolet | 7 2 | 9
Chrysler | 3 3 | 6
Dodge | 7 3 | 10
Ford | 7 4 | 11
Honda | 3 2 | 5
Hyundai | 3 0 | 3
Infiniti | 0 1 | 1
Jaguar | 0 1 | 1
Jeep | 2 1 | 3
Lexus | 0 6 | 6
Lincoln | 0 3 | 3
Mercedes-Benz | 3 6 | 9
Mercury | 4 2 | 6
Mitsubishi | 5 2 | 7
Nissan | 6 1 | 7
Oldsmobile | 4 1 | 5
Plymouth | 3 1 | 4
Pontiac | 3 3 | 6
Porsche | 0 3 | 3
Saab | 2 0 | 2
Saturn | 5 0 | 5
Subaru | 2 0 | 2
Toyota | 6 3 | 9
Volkswagen | 6 0 | 6
Volvo | 4 2 | 6
--------------+----------------------+----------
Total | 89 65 | 154
Jika data memiliki perbadaan varian yang cukup mencolok agar hasil analisa menjadi lebih obyektif
dilakukan proses standarisasi terhadap data.
Sebuah perusahaan penyedia jasa telekomunikasi ingin membuat segmen terhadap
customernya berdasarkan pola penggunaan jasa yang mereka tawarkan. Tujuannya
perusahaan akan menawarkan paket menarik untuk customer mereka. Variabel yang akan
digunakan untuk proses pengelompokan memiliki satuan dan variasi yang berbeda sehingga
perlu dilakukan proses standarisasi. Diantaranya variabel yang akan dilakukan standarisasi
diantaranya, distance hingga wireless dan multiple lines hingga electronic billing. Lakukan
pengelompokan terhadap customer menjadi 3 kelompok!
tab kelompok1
geographic | kelompok1
indicator | 1 2 3 | Total
-----------+---------------------------------+----------
zone 1 | 69 187 66 | 322
zone 2 | 76 197 61 | 334
zone 3 | 70 206 68 | 344
-----------+---------------------------------+----------
Total | 215 590 195 | 1,000