Analisa Cluster DGN Stata

BAB 7
ANALISA CLUSTER
I. Latar Belakang
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek/cases berdasarkan karakteristik yang dimilikinya. Analisis cluster
mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek lain
berada dalam cluster yang sama. Cluster-cluster yang terbentuk memiliki homogenitas internal
yang tinggi dan heterogenitas eksternal yang tinggi. Berbeda dengan teknik multivariat lainnya,
analisis ini tidak mengestimasi set vaiabel secara empiris sebaliknya menggunakan set variabel
yang ditentukan oleh peneliti itu sendiri. Fokus dari analisis cluster adlah membandingkan objek
berdasarkan set variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel
sebagai tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabel yang
merpresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan analisis faktor adalah
bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus
pada kelompok variabel.
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap penyelesaian/solusi
tergantung pada beberapa elemen prosedur dan beberapa solusi yang berbeda dapat diperoleh
dengan mengubah satu elemen atau lebih. Solusi cluster secara keseluruhan bergantung pada
variabel-variaabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau
pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasi analisisi
cluster.
Algoritma cluster harus dapat memaksimalkan perbedaan relatif cluster terhadap variasi
dalam cluster. Ada tiga metode analisa cluster yang dapat digunakan, yaitu metode grafik,
metode Hirarkhi dan metode nonhirarkhi. Dua metode paling umum dalam algoritma cluster
adalah metode hirarkhi dan metode non hirarkhi. Penentuan metode mana yag akan dipakai
tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori
dan konsep yang berlaku. Ketiganya memiliki kelebihan sendiri-sendiri. Metode grafik
merupakan metode yang paling sederhana dalam analisa cluster. Keuntungan metode hirarkhi
adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun kelemahannya
metode ini dapat menimbulkan kesalahan. Sama dengan metode grafik, metode hirarkhi tidak
baik diterapkan untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi
memiliki keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada
data outlier, ukuran jarak yang digunakan, dan termasuk variabel tak relevan atau variabel
yang tidak tepat. Keuntungannya hanya dengan menggunakan titik bakal nonrandom,
penggunaan metode non hirarkhi untuk titik bakal random secara nyata lebih buruk dari pada
metode hirarkhi.
II. Tujuan Pelatihan:

Dapat memahami prisip dari Analisa Cluster
Dapat memahami beberpa teknik dalam Analisa Cluster
Mampu mengaplikasikan Analisa Cluster dengan menggunakan Software Statistik
Asumsi Dalam Analisa Cluster
Analisa cluter bukanlah sebuah teknik inferensial statistik, syarat-syarat seperti
normalitas, homogenitas, multikolinieritas tidak diperlukan dalam analisa ini. Analisa
Cluster lebih bersifat teknik matematika ketimbangan fundamental statistika.
III. Metode Analisa Cluster

1. Metode Grafik
Salah satu metode yang digunakan adalah Plot Profil yaitu membuat plot terhadap parameter
individu dengan grafik garis
Contoh data ulangan 6 orang siswa

Hasil Plot Profil
9
8
Nilai
5
Mat Fis Bio Sej Kew Sos Seni
Mata Ajaran
Andi Benny Budi Ika Maya Ana
Intrepretasi
ANDI dan MAYA mempunyai profil yang mirip, keduanya mempunyai kemampuan yang
tinggi di bidang IPA
BENNY, BUDI, dan ANNA, keduanya pencinta ilmu sosial
IKA mempunyai kearekteristik sendiri
2. Metode Hierarchy Cluster
Metode pengelompokan objek yang dimulai dari dua objek yang paling mirip/tdk mirip
kemudian diteruskan ke objek berikutnya. Beberapa metode yang digunakan dalam
Hierarchy Cluster:
Single Linkage Metode ini mengelompokan berdasarkan dua objek yang memiliki jarak
terdekat terlebih dahulu.
Complete Linkage Metode ini akan mengelompokan dua objek yang memiliki jarak yang
paling jauh terlebih dahulu.
Average Linkage Metode ini mengelompokan berdasarkan jarak rata-rata yang didapat
dengan melakukan rata-rata semua jarak antar objek terlebih dahulu. Yang memiliki jarak
rata-rata terdekat akan mengelompok terlebih dahulu.
Wards Method Metode yang mengelompokan jarak berdasarkan jarak Sum of Squares
diantara dua objek. Yang memiliki jarak sum of Square terkecil akan mengelumpok terlebih
dahulu.
Centroid Method Pada metode ini, yang mengelompok adalah dua objek yang jarak
centroidnya paling dekat. Centroid pada sebuh objek adalah nilai rata-rata parameter yang
dimiliki oleh objek tersebut.
Beberapa Perhitungan Jarak Yang di gunakan.
3. Metode Non-Hierarchy Cluster
Dalam metode ini kita menentukan jumlah cluster yang diinginkan. Kemudian dari setiap
cluters ditentukan nilai tengah kondinat awal. Melalui proses iterasi makan akan didapatkan
nilai kordinat akhir yang letaknya ditengah data sehingga jarak data ketitik tersebut adalah jarak
yang minimal.
Standarisasi Data Dalam Analisa Cluster
Statndarisasi data digunakan ketika variabel yang digunakan untuk menjelasakan karakteristik
memiliki satuan yang cukup berbeda. Contohnya cluster berdasarkan pendapatan, jumlah anak
dan usia. Terlihat bahwa pendapatan relatif memiliki satuan yang lebih besar dan rentang yang
relatif lebih besar juga (Ratusan ribu hingga jutaan), sedang jumlah anak maksimal hanya
belasan, dan usia juga maksimal puluan (kurang dari 100). Kesenjangan data seperti ini
umumnya diakali dengan melakukan standarisasi terhadao data tersebut.

=1( )
= Dimana =
1
IV. Prosedur Metode Berhirarki
Mengelompokan 10 merek cereal berdasarkan 3 kandungan nutrisi yaitu (carbohydrate,

calories, and percent of the daily allowance of Vitamin A)
Data : Cereal.dta
cluster singlelinkage Carbo Calories VitaminA, measure(L2)

name(cluster1)
cluster dendrogram cluster1, horizontal

Dendrogram for cluster1 cluster analysis
10
4
7
8
9
3
1
5
6
2
0 5 10 15 20
L2 dissimilarity measure
cluster generate kelompok = groups(2), name(cluster1)

ties(error)
tabstat Carbo Calories VitaminA, statistics( mean ) by(kelompok)

columns(variables)
Summary statistics: mean
by categories of: kelompok
kelompok | Carbo Calories VitaminA

---------+------------------------------
1 | 24.16667 108.3333 25
2 | 24 118.75 48.75
---------+------------------------------
Total | 24.1 112.5 34.5
----------------------------------------
Menutup Analisa cluster yang sudah dikerjaan
Setiap melakukan analisa cluster program akan memberikan nama file hasil analisa
yang telah dilakukan. Kita dapat merubah nama file yang sudah tersimpat atau
menghapus file tersebut. Berikut cara menghapus file hasil analisa cluster
cluster drop _all
V. Prosedur Tidak Berhirarki/K-Mean CLuster
Data penjualan 157 mobil yang berasal dari berbagai tipe dan merek mobil. Ingin
diklasifikasikan 157 mobil yang terjual berdasarkanan Variable Engine Size, Horsepower,
Wheelbase, Width, Length, Curb weight, Fuel capacity dan Fuel efficiency
Data : cars_sales.dta
Melakukan K-Mean CLuster
cluster kmeans engine_s horsepow mpg, k(2) measure(L2) name(cluster1)

start(krandom) generate(kelompok1)
.
Melihat Profil Setiap Cluster
tabstat engine_s horsepow mpg, statistics( mean ) by(kelompok1)

columns(variables)
Summary statistics: mean

by categories of: kelompok1
kelompok1 | engine_s horsepow mpg

----------+------------------------------
1 | 2.468539 147.9663 25.50674
2 | 3.870769 237.2615 21.56615
----------+------------------------------
Total | 3.06039 185.6558 23.84351
-----------------------------------------
Melihat Jumlah Data Per Cluster
tab kelompok1
kelompok1 | Freq. Percent Cum.

------------+-----------------------------------
1 | 89 57.79 57.79
2 | 65 42.21 100.00
------------+-----------------------------------
Total | 154 100.00
Crosstabulasi Cluster Yang Terbentuk Dengan Variabel Lain
tab manufact kelompok1
| kelompok1
manufacturer | 1 2 | Total
--------------+----------------------+----------
Acura | 1 3 | 4
Audi | 1 2 | 3
BMW | 1 2 | 3
Buick | 1 3 | 4
Cadillac | 0 5 | 5
Chevrolet | 7 2 | 9
Chrysler | 3 3 | 6
Dodge | 7 3 | 10
Ford | 7 4 | 11
Honda | 3 2 | 5
Hyundai | 3 0 | 3
Infiniti | 0 1 | 1
Jaguar | 0 1 | 1
Jeep | 2 1 | 3
Lexus | 0 6 | 6
Lincoln | 0 3 | 3
Mercedes-Benz | 3 6 | 9
Mercury | 4 2 | 6
Mitsubishi | 5 2 | 7
Nissan | 6 1 | 7
Oldsmobile | 4 1 | 5
Plymouth | 3 1 | 4
Pontiac | 3 3 | 6
Porsche | 0 3 | 3
Saab | 2 0 | 2
Saturn | 5 0 | 5
Subaru | 2 0 | 2
Toyota | 6 3 | 9
Volkswagen | 6 0 | 6
Volvo | 4 2 | 6
--------------+----------------------+----------
Total | 89 65 | 154
VI. Prosedur Tidak Berhirarki/K-Mean Cluster Dengan Standarisasi Data
Jika data memiliki perbadaan varian yang cukup mencolok agar hasil analisa menjadi lebih obyektif
dilakukan proses standarisasi terhadap data.
Sebuah perusahaan penyedia jasa telekomunikasi ingin membuat segmen terhadap
customernya berdasarkan pola penggunaan jasa yang mereka tawarkan. Tujuannya
perusahaan akan menawarkan paket menarik untuk customer mereka. Variabel yang akan
digunakan untuk proses pengelompokan memiliki satuan dan variasi yang berbeda sehingga
perlu dilakukan proses standarisasi. Diantaranya variabel yang akan dilakukan standarisasi
diantaranya, distance hingga wireless dan multiple lines hingga electronic billing. Lakukan
pengelompokan terhadap customer menjadi 3 kelompok!
Proses Membuat Variabel Dengan Data Yang Terstandarisasi
egen float zlongmon = std(longmon), mean(0) std(1)
egen float ztollmon = std(tollmon), mean(0) std(1)
egen float zequipmon = std(equipmon), mean(0) std(1)
egen float zcardmon = std(cardmon), mean(0) std(1)
egen float zwiremon = std(wiremon), mean(0) std(1)
Melakukan K-Mean CLuster
cluster kmeans zlongmon ztollmon zequipmon zcardmon zwiremon, k(3)

measure(L2) name(cluster2) start(krandom) generate(kelompok1)
Melihat Profil Setiap Cluster
tabstat longmon tollmon equipmon cardmon wiremon, statistics( mean )

by(kelompok1) columns(variables)
kelompok1 | longmon tollmon equipmon cardmon wiremon

----------+--------------------------------------------------
1 | 10.92326 25.36279 37.38512 19.76395 42.83535
2 | 7.824322 6.066949 8.989576 6.899576 2.066525
3 | 24.40128 21.75128 4.503333 28.00513 5.923333
----------+--------------------------------------------------
Total | 11.7231 13.274 14.2198 13.781 11.5839
-------------------------------------------------------------
Melihat Jumlah Data Per Cluster
tab kelompok1
kelompok1 | Freq. Percent Cum.

------------+-----------------------------------
1 | 215 21.50 21.50
2 | 590 59.00 80.50
3 | 195 19.50 100.00
------------+-----------------------------------
Total | 1,000 100.00
Crosstabulasi Cluster Yang Terbentuk Dengan Variabel Lain
tab region kelompok1
geographic | kelompok1
indicator | 1 2 3 | Total
-----------+---------------------------------+----------
zone 1 | 69 187 66 | 322
zone 2 | 76 197 61 | 334
zone 3 | 70 206 68 | 344
-----------+---------------------------------+----------
Total | 215 590 195 | 1,000

Analisa Cluster DGN Stata

Diunggah oleh

Hak Cipta:

Format Tersedia

Analisa Cluster DGN Stata

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisa Cluster DGN Stata

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 7

II. Tujuan Pelatihan:

III. Metode Analisa Cluster

Contoh data ulangan 6 orang siswa

2. Metode Hierarchy Cluster

Beberapa Perhitungan Jarak Yang di gunakan.

3. Metode Non-Hierarchy Cluster

Standarisasi Data Dalam Analisa Cluster

Mengelompokan 10 merek cereal berdasarkan 3 kandungan nutrisi yaitu (carbohydrate,

cluster singlelinkage Carbo Calories VitaminA, measure(L2)

cluster dendrogram cluster1, horizontal

cluster generate kelompok = groups(2), name(cluster1)

tabstat Carbo Calories VitaminA, statistics( mean ) by(kelompok)

kelompok | Carbo Calories VitaminA

Menutup Analisa cluster yang sudah dikerjaan

cluster drop _all

V. Prosedur Tidak Berhirarki/K-Mean CLuster

Melakukan K-Mean CLuster

cluster kmeans engine_s horsepow mpg, k(2) measure(L2) name(cluster1)

tabstat engine_s horsepow mpg, statistics( mean ) by(kelompok1)

Summary statistics: mean

kelompok1 | engine_s horsepow mpg

Melihat Jumlah Data Per Cluster

kelompok1 | Freq. Percent Cum.

Crosstabulasi Cluster Yang Terbentuk Dengan Variabel Lain

tab manufact kelompok1

VI. Prosedur Tidak Berhirarki/K-Mean Cluster Dengan Standarisasi Data

Proses Membuat Variabel Dengan Data Yang Terstandarisasi

egen float zlongmon = std(longmon), mean(0) std(1)

egen float ztollmon = std(tollmon), mean(0) std(1)

egen float zequipmon = std(equipmon), mean(0) std(1)

egen float zcardmon = std(cardmon), mean(0) std(1)

egen float zwiremon = std(wiremon), mean(0) std(1)

Melakukan K-Mean CLuster

cluster kmeans zlongmon ztollmon zequipmon zcardmon zwiremon, k(3)

Melihat Profil Setiap Cluster

tabstat longmon tollmon equipmon cardmon wiremon, statistics( mean )

kelompok1 | longmon tollmon equipmon cardmon wiremon

Melihat Jumlah Data Per Cluster

kelompok1 | Freq. Percent Cum.

Crosstabulasi Cluster Yang Terbentuk Dengan Variabel Lain

tab region kelompok1

Anda mungkin juga menyukai