Our 2018 year in review

Last year was very exciting, it has been full of its ups and downs for the crypto market, but for us, these were ups all the way. 2018 was a great year for us and we layed the foundation for an…

Smartphone

独家优惠奖金 100% 高达 1 BTC + 180 免费旋转




Hierarchical Clustering with R

Assalammualaikum wr. wb.

Hello guysss! Kembali lagi ni di mediumku. Pada kesempatan kali ini aku mau sharing ke kalian terkait dengan clustering.

Apa itu cluster?

Analisis cluster merupakan kelas teknik, dipergunakan untuk mengklasifikasi objek atau kasus (responden) ke dalam kelompok yang relatif homogen, yang disebut klaster (clusters). Objek/kasus dalam setiap kelompok cenderung mirip satu sama lain dan berbeda jauh (tidak sama) dengan objek dari cluster lainnya (Supranto, 2004).

Clustering berbeda dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering. Menurut (Larose, 2004), clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari sebuah variabel target. Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan himpunan data menjadi subgroup yang relatif sama atau cluster, dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan.

Metode pengelompokan yang digunakan dalam artikel ini adalah metode pengelompokan hirarki (Hierarchical Cluster).

Hierarchical Agglomerative Clustering (HAC) adalah suatu metode clustering yang bersifat bottom-up yaitu menggabungkan n buah cluster menjadi satu cluster tunggal. Metode ini dimulai dengan meletakkan setiap obyek data sebagai sebuah cluster tersendiri dan selanjutnya menggabungkan cluster-cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua objek data menyatu dalam sebuah cluster tunggal. Secara logika semua obyek pada akhirnya hanya akan membentuk sebuah cluster (Santoso, 2010).

a. Single Linkage Clustering

Menurut Johnson, R.A & Wichern, D.W. (2007) Single Linkage Clustering merupakan prosedur pengelompokan agglomerative yang didasarkan pada jarak minimum/jarak terdekat antar objek.

b. Complete Linkage

Complete Linkage adalah pengelompokkan yang sama seperti single linkage namaun dengan cara mengkelompokkan objek yang memiliki jarak terjauh atau kesamaan yang sedikit.

c. Average linkage

Average linkage adalah pengelompokkan yang dibentuk berdasarkan nilai rata-rata jarak seluruh individu dalam satu kelompok dengan rata-rata jarak seluruh individu pada kelompok lain.

d. Metode Ward’s

Jarak antar dua kelompok dalam metode ward’s adalah jumlah kuadrat antara dua kelompok untuk seluruh variabel. Metode ini mencoba meminimumkan varian dalam kelompok dan cenderung digunakan untuk melakukan kombinasi kelompok-kelompok dengan jumlah yang kecil.

e. Centroid method

Mendefinisikan kesamaan antar kluster dari jarak diantara dua centroid klaster-klaster yang ada. Centroid adalah rata-rata jarak, yang didapat dengan melakukan rata-rata pada semua anggota suatu klaster tertentu.

Okeee, Let’s Start!!

Langkah pertama yang dibutuhkan adalah mempersiapkan packages seperti berikut.

Selanjutnya, import data ke dalam R. Data yang digunakan diambil dari website BPS, berikut data yang digunakan.

Data Indikator IPM

Kemudian, melakukan pengujian mulkolinearitas terhadap data yang digunakan. Karena, dalam cluster hirarki harus memenuhi asumsi multikolinearitas.

Korelasi

Berdasarkan gambar diatas diperoleh informasi bahwa nilai koefisien korelasi antar variabel < 0.85, artinya tidak terdapat multikolineritas atau asumsi multikolinearitas terpenuhi.

Cluster Hirarki

Berikut syntax yang digunakan

Untuk menentukan metode yang terbaik, melihat dari Korelasi Chophenetic yang terbesar, seperti berikut.

Dari kelima metode tersebut diperoleh nilai korelasi comphenetic tertinggi dimiliki oleh metode centroid yaitu sebesar 0.8783. Sehingga, disimpulkan bahwa metode cluster terbaik untuk studi kasus ini adalah metode centroid.

Berikut hasil dendogram dengan metode centroid.

Cluster Dendogram

Kemudian, ditentukan jumlah cluster sebanyak 4 menyesuaikan dengan kateogri IPM yaitu :

Berikut hasilnya

Berdasarkan hasil dendogram yang telah terbentuk dan penentuan jumlah cluster, diperoleh hasil sebagai berikut.

Hasil Cluster

Berikut ini merupakan rata-rata hasil cluster dari masing-masing cluster

Diperoleh bahwa :

Nah, udah kelar ni. Semoga bermanfaat ya teman-teman :)

Referensi

Add a comment

Related posts:

Can Media Consumption Help Shift Teens From Mental Hell to Mental Health?

The average American teen is spending eight hours each day consuming digital content. That’s discounting screen time for school and homework reasons. With documentaries like The Social Dilemma…

What does it mean to be authentic?

You and your partner meet someone at a party, and you later agree that the person didn’t seem very authentic. So, authenticity has to do with origin stories. If the baseball’s origin story involves…

Comfort Will Destroy Your Life

How to avoid that