Last year was very exciting, it has been full of its ups and downs for the crypto market, but for us, these were ups all the way. 2018 was a great year for us and we layed the foundation for an…
Assalammualaikum wr. wb.
Hello guysss! Kembali lagi ni di mediumku. Pada kesempatan kali ini aku mau sharing ke kalian terkait dengan clustering.
Apa itu cluster?
Analisis cluster merupakan kelas teknik, dipergunakan untuk mengklasifikasi objek atau kasus (responden) ke dalam kelompok yang relatif homogen, yang disebut klaster (clusters). Objek/kasus dalam setiap kelompok cenderung mirip satu sama lain dan berbeda jauh (tidak sama) dengan objek dari cluster lainnya (Supranto, 2004).
Clustering berbeda dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering. Menurut (Larose, 2004), clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari sebuah variabel target. Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan himpunan data menjadi subgroup yang relatif sama atau cluster, dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan.
Metode pengelompokan yang digunakan dalam artikel ini adalah metode pengelompokan hirarki (Hierarchical Cluster).
Hierarchical Agglomerative Clustering (HAC) adalah suatu metode clustering yang bersifat bottom-up yaitu menggabungkan n buah cluster menjadi satu cluster tunggal. Metode ini dimulai dengan meletakkan setiap obyek data sebagai sebuah cluster tersendiri dan selanjutnya menggabungkan cluster-cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua objek data menyatu dalam sebuah cluster tunggal. Secara logika semua obyek pada akhirnya hanya akan membentuk sebuah cluster (Santoso, 2010).
a. Single Linkage Clustering
Menurut Johnson, R.A & Wichern, D.W. (2007) Single Linkage Clustering merupakan prosedur pengelompokan agglomerative yang didasarkan pada jarak minimum/jarak terdekat antar objek.
b. Complete Linkage
Complete Linkage adalah pengelompokkan yang sama seperti single linkage namaun dengan cara mengkelompokkan objek yang memiliki jarak terjauh atau kesamaan yang sedikit.
c. Average linkage
Average linkage adalah pengelompokkan yang dibentuk berdasarkan nilai rata-rata jarak seluruh individu dalam satu kelompok dengan rata-rata jarak seluruh individu pada kelompok lain.
d. Metode Ward’s
Jarak antar dua kelompok dalam metode ward’s adalah jumlah kuadrat antara dua kelompok untuk seluruh variabel. Metode ini mencoba meminimumkan varian dalam kelompok dan cenderung digunakan untuk melakukan kombinasi kelompok-kelompok dengan jumlah yang kecil.
e. Centroid method
Mendefinisikan kesamaan antar kluster dari jarak diantara dua centroid klaster-klaster yang ada. Centroid adalah rata-rata jarak, yang didapat dengan melakukan rata-rata pada semua anggota suatu klaster tertentu.
Okeee, Let’s Start!!
Langkah pertama yang dibutuhkan adalah mempersiapkan packages seperti berikut.
Selanjutnya, import data ke dalam R. Data yang digunakan diambil dari website BPS, berikut data yang digunakan.
Kemudian, melakukan pengujian mulkolinearitas terhadap data yang digunakan. Karena, dalam cluster hirarki harus memenuhi asumsi multikolinearitas.
Berdasarkan gambar diatas diperoleh informasi bahwa nilai koefisien korelasi antar variabel < 0.85, artinya tidak terdapat multikolineritas atau asumsi multikolinearitas terpenuhi.
Cluster Hirarki
Berikut syntax yang digunakan
Untuk menentukan metode yang terbaik, melihat dari Korelasi Chophenetic yang terbesar, seperti berikut.
Dari kelima metode tersebut diperoleh nilai korelasi comphenetic tertinggi dimiliki oleh metode centroid yaitu sebesar 0.8783. Sehingga, disimpulkan bahwa metode cluster terbaik untuk studi kasus ini adalah metode centroid.
Berikut hasil dendogram dengan metode centroid.
Kemudian, ditentukan jumlah cluster sebanyak 4 menyesuaikan dengan kateogri IPM yaitu :
Berikut hasilnya
Berdasarkan hasil dendogram yang telah terbentuk dan penentuan jumlah cluster, diperoleh hasil sebagai berikut.
Berikut ini merupakan rata-rata hasil cluster dari masing-masing cluster
Diperoleh bahwa :
Nah, udah kelar ni. Semoga bermanfaat ya teman-teman :)
Referensi
The average American teen is spending eight hours each day consuming digital content. That’s discounting screen time for school and homework reasons. With documentaries like The Social Dilemma…
You and your partner meet someone at a party, and you later agree that the person didn’t seem very authentic. So, authenticity has to do with origin stories. If the baseball’s origin story involves…
How to avoid that