K-Means Clustering – Kesimpulan

Setelah melewati beberapa lesson, akhirnya kita sampai pada lesson k-means clustering – kesimpulan. Disini kita akan bahas mengenai pro dan kontra, isu standarisasi dan manfaat dari clustering.

Pro dan Kontra

Pro:

  • K-Means clustering mudah dimengerti.
  • Cepat dalam membuat clustering.
  • Dukungan dari library pihak ketiga, memudahkan implementasi.
  • Clustering selalu menghasilkan solusi, walaupun ada kemungkinan bias.

Kontra:

  • Harus menenutkan jumlah cluster. Walaupun dapat diselesaikan menggunakan elbow method.
  • Sensitive terhadap inisialisasi seed/centroid awal. Dapat diselesaikan menggunakan k-means++ dimana seed yang tepat akan ditentukan. Jika menggunakan sklearn sudah menggunakan k-means++ dimana library sudah melakukan perhitungan untuk meletakan seed.
  • Sensitive terhadap data outliers. Jika ada outliers, maka otomatis menjadi 1 cluster sendiri. Pencegahannya adalah dengan membuang data outliers.
  • Standarization.

Standarization

Pada lesson sebelumnya, kita sudah melakukan proses standarisasi. Proses ini untuk menyamakan weight dari independent variable agar memiliki skala yang sama.

Walaupun ada pro dan kontra apakah perlu melakukan standarisasi, untuk pemula disarankan untuk melakukan standarisasi. Dapat dilihat dari lesson sebelumnya K-Means Clustering dan Standardization, dengan standarisasi model dapat menghitung cluster dengan tepat.

Pemahaman akan data sangat diperlukan, hingga kita tahu kapan perlu melakukan standarisasi.

Manfaat dari Clustering

Analysis dapat dibagi menjadi tiga tipe, yaitu: exploratory, confirmatory dan explanatory.

Exploratory bertujuan memahami data, mencari pattern dan merencanakan metoda apa yang akan digunakan. Penggunaan data visualisasi, desrciptive statistic dan clustering dapat membantu.

Confirmatory dan explanatory, tidak ada garis tegas yang membedakan keduanya, namun keduanya bertujuan menjelaskan fenomena, konfirmasi hipotesa atau untuk mevalidasi hasil riset. Biasanya kita akan menggunakan hypothesis testing dan linear regression.

Clustering dapat digunakan untuk ketiga jenis analysis diatas, namun umumnya digunakan dalam exploratory.

K-Means clustering

Dari contoh lesson K-Means Clustering dan Standarization, dengan memahami kelompok customer, pihak manajerial bisa mengambil keputusan untuk meningkatkan sales.

Contoh sederhana diilustrasikan customer pada sebuah supermarket.

  • Loyalitas tinggi namun tingkat kepuasan rendah, customer sudah lama berlangganan belanja, namun karena antrian yang panjang bisa membuat loyal customer pindah. Setelah melihat data clustering, pihak supermarket bisa membuat keputusan untuk menambah cashier.
  • Loyalitas rendah namun tingkat kepuasan tinggi, pihak supermarket bisa membuat loyality program seperti discount voucher atau kartu membership.

Clustering juga digunakan perusahaan internet besar seperti Google, Amazon dan Facebook untuk melakukan Ads targeting.

Sharing is caring: