Pengenalan Teknik Clustering dan Gaussian Mixture

Clustering adalah terminilogi yang lebih luas dari unsupervised learning, dimana tidak dibutuhkan dependent variable, atau pada machine learning sering disebut “y”.

Untuk lebih jelasnya apa itu clustering, Anda dapat lihat gambar berikut:

MIsalnya Anda ingin mendapatkan 3 cluster untuk data diatas, maka algoritma akan mengelompokan data berdasarkan karakteristiknya dan mengelompokannya menjadi 3 cluster. Kita akan mempelajari bagaimana menentukan jumlah cluster yang paling optimum pada modul terpisah.

Tujuannya adalah dengan memiliki group yang lebih kecil, kita dapat memahami data lebih jelas.

Clustering dapat dikatakan 60% art dan 40% science. Anda perlu memberikan nama untuk setiap cluster dan melakukan interpretasi. Ada kalanya hasil clustering tidak sejalan dengan logika bisnis, Anda perlu berhati-hati dalam melakukan clustering.

Gaussian Mixture Model

Gaussian mixture adalah salah satu algoritma clustering yang umum digunakan.

Untuk memudahkan penjelasan, kita akan gunakan data 1 dimensi (lihat gambar dibawah).

Pada gambar, ditentukan akan digunakan 3 cluster dan akan membentuk 3 kurva cluster (curve 1, 2 dan 3).

Jika Anda perhatikan, curve dibawah memiliki bentuk yang sama dengan normal distribution curve, yang sering disebut juga gaussian distribution. Jadi nama gaussian mixture diambil dari sini.

Dalam normal distribution, terdapat degree of probability. Jadi Gaussian Mixture Model adalah clustering dengan metoda probabilistic. Dimana model akan mengalokasikan observasi kedalam cluster yang memiliki probabilistik paling besar.

Jadi bila dibandingkan dengan metoda clustering klasik seperti kmeans, jika suatu observasi termasuk dalam cluster a, maka 100% observasi adalah cluster a.

Sementara pada Gaussian Mixture, tidak akan 100%. Ada kemungkinan observasi masuk kedalam dua cluster, seperti pada gambar dibawah dimana observasi masuk didalam irisan 2 kurva cluster. Jadi bisa saja suatu observasi secara probablistik 70% di cluster a dan 30% dicluster b. (angka 30 dan 70 hanyalah contoh, bukan angka baku).

Implementasinya, jika Anda menganalisa data customer, dengan mengetahui posisi mereka adalah jatuh didalam dua kluster, Anda lebih memahami customer dan dapat memberikan penawaran yang lebih tepat.

Sharing is caring: