Cluster Analysis – Pendahuluan

[latexpage]

Cluster analysis adalah teknik statistical multivariate yang mengelompokan hasil pengamatan berdasar fitur atau variable, atau sederhananya mengelompokan dataset dalam group yang dapat memberikan informasi penting.

Cluster analysis country

Contoh ada list 6 negara, Inggris, Amerika, Jerman, Perancis, Kanada dan Australia. List ini dapat dikategorikan menjadi:

  • Group Kontinen: Inggris, Perancis dan Jerman dalam kontinen Eropa, Amerika dan Kanada dalam kontinen north america, serta Australia, yaitu kontinen Asia dan australia.
  • Group Bahasa: Inggris, Amerika, Kanada, Australia dalam group Inggris, sementara Jerman dan Perancis adalah group non-Inggris.

Dari contoh diatas, dengan data yang sama, kita bisa membuat clustering berdasarkan features (fitur) yang berbeda yaitu lokasi geografis atau bahasa.

Tujuan dari clustering analysis adalah memaksimumkan kesamaan dalam satu cluster, dan memaksimumkan perbedaan antar cluster.

Manfaat Cluster Analysis

Jika melihat contoh diatas, kita tentu sudah paham, USA ada di Amerika, Prancis di Eropa. Dimana Data Sciencenya? Mungkin itu yang terlintas dalam pemikiran kita.

Cluster Analysis dapat diimplementasikan untuk melakukan market segmentation. Contoh, dari data sales, kita bisa melakukan cluster analysis dan melihat kelompok tertentu yang nilai belanjanya tinggi. Dengan mengetahui informasi tersebut, kita bisa melakukan targeting dalam membuat iklan.

Walaupun cluster analysis bukan alat tunggal untuk menyelesaikan masalah, cluster analysis sering digunakan sebagai tahap awal. Karena cluster analysis sangat berguna dalam mengexplore data dan identifikasi pattern pada data.

Cluster analysis juga digunakan untuk image segmentation, yang aplikasinya untuk melakukan object recognition pada computer vision.

image recognition
Image Recognition (source: wikipedia)

Math Prerequisite

Untuk memahami cluster analysis ada dua teori matematika yang perlu diketahui, yaitu jarak antara dua koordinat (Euclidian distance) dan Centroid.

Euclidean distance, atau jarak antara data points.

Euclidian distance

Dalam persamaan matematika dapat kita tuliskan sebagai berikut:

  • 2 dimensi: $d(A,B) = \sqrt{(x_2-x_1)^2+(y_2-y_1)^2}$
  • 3 dimensi: $d(A,B) = \sqrt{(x_2-x_1)^2+(y_2-y_1)^2+(z_2-z_1)^2}$

Centroid adalah posisi mean dari kumpulan data points.

centroid
Centroid
Sharing is caring: