Untuk mempelajari Gaussian Mixture model, kita akan gunakan contoh kasus aplikasi kartu kredit. Disini kita akan mempelajari bagaimana menentukan jumlah cluster optimum dan menerapkannya kedalam Gaussian Mixture Model. Selanjutnya, kita interpretasikan hasil segmentasi tersebut.
Anda dapat download data untuk tutorial di CreditCard.csv.
Untuk kemudahan mengikuti tutorial, disarankan untuk menggunakan Google Colab.
Persiapan Direktori
Jika Anda menggunakan colab, upload data creditcard.csv diatas ke Google drive, lalu mount Google drive dari Google Colab, kemudian masuk ke direktori tersebut.
#mounting google drive
from google.colab import drive
drive.mount('/content/drive')
#masuk ke direktori kerja, gunakan path yang Anda miliki.
%cd /content/drive/MyDrive/skillplus/BA Files/Segmentation/Gaussian Mixture Model
Import Library yang digunakan
#import libraries import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.mixture import GaussianMixture
Load data CreditCard.csv
#load the data
df = pd.read_csv("CreditCard.csv")
Anda dapat periksa data yang diload menggunakan perintah df.head(), dimana akan ditampilkan 5 data teratas.
Jika Anda lihat, data memiliki object / character variable. Kita akan transform menggunakan method get_dummies, dimana colom card akan di drop dan tipe data object akan diubah menjadi number .

#Transform character variables df = pd.get_dummies(df, drop_first = True)

Sampai disini kita sudah melakukan persiapan awal dan persiapan data. Pada modul selanjutnya kita akan membahas bagaimana menentukan jumlah cluster yang optimum