Data Correlation Menggunakan YellowBrick

Yellowbrick adalah library visualization untuk machine learning. Yellowbrick membutuhkan scikit-learn dan matplotlib. Untuk dokumentasi lengkap di https://www.scikit-yb.org/en/latest/quickstart.html#

Berikut contoh code data correlation menggunakan Yellowbrick.

Pertama import library yang diperlukan yaitu pandas, matplotlib.pyplot dan FeatureCorrelation.

Setelah itu, definisikan dataframe untuk target, yaitu price, dan features yaitu data selain price. Perhatian, code ini adalah lanjutan dari modul sebelumnya, jadi masih menggunakan dataframe yang telah dipisahkan berdasarkan tipedata numeric.

Fungsi FeatureCorrelation membutuhkan input labels, yang diisi dari nama column feature dan method, pada contoh digunakan pearson.

Kemudian gunakan perintah fit() dengan parameter dataframe features dan target.

Dan terakhir, perintah poof() untuk menampilkan chart.

import pandas as pd
import matplotlib.pyplot as plt
from yellowbrick.target import FeatureCorrelation

target = df_num['Price']
features = df_num.drop('Price', axis=1)

features_nm = list(features.columns)

visualizer = FeatureCorrelation(labels= features_nm, method='pearson')
visualizer.fit(features, target)
visualizer.poof()

Dapat kita lihat, correlation feature terhadap target(price), bathroom, bedroom2 dan rooms berkorelasi positif.

Distance berkorelasi negatif terhadap price.

Sharing is caring:

Leave a Comment