Pada modul ini kita akan mempersiapkan data dengan mengubah data object menjadi numeric menggunakan perintah get_dummies().
#Transform objects into numerical variables
df = pd.get_dummies(data = df,
drop_first = True)
Silakan pelajari data dengan melihat data summary statistik untuk memberikan wawasan mengenai data.
#Summary Statistics df.describe()

Dapat dilihat pada baris max, terdapat nilai 14, dengan melihat informasi quartile memiliki nilai nol, ada kemungkinan ini adalah outlier. Namun salah satu kelebihan dari random forest, Anda tidak perlu khawatir mengenai outlier.
Selanjutnya kita akan memisahkan data untuk X dan y.
#isolate X and y y = df.card_yes X = df.drop(columns = "card_yes")
Kemudian split dataset untuk training dan test.
Perhatian: diimport library baru dari sklearn. Sengaja kami pisahkan import untuk menunjukan tujuan library.
#Training and Test Split
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size = 0.2,
random_state = 1502,
stratify = y)
Sampai disini kita sudah melakukan persiapan data, pada modul berikutnya kita akan mulai membuat Random Forest model.