Pengenalan Random Forest, Decision Tress dan Ensemble Learning

Pengenalan Ensemble Learning

Untuk memahami Random Forest, kita perlu memahami metoda Ensemble Learning, yaitu metoda yang menggunakan multiple learning algorithms untuk mendapatkan hasil prediksi yang lebih baik.

Secara sederhana, ensemble learning dapat diumpakan dengan kerja team, dimana hasilnya akan lebih baik karena setiap anggota memiliki kekuatan masing-masing yang dapat mengimbangi kelemahan anggota team yang lain.

Jika Anda bertanya apakah Random Forest menghasilkan yield yang lebih baik? Berikut beberapa faktanya:

  • Random Forest menduduki ranking pertama dalam kompetisi data science.
  • Studi yang menunjukan menggabungkan beberapa model menghasilkan akurasi yang lebih baik.
  • Ensemble learning menerapkan konsep continuous learning dari machine learning.

Pengenalan Random Forest dan Decision Trees

Random Forest sendiri adalah kombinasi dari multiple decision trees models.

Berikut beberapa karakteristik dari Random Forest:

  • Ada kecenderungan overfit.
  • Bekerja baik untuk multicollinearity.
  • Bekerja baik untuk non-linearity.
  • Dapat menangani outlier dengan baik.

Untuk menjelaskan Decision Trees, kita gunakan problem classification imajiner agar lebih mudah menjelaskannya.

Misalnya terdapat dataset dengan 2 independent variable dan 1 dependent variable. Dimana dependent variable menunjukan nilai true (dot warna kuning) dan false (dot warna biru).

Tujuan dari decision trees adalah memaksimalkan informasi untuk menghasilkan keputusan terbaik dengan cara membagi data. Misalnya split yang paling relevan adalah pada nilai x2 = 50.

Maka kita dapat mulai membuat tree dengan informasi x2<50, dengan memberikan pilihan yes atau no.

Selanjutnya, kita akan membuat split berikutnya, yang dapat disebut leaf. Misalnya ditemukan split berikutnya adalah x1 > 70 dan x2 < 50.

Sampai disini, tree untuk cabang x1> 70, sudah selesai karena prediksi sudah bisa dipastikan hasilnya blue.

Jadi decision tree adalah algoritma yang menggunakan spliting untuk menentukan keputusan.

Hal yang perlu diperhatikan mencegah splitting berlebihan hingga model menjadi overfitting.

Jadi split akan dilakukan berdasarkan maximum entropy logic dan prediksi berdasarkan relative frequency.

Sharing is caring: