Data Training, Validation dan Test

Pada prakteknya, kita perlu membagi data untuk 3 subset, yaitu Data training, validation dan test.

Pembagian subset ini harus dilakukan dari awal. Komposisi pembagian bisa berbeda-beda, umumnya:

  • 80% Training, 10% Validasi dan 10% Test
  • Atau 70% Training, 20% Validasi dan 10% Test.

Antar subset data tidak boleh overlap, karena akan merusak proses training model. Selalu pastikan ukuran training harus jauh lebih besar dari data validasi dan test. Karena dengan data training yang terlalu kecil, model tidak akan “belajar”.

Data Training, seperti namanya, data yang digunakan untuk training model. Sejauh ini kita telah melakukan tersebut.

Data Validation, digunakan untuk proses validasi model dan mencegah overfitting.

Dataset di input ke sistem untuk menghitung loss function, tanpa melakukan update bias dan weight.

Setiap epoch atau iterasi, proses training dan validasi dilakukan beruntutan. Setiap selesai melakukan training, dilanjutkan dengan proses validasi.

JIka nilai loss function dari proses validasi naik, training model dihentikan. Akan kita bahas lebih detail di lesson berikutnya.

Data Testing, digunakan untuk testing model, sebagai simulasi penggunaan model pada dunia nyata. Data testing tidak boleh pernah dilihat oleh model sebelumnya.

N-Fold Cross-Validation

Jika data yang dimiliki terlalu kecil untuk dibagi menjadi 3 subset, ada pendekatan yang disebut N-Fold Cross-Validation.

Strategi ini akan mengkombinasikan data training dengan data validasi. Namun kita tetap membutuhkan data test tersendiri.

Contoh, kita memiliki 11.000 data, 1.000 kita gunakan untuk data test, 10.000 kita gunakan untuk kombinasi training dan validasi.

Dari 10.000 data kombinasi, kita bagi menjadi 10 subset, 9.000 untuk training dan 1.000 untuk validasi. Karena ada 10 subset, maka disebut 10-fold cross validation. Digunakan 10 karena umum digunakan.

n-fold cross-validation
  • Pro: dengan data yang kecil, kita masih bisa membuat model.
  • Kontra: model ada kemungkinan sedikit overfitting, karena kita melakukan validasi dengan data yang pada dasarnya adalah data training.

Perhatian, gunakan strategi n-fold bila data kecil. Jika memungkinkan, selalu bagi data menjadi 3 subset: training, validasi dan testing.

Sharing is caring: