Sebelum memulai tutorial, mari kita pahami dulu apa yang dimaksud Features, Labels dan Machine Learning
Machine Learning
Machine learning selanjutnya kita sebut ML, secara sederhana adalah program komputer yang mampu melakukan prediksi dengan dilatih menggunakan data.
ML sangat luas, namun dapat dibagi dalam 4 kategori besar:
- Classification, melakukan prediksi berdasarkan kategori, contoh membedakan kucing atau anjing.
- Regression, melakukan prediksi continous number, contoh harga saham, harga rumah.
- Clustering, melakukan grouping berdasarkan cluster terdekat, misalnya clustering customer untuk market targeting.
- Dimensionality Reduction, transform data dari high-dimension menjadi low-dimension. Berguna untuk melakukan pemilihan features.
Feature dan Label
Untuk melakukan prediksi, model dari ML perlu dilatih dengan diberi data, namun tidak seluruh data digunakan untuk melatih. Data yang dipilih untuk melatih disebut feature atau sering disebut x variables.
Contoh, terdapat data property
- Luas tanah
- Luas bangunan
- Jumlah Kamar Tidur
- Ukuran Torrent Air
Melihat contoh data sederhana diatas, yang termasuk feature adalah luas tanah dan bangunan serta jumlah kamar tidur. Karena harga rumah dapat diprediksi berdasarkan data tersebut. Namun ukuran torrent air tidak akan mempengaruhi harga rumah.
Sementara harga rumah yang diprediksi oleh model adalah Label atau sering disebut y variables.