Handling Outliers

Outliers adalah data point yang jauh berbeda dari data point lainnya dalam satu dataset yang sama. Ada beberapa teknik untuk identifikasi outilier, diantaranya: Distance from mean dan Distance from fitted line. Distance from Mean Mean adalah nilai rata-rata dari suatu dataset. Jika suatu datapoint sangat jauh dari mean, dapat dipertimbangkan sebagai outliers. Selain mean, diperlukan … Read more

Sharing is caring:

Handling Missing Values

Seperti sudah dibahas pada modul sebelumnya, missing values lumrah terjadi. Ada dua pendekatan: Deletion atau Listwise deletion Imputation Listwise Deletion, cara termudah dan sering digunakan, yaitu menghapus seluruh row data yang mengandung missing value. Namun teknik ini bisa menyebabkan masalah kekurangan data. Hal lain yang perlu diperhatikan adalah jika missing value tidak random. Menghapus data … Read more

Sharing is caring:

Permasalahan Umum Data

Saat berhubungan dengan data yang dikumpulkan dari berbagai media, sangat umum untuk menghadapi masalah seperti berikut: Kekurangan data atau Kelebihan data Data yang tidak representative Missing data Duplicate data Outliers Kekurangan data, akan menghasilkan model yang tidak akurat. Dapat menyebabkan overfitting dan underfitting. Solusi dari masalah ini hanya satu, cari data lebih banyak lagi. Kelebihan … Read more

Sharing is caring:

Pengenalan Feature Engineering

Berdasarkan diagram ML workflow dibawah, tutorial akan fokus membahas langkah pertama yaitu data preparation. Dalam data preparation termasuk proses data cleaning, menangani data outliers dan pemilihan feature. Proses-proses ini sering disebut juga feature engineering. Berikut beberpa point penting tentang feature engineering: Menggunakan berbagai teknik, mengambil manfaat dari berbagai teknik dan tidak ada urutan baku. Umumnya … Read more

Sharing is caring: