Permasalahan Umum Data

Saat berhubungan dengan data yang dikumpulkan dari berbagai media, sangat umum untuk menghadapi masalah seperti berikut:

  • Kekurangan data atau Kelebihan data
  • Data yang tidak representative
  • Missing data
  • Duplicate data
  • Outliers

Kekurangan data, akan menghasilkan model yang tidak akurat. Dapat menyebabkan overfitting dan underfitting. Solusi dari masalah ini hanya satu, cari data lebih banyak lagi.

Kelebihan data, bisa saja terdapat data yang tidak relevant seperti berikut:

  • Kolom data (feature) yang terlalu banyak dapat menyebabkanmasalah yang sering disebut dengan istilah Curse of Dimensionality.
  • Row data terlalu banyak, disebabkan data yang sudah kadaluarsa. Data history bisa saja menyebabkan model menjadi bermasalah dan tidak akurat. Diperlukan pertimbangan dan pengetahuan dibidan bersangkutan untuk memilih data.

Non representative, tidak mempresentasikan kondisi pada dunia nyata. Biasanya terjadi karena sample data yang kurang. Model akan menjadi biased dan prediksi tidak akurat. Ada dua penangan data, yaitu oversampling dan undersampling

Missing data dan outliers, sangat umum terjadi. Perlu dilakukan data cleaning.

Duplicate data, umumnya terjadi pada real-time streaming data karena sulit untuk mendeteksi data duplikat.

Penanganan missing data dan outliers akan dibahas pada modul berikutnya.

Sharing is caring:

Leave a Comment