Feature Selection – Pendahuluan

Feature selection adalah proses memilih feature yang tepat untuk melatih model ML. Untuk melakukan feature selection, kita perlu memahami hubungan antara variables.

Hubungan antar dua random variables disebut correlation dan dapat dihitung dengan menggunakan correlation coefficient.

Range nilai correlation coeficient adalah:

  • Positif maks +1, korelasi positif, artinya kedua variable akan bergerak searah.
  • Negatif maks -1, korelasi negatif, artinya kedua variable akan bergerak berlawanan.
  • Nol, menunjukan antara kedua variable tidak ada correlation.

Teknik perhitungan correlation cukup banyak, berikut yang umum digunakan: Pearson, Kendall dan Spearman.

Pearson

  • Paling umum digunakan.
  • Digunakan untuk numerical data.
  • Tidak bisa digunakan untuk ordinal data.
  • Mengukur linear data dengan asumsi data terdistribusi normal.

Kendall

  • Rank correlation measure.
  • Dapat digunakan untuk numerical dan ordinal data, namun tidak untuk nominal data.
  • Tidak diperlukan linear relationship antar variable.
  • Digunakan untuk mengukur kemiripan ranked ordering data.
  • Untuk kondisi normal lebih baik menggunakan Kendall dibandingkan Spearman.

Spearman

  • Rank correlation measure
  • Dapat digunakan untuk numerical dan ordinal data, namun tidak untuk nominal data.
  • Tidak diperlukan linear relationship antar variable.
  • Monotonic relationship

Table Evaluation Correlation

RangeRelasi
0 – 0.1Tidak ada relasi
0.1 – 0.3Relasi kecil/lemah
0.3 – 0.5Relasi menengah
> 0.5Relasi kuat

Sharing is caring:

Leave a Comment