[latexpage]
Pada lesson ini kita akan sedikit membahas terminology SSE, SSR dan SST dan hubungannya secara matematis.
Sum of Squares Total (SST / TSS)
$\sum_{i=1}^n (y_i – \overline{y})^2$
- $y_i$ adalah dependent variable
- $\overline{y}$ adalah nilai rata-rata dependent variable.
Sum of Squares Regression (SSR / ESS)
$\sum_{i=1}^n (\hat{y_i} – \overline{y})^2$
- $\hat y$ adalah predicted value.
- $ \overline{y}$ adalah nilai rata-rata dependent variable.
Sum of Squares Error (SSE / RSS)
$\sum_{i=1}^n {e_i}^2$
Error adalah perbedaan dari observed value (dependent variable y) dengan dan predicted value. Makin kecil SSE, makin baik hasil prediksi.
Hubungan matematis dari SST, SSR dan SSE adalah seperti berikut:
SST = SSR + SSE

R-Squared
R-squared menunjukan seberapa baik garis regresi fit terhadap dependent variable. R-square dihitung menggunakan formula:
$R^2 = \frac{SSR}{SST}$
Range R-square adalah dari 0 – 1. Makin mendekati angka 1, makin baik garis regresi dan makin baik model dalam melakukan prediksi. Umumnya sebuah regresi bisa dibilang baik jika berada di range 0.2 – 0.9
Variasi independent variable mempengaruhi R-Square. Makin variatif independent variable yang digunakan dalam pembuatan model regresi, makin tinggi nilai R-squared.
Contoh: Dengan menggunakan lesson sebelumnya untuk perhitungan GPA berdasarkan nilai SAT. Jika ditambahkan seperti income, status pernikahan, akan membuat perhitungan lebih akurat.
Mengapa? Jika seseorang memiliki income lebih, dia tidak harus bekerja paruh waktu. Tentu memiliki waktu lebih banyak untuk belajar. Begitu juga status pernikahan, jika sudah berkeluaraga, ada kecenderungan tingkat kehadiran kuliah akan berkurang.
Dengan begitu, variable fitur diatas akan membantu pembuatan model regresi yang lebih akurat.