[latexpage]
Linear regression adalah pendekatan linier yang menunjukan hubungan sebab akibat antara dua atau lebih variabel. Linear regression menunjukan bagaimana sebuah variable mempengaruhi variable lainnya dan sifatnya adalah satu arah.
Linear regression adalah cara yang paling umum untuk menarik kesimpulan dan prediksi.
Proses Linear Regression
- Mengumpulkan sample data.
- Design model yang menjelaskan sample data.
- Gunakan model untuk melakukan prediksi untuk population data.
Linear regression banyak sekali modelnya, model yang paling mudah adalah Simple Linear Regression. Persamaannya adalah seperti berikut
$y = \beta_0 + \beta_1x_1 + \varepsilon$
- y : dependent variable, nilai yang akan diprediksi.
- x : independent variable, nilai yang digunakan untuk melakukan prediksi.
Untuk lebih jelas kita gunakan contoh besarnya gaji ditentukan oleh tingginya pendidikan.
- y adalah dependent variable, nilai yang akan diprediksi, dalam hal ini gaji yang diperoleh.
- x adalah independent variable atau predictor, dalam hal ini adalah lama/tingginya pendidikan.
- koefisien $\beta_1$ akan meningkatkan efek dari tingginya pendidikan.
- konstan $\beta_0$ dapat dianggap sebagai gaji minimum.
- $\varepsilon$ adalah nilai error estimasi, menunjukan perbedaan aktual antara pendapatan yang diamati dan pendapatan dari regresi yang diprediksi.
Model diatas adalah untuk perhitungan data populasi, pada statistik kita selalu melakukan perhitungan pada sample. Berikut persamaan dalam statistik
$\hat y = b_0 + b_1x_1$
Linear regression umumnya dipresentasikan dalam graph line dengan titik-titik disekitar garis tersebut. Objektif dari linear regression adalah membuat garis prediksi sedekat mungkin dengan titik-titik tersebut.

image source : 365datascience.com