Indikator Model yang Signifikan adalah dengan melihat nilai F-Statistik, R-Squared, Adjusted R-Squared. Model yang signifikan akan memiliki:
- F-Statistic yang lebih besar
- R-Squared yang lebih besar
- Adjusted R-Squared yang lebih besar
Berikutnya, adalah nilai dari p value pada tabel coefficient. Suatu variable signifikan terhadap model jika nilai p value <= 0.05
Mari buat model baru untuk perhitungan GPA berdasarkan SAT dari Lesson Simple Linear Regression dengan StatsModel pada lesson sebelumnya, namun sekarang ditambahkan data random. Download data disini.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
data = pd.read_csv('Multiplelinearregression.csv')
y = data ['GPA']
x1 = data [['SAT','Rand 1,2,3']]
x = sm.add_constant(x1)
results = sm.OLS(y,x).fit()
results.summary()
Program diatas sama dengan lesson sebelumnya, perbedaanya pada assignment data untuk variable x1, selebihnya sama.
x1 = data [['SAT','Rand 1,2,3']]
Jadi, disini akan dibandingkan model yang sudah ditambahkan variable baru, dengan model dari lesson sebelumnya. Yang akan dibandingkan adalah indikator yang telah dijabarkan diatas.
Sengaja ditambahkan variable yang tidak relevan terhadap perhitungan GPA, yaitu dengan menambahkan variable random.
Berikut tabel summary, sebelah kiri adalah model yang sudah ditambahkan variable random, sementara yang sebelah kanan adalah tabel dari Lesson Simple Linear Regression Menggunakan StatsModel.

Setelah variable yang tidak relevan terhadap model ditambahkan dalam perhitungan dapat kita perhatikan:
- F-Statistic, menjadi lebih kecil, 27.76 dibandingkan 56.05
- R-Squared, menjadi lebih besar, 0.407 dibandingkan 0.406
- R-Squared menjadi lebih kecil ,0.392 dibandingkan 0.399
Kesimpulan, penambahan variable baru tidak significant. Karena yang diharapkan adalah F-Statistic, R-Squared dan Adjusted R-Squared yang lebih besar.
Pada contoh diatas memang R-Squared lebih besar, namun Adjusted R-Squared lebih kecil, menunjukan model ini tidak signifikan dibandingkan dengan model sebelumnya.
Berikutnya adalah p value dari variable ‘Rand 1,2,3’ pada tabel coefficient. Nilainya adalah 0.762, sementara nilai yang diharapkan adalah dibawah 0.05. Ini menunjukan variable Rand 1,2,3 tidak significant terhadap model.
Karena tidak signfikan, maka variable ‘Rand 1,2,3’ dapat dibuang dari perhitungan model.