Pada modul ini kita akan melakukan data analisis agar lebih memahami data yang digunakan.
Salah satu syarat digunakan teknik matching adalah jika Anda memiliki groups yang uncomparable melalui informasi metrik.
Pertama kita dapat gunakan perspektif average (mean).
df.groupby('catholic').mean()

Dari metrik diatas, dapat dilihat catholic dan non catholic adalah group yang berbeda, lihat kolom income, poverty dan foot stamps.
Selanjutnya kita perlu lakukan T Test untuk continues variables.
#Get the continuous variables
continuous = ["number_places_lived", "mom_age", "dad_age",
"mom_score", "dad_score", "income"]
#storing results
stat = {}
p = {}
#loop
for x in continuous:
group1 = df.where(df.catholic == 0).dropna()[x]
group2 = df.where(df.catholic == 1).dropna()[x]
stat[x], p[x]= ss.ttest_ind(group1, group2)
ttests = pd.DataFrame.from_dict(p, orient = "Index")
ttests.columns = ["pvalue"]
print(ttests)
pvalue
number_places_lived 7.072609e-03
mom_age 1.359492e-22
dad_age 3.344265e-16
mom_score 2.280116e-19
dad_score 5.489722e-18
income 5.943636e-41
Dari informasi diatas dapat diambil kesimpulan kedua group adalah berbeda.
Selanjutnya kita akan lakukan chi-square test untuk mengukur relasi antara dua group dengan value diskrit.
#diskrit variable
categorical = ["poverty", "food_stamps"]
#where to store
p = {}
#loop
for y in categorical:
tab = pd.crosstab(index = df[y],
columns = df.catholic)
stat, p[y], dof, exp = ss.chi2_contingency(tab)
chisquare = pd.DataFrame.from_dict(p, orient = "Index")
chisquare.columns = ["pvalue"]
print(chisquare)
pvalue
poverty 6.511355e-17
food_stamps 3.294153e-08
Sampai disini kita sudah selesai melakukan data analisis. Pada modul berikutnya kita akan mulai mempersiapkan data untuk model.