Data yang digunakan untuk tutorial ini adalah https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
DataFrame Index
Index adalah kolom dengan nilai unik yang digunakan untuk identifikasi data masing-masing row. Secara default, index digenerate oleh pandas mulai dari angka nol (0).
Jika data yang digunakan sudah memilki id dan Anda ingin menggunakannya sebagai index, dapat dilakukan dengan mudah. Contohnya kolom id pada data airbnb yang digunakan.
import pandas as pd df = pd.read_csv("airbnb.csv") df.head()
Untuk mengatur index gunakan fungsi set_index(“nama_column”). Pada contoh, dibuat dataframe kedua untuk menyimpan data dengan index baru.
Anda juga bisa mengubah langsung pada dataframe pertama. Lihat code kedua, menggunakan parameter inplace=True.
#new dataframe df2 = df.set_index("id") #inplace df.set_index("id", inplace=True)
Sorting
Untuk sorting, dapat digunakan fungsi sort_values(by=”nama_kolom”). Jika hasil sorting ingin diaplikasikan pada dataframe bersangkutan, gunakan parameter inplace=True. Jika tidak, buat variable untuk menampung dataframe baru.
Untuk dokumentasi lengkap lihat di https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html
#inplace, sorting diaplikasikan pada dataframe df.sort_values(by="host_name", ascending=False, inplace=True) #hasil sorting akan disimpan di dataframe kedua df2 = df.sort_values(by="host_name", ascending=False)
Sorting juga bisa dilakukan pada 2 kolom, dan bisa diatur ordernya tiap kolom.
df.sort_values(by=["neighbourhood_group", "host_name"]) #mengatur order df.sort_values(by=["neighbourhood_group", "host_name"], ascending=[False, True])