Membuat Index dan Sorting

Data yang digunakan untuk tutorial ini adalah https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

DataFrame Index

Index adalah kolom dengan nilai unik yang digunakan untuk identifikasi data masing-masing row. Secara default, index digenerate oleh pandas mulai dari angka nol (0).

Jika data yang digunakan sudah memilki id dan Anda ingin menggunakannya sebagai index, dapat dilakukan dengan mudah. Contohnya kolom id pada data airbnb yang digunakan.

import pandas as pd

df = pd.read_csv("airbnb.csv")
df.head()

Untuk mengatur index gunakan fungsi set_index(“nama_column”). Pada contoh, dibuat dataframe kedua untuk menyimpan data dengan index baru.

Anda juga bisa mengubah langsung pada dataframe pertama. Lihat code kedua, menggunakan parameter inplace=True.

#new dataframe
df2 = df.set_index("id")

#inplace
df.set_index("id", inplace=True)

Sorting

Untuk sorting, dapat digunakan fungsi sort_values(by=”nama_kolom”). Jika hasil sorting ingin diaplikasikan pada dataframe bersangkutan, gunakan parameter inplace=True. Jika tidak, buat variable untuk menampung dataframe baru.

Untuk dokumentasi lengkap lihat di https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

#inplace, sorting diaplikasikan pada dataframe
df.sort_values(by="host_name", ascending=False, inplace=True)

#hasil sorting akan disimpan di dataframe kedua
df2 = df.sort_values(by="host_name", ascending=False)

Sorting juga bisa dilakukan pada 2 kolom, dan bisa diatur ordernya tiap kolom.

df.sort_values(by=["neighbourhood_group", "host_name"])

#mengatur order
df.sort_values(by=["neighbourhood_group", "host_name"], ascending=[False, True])
Sharing is caring:

Leave a Comment