Pada modul ini kita akan mulai topik baru yaitu mengenai manipulasi dataframe, yaitu concatenate, atau menggabungkan data.
Concat adalah proses yang sering dilakukan saat melakukan data preparation pada proses data analisyst .
Untuk keperluan beberapa modul digunakan data restaurant.zip.
Pertama kita load library dan data digunakan.
import pandas as pd
salesw1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
salesw2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
Parameter yang umum digunakan:
- ignore_index : default adalah False, dimana index dari masing-masing dataframe tetap digunakan. Isi dengan True jika ingin dibuat index baru.
- keys: digunakan untuk membuat index terluar. (optional)
Berikut code concat salesw1 dan salesw2 dengan mengabaikan index. Jika anda view dataframe hasil concatenate akan digunakan index lama (jumlah data ada 500, namun index berakhir dengan angka 249).
pd.concat([salesw1, salesw2]) #sama dengan # pd.concat([salesw1, salesw2], ignore_index=False)
Jika Anda memerlukan index baru, gunakan parameter ignore_index = True.
Perhatikan, index lama akan diignore, dan dibuat index baru. Pada dataframe baru, index akan berakhir di angka 499.
pd.concat([salesw1, salesw2], ignore_index=True)
Contoh code concat salesw1 dan salesw2 dengan membuat index baru w1 dan w2.
sales = pd.concat([salesw1, salesw2], keys=["w1", "w2"])
Untuk mengakses data hasil concate, sama seperti mengakses dataframe yang telah dibahas sebelumnya, contoh:
#data salesw2
sales.loc["w2"]
#salesw2 dengan index 240
sales.loc[("w2", 240)]
#salesw2 dengan index 240, kolom customer id
sales.loc[("w2", 240), "Customer ID"]