Pandas DataFrame – Method drop_duplicates()

Berbeda dengan method duplicated() pada modul sebelumnya, drop_duplicates() berguna untuk membuang data duplikat pada DataFrame.

Method drop_duplicates() memiliki 2 parameter yaitu

  • subset, berupa list of string dari nama kolom yang akan diperiksa.
  • keep, sama seperti pada method duplicated(), nilai argumen dapat berupa first: berarti data pertama akan disimpan, last berarti data terakhir akan disimpan dan False berarti tidak ada data yang disimpan.

Untuk lebih jelasnya, kita langsung gunakan contoh untuk remove data dimana first name duplikat dengan syarat keep=first.

df.drop_duplicates(subset=["First Name"], keep="first")
Contoh berikutnya adalah jika kita ingin drop data duplikat untuk First Name dan Team yang sama.
df.drop_duplicates(subset=["First Name", "Team"], keep="first")

Sharing is caring:

Leave a Comment