Berbeda dengan method duplicated() pada modul sebelumnya, drop_duplicates() berguna untuk membuang data duplikat pada DataFrame.
Method drop_duplicates() memiliki 2 parameter yaitu
- subset, berupa list of string dari nama kolom yang akan diperiksa.
- keep, sama seperti pada method duplicated(), nilai argumen dapat berupa first: berarti data pertama akan disimpan, last berarti data terakhir akan disimpan dan False berarti tidak ada data yang disimpan.
Untuk lebih jelasnya, kita langsung gunakan contoh untuk remove data dimana first name duplikat dengan syarat keep=first.
df.drop_duplicates(subset=["First Name"], keep="first")
df.drop_duplicates(subset=["First Name", "Team"], keep="first")