Pandas String – Method untuk Membuang Whitespace

Whitespace atau spasi, kadang kala dapat membuat sebuah data menjadi tidak terbaca dengan benar. Membuang whitespace adalah salah satu proses yang dilakukan dalam data preparation bagi data scientist.

Pertama kita load library dan data yang diperlukan.

import pandas as pd

df = pd.read_csv("chicago.csv").dropna(how="all")
df["Department"] = df["Department"].astype("category")
df.head()

Method strip()

Berguna menghapus whitespace yang terdapat pada awal dan akhir teks target. Whitespace didalam teks target tidak akan dibuang.

Contoh membuang whitespace pada kolom Name.

df["Name"].str.strip()
0            AARON,  ELVIA J
1          AARON,  JEFFERY M
2             AARON,  KARINA
3        AARON,  KIMBERLEI R
4        ABAD JR,  VICENTE M
                ...         
32057    ZYGADLO,  MICHAEL J
32058     ZYGOWICZ,  PETER J
32059      ZYMANTAS,  MARK E
32060    ZYRKOWSKI,  CARLO E
32061    ZYSKOWSKI,  DARIUSZ
Name: Name, Length: 32062, dtype: object

Method lstrip()

Berguna menghapus whitespace yang terdapat pada bagian kiri teks target.

Contoh menghapus whitespace diawal teks target pada kolom Position Title.

df["Position Title"].str.lstrip()
0                      WATER RATE TAKER
1                        POLICE OFFICER
2                        POLICE OFFICER
3              CHIEF CONTRACT EXPEDITER
4                     CIVIL ENGINEER IV
                      ...              
32057    FRM OF MACHINISTS - AUTOMOTIVE
32058                    POLICE OFFICER
32059                    POLICE OFFICER
32060                    POLICE OFFICER
32061           CHIEF DATA BASE ANALYST
Name: Position Title, Length: 32062, dtype: object

Method rstrip()

Berguna menghapus whitespace yang terdapat pada bagian kiri teks target.

Contoh menghapus whitespace diawal teks target pada kolom Position Title.

df["Position Title"].str.rstrip()
0                      WATER RATE TAKER
1                        POLICE OFFICER
2                        POLICE OFFICER
3              CHIEF CONTRACT EXPEDITER
4                     CIVIL ENGINEER IV
                      ...              
32057    FRM OF MACHINISTS - AUTOMOTIVE
32058                    POLICE OFFICER
32059                    POLICE OFFICER
32060                    POLICE OFFICER
32061           CHIEF DATA BASE ANALYST
Name: Position Title, Length: 32062, dtype: object

Gunakan assign method agar perubahan menjadi permanent.

df["Position Title"] = df["Position Title"].str.rstrip()
Sharing is caring:

Leave a Comment