Pandas String – Pendahuluan

Pandas menyediakan banyak method string untuk menyelesaikan masalah yang umum terjadi saat bekerja dengan file teks.

Untuk keperluan tutorial ini digunakan data chicago.csv

File colab dapat akses di https://colab.research.google.com/drive/1zasITX2z05U2Hgxt18VevPDJsb2CRoET?usp=sharing

Pertama kita import library dan data yang digunakan.

import pandas as pd

df = pd.read_csv("chicago.csv")
df.head()

Berikut kurang lebih bentuk dan informasi data yang akan digunakan

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32063 entries, 0 to 32062
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Name                    32062 non-null  object
 1   Position Title          32062 non-null  object
 2   Department              32062 non-null  object
 3   Employee Annual Salary  32062 non-null  object
dtypes: object(4)
memory usage: 1002.1+ KB

Data yang disediakan sengaja dibuat dengan beberapa kesalahan untuk kebutuhan tutorial. Misalnya data Salary, dikenali Pandas sebagai string, karena terdapat tanda $.

Sebelum memulai, ada baiknya jika kita bisa mencoba optimalkan penggunaan memory dengan mengubah kolom Department menjadi type category.

df["Department"] = df["Department"].astype("category")

Persiapan awal dari tutorial sudah selesai, pada modul berikutnya kita akan membahas fungsi-fungsi string Pandas.

Sharing is caring:

Leave a Comment