Pandas menyediakan banyak method string untuk menyelesaikan masalah yang umum terjadi saat bekerja dengan file teks.
Untuk keperluan tutorial ini digunakan data chicago.csv
File colab dapat akses di https://colab.research.google.com/drive/1zasITX2z05U2Hgxt18VevPDJsb2CRoET?usp=sharing
Pertama kita import library dan data yang digunakan.
import pandas as pd
df = pd.read_csv("chicago.csv")
df.head()
Berikut kurang lebih bentuk dan informasi data yang akan digunakan
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32063 entries, 0 to 32062
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 32062 non-null object
1 Position Title 32062 non-null object
2 Department 32062 non-null object
3 Employee Annual Salary 32062 non-null object
dtypes: object(4)
memory usage: 1002.1+ KB
Data yang disediakan sengaja dibuat dengan beberapa kesalahan untuk kebutuhan tutorial. Misalnya data Salary, dikenali Pandas sebagai string, karena terdapat tanda $.
Sebelum memulai, ada baiknya jika kita bisa mencoba optimalkan penggunaan memory dengan mengubah kolom Department menjadi type category.
df["Department"] = df["Department"].astype("category")
Persiapan awal dari tutorial sudah selesai, pada modul berikutnya kita akan membahas fungsi-fungsi string Pandas.