Menggunakan Parameter parse_dates

Data yang digunakan adalah https://www.kaggle.com/c/rossmann-store-sales/data

Import library pandas, lalu gunakan read_csv untuk load data. Akan tampil error seperti dibawah.

import pandas as pd

df = pd.read_csv("train.csv")
DtypeWarning: Columns (7) have mixed types.Specify dtype option on import or set low_memory=False.
  interactivity=interactivity, compiler=compiler, result=result)

Peringatan diatas bisa dimatikan dengan menambahkan parameter low_memory=False.

Error ini terjadi karena pandas berusaha menentukan column dtype.

Jika Anda check dengan menggunakan fungsi info(), akan terlihat column Date dan StateHoliday memiliki tipe data object.

import pandas as pd

df = pd.read_csv("train.csv", low_memory=False)
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1017209 entries, 0 to 1017208
Data columns (total 9 columns):
 #   Column         Non-Null Count    Dtype 
---  ------         --------------    ----- 
 0   Store          1017209 non-null  int64 
 1   DayOfWeek      1017209 non-null  int64 
 2   Date           1017209 non-null  object
 3   Sales          1017209 non-null  int64 
 4   Customers      1017209 non-null  int64 
 5   Open           1017209 non-null  int64 
 6   Promo          1017209 non-null  int64 
 7   StateHoliday   1017209 non-null  object
 8   SchoolHoliday  1017209 non-null  int64 
dtypes: int64(7), object(2)
memory usage: 69.8+ MB

Kita dapat gunakan parameter parse_dates=[“nama_kolom_date”] saat read data untuk memberitahu pandas typedata yang digunakan.

import pandas as pd

df = pd.read_csv("train.csv", low_memory=False, parse_dates=["Date"])
df.info()

Sharing is caring:

Leave a Comment