Data yang digunakan adalah https://www.kaggle.com/c/rossmann-store-sales/data
Import library pandas, lalu gunakan read_csv untuk load data. Akan tampil error seperti dibawah.
import pandas as pd
df = pd.read_csv("train.csv")
DtypeWarning: Columns (7) have mixed types.Specify dtype option on import or set low_memory=False.
interactivity=interactivity, compiler=compiler, result=result)
Peringatan diatas bisa dimatikan dengan menambahkan parameter low_memory=False.
Error ini terjadi karena pandas berusaha menentukan column dtype.
Jika Anda check dengan menggunakan fungsi info(), akan terlihat column Date dan StateHoliday memiliki tipe data object.
import pandas as pd
df = pd.read_csv("train.csv", low_memory=False)
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1017209 entries, 0 to 1017208
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Store 1017209 non-null int64
1 DayOfWeek 1017209 non-null int64
2 Date 1017209 non-null object
3 Sales 1017209 non-null int64
4 Customers 1017209 non-null int64
5 Open 1017209 non-null int64
6 Promo 1017209 non-null int64
7 StateHoliday 1017209 non-null object
8 SchoolHoliday 1017209 non-null int64
dtypes: int64(7), object(2)
memory usage: 69.8+ MB
Kita dapat gunakan parameter parse_dates=[“nama_kolom_date”] saat read data untuk memberitahu pandas typedata yang digunakan.
import pandas as pd
df = pd.read_csv("train.csv", low_memory=False, parse_dates=["Date"])
df.info()