Pandas dataframe dapat dibuat dari beberapa macam sumber input.
Membuat Dataframe dari Array
Kita gunakan numpy untuk membuat data random array.
import pandas as pd import numpy as np data = np.random.random(size=(6,4)) df = pd.DataFrame(data=data, columns=["A", "B", "C", "D"])
A B C D
0 0.046202 0.146724 0.542050 0.503021
1 0.282674 0.966177 0.141457 0.762850
2 0.753941 0.907170 0.418383 0.568769
3 0.933531 0.374073 0.759725 0.172404
4 0.106482 0.931862 0.624298 0.564321
5 0.181307 0.653944 0.932689 0.885815
Membuat Dataframe dari Dictionary
Kita juga bisa membuat dataframe dari Python Dictionary.
df = pd.DataFrame(data={"A": [1, 2, 3], "B" : ["Bandung", "Jakarta", "Denpasar"]})
#atau bisa juga row by row
data = [{"A" : 1, "B": "Bandung"}, {"A" : 2, "B": "Jakarta"}, {"A" : 3, "B": "Denpasar"}]
df = pd.DataFrame(data=data)
Menyimpan DataFrame
Untuk menyimpan Dataframe kedalam file cukup mudah. Umumnya disimpan dalam format csv.
df.to_csv("namafile.csv")
Parameter lainnya yang dapat digunakan adalah
- index=false, data index tidak ikut disimpan dalam file.
- float_format=”%0.4f”, artinya data float akan disimpan 4 digit dibelakang koma.
Format data pun bervariasi, Anda bisa simpan dalam format pickle, excel, hdf dan lainnya. Untuk dokumentasi lengkap silakan lihat di https://pandas.pydata.org/pandas-docs/stable/reference/io.html