Pandas DataFrame – Membuat DataFrame

Pandas dataframe adalah class yang paling sering digunakan. Mirip dengan series, perbedaanya dataframe berupa table dua dimensi.

Anda dapat menggunakan data sendiri, atau silakan download data berikut untuk keperluan tutorial, https://drive.google.com/file/d/14xNl_HfTxVJjoDEOApCxgHf0dgf_q9hb/view?usp=sharing

Untuk membuat dataframe, kita akan gunakan method read_csv, penggunaannya sangat mirip dengan series.

df = pd.read_csv("nba.csv")
df.head()

Jika Anda periksa dataset diatas, terdapat beberapa kolom sengaja dikosongkan, Pandas akan metampilkan nilai NaN. Hal ini sengaja dibuat untuk keperluan tutorial.

Pada kolom paling kiri, terdapat index. Sama seperti pada series, index digenerate otomatis oleh Pandas. Hal ini terjadi karena kita tidak menentukan index saat membuat dataframe.

Hal lain yang perlu diperhatikan adalah kolom age dan weight, pada csv berupa integer. Namun setelah diimport diubah menjadi float, hal ini terjadi karena pada kolom tersebut ada null values. Kita akan perbaiki masalah tersebut pada tutorial ini.

Method dan Attribute yang sama dengan Series

Banyak method dan attribute yang telah kita pelajari di series, dapat digunakan oleh DataFrame, seperti contoh berikut:

df.tail()

Sama seperti series, perintah tail pada dataframe juga akan ditampilkan secara default, 5 data terakhir.

df.index
RangeIndex(start=0, stop=458, step=1)
df.values
array([['Avery Bradley', 'Boston Celtics', 0.0, ..., 180.0, 'Texas',
        7730337.0],
       ['Jae Crowder', 'Boston Celtics', 99.0, ..., 235.0, 'Marquette',
        6796117.0],
       ['John Holland', 'Boston Celtics', 30.0, ..., 205.0,
        'Boston University', nan],
       ...,
       ['Tibor Pleiss', 'Utah Jazz', 21.0, ..., 256.0, nan, 2900000.0],
       ['Jeff Withey', 'Utah Jazz', 24.0, ..., 231.0, 'Kansas', 947276.0],
       [nan, nan, nan, ..., nan, nan, nan]], dtype=object)

Perhatikan df.values akan mengembalikan multidimensional array, sementara series akan mengembalikan array 1 dimensi.

df.shape
(458, 9)

Perintah df.shape akan mengembalikan bentuk dari dataframe, yaitu 458 row dan 9 column.

df.dtypes
Name         object
Team         object
Number      float64
Position     object
Age         float64
Height       object
Weight      float64
College      object
Salary      float64
dtype: object

Perintah dtypes akan menampilkan data type dari masing-masing kolom.

Method dan Attribute yang hanya dimiliki DataFrame

Berikut beberapa contoh method dan attribute yang hanya dapat digunakan class DataFrame.

df.columns
Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
       'College', 'Salary'],
      dtype='object')

Perintah columns akan mengembalikan nama kolom yang terdapat pada dataframe.

df.axes
[RangeIndex(start=0, stop=458, step=1),
 Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
        'College', 'Salary'],
       dtype='object')]

Perintah axes akan mengembalikan informasi index dan column yang dimiliki dataframe.

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458 entries, 0 to 457
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      457 non-null    object 
 1   Team      457 non-null    object 
 2   Number    457 non-null    float64
 3   Position  457 non-null    object 
 4   Age       457 non-null    float64
 5   Height    457 non-null    object 
 6   Weight    457 non-null    float64
 7   College   373 non-null    object 
 8   Salary    446 non-null    float64
dtypes: float64(4), object(5)
memory usage: 32.3+ KB

Perintah info akan mengembalikan ringkasan informasi dari dataframe, seperti index, colum dan data type.

Sharing is caring:

Leave a Comment