Pandas dataframe adalah class yang paling sering digunakan. Mirip dengan series, perbedaanya dataframe berupa table dua dimensi.
Anda dapat menggunakan data sendiri, atau silakan download data berikut untuk keperluan tutorial, https://drive.google.com/file/d/14xNl_HfTxVJjoDEOApCxgHf0dgf_q9hb/view?usp=sharing
Untuk membuat dataframe, kita akan gunakan method read_csv, penggunaannya sangat mirip dengan series.
df = pd.read_csv("nba.csv")
df.head()
Jika Anda periksa dataset diatas, terdapat beberapa kolom sengaja dikosongkan, Pandas akan metampilkan nilai NaN. Hal ini sengaja dibuat untuk keperluan tutorial.
Pada kolom paling kiri, terdapat index. Sama seperti pada series, index digenerate otomatis oleh Pandas. Hal ini terjadi karena kita tidak menentukan index saat membuat dataframe.
Hal lain yang perlu diperhatikan adalah kolom age dan weight, pada csv berupa integer. Namun setelah diimport diubah menjadi float, hal ini terjadi karena pada kolom tersebut ada null values. Kita akan perbaiki masalah tersebut pada tutorial ini.
Method dan Attribute yang sama dengan Series
Banyak method dan attribute yang telah kita pelajari di series, dapat digunakan oleh DataFrame, seperti contoh berikut:
df.tail()
Sama seperti series, perintah tail pada dataframe juga akan ditampilkan secara default, 5 data terakhir.
df.index
RangeIndex(start=0, stop=458, step=1)
df.values
array([['Avery Bradley', 'Boston Celtics', 0.0, ..., 180.0, 'Texas',
7730337.0],
['Jae Crowder', 'Boston Celtics', 99.0, ..., 235.0, 'Marquette',
6796117.0],
['John Holland', 'Boston Celtics', 30.0, ..., 205.0,
'Boston University', nan],
...,
['Tibor Pleiss', 'Utah Jazz', 21.0, ..., 256.0, nan, 2900000.0],
['Jeff Withey', 'Utah Jazz', 24.0, ..., 231.0, 'Kansas', 947276.0],
[nan, nan, nan, ..., nan, nan, nan]], dtype=object)
Perhatikan df.values akan mengembalikan multidimensional array, sementara series akan mengembalikan array 1 dimensi.
df.shape
(458, 9)
Perintah df.shape akan mengembalikan bentuk dari dataframe, yaitu 458 row dan 9 column.
df.dtypes
Name object
Team object
Number float64
Position object
Age float64
Height object
Weight float64
College object
Salary float64
dtype: object
Perintah dtypes akan menampilkan data type dari masing-masing kolom.
Method dan Attribute yang hanya dimiliki DataFrame
Berikut beberapa contoh method dan attribute yang hanya dapat digunakan class DataFrame.
df.columns
Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
'College', 'Salary'],
dtype='object')
Perintah columns akan mengembalikan nama kolom yang terdapat pada dataframe.
df.axes
[RangeIndex(start=0, stop=458, step=1),
Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
'College', 'Salary'],
dtype='object')]
Perintah axes akan mengembalikan informasi index dan column yang dimiliki dataframe.
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458 entries, 0 to 457
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 457 non-null object
1 Team 457 non-null object
2 Number 457 non-null float64
3 Position 457 non-null object
4 Age 457 non-null float64
5 Height 457 non-null object
6 Weight 457 non-null float64
7 College 373 non-null object
8 Salary 446 non-null float64
dtypes: float64(4), object(5)
memory usage: 32.3+ KB
Perintah info akan mengembalikan ringkasan informasi dari dataframe, seperti index, colum dan data type.