Load Data
Data yang sangat umum digunakan dalam bidang data science adalah CSV. Untuk load data kedalam pandas, digunakan perintah read_csv(“nama_file”).
File astronauts.csv dapat di download di kaggle https://www.kaggle.com/nasa/astronaut-yearbook
import pandas as pd df = pd.read_csv("astronauts.csv")
head(), tail() dan sample()
Untuk retrive data untuk keperluan observasi awal data, perintah head, tail dan sample
- pd.head(), default 5 data teratas, atau bisa diisi angka contoh: pd.head(10).
- pd.tai(), default 5 data terakhir, atau bisa diisi angka, contoh: pd.tail(4).
- pd.sample(), default 5 data random, bisa diisi angka, contoh pd.sample(3).
info()
Untuk mendapatkan informasi column, datatype dan informasi struktur lainnya , gunakan fungsi df.info()
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 357 entries, 0 to 356
Data columns (total 19 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 357 non-null object
1 Year 330 non-null float64
2 Group 330 non-null float64
3 Status 357 non-null object
4 Birth Date 357 non-null object
5 Birth Place 357 non-null object
6 Gender 357 non-null object
7 Alma Mater 356 non-null object
8 Undergraduate Major 335 non-null object
9 Graduate Major 298 non-null object
10 Military Rank 207 non-null object
11 Military Branch 211 non-null object
12 Space Flights 357 non-null int64
13 Space Flight (hr) 357 non-null int64
14 Space Walks 357 non-null int64
15 Space Walks (hr) 357 non-null float64
16 Missions 334 non-null object
17 Death Date 52 non-null object
18 Death Mission 16 non-null object
dtypes: float64(3), int64(3), object(13)
memory usage: 53.1+ KB
describe()
Fungsi describe() akan menampilkan data statistik dari dataframe.
df.describe()

shape
Untuk mengetahui ukuran dataframe gunakan df.shape
df.shape
(357, 19)
corr()
Gunakan perintah corr() untuk mengetahui korelasi antar kolom.
- Positif correlation dimana data akan bergerak searah.
- Negatif correlation dimana data akan bergerak berlawanan arah.
Banyak metoda untuk mengukur korelasi. Silakan lihat tutorial https://skillplus.web.id/data-correlations-menggunakan-pandas/
df.corr()

value_counts()
Jika Anda ingin menghitung jumlah dari nilai kolom tertentu, gunakan fungsi value_counts
df["Year"].value_counts()
1996.0 35
1978.0 35
1998.0 25
1990.0 23
1966.0 19
1995.0 19
1980.0 19
1992.0 19
1984.0 18
2000.0 17
1987.0 15
1963.0 14
1985.0 13
1967.0 11
2004.0 11
2009.0 9
1962.0 8
1969.0 7
1959.0 7
1965.0 6
Name: Year, dtype: int64