Load Data dan Observasi Data Menggunakan Pandas

Load Data

Data yang sangat umum digunakan dalam bidang data science adalah CSV. Untuk load data kedalam pandas, digunakan perintah read_csv(“nama_file”).

File astronauts.csv dapat di download di kaggle https://www.kaggle.com/nasa/astronaut-yearbook

import pandas as pd

df = pd.read_csv("astronauts.csv")

head(), tail() dan sample()

Untuk retrive data untuk keperluan observasi awal data, perintah head, tail dan sample

  • pd.head(), default 5 data teratas, atau bisa diisi angka contoh: pd.head(10).
  • pd.tai(), default 5 data terakhir, atau bisa diisi angka, contoh: pd.tail(4).
  • pd.sample(), default 5 data random, bisa diisi angka, contoh pd.sample(3).

info()

Untuk mendapatkan informasi column, datatype dan informasi struktur lainnya , gunakan fungsi df.info()

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 357 entries, 0 to 356
Data columns (total 19 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Name                 357 non-null    object 
 1   Year                 330 non-null    float64
 2   Group                330 non-null    float64
 3   Status               357 non-null    object 
 4   Birth Date           357 non-null    object 
 5   Birth Place          357 non-null    object 
 6   Gender               357 non-null    object 
 7   Alma Mater           356 non-null    object 
 8   Undergraduate Major  335 non-null    object 
 9   Graduate Major       298 non-null    object 
 10  Military Rank        207 non-null    object 
 11  Military Branch      211 non-null    object 
 12  Space Flights        357 non-null    int64  
 13  Space Flight (hr)    357 non-null    int64  
 14  Space Walks          357 non-null    int64  
 15  Space Walks (hr)     357 non-null    float64
 16  Missions             334 non-null    object 
 17  Death Date           52 non-null     object 
 18  Death Mission        16 non-null     object 
dtypes: float64(3), int64(3), object(13)
memory usage: 53.1+ KB

describe()

Fungsi describe() akan menampilkan data statistik dari dataframe.

df.describe()

shape

Untuk mengetahui ukuran dataframe gunakan df.shape

df.shape
(357, 19)

corr()

Gunakan perintah corr() untuk mengetahui korelasi antar kolom.

  • Positif correlation dimana data akan bergerak searah.
  • Negatif correlation dimana data akan bergerak berlawanan arah.

Banyak metoda untuk mengukur korelasi. Silakan lihat tutorial https://skillplus.web.id/data-correlations-menggunakan-pandas/

df.corr()

value_counts()

Jika Anda ingin menghitung jumlah dari nilai kolom tertentu, gunakan fungsi value_counts

df["Year"].value_counts()
1996.0    35
1978.0    35
1998.0    25
1990.0    23
1966.0    19
1995.0    19
1980.0    19
1992.0    19
1984.0    18
2000.0    17
1987.0    15
1963.0    14
1985.0    13
1967.0    11
2004.0    11
2009.0     9
1962.0     8
1969.0     7
1959.0     7
1965.0     6
Name: Year, dtype: int64
Sharing is caring:

Leave a Comment