Lesson pengenalan data akan membahas secara umum tentang raw data dan data pre-processing.
Data adalah informasi yang disimpan dalam bentuk digital yang dapat digunakan sebagai dasar untuk melakukan analisis dan decission making.
Data dapat dibagi menjadi dua kategori besar: Traditional Data dan Big Data.
Traditional Data
Adalah data terstruktur yang disimpan dalam database dengan bentuk table. Umumnya traditional data dapat diolah dalam satu komputer. Contoh: database penjualan yang memiliki table customer, table invoice dan lainnya.
Big Data
Namanya sudah cukup menjelaskan, data yang sangat besar. Bukan hanya dari ukuran, termasuk format datanya yang luas seperti image, audio dan lainnya.
Pada course ini tidak akan dibahas tentang Big Data, karena big data adalah a whole different animal.
Pre-processing Data Pada Traditional Data
Pre-processing data adalah tahap untuk menyiapkan raw-data agar siap untuk diproses dan menghasilkan informasi. Contoh pre-processing data:
- Class labeling: numerical (contoh: volume penjualan), categorical (contoh: jenis kelamin).
- Data cleansing: memperbaiki data, contoh: Jakart => Jakarta.
- Missing data: contoh tabel customer, pada kolom umur ada yang terisi ada yang kosong.
Pre-processing data boleh dibilang menghabiskan waktu terbesar dalam Data Science dan memiliki banyak teknik, taktik dan bisa menggunakan multi software.
Dan umumnya, pre-processing data akan bersentuhan dengan programming. Memiliki kemampuan programming akan banyak membantu mempercepat dalam melakukan pre-processing data.
Oleh karena itu, pada course ini, pre-processing data hanya dibahas sebagai pengenalan saja.