Hadoop adalah implementasi open source Map Reduce dari Apache. Sementara HDFS adalah Hadoop Distributed File System.
Sekedar intermezo, nama Hadoop berasal dari nama mainan gajah. Inspirasi Hadoop adalah dari Google File System dan Map Reduce R&D papers.
Hadoop memiliki 4 core modul:
- Hadoop common, base framework dari Hadoop, berisi semua library, operating system abstraction dan startup script untuk menjalankan Hadoop.
- Hadoop Distributed File System (HDFS), didesain sebagai fault tolerance distributed file system.
- Hadoop Yarn, menangani resource management, schedulling dan monitoring Hadoop jobs.
- Hadoop MapReduce, implementasi Map Reduce dari Hadoop. Berisi library untuk Map dan Reduce functions, termasuk partitioning, reduction dan custom job configuration.
HDFS Architecture
HDFS menggunakan Master-Worker cluster architecture.
Server master akan menjalankan NAME NODE yang berfungsi mengatur akses ke file dan menyimpan informasi METADATA untuk file system.
Server worker akan memiliki DATA NODE, file akan disimpan dalam bentuk series of block.
HDFS juga memiliki konsep rack, berguna untuk shortest network path antara node pada physical data center. Dengan menggunakan multiple node, berarti data data di replikasi untuk fault tolerance.
Client melakukan request ke name node, namun response bisa diberikan oleh data node.

YARN Architecture
Cluster design untuk YARN mirip dengan HDFS. Fungsi YARN adalah untuk memanage MapReduce jobs
Client mengirimkan job ke resource manager. Masing-masing worker node manager akan menjalankan lokal resources, request task dari master, dan mengembalikan result.

Untuk dapat menjawab exam, Anda cukup memahami high level konsep Hadoop saja, tidak perlu mendalam. Karena tujuannya adalah Anda mengenal produk non-google yang mungkin digunakan oleh perusahaan atau client Anda.