Google Pub/Sub

Mengapa Menggunakan Pub/Sub Pub/Sub menangani messaging dan even ingestion pada level global. Namun sebelum membahas lebih jauh, mari kita bahas mengapa digunakan messaging middleware. Dengan melihat diagram dibawah dapat dilihat, ketika Aplikasi yang dikembangkan terdistribusi dengan aliran data dapat masuk dari berbagai node, tanpa messaging service, arsitektur dibawah akan bermasalah ketika salah satu node bermasalah. … Read more

Sharing is caring:

Pengenalan Ekosistem Big Data – Apache Kafka

Apache Kafka adalah platform untuk distributed streaming. Sebelum didonasikan ke Apache Project, digunakan oleh Linkedin untuk memproses 800 miliar message per hari dengan ukuran lebih dari 175 TB data, dijalankan diatas 60 Kafka cluster. Ada 4 API yang disediakan Kafka: Berikut diagram dari arsitektur Kafka. Terdapat standalone sistem ZOOKEEPER yang berguna untuk mengkoordinasi cluster. Berikut … Read more

Sharing is caring:

Pengenalan Ekosistem Big Data – Apache Spark

MapReduce memiliki keterbatasan dataflow yang linear, dimana proses adalah membaca data, melakukan fungsi Map, Reduce results kemudian menulisnya ke disk. Hal tersebut membuat perhitungan kompleks sulit dilakukan dalam waktu yang relatif pendek, meskipun menggunakan cluster server yang banyak. Apache Spark adalah respon dari keterbatasan diatas. Berikut keypoint dari Apache Spark: Modul yang didukung Apache Spark: … Read more

Sharing is caring:

Pengenalan Ekosistem Big Data – Apache Pig

Apache Pig adalah platform untuk menganalisa data set yang besar. Pada dasarnya adalah sebuah bahasa yang disebut Pig Latin yang digunakan untuk mendefinsikan analtyic jobs, seperti merging, filtering dan transformation data. Jadi Pig Latin adalah high level language, dapat dibandingkan dengan SQL. Apache Pig adalah abstraction untuk MapReduce, sangat berguna untuk melakukan ETL (Extract, Transform … Read more

Sharing is caring: