Dataflow Security dan Access

Cloud Dataflow pipelines dapat dijalankan beberapa cara: Ketika pipeline disubmit ke Cloud Dataflow, akan digunakan GCP service accounts untuk mengatur security dan permissions. Sebelum membahas lebih jauh, kita lihat dahulu Dataflow secara high level konsep. Ketika pipeline disubmit ke GCP Cloud Dataflow Service. Dataflow service akan membuat Dataflow Job. Job ini akan membuat dan memanage … Read more

Sharing is caring:

Dataflow Pipeline Concepts

Pada modul ini kita akan membahas lebih mendalam Dataflow Concepts seperti: ParDo Merupakan singkatan dari Parallel Do, adalah generic parallel processing transform. Misalnya terdapat PCollection1 yang akan ditransform menjadi PCollection2. ParDo akan melakukan transformasi masing-masing element dari PCollection1 dimana hasilnya bisa menghasilkan 0 atau lebih element. Aggregation Adalah transform untuk menghasilkan 1 value dari multiple … Read more

Sharing is caring:

Pengenalan Cloud Dataflow

Dataflow dapat kita bayangkan sebagai tool ETL yang sangat powerful untuk transforming data. Berikut berapa point mengenai Cloud Dataflow: Data yang akan diproses berada pada data source, bisa dari Cloud Pub/Sub, BigQuery dan Cloud Storage, atau external source (non GCP product) seperti Apache Kafka. Data dari source akan diproses melalui Pipeline, dalam hal ini akan … Read more

Sharing is caring:

Pub/Sub Exam Tips

Berikut beberapa point yang perlu diperhatikan mengenai Pub/Sub Decouple Data, gunakan Pub/Sub untuk area yang dapat mengimplementasikan decouple components. Pub/Sub dapat berguna sebagai “shock arbsorber”, menerima data secara global dan dapat dikonsumsi oleh berbagai component. Decouple Service, gunakan Pub/Sub untuk menambahkan event logic kedalam stack. Pub/Sub dapat pass events dari sistem ke sistem dengan asynchronous … Read more

Sharing is caring: