Optimisasi Flow Pada Gudang Menggunakan Q-Learning – Part 3

Setelah mempelajari teori pada modul sebelumnya, kita akan implementasikan dalam Python. Untuk development Anda bisa menggunakan Anaconda, namun lebih disarankan menggunakan Google Colabs karena semua library sudah disediakan. Pertama import library yang digunakan. Setting parameter yang digunakan. Langkah selanjutnya adalah mendefinisikan environment yang terdiri dari state, action dan rewards. Berikutnya kita implementasikan Q-Learning. Pertama inisialisasi … Read more

Sharing is caring:

Teori : Pengenalan Q-Learning

Jika Anda sudah memahami konsep Q-Learning, modul ini dapat dilewati Setelah mempelajari Bellman dan MDP, memahami Q-Learning akan lebih mudah. Jika MDP menghitung nilai max dari state, Q-Learning akan menghitung nilai dari setiap aksi yang tersedia. Berikut penurunan Q-Learning dari MDP. Temporal Difference (TD) Q-learning menggunakan Temporal Differences(TD) untuk melakukan estimasi nilai dari Q*(s,a) Ketika … Read more

Sharing is caring:

Teori : Pengenalan Markov Decision Process (MDP)

Untuk memahami Q-Learning, Anda pelu memahami Bellman Equation dan MDP. Jika Anda sudah memahami konsep MDP, modul ini dapat dilewati. Pada modul Pengenalan Bellman Equation, impresi yang kita dapat adalah Reinforcement Learning terlihat pasti, seperti peta. Pada kenyataanya tidak seperti itu. Hal ini terjadi karena pada agent tidak diperkenalkan “randomness”, sementara pada dunia real, faktor … Read more

Sharing is caring:

Teori : Pengenalan Bellman Equation

Untuk mengikuti modul ini, diharapkan Anda sudah memahami konsep reinforcement learning. Untuk memahami Markov Decision Process dan Q-Learning, kita perlu memahami dulu Bellman Equation. Jika Anda sudah memahami Bellman Equation, modul ini bisa dilewati. Bellman equation menggunakan konsep state, action, reward dan gamma untuk melakukan perhitungan value state. state : kondisi yang dihadapi agent. action … Read more

Sharing is caring: