Discounted Return

Ide dari discounted return adalah reward timestep terdekat lebih besar dari timestep berikutnya. Tujuan dari discounted return ini adalah agar agent lebih memperhatikan reward terdekat dibanding reward yang masih jauh. $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + …. $ Discounted return : $G_t$ Discount rate : $\gamma \epsilon [0, … Read more

Sharing is caring:

Reward pada Reinforcement Learning

Reward pada reinforcement learning akan berusaha dicapai setinggi mungkin oleh agent. Karena framework dari RL sendiri mengharuskan Agent untuk mencapai maximum cumulative reward. Tetapi apa yang dimaksud dengan reward? Misalnya dalam konteks robot yang belajar berjalan. Apakah environment adalah seorang trainer yang memperhatikan robot dan memberikan reward karena telah berjalan dengan baik? Jika seperti itu, … Read more

Sharing is caring:

Episodic dan Continuing Task

Episodic dan Continuing Task adalah jenis task yang mungkin terjadi dalam Reinforcement Learning. Episodic Task Episodic task adalah interaksi antara agent dan environment yang memiliki ending point. Contoh: Agent yang dilatih untuk memainkan game Atari Breakout. Interaksi berakhir ketika agent menang atau kalah. Urutan interaksi dari awal hingga akhir disebut episode. Pada akhir episode, Agent … Read more

Sharing is caring:

State Action Reward

State Action dan Reward adalah istilah yang digunakan pada Reinforcement Learning. Untuk entitas yang melakukan proses belajar disebut Agent. Agent berinteraksi dengan Environment, disebut Action. Dan berdasarkan Action, Environment akan memberi respon berupa State dan Reward. Berikut diagram hubungan Agent dan Environment. Proses Interaksi Agent dan Environment Agent menerima Environment State (S0) Berdasarkan obersevasi, Agent … Read more

Sharing is caring: