Discounted Return

[latexpage]

Ide dari discounted return adalah reward timestep terdekat lebih besar dari timestep berikutnya.

Tujuan dari discounted return ini adalah agar agent lebih memperhatikan reward terdekat dibanding reward yang masih jauh.

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + …. $

Discounted return : $G_t$
Discount rate : $\gamma \epsilon [0, 1]$

Nilai discount yang dinotasikan dengan huruf gamma ($\gamma$) adalah angka dengan range 0 – 1. Umumnya diatas nilai 0 dan mendekati nilai 1.

Dengan aturan ini, reward terdekat akan lebih besar dibanding reward berikutnya.

Nilai gamma tidak didapat oleh agent melalui interaksi belajar. Namun nilai ini kita tentukan untuk me-refine goal yang harus dicapai oleh agent.

Jika terlalu besar, agent akan memperhatikan reward yang masih jauh didepan. Contoh ekstrim adalah 1, maka agent akan memperhatikan reward yang masih jauh didepan yang masih belum tentu didapat. Pada nilai $\gamma$ = 1 berarti tanpa diskon.

$G_t = R_{t+1} + 1 * R_{t+2} + 1^2 * R_{t+3} + 1^3 * R_{t+4} + …. $
$G_t = R_{t+1} + R_{t+2} + R_{t+3} + R_{t+4} + ….$

Jika terlalu kecil, agent akan hanya memperhatikan reward terdekat. Contoh ekstrim adalah 0, agent hanya akan memperhatikan reward saat ini saja. Pada nilai $\gamma$= 0, maka hanya next reward saja yang bisa diperoleh.

$G_t = R_{t+1} + 0 * R_{t+2} + 0^2 * R_{t+3} + 0^3 * R_{t+4} + …. $
$G_t = R_{t+1} + 0 + 0 + 0 + ….$

Discounting return ini relevant dengan continuing task (lihat lesson episodic dan continuing task). Untuk mendapatkan cumulative reward pada situasi tanpa ending tentu sulit, oleh karena itu discounting return akan menjaga agent tidak melihat reward yang terlalu jauh kedepan.

Sharing is caring: