Discounted Return
Ide dari discounted return adalah reward timestep terdekat lebih besar dari timestep berikutnya. Tujuan dari discounted return ini adalah agar agent lebih memperhatikan reward terdekat dibanding reward yang masih jauh. $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + …. $ Discounted return : $G_t$ Discount rate : $\gamma \epsilon [0, … Read more