[latexpage]
Reward pada reinforcement learning akan berusaha dicapai setinggi mungkin oleh agent. Karena framework dari RL sendiri mengharuskan Agent untuk mencapai maximum cumulative reward.
Tetapi apa yang dimaksud dengan reward? Misalnya dalam konteks robot yang belajar berjalan.
Apakah environment adalah seorang trainer yang memperhatikan robot dan memberikan reward karena telah berjalan dengan baik?
Jika seperti itu, maka reward yang diberikan berpotensi subyektif dan tidak scientific. Tentu kita sulit untuk menentukan apa yang dimaksud dengan jalannya sudah bagus? Dan bagaimana kita menyampaikannya?
Agar lebih jelas, akan kita bahas research dari Google yaitu Google DeepMind, sebuah riset untuk melatih robot humanoid berjalan. Mari kita bahas dari actions, environment hingga reward pada riset ini.
Actions, action pada robot adalah gaya yang terjadi pada persendian saat robot berjalan. Robot dapat menentukan seberapa besar gaya setiap satuan waktu agar bisa berjalan maju.
States, Pada kasus ini, states pada satuan waktu tertentu adalah
- Posisi dan kecepatan dari persendian.
- Perhitungan tentang kondisi tanah, apakah datar, menanjak atau menurun atau lainnya.
- Peneliti dari Google DeepMind juga menambahkan sensor untuk mengetahui apakah robot masih dalam kondisi berjalan atau sudah jatuh.
Jadi berdasarkan informasi dari states, agent harus menentukan action, jika jalan menanjak tentu diperlukan jenis gerakan yang berbeda dengan jalan datar.
Reward, Reward ditentukan dalam model matematika (dapat dilihat pada Google DeepMind paper bagian apendix).
$r = min(v_x, v_max) – 0.005(v_y^2 + v_z^2) – 0.05y^2 – 0.02||u||^2 + 0.02$
$min(v_x, v_max)$ | Kecepatan jalan maju kedepan |
$0.005(v_y^2 + v_z^2)$ | Penalti, jika robot bergerak zig-zag |
$0.05y^2$ | Penalti, jika robot tidak pada jalur |
$0.02||u||^2$ | Penalti, jika gaya yang digunakan besar |
0.02 | Constant reward jika tidak jatuh |
Forumula ini menunjukan reward yang dapat diperoleh dalam setiap satuan waktu ketika action dilakukan.
Jika robot berjalan maju dengan cepat, dan tetap lurus, tidak keluar dari track, tidak menggunakan gaya yang besar, dan tentu saja tidak jatuh, maka robot akan mendapatkan reward yang besar.
Dari formula reward diatas, agent tidak dapat memilih untuk fokus pada aturan tertentu saja, misal hanya fokus berjalan cepat kedepan, atau berjalan maju tapi tidak usah cepat, atau jalan selama mungkin tanpa jatuh tanpa memperdulikan kecepatan.
Setiap komponen dari formula diatas harus seimbang untuk mendapatkan maximum cumulative reward.
Maximum Cumulative Reward
Seperti yang sudah disebutkan sebelumnya, agent harus mencapai maximum cumulative reward. Agar bisa tercapai, agent tidak bisa hanya fokus pada current timestep, tetapi harus memperhatikan juga dengan all timestep.
Action akan memiliki konsekuensi jangka pendek dan jangka panjang, dan agent harus mendapatkan pemahaman akan efek dari action tersebut. Hal ini dapat diformulasikan seperti berikut.
$R_1 + … + R_t + R_{t+1} + R_{t+2} + R_{t+3} + ….$
$R_1 + … + $ adalah reward dimasa lalu
$R_t$ adalah reward saat ini
$R_{t+1} + R_{t+2} + R_{t+3} + ….$ adalah reward dimasa depan
$G_t = R_{t+1} + R_{t+2} + R_{t+3} + ….$
Pada timestep t+n, agent akan melakukan action untuk mendapatkan Reward Cumulative yang diharapkan ($G_t$).