State Action Reward

[latexpage]

State Action dan Reward adalah istilah yang digunakan pada Reinforcement Learning.

Untuk entitas yang melakukan proses belajar disebut Agent. Agent berinteraksi dengan Environment, disebut Action. Dan berdasarkan Action, Environment akan memberi respon berupa State dan Reward. Berikut diagram hubungan Agent dan Environment.

Agent Environment Interaction — Agent-Environment Interaction

Proses Interaksi Agent dan Environment

Agent menerima Environment State (S0)
Berdasarkan obersevasi, Agent akan memilih sebuah Action (A0)
Konsekuensi dari piihan agent (A0) dan State enviroment sebelumnya (S0), Environment akan bertransisi ke state baru, S1 dan memberikan reward (R1).
Agent akan melakukan action baru yaitu A1.
Pada timestep berikutnya, proses akan berlanjut dimana environment memberikan reward (R2) dan state (S2), kemudian agent akan merespon dengan action (A2). Dan selanjutnya.

Interaksi menunjukan sequence dari States, Actions dan Rewards.

$S_0 A_0 R_1 S_1 A_1 R_2 S_2 A_2 R_3 S_3 A_3 R_4 . . . .$

Tujuan dari agent adalah untuk memaksimumkan expected cumulative reward. Agent akan mencari strategi untuk memilih acation dengan cumulative reward yang tinggi.

Agent dapat mencapai ini hanya dengan berinteraksi dengan environment, karena environment menentukan berapa besar reward yang akan diperoleh agent. Dengan kata lain, agent harus bermain dengan aturan yang diberikan environment. Melalui interaksi, agent dapat memahami rules terebut dan dapat memilih actions yang tepat untuk mencapai goal.

Dan semuanya dapat dirumuskan dalam model matematis, dan dapat digunakan untuk menyelesaikan masalah di dunia nyata.

image source: Reinforcement Learning an Introduction, Richard S. Sutton and Andrew G. Barto)

Sharing is caring: