Teori: Multi Armed Bandit Problem

Fun Fact, nama Multi Armed Bandit diambil dari mesin slot di kasino. Jadi multi armed bandit adalah problem mesin slot mana yang paling menguntungkan.

Pada kasus sehari-hari, banyak masalah dapat disederhanakan sesuai dengan Multi Armed Bandit Problem. Contoh: memilih iklan mana yang conversion rate-nya tinggi.

Exploration vs Exploitation

Pada prakteknya, saat iklan dibuat dan ditayangkan, kita tidak mengetahui iklan mana yang memiliki distribusi terbaik.

Jadi diperlukan eksplorasi yang cukup untuk mengetahui iklan mana yang paling menghasilkan. Setelah ditemukan baru dilakukan eksploitasi.

Thompson Sampling

Thompson sampling adalah alogritma probabilistik yang dapat digunakan untuk menyelesaikan multi armed problem diatas.

Menggunakan contoh slot machine, Thompson Sampling tidak digunakan untuk menerka distribusi yang dimiliki mesin tertentu. (Karena pada kasus nyata, umumnya kita tidak mengetahui distribusinya).

Setelah mendapatkan beberapa sample data, kita dapat gunakan Thompson sampling untuk membuat distribusi berdasarkan perkiraan dimana nilai aktual akan berada.

Setelah distribusi dibuat, kita akan gunakan padan round (state) berikutnya untuk memilih mesin mana yang akan digunakan.

Misalnya, alogritma menunjukan mesin hijau, pada dunia nyata, kita mainkan mesin hijau. Return dari mesin akan digunakan untuk meng-adjust distribusi yang telah dibuat sebelumnya.

Sharing is caring:

Exploration vs Exploitation

Thompson Sampling

Leave a Comment Cancel reply