Maximizing revenue akan mengambil contoh kasus pada online retail dimana customer diarahkan untuk menjadi pelanggan premium.
Pada kasus akan terdapat 9 strategy marketing, dimana masing-masing strategy memiliki 4 fitur, yaitu form pengisian, paket yang ditawarkan (contoh free ongkir), iklan dan special deal.
Kita akan membangun model AI untuk menentukan strategy mana yang paling menghasilkan conversion rate terbaik.
Element waktu juga perlu diperhatikan, makin cepat AI menemukan strategy terbaik, makin baik.
Untuk melakukan simulasi, diasumsikan strategi diatas memiliki conversion rate seperti berikut
| Strategy | Conversion Rate |
| 1 | 0.05 |
| 2 | 0.13 |
| 3 | 0.09 |
| 4 | 0.16 |
| 5 | 0.11 |
| 6 | 0.04 |
| 7 | 0.20 |
| 8 | 0.08 |
| 9 | 0.01 |
Action dan Reward
State terjadi ketika customer membuka website, dan Action adalah ketika sistem menampilkan strategi yang dipilih berdasarkan Algoritma Thompson Sampling.
Untuk proses Reward, jika conversion terjadi, maka agent akan mendapatkan reward +1, jika tidak terjadi conversion maka reward adalah +0.