Minimizing Cost Menggunakan Deep Q-Learning – Part 2

State

Input state st pada time t terdiri dari 3 element berikut

  1. Temperature server pada time t.
  2. Jumlah user pada time t.
  3. Rate trasmisi data pada time t.

Jadi, input state akan berupa input vector dari 3 element diatas. AI akan menggunakan vector input tersebut dan mengembalikan action untuk dijalankan pada setiap time t.

Action

Action adalah perubahan temperatur yang dilakukan AI (perubahan bisa menaikan atau menurunkan suhu). Agar action bernilai diskrit, kita gunakan 5 kemungkinan perubahan suhu dengan rentang −3◦C s/d +3◦C:

  • 0: menurunkan suhu sebesar 3C
  • 1: menurunkan suhu sebesar 1.5C
  • 2: Tidak ada perubahan suhu.
  • 3: menaikan suhu sebesar 1.5C
  • 4: menaikan suhu sebesar 3C

Reward

Reward pada iterasi t adalah besar energi yang dihemat oleh AI. Yaitu selisih antara energi yang digunakan AI dengan sistem pendingin dari server.

Penting dipahami, untuk menghitung reward, sistem AI dan non AI akan dievaluasi secara terpisah. Dan karena setiap action akan menyebabkan perubahaan suhu, kita harus menyimpan informasi suhu TtAI dan TtnoAI.

Sampai disini kita sudah selesai mendefinisikan state, action dan reward. Sebelum memulai implementasi menggunakan Python, kita akan bahas teori dasar dari Q-Learning.

Sharing is caring:

Leave a Comment