[latexpage]
Adaptive Learning Rate akan membahas metoda learning rate AdaGrad dan RMSProp, serta ADAM. Adaptive learning rate lebih efisien dari scheduler yang dipekernalkan pada lesson sebelumnya yaitu exponential scheduler.
AdaGrad – Adaptive Gradient Algorithm
AdaGrad secara dinamis mevariasikan learning rate pada setiap update dan untuk setiap weight secara individual.
$\Delta w_i(t) = -\frac{\eta}{\sqrt{G_i(t)}+\epsilon} \frac{\partial L}{\partial w_i} (t)$
$G_i(t) = G_i(t-1) + \left(\frac{\partial L}{\partial w_i} (t)\right)^2$
$G_i(0) = 0$
Learning rage ($\eta$) dibagi oleh nilai G, dimana G disini berfungsi sebagai nilai adaptasi. Seiring dengan bertambah epoch, nilai G akan makin besar, oleh karena itu nilai Learning rate akan semakin kecil.
Kelebihan AdaGrad adalah melakukan adaptive learning rate schedule, learning rate ditentukan berdasarkan training dan melakukan adaptasi setiap weight.
Note: exponential learning schedule pada lesson sebelumnya nilai learning rate sudah ditentukan tanpa training process.
RMSProp – Root Mean Square Propagation
Mirip dengan AdaGrad, update rule masih sama dengan AdaGrad, perbedaanya pada G function. Digunakan nilai $\beta$ dengan range 0 – 1, umumnya digunakan 0.9.
$\Delta w_i(t) = -\frac{\eta}{\sqrt{G_i(t)}+\epsilon} \frac{\partial L}{\partial w_i} (t)$
$G_i(t) = \beta G_i(t-1) + (1- \beta)\left(\frac{\partial L}{\partial w_i} (t)\right)^2$
$G_i(0) = 0$
Kelebihan dari RMSProp adalah nilai G tidak bertambah secara monoton, dengan begitu learning rate akan beradaptasi lebih efisien.
ADAM – Adaptive Moment Estimation
Metoda optimizer paling advanced, karena cepat dan efisien. Pada AdaGrad dan RMSProp tidak menggunakan momentum pada schedulernya. ADAM adalah RMSProp scheduler plus momentum
$\Delta w_i(t) = -\frac{\eta}{\sqrt{G_i(t)}+\epsilon} M_i(t)$
$M_i(t) = \alpha M_i(t-1) + (1-\alpha) \frac{\partial L}{\partial W_i}(t)$
$M_i(0) = 0$
Semua formula diatas pada prakteknya tidak perlu dihafalkan. Dengan menggunakan TensorFlow, kita cukup pilih metoda scheduler yang akan digunakan dan setting hyperparameter yang diperlukan.
Pembahasan diatas bertujuan untuk memahami konsep dari masing-masing scheduler, sehingga kita paham mengapa memilih scheduler tersebut.
Para praktisi data science umumnya menggunakan ADAM, metoda terbaru. Hal yang perlu diperhatikan adalah, data science adalah ilmu yang terus berkembang. Oleh sebab itu, sebagai praktisi, kita harus terus mengikuti perkembangan terbaru.