【強化学習】学習率、ステップサイズパラメータ

今回は学習率について、お話します。
強化学習では学習率をステップサイズパラメータとも言います。
このパラメータは記号で言えば \(\alpha\)で表記します。

この学習率は
更新量を現在にQ値にどれだけ反映させるか
を決定するパラメータになります。

Q学習の更新式を例に学習率の役割を具体的見てみます。 以下の式がQ学習の更新式になります。

$$
\begin{eqnarray}
Q(s,a) \leftarrow \underbrace{Q(s,a)}_{元のQ値} + \color{red}{\alpha}\underbrace{(r + \gamma \max_{a’ \in A}Q(s’,a’)-Q(s,a))}_{更新量(TD誤差)}
\end{eqnarray}
$$

見てわかる通り、学習率\(\alpha\)が更新量であるTD誤差\(r + \gamma \max_{a’ \in A}Q(s’,a’)-Q(s,a)\)をどれだけ現在のQ値\(Q(s,a)\)に影響させるかを決定しています。

学習率は\(0 \leq \alpha \leq 1\)の範囲の値になります。
学習率が0であれば、Q値値をまったく更新しませんし、
1であれば、TD誤差をQ値にすべて反映します。

一般的には学習率は学習初期を高い値に設定して、
学習が進むにつれて減少させていきます。
(厳密的に言えば、解が存在し、静的な問題あれば)

参考文献

1.最も古典的な強化学習の教科書です。

強化学習強化学習

2.最近出版された強化学習の教科書です。

強化学習アルゴリズム入門 「平均」からはじめる基礎と応用

3.最近の強化学習の研究等を紹介しています。 教科書としては微妙かもしれませんが、様々な強化学習の発展分野について紹介しています。

これからの強化学習

コメント

タイトルとURLをコピーしました