機械学習、強化学習の調査録

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

【強化学習】学習率、ステップサイズパラメータ

今回は学習率について、お話します。
強化学習では学習率をステップサイズパラメータとも言います。
このパラメータは記号で言えば $\alpha$で表記します。

この学習率は
更新量を現在にQ値にどれだけ反映させるか
を決定するパラメータになります。

Q学習の更新式を例に学習率の役割を具体的見てみます。 以下の式がQ学習の更新式になります。

$$ Q(s,a) \leftarrow \underbrace{Q(s,a)}_{元のQ値} + \color{red}{\alpha}\underbrace{(r + \gamma \max_{a' \in A}Q(s',a')-Q(s,a))}_{更新量(TD誤差)} $$

見てわかる通り、学習率$\alpha$が更新量であるTD誤差$r + \gamma \max_{a' \in A}Q(s',a')-Q(s,a)$をどれだけ現在のQ値$Q(s,a)$に影響させるかを決定しています。

学習率は$0 \leq \alpha \leq 1$の範囲の値になります。
学習率が0であれば、Q値値をまったく更新しませんし、
1であれば、TD誤差をQ値にすべて反映します。

一般的には学習率は学習初期を高い値に設定して、
学習が進むにつれて減少させていきます。
(厳密的に言えば、解が存在し、静的な問題あれば)

参考文献

強化学習 (機械学習プロフェッショナルシリーズ)

強化学習 (機械学習プロフェッショナルシリーズ)

強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る