【強化学習、Reward Shaping】Dynamic Potential-Based Reward Shaping

今回はDynamic Potential-based Reward Shapingを紹介します。

Dynamic Potential-Based Reward Shapingとは

Potential-based Reward Shapingは以前の記事で紹介しましたが、
以下のように報酬を形成する手法です。
$$
\begin{eqnarray}
r_{shaped} = r + \gamma \phi(s’) – \phi(s)
\end{eqnarray}
$$

今回紹介するDynamic Potential-based Reward Shapingでは
ポテンシャル関数$\phi$が時間ととも変化するPotential-based Reward Shapingとなります。つまり、以下のような式になります。
$$
\begin{eqnarray}
r_{shaped} = r + \gamma \phi(s’, \color{red}{t’}) – \phi(s, \color{red}{t})
\end{eqnarray}
$$

Dynamic Potential-Based Reward Shapingのメリット

時間とともポテンシャル関数$\phi$を変更させることができます。
そのメリットとしては、各試行によって得られた経験などの環境の情報を元にポテンシャル関数$\phi$を調整できるということが挙げられます。

学習前の段階でポテンシャル関数$\phi$を設定する場合には、これからの解くタスクの情報が少ない状態で
ポテンシャル関数を決定しなければいけないためこの関数の設計が難しいとことが考えられます。
しかし、動的にポテンシャル関数を変更できれば、
問題を解きながら得られた情報を元にポテンシャル関数を調整することができます。

Dynamic Potential-Based Reward Shapingの特徴

動的にポテンシャル関数を変化させることで、
元々のPotential-Based Reward Shapingで保証されていた特徴の中で、変化する項目と変化しない項目があります。

1. 通常の最適方策を得られることとナッシュ均衡解は変化しない

通常のPotential-based Reward ShapingではMDPs環境において、
学習して得られる最適方策が変化しないことが保証されています。
Dynamic Potential-based Reward Shapingにおいてもこの特徴は変化しないことが保証されています。

さらに、マルチエージェント環境下の話になるのですが、
通常のマルチエージェント強化学習において得られるナッシュ均衡解についても変化しないことが知られています。
(学習結果の各行動の優位度は変わらないと証明)
証明に関しては参考文献*1を参照していただければと思います。

2. Not Equivalent To Q-Table Initialisation

Potential-based Reward Shapingで指摘されていたQ-Table Initialisationは保証されないという特徴です。
Potential-based Reward Shapingでは
「同じ経験で学習する場合、通常のPBRSによって学習するエージェント1と、
初期のQ値に$\phi(s)$を加え通常の報酬で学習を行うエージェント2のQ値は同値になる」
というおもしろい特徴がありました。
しかしながら、Dynamic Potential-Based Reward Shapingでは上記は保証されないと理論的に証明されています。

参考文献

  1. Dynamic Potential-Based Reward Shaping

強化学習 (機械学習プロフェッショナルシリーズ)

強化学習 (機械学習プロフェッショナルシリーズ)

コメント

タイトルとURLをコピーしました