ノート

強化学習関連のこと

MENU

【強化学習】Reward Shaping

一言で言うと

強化学習の通常の報酬値に、追加の値を加えることで、学習速度を向上させることを目指すフレームワーク

最もシンプルなReard Shapingは、以下のように、通常の報酬値$r$に追加の報酬$F$を加えるような形

$$ r_{rs} = r + F $$

代表的なReward Shaping

Potential-based Reward Shaping

Potential-based Reward Shaping(PBRS)は$F$を以下のように与えたReward Shapingである。 $$ F(s,s') = \gamma \phi(s') - \phi(s) $$ $\phi$はPotential関数と言い、Potential関数には環境の特有の値を用いることが望ましい。 PBRSの論文*1では $$ \phi(s)=V^{\ast}(s) $$ と設定することを推奨している。$V^\ast$は最適状態価値関数を表している。

PBRSはMDPsの問題であれば、通常の報酬値を用いて学習して得られる最適方策と、同様の方策を得られることが理論的に保証されている。

証明に関しては参考文献*1を参照。

参考文献

Policy invariance under reward transformations: Theory and application to reward shaping