強化学習、マルチエージェント強化学習、その他機械学習全般

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

MENU

Reward Shaping

【強化学習、Reward Shaping】Dynamic Potential-Based Reward Shaping

今回はDynamic Potential-based Reward Shapingを紹介します。 Dynamic Potential-Based Reward Shapingとは Potential-based Reward Shapingは以前の記事で紹介しましたが、 以下のように報酬を形成する手法です。 $$ \begin{eqnarray} r_{shaped} = r + \g…

【強化学習、Reward Shaping】Potential-based reward shapingの特徴(Potential-Based Shaping and Q-Value Initialization are Equivalent)

今回は、Potential-Based Reward Shaping(PBRS)の面白い特徴についてお話しようと思います。 Potential-Based Reward Shapingとは Reward Shaping手法の1つで、通常の環境からの報酬$r$にある値$F(s, s')=\gamma \phi(s')-\phi(s)$を加えて、学習を高速化さ…

【マルチエージェント強化学習】CLEAN Rewards

今回は Coordinated Learning without Exploratory Action Noise (CLEAN) Rewardsを紹介します。 CLEAN Rewardsはマルチエージェント強化学習におけるReward Shaping(報酬形成)手法の1つです。 各エージェントの探索による報酬の乱れを抑えることにフォー…

【マルチエージェント強化学習】Difference Rewards

今回はマルチエージェント強化学習のReward Shaping手法の1つの Difference Rewards について紹介します。 Difference Rewards Difference Rewards はマルチエージェント強化学習の完全協調タスク における報酬形成手法の1つです。 Difference Rewardsでは…

【強化学習】Potential based Reward Shaping を試してみる

今回はPotential based Reward Shapingをgrid world問題上で試してみます。 Potential based reward shaping 試してみるポテンシャル関数 1.ランダム 2. 学習途中の状態価値$\phi(s)=V(s)$ Grid world problem プログラム 実験結果 Potential based reward s…