【マルチエージェント強化学習】CLEAN Rewards

今回は Coordinated Learning without Exploratory Action Noise (CLEAN) Rewardsを紹介します。

CLEAN Rewardsはマルチエージェント強化学習におけるReward Shaping（報酬形成）手法の１つです。
各エージェントの探索による報酬の乱れを抑えることにフォーカスした手法です。

探索によるノイズ
CLEAN Rewards
実験

探索によるノイズ

マルチエージェント学習では、複数のエージェントが同時に学習しています。
そして、各エージェントの報酬は他のエージェントの行動にも影響を受けます。
基本的には状態遷移、報酬ともすべての行動によって決定されるためです。

探索はランダム行動のようなものなので、あるエージェントの探索は他のエージェントにとってはノイズとなります。
このノイズは各エージェントの学習を阻害するので、うまく取り除くことが重要になります。

CLEAN Rewards

上述したノイズをうまく報酬から取り除く手法がCLEAN Rewardsという
Reward Shaping手法の１つになります。
論文では２つの手法を提案していますが、
本記事ではまず１つの手法(CLEAN 1:C1)を見てみます。
C1ではエージェント$i$の報酬$C1_{i}$は以下のように決定されます。

$$
\begin{eqnarray}
C1_{i} = G(\textbf{a}_{a_{i} \leftarrow a’_{i}}) – G(\textbf{a})
\end{eqnarray}
$$

$G(\textbf{a})$は全エージェントがgreedyを選択をした時の報酬、
$G(\textbf{a}_{a_{i} \leftarrow a’_{i}})$はエージェント$i$だけが探索した時の報酬を表しています。
CLEAN Rewardsでは、エージェント$i$の探索による行動を、他のエージェントがgreedy選択している時の報酬との差分をとっているいるので、純粋な探索した行動のシステム全体への影響を計算できます。