概要
この論文ではマルチエージェント強化学習における探索を補助するために、
不確かな報酬(intrinsic reward)を用いることについて述べる。
我々はintrinsic rewardを協調型のマルチエージェント強化学習に
適用する。
また、intrinsic rewardが、
分散型エージェントの最適方策を学習することを
どのように妨げるかを実際に見る。。
そして、この課題を解決するフレームワークIndependent Centrally-assisted
Q-learning (ICQL)を提案する。
この手法は制御とExperience replay bufferを中央(centralized)エージェントと共有する。
中央のエージェントが、不確かな報酬を得るだけでなく、
分散型のエージェントは探索を向上することができる。
その他メモ
- 各エージェントはIDQL。しかしながら、他のエージェントの行動を観測できる
- 各エージェントQ値には、他のエージェントの行動と、自分の1ステップ前の行動を含める
論文情報
論文
https://arxiv.org/pdf/1906.02138.pdf
著者
- Wendelin Bohmer
- Tabish Rashid
- Shimon Whiteson
会議
Exploration in Reinforcement Learning Workshop at the International Conference on Machine Learning 2019
コメント