【マルチエージェント強化学習、簡易調査】Exploration with Unreliable Intrinsic Reward in Multi-Agent Reinforcement Learning

概要

この論文ではマルチエージェント強化学習における探索を補助するために、
不確かな報酬(intrinsic reward)を用いることについて述べる。
我々はintrinsic rewardを協調型のマルチエージェント強化学習
適用する。
また、intrinsic rewardが、
分散型エージェントの最適方策を学習することを
どのように妨げるかを実際に見る。。
そして、この課題を解決するフレームワークIndependent Centrally-assisted
Q-learning (ICQL)を提案する。
この手法は制御とExperience replay bufferを中央(centralized)エージェントと共有する。
中央のエージェントが、不確かな報酬を得るだけでなく、
分散型のエージェントは探索を向上することができる。

その他メモ

  • 各エージェントはIDQL。しかしながら、他のエージェントの行動を観測できる
  • 各エージェントQ値には、他のエージェントの行動と、自分の1ステップ前の行動を含める

論文情報

論文

https://arxiv.org/pdf/1906.02138.pdf

著者

  • Wendelin Bohmer
  • Tabish Rashid
  • Shimon Whiteson

会議

Exploration in Reinforcement Learning Workshop at the International Conference on Machine Learning 2019

コメント

タイトルとURLをコピーしました