【マルチエージェント強化学習、簡易調査】Human-level performance in first-person multiplayer games with population-based deep reinforcement learning(2019)

※ 本当にざっと読んだだけ

概要

近年の強化学習の研究では、複雑なシングルエージェントタスクや、
2エージェントタスクにおいて、すばらしい成果を収めてきた。
しかしながら、実際の世界では複数のエージェントが、各々学習し、行動
するような場合が非常に多い。そのような環境では問題の複雑さは一層増す。
この研究で、我々はマルチプレーヤーゲームであるQuake III Arena Capture the Flagというfirst personの
ゲームで人間のレベルと同等以上の性能を得ることを始めて達成した。
これらの成果は、Independent 強化学習エージェント群を2層の最適化プロセス
によって同時学習することによって達成できた。
各エージェントは
勝つことによって得られる疎の遅れ報酬を補完するために、それぞれの報酬によって学習し、行動する。
ゲームを進めるにつれて、それらのエージェントは人間のような振る舞いを示すようになる。
トーナメントスタイルの評価の中で、学習されたエージェント群は
人間以上の性能を収めるようになった。
これらの研究は、人間レベルの人工知能に大きく近づけるようなものだろう。

その他メモ

  • 累積報酬の最大化とチームの勝利率の最大化を試みている。
  • self-playとも比較

論文情報

著者

  • Max Jaderberg
  • その他
  • Deep Mindの方々

論文

https://arxiv.org/pdf/1807.01281.pdf

コメント

タイトルとURLをコピーしました