※ 本当にざっと読んだだけ
概要
近年の強化学習の研究では、複雑なシングルエージェントタスクや、
2エージェントタスクにおいて、すばらしい成果を収めてきた。
しかしながら、実際の世界では複数のエージェントが、各々学習し、行動
するような場合が非常に多い。そのような環境では問題の複雑さは一層増す。
この研究で、我々はマルチプレーヤーゲームであるQuake III Arena Capture the Flagというfirst personの
ゲームで人間のレベルと同等以上の性能を得ることを始めて達成した。
これらの成果は、Independent 強化学習エージェント群を2層の最適化プロセス
によって同時学習することによって達成できた。
各エージェントは
勝つことによって得られる疎の遅れ報酬を補完するために、それぞれの報酬によって学習し、行動する。
ゲームを進めるにつれて、それらのエージェントは人間のような振る舞いを示すようになる。
トーナメントスタイルの評価の中で、学習されたエージェント群は
人間以上の性能を収めるようになった。
これらの研究は、人間レベルの人工知能に大きく近づけるようなものだろう。
その他メモ
- 累積報酬の最大化とチームの勝利率の最大化を試みている。
- self-playとも比較
論文情報
著者
- Max Jaderberg
- その他
- Deep Mindの方々
論文
https://arxiv.org/pdf/1807.01281.pdf
コメント