ノート

強化学習関連のこと

MENU

【サーベイ】QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

概要

  • fully cooperative マルチエージェント強化学習の手法を提案
  • centralized 行動価値関数(状態と全エージェントの行動により構成される関数)とdecentralised policies(各々のエージェントのpolicy)を持つ形が協調型のマルチエージェント強化学習では知られているが、どのようにcentralized 行動価値関数を学習するかは自明ではない。
  • previous studyではvalue decomposition networks(VDNs)では、$Q_{tot}$という、全エージェントの行動価値関数の総和を用いた関数を用いていた。
  • QMIXではVDNsに加えて、各エージェントの行動価値関数の値が上昇することが、$Q_{tot}$を向上させることにつながるようなネットワークを構成する
  • StarCraft を用いて評価して、QMIXは比較手法に比べ、良い性能を得ることを確認

https://arxiv.org/pdf/1803.11485.pdf

bibtex