【マルチエージェント強化学習、評価用問題】Boutiler’s Coordination Game

今回はBoutiler’s Coordination Gameを紹介します。
このゲーム2体のエージェントの協調型のゲームになります。
つまり、うまく協調した時にお互いに最大の報酬が得られるような問題となります。
この問題の状態遷移と報酬については以下の図のようになります。

f:id:ttt242242:20190612072440j:plain

このゲームに状態は6つあり、
状態遷移は各状態においての2エージェントの行動の組み合わせによって決定します。
\(\langle A_1, A_2 \rangle\)は左がエージェント\(1\)の行動、右がエージェント\(2\)の行動となります。
各エージェントの行動は\({a, b}\)の二択になります。

このゲームは、
\(s_1\)からスタートします。
まずエージェント1が行動選択し、状態遷移を行っていきます。
右端の状態まで到達した段階で報酬が得られます。
これが1エピソードとなり、行動選択を繰り返します。

最適な状態は\(s_4\)に毎回遷移することになります。

エージェント1がまず\(a\)を選択した場合、
エージェント2の行動によらず\(s_2\)に遷移します。
さらにエージェント1が\(a\)、エージェント2も\(a\)を選択した場合、
状態\(s_4\)に遷移して、両エージェントは報酬10を受け取ります。
そして、状態\(s_1\)に戻ります。

参考文献

https://www.cs.york.ac.uk/aig/papers/devlin-kudenko-aamas2012.pdf

コメント

タイトルとURLをコピーしました