マルチエージェント強化学習まとめ

マルチエージェント強化学習の基礎事項

マルチエージェント強化学習における学習の目標、ゴール

マルチエージェント強化学習の数学的分析

アルゴリズム

アルゴリズムの横の記号[協]、[対]、[両]は以下のように分類してます。

  • 〈協〉:協調型ゲームに適用可能な手法
  • 〈対〉:対戦型ゲームに適用可能手法
  • 〈両〉:協調型、対戦型両方に適応可能な手法

また、その横にある記号〔〕のなかにある記号は
自分以外のエージェントの観測しなければならない情報。
〔a〕なら自分以外のエージェントの行動を観測しなければなりません

マルチエージェント強化学習のアルゴリズム

  • Independent Learners(ILs)〈両〉

    • 最もシンプルなマルチエージェント強化学習アルゴリズムです。各エージェントが各々通常の強化学習アルゴリズムによって学習します。
  • Joint Action Learners(JAL)〈両〉〔a〕

    • 自分以外のエージェントを簡易的にモデル化し、そのモデルを用いて学習していく手法です。
  • Policy Hill Climbing(PHC)〈両〉

    • Q Learningに方策を加えた手法です。
  • Win or Learn Fast-PHC(WoLF-PHC)〈両〉

    • Win or Learn Fastという原理をPHCに加えた手法です。PHCに比べ、Nash均衡解に収束することが実験的、理論的に示されています。
  • Minimax Q Learning〈対〉〔a〕

    • Q Learningにゲーム理論のMinimax戦略を組み合わせた手法です。
  • Nash Q Learning〈両〉〔a,r〕

      • Q Learningにゲーム理論のNash均衡戦略を組み合わせた手法です。
  • Distributed Q Learning〈協〉

    • 完全協調型のマルチエージェント強化学習アルゴリズムです。すべてのエージェントが楽観的にQ値、方策を更新していきます。定常環境で最適方策に収束することが知られています。

マルチエージェント深層強化学習のアルゴリズム

評価用問題

その他

参考文献

サーベイ論文等

書籍(強化学習について)

1.最も古典的な強化学習の教科書です。

強化学習強化学習

2.最近出版された強化学習の教科書です。

強化学習アルゴリズム入門 「平均」からはじめる基礎と応用

3.最近の強化学習の研究等を紹介しています。 教科書としては微妙かもしれませんが、様々な強化学習の発展分野について紹介しています。

これからの強化学習

コメント

タイトルとURLをコピーしました