マルチエージェント強化学習の基礎事項
マルチエージェント強化学習における学習の目標、ゴール
マルチエージェント強化学習の数学的分析
アルゴリズム
アルゴリズムの横の記号[協]、[対]、[両]は以下のように分類してます。
- 〈協〉:協調型ゲームに適用可能な手法
- 〈対〉:対戦型ゲームに適用可能手法
- 〈両〉:協調型、対戦型両方に適応可能な手法
また、その横にある記号〔〕のなかにある記号は
自分以外のエージェントの観測しなければならない情報。
〔a〕なら自分以外のエージェントの行動を観測しなければなりません
マルチエージェント強化学習のアルゴリズム
-
- 最もシンプルなマルチエージェント強化学習アルゴリズムです。各エージェントが各々通常の強化学習アルゴリズムによって学習します。
-
Joint Action Learners(JAL)〈両〉〔a〕
- 自分以外のエージェントを簡易的にモデル化し、そのモデルを用いて学習していく手法です。
-
- Q Learningに方策を加えた手法です。
-
Win or Learn Fast-PHC(WoLF-PHC)〈両〉
- Win or Learn Fastという原理をPHCに加えた手法です。PHCに比べ、Nash均衡解に収束することが実験的、理論的に示されています。
-
Minimax Q Learning〈対〉〔a〕
- Q Learningにゲーム理論のMinimax戦略を組み合わせた手法です。
-
Nash Q Learning〈両〉〔a,r〕
-
- Q Learningにゲーム理論のNash均衡戦略を組み合わせた手法です。
-
-
- 完全協調型のマルチエージェント強化学習アルゴリズムです。すべてのエージェントが楽観的にQ値、方策を更新していきます。定常環境で最適方策に収束することが知られています。
マルチエージェント深層強化学習のアルゴリズム
評価用問題
その他
-
Reward Shaping関連
参考文献
サーベイ論文等
書籍(強化学習について)
1.最も古典的な強化学習の教科書です。
2.最近出版された強化学習の教科書です。
3.最近の強化学習の研究等を紹介しています。 教科書としては微妙かもしれませんが、様々な強化学習の発展分野について紹介しています。
コメント