マルチエージェント強化学習

マルチエージェント強化学習

【マルチエージェント強化学習問題】pursuit problem(追跡問題)

pursuit problem(追跡問題) 強化学習エージェント(predator)の行動、状態、報酬 行動 状態 報酬 実験 ソースコード 実行結果 参考文献 pursuit problem(追跡問題) pursuit pro...
マルチエージェント強化学習

マルチエージェント強化学習とは

マルチエージェント強化学習とは マルチエージェント強化学習は、 複数の強化学習エージェントが同時に学習行動を行う 自律分散型の学習フレームワークのことを言います。 マルチエージェント(マルチエージェントシステム)は、複数(マルチ)のエージェ...
マルチエージェント強化学習

【マルチエージェント強化学習】Nash Q Learning(Nash Q 学習)

今回はNash Q Learning(Nash Q学習)について紹介します。 背景 マルチエージェント強化学習では、ナッシュ均衡戦略が1つの目標となります。 各エージェントが単純に強化学習を行うILsなどでは、ナッシュ均衡戦略への収束は保証...
マルチエージェント強化学習

【マルチエージェント強化学習、分散型強化学習】Distributed Q Learning

今回は協調型のマルチエージェント強化学習アルゴリズムであるDistributed Q Learning を紹介します。 背景 協調型のマルチエージェント強化学習では、いかに各エージェントが協調して、 全エージェントの獲得報酬を最大化すること...
ゲーム理論

進化的に安定な戦略(Evolutionarily Stable Strategy)

今回は進化ゲーム理論やマルチエージェント強化学習においても取り上げられる進化的に安定な戦略について紹介しようと思います。 進化的に安定な戦略 進化的に安定な戦略とは、 「ある戦略をとる個体で占められている集団があって、その集団に他の戦略をと...
Reward Shaping

【強化学習、Reward Shaping】Dynamic Potential-Based Reward Shaping

今回はDynamic Potential-based Reward Shapingを紹介します。 Dynamic Potential-Based Reward Shapingとは Potential-based Reward Shaping...
マルチエージェント強化学習

【マルチエージェント強化学習】Value-Decomposition Networks

今回はValue-Decomposition Networks(VDN)について紹介しようと思います。 Value-Decomposition Networksは完全協調型のマルチエージェント深層強化学習に適用できる手法となります。 VDN...
マルチエージェント強化学習

【マルチエージェント強化学習】Minimax Q Learning

今回はMinimax Q Learning というマルチエージェント強化学習のアルゴリズムについて紹介しようと思います。 Minimax Q Learningは一言で言ってしまえば、Q Learning とゲーム理論のMinimax戦略を組...
マルチエージェント強化学習

【マルチエージェント強化学習】ナッシュ均衡解

今回はマルチエージェント強化学習においての学習の目標となるナッシュ均衡について紹介しようと思います。 ナッシュ均衡 まずナッシュ均衡を数式で表現すると、以下のようになります。 $$ \begin{eqnarray} Q_i(\pi_i^...
マルチエージェント強化学習

【マルチエージェント強化学習】Independent Learners(ILs, IQLs)

今回は最もシンプルなマルチエージェント強化学習アルゴリズムである Independent Learners(ILs)についてお話します。 この手法は単純に各エージェントが各々独立した価値関数を保持し、 各々独立で学習するアルゴリズムです。 ...
タイトルとURLをコピーしました