強化学習、マルチエージェント強化学習、その他機械学習全般

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

MENU

マルチエージェント強化学習

【マルチエージェント強化学習】Nash Q Learning(Nash Q 学習)

今回はNash Q Learning(Nash Q学習)について紹介します。 背景 Nash Q Learningとは アルゴリズム 実装と実験 ソースコード nash_q_learner.py matrix_game.py policy.py run.py 実験 今後の課題 参考文献 背景 マルチエージェント強化学習では、ナッシュ均…

【マルチエージェント強化学習、分散型強化学習】Distributed Q Learming

今回は協調型のマルチエージェント強化学習アルゴリズムであるDistributed Q Learning を紹介します。 背景 Distributed Q Learning 具体例 実験 問題設定 プログラム distributed_q_learner.py matrix_game.py policy.py run.py 実験結果 参考文献 背景 協…

進化的に安定な戦略(Evolutionarily Stable Strategy)

今回は進化ゲーム理論やマルチエージェント強化学習においても取り上げられる進化的に安定な戦略について紹介しようと思います。 進化的に安定な戦略 進化的に安定な戦略となる条件 補足 参考文献 進化的に安定な戦略 進化的に安定な戦略とは、 「ある戦略を…

【強化学習、Reward Shaping】Dynamic Potential-Based Reward Shaping

今回はDynamic Potential-based Reward Shapingを紹介します。 Dynamic Potential-Based Reward Shapingとは Potential-based Reward Shapingは以前の記事で紹介しましたが、 以下のように報酬を形成する手法です。 $$ \begin{eqnarray} r_{shaped} = r + \g…

【マルチエージェント強化学習】Value-Decomposition Networks

今回はValue-Decomposition Networks(VDN)について紹介しようと思います。 Value-Decomposition Networksは完全協調型のマルチエージェント深層強化学習に適用できる手法となります。 VDNでは、最大するQ値$Q(\textbf{s}, \textbf{a})$を以下のように表現し…

【マルチエージェント強化学習】Minimax Q Learning

今回はMinimax Q Learning というマルチエージェント強化学習のアルゴリズムについて紹介しようと思います。 Minimax Q Learningは一言で言ってしまえば、Q Learning とゲーム理論のMinimax戦略を組み合わせた手法になります。 前提知識として、Q Learningに…

【マルチエージェント強化学習】ナッシュ均衡解

今回はマルチエージェント強化学習においての学習の目標となるナッシュ均衡について紹介しようと思います。 ナッシュ均衡 まずナッシュ均衡を数式で表現すると、以下のようになります。 $$ \begin{eqnarray} Q_i(\pi_i^{\ast}, \pi_{-i}^{\ast}) \geq Q_i(\p…

【マルチエージェント強化学習】Independent Learners(ILs, IQLs)

今回は最もシンプルなマルチエージェント強化学習アルゴリズムである Independent Learners(ILs)についてお話します。 この手法は単純に各エージェントが各々独立した価値関数を保持し、 各々独立で学習するアルゴリズムです。 各エージェントは自分以外のエ…

【マルチエージェント強化学習】Joint Action Learners

今回はJoint Action Learners(JAL)と呼ばれるマルチエージェント強化学習手法を紹介します。 Joint Action Learners JALはマルチエージェント強化学習の手法の中でも非常にシンプルなものになります。 Joint Actionとある通り、各エージェントはすべてのエー…

【トップページ】強化学習、マルチエージェント強化学習

強化学習 マルチエージェント強化学習 ライブラリ(keras, keras-rl等) 数学 参考文献 強化学習 強化学習超入門 基礎用語 学習率 方策 状態価値、状態行動価値 行動選択手法 greedy選択 ε-greedy選択 softmax行動選択 USBアルゴリズム N本バンディットプロ…

【マルチエージェント強化学習、評価用問題】Boutiler's Coordination Game

今回はBoutiler's Coordination Gameを紹介します。 このゲーム2体のエージェントの協調型のゲームになります。 つまり、うまく協調した時にお互いに最大の報酬が得られるような問題となります。 この問題の状態遷移と報酬については以下の図のようになりま…

【マルチエージェント強化学習】CLEAN Rewards

今回は Coordinated Learning without Exploratory Action Noise (CLEAN) Rewardsを紹介します。 CLEAN Rewardsはマルチエージェント強化学習におけるReward Shaping(報酬形成)手法の1つです。 各エージェントの探索による報酬の乱れを抑えることにフォー…

【マルチエージェント強化学習、簡易調査】Human-level performance in first-person multiplayer games with population-based deep reinforcement learning(2019)

※ 本当にざっと読んだだけ 概要 近年の強化学習の研究では、複雑なシングルエージェントタスクや、 2エージェントタスクにおいて、すばらしい成果を収めてきた。 しかしながら、実際の世界では複数のエージェントが、各々学習し、行動 するような場合が非常…

【マルチエージェント強化学習、簡易調査】Neural Replicator Dynamics

概要 マルチエージェント学習では、 各エージェントの方策が同時に更新されていくため、 本質的に非定常環境となる。 そのため、非定常環境においてもうまく学習できるようなアルゴリズムを開発し 分析することが最優先課題となる。 先行研究で、進化ゲーム…

【マルチエージェント強化学習、簡易調査】Exploration with Unreliable Intrinsic Reward in Multi-Agent Reinforcement Learning

概要 この論文ではマルチエージェント強化学習における探索を補助するために、 不確かな報酬(intrinsic reward)を用いることについて述べる。 我々はintrinsic rewardを協調型のマルチエージェント強化学習に 適用する。 また、intrinsic rewardが、 分散型…

【マルチエージェント強化学習】Difference Rewards

今回はマルチエージェント強化学習のReward Shaping手法の1つの Difference Rewards について紹介します。 Difference Rewards Difference Rewards はマルチエージェント強化学習の完全協調タスク における報酬形成手法の1つです。 Difference Rewardsでは…

【マルチエージェント学習、評価用問題】The Gaussian Squeeze Domain

The Gaussian Squeeze Domain(GSD)は完全協調型のマルチエージェントゲームの1つです。 最適化したい目的関数(報酬)は以下の式になります。 $$ \begin{eqnarray} G(x) = x e^{\frac{-(x- \mu )^{2}}{\delta ^{2}}} \end{eqnarray} $$ $\mu$、$\delta$ はシ…

【サーベイ】QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

概要 fully cooperative マルチエージェント強化学習の手法を提案 centralized 行動価値関数(状態と全エージェントの行動により構成される関数)とdecentralised policies(各々のエージェントのpolicy)を持つ形が協調型のマルチエージェント強化学習では知ら…

【ゲーム理論】【マルチエージェント学習】Two Player Two Action ゲームの具体的な利得テーブルまとめ

Common interest game 1,2 a b a 1.0,1.0 0.0,0.0 b 0.0,0.0 0.5,0.5 Coordination game 1,2 a b a 1.0,0.5 0.0,0.0 b 0.0,0.0 0.5,1.0 Stag hunt game 1,2 a b a 1.0,1.0 0.0,0.75 b 0.75,0.0 0.5,0.5 Tricky game 1,2 a b a 0.0,1.0 1.0,0.67 b 0.33,0.0 0…

Win or Learn Fast PHC をじゃんけんゲームで実験

同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC 前回の記事参照 www.tcom242242.net 問題設定 今回はじゃん…

【マルチエージェント強化学習】Win or Learn Fast-PHC

今回はマルチエージェント強化学習アルゴリズムの1つであるWoLF PHCについて紹介します。 Win or Learn Fast(WoLF) WoLF-PHC 実験 問題設定 ソースコード wolf_agent.py matrix_game.py run.py 実験結果 参考文献 Win or Learn Fast(WoLF) まずWin or Learn…

【マルチエージェント強化学習】Policy Hill Climbing

Q学習のQ値を用いて、方策を山登り的に更新していく手法です。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Policy Hill Climbing Agent PHCはQ学習を拡張したものになります。 アルゴリズムは以下のようになります。 PHC 通常のQ学習は方策off型で…

【ゲーム理論】2人2行動ゲームの分類

代表的なゲームの分類 2 player 2 action gameをいくつか挙げてまとめておきます。 まず、以下の利得表を使って、囚人のジレンマ、チキン・ゲーム、ハトタカゲーム、コーディネーションゲームを書いておきます。 1,2 協調(C) 裏切り(D) 協調(C) R,R S,T 裏切…

【マルチエージェント強化学習】マルチエージェント強化学習のサーベイ論文やスライド

サーベイ論文 ※すべて英語です A Comprehensive Survey of Multi-agent Reinforcement Learning(2008) マルチエージェント強化学習全般のサーベイ Independent Reinforcement learners in cooperative Markov games:a survey regarding coordination problem…

マルチエージェント強化学習のエージェントの種類

マルチエージェント強化学習では各エージェントの観測可能な情報によってエージェントを2種類に分類できます。 1. Independent Learner 2. Joint Action Learner 参考文献と参考になる本 1. Independent Learner Independet Learnerは、自分以外のエージェン…

マルチエージェント強化学習の大まかな分類

マルチエージェント強化学習は大まかには3種類に分類されます。 Stochastic Gamesの報酬関数$R$によっ分類されます。 ちなみにStochastic Gamesについては以下参照 Stochastic Games - 強化学習、マルチエージェント強化学習、その他機械学習全般 1.Fully Co…

自律分散型システム

自律分散システムとは システム全体を中央の制御部で制御するのではなく、 システムの各要素が各々自律的に制御を行うことで、 システム全体の制御を行うシステムのことを言います。 人間社会も複数の人間が各々自律的に行動を行うことで、「社会」という巨…

Stochastic Games

Stochastic Games マルチエージェント強化学習を分析する際に有用な Stochastic Games(SG)について簡単にご紹介します。 ちなみにSGs は別名 Markov Gamesです。 SGは次のタプルで表現されます。 $$ \begin{eqnarray} SG = \langle n,S,A^1 ,...,A^n ,R^1 ,.…