ノート

強化学習関連のこと

MENU

マルチエージェント強化学習

【サーベイ】QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

概要 fully cooperative マルチエージェント強化学習の手法を提案 centralized 行動価値関数(状態と全エージェントの行動により構成される関数)とdecentralised policies(各々のエージェントのpolicy)を持つ形が協調型のマルチエージェント強化学習では知ら…

【ゲーム理論】【マルチエージェント学習】Two Player Two Action ゲームの具体的な利得テーブルまとめ

Common interest game 1,2 a b a 1.0,1.0 0.0,0.0 b 0.0,0.0 0.5,0.5 Coordination game 1,2 a b a 1.0,0.5 0.0,0.0 b 0.0,0.0 0.5,1.0 Stag hunt game 1,2 a b a 1.0,1.0 0.0,0.75 b 0.75,0.0 0.5,0.5 Tricky game 1,2 a b a 0.0,1.0 1.0,0.67 b 0.33,0.0 0…

Win or Learn Fast PHC をじゃんけんゲームで実験

同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC 前回の記事参照 www.tcom242242.net 問題設定 今回はじゃん…

Win or Learn Fast PHC で実験

PHCエージェントでの実験 Win or Learn Fast PHC で実験 同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC Wo…

【ゲーム理論】2人2行動ゲームの分類

代表的なゲームの分類 2 player 2 action gameをいくつか挙げてまとめておきます。 まず、以下の利得表を使って、囚人のジレンマ、チキン・ゲーム、ハトタカゲーム、コーディネーションゲームを書いておきます。 1,2 協調(C) 裏切り(D) 協調(C) R,R S,T 裏切…

【マルチエージェント強化学習】マルチエージェント強化学習のサーベイ論文やスライド

サーベイ論文 ※すべて英語です 1. A Comprehensive Survey of Multi-agent Reinforcement Learning(2008) マルチエージェント強化学習全般のサーベイ 2. Independent Reinforcement learners in cooperative Markov games:a survey regarding coordination p…

マルチエージェント強化学習のエージェントの種類

マルチエージェント強化学習では、各エージェントの観測可能な情報によって エージェントを2種類に分類できる。 1. Independent Learner Independet Learnerは、自分以外のエージェントのアクション$A$、報酬$R$を観測できる 単純に複数の強化学習エージェン…

マルチエージェント強化学習の大まかな分類

参考にした論文ではStochastic Gamesの報酬関数$R$によって3種類に分類されます。 ちなみにStochastic Gamesについては以下参照 Stochastic Games - ノート 1.Fully Cooperative tasks $R_1 = ... = R_m = R$の時。 つまり、全エージェントが同じ報酬値を受…

自律分散型システム

自律分散システムとは システム全体を中央の制御部で制御するのではなく、 システムの各要素が各々自律的に制御を行うことで、 システム全体の制御を行うシステムのことを言います。 人間社会も複数の人間が各々自律的に行動を行うことで、「社会」という巨…

Stochastic Games

Stochastic Games マルチエージェント強化学習を分析する際に有用な Stochastic Games(SG)について簡単にご紹介します。 ちなみにSGs は別名 Markov Gamesです。 SGは次のタプルで表現されます。 $ SG = < n,S,A1 ,...,An ,R1 ,...,Rn ,T> $ 各要素について…