【マルチエージェント強化学習】Policy Hill Climbing

Q学習のQ値を用いて、方策を山登り的に更新していく手法です。

http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf

Policy Hill Climbing Agent

PHCはQ学習を拡張したものになります。

アルゴリズムは以下のようになります。

f:id:ttt242242:20180716182256j:plain

通常のQ学習は方策off型ですが、

ここでは、Q学習に方策\(\pi\)を加えています。

Q値によってこの方策を更新します。

最大のQ値を持つ行動をより多く行うように修正し、

それ以外はあまり行わないように修正していきます。

問題設定

論文と同じように Matching Pennies を用いて実験します。

以下がMatching Penniesの利得表になります。

1,2 Heads Tails
Heads 1, -1 -1,1
Tails -1,1 1,-1

プログラム

ソースコードはgithubにあげました。
ソースをcloneして、run.pyを実行すれば実験がはじまります。

https://github.com/tocom242242/phc_sample

実験結果

単純に何回か学習行動を行い、

方策が収束するかを見てみます。

f:id:ttt242242:20180709210057p:plain

残念ながら、発散しています。

単純に各エージェントが利己的に学習行動をおこなうと、

均衡戦略に収束しないことがわかります。

均衡戦略に収束されるために、Win or Learn Fast(WoLF)が提案されています。

この手法については以下の記事で紹介します。

Win or Learn Fast

コメント

タイトルとURLをコピーしました