Q学習のQ値を用いて、方策を山登り的に更新していく手法です。
http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf
Policy Hill Climbing Agent
PHCはQ学習を拡張したものになります。
アルゴリズムは以下のようになります。
通常のQ学習は方策off型ですが、
ここでは、Q学習に方策\(\pi\)を加えています。
Q値によってこの方策を更新します。
最大のQ値を持つ行動をより多く行うように修正し、
それ以外はあまり行わないように修正していきます。
問題設定
論文と同じように Matching Pennies を用いて実験します。
以下がMatching Penniesの利得表になります。
1,2 | Heads | Tails |
---|---|---|
Heads | 1, -1 | -1,1 |
Tails | -1,1 | 1,-1 |
プログラム
ソースコードはgithubにあげました。
ソースをcloneして、run.pyを実行すれば実験がはじまります。
https://github.com/tocom242242/phc_sample
実験結果
単純に何回か学習行動を行い、
方策が収束するかを見てみます。
残念ながら、発散しています。
単純に各エージェントが利己的に学習行動をおこなうと、
均衡戦略に収束しないことがわかります。
均衡戦略に収束されるために、Win or Learn Fast(WoLF)が提案されています。
この手法については以下の記事で紹介します。
コメント