Policy Hill Climbingエージェントで実験

ランダムエージェントでの実験

Policy Hill Climbing で実験

以下の論文で、紹介されているPolicy Hill Climbing(PHC)

http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf

を実装して実験してみました。

問題設定

よくゲーム理論で用いられているものです。

論文と同じように
Matching Pennies を用いて実験。

以下がMatching Penniesの利得表

1,2 Heads Tails
Heads 1, -1 -1,1
Tails -1,1 1,-1

Policy Hill Climbing Agent

PHCはQ学習を拡張したものになります。

基本的にはQ学習に方策を付与したものになります。

アルゴリズムについては、また後日まとめようと思います。

実験結果

単純に何回か学習行動を行い、

方策が収束するかを見てみます。

f:id:ttt242242:20180709210057p:plain

これで良いのかわかりませんが、

発散しています。

まぁ単純なPHCだとナッシュ均衡戦略に収束しないから、

WoLFが提案されているので良いのだと思いますが。

ソースコード

以下の3つのプログラムから構成されています

  • 実行用のプログラム(run_random.py)、
  • gameプログラム(games/simple_game.py)、
  • phcエージェント(agents/phc_agent.py)
  • 方策(agents/policy.py)

ファイル構成

run_phc.py

games/game.py

games/simple_game.py

agents/phc_agent.py

agents/policy.py

コメント

タイトルとURLをコピーしました