ノート

いろいろ勉強したことをまとめていきます

MENU

Policy Hill Climbing

Q学習のQ値を用いて、方策を山登り的に更新していく手法です。

基本的には、以下の論文で紹介されているPolicy Hill Climbing を述べます。

http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf

アルゴリズムは以下のようになります。

f:id:ttt242242:20180716182256j:plain
PHC

通常のQ学習は方策off型ですが、

ここでは、Q学習に方策$\pi$を加えています。

そして、Q値によって方策を更新します。

最大のQ値を持つ行動をより多く行うように修正し、、

それ以外はあまり行わないように修正していきます。

Win or Learn Fastを実装するために作られたのかな?

ちなみに、PHCのプログラムと実験結果は前の記事で

www.tcom242242.net