機械学習(特に強化学習)が好きな人のノート

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

2018-07-10から1日間の記事一覧

Policy Hill Climbing

Q学習のQ値を用いて、方策を山登り的に更新していく手法です。 基本的には、以下の論文で紹介されているPolicy Hill Climbing を述べます。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf アルゴリズムは以下のようになります。 PHC 通常のQ学習は方…