機械学習(特に強化学習)が好きな人のノート

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

遊び実験

【強化学習、入門】Q Learning

Q Learningの説明のために、 簡単な迷路の例を用いて、説明したいと思います。 最後に例で用いた迷路を実装してQ Learningで解かせてみました。 Q Learning(Q学習) Q Learningとは、一言で言ってしまうと 現在の行動の価値(Q値)を遷移先の状態の 最大Q値 …

Win or Learn Fast PHC をじゃんけんゲームで実験

同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC 前回の記事参照 www.tcom242242.net 問題設定 今回はじゃん…

Win or Learn Fast PHC で実験

PHCエージェントでの実験 Win or Learn Fast PHC で実験 同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC Wo…

Policy Hill Climbingエージェントで実験

ランダムエージェントでの実験 Policy Hill Climbing で実験 以下の論文で、紹介されているPolicy Hill Climbing(PHC) http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf を実装して実験してみました。 問題設定 よくゲーム理論で用いられているものです…

囚人のジレンマをランダムエージェントで実験

実験もくそもないけど、ちょっと実装してみます。 強化学習エージェントで実装する前にランダムエージェントで、 報酬関数が囚人のジレンマのゲームをやってみます。 問題設定 よくゲーム理論で用いられているものです。 1,2 協調(C) 裏切り(D) 協調(C) 6, 6…