ノート

強化学習関連のこと

MENU

遊び実験

【強化学習】【入門】Q学習

Q学習の説明のために、 簡単な迷路の例を用いて、Q学習を説明したいと思います。 最後に例で用いた迷路を実装してQ学習で解かせてみました。 Q学習 Q学習とは、現在の行動価値を更新する際に遷移先の状態の 最大行動価値を用いるような学習手法です。 Q学習…

Win or Learn Fast PHC をじゃんけんゲームで実験

同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC 前回の記事参照 www.tcom242242.net 問題設定 今回はじゃん…

Win or Learn Fast PHC で実験

PHCエージェントでの実験 Win or Learn Fast PHC で実験 同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC Wo…

Policy Hill Climbingエージェントで実験

ランダムエージェントでの実験 Policy Hill Climbing で実験 以下の論文で、紹介されているPolicy Hill Climbing(PHC) http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf を実装して実験してみました。 問題設定 よくゲーム理論で用いられているものです…

囚人のジレンマをランダムエージェントで実験

実験もくそもないけど、ちょっと実装してみます。 強化学習エージェントで実装する前にランダムエージェントで、 報酬関数が囚人のジレンマのゲームをやってみます。 問題設定 よくゲーム理論で用いられているものです。 1,2 協調(C) 裏切り(D) 協調(C) 6, 6…