img { border : 1px solid #DADADA ; border-bottom : 1px solid #757575 ; box-shadow : 0 2px 4px rgba(0, 0, 0, 0.2) ; }

マイノート

いろいろ勉強したことをまとめていきます

MENU

【強化学習】シンプルな強化学習の例

2-armed bandit problemを取り上げます.

2つのアームがあり,各々当たりが出る確率が違います.

エージェントは当たりやすいアームがどちらかを学習することが目標となるゲームです.

この例を用いて,強化学習の学習過程を見ていきます.

ちなみ「状態」がない強化学習ですので,本当にシンプルな例になります.

f:id:ttt242242:20171203102145j:plain


f:id:ttt242242:20171203102150j:plain


f:id:ttt242242:20171203102153j:plain


f:id:ttt242242:20171203102156j:plain


f:id:ttt242242:20171203102159j:plain


f:id:ttt242242:20171203102202j:plain


f:id:ttt242242:20171203102205j:plain