マイノート

いろいろ勉強したことをまとめていきます

MENU

強化学習

N本バンディットプロブレム

N本バンディットプロブレムのプログラムを作成した。 N本バンディットプロブレム概要 n本レバー(選択肢)がついているスロットのようモノがある プレーヤーはレバーを引くとそのレバーの確率分布に従って、報酬を得ることができる プレーヤーはなるべく損を…

ε-greedy行動選択

ε-greedy行動選択の概要 εグリーディ行動選択とは、εの確率でランダムに行動選択、それ以外の確率(1-ε) で最も期待値の高い行動を選択する手法です。強化学習などではよく使われます。 例 例を使って説明しようと思います。 ある人が3つの選択肢があり、ど…