マイノート

いろいろ勉強したことをまとめていきます

MENU

強化学習

マルコフ決定過程

概要 マルコフ決定過程とは、状態遷移は 現在の状態とその時の行動にのみ依存する(マルコフ性) ような確率モデルである。 数学的に分析しやすいので、強化学習などではよく用いられる 参考文献 https://ja.wikipedia.org/wiki/マルコフ決定過程

Q学習

Q学習概要(詳細は後述) 強化学習のアルゴリズムの一種 行動価値を更新する際に、遷移先の状態の最大の行動価値 を用いて更新するのが特徴 Q学習のアルゴリズム エージェントは現在の状態sの行動価値Q(s)に基づいて行動選択(例ε-greedy 詳細は参考文献参照) …

強化学習の枠組み

強化学習は一言で言うと、試行錯誤しながら、最適な行動を学習する学習アルゴリズム です。 何かしらの行動をし、その行動に対する報酬(正解ではない)を受け取り、その行動を 報酬値によって「強化」 していきます。 一番シンプルな強化学習のフレームワーク…

【keras】keras-rlでcartpole問題

目的 背景 keras-rlとは install方法 注意点 OpenAI Gym OpenAI Gymでのインストール方法 cartpoleとは 実験、 ソースコード(DQN) 実験結果 エピソード毎の報酬の変化の推移 目的 keras-rlを試したい 背景 keras-rlとは kerasを用いて、deep q networkが実装…

N本バンディットプロブレム

N本バンディットプロブレムのプログラムを作成した。 N本バンディットプロブレム概要 n本レバー(選択肢)がついているスロットのようモノがある プレーヤーはレバーを引くとそのレバーの確率分布に従って、報酬を得ることができる プレーヤーはなるべく損を…

ε-greedy行動選択

ε-greedy行動選択の概要 εグリーディ行動選択とは、εの確率でランダムに行動選択、それ以外の確率(1-ε) で最も期待値の高い行動を選択する手法です。強化学習などではよく使われます。 例 例を使って説明しようと思います。 ある人が3つの選択肢があり、ど…