ノート

強化学習関連のこと

MENU

強化学習

【強化学習】【入門】Q学習

Q学習の説明のために、 簡単な迷路の例を用いて、Q学習を説明したいと思います。 最後に例で用いた迷路を実装してQ学習で解かせてみました。 Q学習 Q学習とは、現在の行動価値を更新する際に遷移先の状態の 最大行動価値を用いるような学習手法です。 Q学習…

【強化学習】UCBアルゴリズム

UCBアルゴリズム UCBアルゴリズムは知らないものに楽観的にを ポリシーにした行動選択戦略です。 UCBではUCB値という値を用いて、 行動選択を行います。 UCB値は選択肢毎に設定され、 以下の式を用いて、更新していきます。 \begin{align} UCB_i = Q_{t} + C…

【強化学習】ベルマン方程式

ベルマン方程式 一般的に、方策 $\pi$ を用いた際の状態$s$の状態価値をベルマン方程式を用いて以下のように定義します。 $$ \begin{eqnarray} V^{\pi}(s) &=& \mathbb{E}_{\pi}[R_t \mid s_t = s] \\ &=& \mathbb{E}_{\pi}[r_{t+1}+\gamma V(s_{t+1}) \mid …

【強化学習】ε-greedyアルゴリズムでバンディット問題を解く【2】

進捗2 ε-greedy手法で バンディット問題を解いてみた。 (バンディット問題といってもシンプルなやつです) 前回 www.tcom242242.net 目的 ε-greedy行動選択を実装して試したい ちなみにε-greedy行動選択については以下を参照 進捗 ε-greedy行動選択を行いな…

【深層強化学習】【TensorFlow】Deep-Q-Networkを実装してみた

Deep Q Network 概要 Deep Q Network(DQN)を、今さらながら実装してみました。cartpole問題で実験しました。 DQNについて Deep Q Network(DQN)はQテーブルをニューラルネットワークで関数近似したQ学習です。もしかしたら、Deep Reinforcement Learningと呼…

【深層強化学習】【DQN】Target Network

DQNは、Q-Network,Target-Networkの二つのネットワークを用いる。 この二つのネットワークを用いることで、Q学習の課題の1つである、状態の過大評価を緩和する。 DQNでは、Q値を更新する際に遷移先 $s'$ の状態の最大価値 $maxQ(s')$ を用いる。 そのため、…

Stochastic Games

Stochastic Games マルチエージェント強化学習を分析する際に有用な Stochastic Games(SG)について簡単にご紹介します。 ちなみにSGs は別名 Markov Gamesです。 SGは次のタプルで表現されます。 $ SG = < n,S,A1 ,...,An ,R1 ,...,Rn ,T> $ 各要素について…

強化学習目次

強化学習概要 強化学習 - ノート 行動選択手法 【強化学習】UCBアルゴリズム - ノート N本バンディットプロブレム - ノート ε-greedy行動選択 - ノート 強化学習関連の雑多なこと 【強化学習】ベルマン方程式 - ノート マルコフ決定過程 - ノート 【強化学習…

マルチエージェント強化学習目次

※執筆中

マルコフ決定過程

概要 マルコフ決定過程とは、状態遷移は 現在の状態とその時の行動にのみ依存する(マルコフ性) ような確率モデルである。 数学的に分析しやすいので、強化学習などではよく用いられる 参考文献 https://ja.wikipedia.org/wiki/マルコフ決定過程

Q学習

Q学習概要 強化学習のアルゴリズムの一種 行動価値を更新する際に、遷移先状態の最大行動価値 $\max_a Q(s,a)$ を用いて更新するのが特徴 Q学習のアルゴリズム エージェントは現在の状態sの行動価値Q(s)に基づいて行動選択(例ε-greedy 詳細は参考文献参照) …

強化学習

強化学習は一言で言うと、試行錯誤しながら、最適な行動を学習する学習アルゴリズム です。 何かしらの行動をし、その行動に対する報酬(正解ではない)を受け取ります。 そして、その行動を 報酬値によって「強化」、つまりその行動をより多くするようにして…

【keras】【深層強化学習】keras-rlを試してみる

目的 背景 keras-rlとは install方法 注意点 OpenAI Gym OpenAI Gymでのインストール方法 cartpoleとは 実験、 ソースコード(DQN) 実験結果 エピソード毎の報酬の変化の推移 目的 keras-rlを試したい 背景 keras-rlとは kerasを用いて、deep q networkが実装…

N本バンディットプロブレム

N本バンディットプロブレムのプログラムを作成した。 N本バンディットプロブレム概要 n本レバー(選択肢)がついているスロットのようモノがある プレーヤーはレバーを引くとそのレバーの確率分布に従って、報酬を得ることができる プレーヤーはなるべく損を…

ε-greedy行動選択

ε-greedy行動選択の概要 εグリーディ行動選択とは、εの確率でランダムに行動選択、それ以外の確率(1-ε) で最も期待値の高い行動を選択する手法です。強化学習などではよく使われます。 例 下の図のような問題を用いて説明しようと思います。 プレーヤーには…