ノート

強化学習関連のこと

MENU

【強化学習】【入門】Q学習

Q学習の説明のために、 簡単な迷路の例を用いて、Q学習を説明したいと思います。 最後に例で用いた迷路を実装してQ学習で解かせてみました。 Q学習 Q学習とは、現在の行動価値を更新する際に遷移先の状態の 最大行動価値を用いるような学習手法です。 Q学習…

【強化学習】UCBアルゴリズムを使って、マルチアームバンディットプログラムを解く

やったこと UCBアルゴリズムを実装してマルチアームバンディットプログラムで試してみました。 UCBとは、 UCBアルゴリズムは、行動選択手法の一つになります。 UCBアルゴリズムは知らないものに楽観的にを ポリシーにした行動選択戦略です。 UCBではUCB値と…

【ディープラーニング】【TensorFlow】TensorFlowで多クラス分類

tensorflowで多クラス分類 背景 前回、Kerasを使ってirisデータを分類しました。 www.tcom242242.net 今回はそれをTensorFlowでやってみました。 やりたいこと 前回と同じですが irisデータセットをsklearnから取得して分類する。 irisデータセット sklearn…

【ゲーム理論】【マルチエージェント学習】Two Player Two Action ゲームの具体的な利得テーブルまとめ

Common interest game 1,2 a b a 1.0,1.0 0.0,0.0 b 0.0,0.0 0.5,0.5 Coordination game 1,2 a b a 1.0,0.5 0.0,0.0 b 0.0,0.0 0.5,1.0 Stag hunt game 1,2 a b a 1.0,1.0 0.0,0.75 b 0.75,0.0 0.5,0.5 Tricky game 1,2 a b a 0.0,1.0 1.0,0.67 b 0.33,0.0 0…

【強化学習】UCBアルゴリズム

UCBアルゴリズム UCBアルゴリズムは知らないものに楽観的にを ポリシーにした行動選択戦略です。 UCBではUCB値という値を用いて、 行動選択を行います。 UCB値は選択肢毎に設定され、 以下の式を用いて、更新していきます。 \begin{align} UCB_i = Q_{t} + C…

Win or Learn Fast PHC をじゃんけんゲームで実験

同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC 前回の記事参照 www.tcom242242.net 問題設定 今回はじゃん…

Win or Learn Fast-PHC

Win or Learn Fast Win or Learn Fast(WoLF)は マルチエージェント強化学習における重要な学習原理の1つです。 この手法は2人2行動ゲームにおいて、ナッシュ均衡に収束することが 証明されていることから、マルチエージェント強化学習では、重要な原理の…

Win or Learn Fast PHC で実験

PHCエージェントでの実験 Win or Learn Fast PHC で実験 同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC Wo…

Policy Hill Climbing

Q学習のQ値を用いて、方策を山登り的に更新していく手法です。 基本的には、以下の論文で紹介されているPolicy Hill Climbing を述べます。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf アルゴリズムは以下のようになります。 PHC 通常のQ学習は方…

Policy Hill Climbingエージェントで実験

ランダムエージェントでの実験 Policy Hill Climbing で実験 以下の論文で、紹介されているPolicy Hill Climbing(PHC) http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf を実装して実験してみました。 問題設定 よくゲーム理論で用いられているものです…

囚人のジレンマをランダムエージェントで実験

実験もくそもないけど、ちょっと実装してみます。 強化学習エージェントで実装する前にランダムエージェントで、 報酬関数が囚人のジレンマのゲームをやってみます。 問題設定 よくゲーム理論で用いられているものです。 1,2 協調(C) 裏切り(D) 協調(C) 6, 6…

【ゲーム理論】2人2行動ゲームの分類

代表的なゲームの分類 2 player 2 action gameをいくつか挙げてまとめておきます。 まず、以下の利得表を使って、囚人のジレンマ、チキン・ゲーム、ハトタカゲーム、コーディネーションゲームを書いておきます。 1,2 協調(C) 裏切り(D) 協調(C) R,R S,T 裏切…

【GPU】Ubuntu14.04でログイン画面での無限ループ&解像度が合わない問題

Ubuntu14.04をアップデートしたら、解像度がおかしくなり、 さらにはログイン無限ループに陥った。 同じような現象が他にも発生しているようだが、 そのサイトに乗っていることと同じことをしても解決せず。 しょうがなくUbuntu16.04を再インストールして設…

【マルチエージェント強化学習】マルチエージェント強化学習のサーベイ論文やスライド

サーベイ論文 ※すべて英語です 1. A Comprehensive Survey of Multi-agent Reinforcement Learning(2008) マルチエージェント強化学習全般のサーベイ 2. Independent Reinforcement learners in cooperative Markov games:a survey regarding coordination p…

マルチエージェント強化学習のエージェントの種類

マルチエージェント強化学習では、各エージェントの観測可能な情報によって エージェントを2種類に分類できる。 1. Independent Learner Independet Learnerは、自分以外のエージェントのアクション$A$、報酬$R$を観測できる 単純に複数の強化学習エージェン…

遊び実験TOP

マルチエージェント強化学習問題 シングルエージェント強化学習 マルチアームバンディット問題 参考 マルチエージェント強化学習問題 囚人のジレンマをランダムエージェントで実験 - ノート Policy Hill Climbingエージェントで実験 - ノート Win or Learn F…

マルチエージェント強化学習の大まかな分類

参考にした論文ではStochastic Gamesの報酬関数$R$によって3種類に分類されます。 ちなみにStochastic Gamesについては以下参照 Stochastic Games - ノート 1.Fully Cooperative tasks $R_1 = ... = R_m = R$の時。 つまり、全エージェントが同じ報酬値を受…

【強化学習】ベルマン方程式

ベルマン方程式 一般的に、方策 $\pi$ を用いた際の状態$s$の状態価値をベルマン方程式を用いて以下のように定義します。 $$ \begin{eqnarray} V^{\pi}(s) &=& \mathbb{E}_{\pi}[R_t \mid s_t = s] \\ &=& \mathbb{E}_{\pi}[r_{t+1}+\gamma V(s_{t+1}) \mid …

【強化学習】ε-greedyアルゴリズムでバンディット問題を解く【2】

進捗2 ε-greedy手法で バンディット問題を解いてみた。 (バンディット問題といってもシンプルなやつです) 前回 www.tcom242242.net 目的 ε-greedy行動選択を実装して試したい ちなみにε-greedy行動選択については以下を参照 進捗 ε-greedy行動選択を行いな…

【強化学習】シンプルなマルチアームバンディットプログラムの作成

進捗1 目的 強化学習の様々な行動選択手法を実験的に試したい 進捗 マルチアームバンディットプログラムの実装(シンプルな)。 マルチアームバンディット問題 マルチアームバンディット問題は、 スロットマシンに複数のレバーがついているスロットマシーンを …

二人二行動ゲームについてのメモ

1,2 a b a $p_{11}$ , $q_{11}$ $p_{12}$ ,$q_{12}$ b $p_{21}$ , $q_{21}$ $p_{22}$ , $q_{22}$ $ p_{ij}+q_{ij}=K $ は 定和ゲーム(constant-sum game) $p_{ij}+q_{ij}=0$ は ゼロ和ゲーム(zero-sum game) $p_{ij}+q_{ij}=K$が成り立たないものは 非ゼロ和…

【深層強化学習】【TensorFlow】Deep-Q-Networkを実装してみた

Deep Q Network 概要 Deep Q Network(DQN)を、今さらながら実装してみました。cartpole問題で実験しました。 DQNについて Deep Q Network(DQN)はQテーブルをニューラルネットワークで関数近似したQ学習です。もしかしたら、Deep Reinforcement Learningと呼…

【深層強化学習】【DQN】Target Network

DQNは、Q-Network,Target-Networkの二つのネットワークを用いる。 この二つのネットワークを用いることで、Q学習の課題の1つである、状態の過大評価を緩和する。 DQNでは、Q値を更新する際に遷移先 $s'$ の状態の最大価値 $maxQ(s')$ を用いる。 そのため、…

自律分散型システム

自律分散システムとは システム全体を中央の制御部で制御するのではなく、 システムの各要素が各々自律的に制御を行うことで、 システム全体の制御を行うシステムのことを言います。 人間社会も複数の人間が各々自律的に行動を行うことで、「社会」という巨…

Stochastic Games

Stochastic Games マルチエージェント強化学習を分析する際に有用な Stochastic Games(SG)について簡単にご紹介します。 ちなみにSGs は別名 Markov Gamesです。 SGは次のタプルで表現されます。 $ SG = < n,S,A1 ,...,An ,R1 ,...,Rn ,T> $ 各要素について…

【強化学習】Reward Shaping

一言で言うと 強化学習の通常の報酬値に、追加の値を加えることで、学習速度を向上させることを目指すフレームワーク。 最もシンプルなReard Shapingは、以下のように、通常の報酬値$r$に追加の報酬$F$を加えるような形 $$ r_{rs} = r + F $$ 代表的なReward…

マルチエージェント強化学習まとめ

マルチエージェント強化学習とは(概要) 複数の強化学習エージェントが同時に学習行動を行う 自律分散型の学習アルゴリズム。 マルチエージェント強化学習はしっかり定義がされているわけではなく、 同じ環境で複数の強化学習エージェントが同時に学習するこ…

強化学習目次

強化学習概要 強化学習 - ノート 行動選択手法 【強化学習】UCBアルゴリズム - ノート N本バンディットプロブレム - ノート ε-greedy行動選択 - ノート 強化学習関連の雑多なこと 【強化学習】ベルマン方程式 - ノート マルコフ決定過程 - ノート 【強化学習…

マルチエージェント強化学習目次

※執筆中

マルコフ決定過程

概要 マルコフ決定過程とは、状態遷移は 現在の状態とその時の行動にのみ依存する(マルコフ性) ような確率モデルである。 数学的に分析しやすいので、強化学習などではよく用いられる 参考文献 https://ja.wikipedia.org/wiki/マルコフ決定過程