ノート

勉強したことのまとめ

softmax行動選択

$\epsilon$-greedy と同様によく用いられる「softmax行動選択」についてご紹介します。 この手法も期待報酬値が高い選択肢の選択確率が高くなるように選択確率を決定します。 具体的には、softmax関数を用いて以下の式によって各選択肢の選択確率を決めます…

FX単語

FX

ポジション 外貨を買っているもしくは売っている状態のことを言う. 買っている状態を「買いポジション」もしくは「ロングポジション」. 売っている状態を「売りポジション」もしくは「ショートポジション」 ロング 買いから入る取引 ショート ウリから入る…

協調フィルタリングと内容フィルタリングについてのメモ

協調フィルタリング wikipediaから 協調フィルタリング(きょうちょうフィルタリング、Collaborative Filtering、CF)は、多くのユーザの嗜好情報を蓄積し、あるユーザと嗜好の類似した他のユーザの情報を用いて自動的に推論を行う方法論である。趣味の似た…

SUMOのシンプルなマップ生成とマップの細かい修正

基本的なマップの生成 マップの細かい修正 基本的なマップの生成 格子状のマップを作成する手法は, SUMOのnetgenerateを用いれば容易に作成できる. 以下のサイトを参考にすれば簡単に作成できる. inet-lab.naist.jp 下記のマップ作成スクリプトは参考サイ…

【サーベイ】Bayesian Policy Reuse

概要 すでに、あるタスクにおいて学習済みの方策$\pi$を現在のタスクに適切(より類似した問題を解いた方策)に適用することは非常に重要 この論文では、学習済みの方策$\pi$の集合があり、その中から現在のタスクに最も適した方策を選択する問題を定義 ベイ…

【サーベイ】QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

概要 fully cooperative マルチエージェント強化学習の手法を提案 centralized 行動価値関数(状態と全エージェントの行動により構成される関数)とdecentralised policies(各々のエージェントのpolicy)を持つ形が協調型のマルチエージェント強化学習では知ら…

【強化学習、入門】Q Learning

Q Learningの説明のために、 簡単な迷路の例を用いて、説明したいと思います。 最後に例で用いた迷路を実装してQ Learningで解かせてみました。 Q Learning(Q学習) Q Learningとは、一言で言ってしまうと 現在の行動の価値(Q値)を遷移先の状態の 最大Q値 …

【強化学習】UCBアルゴリズムを使って、マルチアームバンディットプログラムを解く

やったこと UCBアルゴリズムを実装してマルチアームバンディットプログラムで試してみました。 UCBとは、 UCBアルゴリズムは、行動選択手法の一つになります。 UCBアルゴリズムは知らないものに楽観的にを ポリシーにした行動選択戦略です。 UCBではUCB値と…

【ディープラーニング】【TensorFlow】TensorFlowで多クラス分類

tensorflowで多クラス分類 背景 前回、Kerasを使ってirisデータを分類しました。 www.tcom242242.net 今回はそれをTensorFlowでやってみました。 やりたいこと 前回と同じですが irisデータセットをsklearnから取得して分類する。 irisデータセット sklearn…

【ゲーム理論】【マルチエージェント学習】Two Player Two Action ゲームの具体的な利得テーブルまとめ

Common interest game 1,2 a b a 1.0,1.0 0.0,0.0 b 0.0,0.0 0.5,0.5 Coordination game 1,2 a b a 1.0,0.5 0.0,0.0 b 0.0,0.0 0.5,1.0 Stag hunt game 1,2 a b a 1.0,1.0 0.0,0.75 b 0.75,0.0 0.5,0.5 Tricky game 1,2 a b a 0.0,1.0 1.0,0.67 b 0.33,0.0 0…

【強化学習】UCBアルゴリズム

UCBアルゴリズム UCBアルゴリズムは知らないものに楽観的にを ポリシーにした行動選択戦略です。 UCBではUCB値という値を用いて、 行動選択を行います。 UCB値は選択肢毎に設定され、 以下の式を用いて、更新していきます。 \begin{align} UCB_i = Q_{i} + C…

Win or Learn Fast PHC をじゃんけんゲームで実験

同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC 前回の記事参照 www.tcom242242.net 問題設定 今回はじゃん…

Win or Learn Fast-PHC

Win or Learn Fast Win or Learn Fast(WoLF)は マルチエージェント強化学習における重要な学習原理の1つです。 この手法は2人2行動ゲームにおいて、ナッシュ均衡に収束することが 証明されていることから、マルチエージェント強化学習では、重要な原理の…

Win or Learn Fast PHC で実験

PHCエージェントでの実験 Win or Learn Fast PHC で実験 同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf Win or Learn Fast PHC Wo…

Policy Hill Climbing

Q学習のQ値を用いて、方策を山登り的に更新していく手法です。 基本的には、以下の論文で紹介されているPolicy Hill Climbing を述べます。 http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf アルゴリズムは以下のようになります。 PHC 通常のQ学習は方…

Policy Hill Climbingエージェントで実験

ランダムエージェントでの実験 Policy Hill Climbing で実験 以下の論文で、紹介されているPolicy Hill Climbing(PHC) http://www.cs.cmu.edu/~mmv/papers/01ijcai-mike.pdf を実装して実験してみました。 問題設定 よくゲーム理論で用いられているものです…

囚人のジレンマをランダムエージェントで実験

実験もくそもないけど、ちょっと実装してみます。 強化学習エージェントで実装する前にランダムエージェントで、 報酬関数が囚人のジレンマのゲームをやってみます。 問題設定 よくゲーム理論で用いられているものです。 1,2 協調(C) 裏切り(D) 協調(C) 6, 6…

【ゲーム理論】2人2行動ゲームの分類

代表的なゲームの分類 2 player 2 action gameをいくつか挙げてまとめておきます。 まず、以下の利得表を使って、囚人のジレンマ、チキン・ゲーム、ハトタカゲーム、コーディネーションゲームを書いておきます。 1,2 協調(C) 裏切り(D) 協調(C) R,R S,T 裏切…

【GPU】Ubuntu14.04でログイン画面での無限ループ&解像度が合わない問題

Ubuntu14.04をアップデートしたら、解像度がおかしくなり、 さらにはログイン無限ループに陥った。 同じような現象が他にも発生しているようだが、 そのサイトに乗っていることと同じことをしても解決せず。 しょうがなくUbuntu16.04を再インストールして設…

【マルチエージェント強化学習】マルチエージェント強化学習のサーベイ論文やスライド

サーベイ論文 ※すべて英語です 1. A Comprehensive Survey of Multi-agent Reinforcement Learning(2008) マルチエージェント強化学習全般のサーベイ 2. Independent Reinforcement learners in cooperative Markov games:a survey regarding coordination p…

マルチエージェント強化学習のエージェントの種類

マルチエージェント強化学習では、各エージェントの観測可能な情報によって エージェントを2種類に分類できる。 1. Independent Learner Independet Learnerは、自分以外のエージェントのアクション、報酬を観測できる 単純に複数の強化学習エージェントを同…

遊び実験TOP

マルチエージェント強化学習問題 シングルエージェント強化学習 マルチアームバンディット問題 参考 マルチエージェント強化学習問題 囚人のジレンマをランダムエージェントで実験 - ノート Policy Hill Climbingエージェントで実験 - ノート Win or Learn F…

マルチエージェント強化学習の大まかな分類

参考にした論文ではStochastic Gamesの報酬関数$R$によって3種類に分類されます。 ちなみにStochastic Gamesについては以下参照 Stochastic Games - ノート 1.Fully Cooperative tasks $R_1 = ... = R_m = R$の時。 つまり、全エージェントが同じ報酬値を受…

【強化学習】ベルマン方程式

ベルマン方程式 一般的に、方策 $\pi$ を用いた際の状態$s$の状態価値をベルマン方程式を用いて以下のように定義します。 $$ \begin{eqnarray} V^{\pi}(s) &=& \mathbb{E}_{\pi}[R_t \mid s_t = s] \\ &=& \mathbb{E}_{\pi}[r_{t+1}+\gamma V(s_{t+1}) \mid …

【強化学習】ε-greedyアルゴリズムでバンディット問題を解く【2】

進捗2 ε-greedy手法で バンディット問題を解いてみた。 (バンディット問題といってもシンプルなやつです) 前回 www.tcom242242.net 目的 ε-greedy行動選択を実装して試したい ちなみにε-greedy行動選択については以下を参照 進捗 ε-greedy行動選択を行いな…

【強化学習】シンプルなマルチアームバンディットプログラムの作成

進捗1 目的 強化学習の様々な行動選択手法を実験的に試したい 進捗 マルチアームバンディットプログラムの実装(シンプルな)。 マルチアームバンディット問題 マルチアームバンディット問題は、 スロットマシンに複数のレバーがついているスロットマシーンを …

二人二行動ゲームについてのメモ

1,2 a b a $p_{11}$ , $q_{11}$ $p_{12}$ ,$q_{12}$ b $p_{21}$ , $q_{21}$ $p_{22}$ , $q_{22}$ $ p_{ij}+q_{ij}=K $ は 定和ゲーム(constant-sum game) $p_{ij}+q_{ij}=0$ は ゼロ和ゲーム(zero-sum game) $p_{ij}+q_{ij}=K$が成り立たないものは 非ゼロ和…

【深層強化学習】【TensorFlow】Deep-Q-Networkを実装してみた

Deep Q Network 概要 Deep Q Network(DQN)を、今さらながら実装してみました。cartpole問題で実験しました。 DQNについて Deep Q Network(DQN)はQテーブルをニューラルネットワークで関数近似したQ学習です。もしかしたら、Deep Reinforcement Learningと呼…

【深層強化学習】【DQN】Target Network

DQNは、Q-Network,Target-Networkの二つのネットワークを用いる。 この二つのネットワークを用いることで、Q学習の課題の1つである、状態の過大評価を緩和する。 DQNでは、Q値を更新する際に遷移先 $s'$ の状態の最大価値 $maxQ(s')$ を用いる。 そのため、…

自律分散型システム

自律分散システムとは システム全体を中央の制御部で制御するのではなく、 システムの各要素が各々自律的に制御を行うことで、 システム全体の制御を行うシステムのことを言います。 人間社会も複数の人間が各々自律的に行動を行うことで、「社会」という巨…