Tノート

いろいろ勉強したことをまとめていきます

MENU

二人二行動ゲームについてのメモ

1,2 a b a $p_{11}$ , $q_{11}$ $p_{12}$ ,$q_{12}$ b $p_{21}$ , $q_{21}$ $p_{22}$ , $q_{22}$ $ p_{ij}+q_{ij}=K $ は 定和ゲーム(constant-sum game) $p_{ij}+q_{ij}=0$ は ゼロ和ゲーム(zero-sum game) $p_{ij}+q_{ij}=K$が成り立たないものは 非ゼロ和…

【深層強化学習】【TensorFlow】Deep-Q-Networkを実装してみた

Deep Q Network 概要 Deep Q Network(DQN)を、今さらながら実装してみました。cartpole問題で実験しました。 DQNについて Deep Q Network(DQN)はQテーブルをニューラルネットワークで関数近似したQ学習です。もしかしたら、Deep Reinforcement Learningと呼…

Target Network

DQNは、Q-Network,Target-Networkの二つのネットワークを用いる。 この二つのネットワークを用いることで、Q学習の課題の1つである、状態の過大評価を緩和する。 DQNでは、Q値を更新する際に遷移先 $s'$ の状態の最大価値 $maxQ(s')$ を用いる。 そのため、…

自律分散型システム

自律分散システムとは システム全体を中央の制御部で制御するのではなく、 システムの各要素が各々自律的に制御を行うことで、 システム全体の制御を行うシステムのことを言います。 人間社会も複数の人間が各々自律的に行動を行うことで、「社会」という巨…

Stochastic Games

Stochastic Games マルチエージェント強化学習を分析する際に有用な Stochastic Games(SG)について簡単にご紹介します。 ちなみにSGs は別名 Markov Gamesらしいです。 SGは次のタプルで表現されます。 $SG = <m,S,A,T,R>$ 各要素については以下のようになります。 $ m </m,s,a,t,r>…

Reward Shaping

一言で言うと 強化学習の通常の報酬値に、追加の値を加えることで、学習速度を向上させることを目指すフレームワーク。 最もシンプルなReard Shapingは、以下のように、通常の報酬値$r$に追加の報酬$F$を加えるような形 $$ r_{rs} = r + F $$ 代表的なReward…

マルチエージェント強化学習

マルチエージェント強化学習とは(一言で言うと) 複数の強化学習エージェントが同時に学習行動を行う 自律分散型の学習アルゴリズム。 マルチエージェント強化学習の応用分野 マルチエージェント強化学習のタスクの種類 マルチエージェント強化学習のアルゴリ…

強化学習目次

※工事中 強化学習概要 www.tcom242242.net 代表的な強化学習アルゴリズム Q Learning www.tcom242242.net Actor-Critic モデルベース強化学習 階層型強化学習 深層強化学習関連 Deep Q Network www.tcom242242.net Double Q Duel Network Prioriy memory

マルチエージェント強化学習目次

※執筆中

マルコフ決定過程

概要 マルコフ決定過程とは、状態遷移は 現在の状態とその時の行動にのみ依存する(マルコフ性) ような確率モデルである。 数学的に分析しやすいので、強化学習などではよく用いられる 参考文献 https://ja.wikipedia.org/wiki/マルコフ決定過程

Q学習

Q学習概要 強化学習のアルゴリズムの一種 行動価値を更新する際に、遷移先の状態の最大の行動価値 を用いて更新するのが特徴 Q学習のアルゴリズム エージェントは現在の状態sの行動価値Q(s)に基づいて行動選択(例ε-greedy 詳細は参考文献参照) 行動の実行 環…

tensorflow入門サイト

わかりやすいサイト s0sem0y.hatenablog.com

【編集中】EMアルゴリズム

※編集中 概要 2つの変数からなる確率分布p(x,z)が与えられている. しかし、我々が観測可能なのはXのみ観測可能であり、Zは実際には見えない。 Xしか観測できないが、p(x,y)の推定を行う 尤度関数 $l(\theta)$ の最大化を行う \begin{align} l(\theta) &= \su…

強化学習の枠組み

強化学習は一言で言うと、試行錯誤しながら、最適な行動を学習する学習アルゴリズム です。 何かしらの行動をし、その行動に対する報酬(正解ではない)を受け取ります。 そして、その行動を 報酬値によって「強化」、つまりその行動をより多くするようにして…

【keras】keras-rlでcartpole問題

目的 背景 keras-rlとは install方法 注意点 OpenAI Gym OpenAI Gymでのインストール方法 cartpoleとは 実験、 ソースコード(DQN) 実験結果 エピソード毎の報酬の変化の推移 目的 keras-rlを試したい 背景 keras-rlとは kerasを用いて、deep q networkが実装…

【keras】kerasでmnistデータの数字分類

今更ながら、単純なmnistの数値分類問題をkerasでやってみようと思います 前提 keras keras はニューラルネットを非常に簡単に構築可能なライブラリです。 install方法 シンプルに以下のコマンドでインストールできる pip install keras mnistデータ・セット…

rubyでk-meansを手軽に使えるライブラリ

k-meansをrubyから使えるライブラリ作りました。 k-meansについては前に軽くまとめたので、そちらを www.tcom242242.net 本ライブラリの使い方 gem install t_learn サンプル 今回は以下のようなデータをk-meansでクラスタリングしようと思います。 rubyから…

EMアルゴリズムで混合ガウス分布のパラメータ推定できるライブラリ(ruby)

作ったもの EMアルゴリズムで混合ガウス分布のパラメータ推定ができるライブラリをrubyで作りました。 github.com 使い方 まず、本ライブラリのインストール gem install t_learn 1次元データに対して githubにおいてある “sample_1dim.json” を使います。 …

CNNの伝搬と逆伝搬

※これから少しづつ改良していきます。 はじめに 少しCNNを触る機会があったので、 CNNにおいての伝搬、逆伝搬のところを勉強して自分用としてまとめた。 正直、数式はほとんど以下のサイトと同じである。 こちらの都合により $a$ を $y$ と変更しているなど…

大脳皮質についてのメモ

大脳の外側2〜4ミリメートルの層があり、「大脳皮質」と呼ばれている。 この大脳皮質は約140億個のニューロンから構成されている。 参考: 無料イラスト 脳(png・CSeps) 各部位についてのまとめ 頭頂葉 感覚情報の統合を行っている 一部は視覚の処理に関わ…

プロフィール

専門と興味がある分野 強化学習 ゲーム理論 ニューラルネット マルチエージェントシステム twiiter twitter.com github github.com

precisionとrecall

すぐ忘れるので、まとめておく 正と予測したデータのうち,実際に正であるものの割合 実際に正であるもののうち,正であると予測されたものの割合 具体例 参考サイトの例を使わせていただきます。ありがとうございます。 検索システムを例に。 今、犬の画像…

k-means

k-means概要 k-meansとは教師なし非階層クラスタリング手法の一つである。 下記の最適化問題を解くアルゴリズム。 \begin{equation} * argmin_{C_1 ,\centerdot \centerdot \centerdot, C_k} \sum_{i=1}^{n} argmin_{j} ||v_i - C_j||^2 \end{equation} $C_i…

N本バンディットプロブレム

N本バンディットプロブレムのプログラムを作成した。 N本バンディットプロブレム概要 n本レバー(選択肢)がついているスロットのようモノがある プレーヤーはレバーを引くとそのレバーの確率分布に従って、報酬を得ることができる プレーヤーはなるべく損を…

ナッシュ均衡入門

ナッシュ均衡入門 ここでは純粋戦略においてのナッシュ均衡について説明する 純粋戦略とはプレーヤーが必ずどれかの戦略を選択するゲーム ナッシュ均衡とは ゲーム理論の一つの解(均衡状態)がナッシュ均衡 言葉で表すと「お互いに 相手の予想道理の戦略 を選…

畳込みニューラルネットの処理メモ

畳込みニューラルネットワークの各処理をよく忘れるのでメモ 以下の画像の各処理を説明していく ① 入力画像。今回は(32,32)を想定 ②畳込み (3,3)のフィルタを用いて畳込みを行う。 畳後の出力(特徴量マップ)のサイズは以下の式で計算できる。 \begin{equat…

部分積分の証明メモ

部分積分の初歩的なところのメモ 部分積分は以下のように定義される。 \begin{equation} \int f'(x)g(x) dx = f(x)g(x) - \int f(x)g'(x) dx \end{equation} 以下証明 \begin{equation} {f(x)g(x) }‘ = f’(x)g(x) + f(x)g'(x) \end{equation} 両辺を積分する…

【未完】ガンマ関数

ガンマ関数 参考 スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!作者: 馬場敬之出版社/メーカー: マセマ発売日: 2016/11メディア: 単行本この商品を含むブログを見る のp118-からを参考 ガンマ関数 …

鳩の巣理論

m>nとする。m個のものをn個の箱にどのように分配しても、必ず2個以上のものが入っている箱が少なくとも1つは存在する。 参考 www.juku.st

【ディープラーニング】kerasで多クラス分類

kerasで多クラス分類 前回 前回は2クラス分類をやりました。 www.tcom242242.net 今回は多クラス分類をやりたいと思う。 やりたいこと irisデータセットをsklearnから取得して分類してみる。 irisデータセット sklearnのirisデータセットには3種類の花の萼…