マイノート

いろいろ勉強したことをまとめていきます

MENU

マルコフ決定過程

概要 マルコフ決定過程とは、状態遷移は 現在の状態とその時の行動にのみ依存する(マルコフ性) ような確率モデルである。 数学的に分析しやすいので、強化学習などではよく用いられる 参考文献 https://ja.wikipedia.org/wiki/マルコフ決定過程

Q学習

Q学習概要(詳細は後述) 強化学習のアルゴリズムの一種 行動価値を更新する際に、遷移先の状態の最大の行動価値 を用いて更新するのが特徴 Q学習のアルゴリズム エージェントは現在の状態sの行動価値Q(s)に基づいて行動選択(例ε-greedy 詳細は参考文献参照) …

tensorflow入門サイト

わかりやすいサイト s0sem0y.hatenablog.com

【編集中】EMアルゴリズム

※編集中 概要 2つの変数からなる確率分布p(x,z)が与えられている. しかし、我々が観測可能なのはXのみ観測可能であり、Zは実際には見えない。 Xしか観測できないが、p(x,y)の推定を行う 尤度関数 $l(\theta)$ の最大化を行う \begin{align} l(\theta) &= \su…

【編集中】LSTMについて

※編集中 LSTMの処理の大まかな流れ ①忘却候補の決定 ②新たな情報の判定 ③実際にセルの状態の忘却と新しい記憶 ④出力する値の決定 メモ どの値を残すか決定するW_f なども逆伝搬により学習する 参考 http://s0sem0y.hatenablog.com/entry/2017/05/06/182757 h…

強化学習の枠組み

強化学習は一言で言うと、試行錯誤しながら、最適な行動を学習する学習アルゴリズム です。 何かしらの行動をし、その行動に対する報酬(正解ではない)を受け取り、その行動を 報酬値によって「強化」 していきます。 一番シンプルな強化学習のフレームワーク…

【keras】keras-rlでcartpole問題

目的 背景 keras-rlとは install方法 注意点 OpenAI Gym OpenAI Gymでのインストール方法 cartpoleとは 実験、 ソースコード(DQN) 実験結果 エピソード毎の報酬の変化の推移 目的 keras-rlを試したい 背景 keras-rlとは kerasを用いて、deep q networkが実装…

【keras】kerasでmnistデータの数字分類

今更ながら、単純なmnistの数値分類問題をkerasでやってみようと思います 前提 keras keras はニューラルネットを非常に簡単に構築可能なライブラリです。 install方法 シンプルに以下のコマンドでインストールできる pip install keras mnistデータ・セット…

rubyでk-meansを手軽に使えるライブラリ

k-meansをrubyから使えるライブラリ作りました。 k-meansについては前に軽くまとめたので、そちらを www.tcom242242.net 本ライブラリの使い方 gem install t_learn サンプル 今回は以下のようなデータをk-meansでクラスタリングしようと思います。 rubyから…

EMアルゴリズムで混合ガウス分布のパラメータ推定できるライブラリ(ruby)

作ったもの EMアルゴリズムで混合ガウス分布のパラメータ推定ができるライブラリをrubyで作りました。 github.com 使い方 まず、本ライブラリのインストール gem install t_learn 1次元データに対して githubにおいてある “sample_1dim.json” を使います。 …

CNNの伝搬と逆伝搬

※これから少しづつ改良していきます。 はじめに 少しCNNを触る機会があったので、 CNNにおいての伝搬、逆伝搬のところを勉強して自分用としてまとめた。 正直、数式はほとんど以下のサイトと同じである。 こちらの都合により $a$ を $y$ と変更しているなど…

大脳皮質についてのメモ

大脳の外側2〜4ミリメートルの層があり、「大脳皮質」と呼ばれている。 この大脳皮質は約140億個のニューロンから構成されている。 参考: 無料イラスト 脳(png・CSeps) 各部位についてのまとめ 頭頂葉 感覚情報の統合を行っている 一部は視覚の処理に関わ…

プロフィール

専門と興味がある分野 強化学習 ゲーム理論 ニューラルネット マルチエージェントシステム twiiter twitter.com github github.com

precisionとrecall

すぐ忘れるので、まとめておく 正と予測したデータのうち,実際に正であるものの割合 実際に正であるもののうち,正であると予測されたものの割合 具体例 参考サイトの例を使わせていただきます。ありがとうございます。 検索システムを例に。 今、犬の画像…

k-means

k-means概要 k-meansとは教師なし非階層クラスタリング手法の一つである。 下記の最適化問題を解くアルゴリズム。 \begin{equation} * argmin_{C_1 ,\centerdot \centerdot \centerdot, C_k} \sum_{i=1}^{n} argmin_{j} ||v_i - C_j||^2 \end{equation} $C_i…

N本バンディットプロブレム

N本バンディットプロブレムのプログラムを作成した。 N本バンディットプロブレム概要 n本レバー(選択肢)がついているスロットのようモノがある プレーヤーはレバーを引くとそのレバーの確率分布に従って、報酬を得ることができる プレーヤーはなるべく損を…

ナッシュ均衡入門

ナッシュ均衡入門 ここでは純粋戦略においてのナッシュ均衡について説明する 純粋戦略とはプレーヤーが必ずどれかの戦略を選択するゲーム ナッシュ均衡とは ゲーム理論の一つの解(均衡状態)がナッシュ均衡 言葉で表すと「お互いに 相手の予想道理の戦略 を選…

畳込みニューラルネットの処理メモ

畳込みニューラルネットワークの各処理をよく忘れるのでメモ 以下の画像の各処理を説明していく ① 入力画像。今回は(32,32)を想定 ②畳込み (3,3)のフィルタを用いて畳込みを行う。 畳後の出力(特徴量マップ)のサイズは以下の式で計算できる。 \begin{equat…

部分積分の証明メモ

部分積分の初歩的なところのメモ 部分積分は以下のように定義される。 \begin{equation} \int f'(x)g(x) dx = f(x)g(x) - \int f(x)g'(x) dx \end{equation} 以下証明 \begin{equation} {f(x)g(x) }‘ = f’(x)g(x) + f(x)g'(x) \end{equation} 両辺を積分する…

【未完】ガンマ関数

ガンマ関数 参考 スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!作者: 馬場敬之出版社/メーカー: マセマ発売日: 2016/11メディア: 単行本この商品を含むブログを見る のp118-からを参考 ガンマ関数 …

鳩の巣理論

m>nとする。m個のものをn個の箱にどのように分配しても、必ず2個以上のものが入っている箱が少なくとも1つは存在する。 参考 www.juku.st

【ディープラーニング】kerasで多クラス分類

kerasで多クラス分類 前回 前回は2クラス分類をやりました。 www.tcom242242.net 今回は多クラス分類をやりたいと思う。 やりたいこと irisデータセットをsklearnから取得して分類してみる。 irisデータセット sklearnのirisデータセットには3種類の花の萼…

排他論理和をkerasで作ったmodelに解かせてみた

kerasの入門として、 排他論理和をkerasで作ったmodelに解かせてみました。 排他論理和 x1 x2 y 0 0 1 1 0 0 0 1 0 1 1 1 モデル 以下のようなモデルを作成して、学習させてみました。 コード from keras.models import Sequential from keras.layers import…

ε-greedy行動選択

ε-greedy行動選択の概要 εグリーディ行動選択とは、εの確率でランダムに行動選択、それ以外の確率(1-ε) で最も期待値の高い行動を選択する手法です。強化学習などではよく使われます。 例 例を使って説明しようと思います。 ある人が3つの選択肢があり、ど…

簡易的なニューラルネットのライブラリをrubyで作ってみた

フィードフォワード型ニューラルネット用ライブラリ rubyでkeras風に簡単にニューラルネットを構築できるようなものを作ってみました。 インストール方法 gem install t_nn 2値分類 x1 x2 y 0 0 0 1 0 1 0 1 1 1 1 0 サンプルコード require "t_nn" model =…

バックプロパゲーションの更新式の導出

※これから、もう少し綺麗にしていきます フィードフォワード型のニューラルネットを実装しようとしたときに、 バックプロパゲーションの式展開が思い出すのに時間かかったのでメモ。 活性化関数はsigmoid関数としている。 バックプロパゲーションの更新式の…

最尤法

スライド 最尤法入門 from com t 最尤法概要 最尤法とは、標本データから母集団の分布のパラメータを推定する手法である. 例えば、母集団が正規分布に従っているとした時に、平均 $\mu$ と分散 を推定したい時に用いる。 最尤法手順 一般的な手順を述べる。 …

ホップフィールドネットワーク

未完成 ホップフィールドネットワークとは 箇条書きで書くと、ホップフィールドネットワークとは以下のような特徴をもっている。 ホップフィールドネットワークとは、ニューラルネットワークの一種 ボルツマンマシンの前身となったものである。 全結合の無向…