強化学習

keras

【深層強化学習】Double Deep Q Network(DDQN)

今回はQ学習(or Deep Q Network)の課題と、 その課題を解決するDouble Deep Q Networkについて説明していきます。 基礎知識 今回は基礎知識として以下の項目をある程度理解しているとします。 Q学習 Dee...
マルチエージェント強化学習

【マルチエージェント強化学習問題】pursuit problem(追跡問題)

pursuit problem(追跡問題) 強化学習エージェント(predator)の行動、状態、報酬 行動 状態 報酬 実験 ソースコード 実行結果 参考文献 pursuit problem(追跡問題) pursuit pro...
強化学習

【強化学習、動的計画法】方策反復法

今回はMDP問題を動的計画法で解く方策反復方について紹介します。 方策反復法は方策の評価、改善を繰り返し(反復)最適な方策を獲得する手法です。 方策反復法とは 方策反復法では動的計画法によって、 最適方策\(\pi ^{\ast}(s, a...
強化学習

多腕バンディット問題(Nアームバンディット問題)

多腕バンディット問題とは 実装と実験 ソースコード 実験 多腕バンディット問題とは 多腕バンディット問題は、以下の図のような複数の腕を持つマシンがあり、 最も期待値の高い腕を損失を最小化しつつ見つけることが目的の問題です。 プレー...
強化学習

【強化学習、入門】SARSAの解説とpythonでの実装 -迷路を例に-

強化学習の代表的アルゴリズムであるSARSAについて紹介します。 概要(3行で) 強化学習の代表的なアルゴリズム Q値の更新に遷移先の状態\(s'\)で選択した行動\(a'\)を用いる手法 Q学習と異なり、Q値の更新に方策を含むため、方策...
強化学習

【強化学習】UCBアルゴリズム〜多腕バンディット問題を解く〜

UCBアルゴリズムを実装して多腕バンディット問題(マルチアームバンディットプロブレム)で試してみました。 UCBアルゴリズム UCBアルゴリズムは「知らない選択肢は楽観的に」をポリシーとした行動選択手法です。 UCBではUCB値という値を用...
tensorflow

【深層強化学習,初心者向け】Deep Q Networkとは 〜図を使って説明〜

**Q Network**
マルチエージェント強化学習

マルチエージェント強化学習とは

マルチエージェント強化学習とは マルチエージェント強化学習は、 複数の強化学習エージェントが同時に学習行動を行う 自律分散型の学習フレームワークのことを言います。 マルチエージェント(マルチエージェントシステム)は、複数(マルチ)のエージェ...
強化学習

【強化学習、方策勾配法】方策勾配定理

今回は方策勾配法の基礎なる定理である方策勾配定理について紹介します。 方策勾配定理 方策勾配定理とは、 Q値を用いて、累積報酬を増加させる方策の勾配を求めるための定理です。 つまり、この勾配を用いることで、 累積報酬の向上を目指して方策を更...
強化学習

【強化学習、ていねいに】Q学習の解説とpythonでの実装 〜シンプルな例を用いて〜

Q学習は強化学習の代表的な手法の1つとなります。 Q学習を遷移先状態の最大Q値を使うので楽観的な手法と呼ばれる強化学習手法です。 これから丁寧に説明していきます。 強化学習とは 以下の図を使って説明してきます。 左のロボットが強化学習で学...
タイトルとURLをコピーしました