強化学習 Twitter Facebook はてブ Pocket LINE コピー 2021.08.07 2019.07.23 基本 強化学習とは マルコフ決定過程ベルマン方程式 方策反復法(動的計画法) 実用例 行動選択手法など ε-greedy選択softmax行動選択UCBアルゴリズム 代表的な学習アルゴリズム TD学習Q学習SARSAアクタークリティック SARSAとQ Learningの違い 深層強化学習関連 Deep-Q-NetworkDouble Deep Q NetworkDuel NetworkPrioriy memory DDPG マルチエージェント強化学習 マルチエージェント強化学習とはマルチエージェント強化学習の分類Joint Action Learners(JAL)Win or Learn Fast-PHC(WoLF-PHCMinimax Q LearningNash Q Learning もっと見る 方策勾配法 方策勾配定理方策勾配定理の証明 モデルベース強化学習 Dyna-Q Reward Shaping Reward ShapingとはPotential-based Reward Shapingの実装Q-Value Initialization ライブラリ ライブラリ keras-rl keras-rlを試してみるkeras-rlで連続値の行動を扱えるDDPGを試すkeras-rlでDDQNを試す tensorforce tensorforceを試してみる その他 基礎用語 学習率方策状態価値、状態行動価値 参考文献(初心者におすすめの教科書) 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで 強化学習アルゴリズム入門: 「平均」からはじめる基礎と応用
コメント