ノート

いろいろ勉強したことをまとめていきます

MENU

2017-10-15から1日間の記事一覧

マルコフ決定過程

概要 マルコフ決定過程とは、状態遷移は 現在の状態とその時の行動にのみ依存する(マルコフ性) ような確率モデルである。 数学的に分析しやすいので、強化学習などではよく用いられる 参考文献 https://ja.wikipedia.org/wiki/マルコフ決定過程

Q学習

Q学習概要 強化学習のアルゴリズムの一種 行動価値を更新する際に、遷移先の状態の最大の行動価値 を用いて更新するのが特徴 Q学習のアルゴリズム エージェントは現在の状態sの行動価値Q(s)に基づいて行動選択(例ε-greedy 詳細は参考文献参照) 行動の実行 環…