ノート

強化学習関連のこと

MENU

2017-10-15から1日間の記事一覧

マルコフ決定過程

概要 マルコフ決定過程とは、状態遷移は 現在の状態とその時の行動にのみ依存する(マルコフ性) ような確率モデルである。 数学的に分析しやすいので、強化学習などではよく用いられる 参考文献 https://ja.wikipedia.org/wiki/マルコフ決定過程

Q学習

Q学習概要 強化学習のアルゴリズムの一種 行動価値を更新する際に、遷移先状態の最大行動価値 $\max_a Q(s,a)$ を用いて更新するのが特徴 Q学習のアルゴリズム エージェントは現在の状態sの行動価値Q(s)に基づいて行動選択(例ε-greedy 詳細は参考文献参照) …