マイノート

いろいろ勉強したことをまとめていきます

MENU

Q学習

Q学習概要(詳細は後述)

  • 強化学習のアルゴリズムの一種

  • 行動価値を更新する際に、遷移先の状態の最大の行動価値 を用いて更新するのが特徴

Q学習のアルゴリズム

  1. エージェントは現在の状態sの行動価値Q(s)に基づいて行動選択(例ε-greedy 詳細は参考文献参照)

  2. 行動の実行

  3. 環境から現在の状態s'と報酬rを得る

  4. 得られたs'、rを元にQ(s,a)を以下の更新式により学習。ここでは、遷移先(s')の状態の最大の行動価値も用いる

\begin{equation} Q(s,a) = (1 - \alpha)Q(s,a) + \alpha(r + max_{a' \in A}Q(s',a')) \end{equation}

ちなみに式変形するとよく見るQ学習の式になる

\begin{equation} Q(s,a) = Q(s,a) + \alpha(r + max_{a' \in A}Q(s',a')-Q(s,a)) \end{equation}

Q学習についてのその他補足

  • モデルフリーの強化学習

    • 環境のモデルがいらない
  • off-policy

参考文献

www.tcom242242.net