【強化学習】ベルマン方程式

今回はベルマン方程式について紹介します。

ベルマン方程式とは

ベルマン方程式はマルコフ決定過程(MDP)
においての「ある状態\(s\)の価値\(V(s)\)とその後の状態\(s’\)の価値\(V(s’)\)の関係を表現している方程式」になります。
そのベルマン方程式は以下のような方程式になります。

$$
\begin{eqnarray}
\color{red}{V^{\pi}(s)} = \sum_{a \in A}\pi (s, a) \sum_{s’ in S}P(s, a, s’)[R(s, a, s’)+\gamma \color{red}{V^{\pi}(s’)}]
\end{eqnarray}
$$

現在の状態\(V^{\pi}(s)\)その後の状態価値\(V^{\pi}(s’)\)の関係を表している式とわかります。

ちなみに各変数、関数は

  • \(A\):行動の集合
  • \(\pi\):方策。\(\pi(s, a)\)は状態\(s\)において行動\(a\)を行う確率
  • \(P\):状態遷移確率。\(P(s, a, s’)\)は状態\(s\)において行動\(a\)を行い状態\(s’\)に遷移する確率
  • \(R\):報酬関数。\(R(s, a, s’)\)は状態\(s\)において行動\(a\)を行い状態\(s’\)に遷移した時に得られる報酬の期待値
  • \(\gamma\):割引率

を表しています。

では、ベルマン方程式がどのように導出されるかみてみます。
なるべく丁寧に展開しました。

$$
\begin{eqnarray}
V^{\pi} &=& \mathbb{E}[\sum^{\infty}_{k=0}\gamma ^{k}r_{t+k+1}] \\
&=& \mathbb{E}[r_{t+1}+\gamma r_{t+2}+ \gamma ^{2} r_{t+3}+\cdots] \\
&=& \mathbb{E}[r_{t+1}+\gamma (r_{t+2}+ \gamma r_{t+3}+\cdots)] \\
&=& \mathbb{E}[r_{t+1}+\gamma \sum^{\infty}_{k=0}\gamma ^{k}r_{t+k+2}] \\
&=& \sum_{a \in A}\pi (s, a) \sum_{s’ \in S}P(s, a, s’)[R(s, a, s’)+\gamma \sum^{\infty}_{k=0}\gamma ^{k}r_{t+k+2}] \\
&=& \sum_{a \in A}\pi (s, a) \sum_{s’ \in S}P(s, a, s’)[R(s, a, s’)+\gamma V^{\pi}(s’)]
\\
\end{eqnarray}
$$

参考文献

強化学習

コメント

タイトルとURLをコピーしました