ノート

強化学習関連のこと

MENU

【強化学習】ベルマン方程式

ベルマン方程式

一般的に、方策 $\pi$ を用いた際の状態$s$の状態価値をベルマン方程式を用いて以下のように定義します。

$$ \begin{eqnarray} V^{\pi}(s) &=& \mathbb{E}_{\pi}[R_t \mid s_t = s] \\ &=& \mathbb{E}_{\pi}[r_{t+1}+\gamma V(s_{t+1}) \mid s_t = s] \end{eqnarray} $$

その状態で得られる報酬の期待値ですね。

この$R_t$は以下のように式展開できます

$$ \begin{eqnarray} R_t &=& r_{t+1} + \gamma r_{t+2}+ \gamma^2 r_{t+3} + \cdots \\ &=& r_{t+1} + \gamma(r_{t+2}+ \gamma r_{t+3} + \cdots) \\ &=& r_{t+1} + \gamma R_{t+1} \end{eqnarray} $$

別の書き方をすれば、このBellman方程式は以下のように表記できまう。

$$ \begin{eqnarray} V^{\pi} &=& \sum_{a \in A(s)} \pi(s,a) \sum_{s \in S} (P^{a}_{ss'}R^{a}_{ss'}+\gamma V^{\pi}(s')) \end{eqnarray} $$

状態$s$で行動$a$を行う確率を表し、 $Pa_{ss'}$ は環境の状態遷移確率、つまり、 状態$s$において、行動$a$を行った時に $s'$ に遷移する確率を表します。

行動価値に対するベルマン方程式は以下のようになります。

ちなみに、行動価値とは、ある状態$s$である行動$a$をした時に価値のことです。 $$ \begin{eqnarray} Q^{\pi}(s,a) &=& \mathbb{E}[{R_t \mid s_t = s,a_t = a}] \\ &=& \mathbb{E}[\sum^{\infty}_{k=0} r_{t+1}+\gamma Q(s_{t+1},a_{t+1}) \mid s_t = s,a_t = a] \end{eqnarray} $$

参考

http://www.jnns.org/pastpage/niss/2000/lecturenote/lecturenote_koike.pdf