機械学習、強化学習の調査録

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

【強化学習】ベルマン方程式

今回はベルマン方程式について紹介します。

ベルマン方程式はマルコフ決定過程(MDP)
においての「ある状態$s$の価値$V(s)$とその後の状態$s'$の価値$V(s')$の関係を表現している方程式」になります。
そのベルマン方程式は以下のような方程式になります。

$$ \begin{eqnarray} \color{red}{V^{\pi}(s)} = \sum_{a \in A}\pi (s, a) \sum_{s' in S}P(s, a, s')[R(s, a, s')+\gamma \color{red}{V^{\pi}(s')}] \end{eqnarray} $$

現在の状態$V^{\pi}(s)$その後の状態価値$V^{\pi}(s')$の関係を表している式とわかります。

ちなみに各変数、関数は

  • $A$:行動の集合
  • $\pi$:方策。$\pi(s, a)$は状態$s$において行動$a$を行う確率
  • $P$:状態遷移確率。$P(s, a, s')$は状態$s$において行動$a$を行い状態$s'$に遷移する確率
  • $R$:報酬関数。$R(s, a, s')$は状態$s$において行動$a$を行い状態$s'$に遷移した時に得られる報酬の期待値
  • $\gamma$:割引率

を表しています。

では、ベルマン方程式がどのように導出されるかみてみます。

$$ \begin{eqnarray} V^{\pi} &=& \mathbb{E}[\sum^{\infty}_{k=0}\gamma ^{k}r_{t+k+1}] \\ &=& \mathbb{E}[r_{t+1}+\gamma r_{t+2}+ \gamma ^{2} r_{t+3}+\cdots] \\ &=& \mathbb{E}[r_{t+1}+\gamma (r_{t+2}+ \gamma r_{t+3}+\cdots)] \\ &=& \mathbb{E}[r_{t+1}+\gamma \sum^{\infty}_{k=0}\gamma ^{k}r_{t+k+2}] \\ &=& \sum_{a \in A}\pi (s, a) \sum_{s' \in S}P(s, a, s')[R(s, a, s')+\gamma \sum^{\infty}_{k=0}\gamma ^{k}r_{t+k+2}] \\ &=& \sum_{a \in A}\pi (s, a) \sum_{s' \in S}P(s, a, s')[R(s, a, s')+\gamma V^{\pi}(s')] \\ \end{eqnarray} $$

参考文献

強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る