強化学習、マルチエージェント強化学習、その他機械学習全般

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

MENU

マルコフ決定過程(Markov decision process)

今回はマルコフ決定過程(Markov decision process)を紹介します。

マルコフ決定過程は確率過程の一種で、強化学習のタスクとしてよく用いられます。
Markov decision processの頭文字をとってMDPと呼ばれます。
マルコフ決定過程は、以下の要素から構成されます。

  • 状態の集合$S$
  • 行動の集合$A$
  • 状態遷移関数$P(s_{t+1}|s_{t}, a_{t})$、この$P(s_{t+1}|s_{t}, a_{t})$は状態$s_t \in S$において行動$a_t \in A$を行った時の$s_{t+1} \in S$への遷移確率
  • 報酬関数$R(s_{t}, a_{t})$、$R(s_{t}, a_{t})$は状態$s_t$において行動$a_t$を行った時に得られる報酬。(正確には報酬の期待値)

マルコフ決定過程の特徴は、
状態遷移関数$P(s_{t+1}|s_{t}, a_{t})$と報酬関数$R(s_{t}, a_{t})$ともに現在の状態$s_t$と行動$a_t$のみに依存するということです。
(これをマルコフ性といいます。)

つまり、次の状態への遷移や得られる報酬が、過去の状態$s_0, \cdots , s_{t-1}$、行動$a_0, \cdots , a_{t-1}$に依存せず、現在の状態$s_t$、行動$a_t$のみによって決定されるということです。

特に状態の集合$S$、行動の集合$A$が有限の場合、有限MDPといいます。

参考文献

これからの強化学習

これからの強化学習

  • 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等,伊藤真,大倉和博,黒江康明,杉本徳和,坪井祐太,銅谷賢治,前田新一,松井藤五郎,南泰浩,宮崎和光,目黒豊美,森村哲郎,森本淳,保田俊行,吉本潤一郎
  • 出版社/メーカー: 森北出版
  • 発売日: 2016/10/27
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログ (3件) を見る