強化学習で方策(ポリシー)というのは、
ある状態\(s\)での各行動\(a\)を行う確率分布を表すものとなります。
平たく言えば、「このような時には、こういう行動するべきだろう」といったものとなります。
まぁ名前の通り、ポリシーになります。
記号では、方策を\(\pi(s, a)\)といった形で表現します。
この\(\pi(s, a)\)は、
状態\(s\)において行動\(a\)を行う確率を表しています。
強化学習では、この方策\(\pi(s, a)\)を最適化することが目的となります。
参考文献
バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)
- 作者: 本多淳也,中村篤祥
- 出版社/メーカー: 講談社
- 発売日: 2016/08/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
コメント