【強化学習】方策(ポリシー)とは

強化学習で方策(ポリシー)というのは、

ある状態\(s\)での各行動\(a\)を行う確率分布を表すものとなります。

平たく言えば、「このような時には、こういう行動するべきだろう」といったものとなります。

まぁ名前の通り、ポリシーになります。

記号では、方策を\(\pi(s, a)\)といった形で表現します。

この\(\pi(s, a)\)は、

状態\(s\)において行動\(a\)を行う確率を表しています。

強化学習では、この方策\(\pi(s, a)\)を最適化することが目的となります。

参考文献

バンディット問題の理論とアルゴリズムバンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)

コメント

タイトルとURLをコピーしました