機械学習、強化学習の調査録

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

【強化学習】方策(ポリシー)とは

強化学習で方策(ポリシー)というのは、

「ある状態$s$での各行動$a$を行う確率分布」を表すものとなります。

平たく言えば、「このような時には、こういう行動するべきだろう」といったものとなります。

まぁ名前の通り、ポリシーになります。

記号では、方策を$\pi(s, a)$といった形で表現します。

この$\pi(s, a)$は、

状態$s$において行動$a$を行う確率を表しています。

強化学習では、この方策$\pi(s, a)$を最適化(獲得する報酬の最大化)することが目的となります。

参考文献

バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)

バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)