機械学習、強化学習の調査録

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

2019-06-13から1日間の記事一覧

【強化学習】方策(ポリシー)とは

強化学習で方策(ポリシー)というのは、 「ある状態$s$での各行動$a$を行う確率分布」を表すものとなります。 平たく言えば、「このような時には、こういう行動するべきだろう」といったものとなります。 まぁ名前の通り、ポリシーになります。 記号では、…