【強化学習】On-PolicyとOff-Policyの違い

※ もしかしたら間違っているかも知れませんので、間違ってたら教えてください

強化学習にはOn-Policyな手法, Off-Policyな手法とあります。

On-Policyな手法とは状態価値関数(Q値とか)を更新する際に、方策\(\pi\)を使って更新する手法のことで、
逆にOff-Policyは状態価値関数を更新する際に、方策を用いない手法のことを言います。

例えば、SARSAはOn-Policyな手法だと言えます。
SARSAがOn-Policyなのは、Q値を更新するに現在の方策を用いて、次の状態の価値を決めるからです。

一方で、Q学習はOff-Policyな手法です。
Q学習がOff-Policyなのは、Q学習はQ(s')を更新するに、遷移先状態の最大Q値を用いるだけだからです。つまり方策を使っていないためです。

参考文献

タイトルとURLをコピーしました