※ もしかしたら間違っているかも知れませんので、間違ってたら教えてください
強化学習にはOn-Policyな手法, Off-Policyな手法とあります。
On-Policyな手法とは状態価値関数(Q値とか)を更新する際に、方策\(\pi\)を使って更新する手法のことで、
逆にOff-Policyは状態価値関数を更新する際に、方策を用いない手法のことを言います。
例
例えば、SARSAはOn-Policyな手法だと言えます。
SARSAがOn-Policyなのは、Q値を更新するに現在の方策を用いて、次の状態の価値を決めるからです。
一方で、Q学習はOff-Policyな手法です。
Q学習がOff-Policyなのは、Q学習はQ(s’)を更新するに、遷移先状態の最大Q値を用いるだけだからです。つまり方策を使っていないためです。