方策勾配法

強化学習

【強化学習、方策勾配法】方策勾配定理

今回は方策勾配法の基礎なる定理である方策勾配定理について紹介します。 方策勾配定理 方策勾配定理とは、 Q値を用いて、累積報酬を増加させる方策の勾配を求めるための定理です。 つまり、この勾配を用いることで、 累積報酬の向上を目指して方策を更...
タイトルとURLをコピーしました