ノート

強化学習関連のこと

MENU

2018-04-01から1日間の記事一覧

【深層強化学習】【DQN】Target Network

DQNは、Q-Network,Target-Networkの二つのネットワークを用いる。 この二つのネットワークを用いることで、Q学習の課題の1つである、状態の過大評価を緩和する。 DQNでは、Q値を更新する際に遷移先 $s'$ の状態の最大価値 $maxQ(s')$ を用いる。 そのため、…