行動選択

強化学習

【強化学習】softmax行動選択

概要(3行で) 代表的な行動選択手法 \(\epsilon\)-greedyと同様に強化学習でよく用いられる手法 Q値に応じて各行動の選択確率が変化する 初めてプログラミングを学ぶなら「tech boostオンライン」 softmax...
タイトルとURLをコピーしました