強化学習 【強化学習】softmax行動選択 概要(3行で) 代表的な行動選択手法 \(\epsilon\)-greedyと同様に強化学習でよく用いられる手法 Q値に応じて各行動の選択確率が変化する 初めてプログラミングを学ぶなら「tech boostオンライン」 softmax... 2019.03.22 強化学習行動選択