機械学習(特に強化学習)が好きな人のノート

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

行動選択

softmax行動選択

$\epsilon$-greedy と同様によく用いられる「softmax行動選択」についてご紹介します。 この手法も期待報酬値が高い選択肢の選択確率が高くなるように選択確率を決定します。 具体的には、softmax関数を用いて以下の式によって各選択肢の選択確率を決めます…