ノート

強化学習関連のこと

MENU

強化学習

強化学習は一言で言うと、試行錯誤しながら、最適な行動を学習する学習アルゴリズム です。

何かしらの行動をし、その行動に対する報酬(正解ではない)を受け取ります。

そして、その行動を 報酬値によって「強化」、つまりその行動をより多くするようにしていきます。

一番シンプルな強化学習のフレームワークとしては、以下のようになります。

1. 行動選択と実際に行動

現在の知識から、行動を選択します。

行動選択手法は様々なものがあります。

2. 状態sと、報酬rを観測

行動によって変化した状態sと

その行動の評価である報酬rをエージェントは観測します。

3. 学習

報酬を用いて、行動を強化します。

つまり、良い報酬が得られたなら、

よりその行動を行うように学習していきます。

1,2,3を繰り返す

イメージ図

f:id:ttt242242:20180628213332j:plain