img { border : 1px solid #DADADA ; border-bottom : 1px solid #757575 ; box-shadow : 0 2px 4px rgba(0, 0, 0, 0.2) ; }

マイノート

いろいろ勉強したことをまとめていきます

MENU

強化学習の枠組み

強化学習は一言で言うと、試行錯誤しながら、最適な行動を学習する学習アルゴリズム です。

何かしらの行動をし、その行動に対する報酬(正解ではない)を受け取り、その行動を 報酬値によって「強化」 していきます。

一番シンプルな強化学習のフレームワークとしては、以下のようになります。

1. 行動の選択(高い報酬を貰えそうな行動を優先的に)

などの多くの手法があります。

2. 実際に行動

3. 行動によって変化した状態と、報酬を受け取る

4. 報酬から学習する

  • Q学習
  • actor-critic

などの多くの手法があります。

5. 上記を繰り返し、報酬値が最大になるような行動を学習する