機械学習(特に強化学習)が好きな人のノート

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

強化学習超入門

強化学習は一言で言うと、試行錯誤によって、最適方策を学習するフレームワーク です。

これだけだとよくわからないと思うので、
簡単な例等を用いて説明します。

最もシンプルな強化学習

以下の図は最もシンプルな強化学習のイメージ図になります。
ロボットが強化学習エージェント、
A、B、Cといった選択肢(行動の集合)であり、
選択肢毎に得られる報酬が決まっています。
強化学習エージェントの目的は最も高い報酬が得られる選択肢を見つけることになります。
つまり、最も高い報酬が得られる選択肢の選択確率(方策といいます)を最大化して、その選択肢をひたすら選択するようにすることになります。

f:id:ttt242242:20190414172955j:plain:w400
強化学習のイメージ

エージェントは、以下の操作を繰り返し学習していきます。

  1. 方策をもとに、行動の選択
  2. 報酬の観測
  3. 報酬によって方策の修正

例)ゴルフの最適フォームの学習

ロボットが最適なゴルフのフォームを見つける問題で考えてみます。
今回は単純に最も飛距離が出るフォームを見つけたいとします。
行動と報酬は以下のようになってるとします。

  • 行動:フォーム
  • 報酬 :選択したフォームによって飛んだボールの飛距離

以下に、学習の流れを示します。

①行動選択と実際に行動

現在の方策(各フォームの選択確率)を元に、フォーム(行動)を選択します。
選択したフォームでボールを打ってみる。

②観測

ボールがどのくらい飛んだか(報酬)を観測します。

③学習

飛距離(報酬)によって、そのフォームを選択確率を修正していきます。
飛距離が大きければ大きいほど、そのフォームの選択確率を高く、
飛距離が小さければ小さいほど、そのフォームの選択確率を小さくしていきます。

①,②,③を学習が収束するまで繰り返す

最終的に、最も飛距離が出るフォームを選択する確率が最大となっています。
これを最適方策と言います。

参考文献

強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る