マイノート

いろいろ勉強したことをまとめていきます

MENU

ε-greedy行動選択

ε-greedy行動選択の概要

εグリーディ行動選択とは、εの確率でランダムに行動選択、それ以外の確率(1-ε) で最も期待値の高い行動を選択する手法です。強化学習などではよく使われます。

例を使って説明しようと思います。

f:id:ttt242242:20170115162246p:plain

ある人が3つの選択肢があり、どれかを選択する必要があります。 ここでは選択肢をA,B,Cとします。下の四角に書いてある 数字は各選択肢を選択した時に得られる利益の期待としてます。 ε-greedy行動選択を用いて、行動を選択すると以下のように行動を選択します。

(1 - ε)の確率で

f:id:ttt242242:20170115162255p:plain

(1 - ε)の確率で、期待値の最も高い行動選択をする。 これは、知識利用(exploitation)という動作になります。 現在の知識で最も合理的な行動を選択するということです。

εの確率で

f:id:ttt242242:20170115162300p:plain

行動を選択する際にεの確率でランダムで行動選択。 これは、探索(Exploration)という動作になります。 現在の知識を増やす、もしくは期待値を更新するために行う操作です。

εについて

この値を正しく設定、もしくは調整する必要があります。

このεは低すぎると最適な行動を見つけることができず、 高すぎると行動がランダムに近い行動選択になるからです。

強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る