ε-greedy行動選択の概要
ε-greedy行動選択とは、εの確率でランダムに行動、それ以外の確率(1-ε) で最も期待値の高い行動を選択する手法です。
強化学習などではsoftmax行動選択手法と同様によく使われます。
例
下の図のような問題を用いて説明しようと思います。
プレーヤーには、3つの選択肢があります。 ここでは選択肢をA,B,Cとします。
下の四角に書いてある 数字は各選択肢を選択した時に得られる利益の期待値です。
ε-greedy行動選択を用いて行動を選択すると次のように行動を選択します。
εの確率で
εの確率でランダムで行動を選択します。
これは、探索(Exploration)という動作になります。
探索なので、調べる動作になります。
つまり、新しいことを試すことや、すでにある知識の更新などを行う操作です。
(1 – ε)の確率で
(1 – ε)の確率で、期待値の最も高い行動選択をします。
これは、知識利用(exploitation)という動作になります。
現在の知識で最も合理的な行動を選択するということです。
εについて
このε(イプシロン)は探索率と呼ばれ、探索する割合を決めるパラメータです。
ε-greedy行動選択では、εを正しく設定、もしくは調整する必要があります。
このεは低すぎるとなかなか最適な行動を見つけることができず、
高すぎると行動がランダムに近い行動になり、獲得できる利益が不安定になるためです。
実装
ε-greedy行動選択のサンプルコードです。
上述した例。ε-greedy行動選択で1000回行動選択をしました。
ε=0.1の時の結果を以下に示します。
εが小さいので最大行動価値の選択肢をひたすら選択していることがわかります。
ε=0.4の時の結果を以下に示します。
先程の実験よりεを大きくしたので、B, Cを選択する回数が上昇していることがわかります。
コメント