【強化学習】greedy選択、greedy方策

今回は強化学習の基本的な用語であるgreedy選択(方策)について紹介しようと思います。

greedyとは「貪欲」という意味で、greedy選択とは、最も利益が高くなるような選択を意味します。

強化学習では、ステップ毎に行動を選択する必要があります。
その時にgreedy選択に行う時には最も期待報酬値が高い選択を行います。

例えば、強化学習エージェントが迷路問題を解いているとします。

その時に、以下のように、エージェントの行動の選択肢が4つ(上、下、右、左)あり、各行動に期待報酬値が与えられてるします。(矢印の中の数字)

f:id:ttt242242:20190702052747j:plain

greedy選択によって行動を選択する場合には、期待報酬値が最も高い上に進むを選択することになります。

参考文献

強化学習 (機械学習プロフェッショナルシリーズ)

強化学習 (機械学習プロフェッショナルシリーズ)

コメント

タイトルとURLをコピーしました