今回は強化学習の基本的な用語であるgreedy選択(方策)について紹介しようと思います。
greedyとは「貪欲」という意味で、greedy選択とは、最も利益が高くなるような選択を意味します。
強化学習では、ステップ毎に行動を選択する必要があります。
その時にgreedy選択に行う時には最も期待報酬値が高い選択を行います。
例えば、強化学習エージェントが迷路問題を解いているとします。
その時に、以下のように、エージェントの行動の選択肢が4つ(上、下、右、左)あり、各行動に期待報酬値が与えられてるします。(矢印の中の数字)
greedy選択によって行動を選択する場合には、期待報酬値が最も高い上に進むを選択することになります。
参考文献
- 作者: 森村哲郎
- 出版社/メーカー: 講談社
- 発売日: 2019/05/23
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
コメント