【サーベイ】Bayesian Policy Reuse

2018.11.27

概要

すでに、あるタスクにおいて学習済みの方策$\pi$を現在のタスクに適切（より類似した問題を解いた方策）に適用することは非常に重要
この論文では、学習済みの方策$\pi$の集合があり、その中から現在のタスクに最も適した方策を選択する問題を定義
ベイズ最適化と同様のアプローチとり、方策を選択する手法の提案
ゴルフのクラブ（方策）を選択するトイプロブレム等での評価

[1505.00284] Bayesian Policy Reuse

コメント

メニュー
ホーム
検索
トップ
サイドバー

tcom

ITエンジニア。
機械学習・節約・投資・散歩が好きです。

質問・相談・依頼・記事に間違い等があれば、お問い合わせで教えていただければと思います。

tcomをフォローする



わかりやすかった本

2025年11月

月火水木金土日

1 2

3 4 5 6 7 8 9

10 11 12 13 14 15 16

17 18 19 20 21 22 23

24 25 26 27 28 29 30

« 8月

関連記事

強化学習の実問題の応用先例まとめ【永遠に未完】

2020.03.222021.07.28

強化学習

2019.07.232021.08.07

【強化学習】Potential based Reward Shaping を試してみる

2019.05.312020.09.18

【マルチエージェント強化学習】Policy Hill Climbing

2018.07.102020.09.18

【強化学習、動的計画法】方策反復法

2019.08.212020.04.08

タイトルとURLをコピーしました