概要
- すでに、あるタスクにおいて学習済みの方策$\pi$を現在のタスクに適切(より類似した問題を解いた方策)に適用することは非常に重要
- この論文では、学習済みの方策$\pi$の集合があり、その中から現在のタスクに最も適した方策を選択する問題を定義
- ベイズ最適化と同様のアプローチとり、方策を選択する手法の提案
- ゴルフのクラブ(方策)を選択するトイプロブレム等での評価
[1505.00284] Bayesian Policy Reuse
[1505.00284] Bayesian Policy Reuse
コメント