概要
- すでに、あるタスクにおいて学習済みの方策$\pi$を現在のタスクに適切(より類似した問題を解いた方策)に適用することは非常に重要
 - この論文では、学習済みの方策$\pi$の集合があり、その中から現在のタスクに最も適した方策を選択する問題を定義
 - ベイズ最適化と同様のアプローチとり、方策を選択する手法の提案
 - ゴルフのクラブ(方策)を選択するトイプロブレム等での評価
 
[1505.00284] Bayesian Policy Reuse
  
  
  
  [1505.00284] Bayesian Policy Reuse
コメント