ノート

強化学習関連のこと

MENU

【サーベイ】Bayesian Policy Reuse

概要

  • すでに、あるタスクにおいて学習済みの方策$\pi$を現在のタスクに適切(より類似した問題を解いた方策)に適用することは非常に重要
  • この論文では、学習済みの方策$\pi$の集合があり、その中から現在のタスクに最も適した方策を選択する問題を定義
  • ベイズ最適化と同様のアプローチとり、方策を選択する手法の提案
  • ゴルフのクラブ(方策)を選択するトイプロブレム等での評価

[1505.00284] Bayesian Policy Reuse