※編集中
SELF-SUPERVISED POLICY ADAPTATION DURING DEPLOYMENTという論文の簡単なメモです。
概要
- 背景
- 多くの実際の環境では、ある環境で強化学習により学習した方策を異なる環境にデプロイする必要がある
- しかしながら、異なる環境間での一般化は難しいことが知られている
- 自然な解決策としては新しい環境にデプロイした後も学習を継続することである
- しかし、新しい環境が報酬信号を提供してくれない時には前述のようなことはできない
- 提案手法
- 我々の研究では、デプロイ後に報酬を観測せずにself-supervisionを使うことによって学習可能な手法を検討する
- 過去の手法が明示的に新しい環境での変化を予測するが、我々の手法はそれらの変更に関する事前の知識がないことを想定している
- 実験と結果
- 実験はDeepMind Control suiteとViZDoomの多様なシミュレーション環境と、未較正なカメラからの観測が得られる継続的に変化する実際のロボット操作タスクで行った。
- 我々の手法は36の環境のうち31の環境で一般化を改善し、大部分の環境ではドメインランダム化よりも優れている.
参考文献
SELF-SUPERVISED POLICY ADAPTATION DURING DEPLOYMENT