※ 本当にざっと読んだだけ
概要
強化学習において、経験の再利用は、サンプルの効率を向上させるために
非常に重要なことである。
重要な課題の1つはどのように経験を表現し、保管するかということである。
これまでの多くの研究では、研究は経験をある特徴量に変換したり、
モデルを作成するなど、それぞれ異なる粒度で、経験の保存をおこなってきた。
しかしながら、新しいタスクは複数の粒度の経験が必要かもしれない。
この論文では、経験を抽象化し、複数の階層構造で保存可能な
policy residual representaion(PRR) networkを提案する。
PRR networkは複数の階層からななるタスクから学習させる。
それゆえ、PRR network は経験を経験をスプクトルのような形式で表現することが可能である。
新しいタスクを学習する時、
PRRは、学習を高速化させるために、異なる経験の形式を供給する。
我々は、PRRをgrid world等の問題で評価し、
先行研究に比べて良い性能を得ることを確認した。
その他メモ
- Experience 階層型の形式で表現するのはおもしろい
- Experience reuseの関連研究はかなり参考なりそう
論文情報
著者
- Wen-Ji Zhou
- その他
中国系の大学と会社
論文
https://arxiv.org/pdf/1905.13719.pdf
会議
IJCAI 2019
コメント