概要
マルチエージェント学習では、
各エージェントの方策が同時に更新されていくため、
本質的に非定常環境となる。
そのため、非定常環境においてもうまく学習できるようなアルゴリズムを開発し
分析することが最優先課題となる。
先行研究で、進化ゲーム理論を用いてマルチエージェント学習を分析することが行われてきた。
それらの多くの研究は、state lessや表形式の問題において、
方策反復の手法を拡張したような手法に関してであった。
我々は、これまでの研究を発展させ、進化ゲーム理論と方策勾配法を
繋げることを試みる。
結果として、我々は進化ゲーム理論と方策勾配法を理論的にリンクさせ、
そして、Neural Replicator Dynamics(NeuRD)を導き出す。
論文情報
論文
https://arxiv.org/pdf/1906.00190.pdf
著者
deepmindの人たち
- Shayegan Omidshafiei
- Karl Tuyls
- その他
会議
まだ、Preprint
コメント