\マルチエージェント強化学習では各エージェントの観測可能な情報によってエージェントを2種類に分類できます。
Independent Learner
Independet Learnerは、自分以外のエージェントのアクション、報酬を観測できません。
観測できるのは自分の報酬、観測情報だけです。
つまり、エージェント\(i\)が観測できるのは報酬\(r_i\)、観測\(o_i\)だけになります。
単純に複数の強化学習エージェントを同じ環境で学習行動させるだけなので、実装は用意です。
しかしながら、各エージェントは自分以外のエージェントは環境の一部とみなすため、制御するのが難しくなります。
Independent Learnerによるマルチエージェント強化学習のアルゴリズムはWin or Learn Fastなどになります。
Joint Action Learner
Joint Action Learnerは、Independent Learnerが観測できる情報に加えて、
自分以外のエージェントがとった行動も観測できます。
つまり、エージェント\(i\)が観測できるのは報酬\(r_i\)、観測\(o_i\)と自分以外の行動群\(a_{-i}\)になります。
Minimax Q LearningなどのEquilibrium-based な手法ではJoint Action Learnerになります。
Joint Action Learnerは基本的には自分以外のエージェントの行動も含めてQ値を学習することが多いので計算コストが膨大になる可能性があります。
参考文献と参考になる本
http://www.dcsc.tudelft.nl/~bdeschutter/pub/rep/07_019.pdf
コメント