
tcom


【マルチエージェント強化学習】Minimax Q Learning

【マルチエージェント強化学習】ナッシュ均衡解

【マルチエージェント強化学習】Independent Learners(ILs, IQLs)

【強化学習】TD学習

【マルチエージェント強化学習】Joint Action Learners

【強化学習】学習率、ステップサイズパラメータ

【強化学習、Reward Shaping】Potential-based reward shapingの特徴(Potential-Based Shaping and Q-Value Initialization are Equivalent)

【強化学習】方策(ポリシー)とは
