tcom

強化学習

【強化学習】ベルマン方程式

強化学習

【強化学習】エージェントとは

強化学習

マルコフ決定過程(Markov decision process)

マルチエージェント強化学習

【マルチエージェント強化学習】Nash Q Learning(Nash Q 学習)

マルチエージェント強化学習

【マルチエージェント強化学習】Distributed Q Learning

数学

【数学】逐次的に平均値を求める

ゲーム理論

進化的に安定な戦略(Evolutionarily Stable Strategy)

python

【ゲーム理論, python】ナッシュ均衡を簡単に計算できるライブラリ(2人ゲーム用)

強化学習

【強化学習】greedy選択、greedy方策

Reward Shaping

【強化学習、Reward Shaping】Dynamic Potential-Based Reward Shaping

タイトルとURLをコピーしました