囚人のジレンマをランダムエージェントで実験

実験もくそもないけど、ちょっと実装してみます。

強化学習エージェントで実装する前にランダムエージェントで、

報酬関数が囚人のジレンマのゲームをやってみます。

問題設定

よくゲーム理論で用いられているものです。

1,2 協調(C) 裏切り(D)
協調(C) 6, 6 2,7
裏切り(D) 7,2 0,0

ランダムエージェント

ランダムで行動選択をするエージェントです

実験結果

単純に何回か行動選択して、

得られた報酬の平均をプロットしてみます。

ソースコード

以下の3つのプログラムから構成されています

  • 実行用のプログラム(run_random.py)、
  • gameプログラム(games/simple_game.py)、
  • randomエージェント(agents/random_agent.py)

GitHub – Tcom242242/multi-agent-learning

ファイル構成

run_random.py

games/game.py

games/simple_game.py

agents/random_agent.py

コメント

タイトルとURLをコピーしました