雑多なこと

colab

【入門】Colaboratoryの始め方

Colaboratory(Colab)とは Googleが提供している機械学習用のPython開発環境です。 GPUも無料で使用できるとあって、非常に有用なサービスです。 Webブラウザから簡単に使用できます。 なので、Python等のイン...
colab

【keras-rl,colab】keras-rlをcolabのgpuを用いて実行する

keras-rlをcolab上で動かせるようにしたのでメモしておきます。 Colaboratory(colab) Colaboratory(colab)はgoogleが提供してくれるJupyterノートブック環境です。 無料でGPUが使える...
Transfer Learning

【強化学習、簡易調査】Reinforcement Learning Experience Reuse with Policy Residual Representation(2019)

※ 本当にざっと読んだだけ 概要 強化学習において、経験の再利用は、サンプルの効率を向上させるために 非常に重要なことである。 重要な課題の1つはどのように経験を表現し、保管するかということである。 これまでの多くの研究では、研究は経験をあ...
サーベイ

【マルチエージェント強化学習、簡易調査】Human-level performance in first-person multiplayer games with population-based deep reinforcement learning(2019)

※ 本当にざっと読んだだけ 概要 近年の強化学習の研究では、複雑なシングルエージェントタスクや、 2エージェントタスクにおいて、すばらしい成果を収めてきた。 しかしながら、実際の世界では複数のエージェントが、各々学習し、行動 するような場合...
サーベイ

【マルチエージェント強化学習、簡易調査】Neural Replicator Dynamics

概要 マルチエージェント学習では、 各エージェントの方策が同時に更新されていくため、 本質的に非定常環境となる。 そのため、非定常環境においてもうまく学習できるようなアルゴリズムを開発し 分析することが最優先課題となる。 先行研究で、進化ゲ...
サーベイ

【マルチエージェント強化学習、簡易調査】Exploration with Unreliable Intrinsic Reward in Multi-Agent Reinforcement Learning

概要 この論文ではマルチエージェント強化学習における探索を補助するために、 不確かな報酬(intrinsic reward)を用いることについて述べる。 我々はintrinsic rewardを協調型のマルチエージェント強化学習に 適用する...
Transfer Learning

【サーベイ】Bayesian Policy Reuse

概要 すでに、あるタスクにおいて学習済みの方策$\pi$を現在のタスクに適切(より類似した問題を解いた方策)に適用することは非常に重要 この論文では、学習済みの方策$\pi$の集合があり、その中から現在のタスクに最も適した方策を選択する問...
サーベイ

【サーベイ】QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

概要 fully cooperative マルチエージェント強化学習の手法を提案 centralized 行動価値関数(状態と全エージェントの行動により構成される関数)とdecentralised policies(各々のエージェントのp...
マルチエージェント強化学習

Win or Learn Fast PHC をじゃんけんゲームで実験

同じく、前回の記事でも用いた論文で、 紹介されているWin or Learn Fast PHC(WoLF-PHC)を実装して実験してみました。 Win or Learn Fast PHC 前回の記事参照 問題設定 今回はじゃんけんゲーム...
ゲーム理論

Policy Hill Climbingエージェントで実験

ランダムエージェントでの実験 Policy Hill Climbing で実験 以下の論文で、紹介されているPolicy Hill Climbing(PHC) を実装して実験してみました。 問題設定 よくゲーム理論で用いられているものです...
タイトルとURLをコピーしました