機械学習、強化学習の調査録

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

【強化学習】ベルマン方程式

今回はベルマン方程式について紹介します。 ベルマン方程式はマルコフ決定過程(MDP) においての「ある状態$s$の価値$V(s)$とその後の状態$s'$の価値$V(s')$の関係を表現している方程式」になります。 そのベルマン方程式は以下のような方程式になります。 $$…

【強化学習】エージェントとは

強化学習でいうエージェントとは、 「行動する主体」のことを言います。 上述したように定義するとややこしいですが、 エージェントは、単純に人間、ロボット、その他動物など を一般化したものと考えてもらえれば良いです。 鉛筆や本などを「物(オブジェク…

マルコフ決定過程(Markov decision process)

今回はマルコフ決定過程(Markov decision process)を紹介します。 マルコフ決定過程は確率過程の一種で、強化学習のタスクとしてよく用いられます。 Markov decision processの頭文字をとってMDPと呼ばれます。 マルコフ決定過程は、以下の要素から構成され…

【マルチエージェント強化学習】Nash Q Learning(Nash Q 学習)

今回はNash Q Learning(Nash Q学習)について紹介します。 背景 Nash Q Learningとは アルゴリズム 実装と実験 ソースコード nash_q_learner.py matrix_game.py policy.py run.py 実験 今後の課題 参考文献 背景 マルチエージェント強化学習では、ナッシュ均…

【マルチエージェント強化学習、分散型強化学習】Distributed Q Learming

今回は協調型のマルチエージェント強化学習アルゴリズムであるDistributed Q Learning を紹介します。 背景 Distributed Q Learning 具体例 実験 問題設定 プログラム distributed_q_learner.py matrix_game.py policy.py run.py 実験結果 参考文献 背景 協…

【数学】逐次的に平均値を求める

平均値を求めるときに、過去のすべてのデータを保存しておくのはメモリを食うので大変です。 そのため、今回は逐次的に平均値を求める方法を紹介します。 結論から言ってしまえば、平均値$\overline{x}_t = \frac{1}{t}(x_0+\cdots + x_t)$は以下のように表…

進化的に安定な戦略(Evolutionarily Stable Strategy)

今回は進化ゲーム理論やマルチエージェント強化学習においても取り上げられる進化的に安定な戦略について紹介しようと思います。 進化的に安定な戦略 進化的に安定な戦略となる条件 補足 参考文献 進化的に安定な戦略 進化的に安定な戦略とは、 「ある戦略を…

【ゲーム理論, python】ナッシュ均衡を簡単に計算できるライブラリ(2人ゲーム用)

今回は、ナッシュ(Nash)均衡を簡単にもとめてくれるpythonのライブラリNashpyを見つけたの紹介します。 Nashpyとは インストール 使ってみる コード 参考文献 Nashpyとは Nashpyとは、二人ゲームにおける混合戦略のナッシュ均衡解を計算してくれるライブラリ…

【強化学習】greedy選択、greedy方策

今回は強化学習の基本的な用語であるgreedy選択(方策)について紹介しようと思います。 greedyとは「貪欲」という意味で、greedy選択とは、最も利益が高くなるような選択を意味します。 強化学習では、ステップ毎に行動を選択する必要があります。 その時に…

【強化学習、Reward Shaping】Dynamic Potential-Based Reward Shaping

今回はDynamic Potential-based Reward Shapingを紹介します。 Dynamic Potential-Based Reward Shapingとは Potential-based Reward Shapingは以前の記事で紹介しましたが、 以下のように報酬を形成する手法です。 $$ \begin{eqnarray} r_{shaped} = r + \g…

【マルチエージェント強化学習】Value-Decomposition Networks

今回はValue-Decomposition Networks(VDN)について紹介しようと思います。 Value-Decomposition Networksは完全協調型のマルチエージェント深層強化学習に適用できる手法となります。 VDNでは、最大するQ値$Q(\textbf{s}, \textbf{a})$を以下のように表現し…

【マルチエージェント強化学習】Minimax Q Learning

今回はMinimax Q Learning というマルチエージェント強化学習のアルゴリズムについて紹介しようと思います。 Minimax Q Learningは一言で言ってしまえば、Q Learning とゲーム理論のMinimax戦略を組み合わせた手法になります。 前提知識として、Q Learningに…

【マルチエージェント強化学習】ナッシュ均衡解

今回はマルチエージェント強化学習においての学習の目標となるナッシュ均衡について紹介しようと思います。 ナッシュ均衡 まずナッシュ均衡を数式で表現すると、以下のようになります。 $$ \begin{eqnarray} Q_i(\pi_i^{\ast}, \pi_{-i}^{\ast}) \geq Q_i(\p…

【マルチエージェント強化学習】Independent Learners(ILs, IQLs)

今回は最もシンプルなマルチエージェント強化学習アルゴリズムである Independent Learners(ILs)についてお話します。 この手法は単純に各エージェントが各々独立した価値関数を保持し、 各々独立で学習するアルゴリズムです。 各エージェントは自分以外のエ…

【強化学習】TD学習

今回はTD学習(Temporal Difference Learning)についてお話します。 TD学習は、現在の状態の状態価値関数を更新する時に、 現在より先の状態価値関数を用いる手法の総称になります。 これから詳しく説明していきます。 最もシンプルな強化学習 強化学習におい…

【マルチエージェント強化学習】Joint Action Learners

今回はJoint Action Learners(JAL)と呼ばれるマルチエージェント強化学習手法を紹介します。 Joint Action Learners JALはマルチエージェント強化学習の手法の中でも非常にシンプルなものになります。 Joint Actionとある通り、各エージェントはすべてのエー…

【トップページ】強化学習、マルチエージェント強化学習

強化学習 マルチエージェント強化学習 参考文献 これからの強化学習作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等,伊藤真,大倉和博,黒江康明,杉本徳和,坪井祐太,銅谷賢治,前田新一,松井藤五郎,南泰浩,宮崎和光,目黒豊美,森村哲郎,森本…

【強化学習】学習率、ステップサイズパラメータ

今回は学習率について、お話します。 強化学習では学習率をステップサイズパラメータとも言います。 このパラメータは記号で言えば $\alpha$で表記します。 この学習率は 更新量を現在にQ値にどれだけ反映させるか を決定するパラメータになります。 Q学習の…

【強化学習、Reward Shaping】Potential-based reward shapingの特徴(Potential-Based Shaping and Q-Value Initialization are Equivalent)

今回は、Potential-Based Reward Shaping(PBRS)の面白い特徴についてお話しようと思います。 Potential-Based Reward Shapingとは Reward Shaping手法の1つで、通常の環境からの報酬$r$にある値$F(s, s')=\gamma \phi(s')-\phi(s)$を加えて、学習を高速化さ…

【強化学習】方策(ポリシー)とは

強化学習で方策(ポリシー)というのは、 「ある状態$s$での各行動$a$を行う確率分布」を表すものとなります。 平たく言えば、「このような時には、こういう行動するべきだろう」といったものとなります。 まぁ名前の通り、ポリシーになります。 記号では、…

【マルチエージェント強化学習、評価用問題】Boutiler's Coordination Game

今回はBoutiler's Coordination Gameを紹介します。 このゲーム2体のエージェントの協調型のゲームになります。 つまり、うまく協調した時にお互いに最大の報酬が得られるような問題となります。 この問題の状態遷移と報酬については以下の図のようになりま…

【強化学習、簡易調査】Reinforcement Learning Experience Reuse with Policy Residual Representation(2019)

※ 本当にざっと読んだだけ 概要 強化学習において、経験の再利用は、サンプルの効率を向上させるために 非常に重要なことである。 重要な課題の1つはどのように経験を表現し、保管するかということである。 これまでの多くの研究では、研究は経験をある特徴…

【マルチエージェント強化学習】CLEAN Rewards

今回は Coordinated Learning without Exploratory Action Noise (CLEAN) Rewardsを紹介します。 CLEAN Rewardsはマルチエージェント強化学習におけるReward Shaping(報酬形成)手法の1つです。 各エージェントの探索による報酬の乱れを抑えることにフォー…

【マルチエージェント強化学習、簡易調査】Human-level performance in first-person multiplayer games with population-based deep reinforcement learning(2019)

※ 本当にざっと読んだだけ 概要 近年の強化学習の研究では、複雑なシングルエージェントタスクや、 2エージェントタスクにおいて、すばらしい成果を収めてきた。 しかしながら、実際の世界では複数のエージェントが、各々学習し、行動 するような場合が非常…

【マルチエージェント強化学習、簡易調査】Neural Replicator Dynamics

概要 マルチエージェント学習では、 各エージェントの方策が同時に更新されていくため、 本質的に非定常環境となる。 そのため、非定常環境においてもうまく学習できるようなアルゴリズムを開発し 分析することが最優先課題となる。 先行研究で、進化ゲーム…

【マルチエージェント強化学習、簡易調査】Exploration with Unreliable Intrinsic Reward in Multi-Agent Reinforcement Learning

概要 この論文ではマルチエージェント強化学習における探索を補助するために、 不確かな報酬(intrinsic reward)を用いることについて述べる。 我々はintrinsic rewardを協調型のマルチエージェント強化学習に 適用する。 また、intrinsic rewardが、 分散型…

【scikit-learn、データセット】糖尿病患者のデータセット

今回はscikit-learnが提供している糖尿病患者のデータセット に ついて調べた内容をお話します。 データセットの概要 データの内容 説明変数(X) 目的変数(Y) 参考文献 データセットの概要 糖尿病患者のデータセットとは、 442人分の糖尿病患者のデータになり…

【マルチエージェント強化学習】Difference Rewards

今回はマルチエージェント強化学習のReward Shaping手法の1つの Difference Rewards について紹介します。 Difference Rewards Difference Rewards はマルチエージェント強化学習の完全協調タスク における報酬形成手法の1つです。 Difference Rewardsでは…

【マルチエージェント学習、評価用問題】The Gaussian Squeeze Domain

The Gaussian Squeeze Domain(GSD)は完全協調型のマルチエージェントゲームの1つです。 最適化したい目的関数(報酬)は以下の式になります。 $$ \begin{eqnarray} G(x) = x e^{\frac{-(x- \mu )^{2}}{\delta ^{2}}} \end{eqnarray} $$ $\mu$、$\delta$ はシ…

【強化学習】Potential based Reward Shaping を試してみる

今回はPotential based Reward Shapingをgrid world問題上で試してみます。 Potential based reward shaping 試してみるポテンシャル関数 1.ランダム 2. 学習途中の状態価値$\phi(s)=V(s)$ Grid world problem プログラム 実験結果 Potential based reward s…