機械学習、強化学習の調査録

機械学習関連のことをまとめていきます。強化学習関連が多いかもしれません

マルチエージェント強化学習の大まかな分類

マルチエージェント強化学習は大まかには3種類に分類されます。

Stochastic Gamesの報酬関数$R$によっ分類されます。

ちなみにStochastic Gamesについては以下参照

Stochastic Games - tocomの調査録(機械学習、強化学習)

1.Fully Cooperative task

1つ目がFully Cooperative task。これは日本語では完全協調タスクといったタスクになります。

協調タスクとある通り、全エージェントがうまく協力して解く必要があるタスクになります。

Stochastic Gamesでは、全エージェントの報酬が同値のとき、 つまり、以下のような報酬のときです。 $$ \begin{eqnarray} R_1 = \cdots = R_m = R \end{eqnarray} $$ $R_i$ はエージェント$i$の報酬関数になります。

全エージェントが同じ報酬を最大化することが目的のタスクになります。

複数のロボットがある目的達成のために協調するタスクはFully Cooperative taskになります。

2.Fully Competitive task

2つ目がFully Competitive taskです。
このタスクは対戦型のタスクになります。

Stochastic Gamesでは、全エージェントの報酬関数がゼロサムの時ことを言います。
つまり、以下のような時です。 $$ \begin{eqnarray} R_1 =-R_2 \end{eqnarray} $$

つまり、自分の利益は相手の不利益になるような時。

例えば、テニスや将棋等の対戦型ゲーム等はすべてこのFully Competitive taskに該当します。

3.Mixed task

Fully Cooperative tasks とFully Competitive tasks以外のタスクはMixed taskになります。

囚人のジレンマなどもこのタスクになります。

参考文献と参考になる本

http://www.dcsc.tudelft.nl/~bdeschutter/pub/rep/07_019.pdf