マルチエージェント強化学習の大まかな分類

マルチエージェント強化学習は大まかには3種類に分類されます。

Stochastic Gamesの報酬関数\(R\)によって分類されます。

ちなみにStochastic Gamesについては以下参照

Stochastic Games – tocomの調査録(機械学習、強化学習)

Fully Cooperative task

1つ目がFully Cooperative task。これは日本語では完全協調タスクといったタスクになります。

協調タスクとある通り、全エージェントがうまく協力して解く必要があるタスクになります。

Stochastic Gamesでは、全エージェントの報酬が同値のとき、 つまり、以下のような報酬のときです。

$$
\begin{eqnarray}
R_1 = \cdots = R_m = R
\end{eqnarray}
$$

\(R_i\) はエージェント\(i\)の報酬関数になります。

全エージェントが同じ報酬を最大化することが目的のタスクになります。

複数のロボットがある目的達成のために協調するタスクはFully Cooperative taskになります。

Fully Competitive task

2つ目がFully Competitive taskです。
このタスクは対戦型のタスクになります。

Stochastic Gamesでは、全エージェントの報酬関数がゼロサムの時ことを言います。
つまり、以下のような時です。

$$
\begin{eqnarray}
R_1 =-R_2
\end{eqnarray}
$$

つまり、自分の利益は相手の不利益になるような時。

例えば、テニスや将棋等の対戦型ゲーム等はすべてこのFully Competitive taskに該当します。

Mixed task

Fully Cooperative tasks とFully Competitive tasks以外のタスクはMixed taskになります。

囚人のジレンマなどもこのタスクになります。

参考文献と参考になる本

http://www.dcsc.tudelft.nl/~bdeschutter/pub/rep/07_019.pdf

コメント

タイトルとURLをコピーしました