マルチエージェント強化学習は大まかには3種類に分類されます。
Stochastic Gamesの報酬関数\(R\)によって分類されます。
ちなみにStochastic Gamesについては以下参照
Stochastic Games – tocomの調査録(機械学習、強化学習)
Fully Cooperative task
1つ目がFully Cooperative task。これは日本語では完全協調タスクといったタスクになります。
協調タスクとある通り、全エージェントがうまく協力して解く必要があるタスクになります。
Stochastic Gamesでは、全エージェントの報酬が同値のとき、 つまり、以下のような報酬のときです。
$$
\begin{eqnarray}
R_1 = \cdots = R_m = R
\end{eqnarray}
$$
\begin{eqnarray}
R_1 = \cdots = R_m = R
\end{eqnarray}
$$
\(R_i\) はエージェント\(i\)の報酬関数になります。
全エージェントが同じ報酬を最大化することが目的のタスクになります。
複数のロボットがある目的達成のために協調するタスクはFully Cooperative taskになります。
Fully Competitive task
2つ目がFully Competitive taskです。
このタスクは対戦型のタスクになります。
Stochastic Gamesでは、全エージェントの報酬関数がゼロサムの時ことを言います。
つまり、以下のような時です。
$$
\begin{eqnarray}
R_1 =-R_2
\end{eqnarray}
$$
\begin{eqnarray}
R_1 =-R_2
\end{eqnarray}
$$
つまり、自分の利益は相手の不利益になるような時。
例えば、テニスや将棋等の対戦型ゲーム等はすべてこのFully Competitive taskに該当します。
Mixed task
Fully Cooperative tasks とFully Competitive tasks以外のタスクはMixed taskになります。
囚人のジレンマなどもこのタスクになります。
参考文献と参考になる本
http://www.dcsc.tudelft.nl/~bdeschutter/pub/rep/07_019.pdf
コメント