今回は強化学習がどの分野で応用されているか簡単にまとめました。
ただ、すでにさまざまな分野に応用されているで一部だけ簡単にご紹介します。
(私の力では追いきれませんした)
コンピューター・クラスターのリソース管理
コンピューター・クラスターのリソース管理の最適化を強化学習によって行う研究があります。
https://people.csail.mit.edu/alizadeh/papers/deeprm-hotnets16.pdf
まず、コンピューター・クラスターとは複数のコンピューターを結合し 1 つのコンピュータとして扱うシステムです。
1 台のコンピューターと比べて強力な性能を発揮します。
コンピューター・クラスターで問題になるのが、各ジョブを各コンピューターにスムーズに配分する「ジョブスケジューリング問題」です。
上述した論文ではこのジョブスケジューリング問題を強化学習を使って解くようなことをしています。
上記であげた論文では各ジョブの処理時間を最小化したいので、報酬は以下のように与えています。
$$R = \sum _{j \in J} \frac{-1}{T_j}$$
ここで、 \(j\) はジョブ、\T_j\)はジョブ\(j\)の処理時間を表しています。
単純にジョブの処理時間が小さくなるにつれて報酬が大きくなるといった報酬関数です。
交通信号機制御
交通信号機の制御に強化学習を応用した例もあります。
Coordinated Deep Reinforcement Learners for Traffic Light Control
車の待ち時間などの最小化を目指して学習を進めていきます。
SUMO などの交通シュミレータを用いて実験をしています。
車の制御
車の制御に強化学習を応用した例もあります。
Controlling an Autonomous Vehicle with Deep Reinforcement Learning
シミュレーション上で車の制御に強化学習を使う例はありましたが上記の論文では実際に車を強化学習によって制御しています。
ロボット
ロボットの学習にも強化学習は積極的に応用されています。
Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates
上述した論文では、
ドアノブがあるドアの開け方を学習しています。
推薦システム
また、推薦システムに強化学習を応用する試みも始まっています。
以下の論文では、
DRN: A Deep Reinforcement Learning Framework for News Recommendation
深層強化学習をニュースのレコメンド最適化に応用しています。
ここでは、ニュースの中でもオンラインのニュースサイトのレコメンド最適化です。
どれだけクリックされたか等を報酬として、独自のモデルを作成して学習しているようです。
広告関連(RTB)の最適化
RTB(Real-Time Bidding)の最適化にも強化学習を使う方法が研究されています。
そもそも RTB は参考文献を引用すると
RTB はオンライン広告の入札の仕組みの1つです。
参考:https://www.macromill.com/research-words/rtb.html
ここでは、強化学習でどの広告にいくら入札するかを最適化していきます。
以下の論文では深層強化学習を用いて最適化を行っています。
Budget Constrained Bidding by Model-free Reinforcement Learning in Display Advertising
囲碁などのゲーム
おそらく強化学習で最も有名なのが囲碁の世界チャンピオンに勝利した AlphaGo でしょう。
囲碁は局面が他のボードゲーム(将棋やチェス)に比べて非常に大きいため、長らくコンピューターで攻略するのは難しいとされてきました。
しかしながら、DeepMind が発表した AlphaGo というプログラムが囲碁を攻略しました。
AlphaGo ではモンテカルロ木探索、ニューラルネットワーク(ディープラーニング)、強化学習が使われています。
AlphaGo の詳細については他にたくさんの解説記事があるので参考にしてほしいのですが、囲碁のプログラムに強化学習が使われていたというのは今まであまりなかったので革新的なことであったと思います。
AlphaGo についてはすでに Wikipedia にもあるので見てみてください。
その他
その他多くの分野で強化学習の応用が進んでいます。
- Web システムの設定ファイルの自動化
- 科学分野
などなど
まだまだ私も追いきれていません。今後も調査していこうと思います。