【Open AI gym、強化学習】MoutainCarの紹介

問題の概要

MoutainCarは、
台車を山の上にあるゴール地点にたどり着けるように
適切にコントロールする問題になります。

f:id:ttt242242:20190430153950p:plain

出典:Leaderboard · openai/gym Wiki · GitHub

制御値、観測、報酬等について

制御値(行動)

制御値は、台を左に押す(0)か
何もしない(1)、右に押す(2)の三択になります。

操作
0 左に押す
1 何もしない
2 右に押す

観測

観測値は、台車の位置と速度の2つになります。

観測情報 最小値 最大値
台車の位置 -1.2 0.6
台車の速度 -0.07 0.07

報酬

ゴールに着いたら0.5、
それ以外の場合にはステップ毎に-1を与えます。

エピソードの終了判定

以下のどれかの条件を満たした場合に、
エピソードが終了したと判定されます。

  • 台車がゴールにたどり着いた
  • 200回制御を行った

ちょっと動かしてみる

実際に動かしてみます。
stepメソッドを使って1ステップづつ台車を操作していきます。
stepメソッドの戻り値は操作した結果
(観測情報, 報酬, エピソードの終了判定) が返却されます。

サンプルコードを実行するために
gymをインストールする必要があります。

サンプルコード

ひたすらランダムで行動選択を行ってみます。
以下、サンプルコードになります。

実行結果

終了するまで実行します。

参考文献

github.com

機械学習スタートアップシリーズ Pythonで学ぶ強化学習 入門から実践まで (KS情報科学専門書)

機械学習スタートアップシリーズ Pythonで学ぶ強化学習 入門から実践まで (KS情報科学専門書)

コメント

タイトルとURLをコピーしました