前回はとりあえずデータを取得するまでやりました。
日にちは空いてしまいましたが、少しずつでも進めていきます。
今回は学習用・評価用に使うデータを分けてみました。
USD_JPYの5分足のデータをメインとしては使っていこうと思います。
学習用・評価用データ
学習用データ
学習用データとしてはUSD_JPYの5分足の2013-12-03 05:50〜2019-04-21 21:05の400000個のデータを学習用として使ってみます。(その他のデータも使うかも知れません。)
データ自体は以下のような感じ
In [11]: train_data.head()
Out[11]:
volume time o_ask h_ask l_ask c_ask o_bid h_bid l_bid c_bid
0 120 2013-12-03T05:50:00.000000000Z 103.301 103.310 103.278 103.298 103.288 103.299 103.265 103.286
1 306 2013-12-03T05:55:00.000000000Z 103.301 103.304 103.247 103.264 103.289 103.292 103.235 103.251
2 214 2013-12-03T06:00:00.000000000Z 103.266 103.289 103.233 103.244 103.253 103.278 103.221 103.230
3 146 2013-12-03T06:05:00.000000000Z 103.243 103.269 103.236 103.257 103.232 103.256 103.223 103.246
4 227 2013-12-03T06:10:00.000000000Z 103.257 103.266 103.202 103.220 103.244 103.254 103.187 103.208
評価用データ
評価用のデータとしては
2019-04-21 21:10〜2020-08-24 17:55まで100000件のデータになります。
In [15]: test_data.head()
Out[15]:
volume time o_ask h_ask l_ask c_ask o_bid h_bid l_bid c_bid
0 12 2019-04-21T21:10:00.000000000Z 111.880 111.888 111.880 111.888 111.848 111.854 111.842 111.854
1 5 2019-04-21T21:15:00.000000000Z 111.888 111.888 111.881 111.882 111.854 111.854 111.845 111.849
2 10 2019-04-21T21:20:00.000000000Z 111.886 111.891 111.882 111.887 111.850 111.854 111.839 111.854
3 1 2019-04-21T21:25:00.000000000Z 111.886 111.886 111.886 111.886 111.850 111.850 111.850 111.850
4 2 2019-04-21T21:30:00.000000000Z 111.888 111.890 111.888 111.890 111.853 111.856 111.853 111.856
評価方法
評価方法としては、現在は予測値\(\hat{y}_i\)と評価用データ\(y_i\)との二乗誤差の平均等を用います。
$$
\begin{eqnarray}
E = \frac{1}{N}\sum^N _i (\hat{y}_i-y_i)^2
\end{eqnarray}
$$
また、グラフでプロットしていこうと思います。