【FXAI予測研究】2回:学習・評価に使うデータと評価方法

前回はとりあえずデータを取得するまでやりました。

日にちは空いてしまいましたが、少しずつでも進めていきます。

今回は学習用・評価用に使うデータを分けてみました。
USD_JPYの5分足のデータをメインとしては使っていこうと思います。

学習用・評価用データ

学習用データ

学習用データとしてはUSD_JPYの5分足の2013-12-03 05:50〜2019-04-21 21:05の400000個のデータを学習用として使ってみます。(その他のデータも使うかも知れません。)

データ自体は以下のような感じ

In [11]: train_data.head()
Out[11]: 
   volume                            time    o_ask    h_ask    l_ask    c_ask    o_bid    h_bid    l_bid    c_bid
0     120  2013-12-03T05:50:00.000000000Z  103.301  103.310  103.278  103.298  103.288  103.299  103.265  103.286
1     306  2013-12-03T05:55:00.000000000Z  103.301  103.304  103.247  103.264  103.289  103.292  103.235  103.251
2     214  2013-12-03T06:00:00.000000000Z  103.266  103.289  103.233  103.244  103.253  103.278  103.221  103.230
3     146  2013-12-03T06:05:00.000000000Z  103.243  103.269  103.236  103.257  103.232  103.256  103.223  103.246
4     227  2013-12-03T06:10:00.000000000Z  103.257  103.266  103.202  103.220  103.244  103.254  103.187  103.208

評価用データ

評価用のデータとしては

2019-04-21 21:10〜2020-08-24 17:55まで100000件のデータになります。

In [15]: test_data.head()
Out[15]: 
   volume                            time    o_ask    h_ask    l_ask    c_ask    o_bid    h_bid    l_bid    c_bid
0      12  2019-04-21T21:10:00.000000000Z  111.880  111.888  111.880  111.888  111.848  111.854  111.842  111.854
1       5  2019-04-21T21:15:00.000000000Z  111.888  111.888  111.881  111.882  111.854  111.854  111.845  111.849
2      10  2019-04-21T21:20:00.000000000Z  111.886  111.891  111.882  111.887  111.850  111.854  111.839  111.854
3       1  2019-04-21T21:25:00.000000000Z  111.886  111.886  111.886  111.886  111.850  111.850  111.850  111.850
4       2  2019-04-21T21:30:00.000000000Z  111.888  111.890  111.888  111.890  111.853  111.856  111.853  111.856

評価方法

評価方法としては、現在は予測値\(\hat{y}_i\)と評価用データ\(y_i\)との二乗誤差の平均等を用います。

$$
\begin{eqnarray}
E = \frac{1}{N}\sum^N _i (\hat{y}_i-y_i)^2
\end{eqnarray}
$$

また、グラフでプロットしていこうと思います。

タイトルとURLをコピーしました