【keras, データセット】ロイターのニュースワイヤーデータセット(reuters)

今回はkerasが提供しているロイターのニュースワイヤーデータセット
ついて調べた内容をお話します。

データセットの概要

ロイターのニュースワイヤーデータセットとは、
ロイター通信社のニュースに感情のラベル付けをしたデータセットです。
各ニュースに肯定/否定の情報が付与されています。

kerasでは、各レビューは頻出単語のベクトルで変換してあるので、
モデルの学習をしやすくなってます。

データの内容

まず、以下のコードでデータを読み込みます。
今回は頻出頻度上位1000個の単語(num_words)を対象とし、
各文章の出現頻度上位20単語(maxlen)のベクトルをレビュー(文章)を表現します。
対象外(頻出頻度上位100個に入らない単語)の場合は2(oov_char)で表現します。

説明変数(X)

説明変数は、各レビューに含まれる頻出単語ベクトルになります。

x_trainの最初の要素を見てみます。

自然数は単語(単語インデックス)を表しています。
もし、全体頻出頻度100単語に含まれない単語の場合2という値を割り当てています。
これが、文章の特徴となっています。

単語インデックスに割り振られてる単語の調べ方

imdbのデータセットとは異なり、
各単語に割り振られているインデックス(単語インデックス)を確認できます。
以下のコードで単語インデックスの辞書を取得できます。

「station」に割り振られてるインデックスを確認してみます。

つまり、2898という数字は「station」を表しています。

目的変数(Y)

次に目的変数を見てみます。
目的変数は感情(肯定/否定)の2値をとります。
つまり、0か1となります。
先程の文章(x_train[0])の目的変数(y_train[0])は

参考文献

データセット - Keras Documentation

コメント

タイトルとURLをコピーしました