【scikit-learn、データセット】irisデータセット

今回はscikit-learnが提供しているirisデータセットに
ついて調べた内容をお話します。

データセットの概要

irisデータセットとは、
あやめの花に関するデータセットになります。
3種類のあやめのデータがそれぞれ50個づつ格納されています。
各あやめは、がく片の長さ(sepal length)、がく片の幅(sepal width)、
花びらの長さ(patal length)、花びらの幅(petal width)が保存されています。

データの内容

まず、以下のコードでデータを読み込みます。

説明変数(X)

説明変数は、各花の

  • がく片の長さ(sepal length)
  • がく片の幅(sepal width)、
  • 花びらの長さ(patal length)
  • 花びらの幅(petal width)

の4つの属性により表現されています。

feature_namesで確認することができます。

x_trainの最初の要素を見てみます。

0番目の花が4つの属性によって表現されていますね。

目的変数(Y)

次に目的変数を見てみます。
3種類の花が目的変数となります。

3つの花の名前は、以下のコードで確認出来ます。

上記の配列にあるように、花は、

  • setosa
  • versicolor
  • virginica

の三種類となります。
目的変数は花の名前が保存されているのではなく、
インデックスで保存されています。
つまり、0なら’setosa’、1なら’versicolor’、2なら ‘virginica’

先程の文章(data.data[0])の目的変数(data.target[0])は

参考文献

The Iris Dataset — scikit-learn 0.21.3 documentation

コメント

タイトルとURLをコピーしました