【scikit-learn、データセット】糖尿病患者のデータセット

今回はscikit-learnが提供している糖尿病患者のデータセットに ついて調べた内容をお話します。

データセットの概要

糖尿病患者のデータセットとは、 442人分の糖尿病患者のデータになります。 各患者の基本情報と糖尿病の進行状況のデータです。

データの内容

まず、以下のコードでデータを読み込みます。

import sklearn
from sklearn.datasets import load_diabetes

data = load_diabetes()

説明変数(X)

説明変数は患者の基本情報となります。
以下のコードで説明変数について見てみます

data.feature_names
#=> ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6'] 

各情報については、以下のようになります。

  • age:年齢
  • sex:性別
  • bmi:BMI
  • bp(Average blood pressure):平均血圧
  • s1〜s6:6つの血清データ

https://www.kaggle.com/andyxie/beginner-scikit-learn-linear-regression-tutorial

データの最初の要素を見てみます。
最初の患者が10つの属性によって表現されています。

print(data.data[0])
# =>array([ 0.03807591,  0.05068012,  0.06169621,  0.02187235, -0.0442235 ,
       -0.03482076, -0.04340085, -0.00259226,  0.01990842, -0.01764613])

目的変数(Y)

次に目的変数を見てみます。

糖尿病の進行度合いが目的変数となります。
25〜346の間の整数で表現されます。

先程の患者(data.data[0])の(data.target[0])は

print(data.target[0])
# => 151.0

参考文献

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html#sklearn.datasets.load_diabetes

コメント

タイトルとURLをコピーしました