今回はscikit-learnが提供している糖尿病患者のデータセットに ついて調べた内容をお話します。
データセットの概要
糖尿病患者のデータセットとは、 442人分の糖尿病患者のデータになります。 各患者の基本情報と糖尿病の進行状況のデータです。
データの内容
まず、以下のコードでデータを読み込みます。
import sklearn from sklearn.datasets import load_diabetes data = load_diabetes()
説明変数(X)
説明変数は患者の基本情報となります。
以下のコードで説明変数について見てみます
data.feature_names #=> ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']
各情報については、以下のようになります。
- age:年齢
- sex:性別
- bmi:BMI
- bp(Average blood pressure):平均血圧
- s1〜s6:6つの血清データ
https://www.kaggle.com/andyxie/beginner-scikit-learn-linear-regression-tutorial
データの最初の要素を見てみます。
最初の患者が10つの属性によって表現されています。
print(data.data[0]) # =>array([ 0.03807591, 0.05068012, 0.06169621, 0.02187235, -0.0442235 , -0.03482076, -0.04340085, -0.00259226, 0.01990842, -0.01764613])
目的変数(Y)
次に目的変数を見てみます。
糖尿病の進行度合いが目的変数となります。
25〜346の間の整数で表現されます。
先程の患者(data.data[0])の(data.target[0])は
print(data.target[0]) # => 151.0
参考文献
コメント