scikit-learnにはいくつかデータセットが用意されています。
ボストンの住宅価格とアヤメ、数字の手書きデータは頻出するのですが、糖尿病患者のデータセットなんてのもあります。
医療ITの人間だったら、これは一度は触れておくべきだなということで触ってみることにしました。
えっと、これでは何がなんだか、さっぱり、よく、わかりませんよ。
データは標準化されています。
オリジナルデータはhttps://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txtにあります。
正規化された方が機械学習はしやすいのでしょうが、データの中身に私は関心があったのでオリジナルデータをダウンロードすることにしました。
値について
値の詳細も気になりますね。Blood and other measurements in diabetics — diabetes • mplotに情報がありました。
項目名 | 説明 |
---|---|
age | 年齢 |
sex | 性別 |
bmi | BMI |
map | 平均動脈圧(平均血圧) |
tc | 総コレステロール(mg / dL)?望ましい範囲:200 mg / dL以下 |
ldl | 低密度リポタンパク質(「悪い」コレステロール)?望ましい範囲:130 mg / dL以下 |
hdl | 高密度リポタンパク質(「善玉」コレステロール)?望ましい範囲:40 mg / dL以上 |
tch | 血清測定 |
ltg | 血清測定 |
glu | 血清測定(グルコース?) |
y | 基準から1年後の疾患進行の定量的尺度 |
血清測定となっていますが、原文ではserum measurement。血清検査の測定項目を指していると思われます。
血液を凝固させて、遠心分離することで血清を用いて検査するようです。
seabornを使ってデータの相関を見てみます。
糖尿病なんだから、グルコースでしょと思ったんですが、一番相関図が強いのがBMI。
その次に、ltg、血圧、tchとなっています。
肥満と高血圧は、やはり糖尿病の進行に繋がると考えられます。
メタボなんて言葉が流行ったのも、肥満がこうした病気を引き起こし、国民の医療費負担に繋がるからということですね。
逆に相関がマイナスとなるのは善玉コレステロール。これは逆に糖尿病の進行を防ぐようです。
※このデータを見た場合の話です。