より良いエンジニアを目指して

1日1つ。良くなる!上手くなる!

scikit-learnのデータセットで糖尿病について知る

scikit-learnにはいくつかデータセットが用意されています。

ボストンの住宅価格とアヤメ、数字の手書きデータは頻出するのですが、糖尿病患者のデータセットなんてのもあります。

yolo.love

医療ITの人間だったら、これは一度は触れておくべきだなということで触ってみることにしました。

f:id:rimever:20181224202519p:plain

えっと、これでは何がなんだか、さっぱり、よく、わかりませんよ。

データは標準化されています。

オリジナルデータはhttps://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txtにあります。

正規化された方が機械学習はしやすいのでしょうが、データの中身に私は関心があったのでオリジナルデータをダウンロードすることにしました。

値について

値の詳細も気になりますね。Blood and other measurements in diabetics — diabetes • mplotに情報がありました。

項目名 説明
age 年齢
sex 性別
bmi BMI
map 平均動脈圧(平均血圧
tc コレステロール(mg / dL)?望ましい範囲:200 mg / dL以下
ldl 低密度リポタンパク質(「悪い」コレステロール)?望ましい範囲:130 mg / dL以下
hdl 高密度リポタンパク質(「善玉」コレステロール)?望ましい範囲:40 mg / dL以上
tch 血清測定
ltg 血清測定
glu 血清測定(グルコース?)
y 基準から1年後の疾患進行の定量的尺度

血清測定となっていますが、原文ではserum measurement。血清検査の測定項目を指していると思われます。

血液を凝固させて、遠心分離することで血清を用いて検査するようです。

f:id:rimever:20181225072106p:plain
describe()

seabornを使ってデータの相関を見てみます。

f:id:rimever:20181224213130p:plain

糖尿病なんだから、グルコースでしょと思ったんですが、一番相関図が強いのがBMI

その次に、ltg、血圧、tchとなっています。

肥満と高血圧は、やはり糖尿病の進行に繋がると考えられます。

メタボなんて言葉が流行ったのも、肥満がこうした病気を引き起こし、国民の医療費負担に繋がるからということですね。

逆に相関がマイナスとなるのは善玉コレステロール。これは逆に糖尿病の進行を防ぐようです。

※このデータを見た場合の話です。