より良いエンジニアを目指して

1日1つ。良くなる!上手くなる!

PythonからRの食道がんデータセットを試してみる

Rには標準データセットがあります。

R言語 サンプルデータ一覧 | トライフィールズ

esoph(食道がん)を始めとするインドメタシンの薬物動態といった医療系もありますし、航空客やインターネット利用数のような時系列データなど多岐に渡ります。

これをPythonから使うことができます。それがrpy2というライブラリです。

rpy2のインストール

python で R のデータセットを使いたい - Qiita

こちらの記事を参考にさせていただきました。

ただし、前提条件としてRが必要です。

RのインストールはMacならば、Homebrewで可能です。

brew install r

慣れると便利ですね。Homebrew経由のインストール。

あとはpipからインストールしました。

pip install rpy2

pip install tzlocal

私の場合はtzlocalのインストールも今回必要でした。

食道がんのデータ

stat.ethz.ch

  • agegp 年齢グループ
  • alcgp アルコールのグループ
  • tobgp タバコのグループ
  • ncases 食道がんの症例数
  • ncontrols 調査対象としたケース

ncases / ncontrolsで割った値を発症率として相関図を見てみます。

f:id:rimever:20190209163634p:plain

食道がんに関しては、タバコより飲み過ぎの方が危険度は高いようです。

私は、危ないですね。

アルコール摂取量が120gを上回ると急激に発症率が跳ね上がってます。

ビール500ml、日本酒1合でアルコール20gとされます。

先日、3連休前だからと調子に乗ってビールを8杯ほど飲んだので8*20=160。120オーバー・・・。

適正飲酒のすすめ | 知っておこう!上手な飲み方、付き合い方 | サッポロビール

と言っても、さすがに毎日そこまで飲んではいませんが。