Rには標準データセットがあります。
esoph(食道がん)を始めとするインドメタシンの薬物動態といった医療系もありますし、航空客やインターネット利用数のような時系列データなど多岐に渡ります。
これをPythonから使うことができます。それがrpy2というライブラリです。
rpy2のインストール
python で R のデータセットを使いたい - Qiita
こちらの記事を参考にさせていただきました。
ただし、前提条件としてRが必要です。
RのインストールはMacならば、Homebrewで可能です。
brew install r
慣れると便利ですね。Homebrew経由のインストール。
あとはpipからインストールしました。
pip install rpy2
pip install tzlocal
私の場合はtzlocalのインストールも今回必要でした。
食道がんのデータ
- agegp 年齢グループ
- alcgp アルコールのグループ
- tobgp タバコのグループ
- ncases 食道がんの症例数
- ncontrols 調査対象としたケース
ncases / ncontrolsで割った値を発症率として相関図を見てみます。
食道がんに関しては、タバコより飲み過ぎの方が危険度は高いようです。
私は、危ないですね。
アルコール摂取量が120gを上回ると急激に発症率が跳ね上がってます。
ビール500ml、日本酒1合でアルコール20gとされます。
先日、3連休前だからと調子に乗ってビールを8杯ほど飲んだので8*20=160。120オーバー・・・。
適正飲酒のすすめ | 知っておこう!上手な飲み方、付き合い方 | サッポロビール
と言っても、さすがに毎日そこまで飲んではいませんが。