Kaggle初心者です。
Kaggleのカーネルで勉強しようと思います。
Comprehensive data exploration with Python | Kaggle
概要
邦題をつけるなら何だろう、COMPREHENSIVEというのは、広範囲なとか、総合的という意味があるのですが、今風に言えば、「Pythonで行うデータ調査方法まとめ」みたいな感じ?
データ分析において、データについて知ることはもっとも難しい、とまで言わないけど、時間がかかるので、初歩的なことを飛ばしてしまう。
回帰分析とか深層学習というアルゴリズムが注目されているため、データ自体について深く目を向ける前にアルゴリズムに突っ込んでしまいますよね。
私もそうでした。
ここではそうしたデータについて知る指針が紹介されています。
なかなか、タメになる記事ですので、一通り、ソースを動かしてみるのをおすすめします。
Can you speak English ?
記事は、英語です。
私は、英語が苦手なのですが、あえて英語を読もうと。
Google翻訳でもいいのですが、これ以上レベルアップするには英語を読めるようになる必要があるかなと。
Macの右クリック検索機能で単語を調べながら進めることにしました。
ヒートマップをクリスタルボールと称したり、これぞアメリカンジョークを交えてくるのですが、真面目に翻訳して読んでいると戸惑います。
英語で読み下しながら、地味に写経していきました。ボリュームも結構ありますが、英語ということもあり、数日かかりました。
こうなったら、俺が翻訳してやると思ったのですが、一生かかりそうだったので諦めました。
自分なりのまとめ
- 目標変数との各説明変数の関連を見ろ
- 説明変数同士の関連性も見る。同じような変数もある
- 15%以上欠損している項目は削除を検討する
- 値の等分散性を実現するのによく使われる手段としてlog変換がある
なぜ、日本人は英語が話せなくて済むのだろう
余談です。
英語について検索すると、日本人はなぜ英語が話せないのかという類の記事がいくつも見つかります。
理由は日本語と英語では使われる音が違うからとか、言語体系がどうのと説明されています。
それでも使わざるを得ないという状況になったら、使えるものだとも言われます。
よって、日本人は英語を話せなくて済む、と。逆にそれは幸せなことなのかなと思ったりもしました。
戦争に負けて、GHQの占領下の時代もありましたし。
プログラミングでいろんな言語をやると面倒ですし。