より良いエンジニアを目指して

1日1つ。良くなる!上手くなる!

Kaggleのカーネルで学ぶデータ分析「ポケモン、データだぜ!」

kaggle その2 Advent Calendar 2018 - Qiitaの22日目です。

Kaggleのカーネルを投票順で眺めていると、良いカーネルがあったので紹介します。

Data ScienceTutorial for Beginners | Kaggle

私は日本人ですし、日本が好きなので、初心者向けのチュートリアルだったら、当然、日本語で書かれた記事を勧めます。

なのに、この記事を紹介するのは、

ポケモンのデータを使ったデータ分析だからです。

タイトルはData Science Tutorial For Beginners。

初心者向けのデータ分析チュートリアルと、いかにもなタイトルなのですが、私が邦題をつけるならば

ポケモン、データだぜ!

でしょう。

概要

下記のデータセットを使っており、ポケモンのパラメータと対戦した結果から、テストデータの結果を予測しようというデータセットです。

www.kaggle.com

実際の予測までは行っておらず、内容としてはこのデータセットを使って、matplotlibで散布図を出してみるといったことを行うカーネルです。

f:id:rimever:20181222164402p:plain

ぼうぎょが200を超えるデータを抽出するとか、ポケモンが好きな人としては気になることを確認したりします。

関数宣言のような基本的なPythonの構文についても学べます。

Kaggleの記事「COMPREHENSIVE DATA EXPLORATION WITH PYTHON」にて機械学習について学ぶ - Better Engineer Life

上記の時は、頑張って翻訳してましたが、このカーネルについては、そこまで英語力は必要に感じませんし、書いてあるコードを動かしているだけでも勉強になります。

ポケモン英語名

記事は本物を見ていただくとして、ポケモン名が英語です。

英名 日本語名
Bulbasaur フシギダネ
Ivysaur フシギソウ
Venusaur フシギバナ
Mega Venusaur メガフシギバナ
Charmander ヒトカゲ
Charmeleon リザード
Charizard リザードン
Mega Charizard X メガリザードンX
Mega Charizard Y メガリザードンY
Squirtle ゼニガメ

全然わかりませんね。多すぎるので下記を参照してください。

ポケモンの外国語名一覧 - ポケモンWiki

そもそも知らないポケモンがいっぱい。

私、ポケモン赤と緑しかやったことないので、メガリザードンってXとYがいるのか、と。

言葉遊びみたいな名前だから、その語感を現地の人でもわかるように直したんでしょうけど、フシギダネヒトカゲというポケモン名は世界共通の言葉であって欲しかったです。

私の推しポケモンラプラスは、Laprasとそのままでした。

ちなみにステータスの対訳は以下になります。

英名 日本語名
Name 名前
Type 1 タイプ1
Type 2 タイプ2
HP HP
Attack こうげき
Defense ぼうぎょ
Sp. Atk とくこう
Sp. Def とくぼう
Speed すばやさ
Generation 世代
Legendary 伝説ポケモンであるか

最後に

Kaggleは英語ですし、コンペで競い合う=凄腕の機械学習エンジニアが使うサービスというイメージがあります。

カーネルではこうした基本的なデータ分析のカーネルや自力では入手に一苦労データセットも公開されています。

データ分析に興味のある方には、Kaggleは是非活用して欲しいサービスです。