完全初心者からデータサイエンスを学びたいけど、何をどの順番で勉強したら良いんだろう…
そんな悩みを抱えていませんか?
データサイエンスに興味はあるけど、書籍や講座がたくさんあるし、何から手をつければ良いか分からないですよね!
そこで本記事では「データサイエンスの独学勉強ロードマップ」を紹介していきます。
実はデータサイエンスを勉強する9割以上の人が、間違った方法で勉強しています。
この記事を読めば、正しい学習手順が分かり、着実にデータサイエンスの基礎を身につけることができます。
実際にこの通りに学習を進めた僕の生徒さんは、
- 2ヶ月でKaggleに入門
- 3ヶ月でKaggleコンペに参加
- 5ヶ月でKaggleコンペ銅メダル獲得
と、驚異のスピードでデータサイエンスを習得しています。
もし最短でデータサイエンスを習得したいと思っている人は、ぜひ本記事を参考にしてみてください。
YouTubeでも解説しました!
動画で確認したい人は、ぜひ以下をご覧ください!
前提:データサイエンスの独学勉強ロードマップで目指す目標
まずはこのロードマップで目指す目標を確認しておきましょう。
Kaggleコンペ(Featured)で分析を進められる状態になること
上記が本ロードマップの最終ゴールになります。
なぜKaggleが最終ゴールなのか
それは個人学習の範囲で最も実務に近い形であり、アウトプットが成果物として残るからです。
例えばあなたが人事担当者だとして、「機械学習を勉強しています!」という応募者がきたら、どんな印象を持ちますか?
おそらく
機械学習を勉強したことは分かったんだけど、果たして入社後に活躍できる人材なんだろうか?
って思いますよね。
つまり「勉強している」とかって、定性的で測定不可能なんです。
そもそも企業側はデータサイエンスを勉強をして欲しいわけではありません!
自社の課題を解決して、売上を上げるかコストを下げるかして利益を上げられるのか?
そこが大事なんですね。データサイエンスっていうのは、あくまでも課題解決のための手段です。
だから「勉強している」とかフワッとしたアピールじゃなくて、
入社後に活躍できるかどうかを納得してもらうための成果物が欲しい。
そうすると個人学習の範囲で成果物を作るなら、Kaggleにチャレンジするのがベストなんですね。
それにDeNAやRistなど、業務時間を使ってでもKaggleに参加することを推奨する企業があるくらいです。
- KaggleのGrandmasterが4人も! 優秀な人材が集まる謎の企業「Rist」って!? (1) | TECH+(テックプラス)
- Kaggleで大活躍するDeNAの社内制度とは | DeNA×AI
というわけで、これからデータサイエンスを勉強するのであれば、まずはKaggleに着手できるレベルになりましょう。
どうすればKaggle(最終ゴール)に到達できるのか
このロードマップで紹介していきます。
いまデータサイエンスを勉強中の人も、いったん自分の学習を見なおしみてください。
「コツコツ継続が大事」と言って、基礎学習に逃げることを自己正当化していませんか?
正直、昔の僕も基礎ばかり繰り返していたので気持ちは分かります。
でも「AはBである」みたいな基礎は、もうChatGPTが答えてくれる時代です。
基礎学習は最低限にして、さっさと実践に移りましょう。
やってはいけないデータサイエンス学習法
他にもやってはいけないデータサイエンス学習法を、以下の動画で解説しています。
ちゃんとデータサイエンスを習得したい人は、必ず視聴するようにしてください。
手順①:パソコンを用意する
この記事は完全初心者向けなので、データサイエンスを学ぶ上で必要になるパソコンから紹介します。
結論から言うと、いま持っているパソコンで十分です。
「え、AIとかデータサイエンスをやるならスペックが高くないとダメなんじゃないの?」
そう思われるかもしれないんですけど、普通のパソコンで十分です。
もしお金に余裕があるならMacbook Airをおすすめします。
※楽天Rebatesを使うと、Apple製品の購入で楽天ポイントが1%つきます。
おすすめ理由は以下のとおりです。
- 環境構築がラク
- 十分なスペック
- そのままLinuxコマンドを使える(Windowsも使えるけど別途設定がいる)
- シンプルに見た目がカッコ良い
特に大事なのが、環境構築がラクなことです。
Windowsを使ってPythonを始めると、だいたい9割くらいの人は環境構築で躓きます。
そしてそのまま挫折していきます。
僕も大学時代に挫折した1人です!
「そういうエラーを乗り越えてこそ一人前だ」みたいな意見もわかるんですけど、僕はまずスタートしないと意味ないと思ってます。
なので無駄な挫折をしないためにもMacを使うことをおすすめします。
ちなみにMacbook Proである必要もありません。最近のMacbook Airはめちゃくちゃ高性能で、動画編集とかも余裕でできます。
とはいえ「Macbookは高いしな…」って人もいると思うので、そういう人は以下のスペックのWindowsを探してみてください。
- CPU:Intel Core i7 / AMD Ryzen7
- メモリ:16GB
- ストレージ:256GB SSD(128GB SSDでもOK)
もっと安く済ませたいなら、メモリを8GBにしても良いです。
あとで紹介しますが、データ分析・データサイエンスであれば、ブラウザでPythonを実行できる便利なツールがあります。
この辺りは予算に合わせて決めてみてください。
繰り返しですが、お金に余裕があるならMacbook Air(M2)をおすすめします。
手順②:Pythonの基礎を勉強する
次にPythonの基礎を勉強しましょう。データサイエンスをやるなら、Pythonが最もスタンダードです。
Pythonの基礎学習は、Progate(有料)か僕のYouTube(無料)の好きな方を使ってください。
Pythonの基礎:Progate(有料)
Progate(プロゲート)は、ブラウザ1つでプログラミングを学べる人気のサービスです。
プログラミング学習で最も挫折しやすいのは”環境構築”ですが、Progateならブラウザ1つで練習できるから環境構築がいりません。
Progateを使ってPythonを勉強するなら、学習期間は1週間、長くても2週間が目安です!
Pythonは全5コースあるので、これを学習期間のうちに2周しましょう。
このとき1回で完璧にしようとせず、回数を重ねて反復学習するようにしてください。
詳しい学習方法は、こちらの動画でも話しています。
あとPythonの学習は1〜2週間で終える予定ですが、料金は1ヶ月ぶん払っているので、あと2週間の猶予があります。
残りの2週間でSQL、コマンドライン、Gitを勉強しておいてください。
これについても動画内で話しているので、空き時間に聞いてみてください!
Pythonの基礎:YouTube(無料)
もし無料でPythonを勉強したいなら、僕のPython入門を受講してみてください。
YouTubeにアップしてる動画なので無料で視聴できます。
あと僕のPython入門だと、他のYouTube動画やProgateより深掘りしている部分が多いです。
たとえば”lambda式”は多くの基礎教材に載っていません。でもデータサイエンスに入門してデータを操作するとき、必須のPython文法になります。
また、学習で使っているJupyter形式のGoogle Colaboratoryは、データサイエンスを学ぶうえでよく使います。(東京大学の学生とかも使っています。)
なので可能であれば、僕のYouTubeチャンネルを使って頂けると良いかなと思います。
Google Colaboratoryの取り扱いに慣れる
そしてPython入門で使っているGoogle Colaboratoryの取り扱いにも慣れていきましょう。
Google CoraboratoryはブラウザだけでPythonを操作できてしまう便利なツールです。
Pythonを練習したいと思ったら、本来は自分のパソコンにPythonをインストールしないといけません。
でもこのインストール方法が、WindowsかMacによって異なるし、やり方も複数あって初心者には難しいんです。
それで挫折してきた人を何人も知っているので、まずは簡単に始められるGoogle Colaboratoryを使っていきましょう。
あと最近の書籍は、WindowsとMacで操作方法が変わらないように、ブラウザ完結できるGoogle Colaboratoryを使って解説されていることが多いです。
これからデータサイエンスを学ぶ上でも普通に使えるツールなので、今のうちに取り扱いに慣れておいてください!
便利なショートカット17選を含むGoogle Colaboratoryの使い方は以下の動画で紹介しています。
先にこれを見て、不自由なくPythonを学べるようにしておきましょう。
手順③:データサイエンスの全体像を把握する
次にデータサイエンスの全体像を把握します。正直このステップがめちゃくちゃ重要です。
全体像を把握するのが重要な理由
なぜかというと、全体像を把握しないでデータサイエンスを勉強し始めると、
何から勉強しようかな〜
あ!このおすすめされてる本を勉強しよう!
終わったらこのおすすめされてるUdemyを勉強しよう!
みたいに、いま必要ない勉強ばかりばかりしてしまうからです。
実際いつまでも統計学を基礎を勉強したり、機械学習モデルについて1つ1つ学んでいたりしてる人が大量に発生しています。
確かに基礎は大事なんですけど、まずは全体像をおさえて、どこでどんな知識が使われるのかするのか把握することが重要です。
そのあとで基礎学習と実践学習(いわゆるアウトプット)を並行でやっていきます。
そうじゃないと「いま勉強したことってどこで使われるんだろう?」って状態に陥ってしまうんです。
もうこれ腐るほど見てきました。。。
ちなみにこの勉強方法は、僕だけでなく、東大卒・難関資格を複数保有する河野さんも言っています。
データサイエンスの全体像:YouTube
なんとデータ分析・データサイエンスの全体像もYouTubeで学習できます。
自分で言うのもなんですが、本当に良い教材だと思っています。
まずはこの動画を見ながら、どこで何が登場するのか把握しましょう。
データサイエンティストについて:AI・データ分析プロジェクトのすべて
パソコンを開いてコードは書けないときは、「AI・データ分析プロジェクトのすべて」を読みましょう。
本のタイトル通り、データ分析プロジェクトがどのように進んでいくのか把握できる1冊になっています。
この本を読んで、データ分析やデータサイエンス系の職業に対する解像度をあげておきましょう。
機械学習について:G検定の本
機械学習で登場する用語をおさえるなら、G検定の本がおすすめです。
G検定とは、日本ディープラーニング協会が開催しているAIの資格試験になります。
ただ、資格試験を受験する必要はないですし、書籍の内容を端から端まで暗記しなければいけないってわけでもないです。
「機械学習の歴史とか手法って、こんな感じなんだな〜」と学べればOKなので、あんまり神経質にならないで読み進めていきましょう。
早ければ1日くらいで読了できるかと思います。
手順④:データサイエンスの基礎を学習する
続いてデータサイエンスの基礎を学習しましょう。
ここでいうデータサイエンスの基礎とは、Kaggleで必要になる以下の3つです。
- データ分析ライブラリ
- 統計学
- 機械学習
現実問題でデータサイエンスを活用するなら「ビジネス力」も必要になります!
でも個人学習でビジネス力を身につけるのは不可能です。
だからさっさと本ロードマップでKaggleに入門し、データ分析・データサイエンスのプロジェクトに参加できるようになりましょう。
データサイエンスの基礎:東大データサイエンティスト育成講座
それで先ほど紹介した、以下3つをすべて勉強するのは大変だな〜って思いますよね。
- データ分析ライブラリ
- 統計学
- 機械学習
実際どれも深掘りしようと思えば、それぞれ数年以上は時間を使えます…
でも初心者のうちからそんなことをしていたら、いつまで経っても現場に立てません。
そこで「東京大学のデータサイエンティスト育成講座」を使って、最低限必要になるデータサイエンスの基礎だけを学習していきましょう。
データサイエンスのアウトプット:100本ノック
でもそれだけじゃなくて、あわせて「Python 実践データ分析 100本ノック」も使ってアウトプットしていきましょう。
東大テキストでインプットする、そして100本ノックでアウトプットする。
データサイエンスの基礎学習は、一旦これだけで十分です。
もう完璧にしようとか思わないで、本当にこれだけやってください!
手順⑤:Kaggleに入門する
ここまできたら、いよいよKaggleに入門していきます。
とはいえ、このロードマップを使って学習を進めていれば、すでに僕のYouTubeでKaggleに入門できてしまっています!笑
なので手順⑤では、もう少し深掘りした内容を学習していきます。
Kaggleの取り組み方を学ぶ
まずは「Kaggleで磨く 機械学習の実践力–実務xコンペが鍛えたプロの手順」でKaggleの取り組み方を学びましょう。
(こちらは2022年に発売された書籍なので、2019年に僕が書いたロードマップには載っていませんでした。)
6章まではタイタニックが題材になっているので着手しやすいと思います。
過去に開催されたコンペ or 初心者向きコンペに挑戦する
Kaggleの取り組み方を把握したら、実際に自分で手を動かして挑戦してみましょう。
やはり「知っている」と「できる」には大きな差があります。
知っているだけならChatGPTで代替できてしまうので、ちゃんとできるようになりましょう。そしてChatGPTを使いこなせる側になりましょう。
着手するコンペは過去に開催されたものか、初心者向きのもの(Get Started)が良いと思います。
いずれにしてもテーブルデータ(Excelの表みたいな形式のデータ)を選ぶようにしてください。
手順⑥:Kaggleコンペに挑戦する
ここまで着手すると、分析にも慣れてくるはずです。
そしたらいよいよKaggleコンペに挑戦していきましょう。
テーブルデータのコンペに参加する
もしテーブルデータのコンペが開催されたら、ぜひ参加してみてください。
Kaggleで開催されていなければ、SIGNATEでも大丈夫です。
Kaggleのほうが母数が多く、学びになることも多いですが、SIGNATEは日本語だから初心者でも着手しやすいというメリットがあります。
どちらか好きな方でコンペに参加してみましょう。
分析のお供に:Kaggleで勝つ
KaggleやSIGNATEに挑戦するようになったら、ぜひ「Kaggleで勝つデータ分析の技術」も購入しておきましょう。
分析アプローチ、前処理、特徴量エンジニアリング、モデルチューニングなどなど、KaggleやSIGNATEなどのコンペに参加する上で役に立つ示唆がたくさん盛り込まれています。
というかコンペだけでなく、実務でも十分に役立ちます!
僕は2019年の発売以来、ずっと愛用している書籍です。片手にパソコン、もう片手にKaggleで勝つでいきましょう。
手順⑦:転職活動する
KaggleやSIGNATEでいくつかコンペに参加したら、もう転職活動して良いと思います。
メダルを獲得しようがしまいが、コンペに参加する上でなぜその分析をおこなったのか。
他にも意識したことなどをコードと一緒にまとめておいて、成果物として持っておきましょう。
データサイエンスを勉強する上でよくある質問
最後によくある質問に回答します!
取得した方が良い資格は?
資格系であれば統計検定2級とKaggleが良いです。
ですが最も転職で活きる実績は、実務でデータに触れた経験になります。
この辺りの話は、以下の動画でも解説しています。
転職を考えているなら、必ず視聴するようにしてください!
どれくらい勉強すればKaggleに挑戦できますか?
挑戦してみて、着手できたら良いのではないでしょうか。
この手の質問はとても多いですが、定量的な目安とかないし、やって損することはないので挑戦してみれば良いと思います。
どれくらいスキルを身につければ転職できますか?
各々のバックグラウンド、転職時期、年齢、同業界での転職か否かなど、変数が多いので「定量的にこれくらい」とか言い切るのは難しいです。
ですのでデータ分析の実務経験がある人に相談するのがベストだと思います。
僕も通過率20-30%の審査制ですが、個別の相談会をやっています。
学習期間はどれくらいですか?
Kaggleに入門(手順⑤)までを最短で2ヶ月、遅い人だと1.5年とかだと思います。
だいたい2ヶ月で初心者向きコンペを使って上位10%前後までいけると素晴らしいです。
未経験からでも大丈夫ですか?
大丈夫ですが、集中しないといけないです。
片手間でどうにかしようみたいなマインドだと厳しいと思います。
独学は難しいですか?
どちらかといえば難しいです。
でも大学受験のとき予備校を使わず、独学で志望校に現役合格できた人なら大丈夫だと思います。
あとは最近だとデータサイエンス学部を設立する大学が増えており、若くて優秀な人材がどんどん増えています!
そういう人たちと戦うフェーズになったら、それなりのバリューを発揮できないと転職は難しいです。
だからスクールを使って最短最速を目指すのも手かなと思います。(僕ならそうします)
最短でデータサイエンスを習得するには?
Pythonの基礎レベルから5ヶ月でKaggle銅メダルを獲得された受講生の話が参考になると思います!
他の受講生にも5ヶ月でKaggleコンペ銅メダル&Discussion金メダルを獲得した学習方法について聞きました!
本当にロードマップの内容だけで足りるの?
そういう意味だと、統計学も微分積分も線形代数も、ディープラーニングもSQLも全部あった方が良いに決まっています。
でも未経験から転職を目指すレベルなら一旦このロードマップの内容で大丈夫です。
なぜなら、いくら知識武装したところで未経験は未経験だからです。
合格点が60点だとしたら、すでにロードマップで65-70点になっています。だからそれ以上の学習をするってことは、80点、90点を目指すアプローチです。
そうではなく、まずは65-70点の状態で現場に潜り込むの優先です。
そして現場で必要になったら深掘りすれば良いと思います!
僕は大学で数学を4年間勉強したけど、それでも代数学とか幾何学に関しては詳しくないです。(というか苦手です。)
現実的に考えて全てを追い求めるのは不可能なので、完璧を目指すのはやめた方が良いと思います。
いきなりフリーランスになれますか?
無理です。ちゃんと実務経験を積んでください。
大手スクールだと大丈夫だと言われるらしいですが、僕の経験上は実務経験がないと不可能です。
まとめ:今日からデータサイエンスの勉強を始めよう!
というわけでPython×データサイエンスの学習ロードマップを紹介してきました。
おそらくここまで読んでも、実際に行動する人は100人いたら1人だけだと思います。
多くの人は情報収集ばかりして、行動には移さないんです。
だから今日から行動すれば、どんどん周りの人と差をつけることができます。
「3〜5年経って気づいたら職を失っていた…」
そんな状況にならないように、今日からデータサイエンスの勉強を始めましょう!
まずは以下の入門動画からスタートしてみてください!