未経験からデータサイエンティストになる方法

今、世間を賑わせている人工知能機械学習
それらを駆使し、データを武器としてビジネスを展開する
データサイエンティストになる方法をご紹介させていただければと思います。

データサイエンティストになる方法

まずはじめに、データサイエンティストに必要な資格はありません
例えば、医者や弁護士のように資格が必要となる職業もありますが、
データサイエンティストは、自分で名乗った時点で誰でもなれます。

統計学や数学、プログラミングなど様々なスキルを求められるデータサイエンティストではありますが、意外にも必要な資格は存在していません。

それでは、その人をデータサイエンティストたらしめるのは、一体何でしょうか。

答えは簡単です。

アウトプット

その人がデータサイエンティストか否かは、
その人のアウトプットで決まるのです。

つまり、データサイエンティストは資格ではなくアウトプットで決まるのです。

さて、ここで新たな疑問が発生します。
アウトプットで決まると言っても、一体何をすればよいのか?

急に機械学習やプログラミンを使ってデータを触ることは、
そんな簡単にできることではありません。

ただ、ここで思い出してほしいのがデータサイエンティストは、
データを使ってビジネス
をしています。

データサイエンティスト駆け出し

今日からあなたができることは、
日常の業務の中でデータを使って仕事をやってみることです。

例えば、営業の方であれば、これまで受注失注した案件とクライアントの特徴を
データから分析し、受注しやすいクライアントの傾向を明らかにしてみる。

webサイトの構築をしている人は、Google analyticsのデータを分析して、
どこでユーザーが離脱しているのか、何時頃に来訪者は多いのかなど
データから分析し、サイトの変更を行う事もできます。

PythonSQLを利用しなくても、機械学習統計学を利用しなくても構いません。
まずは、データを用いてエクセルでも構わないので、分析してみることから始めましょう。

それがデータを用いてビジネスを行う最初の一歩です。

データサイエンティストに求められるスキル

これまでの内容で、日常の業務にデータを用いるとご説明しました。
それでは次のステップです。

まずはじめに、データサイエンティストに求められるスキルとは、
一体どんなものか具体的に知っていますか?

f:id:gotto50105010:20190112115408p:plain

この図で示したように、データサイエンティストに求めるスキルは、

大きく分類すると、この3つが求められます。

この3つが必要と言われても、一体何をすればよいのかイメージするのは難しいと思います。

その際には、データサイエンティストがどのような仕事をしているのか、
事例や分析方法を用いて説明してくれている以下の本を読んでみるのが良いと思います。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 登竜門編 (Software Design plus)

データサイエンティスト養成読本 登竜門編 (Software Design plus)

こちらの本には、有名なデータサイエンティストやデータ分析に力を入れている企業の取り組みが記載されており、これから目指す方にとっては参考になる情報がたくさん掲載されてます。

分析を始める

ざっくりと、データサイエンティストの仕事を理解したところで、
実際に手を動かし始めましょう!

先程は、エクセルでも何でも良いのでデータを分析しましょうとお伝えしました。
しかし、データサイエンティストが扱うデータは、何十万、何百万件のデータです。

到底エクセルでは対処できないので、SQLPython、Rといった
プログラミングを行ってデータを処理する必要があります。

こちらでは、それぞれの使い方などを説明をしませんが、
多くの方はデータベースに蓄積されたデータをSQLを用いて
集計することから始めるのではないでしょうか。

そういった際には、こちらのSQLの参考書が大変参考になります。
データベースやSQLの文法に関して簡潔に解説が掲載されており、
またドリル形式で問題を解きながら学習を進めることができます。

スッキリわかるSQL入門 第2版 ドリル222問付き! (スッキリシリーズ)

スッキリわかるSQL入門 第2版 ドリル222問付き! (スッキリシリーズ)

実際に、SQLでデータベースからデータを取得し、
PythonやRを用いてデータの可視化を行うことができれば
かなりデータサイエンティストに近づいております。

ただ、ここで次の壁が現れてきました。

前処理の壁

データを分析する上で、切っても切れないもの。
それは前処理です。

世の中に存在するデータは、必ずしもデータ分析用に用意されたデータではありません。
ましてや、きれいな形で格納されているデータも非常に少ないです。

最もデータサイエンティストが頭を悩ませている点として、
データをどのように整理し、データ分析用に加工するかです。

前処理に関しては、データ形式などによって様々なテクニックがあるのですが、
それぞれをご紹介していると切りがありません。

ただ、世の中には便利な本が出版されており、
前処理の内容とプログラミングで処理する方法を解説した本があります。

こちらの内容をすべて暗記しておく必要はありませんが、
データサイエンティストの場合は、1冊持っていても損は無いと思います。

特にこれからデータサイエンティストを目指すような方の場合、
前処理という壁は必ずやってくるので、こちらの本に目を通しておくと
後ほど非常に役に立つ知見が得られるかもしれません。

更にステップアップ

さて、長々とご説明してまいりましたがいかがでしたでしょうか。
データサイエンティストとして必要なスキルや取り組みは、
今回の内容では、まだまだ不足しております。

プログラミングやビジネス面に関しても、
今後記載させていただきます。

データサイエンティストを目指す方は、まず今回の内容を取り組んでいただければと思います。

追記

エンジニア編を新たに作成しました。

gotto50105010.hatenablog.com