2018-01-01から1年間の記事一覧

【データサイエンティスト直伝】分析するうえで重要な3つのポイント

みなさんはじめまして! 私は都内でデータサイエンティストとして働いています。 日々、様々な業界やコンテンツを対象にデータ分析を行っています。 今回は、データサイエンティスト自らが思う データ分析の際に重要なポイント3つをご紹介したいと思います。…

【Python】特定の値でデータフレームを分割する

データフレームを扱う時に、ある値を参照して、 データフレームを分割したいなという時があると思います。 今回はPythonでデータフレームを分割する際の方法をお伝えします。 Pandasに関しては Pandasに関しては、こちらの書籍が非常に参考になります。 Pyth…

【Python】データ分析時に役立つCSV処理

Python(pandas)でCSVファイルを扱う データ分析を行う際に、CSV形式のデータを扱う事が多いと思います。 PythonでCSVを扱う際のちょっとしたテクニックをご紹介します。 ①CSVに出力されたデータをPython(3系)で読み込む ②Python内で生成されたデータフレーム…

【Python】キーブレイク処理

webページのアクセス解析を実施する際に、 ページ遷移のパターンを分析することがあると思います。 その際に使える前処理としてキーブレイクというテクニックがあります! 利用シーン 同一ページの遷移を取り除き、ユーザーが1セッション中に どのようなペー…

【Python】日付の計算

バッチ処理を行う際には、今日から○日前や△ヶ月前などを python内で動的に計算してから処理したいケースがあります。 そういった場合、どのようにして日付の計算をPythonで実行するのか、 これからみていきましょう。 まずは今日の日付の取得から import dat…

【Hive】array型(配列)へ変換

Hiveを使って、ある値をキーにして配列を作成したいときには、 以下の2つの方法があります。 COLLECT_LIST COLLECT_SET COLLECT_LIST COLLECT_LISTは、ある値をキーとして配列を作成します。 早速例を見ていきましょう。 このようなテーブルがあったとします…

【Python】ワードクラウドでギレン閣下の演説を可視化

Pythonを使ってワードクラウドを描画 ギレン閣下の演説を形態素解析 ワードクラウドってかっこいいな〜と思い、 ギレン閣下の演説を形態素解析して描画してみました。 ネタ元 ここのサイトから演説内容を拝借しました。 利用したのはギレン総帥の演説①です。…

PythonでHML分析

HML分析とは? 代表的な例としては、アクセスログ解析をする際に、 ヘビーユーザー・ミドルユーザー・ライトユーザーの3つのグループに分けることがある。 それぞれの頭文字をとってH(ヘビー)M(ミドル)L(ライト)分析と言う。 例えば、ユーザーのPV数…

【Python】tqdmでfor文の進捗を確認

for文の進捗を確認 Pythonでfor文を実行しているときに、 「今どこらへんまで進んでるかな〜?」と思うことはないでしょうか。 数値を出力して進捗確認 進捗状況を確認するひとつの方法として、 実行スクリプトの中にprintで番号を出力する方法があります。 …