2018-05-01から1ヶ月間の記事一覧

【Python】キーブレイク処理

webページのアクセス解析を実施する際に、 ページ遷移のパターンを分析することがあると思います。 その際に使える前処理としてキーブレイクというテクニックがあります! 利用シーン 同一ページの遷移を取り除き、ユーザーが1セッション中に どのようなペー…

【Python】日付の計算

バッチ処理を行う際には、今日から○日前や△ヶ月前などを python内で動的に計算してから処理したいケースがあります。 そういった場合、どのようにして日付の計算をPythonで実行するのか、 これからみていきましょう。 まずは今日の日付の取得から import dat…

【Hive】array型(配列)へ変換

Hiveを使って、ある値をキーにして配列を作成したいときには、 以下の2つの方法があります。 COLLECT_LIST COLLECT_SET COLLECT_LIST COLLECT_LISTは、ある値をキーとして配列を作成します。 早速例を見ていきましょう。 このようなテーブルがあったとします…

【Python】ワードクラウドでギレン閣下の演説を可視化

Pythonを使ってワードクラウドを描画 ギレン閣下の演説を形態素解析 ワードクラウドってかっこいいな〜と思い、 ギレン閣下の演説を形態素解析して描画してみました。 ネタ元 ここのサイトから演説内容を拝借しました。 利用したのはギレン総帥の演説①です。…

PythonでHML分析

HML分析とは? 代表的な例としては、アクセスログ解析をする際に、 ヘビーユーザー・ミドルユーザー・ライトユーザーの3つのグループに分けることがある。 それぞれの頭文字をとってH(ヘビー)M(ミドル)L(ライト)分析と言う。 例えば、ユーザーのPV数…

【Python】tqdmでfor文の進捗を確認

for文の進捗を確認 Pythonでfor文を実行しているときに、 「今どこらへんまで進んでるかな〜?」と思うことはないでしょうか。 数値を出力して進捗確認 進捗状況を確認するひとつの方法として、 実行スクリプトの中にprintで番号を出力する方法があります。 …