決定木を描いてみた(失敗作)

某有名データサイエンティストが集まる、サイトからデータを引っ張ってきて

隙間時間にデータをいじってみた。

 

その際の備忘録として記録する。

 

データ:飛行機の事故に関して

いかにして事故が発生するのか決定木で描けないものかと思い、

「Rによるデータサイエンス」(金さん著)に習ってプログラミング。

 

第1の壁:mvpartが使えない!?

決定木を実施する際に活用するパッケージの"mvpart”だが、

いくらインストールしようとしても見つからず・・・

 

どうやらrpartでも問題なく決定木が描けるようなので、

今回はそちらのパッケージを活用することに。

 

data<-read.delim("3-Airplane_Crashes_Since_1908.txt",header=T,sep=",")

 

まずはデータの読み込み。

今回はテキストデータであったため、read.delimを使って読み込ませる。

最初にsep=","を忘れていたので今後はタブ区切りのデータを読み込む際には

忘れないようにしなければ。

 

library(rpart)
fatalities.rp<-rpart(Fatalities~.,data=data)#決定木の作成

 

すでにインストールしておいたrpartパッケージを使い、

決定木の作成に入る。

 

print(fatalities.rp,digit=1)
plot(fatalities.rp,uniform = T,branch=0.6,margin=0.05)#決定木の記述
text(fatalities.rp,use.n=T,all=T)#変数の追加

 

2行目、3行目に関しては金さんお著書通りに記載したので

最適なコマンドではなかったかもしれない。

 

その証拠に、テキストラベルが多すぎて

 

決定木の分かれ目が大変なことになっている。

f:id:gotto50105010:20160829234206p:plain

次回以降はここら辺をケースに応じてカスタマイズしていこうと思う。