決定木を描いてみた(失敗作)
某有名データサイエンティストが集まる、サイトからデータを引っ張ってきて
隙間時間にデータをいじってみた。
その際の備忘録として記録する。
データ:飛行機の事故に関して
いかにして事故が発生するのか決定木で描けないものかと思い、
「Rによるデータサイエンス」(金さん著)に習ってプログラミング。
第1の壁:mvpartが使えない!?
決定木を実施する際に活用するパッケージの"mvpart”だが、
いくらインストールしようとしても見つからず・・・
どうやらrpartでも問題なく決定木が描けるようなので、
今回はそちらのパッケージを活用することに。
data<-read.delim("3-Airplane_Crashes_Since_1908.txt",header=T,sep=",")
まずはデータの読み込み。
今回はテキストデータであったため、read.delimを使って読み込ませる。
最初にsep=","を忘れていたので今後はタブ区切りのデータを読み込む際には
忘れないようにしなければ。
library(rpart)
fatalities.rp<-rpart(Fatalities~.,data=data)#決定木の作成
すでにインストールしておいたrpartパッケージを使い、
決定木の作成に入る。
print(fatalities.rp,digit=1)
plot(fatalities.rp,uniform = T,branch=0.6,margin=0.05)#決定木の記述
text(fatalities.rp,use.n=T,all=T)#変数の追加
2行目、3行目に関しては金さんお著書通りに記載したので
最適なコマンドではなかったかもしれない。
その証拠に、テキストラベルが多すぎて
決定木の分かれ目が大変なことになっている。
次回以降はここら辺をケースに応じてカスタマイズしていこうと思う。