WEBスクレイピングの真似事

今回はWEBスクレイピングの手始めとして

記事の真似事をしてみた。

 

参考としたのは↓のページ

uytaz.com

 

 どうやらRでスクレイピングするときに複数の実施方法があるらしいが

まずは一番簡単なrvestパッケージを活用した方法を試す。

 

抽出先はRstudioのwikiページ

 

library(rvest)#パッケージの読み込み

rstudio <- html("https://en.wikipedia.org/wiki/RStudio")#引用元のURL

rstudio%>%
html_nodes(xpath = "//p")%>%
.[1:4]%>%
html_text()


 いくつか見られる%>%であるが、処理を橋渡しする役割がある。

html_nodes:htmlのタグを引っ張ってくる。

設定としてxpath="//p"としておくと、//p以降のデータが抽出される。

 

html_text:これはhtml内のテキストを抽出するコマンドである。

 

総括

少しスクレイピングをしてみての結果だが

htmlとxpathに関しての知識がなければスクレイピング

簡単にできなさそうであることが判明した。

 

これら2つに関してはちょうどいいサイトを教えてくれているので

それを参照して勉強したいと思う。

 

d.hatena.ne.jp

HTML参考サイト↓

http://dotinstall.com/lessons/basic_html_v2