WEBスクレイピングの真似事
今回はWEBスクレイピングの手始めとして
記事の真似事をしてみた。
参考としたのは↓のページ
どうやらRでスクレイピングするときに複数の実施方法があるらしいが
まずは一番簡単なrvestパッケージを活用した方法を試す。
抽出先はRstudioのwikiページ
library(rvest)#パッケージの読み込み
rstudio <- html("https://en.wikipedia.org/wiki/RStudio")#引用元のURL
rstudio%>%
html_nodes(xpath = "//p")%>%
.[1:4]%>%
html_text()
いくつか見られる%>%であるが、処理を橋渡しする役割がある。
html_nodes:htmlのタグを引っ張ってくる。
設定としてxpath="//p"としておくと、//p以降のデータが抽出される。
html_text:これはhtml内のテキストを抽出するコマンドである。
総括
少しスクレイピングをしてみての結果だが
htmlとxpathに関しての知識がなければスクレイピングは
簡単にできなさそうであることが判明した。
これら2つに関してはちょうどいいサイトを教えてくれているので
それを参照して勉強したいと思う。
HTML参考サイト↓
http://dotinstall.com/lessons/basic_html_v2