WEBスクレイピングの真似事

今回はWEBスクレイピングの手始めとして

記事の真似事をしてみた。

参考としたのは↓のページ

uytaz.com

どうやらRでスクレイピングするときに複数の実施方法があるらしいが

まずは一番簡単なrvestパッケージを活用した方法を試す。

抽出先はRstudioのwikiページ

library(rvest)#パッケージの読み込み

rstudio%>%
html_nodes(xpath = "//p")%>%
.[1:4]%>%
html_text()

いくつか見られる%>%であるが、処理を橋渡しする役割がある。

html_nodes：htmlのタグを引っ張ってくる。

設定としてxpath="//p"としておくと、//p以降のデータが抽出される。

html_text：これはhtml内のテキストを抽出するコマンドである。

総括

少しスクレイピングをしてみての結果だが

htmlとxpathに関しての知識がなければスクレイピングは

簡単にできなさそうであることが判明した。

これら2つに関してはちょうどいいサイトを教えてくれているので

それを参照して勉強したいと思う。

HTML参考サイト↓