【R】ウェブサイト解析に必要なパッケージと関数のまとめ

      2016/04/10

【R】ウェブサイト解析に必要なパッケージと関数のまとめ

ウェブサイトを解析しようと思って調べてみました。
Web上の解析対象は大きく分けて2つです。

  • 表で情報が掲載されているwebサイト
  • 表以外で情報が掲載されているWebサイト

表が載っているwebサイトの場合

流れは以下のようになります。

  • XMLパッケージをインストール
  • urlを指定
  • readHTMLTable関数を使って自動でRのテーブルに変換

こちらはとても直感的で専門知識もそれ程必要なさそうです。

参考:
R から HTML の表を読み込む - 廿TT

表以外で情報が掲載されているWebサイト

流れは以下のようになります。

  • RCurlとXMLパッケージをインストール
  • urlを指定
  • getURL関数で安全にサイト情報を取得
  • htmlParse関数でHTMLを読み込む
  • 収集したい部分をXPathで指定
    • getNodeSet関数を使う
    • 正規表現で絞り込む
  • 取得した情報を解析しやすいようデータブレームに変換

こちらはXPathと正規表現の知識が必要になります。

はぁ、勉強せねば(汗)

参考:

おすすめ記事

1
2016年買って良かったモノを紹介します!

2016年もあとわずか。毎年恒例の買って良かったモノシリーズ、2016年版を紹介 ...

2
英語ができなかった僕がバイリンガルになるまでの5つの英語上達プロセス

英語ができなかった僕がバイリンガルと呼ばれるようになるまでに経験した過程を5つに分けて紹介します。

 - 統計学