第15章 Googleデータ
15.1 はじめに
Googleで特定の単語がどれくらい検索されているのかはGoogleトレンドで調べることができます。
- 正確には、「検索数」ではなく「ピーク時を100としたときの検索割合」になります。
- 詳しくはこちらを参照。
また、1800年からの書籍において単語がどの程度使用されてきたのかはGoogle Books Ngram Viewerで調べることができます。
15.2 時系列トレンド
15.3 地域別のトレンド
gtrends
の出力の中身を見てみましょう。
## List of 7
## $ interest_over_time :'data.frame': 520 obs. of 7 variables:
## $ interest_by_country: NULL
## $ interest_by_region :'data.frame': 94 obs. of 5 variables:
## $ interest_by_dma : NULL
## $ interest_by_city :'data.frame': 400 obs. of 5 variables:
## $ related_topics : NULL
## $ related_queries :'data.frame': 100 obs. of 6 variables:
## ..- attr(*, "reshapeLong")=List of 4
## - attr(*, "class")= chr [1:2] "gtrends" "list"
時系列以外にも地域別のスコアがあるのが分かります。
グラフにすることもできます。
15.5 検索ヒット数*
ある単語でGoogle検索したときにいくつのウェブサイトにヒットするか知りたいかもしれません。 このような場合は、検索パラメータをいじって検索します。
- 本格的にRヤPythonからブラウザを操作したい場合はSeleniumを使うとよいでしょう。
具体的には、XXXX
という単語を検索したい場合はhttps://www.google.co.jp/search?q=XXXX
とすればいいことが分かります。
そこで、今回は新海誠
と秒速5センチメートル
で検索してみようと思います。
html <- html_session("https://www.google.co.jp/search?q=新海誠+秒速5センチメートル",
httr::user_agent("Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:75.0) Gecko/20100101 Firefox/75.0"))
## Warning: `html_session()` was deprecated in rvest 1.0.0.
## ℹ Please use `session()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
- 複数の単語で検索する場合は
+
で繋げます。 - 自分のPCのブラウザのユーザーエージェントを確認して
httr::user_agent()
の中に文字列として入力します。
検索ヒット数はid
がresultStats
のタグの中にあることが分かるので、数字をパースします。
## [1] 254000
- 実際の結果とは少しずれてしまいます。