Google Analytics

Google Analyticsの都道府県情報が実際のアクセス位置とずれる現象について調査した

こんにちは。開発Gのわたなべです。

テレビ放送で発生したウェブトラフィックを計測するのに、放送局の放送エリアに近いポイントで発生したGoogle Analyticsデータを紐づける方法をとることがありますが、時折あり得ない地域でトラフィックが発生する現象を観測することがありました。

Google Analyticsの都道府県情報を頼りにアクセス解析を進めてきた筆者にとって胸がざわつく出来事です。実際のところこのずれはどういった原因でどの程度発生するのでしょうか?以下のような仮説を考えました。

  • 自宅での録画後、携帯端末での視聴機能で移動先でTV視聴、ウェブ訪問を行っている
  • 自宅での視聴後、移動先でウェブ検索行動をとるパターン
  • Google Analyticsの都道府県情報が不正確である

今回は一番下の原因について調査していみたいと思います。

そもそもGoogle Analyticsの都道府県情報はベストエフォート的な値

IP から導き出した地域情報は必ずしも正確ではない。

地理データについて

Googleは公式にGoogleアナリティクス上の地域情報が誤り得る可能性を宣言しています。このIPアドレスを利用した地域判別の仕様は公開されていませんが、一般的なIP位置情報サービスがどういった仕組みで動いているのかは把握しておいた方がよいかもしれません。

The “geoloc” attribute of an inetnum or inet6num object can be used to associate a latitude/longitude coordinate pair with a particular address block

https://help.apnic.net/s/article/Geolocation

アジア圏の場合APNICがIPアドレスブロックに緯度経度情報を持っているようです。この情報がGeolocation provider、さらに先のGeolocation Customerに提供されています。GoogleがこのCustomerなのかproviderなのかわかりませんが、一定の頻度で情報がアップデートされているようです。また、Customerの一つ、maxmindはGeoIP2としてIPロケーションサービスを展開していますので、将来的な位置精度向上のために導入を検討する必要があるかもしれません。

奇怪すぎる “THE KANSAS PROBLEM”

This account only had 4 sessions from Coffeyville in June, however in April the account had 55 sessions from Coffeyville among 3,173 sessions from all channels.

https://www.jmillermarketing.com/insights/2018/errors-in-google-analytics-user-location-data

USのGoogle Analyticsユーザーの間で、多くのトラフィックがカンザス州Coffeyvilleに集中してしまう現象が起きてしまっていたようです。ホラー扱いされているのが面白い。Understanding Your Geoip Dataで詳しく研究されていましたが、例えば先述のmaxmindのデータベース上には、

{ “country”: “US”, “latitude”: 38, “longitude”: -97 }

とUSの緯度経度がカンザス州あたりにざっくり指定され、US内での詳細な地域を特定できなかった際に利用されています。これがThe Kansas Problemを発生させる1因と推定できそうです。わが国にも”日本のカンザス”が存在しているのかもしれません。実際のデータで確認してみます。

mobileデバイスに関しては40%程度が正確な都道府県情報を示した

実際にGoogle Analytics情報と訪問者の地域情報に乖離があるか確認してみます。以下のようなデータを用意して比較しています。なお本サンプルは95%がGoogle Analytics判別上のmobileデバイスとなっております。

サンプル数都道府県が異なる都道府県が合致した合致率
73644129540.0%

問い合わせユーザーの都道府県とGAの都道府県が40%しか合致しないという、なかなか絶望的な結果が出ました。ただし、地域が合致しないレコードのほとんどが東京をはじめとした大都市です。東京都の人口はわが国の11%程度を占めますが、それより多い訪問が発生してしまっていることが分かれば、Google AnalyticsのGeolocationの仕組みが東京などの代表的な地域を指しやすいという傾向を得られるかもしれません。
※都道府県の人口比率は2020年の国勢調査人口を利用

東京は人口対比から見ても大きく訪問が上振れている
GA上の都道府県GA上の訪問数GA都道府県と問い合わせ都道府県が不一致人口比率から想定される訪問数想定と訪問の差分
Tokyo35231182270
Osaka104525252
Hokkaido42123012
Shizuoka17121-4
Fukuoka211630-9
Kanagawa17654-37
Saitama15243-28
Hyogo21132-11

多数のトラフィックが東京に吸い取られているように見えます。また、地方の訪問数は人口対比から見ても大幅に下振れているように見えます。日本国内でGeolocationが解決できなかった場合、首都である東京に寄せられる仕様となっているのかもしれません。今回の調査の場合、全国の736件の訪問のうち、東京にはその11%、82件程度の訪問が発生しそうですが、352件が起票されています。270件程度が本来地方からのアクセスであったと想定できそうです。

地方都市へのGeolocationのずれも念のため確認

東京以外の訪問に誤って割り振られたと思われる件数を確認してみます。

GA都道府県問い合わせ元都道府県訪問数
OsakaHyogo, Yamaguchi, Fukuoka, Nara, Oita, Okayama, Shiga, Kagawa, Kyoto, Niigata, Shizuoka, Ishikawa, Fukui, Tokushima, Nagasaki, Aomori, Saga, Ehime, Wakayama, Miyazaki, Nagano52
AichiHokkaido, Shizuoka, Kanagawa, Osaka, Iwate, Miyagi6
FukuokaSaitama, Okinawa, Osaka, Kagawa, Kagoshima, Kumamoto, Shizuoka, Tokyo, Nagasaki, Yamaguchi16
HokkaidoAomori, Yamagata, Akita, Tochigi, Miyagi, Yamanashi12
KanagawaIwate, Niigata, Fukushima6

東京に比べるとかなり件数は少ないですが、大阪、愛知など地方に誤って割り当てられたかもしれない訪問を確認できます。近畿なら大阪、中部なら愛知、九州なら福岡、となると何となく傾向がつかめそうですが、まだ見えそうで見えないという位置にありそうです。何となく西日本なら大阪。と呼べるような傾向はありそうです。

モバイルデバイスの都道府県判別についてまとめてみると

  • 東京での訪問数は大きく上振れる可能性がある
  • 次いで大阪への訪問が上振れそうだが、もう少し調査が必要
  • そもそもGoogleをはじめとしたGeolocationカスタマーや、各ユーザーの調査上もGoogle AnalyticsのGeolocationが必ずしも正確でないことを示しているのでそれを見越した計測業務が必須となる

今回は諸事情でデスクトップデバイスのサンプルを用意することが難しかったので、こちらも改めて調査はしてみたいです。ひとまずモバイルデバイスのGeolocationの正確性については疑問が残る結果となりました。

出典 本投稿はすべて2022.08.05時点の情報をもとに執筆しています

ABOUT ME
Watanabe
Watanabe
BI構築, webアクセス解析などを担当することが多いです。 AWS, GCP, Tableau, Google Analytics, Yahoo Ads 登山、スノボが好き。