爬虫架构：避免将请求计入 Google Analytics

Question

我们运行一项服务，我们需要偶尔为客户的网站编制索引。我们的一位客户刚刚注意到，在他们的分析中可以看到来自我们的机器人的流量（他们使用 Google 标签管理器）。因为他们可以尝试过滤它，但是我想知道为什么它首先被跟踪，因为我们没有在机器人中启用 JS，并且他们已经勾选了“排除来自已知机器人和蜘蛛的流量”。两个问题：

我们（机器人）能否告诉 google 分析不要计入流量？
如果不是，他们怎么能过滤掉我们的机器人？我们已经设置了一个用户代理，但它似乎在 google 分析中不可用 - 我们的 IP 也不可用。

Answer 1

我在想为什么要跟踪这个，如果有 Google 标签管理器并且你禁用了 JS。

没有JS

结果似乎是通过 iframe 包含的 tagmaneger 的 noscript 变体。

<noscript><iframe src="//www.googletagmanager.com/ns.html?id=GTM-XXXX"
height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>

因此请尝试在您的抓取工具中屏蔽 URL: www.googletagmanager.com。

有 JS

只需设置window变量：

window['ga-disable-UA-XXXX-Y'] = true;

爬虫架构：避免将请求计入 Google Analytics

Crawler architecture: Avoid getting requests counted in Google Analytics

google-analytics

web-crawler

google-tag-manager

没有JS

有 JS