爬虫架构:避免将请求计入 Google Analytics

Crawler architecture: Avoid getting requests counted in Google Analytics

我们 运行 一项服务,我们需要偶尔为客户的网站编制索引。我们的一位客户刚刚注意到,在他们的分析中可以看到来自我们的机器人的流量(他们使用 Google 标签管理器)。因为他们可以尝试过滤它,但是我想知道为什么它首先被跟踪,因为我们没有在机器人中启用 JS,并且他们已经勾选了“排除来自已知机器人和蜘蛛的流量”。两个问题:

  1. 我们(机器人)能否告诉 google 分析不要计入流量?
  2. 如果不是,他们怎么能过滤掉我们的机器人?我们已经设置了一个用户代理,但它似乎在 google 分析中不可用 - 我们的 IP 也不可用。

我在想为什么要跟踪这个,如果有 Google 标签管理器并且你禁用了 JS。

没有JS

结果似乎是通过 iframe 包含的 tagmaneger 的 noscript 变体。

<noscript><iframe src="//www.googletagmanager.com/ns.html?id=GTM-XXXX"
height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>

因此请尝试在您的抓取工具中屏蔽 URL: www.googletagmanager.com。

有 JS

只需设置window变量:

window['ga-disable-UA-XXXX-Y'] = true;