当我尝试抓取它时,news.google.com 的连接被拒绝

connection refused for news.google.com when I try yo scrape it

我正在尝试抓取 new.google.com 并获取一些信息,我在本地没有问题,但是当我部署到我们的数据中心时失败并显示 "connection refused",这意味着它被阻止了。

 Get https://news.google.com?ceid=en%3Agb&gl=en-gb&hl=en-gb&hs=en-gb&pz=1: dial tcp 172.217.5.206:443: connect: connection refused

除了传递 header 和 by-pass 之外,我们还有其他方法可以解锁吗?或者如果我必须使用 google 进行某些测试,则使用付费 API 是唯一的选择?

有没有人遇到并解决了?

这很常见。其他人使用相同的 IP 地址进行抓取或什至更糟糕的 :) 所以它被阻止了。

您可以使用一些代理服务。有些有免费套餐,所以它可以完成测试工作。

在你问之前......免费代理服务超级慢,可能已经被阻止:)