抓取搜索引擎的最匿名方式

Most anonymous way to crawl a search engine

我正在 Ruby 中编写一个脚本,使用一大堆搜索查询来搜索搜索引擎。我希望此脚本在用户使用时保持匿名。到目前为止,脚本将更改用户代理并使用随机 header。我应该使用某种方式或某种搜索引擎来保持匿名吗?

我看到 DuckDuckGo 是一个好的开始,它还有一个 API,因此它显然没有记录数据和使用 Tor,但是如果我想使用多个搜索引擎怎么办?例如,使用多线程爬取多个搜索引擎,并在所有引擎上保持匿名。

我怎样才能做到这一点?

我知道 Ruby 的代理功能,我只是不确定如何使用它们是另一个问题。

如果你想在互联网上匿名,最好的选择之一是 tor。您可以自己使用它并访问任何网站

首先你必须连接到tor网络

tor --SOCKSPort 9050

然后你可以使用这个gem:https://github.com/astro/socksify-ruby

并匿名访问任何网站:

require 'socksify/http'
require 'net/http'
Net::HTTP.SOCKSProxy('127.0.0.1', 9050).start('some.website.com', 80) do |http|
  http.get('/')
end

如果您出于安全原因需要匿名,请阅读 tor 文档,如果您想正确使用它,它是完整且重要的。

目标网站很容易知道流量来自tor网络(但不会知道流量来自哪里),抓取时要讲道理,不要让站长屏蔽tor...

如果你每天需要一些请求,Tor 是一个不错的选择,但大多数搜索引擎都将 Tor 传出 IP 列入黑名单,所以我认为你不会享受愉快的旅程。如果您可以支付一些费用来获得可以让您的爬行 activity 保持匿名并避免与代理打交道的麻烦的服务,那么我建议您使用 ProxyCrawl API Anonymous Crawler Proxy.

API易于使用,免费试用,支持数百万个站点,按需付费。