抓取搜索引擎的最匿名方式

Question

我正在 Ruby 中编写一个脚本，使用一大堆搜索查询来搜索搜索引擎。我希望此脚本在用户使用时保持匿名。到目前为止，脚本将更改用户代理并使用随机 header。我应该使用某种方式或某种搜索引擎来保持匿名吗？

我看到 DuckDuckGo 是一个好的开始，它还有一个 API，因此它显然没有记录数据和使用 Tor，但是如果我想使用多个搜索引擎怎么办？例如，使用多线程爬取多个搜索引擎，并在所有引擎上保持匿名。

我怎样才能做到这一点？

我知道 Ruby 的代理功能，我只是不确定如何使用它们是另一个问题。

Answer 1

如果你想在互联网上匿名，最好的选择之一是 tor。您可以自己使用它并访问任何网站

首先你必须连接到tor网络

tor --SOCKSPort 9050

然后你可以使用这个gem：https://github.com/astro/socksify-ruby

并匿名访问任何网站：

require 'socksify/http'
require 'net/http'
Net::HTTP.SOCKSProxy('127.0.0.1', 9050).start('some.website.com', 80) do |http|
  http.get('/')
end

如果您出于安全原因需要匿名，请阅读 tor 文档，如果您想正确使用它，它是完整且重要的。

目标网站很容易知道流量来自tor网络（但不会知道流量来自哪里），抓取时要讲道理，不要让站长屏蔽tor...

Answer 2

如果你每天需要一些请求，Tor 是一个不错的选择，但大多数搜索引擎都将 Tor 传出 IP 列入黑名单，所以我认为你不会享受愉快的旅程。如果您可以支付一些费用来获得可以让您的爬行 activity 保持匿名并避免与代理打交道的麻烦的服务，那么我建议您使用 ProxyCrawl API Anonymous Crawler Proxy.

API易于使用，免费试用，支持数百万个站点，按需付费。

抓取搜索引擎的最匿名方式

Most anonymous way to crawl a search engine

ruby

search-engine

anonymous