wget Google 搜索（300 000 次查找）

Question

我有一些数据需要使用某个 Google 搜索的第一个条目进行修改。此搜索必须使用不同的搜索关键字重复大约 300 000 次（每行）。

我使用 wget 为此编写了一个 bash 脚本。但是在大约 30 个（同步）请求之后，我的查询似乎被阻止了。

Connecting to www.google.com (www.google.com)|74.125.24.103|:80... connected. HTTP request sent, awaiting response... 404 Not Found

ERROR 404: Not Found.

我正在使用这个片段：

wget -qO- ‐‐limit-rate=20k --user-agent='Mozilla/5.0 (X11; Linux i686; rv:5.0) Gecko/20100101 Firefox/5.0' "http://www.google.de/search?q=wikipedia%20$encodedString"

我靠它工作所以我希望有人有经验。这不是一项常规工作，不需要快速完成 - 如果 300000 个请求需要一个多星期，它甚至可以接受。

Answer 1

Google不会让你这样做的；它有一套相当先进的启发式方法来检测 "non-human" 用法。如果你想用 Google 做一些自动化的事情，它会迫使你使用他们的 API.

除了将您的查询分发给大量客户端（假设您有 3*10^5 个查询，并在 3*10^1 后被阻止，我想大约有 10,000 个），这既不可行也不符合正确的复杂顺序，您需要使用任何可自动化的 API.

幸运的是，Google 提供了 JSON API，它更容易被脚本解析，因此请查看。

wget Google 搜索（300 000 次查找）

wget Google search (300 000 lookups)

bash

curl

wget

google-api

lynx