wget Google 搜索(300 000 次查找)

wget Google search (300 000 lookups)

我有一些数据需要使用某个 Google 搜索的第一个条目进行修改。 此搜索必须使用不同的搜索关键字重复大约 300 000 次(每行)。

我使用 wget 为此编写了一个 bash 脚本。但是在大约 30 个(同步)请求之后,我的查询似乎被阻止了。

Connecting to www.google.com (www.google.com)|74.125.24.103|:80... connected. HTTP request sent, awaiting response... 404 Not Found

ERROR 404: Not Found.

我正在使用这个片段:

wget -qO- ‐‐limit-rate=20k --user-agent='Mozilla/5.0 (X11; Linux i686; rv:5.0) Gecko/20100101 Firefox/5.0' "http://www.google.de/search?q=wikipedia%20$encodedString"

我靠它工作所以我希望有人有经验。这不是一项常规工作,不需要快速完成 - 如果 300000 个请求需要一个多星期,它甚至可以接受。

Google不会让你这样做的;它有一套相当先进的启发式方法来检测 "non-human" 用法。如果你想用 Google 做一些自动化的事情,它会迫使你使用他们的 API.

除了将您的查询分发给大量客户端(假设您有 3*10^5 个查询,并在 3*10^1 后被阻止,我想大约有 10,000 个),这既不可行也不符合正确的复杂顺序,您需要使用任何可自动化的 API.

幸运的是,Google 提供了 JSON API,它更容易被脚本解析,因此请查看 。