Google 抓取导致 API 速率限制

Google Crawl Causing API rate limit

目前 google 爬行一直在以每秒 10 次左右的速度爬行我的网站,这导致一些 Instagram API - 我正在使用 - 很快达到他们的每小时速率限制。

他们有办法防止 google 抓取 运行 一段 php 代码吗?我仍然希望他们抓取页面但不触发 api 请求。

如果您希望页面仍处于抓取状态,robots.txt 可能不适合您。

总的来说,你应该问一下,你的API实现对吗?您应该使用 API 来获取一些数据或执行一些操作。

您不应该做的是向 API 每个 PageView 询问相同的信息。缓存它。

有时可以,将简单的结果缓存在一个txt文件中,有时你想将数据抓取到你自己的数据库中。

如果这不适合您,您可以detect the google bot这样:

if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot"))
{
    // what to do
}

至少给 Googlebot 一个缓存版本。


另请注意,这不是 Googlebot 独有的问题。那里有很多机器人。并且还有伪装成普通用户的不良机器人。另外,如果您的负载很重,这也可能是个问题。