负责任的时间延迟 - 网络爬行

Responsible time delays - web crawling

放入只抓取一个根页面的网络抓取工具的负责任/道德时间延迟是多少?

我在以下调用之间使用 time.sleep(#)
requests.get(url)

我正在寻找关于时间尺度的粗略想法: 1. 过于保守 2.标准 3. 会引起问题/引起你的注意

我想触摸满足特定条件的每一页(至少 20,000,可能更多)。这在合理的时间范围内是否可行?

编辑
这个问题不是关于避免被阻止(尽管任何相关信息。将不胜感激),而是什么时间延迟不会对主机网站/服务器造成问题。 我已经测试了 10 秒的时间延迟和大约 50 页。如果我过于谨慎,我只是不知道。

我会检查他们的 robots.txt。如果它列出了爬网延迟,请使用它!如果不是,请尝试一些合理的方法(这取决于页面的大小)。如果它是一个大页面,尝试 2/second。如果是简单的.txt文件,10/秒应该没问题。

如果所有其他方法都失败了,请联系网站所有者,看看他们能够很好地处理什么。

(我假设这是一个带宽最小的业余服务器)