robots.tx 禁止所有带有爬网延迟的

Question

我想从某个站点获取信息，并查看是否允许我抓取该站点。 robots.txt 文件考虑了 15 个不同的用户代理，然后是其他所有人。我的困惑来自其他所有人的陈述（包括我）。这是

User-agent: *                  
Crawl-delay: 5
Disallow: /
Disallow: /sbe_2020/pdfs/
Disallow: /sbe/sbe_2020/2020_pdfs
Disallow: /newawardsearch/
Disallow: /ExportResultServlet*

如果我没看错的话，该网站要求未经授权的用户代理不得对其进行抓取。然而，它们包含爬行延迟这一事实似乎很奇怪。如果不允许我抓取它，为什么还要考虑抓取延迟？为什么他们需要包含任何特定目录？或者，也许我错误地阅读了“Disallow:/”？

Answer 1

是的，如果将此记录简化为：

User-agent: *
Disallow: /

不允许与此记录匹配的机器人在此主机上抓取任何内容（拥有不需要的 Crawl-delay 不会改变这一点）。

robots.tx 禁止所有带有爬网延迟的

robots.tx disallow all with crawl-delay

robots.txt