robots.tx 禁止所有带有爬网延迟的

robots.tx disallow all with crawl-delay

我想从某个站点获取信息,并查看是否允许我抓取该站点。 robots.txt 文件考虑了 15 个不同的用户代理,然后是其他所有人。我的困惑来自其他所有人的陈述(包括我)。这是

User-agent: *                  
Crawl-delay: 5
Disallow: /
Disallow: /sbe_2020/pdfs/
Disallow: /sbe/sbe_2020/2020_pdfs
Disallow: /newawardsearch/
Disallow: /ExportResultServlet*

如果我没看错的话,该网站要求未经授权的用户代理不得对其进行抓取。然而,它们包含爬行延迟这一事实似乎很奇怪。如果不允许我抓取它,为什么还要考虑抓取延迟?为什么他们需要包含任何特定目录?或者,也许我错误地阅读了“Disallow:/”?

是的,如果将此记录简化为:

User-agent: *
Disallow: / 

不允许与此记录匹配的机器人在此主机上抓取任何内容(拥有不需要的 Crawl-delay 不会改变这一点)。