在 Robots.txt 中允许和禁止

Allow and Disallow in Robots.txt

http://www.robotstxt.org/orig.html 说:

Disallow: /help disallows both /help.html and /help/index.html

现在,google.com/robots.txt 列出:

Disallow: /search  
Allow: /search/about  

根据 运行 robotparser.py,Google robots.txt 中的上述两种情况 returns false

谁能给我解释一下,Allow: /search/about 中的 Allow 有什么用,就像 return 基于上面的 Disallow 条目的 false是吗?

robotparser 及其 Python 3 对应 urllib.robotparser, mention that they use the original specification. This specification does not have an Allow directive; that is a non-standard extension 的模块文档。一些主要的爬虫支持它,但您(显然)不必支持它就可以声称合规。