在 Robots.txt 中允许和禁止
Allow and Disallow in Robots.txt
http://www.robotstxt.org/orig.html 说:
Disallow: /help disallows both /help.html and /help/index.html
现在,google.com/robots.txt 列出:
Disallow: /search
Allow: /search/about
根据 运行 robotparser.py
,Google robots.txt
中的上述两种情况 returns false
。
谁能给我解释一下,Allow: /search/about
中的 Allow
有什么用,就像 return 基于上面的 Disallow
条目的 false
是吗?
robotparser
及其 Python 3 对应 urllib.robotparser
, mention that they use the original specification. This specification does not have an Allow
directive; that is a non-standard extension 的模块文档。一些主要的爬虫支持它,但您(显然)不必支持它就可以声称合规。
http://www.robotstxt.org/orig.html 说:
Disallow: /help disallows both /help.html and /help/index.html
现在,google.com/robots.txt 列出:
Disallow: /search
Allow: /search/about
根据 运行 robotparser.py
,Google robots.txt
中的上述两种情况 returns false
。
谁能给我解释一下,Allow: /search/about
中的 Allow
有什么用,就像 return 基于上面的 Disallow
条目的 false
是吗?
robotparser
及其 Python 3 对应 urllib.robotparser
, mention that they use the original specification. This specification does not have an Allow
directive; that is a non-standard extension 的模块文档。一些主要的爬虫支持它,但您(显然)不必支持它就可以声称合规。