robots.txt: 如何处理格式错误的禁止行
robots.txt: how are ill-formed disallow lines treated
当 Disallow 行包含多个 URI 时会发生什么情况?示例:
Disallow: / tmp/
我小白space被误导了
Web 浏览器如何处理此问题是否有标准方法?他们是忽略整行还是忽略第二个 URI 并将其视为:
Disallow: /
Google,至少,似乎将第一个非 space 字符视为路径的开头,将最后一个非 space 字符视为路径的结尾。中间的任何内容都算作路径的一部分,即使它是 space。 Google 还默默地对路径中的某些字符进行百分号编码,包括 spaces.
所以如下:
Disallow: / tmp/
将阻止:
http://example.com/%20tmp/
但它不会阻止:
http://example.com/tmp/
我已经在 Google 的 robots.txt 测试仪上验证了这一点。 Google.
以外的抓取工具的 YMMV
当 Disallow 行包含多个 URI 时会发生什么情况?示例:
Disallow: / tmp/
我小白space被误导了
Web 浏览器如何处理此问题是否有标准方法?他们是忽略整行还是忽略第二个 URI 并将其视为:
Disallow: /
Google,至少,似乎将第一个非 space 字符视为路径的开头,将最后一个非 space 字符视为路径的结尾。中间的任何内容都算作路径的一部分,即使它是 space。 Google 还默默地对路径中的某些字符进行百分号编码,包括 spaces.
所以如下:
Disallow: / tmp/
将阻止:
http://example.com/%20tmp/
但它不会阻止:
http://example.com/tmp/
我已经在 Google 的 robots.txt 测试仪上验证了这一点。 Google.
以外的抓取工具的 YMMV