robots.txt: 如何处理格式错误的禁止行

robots.txt: how are ill-formed disallow lines treated

当 Disallow 行包含多个 URI 时会发生什么情况?示例:

Disallow: / tmp/

我小白space被误导了

Web 浏览器如何处理此问题是否有标准方法?他们是忽略整行还是忽略第二个 URI 并将其视为:

Disallow: /

Google,至少,似乎将第一个非 space 字符视为路径的开头,将最后一个非 space 字符视为路径的结尾。中间的任何内容都算作路径的一部分,即使它是 space。 Google 还默默地对路径中的某些字符进行百分号编码,包括 spaces.

所以如下:

Disallow: / tmp/

将阻止:

http://example.com/%20tmp/

但它不会阻止:

http://example.com/tmp/

我已经在 Google 的 robots.txt 测试仪上验证了这一点。 Google.

以外的抓取工具的 YMMV