robots.txt中的加号是什么意思?

What does the plus sign mean in robots.txt?

对于一个站点,我想在 /telecommandes 路径上进行网络抓取。这是 robots.txt:

User-agent: * 
Disallow: *telecommande++*

我的问题是:

根据 original robots.txt specification+Disallow 值中没有特殊含义,* 也没有。

因此 /telecommandes-box-decodeur.html 的抓取将被允许。

例如,抓取 /*telecommande++*.html(字面意思)。


如果您想保持礼貌,可以考虑 "proprietary" robots.txt 扩展名,例如来自 Google 和其他搜索引擎的扩展名。许多作者可能没有意识到这些不是官方规范的一部分,并期望它们甚至可以用于其他爬虫。

根据 Google’s robots.txt documentation+ 没有特殊含义,但 * 有一个(这意味着:任何字符序列) .

因此仍允许抓取 /telecommandes-box-decodeur.html

例如,禁止抓取 /foo/telecommande++bar.html(还有 /*telecommande++*.html)。