robots.txt中的加号是什么意思?
What does the plus sign mean in robots.txt?
对于一个站点,我想在 /telecommandes
路径上进行网络抓取。这是 robots.txt:
User-agent: *
Disallow: *telecommande++*
我的问题是:
- 在这种情况下加号是什么意思?
- 抓取 URL
/telecommandes-box-decodeur.html
合适吗?关于 robots.txt 文件?
根据 original robots.txt specification,+
在 Disallow
值中没有特殊含义,*
也没有。
因此 /telecommandes-box-decodeur.html
的抓取将被允许。
例如,抓取 /*telecommande++*.html
(字面意思)。
如果您想保持礼貌,可以考虑 "proprietary" robots.txt 扩展名,例如来自 Google 和其他搜索引擎的扩展名。许多作者可能没有意识到这些不是官方规范的一部分,并期望它们甚至可以用于其他爬虫。
根据 Google’s robots.txt documentation,+
没有特殊含义,但 *
有一个(这意味着:任何字符序列) .
因此仍允许抓取 /telecommandes-box-decodeur.html
。
例如,禁止抓取 /foo/telecommande++bar.html
(还有 /*telecommande++*.html
)。
对于一个站点,我想在 /telecommandes
路径上进行网络抓取。这是 robots.txt:
User-agent: *
Disallow: *telecommande++*
我的问题是:
- 在这种情况下加号是什么意思?
- 抓取 URL
/telecommandes-box-decodeur.html
合适吗?关于 robots.txt 文件?
根据 original robots.txt specification,+
在 Disallow
值中没有特殊含义,*
也没有。
因此 /telecommandes-box-decodeur.html
的抓取将被允许。
例如,抓取 /*telecommande++*.html
(字面意思)。
如果您想保持礼貌,可以考虑 "proprietary" robots.txt 扩展名,例如来自 Google 和其他搜索引擎的扩展名。许多作者可能没有意识到这些不是官方规范的一部分,并期望它们甚至可以用于其他爬虫。
根据 Google’s robots.txt documentation,+
没有特殊含义,但 *
有一个(这意味着:任何字符序列) .
因此仍允许抓取 /telecommandes-box-decodeur.html
。
例如,禁止抓取 /foo/telecommande++bar.html
(还有 /*telecommande++*.html
)。