禁止使用通配符 robots.txt 中的特定文件夹

Disallow specific folders in robots.txt with wildcards

我可以使用通配符对抓取工具隐藏特定文件夹吗:

 User-agent: *
 Disallow: /system/
 Disallow: /v*

我想隐藏所有以 "v" 字符开头的文件夹。它会这样工作吗?

为此您根本不需要通配符。您的示例可以工作,但如果没有通配符,它​​也能正常工作。尾随通配符没有任何用处。

例如,这个:

Disallow: /x

表示:"Block any path that starts with '/x', followed by zero or more characters."

还有这个:

Disallow: /x*

表示:"Block any path that starts with '/x', followed by zero or more characters, followed by zero or more characters."

这是多余的,它阻止了第一个阻止的所有相同内容。唯一的实际区别是第二个版本将无法在不支持通配符的爬虫上运行。