在 robots.txt 中禁止目录时,我应该使用尾部斜杠吗?

Should I use a trailing slash when disallowing a directory in robots.txt?

我想在 robots.txt 中禁止抓取目录 /acct 我应该使用哪个规则?

Disallow: /acctDisallow: /acct/

acct 包含子目录和文件。尾部斜杠有什么作用?

由于 robots.txt 规则都是“开头为”规则,因此您提议的两个规则都不允许以下内容:

  • https://example.com/acct/
  • https://example.com/acct/foo
  • https://example.com/acct/bar

但是,只有没有尾部斜杠的规则才不允许以下内容:

  • https://example.com/acct
  • https://example.com/acct.html
  • https://example.com/acctbar

Disallow: /acct/ 通常更好,因为没有禁止意外 URL 的风险。但是,它不会阻止 /acct.

的抓取

在大多数情况下,Web 服务器重定向没有尾部斜杠的目录 URL 以添加尾部斜杠。很可能在您的服务器上,https://example.com/acct 重定向到 https://example.com/acct/。如果是这种情况,通常允许机器人抓取 /acct 且没有尾部斜杠并查看重定向通常是可以的。他们将被阻止抓取重定向的目标。