在 robots.txt 中禁止目录时,我应该使用尾部斜杠吗?
Should I use a trailing slash when disallowing a directory in robots.txt?
我想在 robots.txt
中禁止抓取目录 /acct
我应该使用哪个规则?
Disallow: /acct
或 Disallow: /acct/
acct
包含子目录和文件。尾部斜杠有什么作用?
由于 robots.txt
规则都是“开头为”规则,因此您提议的两个规则都不允许以下内容:
https://example.com/acct/
https://example.com/acct/foo
https://example.com/acct/bar
但是,只有没有尾部斜杠的规则才不允许以下内容:
https://example.com/acct
https://example.com/acct.html
https://example.com/acctbar
Disallow: /acct/
通常更好,因为没有禁止意外 URL 的风险。但是,它不会阻止 /acct
.
的抓取
在大多数情况下,Web 服务器重定向没有尾部斜杠的目录 URL 以添加尾部斜杠。很可能在您的服务器上,https://example.com/acct
重定向到 https://example.com/acct/
。如果是这种情况,通常允许机器人抓取 /acct
且没有尾部斜杠并查看重定向通常是可以的。他们将被阻止抓取重定向的目标。
我想在 robots.txt
中禁止抓取目录 /acct
我应该使用哪个规则?
Disallow: /acct
或 Disallow: /acct/
acct
包含子目录和文件。尾部斜杠有什么作用?
由于 robots.txt
规则都是“开头为”规则,因此您提议的两个规则都不允许以下内容:
https://example.com/acct/
https://example.com/acct/foo
https://example.com/acct/bar
但是,只有没有尾部斜杠的规则才不允许以下内容:
https://example.com/acct
https://example.com/acct.html
https://example.com/acctbar
Disallow: /acct/
通常更好,因为没有禁止意外 URL 的风险。但是,它不会阻止 /acct
.
在大多数情况下,Web 服务器重定向没有尾部斜杠的目录 URL 以添加尾部斜杠。很可能在您的服务器上,https://example.com/acct
重定向到 https://example.com/acct/
。如果是这种情况,通常允许机器人抓取 /acct
且没有尾部斜杠并查看重定向通常是可以的。他们将被阻止抓取重定向的目标。