禁止仅以 robots.txt 中的数字结尾的页面

Disallow pages that ends with number only in robots.txt

是否可以告诉 Google 不要抓取这些页面

/blog/page/10
/blog/page/20
…
/blog/page/100

这些基本上是 Ajax 带来博客文章数据的调用。

我在 robots.txt 中创建了这个:

User-agent: *
Disallow: /blog/page/*

但现在我必须允许我访问另一个页面,即

/blog/page/start

有没有办法告诉机器人只有以数字结尾的页面 例如

User-agent: *
Disallow: /blog/page/(:num)

当我尝试验证 robots.txt 文件时,我也遇到了以下错误:

按照最初的 robots.txt 规范,这将有效(对于所有符合标准的机器人,包括 Google 的):

User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9

这会阻止所有路径 开头且 /blog/pages/ 后跟 any 数字(/blog/pages/9129831823/blog/pages/9.html/blog/pages/5/10/foo 等)。
所以你不应该附加 * 字符(它不是原始 robots.txt 规范中的通配符,并且 not even needed 在你的情况下,机器人将它解释为通配符)。

Google 支持 robots.txt 的某些功能,这些功能不属于原始 robots.txt 规范的一部分,因此不受(所有)其他机器人的支持,例如 Allow 字段。但是上面的 robots.txt 就可以了,所以没有必要使用它。