禁止仅以 robots.txt 中的数字结尾的页面

Question

是否可以告诉 Google 不要抓取这些页面

/blog/page/10
/blog/page/20
…
/blog/page/100

这些基本上是 Ajax 带来博客文章数据的调用。

我在 robots.txt 中创建了这个：

User-agent: *
Disallow: /blog/page/*

但现在我必须允许我访问另一个页面，即

/blog/page/start

有没有办法告诉机器人只有以数字结尾的页面例如

User-agent: *
Disallow: /blog/page/(:num)

当我尝试验证 robots.txt 文件时，我也遇到了以下错误：

Answer 1

按照最初的 robots.txt 规范，这将有效（对于所有符合标准的机器人，包括 Google 的）：

User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9

这会阻止所有路径以开头且 /blog/pages/ 后跟 any 数字（/blog/pages/9129831823、/blog/pages/9.html、/blog/pages/5/10/foo 等）。
所以你不应该附加 * 字符（它不是原始 robots.txt 规范中的通配符，并且 not even needed 在你的情况下，机器人将它解释为通配符）。

Google 支持 robots.txt 的某些功能，这些功能不属于原始 robots.txt 规范的一部分，因此不受（所有）其他机器人的支持，例如 Allow 字段。但是上面的 robots.txt 就可以了，所以没有必要使用它。

禁止仅以 robots.txt 中的数字结尾的页面

Disallow pages that ends with number only in robots.txt

robots.txt