禁止仅以 robots.txt 中的数字结尾的页面
Disallow pages that ends with number only in robots.txt
是否可以告诉 Google 不要抓取这些页面
/blog/page/10
/blog/page/20
…
/blog/page/100
这些基本上是 Ajax 带来博客文章数据的调用。
我在 robots.txt 中创建了这个:
User-agent: *
Disallow: /blog/page/*
但现在我必须允许我访问另一个页面,即
/blog/page/start
有没有办法告诉机器人只有以数字结尾的页面
例如
User-agent: *
Disallow: /blog/page/(:num)
当我尝试验证 robots.txt 文件时,我也遇到了以下错误:
按照最初的 robots.txt 规范,这将有效(对于所有符合标准的机器人,包括 Google 的):
User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9
这会阻止所有路径 以 开头且 /blog/pages/
后跟 any 数字(/blog/pages/9129831823
、/blog/pages/9.html
、/blog/pages/5/10/foo
等)。
所以你不应该附加 *
字符(它不是原始 robots.txt 规范中的通配符,并且 not even needed 在你的情况下,机器人将它解释为通配符)。
Google 支持 robots.txt 的某些功能,这些功能不属于原始 robots.txt 规范的一部分,因此不受(所有)其他机器人的支持,例如 Allow
字段。但是上面的 robots.txt 就可以了,所以没有必要使用它。
是否可以告诉 Google 不要抓取这些页面
/blog/page/10
/blog/page/20
…
/blog/page/100
这些基本上是 Ajax 带来博客文章数据的调用。
我在 robots.txt 中创建了这个:
User-agent: *
Disallow: /blog/page/*
但现在我必须允许我访问另一个页面,即
/blog/page/start
有没有办法告诉机器人只有以数字结尾的页面 例如
User-agent: *
Disallow: /blog/page/(:num)
当我尝试验证 robots.txt 文件时,我也遇到了以下错误:
按照最初的 robots.txt 规范,这将有效(对于所有符合标准的机器人,包括 Google 的):
User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9
这会阻止所有路径 以 开头且 /blog/pages/
后跟 any 数字(/blog/pages/9129831823
、/blog/pages/9.html
、/blog/pages/5/10/foo
等)。
所以你不应该附加 *
字符(它不是原始 robots.txt 规范中的通配符,并且 not even needed 在你的情况下,机器人将它解释为通配符)。
Google 支持 robots.txt 的某些功能,这些功能不属于原始 robots.txt 规范的一部分,因此不受(所有)其他机器人的支持,例如 Allow
字段。但是上面的 robots.txt 就可以了,所以没有必要使用它。