robots.txt 中没有索引

Noindex in a robots.txt

我一直阻止 google 使用 robots.txt 文件为我的网站编制索引。最近我读了一篇来自 google 员工的文章,他说你应该使用元标记来做到这一点。这是否意味着 Robots.txt 不起作用?因为我使用的是 CMS,所以我的选择非常有限,而且使用 robots.txt 文件要容易得多。我的问题是,如果我继续使用 robots.txt 文件而不是元标记,可能发生的最坏情况是什么。

这是简单的区别:

  • 一个robots.txt文件控制抓取。它指示正在寻找要爬行的页面的机器人(a.k.a. 蜘蛛)“避开”某些地方。您将此文件放在网站的根目录中。

  • A noindex 标签控制索引。它告诉爬虫该页面不应该被索引。您将此标记放在相关网页的代码中。

如果您希望在目录级别或整个站点进行控制,请使用 robots.txt 文件。但是,请记住,机器人不需要遵循这些指令。大多数都会,例如 Googlebot,但将任何高度敏感的信息放在网站的公共可访问区域之外会更安全。

与 robots.txt 文件一样,noindex 标记将从搜索结果中排除页面。该页面仍将被抓取,但不会被编入索引。如果您希望在单个页面级别进行控制,请使用这些标签。

关于抓取和索引之间的区别的旁白:抓取(通过蜘蛛)是搜索引擎的蜘蛛跟踪您的网站的方式;抓取的结果进入搜索引擎的索引。将此信息存储在索引中可以加快 return 相关搜索结果的速度——不是扫描与搜索相关的每个页面,而是搜索索引(较小的数据库)以优化速度。

如果没有索引,搜索引擎会查看与搜索词相关的每一位数据或信息,我们都有时间在等待的同时制作和吃几个三明治要显示的搜索结果。该索引使用蜘蛛程序来保持其数据库最新。

这是标签的示例:

<meta name="robots" content="noindex,follow"/>

既然你已经阅读并理解了以上信息,我想你可以自己回答你的问题了;)

确实,GoogleBot 有机会允许使用:

  • 无索引
  • 不关注
  • Crawl-delay

但在 GoogleBlog-News 上看到,从 2019 年 9 月开始,它们将不再支持这些(0,001% 使用)命令。因此,为了将来安全起见,您应该只在页面上使用元标记。