robots.txt 中没有索引

Question

我一直阻止 google 使用 robots.txt 文件为我的网站编制索引。最近我读了一篇来自 google 员工的文章，他说你应该使用元标记来做到这一点。这是否意味着 Robots.txt 不起作用？因为我使用的是 CMS，所以我的选择非常有限，而且使用 robots.txt 文件要容易得多。我的问题是，如果我继续使用 robots.txt 文件而不是元标记，可能发生的最坏情况是什么。

Answer 1

这是简单的区别：

一个robots.txt文件控制抓取。它指示正在寻找要爬行的页面的机器人（a.k.a. 蜘蛛）“避开”某些地方。您将此文件放在网站的根目录中。
A noindex 标签控制索引。它告诉爬虫该页面不应该被索引。您将此标记放在相关网页的代码中。

如果您希望在目录级别或整个站点进行控制，请使用 robots.txt 文件。但是，请记住，机器人不需要遵循这些指令。大多数都会，例如 Googlebot，但将任何高度敏感的信息放在网站的公共可访问区域之外会更安全。

与 robots.txt 文件一样，noindex 标记将从搜索结果中排除页面。该页面仍将被抓取，但不会被编入索引。如果您希望在单个页面级别进行控制，请使用这些标签。

关于抓取和索引之间的区别的旁白：抓取（通过蜘蛛）是搜索引擎的蜘蛛跟踪您的网站的方式；抓取的结果进入搜索引擎的索引。将此信息存储在索引中可以加快 return 相关搜索结果的速度——不是扫描与搜索相关的每个页面，而是搜索索引（较小的数据库）以优化速度。

如果没有索引，搜索引擎会查看与搜索词相关的每一位数据或信息，我们都有时间在等待的同时制作和吃几个三明治要显示的搜索结果。该索引使用蜘蛛程序来保持其数据库最新。

这是标签的示例：

<meta name="robots" content="noindex,follow"/>

既然你已经阅读并理解了以上信息，我想你可以自己回答你的问题了;)

Answer 2

确实，GoogleBot 有机会允许使用：

无索引
不关注
Crawl-delay

但在 GoogleBlog-News 上看到，从 2019 年 9 月开始，它们将不再支持这些（0,001% 使用）命令。因此，为了将来安全起见，您应该只在页面上使用元标记。

robots.txt 中没有索引

Noindex in a robots.txt

robots.txt

noindex