防止机器人索引受限访问子域

Question

我有一个子域设置，我 return 除了一个 IP 之外的所有 IP 都是 403。我还想避免网站被搜索引擎索引，这就是为什么我在子域的根目录中添加了 robots.txt。

但是，由于我 return 对那个子域的每个请求都是 403，所以爬虫在请求 robots.txt 文件时也会收到 403。

根据 google，如果 robots,txt returns 是 403，它仍会尝试抓取网站。

这附近有没有？渴望听到你的想法。

Answer 1

使用 robots.txt 您可以禁止抓取，而不是索引。

您可以禁止使用 HTML meta-robots 或相应的 HTTP header X-Robots-Tag.[=20 建立索引（但不是抓取） =]

所以你有三个选择：

白名单 /robots.txt 以便它回答 200。 符合要求的机器人不会在您的主机上抓取任何内容（除了 robots.txt), 但如果他们以某种方式找到它们（例如，如果从另一个站点链接），他们可能会索引 URL。
```
User-agent: *
Disallow: /
```
向每个页面添加一个 meta-robots 元素。 符合要求的机器人可能会抓取，但不会编制索引。但这仅适用于 HTML 个文档。
```
<meta name="robots" content="noindex" />
```
为每个文档发送 X-Robots-Tag header。 符合要求的机器人可能会抓取，但不会编制索引。
```
X-Robots-Tag: noindex
```

（为每个请求发送 403 本身可能是一个强烈的信号，表明没有什么有趣的东西可看；但如何处理它当然取决于机器人。）

Prevent robots from indexing a restricted access sub domain