防止机器人索引受限访问子域

Prevent robots from indexing a restricted access sub domain

我有一个子域设置,我 return 除了一个 IP 之外的所有 IP 都是 403。 我还想避免网站被搜索引擎索引,这就是为什么我在子域的根目录中添加了 robots.txt。

但是,由于我 return 对那个子域的每个请求都是 403,所以爬虫在请求 robots.txt 文件时也会收到 403。

根据 google,如果 robots,txt returns 是 403,它仍会尝试抓取网站。

这附近有没有?渴望听到你的想法。

使用 robots.txt 您可以禁止 抓取 ,而不是 索引

您可以禁止使用 HTML meta-robots 或相应的 HTTP header X-Robots-Tag.[=20 建立索引(但不是抓取) =]

所以你有三个选择:

  • 白名单 /robots.txt 以便它回答 200。 符合要求的机器人不会在您的主机上抓取任何内容(除了 robots.txt), 但如果他们以某种方式找到它们(例如,如果从另一个站点链接),他们可能会索引 URL。

    User-agent: *
    Disallow: /
    
  • 向每个页面添加一个 meta-robots 元素。 符合要求的机器人可能会抓取,但不会编制索引。但这仅适用于 HTML 个文档。

    <meta name="robots" content="noindex" />
    
  • 为每个文档发送 X-Robots-Tag header。 符合要求的机器人可能会抓取,但不会编制索引。

    X-Robots-Tag: noindex
    

(为每个请求发送 403 本身可能是一个强烈的信号,表明没有什么有趣的东西可看;但如何处理它当然取决于机器人。)