防止机器人索引受限访问子域
Prevent robots from indexing a restricted access sub domain
我有一个子域设置,我 return 除了一个 IP 之外的所有 IP 都是 403。
我还想避免网站被搜索引擎索引,这就是为什么我在子域的根目录中添加了 robots.txt。
但是,由于我 return 对那个子域的每个请求都是 403,所以爬虫在请求 robots.txt 文件时也会收到 403。
根据 google,如果 robots,txt returns 是 403,它仍会尝试抓取网站。
这附近有没有?渴望听到你的想法。
使用 robots.txt 您可以禁止 抓取 ,而不是 索引 。
您可以禁止使用 HTML meta
-robots
或相应的 HTTP header X-Robots-Tag
.[=20 建立索引(但不是抓取) =]
所以你有三个选择:
白名单 /robots.txt
以便它回答 200。 符合要求的机器人不会在您的主机上抓取任何内容(除了 robots.txt), 但如果他们以某种方式找到它们(例如,如果从另一个站点链接),他们可能会索引 URL。
User-agent: *
Disallow: /
向每个页面添加一个 meta
-robots
元素。 符合要求的机器人可能会抓取,但不会编制索引。但这仅适用于 HTML 个文档。
<meta name="robots" content="noindex" />
为每个文档发送 X-Robots-Tag
header。 符合要求的机器人可能会抓取,但不会编制索引。
X-Robots-Tag: noindex
(为每个请求发送 403 本身可能是一个强烈的信号,表明没有什么有趣的东西可看;但如何处理它当然取决于机器人。)
我有一个子域设置,我 return 除了一个 IP 之外的所有 IP 都是 403。 我还想避免网站被搜索引擎索引,这就是为什么我在子域的根目录中添加了 robots.txt。
但是,由于我 return 对那个子域的每个请求都是 403,所以爬虫在请求 robots.txt 文件时也会收到 403。
根据 google,如果 robots,txt returns 是 403,它仍会尝试抓取网站。
这附近有没有?渴望听到你的想法。
使用 robots.txt 您可以禁止 抓取 ,而不是 索引 。
您可以禁止使用 HTML meta
-robots
或相应的 HTTP header X-Robots-Tag
.[=20 建立索引(但不是抓取) =]
所以你有三个选择:
白名单
/robots.txt
以便它回答 200。 符合要求的机器人不会在您的主机上抓取任何内容(除了 robots.txt), 但如果他们以某种方式找到它们(例如,如果从另一个站点链接),他们可能会索引 URL。User-agent: * Disallow: /
向每个页面添加一个
meta
-robots
元素。 符合要求的机器人可能会抓取,但不会编制索引。但这仅适用于 HTML 个文档。<meta name="robots" content="noindex" />
为每个文档发送
X-Robots-Tag
header。 符合要求的机器人可能会抓取,但不会编制索引。X-Robots-Tag: noindex
(为每个请求发送 403 本身可能是一个强烈的信号,表明没有什么有趣的东西可看;但如何处理它当然取决于机器人。)