如何防止搜索引擎爬虫将 AWS 上的域编入索引?
How do I prevent search engine crawlers from indexing a domain on AWS?
我们在 .dev
域上有一个暂存环境 运行,在另一个域上有我们的生产环境 运行。
有什么方法可以防止我们的 .dev
域被编入索引吗?
我不希望在搜索产品时在 Google 上找到我们的登台网站。
域托管在 AWS 上,使用 Route 53 和 Cloudfront 作为 CDN。
应用程序托管在 ECS 上,前面有一个负载均衡器。
如果您有权将文件添加到域中,例如S3 bucket, EC2 instance, ECS container instance等,在根目录下放一个robots.txt
文件.
设置内容为:
User-agent: *
Disallow: /
确保允许 public 读取 文件 (object) 以便属于 Google、Bing等可以找到并处理。
这将阻止机器人为您的文件编制索引,从而阻止您的域。
请注意,如果您的生产域指向登台网站,Google 的抓取工具可以仍然 为您的登台网站编制索引,因为搜索引擎抓取工具会从您的产品中抓取。网站到您的暂存网站。
在这种情况下,robots.txt
不会始终阻止网站被编入索引,您需要 X-Robots-Tag: noindex
HTTP 响应 header 为您的 CloudFront 分发文件返回 returns.
在这种情况下,您需要更复杂的解决方案,例如如果您没有网络服务器来处理您的请求,则使用 AWS Lambda@Edge 添加 header。
无论页面是否链接到,这肯定会阻止 Google 建立索引。
我们在 .dev
域上有一个暂存环境 运行,在另一个域上有我们的生产环境 运行。
有什么方法可以防止我们的 .dev
域被编入索引吗?
我不希望在搜索产品时在 Google 上找到我们的登台网站。
域托管在 AWS 上,使用 Route 53 和 Cloudfront 作为 CDN。
应用程序托管在 ECS 上,前面有一个负载均衡器。
如果您有权将文件添加到域中,例如S3 bucket, EC2 instance, ECS container instance等,在根目录下放一个robots.txt
文件.
设置内容为:
User-agent: *
Disallow: /
确保允许 public 读取 文件 (object) 以便属于 Google、Bing等可以找到并处理。
这将阻止机器人为您的文件编制索引,从而阻止您的域。
请注意,如果您的生产域指向登台网站,Google 的抓取工具可以仍然 为您的登台网站编制索引,因为搜索引擎抓取工具会从您的产品中抓取。网站到您的暂存网站。
在这种情况下,robots.txt
不会始终阻止网站被编入索引,您需要 X-Robots-Tag: noindex
HTTP 响应 header 为您的 CloudFront 分发文件返回 returns.
在这种情况下,您需要更复杂的解决方案,例如如果您没有网络服务器来处理您的请求,则使用 AWS Lambda@Edge 添加 header。
无论页面是否链接到,这肯定会阻止 Google 建立索引。