如何阻止 google-bot 为我的 s3 存储桶中的文件夹编制索引？

Question

我有一个带有静态网站托管设置 + 云端的 amazon s3 存储桶。我在 s3 存储桶 [ example.com/Books ] 中有一个文件夹，其中包含 pdf 文件。我已在 google 搜索控制台 [不包含任何 pdf 网址] 中提交了站点地图，但 google 正在搜索结果中为 pdf 文件编制索引。

在搜索控制台中，我添加了一个请求，要求从搜索结果中删除前缀为 [example.com/Books/*] 的所有网址，并立即删除。我搜索了如何停止索引文件和文件夹，发现我必须添加 " X-Robots-Tag: noindex " 作为 http header 元数据。如何将其添加到 s3 存储桶？我已将自定义元数据添加到文件夹 'Books' x-amz-meta-X-Robots-Tag: noindex.

我读过许多帖子，其中写道我不应该阻止机器人使用 Robots.txt 访问该文件夹，因为它不会告诉搜索引擎 "noindex " http header 我已添加到该文件夹。现在该怎么办？

Answer 1

您可以使用 robots.txt 它适用于所有搜索引擎机器人。

robots.txt 使用与我给定的完全相同的文件名。

User-agent: *
Disallow: /foldername/

Answer 2

在通过 CloudFront URL 访问这些文件时，我不得不使用 Lambda@Edge 函数来编辑那些原始响应 headers。 [您已连接到 CloudFront 分配的自定义域]。从响应 HTTP header 中，我们必须从 user-defined header 的 'keyname' 中删除 x-amz-meta-header-，因此爬虫将找到 X-Robots-Tag： noindex as HTTP header 同时访问这些文件并遵循其协议。更多信息可用 here

如何阻止 google-bot 为我的 s3 存储桶中的文件夹编制索引？

How to stop google-bot from indexing a folder inside my s3 bucket?

amazon-s3

amazon-cloudfront

google-search-console

x-robots-tag