防止使用 htaccess 索引 PDF 文件

Preventing indexing of PDF files with htaccess

我网站上的不同文件夹中有大量 PDF 文件。我需要防止它们被 Google 使用 .htaccess 索引(因为 robots.txt 显然不会阻止索引其他页面 link 到文件)。

但是,我尝试将以下内容添加到我的 .htaccess 文件中:

<Files ~ "\.pdf$">
Header append X-Robots-Tag "noindex, nofollow, noarchive, nosnippet"
</Files>

无济于事; PDF 文件在谷歌搜索 "site:mysite.com pdf" 时仍然显示,即使在我要求 Google 重新索引网站后也是如此。

我无法选择在别处托管文件或使用登录系统保护它们;我真的很想简单地获取 htaccess 文件来完成这项工作。我错过了什么?

只需将其粘贴到您的 htaccess 文件中,使用 set 而不是 append

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

正如我在另一个答案的评论中看到的,我理解 您正在寻找删除已由 google 完成的索引 file/folder。如果您阻止任何人直接访问,您可以使用以下方法暂时禁止它。

首先,让我给你一个解决方法

之后我会让你知道你可以做什么,这会花费更长的时间。

<Files "path/to/pdf/* ">  

    Order Allow,Deny
    Deny from all
    Require all denied
</Files>

这样,给定目录中的所有 files/folders 都将被禁止在 HTTP 方法中使用。这意味着您只能以编程方式访问它以发送附件或删除或其他内容,但用户将无法查看这些。

您可以在服务器端创建一个脚本,该脚本将在内部访问文件并使用解析而不是直接显示文件 URL。(假设数据目前是关键的)。

例子

$contents = file_get_contents($filePath);
header('Content-Type: ' . mime_content_type($filePath));
header('Content-Length: ' . filesize($filePath));
echo $contents;

索引与禁止(现在不需要这个)

防止索引基本上防止此 folder/files 被 google 机器人或搜索引擎机器人索引,任何直接访问的人仍然可以查看该文件。

在禁止的情况下,没有外部entity/users/bots能够see/access这个file/folder。

如果您最近禁止访问您的 pdf 文件夹,Google 可能仍然可以看到它,直到 Googlebot 再次访问您的网站并找到丢失的文件夹或您提到noindex 该特定文件夹。

You can read more about crawler rate on https://support.google.com/webmasters/answer/48620?hl=en

If you still want these to remove, you can visit the Google search console and request the same. visit: https://www.google.com/webmasters/tools/googlebot-report?pli=1