如何解决 robots.txt 漏洞告诉黑客重要和秘密路径?

How to solve robots.txt vlunerability to tell important and secret paths to hackers?

如今robots.txt成为网站SEO的重要工具。通过这个文件,网络开发人员说爬虫机器人检查而不是检查特定路径。但另一方面,网站内部有许多秘密的、重要的目录和文件,它们的路径绝对不能告诉任何人,以降低安全风险。谈论它们就像给小偷一张地图以找到所有门。
问题是 robots.txt 是纯格式的,每个人都容易阅读,因为它几乎以完全读取权限存储在根目录中。所以如果我有这样的文件

User-Agent: *
Disallow: 
Disallow: /admin/

我要对所有人(特别是黑客)说:"I have a directory named admin and it must not be crawled"。鉴于我不喜欢别人知道我的网站有这样的目录。

我们如何解决这个问题?

您可以在不想被抓取的页面中使用X-Robots-Tag。

但我真的更喜欢可用的 IP 白名单。

您只能指定 URL 路径的开头。

/admin/ 的情况下,您可以指定:

Disallow: /adm

您只需要找到只阻止您想要阻止的 URL 的字符串,而不是其他字符串(例如 /administer-better)。

根据您的 URL 结构,向所有 "secret" URL 添加一个路径段可能是有意义的,并且只在您的 [=23= 中引用该段],而不是以下片段:

Disallow: /private/
# nothing to see when visiting /private/ 
# the secret URLs are:
#   /private/admin/
#   /private/login/