如何解决 robots.txt 漏洞告诉黑客重要和秘密路径?
How to solve robots.txt vlunerability to tell important and secret paths to hackers?
如今robots.txt成为网站SEO的重要工具。通过这个文件,网络开发人员说爬虫机器人检查而不是检查特定路径。但另一方面,网站内部有许多秘密的、重要的目录和文件,它们的路径绝对不能告诉任何人,以降低安全风险。谈论它们就像给小偷一张地图以找到所有门。
问题是 robots.txt 是纯格式的,每个人都容易阅读,因为它几乎以完全读取权限存储在根目录中。所以如果我有这样的文件
User-Agent: *
Disallow:
Disallow: /admin/
我要对所有人(特别是黑客)说:"I have a directory named admin and it must not be crawled"。鉴于我不喜欢别人知道我的网站有这样的目录。
我们如何解决这个问题?
您可以在不想被抓取的页面中使用X-Robots-Tag。
但我真的更喜欢可用的 IP 白名单。
您只能指定 URL 路径的开头。
在 /admin/
的情况下,您可以指定:
Disallow: /adm
您只需要找到只阻止您想要阻止的 URL 的字符串,而不是其他字符串(例如 /administer-better
)。
根据您的 URL 结构,向所有 "secret" URL 添加一个路径段可能是有意义的,并且只在您的 [=23= 中引用该段],而不是以下片段:
Disallow: /private/
# nothing to see when visiting /private/
# the secret URLs are:
# /private/admin/
# /private/login/
如今robots.txt成为网站SEO的重要工具。通过这个文件,网络开发人员说爬虫机器人检查而不是检查特定路径。但另一方面,网站内部有许多秘密的、重要的目录和文件,它们的路径绝对不能告诉任何人,以降低安全风险。谈论它们就像给小偷一张地图以找到所有门。
问题是 robots.txt 是纯格式的,每个人都容易阅读,因为它几乎以完全读取权限存储在根目录中。所以如果我有这样的文件
User-Agent: *
Disallow:
Disallow: /admin/
我要对所有人(特别是黑客)说:"I have a directory named admin and it must not be crawled"。鉴于我不喜欢别人知道我的网站有这样的目录。
我们如何解决这个问题?
您可以在不想被抓取的页面中使用X-Robots-Tag。
但我真的更喜欢可用的 IP 白名单。
您只能指定 URL 路径的开头。
在 /admin/
的情况下,您可以指定:
Disallow: /adm
您只需要找到只阻止您想要阻止的 URL 的字符串,而不是其他字符串(例如 /administer-better
)。
根据您的 URL 结构,向所有 "secret" URL 添加一个路径段可能是有意义的,并且只在您的 [=23= 中引用该段],而不是以下片段:
Disallow: /private/
# nothing to see when visiting /private/
# the secret URLs are:
# /private/admin/
# /private/login/