提取存储的 html 文件的 URL

Extract the URL of stored html file

我存储了一些 html 文件并重命名了它们。有什么可能的方法可以提取 python.

中 html 文件的 URL

编辑: 我希望找到 .html 文件的 URL 而不是其中存在的链接。我正在寻找一种通用方法,因为我有很多文件。

只有当文件本身包含 URL 时才有可能,这不是很常见。所以这取决于你下载的文件。查找 <link rel="canonical" ...>,因为这是搜索引擎 recommend 将规范地址发布到网页的方式。如果他们有那个标签,你可以使用那个 URL.

不然你就倒霉了。您应该重写您的爬虫以将 URL 与文档一起保存。