如何下载python中的网站源文件？

Question

给定一个网站（例如whosebug.com）我想下载下面的所有文件：

(Right Click) -> Inspect -> Sources -> Page

请自己尝试，看看得到的文件。

如何在 python 中做到这一点？ 我知道如何检索页面源但不知道源文件。

我尝试多次搜索都没有成功，源（文件）和页面源之间存在混淆。

请注意，我正在寻找一种方法或示例，而不是现成的代码。

例如，我想将所有这些文件收集到 top 下：

Answer 1

要下载网站源文件（镜像网站/从网站复制源文件），您可以尝试PyWebCopy库。

保存任意单页-

from pywebcopy import save_webpage
save_webpage(
      url="https://httpbin.org/",
      project_folder="E://savedpages//",
      project_name="my_site",
      bypass_robots=True,
      debug=True,
      open_in_browser=True,
      delay=None,
      threaded=False,
)

要保存完整的网站 -

from pywebcopy import save_website
save_website(
url="https://httpbin.org/",
project_folder="E://savedpages//",
project_name="my_site",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False,
)

您还可以查看 httrack 等工具，它带有用于下载网站文件（镜像）的 GUI。

另一方面下载web-page源代码（HTML页）-

import requests

url = '
html_output_name = 'test2.html'

req = requests.get(url, 'html.parser', headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'})

with open(html_output_name, 'w') as f:
    f.write(req.text)
    f.close()

如何下载python中的网站源文件？

How to download website source files in python?

beautifulsoup

web-scraping