如何下载python中的网站源文件?

How to download website source files in python?

给定一个网站(例如whosebug.com)我想下载下面的所有文件:

(Right Click) -> Inspect -> Sources -> Page

请自己尝试,看看得到的文件。

如何在 python 中做到这一点? 我知道如何检索页面源但不知道源文件。

我尝试多次搜索都没有成功,源(文件)和页面源之间存在混淆。

请注意,我正在寻找一种方法或示例,而不是现成的代码。

例如,我想将所有这些文件收集到 top 下:

要下载网站源文件(镜像网站/从网站复制源文件),您可以尝试PyWebCopy库。

保存任意单页-

from pywebcopy import save_webpage
save_webpage(
      url="https://httpbin.org/",
      project_folder="E://savedpages//",
      project_name="my_site",
      bypass_robots=True,
      debug=True,
      open_in_browser=True,
      delay=None,
      threaded=False,
)

要保存完整的网站 -

from pywebcopy import save_website
save_website(
url="https://httpbin.org/",
project_folder="E://savedpages//",
project_name="my_site",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False,
)

您还可以查看 httrack 等工具,它带有用于下载网站文件(镜像)的 GUI。

另一方面下载web-page源代码(HTML页)-

import requests

url = '
html_output_name = 'test2.html'

req = requests.get(url, 'html.parser', headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'})

with open(html_output_name, 'w') as f:
    f.write(req.text)
    f.close()