如何下载python中的网站源文件?
How to download website source files in python?
给定一个网站(例如whosebug.com)我想下载下面的所有文件:
(Right Click) -> Inspect -> Sources -> Page
请自己尝试,看看得到的文件。
如何在 python 中做到这一点?
我知道如何检索页面源但不知道源文件。
我尝试多次搜索都没有成功,源(文件)和页面源之间存在混淆。
请注意,我正在寻找一种方法或示例,而不是现成的代码。
例如,我想将所有这些文件收集到 top
下:
要下载网站源文件(镜像网站/从网站复制源文件),您可以尝试PyWebCopy
库。
保存任意单页-
from pywebcopy import save_webpage
save_webpage(
url="https://httpbin.org/",
project_folder="E://savedpages//",
project_name="my_site",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False,
)
要保存完整的网站 -
from pywebcopy import save_website
save_website(
url="https://httpbin.org/",
project_folder="E://savedpages//",
project_name="my_site",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False,
)
您还可以查看 httrack 等工具,它带有用于下载网站文件(镜像)的 GUI。
另一方面下载web-page源代码(HTML页)-
import requests
url = '
html_output_name = 'test2.html'
req = requests.get(url, 'html.parser', headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'})
with open(html_output_name, 'w') as f:
f.write(req.text)
f.close()
给定一个网站(例如whosebug.com)我想下载下面的所有文件:
(Right Click) -> Inspect -> Sources -> Page
请自己尝试,看看得到的文件。
如何在 python 中做到这一点? 我知道如何检索页面源但不知道源文件。
我尝试多次搜索都没有成功,源(文件)和页面源之间存在混淆。
请注意,我正在寻找一种方法或示例,而不是现成的代码。
例如,我想将所有这些文件收集到 top
下:
要下载网站源文件(镜像网站/从网站复制源文件),您可以尝试PyWebCopy
库。
保存任意单页-
from pywebcopy import save_webpage
save_webpage(
url="https://httpbin.org/",
project_folder="E://savedpages//",
project_name="my_site",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False,
)
要保存完整的网站 -
from pywebcopy import save_website
save_website(
url="https://httpbin.org/",
project_folder="E://savedpages//",
project_name="my_site",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False,
)
您还可以查看 httrack 等工具,它带有用于下载网站文件(镜像)的 GUI。
另一方面下载web-page源代码(HTML页)-
import requests
url = '
html_output_name = 'test2.html'
req = requests.get(url, 'html.parser', headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'})
with open(html_output_name, 'w') as f:
f.write(req.text)
f.close()