R - 下载网站,包括所有 .css、.js、图片等
R - download website including all .css, .js, pictures etc
假设我要下载 r-Bloggers.com 的页面。
如果我在 Chrome 中按 Ctrl+S,将下载一个 html 文件和一个包含 58 个文件(.css、.js、图片等)的文件夹
我想从 R 做同样的事情。
我找到了答案并将其包装成 system()
:system("wget --page-requisites https://www.r-bloggers.com/")
没有给我 58+1 个文件。
同样适用于:
download.file(url = "https://www.r-bloggers.com/",
destfile = "try", mode = "wget", extra = "--page-requisites")
download.file(url = "https://www.r-bloggers.com/",
destfile = "try.html", mode = "wget", extra = "--page-requisites")
这是因为默认情况下 Wget 只会尝试从同一域下载项目。但是,该网站从不同的主机加载所有内容。
您需要使用 --span-hosts
标志以允许 Wget 访问来自不同主机的文件
假设我要下载 r-Bloggers.com 的页面。 如果我在 Chrome 中按 Ctrl+S,将下载一个 html 文件和一个包含 58 个文件(.css、.js、图片等)的文件夹
我想从 R 做同样的事情。
我找到了答案并将其包装成 system()
:system("wget --page-requisites https://www.r-bloggers.com/")
没有给我 58+1 个文件。
同样适用于:
download.file(url = "https://www.r-bloggers.com/",
destfile = "try", mode = "wget", extra = "--page-requisites")
download.file(url = "https://www.r-bloggers.com/",
destfile = "try.html", mode = "wget", extra = "--page-requisites")
这是因为默认情况下 Wget 只会尝试从同一域下载项目。但是,该网站从不同的主机加载所有内容。
您需要使用 --span-hosts
标志以允许 Wget 访问来自不同主机的文件