R - 下载网站,包括所有 .css、.js、图片等

R - download website including all .css, .js, pictures etc

假设我要下载 r-Bloggers.com 的页面。 如果我在 Chrome 中按 Ctrl+S,将下载一个 html 文件和一个包含 58 个文件(.css、.js、图片等)的文件夹

我想从 R 做同样的事情。

我找到了答案并将其包装成 system()system("wget --page-requisites https://www.r-bloggers.com/")

没有给我 58+1 个文件。

同样适用于:

download.file(url = "https://www.r-bloggers.com/", 
              destfile = "try", mode = "wget", extra = "--page-requisites")
download.file(url = "https://www.r-bloggers.com/", 
              destfile = "try.html", mode = "wget", extra = "--page-requisites")

这是因为默认情况下 Wget 只会尝试从同一域下载项目。但是,该网站从不同的主机加载所有内容。

您需要使用 --span-hosts 标志以允许 Wget 访问来自不同主机的文件