无法让 'wget --recursive' 工作

Question

我要下载此页面：

https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset

及其子页面，尤其是 .pdf 文档：

https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_thursday_30_oct.pdf
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_hints_for_w45.pdf
etc.

当我发出这个命令时：

$ wget --page-requisites --convert-links --recursive --level=0 --no-check-certificate --no-proxy -E -H -Dnoppa.aalto.fi -k https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset

我得到：

$ ls -R
.:
noppa.aalto.fi

./noppa.aalto.fi:
noppa  robots.txt

./noppa.aalto.fi/noppa:
kurssi

./noppa.aalto.fi/noppa/kurssi:
ms-a0210

./noppa.aalto.fi/noppa/kurssi/ms-a0210:
viikkoharjoitukset.html

我尝试了几个 wget 选项，但没有成功。

可能是什么问题？

Answer 1

默认情况下，wget 遵守 robots.txt 个文件，在这种情况下，这些文件不允许所有访问：

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/

如果将 -e robots=off 添加到命令行，wget 将不会关心 robots.txt 文件。

无法让 'wget --recursive' 工作

cannot get 'wget --recursive' to work

https

wget