无法让 'wget --recursive' 工作
cannot get 'wget --recursive' to work
我要下载此页面:
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset
及其子页面,尤其是 .pdf 文档:
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_thursday_30_oct.pdf
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_hints_for_w45.pdf
etc.
当我发出这个命令时:
$ wget --page-requisites --convert-links --recursive --level=0 --no-check-certificate --no-proxy -E -H -Dnoppa.aalto.fi -k https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset
我得到:
$ ls -R
.:
noppa.aalto.fi
./noppa.aalto.fi:
noppa robots.txt
./noppa.aalto.fi/noppa:
kurssi
./noppa.aalto.fi/noppa/kurssi:
ms-a0210
./noppa.aalto.fi/noppa/kurssi/ms-a0210:
viikkoharjoitukset.html
我尝试了几个 wget 选项,但没有成功。
可能是什么问题?
默认情况下,wget
遵守 robots.txt
个文件,在这种情况下,这些文件不允许所有访问:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/
如果将 -e robots=off
添加到命令行,wget
将不会关心 robots.txt
文件。
我要下载此页面:
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset
及其子页面,尤其是 .pdf 文档:
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_thursday_30_oct.pdf
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_hints_for_w45.pdf
etc.
当我发出这个命令时:
$ wget --page-requisites --convert-links --recursive --level=0 --no-check-certificate --no-proxy -E -H -Dnoppa.aalto.fi -k https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset
我得到:
$ ls -R
.:
noppa.aalto.fi
./noppa.aalto.fi:
noppa robots.txt
./noppa.aalto.fi/noppa:
kurssi
./noppa.aalto.fi/noppa/kurssi:
ms-a0210
./noppa.aalto.fi/noppa/kurssi/ms-a0210:
viikkoharjoitukset.html
我尝试了几个 wget 选项,但没有成功。
可能是什么问题?
默认情况下,wget
遵守 robots.txt
个文件,在这种情况下,这些文件不允许所有访问:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/
如果将 -e robots=off
添加到命令行,wget
将不会关心 robots.txt
文件。