使用regEx使用wget下载整个目录
Using regEx to download the entire directory using wget
我想从这样的网址下载多个 pdf - https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf
如果我在完成时执行 wget URL 然后它会下载文件 wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf
但是如果我尝试递归下载整个文件夹然后它 returns 403(禁止访问)
wget -r https://dummy.site.com/aabbcc/xyz/
我已经尝试过设置用户代理,拒绝 robots.txt 和互联网上的许多其他解决方案,但我又回到了同样的观点。
所以我想形成所有可能的 URL 的列表,将给定的 URL 视为常见模式,但不知道该怎么做。
我只知道我可以将该文件作为输入传递给 wget,wget 将递归下载文件。因此,请在此处寻求使用正则表达式形成 URL 列表的帮助。
谢谢!
您无法使用通配符下载您看不到的文件。如果主机不支持目录列表,您不知道 filenames/paths 是什么。另外,由于您不知道生成文件名的算法,因此您无法生成并获取它们。
我想从这样的网址下载多个 pdf - https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf
如果我在完成时执行 wget URL 然后它会下载文件 wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf
但是如果我尝试递归下载整个文件夹然后它 returns 403(禁止访问)
wget -r https://dummy.site.com/aabbcc/xyz/
我已经尝试过设置用户代理,拒绝 robots.txt 和互联网上的许多其他解决方案,但我又回到了同样的观点。
所以我想形成所有可能的 URL 的列表,将给定的 URL 视为常见模式,但不知道该怎么做。
我只知道我可以将该文件作为输入传递给 wget,wget 将递归下载文件。因此,请在此处寻求使用正则表达式形成 URL 列表的帮助。 谢谢!
您无法使用通配符下载您看不到的文件。如果主机不支持目录列表,您不知道 filenames/paths 是什么。另外,由于您不知道生成文件名的算法,因此您无法生成并获取它们。