从网页获取所有链接文件

wget all linked files from a webpage

第一次发帖!我试图获取此网站上链接的所有 .csv 文件 https://promo.betfair.com/betfairsp/prices 但是当我使用 wget 函数时它实际上并没有获取文件(创建一个以网站的 txt 形式打开的价格文件)。

wget -r --no-parent -e robots=off https://promo.betfair.com/betfairsp/prices

任何想法或帮助将不胜感激! 谢谢!

我建议有一种方法可以从您提供的 link 下载所有 csv 文件。

  1. 使用开发人员控制台 运行 a JavaScript 获取站点中的所有 href link。

注意:由于此特定站点中的所有 link 都是 csv file.we 将仅获取 csv 文件 link.

var urls = [];
for(var i = document.links.length; i --> 0;)
    if(document.links[i].hostname === location.hostname)
        urls.push(document.links[i].href);
  1. 现在我们有一个带有 links (url) 的 js 数组,将其转换为 json 以作为文本文件下载
function download(content, fileName, contentType) {
    var a = document.createElement("a");
    var file = new Blob([content], {type: contentType});
    a.href = URL.createObjectURL(file);
    a.download = fileName;
    a.click();
}
download(urls, 'json.txt', 'text/plain');
  1. 格式化文本文件,以便我们可以对其执行批量 wget 操作。
  2. wget -i json.txt 下载 csv 文件