从网页获取所有链接文件

Question

第一次发帖！我试图获取此网站上链接的所有 .csv 文件 https://promo.betfair.com/betfairsp/prices 但是当我使用 wget 函数时它实际上并没有获取文件（创建一个以网站的 txt 形式打开的价格文件）。

wget -r --no-parent -e robots=off https://promo.betfair.com/betfairsp/prices

任何想法或帮助将不胜感激！谢谢！

Answer 1

我建议有一种方法可以从您提供的 link 下载所有 csv 文件。

使用开发人员控制台运行 a JavaScript 获取站点中的所有 href link。

注意：由于此特定站点中的所有 link 都是 csv file.we 将仅获取 csv 文件 link.

var urls = [];
for(var i = document.links.length; i --> 0;)
    if(document.links[i].hostname === location.hostname)
        urls.push(document.links[i].href);

现在我们有一个带有 links (url) 的 js 数组，将其转换为 json 以作为文本文件下载

function download(content, fileName, contentType) {
    var a = document.createElement("a");
    var file = new Blob([content], {type: contentType});
    a.href = URL.createObjectURL(file);
    a.download = fileName;
    a.click();
}
download(urls, 'json.txt', 'text/plain');

格式化文本文件，以便我们可以对其执行批量 wget 操作。
wget -i json.txt 下载 csv 文件

从网页获取所有链接文件

wget all linked files from a webpage

wget