如何使用Scrapy或WGET或其他工具从多个网站下载多个文件

How to download several files from multiple website with Scrapy or WGET or other tools

我的目标是能够在互联网上以经济数据为主进行合法、安全的数据收集。

我希望能够在特定网站（WTO、OECD、IMF 和 WHO）上收集免费提供的 excel 表格和 pdf，并将它们集中在 csv 文件中。我开始学习 Scrappy 并用 wget 训练自己。但在我更加努力地寻找自己构建东西的方法之前，

我想知道这在技术上是否可行，或者是否有人有在 csv 文件中爬取、收获和存储来自不同网站的多个来源的文档的经验。

我使用 HTTrack URL 下载整个网站或部分网站，但它可以配置为只下载特定页面及其链接，深度仅为 1，也可以只下载特定类型的通过将文件的名称与“+*.xls”或任何适合您的模式匹配来匹配文件。此外，它的运行配置已保存，因此可以再次运行并可能使用调度程序自动执行。 HTTrack 是免费的开源软件，有 Windows、Linux、OSX、FreeBSD 和 Android 的发行版。有关详细信息，请参阅 https://www.httrack.com/ and https://www.httrack.com/html/filters.html。

如何使用Scrapy或WGET或其他工具从多个网站下载多个文件

How to download several files from multiple website with Scrapy or WGET or other tools

csv

pdf

excel

web-crawler

scrapy