如何使用Scrapy或WGET或其他工具从多个网站下载多个文件
How to download several files from multiple website with Scrapy or WGET or other tools
我的目标是能够在互联网上以经济数据为主进行合法、安全的数据收集。
我希望能够在特定网站(WTO、OECD、IMF 和 WHO)上收集免费提供的 excel 表格和 pdf,并将它们集中在 csv 文件中。
我开始学习 Scrappy 并用 wget 训练自己。但在我更加努力地寻找自己构建东西的方法之前,
我想知道这在技术上是否可行,或者是否有人有在 csv 文件中爬取、收获和存储来自不同网站的多个来源的文档的经验。
我使用 HTTrack URL 下载整个网站或部分网站,但它可以配置为只下载特定页面及其链接,深度仅为 1,也可以只下载特定类型的通过将文件的名称与“+*.xls”或任何适合您的模式匹配来匹配文件。此外,它的 运行 配置已保存,因此可以再次 运行 并可能使用调度程序自动执行。 HTTrack 是免费的开源软件,有 Windows、Linux、OSX、FreeBSD 和 Android 的发行版。有关详细信息,请参阅 https://www.httrack.com/ and https://www.httrack.com/html/filters.html。
我的目标是能够在互联网上以经济数据为主进行合法、安全的数据收集。
我希望能够在特定网站(WTO、OECD、IMF 和 WHO)上收集免费提供的 excel 表格和 pdf,并将它们集中在 csv 文件中。 我开始学习 Scrappy 并用 wget 训练自己。但在我更加努力地寻找自己构建东西的方法之前,
我想知道这在技术上是否可行,或者是否有人有在 csv 文件中爬取、收获和存储来自不同网站的多个来源的文档的经验。
我使用 HTTrack URL 下载整个网站或部分网站,但它可以配置为只下载特定页面及其链接,深度仅为 1,也可以只下载特定类型的通过将文件的名称与“+*.xls”或任何适合您的模式匹配来匹配文件。此外,它的 运行 配置已保存,因此可以再次 运行 并可能使用调度程序自动执行。 HTTrack 是免费的开源软件,有 Windows、Linux、OSX、FreeBSD 和 Android 的发行版。有关详细信息,请参阅 https://www.httrack.com/ and https://www.httrack.com/html/filters.html。