如何使用 Pentaho Data Integration - Spoon (Kettle) 从 HTTPS URL 下载 CSV 文件?

How to download a CSV from a HTTPS URL to file using Pentaho Data Integration - Spoon (Kettle)?

在谷歌搜索这个问题时,它似乎已经被问过,并且部分(而且很差)回答了很多次,主要是针对旧版本。

问题:我如何将 CSV 下载到本地文件,具有以下限制?我在 Spoon 中设计。

URL:永远不变。 https://example.com/data/my.csv。该网站准备好 csv,并在大约 4-5 秒后将其作为文件下载提供回 Web 客户端。在浏览器中,这意味着它被下载为 .csv,而不是显示。

Authentication: 该网站不需要身份验证即可访问。数据不敏感。

本地文件路径: 下载的CSV会覆盖已有的csv。例如:d:\data\my.csv。也就是说,我可以将其设置为计时器,让它每隔一小时左右下载一次最新的 csv。

Proxy:我很可能需要遍历网络代理。例如 badproxy.mynetwork.internal:8080 并且该代理需要用户名和密码。如果我可以将此密码设置在一个位置,这样就更好了,这样以后创建的任何东西都可以引用它。也不太确定如何处理这个问题。

我的流程的其余部分专注于处理 csv 的内容,并且已经运行良好。

我在 google 上找到的进程显示使用 Http Client 组件,尽管它如何转换为本地保存到已知位置的文件并不是特别简单。

感谢您的指点。

PDI v9.0.0.0-423

需要触发 HTTP 客户端步骤。使用行生成器步骤生成例如1 个空行和 link 跳转到 HTTP 客户端步骤。 对于您的解决方案,试试这个: 数据网格-->HTTP客户端-->CSV文件输入->文本文件输出(扩展名为csv)