使用 Apache Beam 从 SFTP 位置读取文件

Reading files from a SFTP location using Apache Beam

我只是有几个关于实现 $subject 的问题。我有一个 FTP 位置,我想使用光束管道读取这些文件并进行一些处理。我基本上想每隔一分钟从 FTP 位置读取文件列表并进行处理。你对此有什么看法吗?

我已经为处理部分编写了管道,只是每隔一分钟就很难读取 FTP 位置。

如有任何帮助,我们将不胜感激。

您可以使用 Beam 中的 GenerateSequence 转换来执行类似的操作。应该是这样的:

pipeline.apply(GenerateSequence.from(0).withRate(1, standardMinutes(1))
    .apply(ParDo.of(new ListAllFilesInFtpFn(serverAddress))
    .apply(ParDo.of(new DownloadFilesFromFtpFn(serverAddress));

这有意义吗?