PDI - 如何跳过已经处理过的文件？

PDI - how to skip file that have already processed?

看看我下面的工作和转型:

我想处理来自 FTP 和共享文件夹的文件。如果有新文件，我的团队每天都会将 CSV 文件放在那里。 FTP 和共享文件夹中的文件将保留至 7 天后被删除。

我的问题是，如果前一天我已经处理了 A.csv、B.csv，那么今天我只想处理 C.csv 而没有 A.csv、B.csv即使文件仍在同一个文件夹中，我也不想移动或删除已经处理过的文件。我该怎么做？

使用 "Process result filenames" 步骤和操作 "Copy" 以及同一目录中的系统时间戳 [获取系统信息步骤]（文件处理时间戳）重命名文件并删除原始文件。有了这个，您将拥有相同的文件 folder/directory 并且处理过的文件将附加时间戳。在这种情况下，即使您重新运行作业，已处理的文件也不会因为文件名的更改而被挑选出来进行处理。

最好创建一个table并存储处理后的文件名。添加步骤以检查 table 中是否存在文件名。如果不存在则处理文件否则跳过文件

PDI - 如何跳过已经处理过的文件？

PDI - how to skip file that have already processed?

kettle

pdi

pentaho-data-integration