PDI - 如何跳过已经处理过的文件?
PDI - how to skip file that have already processed?
看看我下面的工作和转型:
我想处理来自 FTP 和共享文件夹的文件。如果有新文件,我的团队每天都会将 CSV 文件放在那里。 FTP 和共享文件夹中的文件将保留至 7 天后被删除。
我的问题是,如果前一天我已经处理了 A.csv、B.csv,那么今天我只想处理 C.csv 而没有 A.csv、B.csv即使文件仍在同一个文件夹中,我也不想移动或删除已经处理过的文件。我该怎么做?
使用 "Process result filenames" 步骤和操作 "Copy" 以及同一目录中的系统时间戳 [获取系统信息步骤](文件处理时间戳)重命名文件并删除原始文件。有了这个,您将拥有相同的文件 folder/directory 并且处理过的文件将附加时间戳。在这种情况下,即使您重新运行作业,已处理的文件也不会因为文件名的更改而被挑选出来进行处理。
最好创建一个table并存储处理后的文件名。添加步骤以检查 table 中是否存在文件名。如果不存在则处理文件否则跳过文件
看看我下面的工作和转型:
我想处理来自 FTP 和共享文件夹的文件。如果有新文件,我的团队每天都会将 CSV 文件放在那里。 FTP 和共享文件夹中的文件将保留至 7 天后被删除。
我的问题是,如果前一天我已经处理了 A.csv、B.csv,那么今天我只想处理 C.csv 而没有 A.csv、B.csv即使文件仍在同一个文件夹中,我也不想移动或删除已经处理过的文件。我该怎么做?
使用 "Process result filenames" 步骤和操作 "Copy" 以及同一目录中的系统时间戳 [获取系统信息步骤](文件处理时间戳)重命名文件并删除原始文件。有了这个,您将拥有相同的文件 folder/directory 并且处理过的文件将附加时间戳。在这种情况下,即使您重新运行作业,已处理的文件也不会因为文件名的更改而被挑选出来进行处理。
最好创建一个table并存储处理后的文件名。添加步骤以检查 table 中是否存在文件名。如果不存在则处理文件否则跳过文件