Talend 迭代 tTikaExtractor

Talend iterate on tTikaExtractor

我正在尝试使用 tTikaExtractor 组件提取文件夹中多个文件的内容。

它正在处理单个文件,但是当我添加 tFileList 组件时,我不明白如何获取这 2 个不同文件的内容。

我认为它与 flow/iterations 有关,但我无法让它发挥作用。

例如,我有这个简单的工作:

tFileList -(迭代)-> tTikaExtractor -(onComponentOk)-> tJava -(row1)-> tFileOutputJSON

在我的 java 组件中我只有这个 :

String content = (String) globalMap.get("tTikaExtractor_1_CONTENT");
row1.content=content;

但在我的 json 输出中,我只输出最后一个文件的内容,而不是所有文件的内容!

你能帮我解决这个问题吗?

因为您没有将记录附加到输出中,所以它正在一条一条地写入记录,因此最终只有最后一条记录在文件中可用。

也许您可以先将所有行写入分隔文件,然后使用 tFileInputDelimited--main--tFileOutputJSON

传输所有行。