在继续处理列之前,使用 Talend Open Studio DI 从唯一的第一行中提取提取值

Using Talend Open Studio DI to extract extract value from unique 1st row before continuing to process columns

我有许多 excel 文件,其中 table 的 header 行上方有一行文本(和空白行)。

处理文件的最佳方式是什么,以便我可以从该行中提取文本并将其作为列包含在附加多个文件时?是否可以不必处理每个文件两次?

例子

This file was created on machine A on 01/02/2013

Task|Quantity|ErrorRate

0102|4550|6 per minute
0103|4004|5 per minute

最后得到来自多个相似文件的数据

Task|Quantity|ErrorRate|Machine|Date
0102|4550|6 per minute|machine A|01/02/2013
0103|4004|5 per minute|machine A|01/02/2013
0467|1264|2 per minute|machine D|02/02/2013

我整理了一个关于如何完成的小而粗略的示例。我称它为粗糙,因为 a。它不是动态的,您可以添加更多文件进行处理,但您需要在构建作业之前知道有多少文件,以及 b。它显示了基本概念,但需要做更多的工作才能满足您的需求。例如,在我的测试文件中,第一行只有 "MachineA" 或 "MachineB"。您将需要解析该数据以获得机器名称和日期。

但以下是示例的工作原理。每个 Excel 都设置为两个输入。对于 header,tFileInput_Excel 配置为仅读取第一行,而 body tFileInput_Excel 配置为从第 4 行开始读取。

tMap 中,它们被组合(未连接)到输出架构中。这是针对机器 A Excel 完成的,机器 B 表现出色,然后将那些 tMapstUnite 组合以获得最终输出。

正如您在日志行中看到的那样,数据已合并并包含 header 信息。