在继续处理列之前,使用 Talend Open Studio DI 从唯一的第一行中提取提取值
Using Talend Open Studio DI to extract extract value from unique 1st row before continuing to process columns
我有许多 excel 文件,其中 table 的 header 行上方有一行文本(和空白行)。
处理文件的最佳方式是什么,以便我可以从该行中提取文本并将其作为列包含在附加多个文件时?是否可以不必处理每个文件两次?
例子
This file was created on machine A on 01/02/2013
Task|Quantity|ErrorRate
0102|4550|6 per minute
0103|4004|5 per minute
最后得到来自多个相似文件的数据
Task|Quantity|ErrorRate|Machine|Date
0102|4550|6 per minute|machine A|01/02/2013
0103|4004|5 per minute|machine A|01/02/2013
0467|1264|2 per minute|machine D|02/02/2013
我整理了一个关于如何完成的小而粗略的示例。我称它为粗糙,因为 a。它不是动态的,您可以添加更多文件进行处理,但您需要在构建作业之前知道有多少文件,以及 b。它显示了基本概念,但需要做更多的工作才能满足您的需求。例如,在我的测试文件中,第一行只有 "MachineA" 或 "MachineB"。您将需要解析该数据以获得机器名称和日期。
但以下是示例的工作原理。每个 Excel 都设置为两个输入。对于 header,tFileInput_Excel
配置为仅读取第一行,而 body tFileInput_Excel
配置为从第 4 行开始读取。
在 tMap
中,它们被组合(未连接)到输出架构中。这是针对机器 A Excel 完成的,机器 B 表现出色,然后将那些 tMaps
与 tUnite
组合以获得最终输出。
正如您在日志行中看到的那样,数据已合并并包含 header 信息。
我有许多 excel 文件,其中 table 的 header 行上方有一行文本(和空白行)。
处理文件的最佳方式是什么,以便我可以从该行中提取文本并将其作为列包含在附加多个文件时?是否可以不必处理每个文件两次?
例子
This file was created on machine A on 01/02/2013
Task|Quantity|ErrorRate
0102|4550|6 per minute
0103|4004|5 per minute
最后得到来自多个相似文件的数据
Task|Quantity|ErrorRate|Machine|Date
0102|4550|6 per minute|machine A|01/02/2013
0103|4004|5 per minute|machine A|01/02/2013
0467|1264|2 per minute|machine D|02/02/2013
我整理了一个关于如何完成的小而粗略的示例。我称它为粗糙,因为 a。它不是动态的,您可以添加更多文件进行处理,但您需要在构建作业之前知道有多少文件,以及 b。它显示了基本概念,但需要做更多的工作才能满足您的需求。例如,在我的测试文件中,第一行只有 "MachineA" 或 "MachineB"。您将需要解析该数据以获得机器名称和日期。
但以下是示例的工作原理。每个 Excel 都设置为两个输入。对于 header,tFileInput_Excel
配置为仅读取第一行,而 body tFileInput_Excel
配置为从第 4 行开始读取。
在 tMap
中,它们被组合(未连接)到输出架构中。这是针对机器 A Excel 完成的,机器 B 表现出色,然后将那些 tMaps
与 tUnite
组合以获得最终输出。
正如您在日志行中看到的那样,数据已合并并包含 header 信息。