在继续处理列之前，使用 Talend Open Studio DI 从唯一的第一行中提取提取值

Question

我有许多 excel 文件，其中 table 的 header 行上方有一行文本（和空白行）。

处理文件的最佳方式是什么，以便我可以从该行中提取文本并将其作为列包含在附加多个文件时？是否可以不必处理每个文件两次？

例子

This file was created on machine A on 01/02/2013

Task|Quantity|ErrorRate

0102|4550|6 per minute
0103|4004|5 per minute

最后得到来自多个相似文件的数据

Task|Quantity|ErrorRate|Machine|Date
0102|4550|6 per minute|machine A|01/02/2013
0103|4004|5 per minute|machine A|01/02/2013
0467|1264|2 per minute|machine D|02/02/2013

Answer 1

我整理了一个关于如何完成的小而粗略的示例。我称它为粗糙，因为 a。它不是动态的，您可以添加更多文件进行处理，但您需要在构建作业之前知道有多少文件，以及 b。它显示了基本概念，但需要做更多的工作才能满足您的需求。例如，在我的测试文件中，第一行只有 "MachineA" 或 "MachineB"。您将需要解析该数据以获得机器名称和日期。

但以下是示例的工作原理。每个 Excel 都设置为两个输入。对于 header，tFileInput_Excel 配置为仅读取第一行，而 body tFileInput_Excel 配置为从第 4 行开始读取。

在 tMap 中，它们被组合（未连接）到输出架构中。这是针对机器 A Excel 完成的，机器 B 表现出色，然后将那些 tMaps 与 tUnite 组合以获得最终输出。

正如您在日志行中看到的那样，数据已合并并包含 header 信息。

在继续处理列之前，使用 Talend Open Studio DI 从唯一的第一行中提取提取值

Using Talend Open Studio DI to extract extract value from unique 1st row before continuing to process columns

data-integration

talend