在水壶中获取数据源

Get data's source in kettle

当我使用 kettle 时,我正在徘徊如何获得 table 列的源列。举个例子,在我已经根据主键将两个table合并为一个table之后,给定输出table中的任何列,我可以判断是否table它属于并获取原始table中的原始列名。感谢您的帮助,抱歉我的英语不好...

http://i.stack.imgur.com/xoR0s.png

当我在 table3 中得到任何字段时(假设在 table3 中有一个名为 A 的字段),我可以在没有图形视图的情况下知道它来自哪里(来自 java 代码或其他方式),例如原始的 table 名称(这里是 input1 或 input2)和原始列名称(可能是 input1 中的 B,但在 table3 中表示 A)。此外我使用 mysql.

有几种方法可以做到这一点:

1) 手动。如果您右键单击输出步骤并选择显示输出字段(或任何名称),您将看到每个输出字段的 "origin step"。您可以对输入字段执行相同的操作。然后您可以将它们追溯到那些原始步骤,并重复在这些步骤查看输入字段的过程,并查看这些字段的来源,等等。这可能不是您要找的。

2) 带代码。在 6.0 之前,您需要以编程方式执行上面选项 1 中列出的相同操作。在 6.0 中有 Data Lineage 功能,它提供了 LineageClient API that can find the origin fields for the specified output fields. For more information see my blog post 描述 Data Lineage 功能。此外,我还在 PDI 市场中放置了一个 Gremlin 控制台,以便更轻松地使用 LineageClient(您也可以直观地看到沿袭图)。