增量 - Pentaho 数据集成(PDI)

Increment - Pentaho Data Integration (PDI)

我开始使用 pentaho 数据集成,我打算用它来使用来自服务器的数据更新数据湖。但是,我只需要添加(增量)数据湖中尚不存在的数据。

SQL的例子:

SELECT COLUM1, COLUM2, COLUM3, COLUM4 FROM TABLEX

我不知道我是否可以通过 sql、过滤器或其他方式来完成此增量。

有多种方法可以实现这一点

示例:

采取两个 table 输入步骤(源和目标)和两个添加校验和步骤,然后比较源和目标的校验和,如果不匹配则插入目标。

让事情变得简单: 使用流查找和筛选。

第一步,从源代码中通过一些键(业务键、bla bla...)在湖中查找目标 table 并获取新列作为名称检查器(Init checker equal 1 in select 查找中的子句 link).

第二步,如果 checker = 1(记录存在于目标中)什么都不做,将新记录插入目标。