增量 - Pentaho 数据集成(PDI)
Increment - Pentaho Data Integration (PDI)
我开始使用 pentaho 数据集成,我打算用它来使用来自服务器的数据更新数据湖。但是,我只需要添加(增量)数据湖中尚不存在的数据。
SQL的例子:
SELECT COLUM1, COLUM2, COLUM3, COLUM4 FROM TABLEX
我不知道我是否可以通过 sql、过滤器或其他方式来完成此增量。
有多种方法可以实现这一点
示例:
采取两个 table 输入步骤(源和目标)和两个添加校验和步骤,然后比较源和目标的校验和,如果不匹配则插入目标。
让事情变得简单:
使用流查找和筛选。
第一步,从源代码中通过一些键(业务键、bla bla...)在湖中查找目标 table 并获取新列作为名称检查器(Init checker equal 1 in select 查找中的子句 link).
第二步,如果 checker = 1(记录存在于目标中)什么都不做,将新记录插入目标。
我开始使用 pentaho 数据集成,我打算用它来使用来自服务器的数据更新数据湖。但是,我只需要添加(增量)数据湖中尚不存在的数据。
SQL的例子:
SELECT COLUM1, COLUM2, COLUM3, COLUM4 FROM TABLEX
我不知道我是否可以通过 sql、过滤器或其他方式来完成此增量。
有多种方法可以实现这一点
示例:
采取两个 table 输入步骤(源和目标)和两个添加校验和步骤,然后比较源和目标的校验和,如果不匹配则插入目标。
让事情变得简单: 使用流查找和筛选。
第一步,从源代码中通过一些键(业务键、bla bla...)在湖中查找目标 table 并获取新列作为名称检查器(Init checker equal 1 in select 查找中的子句 link).
第二步,如果 checker = 1(记录存在于目标中)什么都不做,将新记录插入目标。