如何避免插入重复记录
How to avoid inserting duplicate records
我是 运行 我在 Windows Task Scheduler 中的 Talend 作业,间隔为 15 分钟。这个过程就像将数据从 HBase 导出到 PostgreSQL。因此,当我 运行 任务时,第二个计划会从第一个计划重新插入记录,依此类推。
HBase schema -> id int, name string
PostgreSQL schema -> id int, name varchar(100),created index on (id) column.
示例:
安排插入
1st schedule 2nd schedule
`id``name` `id` `name`
1 abcd 4 bbbb
2 efgh 5 cccc
3 hjkl 6 eeee
my output in POSTGRES : EXPECTED output :
afer scheduling
id name id name
1 abcd 1 abcd
2 efgh 2 efgh
3 hjkl 3 hjkl
1 abcd 4 bbbb
2 efgh 5 cccc
3 hjkl 6 eeee
4 bbbb
5 cccc
6 eeee
提前致谢!
您必须使用您的 postgresql 目标 table 来查找和检查现有数据。
您的流程应该如下所示,
source --> Expression --> Target
Lookup(to check existing data)
您的流程应该如下所示,
如果您需要更多帮助,请告诉我。这是一个简单快捷的任务
我是 运行 我在 Windows Task Scheduler 中的 Talend 作业,间隔为 15 分钟。这个过程就像将数据从 HBase 导出到 PostgreSQL。因此,当我 运行 任务时,第二个计划会从第一个计划重新插入记录,依此类推。
HBase schema -> id int, name string
PostgreSQL schema -> id int, name varchar(100),created index on (id) column.
示例:
安排插入
1st schedule 2nd schedule
`id``name` `id` `name`
1 abcd 4 bbbb
2 efgh 5 cccc
3 hjkl 6 eeee
my output in POSTGRES : EXPECTED output :
afer scheduling
id name id name
1 abcd 1 abcd
2 efgh 2 efgh
3 hjkl 3 hjkl
1 abcd 4 bbbb
2 efgh 5 cccc
3 hjkl 6 eeee
4 bbbb
5 cccc
6 eeee
提前致谢!
您必须使用您的 postgresql 目标 table 来查找和检查现有数据。 您的流程应该如下所示,
source --> Expression --> Target
Lookup(to check existing data)
您的流程应该如下所示,
如果您需要更多帮助,请告诉我。这是一个简单快捷的任务