如何避免插入重复记录

How to avoid inserting duplicate records

我是 运行 我在 Windows Task Scheduler 中的 Talend 作业,间隔为 15 分钟。这个过程就像将数据从 HBase 导出到 PostgreSQL。因此,当我 运行 任务时,第二个计划会从第一个计划重新插入记录,依此类推。

HBase schema -> id int, name string
PostgreSQL schema -> id int, name varchar(100),created index on (id) column.

示例:

安排插入

1st schedule       2nd schedule

`id``name`          `id` `name`

1    abcd            4    bbbb
2    efgh            5    cccc
3    hjkl            6    eeee

my output in POSTGRES :     EXPECTED output :
afer scheduling 

id   name                   id      name

1    abcd                    1      abcd
2    efgh                    2      efgh
3    hjkl                    3      hjkl
1    abcd                    4      bbbb
2    efgh                    5      cccc
3    hjkl                    6      eeee
4    bbbb
5    cccc
6    eeee

提前致谢!

您必须使用您的 postgresql 目标 table 来查找和检查现有数据。 您的流程应该如下所示,

source --> Expression --> Target

            Lookup(to check existing data)     

您的流程应该如下所示,

如果您需要更多帮助,请告诉我。这是一个简单快捷的任务