使用 Talend 从 MySQL table 中删除重复项

Remove duplicates from a MySQL table using Talend

来自 SAS 背景,我发现使用 Talend 对数据集进行重复数据删除这一基本任务非常繁琐。我确定这与我缺乏使用该工具的经验有关。

插入数据后,我需要从目标数据集中删除重复项。我似乎无法使用 tSortRow (MySQL) 运行 多个 sql 语句,我收到错误 - "You have an error in your SQL syntax"。这组查询在 MySQL Workbench.

上运行良好

使用 SAS Data Management Studio,我可以添加一个 SAS 代码节点,并且可以 运行 这个带有 noduplicates 修饰符的排序过程。我试图通过 运行 通过 tMySQLRow 组件对 SQL 查询集进行类似的操作。

你们是怎么做到的?我所需要的只是对数据源中的数据进行重复数据删除的 talend 方法。

我已经能够通过在子作业中执行以下操作来删除重复的 table 数据:

tDBInput --> tAggregate(按值计数)--> tFilterRow(重复字段的计数大于 1)

或者,由于您使用的是 MySQL,您应该能够通过 SQL 删除重复项。您有 table 的示例架构吗?

talend 有一个用于删除重复值的内置组件 tuniquerow,它将在删除重复记录后加载到目标

tDBInput_1 ----> tUniqueRow_1 --->目标

注意:您需要在tUniqueRow

中指定检查重复值的键列