如何使用 Talend Data Preparation 删除重复项?

How to remove duplication with Talend Data Preparation?

我想用我的 Talend Data Preparation 删除重复,我有一个名为:HOURS 的列,我想计算它们之间的时间并删除电子邮件和名称重复,这是我的示例 table:

如您所见,我有很多 user_name 和电子邮件是相同的,但我的时间不一样,我想根据 user_name 和电子邮件和同时删除我的 user_name 和电子邮件的任何重复项。

(我不是很喜欢数据准备,所以也许有一个我不知道的内部解决方案)。

我认为您不能在 Talend Data Preparation 中使用 GROUP BY 和 SUM 操作,因为该工具只能更正数据行,而不能进行聚合操作。

从 Data Prep 导出更正后的数据后,您将能够在 Talend Data Integration 中使用 tAggregateRow 对数据求和。