根据特定属性在 Rapidminer 中聚合示例集

Aggregate example sets in Rapidminer based on a specific attribute

我有点坚持使用 rapidminer 聚合两个示例集的简单任务,需要有关流程和可能的操作员的建议。

我有两个 CSV,例如:

key     A   B   C   D   E
first   2   2   2   2   2
second  3   3   3   3   3

key     D   E   F   G   H   I   J   K
first   4   4   4   4   4   99  99  99
third   5   5   5   5   5   77  77  77

我想要的是一个聚合数据集,它基本上是这两者的联合,但我也想让 'key' 属性在结果数据集中成为唯一的一个。由于 'first' 值出现在两个数据集中,我需要将相应的值相加,因此生成的数据集如下:

key     A   B   C   D   E   F   G   H   I   J   K
first   2   2   2   6   6   4   4   4   99  99  99
second  3   3   3   3   3   ?   ?   ?   ?   ?   ?
 third  ?   ?   ?   5   5   5   5   5   77  77  77

请注意,'First D' 和 'First E' 单元格已变为 6 (2+4)。

问号是联合运算符生成的缺失值,稍后将被替换。

提前致谢。

Union 运算符开始。

有了这个输入

key        B        C
first      4        5
third      4        5

还有这个

key        A        B
first      3        4
second     3        4

Union 会这样做。

key        A        B       C
first      3        4       ?
second     3        4       ?
first      ?        4       5
third      ?        4       5

然后用Aggregate得到这个。

key        sum(A)   sum(B)  sum(C)
first      3        8       5
second     3        4       0
third      0        4       5

为此所需的参数是 use default aggregation 设置为 truedefault aggregation function 设置为 sumgroup by attributes 设置为 key

最后一步是使用 Rename by Replacing 将属性名称更改为更加用户友好。需要的参数是 replace what 设置为 sum\((.*)\)replace by 设置为 .