根据特定属性在 Rapidminer 中聚合示例集
Aggregate example sets in Rapidminer based on a specific attribute
我有点坚持使用 rapidminer 聚合两个示例集的简单任务,需要有关流程和可能的操作员的建议。
我有两个 CSV,例如:
key A B C D E
first 2 2 2 2 2
second 3 3 3 3 3
和
key D E F G H I J K
first 4 4 4 4 4 99 99 99
third 5 5 5 5 5 77 77 77
我想要的是一个聚合数据集,它基本上是这两者的联合,但我也想让 'key' 属性在结果数据集中成为唯一的一个。由于 'first' 值出现在两个数据集中,我需要将相应的值相加,因此生成的数据集如下:
key A B C D E F G H I J K
first 2 2 2 6 6 4 4 4 99 99 99
second 3 3 3 3 3 ? ? ? ? ? ?
third ? ? ? 5 5 5 5 5 77 77 77
请注意,'First D' 和 'First E' 单元格已变为 6 (2+4)。
问号是联合运算符生成的缺失值,稍后将被替换。
提前致谢。
从 Union
运算符开始。
有了这个输入
key B C
first 4 5
third 4 5
还有这个
key A B
first 3 4
second 3 4
Union
会这样做。
key A B C
first 3 4 ?
second 3 4 ?
first ? 4 5
third ? 4 5
然后用Aggregate
得到这个。
key sum(A) sum(B) sum(C)
first 3 8 5
second 3 4 0
third 0 4 5
为此所需的参数是 use default aggregation
设置为 true
、default aggregation function
设置为 sum
和 group by attributes
设置为 key
。
最后一步是使用 Rename by Replacing
将属性名称更改为更加用户友好。需要的参数是 replace what
设置为 sum\((.*)\)
和 replace by
设置为
.
我有点坚持使用 rapidminer 聚合两个示例集的简单任务,需要有关流程和可能的操作员的建议。
我有两个 CSV,例如:
key A B C D E
first 2 2 2 2 2
second 3 3 3 3 3
和
key D E F G H I J K
first 4 4 4 4 4 99 99 99
third 5 5 5 5 5 77 77 77
我想要的是一个聚合数据集,它基本上是这两者的联合,但我也想让 'key' 属性在结果数据集中成为唯一的一个。由于 'first' 值出现在两个数据集中,我需要将相应的值相加,因此生成的数据集如下:
key A B C D E F G H I J K
first 2 2 2 6 6 4 4 4 99 99 99
second 3 3 3 3 3 ? ? ? ? ? ?
third ? ? ? 5 5 5 5 5 77 77 77
请注意,'First D' 和 'First E' 单元格已变为 6 (2+4)。
问号是联合运算符生成的缺失值,稍后将被替换。
提前致谢。
从 Union
运算符开始。
有了这个输入
key B C
first 4 5
third 4 5
还有这个
key A B
first 3 4
second 3 4
Union
会这样做。
key A B C
first 3 4 ?
second 3 4 ?
first ? 4 5
third ? 4 5
然后用Aggregate
得到这个。
key sum(A) sum(B) sum(C)
first 3 8 5
second 3 4 0
third 0 4 5
为此所需的参数是 use default aggregation
设置为 true
、default aggregation function
设置为 sum
和 group by attributes
设置为 key
。
最后一步是使用 Rename by Replacing
将属性名称更改为更加用户友好。需要的参数是 replace what
设置为 sum\((.*)\)
和 replace by
设置为 .