PySpark reduceByKey 多个值
PySpark reduceByKey on multiple values
如果我有一个像这样的 K,V 对:
(K, (v1, v2))
(K, (v3, v4))
我怎样才能总结出我得到的值
(k, (v1 + v3, v2 + v4))
?
reduceByKey 支持函数。假设 A 是键值对的数组。
output = A.reduceByKey(lambda x, y: x[0]+y[0], x[1]+y[1])
如果我有一个像这样的 K,V 对:
(K, (v1, v2))
(K, (v3, v4))
我怎样才能总结出我得到的值
(k, (v1 + v3, v2 + v4))
?
reduceByKey 支持函数。假设 A 是键值对的数组。
output = A.reduceByKey(lambda x, y: x[0]+y[0], x[1]+y[1])