结合两个 JavaRDD 进行下一个 reducer 作业

Combining two JavaRDD for next reducer job

我正在尝试合并两个 JavaPairRDD,这样我就可以在合并后的数据集上执行 reduceByKey 作业,如下所示:


JavaPairRDD 数据 1 = ...

JavaPairRDD 数据 2 = ...

我想要一个包含 data1 和 data2 的新数据集,例如:

JavaPairRDD data_total = (data1 + data2)

这样我就可以对组合数据集进行按键归约:

JavaPairRDD 输出 = data_total.reduceByKey(...我的reduce函数...);


合并 data1 和 data2 的最佳方式是什么?或者解决这个问题的最佳方法是什么?

非常感谢!

您可以使用 union:

// Return the union of this RDD and another one.
union(JavaPairRDD<K,V> other)