结合两个 JavaRDD 进行下一个 reducer 作业
Combining two JavaRDD for next reducer job
我正在尝试合并两个 JavaPairRDD,这样我就可以在合并后的数据集上执行 reduceByKey 作业,如下所示:
JavaPairRDD 数据 1 = ...
JavaPairRDD 数据 2 = ...
我想要一个包含 data1 和 data2 的新数据集,例如:
JavaPairRDD data_total = (data1 + data2)
这样我就可以对组合数据集进行按键归约:
JavaPairRDD 输出 =
data_total.reduceByKey(...我的reduce函数...);
合并 data1 和 data2 的最佳方式是什么?或者解决这个问题的最佳方法是什么?
非常感谢!
您可以使用 union
:
// Return the union of this RDD and another one.
union(JavaPairRDD<K,V> other)
我正在尝试合并两个 JavaPairRDD,这样我就可以在合并后的数据集上执行 reduceByKey 作业,如下所示:
JavaPairRDD 数据 1 = ...
JavaPairRDD 数据 2 = ...
我想要一个包含 data1 和 data2 的新数据集,例如:
JavaPairRDD data_total = (data1 + data2)
这样我就可以对组合数据集进行按键归约:
JavaPairRDD 输出 = data_total.reduceByKey(...我的reduce函数...);
合并 data1 和 data2 的最佳方式是什么?或者解决这个问题的最佳方法是什么?
非常感谢!
您可以使用 union
:
// Return the union of this RDD and another one.
union(JavaPairRDD<K,V> other)