向RDD添加常量

Adding Constant to RDD

我有一个非常愚蠢的问题,我知道 RDD 是不可变的,但是有什么方法可以向 RDD 添加一列常量?

更具体地说,我有一个 RDD[a:String, b:String],我想在它后面添加一列 1,这样我就有一个 RDD[a:Stirng, b:String、c:Int]。

原因是我想使用reduceByKey函数来处理这些字符串,而一个任意的Int(会不断更新)将帮助函数减少。

您可以使用 map 函数轻松完成,这里是 Python 中的示例:

rdd.map(lambda (a,b): (a,b,1))

Scala 中的解决方案是简单地使用 map

rdd.map( t => (t._1, t._2, 1))

或者

rdd.map{ case (a, b) => (a, b, 1)}