向RDD添加常量
Adding Constant to RDD
我有一个非常愚蠢的问题,我知道 RDD 是不可变的,但是有什么方法可以向 RDD 添加一列常量?
更具体地说,我有一个 RDD[a:String, b:String],我想在它后面添加一列 1,这样我就有一个 RDD[a:Stirng, b:String、c:Int]。
原因是我想使用reduceByKey函数来处理这些字符串,而一个任意的Int(会不断更新)将帮助函数减少。
您可以使用 map
函数轻松完成,这里是 Python 中的示例:
rdd.map(lambda (a,b): (a,b,1))
Scala 中的解决方案是简单地使用 map
rdd.map( t => (t._1, t._2, 1))
或者
rdd.map{ case (a, b) => (a, b, 1)}
我有一个非常愚蠢的问题,我知道 RDD 是不可变的,但是有什么方法可以向 RDD 添加一列常量?
更具体地说,我有一个 RDD[a:String, b:String],我想在它后面添加一列 1,这样我就有一个 RDD[a:Stirng, b:String、c:Int]。
原因是我想使用reduceByKey函数来处理这些字符串,而一个任意的Int(会不断更新)将帮助函数减少。
您可以使用 map
函数轻松完成,这里是 Python 中的示例:
rdd.map(lambda (a,b): (a,b,1))
Scala 中的解决方案是简单地使用 map
rdd.map( t => (t._1, t._2, 1))
或者
rdd.map{ case (a, b) => (a, b, 1)}