列在没有 KEY 的 scala spark 中绑定两个 RDD
Column bind two RDD in scala spark without KEYs
两个RDD的行数相同。
我正在寻找与 cbind()
等效的 R
似乎 join() 总是需要一个密钥。
最接近的是.zip
方法。适当的后续 .map
用法。例如:
val rdd0 = sc.parallelize(Seq( (1, (2,3)), (2, (3,4)) ))
val rdd1 = sc.parallelize(Seq( (200,300), (300,400) ))
val zipRdd = (rdd0 zip rdd1).collect
returns:
zipRdd: Array[((Int, (Int, Int)), (Int, Int))] = Array(((1,(2,3)),(200,300)), ((2,(3,4)),(300,400)))
确实基于 k,v,需要相同的行数。
两个RDD的行数相同。 我正在寻找与 cbind()
等效的 R似乎 join() 总是需要一个密钥。
最接近的是.zip
方法。适当的后续 .map
用法。例如:
val rdd0 = sc.parallelize(Seq( (1, (2,3)), (2, (3,4)) ))
val rdd1 = sc.parallelize(Seq( (200,300), (300,400) ))
val zipRdd = (rdd0 zip rdd1).collect
returns:
zipRdd: Array[((Int, (Int, Int)), (Int, Int))] = Array(((1,(2,3)),(200,300)), ((2,(3,4)),(300,400)))
确实基于 k,v,需要相同的行数。