列在没有 KEY 的 scala spark 中绑定两个 RDD

Column bind two RDD in scala spark without KEYs

两个RDD的行数相同。 我正在寻找与 cbind()

等效的 R

似乎 join() 总是需要一个密钥。

最接近的是.zip方法。适当的后续 .map 用法。例如:

val rdd0 = sc.parallelize(Seq( (1, (2,3)), (2, (3,4)) ))
val rdd1 = sc.parallelize(Seq( (200,300), (300,400) ))
val zipRdd = (rdd0 zip rdd1).collect

returns:

zipRdd: Array[((Int, (Int, Int)), (Int, Int))] = Array(((1,(2,3)),(200,300)), ((2,(3,4)),(300,400)))

确实基于 k,v,需要相同的行数。