Spark 中是否有等同于 python 的磁贴?

Is there equivalent to python tile in Spark?

我在 python 中有一个 numpy 数组,我想复制它自己,因此我使用了 tile(array(x), (2, 1))

这个,给定一个数组 [1,2,3] 将 return [[1,2,3],[1,2,3]]

但是在 pySpark 中我有一个 pipelineRDD。 为此目的是否有相应的功能? 我找不到它。

谢谢

没有等价物:

  • RDD 是本地对象的分布式集合。
  • RDD 不能包含另一个 RDD。
  • 本地对象受限于内存大小,无法用于存储完整 RDD 的内容。

您可以使用以下方法在一维中重复 RDD:

sc.union([rdd for _ in range(n))

相当于

np.tile(a, n)

其中 n 是标量。