Spark 中是否有等同于 python 的磁贴?
Is there equivalent to python tile in Spark?
我在 python 中有一个 numpy 数组,我想复制它自己,因此我使用了
tile(array(x), (2, 1))
这个,给定一个数组 [1,2,3]
将 return [[1,2,3],[1,2,3]]
但是在 pySpark 中我有一个 pipelineRDD。
为此目的是否有相应的功能?
我找不到它。
谢谢
没有等价物:
- RDD 是本地对象的分布式集合。
- RDD 不能包含另一个 RDD。
- 本地对象受限于内存大小,无法用于存储完整 RDD 的内容。
您可以使用以下方法在一维中重复 RDD:
sc.union([rdd for _ in range(n))
相当于
np.tile(a, n)
其中 n 是标量。
我在 python 中有一个 numpy 数组,我想复制它自己,因此我使用了
tile(array(x), (2, 1))
这个,给定一个数组 [1,2,3]
将 return [[1,2,3],[1,2,3]]
但是在 pySpark 中我有一个 pipelineRDD。 为此目的是否有相应的功能? 我找不到它。
谢谢
没有等价物:
- RDD 是本地对象的分布式集合。
- RDD 不能包含另一个 RDD。
- 本地对象受限于内存大小,无法用于存储完整 RDD 的内容。
您可以使用以下方法在一维中重复 RDD:
sc.union([rdd for _ in range(n))
相当于
np.tile(a, n)
其中 n 是标量。