没有输入数据集的 Spark 作业

Question

我想编写一个生成数百万个随机数作为输出的 Spark 作业。这个不需要输入数据集，但是如果有集群的并行性就好了。

我知道 RDD 上的 Spark 运行s 根据定义是数据集，我只是想知道是否有一种方法可以强制许多执行者在没有 RDD 的情况下运行一个特定的函数，或者通过创建模拟 RDD。

Answer 1

sc.parallelize(Seq(1000, 1000, 1000))
.repartition(3)
.flatMap({count => 0.to(count).map(_ => Random.nextInt)})

Spark job with no input dataset