没有输入数据集的 Spark 作业

Spark job with no input dataset

我想编写一个生成数百万个随机数作为输出的 Spark 作业。这个不需要输入数据集,但是如果有集群的并行性就好了。

我知道 RDD 上的 Spark 运行s 根据定义是数据集,我只是想知道是否有一种方法可以强制许多执行者在没有 RDD 的情况下 运行 一个特定的函数,或者通过创建模拟 RDD。

sc.parallelize(Seq(1000, 1000, 1000))
.repartition(3)
.flatMap({count => 0.to(count).map(_ => Random.nextInt)})