Spark - 了解独立集群上的简单应用程序

Spark - Understanding a simple application on Standalone cluster

当我 运行 来自 spark shell 的这个示例应用程序时,我看到 UI 上有一个执行器有 8 个任务。为什么这么小的数据集需要8个任务?

请注意,我运行正在一个具有 8 个核心的独立本地集群上。

val data = Array(1,2,3,4)
val distData = sc.parallelize(data)
distData.collect()

默认分区等于最大核心数。您可以传入第二个参数来覆盖分区数。