Spark - 了解独立集群上的简单应用程序
Spark - Understanding a simple application on Standalone cluster
当我 运行 来自 spark shell 的这个示例应用程序时,我看到 UI 上有一个执行器有 8 个任务。为什么这么小的数据集需要8个任务?
请注意,我运行正在一个具有 8 个核心的独立本地集群上。
val data = Array(1,2,3,4)
val distData = sc.parallelize(data)
distData.collect()
默认分区等于最大核心数。您可以传入第二个参数来覆盖分区数。
当我 运行 来自 spark shell 的这个示例应用程序时,我看到 UI 上有一个执行器有 8 个任务。为什么这么小的数据集需要8个任务?
请注意,我运行正在一个具有 8 个核心的独立本地集群上。
val data = Array(1,2,3,4)
val distData = sc.parallelize(data)
distData.collect()
默认分区等于最大核心数。您可以传入第二个参数来覆盖分区数。