如何在 Spark 上处理任务结果?
How are the task results being processed on Spark?
我是 Spark 的新手,目前正在尝试了解 spark 的架构。
据我所知,spark 集群管理器将任务分配给工作节点并向它们发送数据分区。到达那里后,每个工作节点都会在其自己的特定数据分区上执行转换(如映射等)。
我不明白的是:来自各个 worker 的这些转换的所有结果都去了哪里?它们是否被发送回集群管理器/驱动程序并且一旦减少(例如每个唯一键的值总和)?如果是,是否有特定的发生方式?
如果有人能够启发我,那就太好了,spark 文档和其他有关架构的资源都无法做到这一点。
好问题,我想你是在问随机播放是如何工作的...
这里有一个很好的解释。
我是 Spark 的新手,目前正在尝试了解 spark 的架构。 据我所知,spark 集群管理器将任务分配给工作节点并向它们发送数据分区。到达那里后,每个工作节点都会在其自己的特定数据分区上执行转换(如映射等)。
我不明白的是:来自各个 worker 的这些转换的所有结果都去了哪里?它们是否被发送回集群管理器/驱动程序并且一旦减少(例如每个唯一键的值总和)?如果是,是否有特定的发生方式?
如果有人能够启发我,那就太好了,spark 文档和其他有关架构的资源都无法做到这一点。
好问题,我想你是在问随机播放是如何工作的...
这里有一个很好的解释。