监控 Spark 实际工作时间 vs. 通信时间
Monitor Spark actual work time vs. communication time
在 Spark 集群上,如果作业非常小,我认为集群效率会很低,因为大部分时间都花在节点之间的通信上,而不是利用节点上的处理器。
有没有办法监控通过 spark-submit 提交的作业有多少时间浪费在通信上,有多少时间浪费在实际计算上?
然后我可以监控这个比率,以检查我的文件聚合方案或处理算法在分发效率方面的效率。
我查看了 Spark 文档,但找不到任何相关内容,但我确定我遗漏了一些内容。有人有想法吗?
在 Spark 集群上,如果作业非常小,我认为集群效率会很低,因为大部分时间都花在节点之间的通信上,而不是利用节点上的处理器。
有没有办法监控通过 spark-submit 提交的作业有多少时间浪费在通信上,有多少时间浪费在实际计算上?
然后我可以监控这个比率,以检查我的文件聚合方案或处理算法在分发效率方面的效率。
我查看了 Spark 文档,但找不到任何相关内容,但我确定我遗漏了一些内容。有人有想法吗?