在 Dataproc 中 运行 300 多个并发 Spark 作业的最佳方式?
best way to run 300+ concurrent spark jobs in Dataproc?
我有一个包含 2 个工作节点 (n1s2) 的 Dataproc 集群。有一个外部服务器可以在一个小时内提交大约 360 个 spark 作业(每次提交之间间隔几分钟)。第一个作业成功完成,但后续作业卡住,根本无法继续。
每个作业都会处理一些时间序列数字并写入 Cassandra。并且在集群完全空闲的情况下,耗时一般为3-6分钟。
我觉得这可以通过扩展集群来解决,但对我来说会变得非常昂贵。
最好地解决此用例的其他选项是什么?
运行 2 个工作节点集群上的 300 多个并发作业听起来不太可行。您首先要估计每个作业需要多少资源(CPU、内存、磁盘),然后为集群大小制定计划。 YARN 指标,如可用 CPU、可用内存,尤其是待处理内存,将有助于识别资源不足的情况。
我有一个包含 2 个工作节点 (n1s2) 的 Dataproc 集群。有一个外部服务器可以在一个小时内提交大约 360 个 spark 作业(每次提交之间间隔几分钟)。第一个作业成功完成,但后续作业卡住,根本无法继续。
每个作业都会处理一些时间序列数字并写入 Cassandra。并且在集群完全空闲的情况下,耗时一般为3-6分钟。
我觉得这可以通过扩展集群来解决,但对我来说会变得非常昂贵。 最好地解决此用例的其他选项是什么?
运行 2 个工作节点集群上的 300 多个并发作业听起来不太可行。您首先要估计每个作业需要多少资源(CPU、内存、磁盘),然后为集群大小制定计划。 YARN 指标,如可用 CPU、可用内存,尤其是待处理内存,将有助于识别资源不足的情况。