如何提高 yarn 上 spark 作业的容错能力?作业因太多预选而失败?

how can I increase failure tolerance for spark jobs on yarn? Job failed due to too many preemntions?

如何提高 yarn 的容错能力?在繁忙的集群中,我的工作由于失败太多而失败。大多数失败是由于 Executor lost base by preemption.

关闭 yarn 抢占?或 运行 较小的作业以避免完全重新计算?

如果您启用了抢占,您确实应该使用外部随机播放服务来避免这些问题。否则真的没什么可做的。

https://issues.apache.org/jira/browse/SPARK-14209 - JIRA 谈论.