如何提高 yarn 上 spark 作业的容错能力？作业因太多预选而失败？

how can I increase failure tolerance for spark jobs on yarn? Job failed due to too many preemntions?

如何提高 yarn 的容错能力？在繁忙的集群中，我的工作由于失败太多而失败。大多数失败是由于 Executor lost base by preemption.

关闭 yarn 抢占？或运行较小的作业以避免完全重新计算？

如果您启用了抢占，您确实应该使用外部随机播放服务来避免这些问题。否则真的没什么可做的。

https://issues.apache.org/jira/browse/SPARK-14209 - JIRA 谈论.