Spark 中的故障容忍度

Failures tolerance in Spark

当 运行 一个 Spark 作业时,有没有办法为每个阶段设置我可以容忍多少次失败?例如,如果我有 1000 个节点并且我容忍 10 个故障,那么在 5 个节点发生故障的情况下,我的作业将不会重新运行它们并忽略它们的结果。

因此,我会得到不太准确的结果,但这种能力会加快 运行 时间执行,因为我得到的结果不需要等待失败的节点,假设他们的执行时间太长了。

谢谢!

我想你要找的是

spark.speculation=true

本文来自http://spark.apache.org/docs/1.2.0/configuration.html#scheduling

如果一台机器明显滞后,它将使用启发式方法在另一台机器上重新启动任务。