Spark 中的故障容忍度
Failures tolerance in Spark
当 运行 一个 Spark 作业时,有没有办法为每个阶段设置我可以容忍多少次失败?例如,如果我有 1000 个节点并且我容忍 10 个故障,那么在 5 个节点发生故障的情况下,我的作业将不会重新运行它们并忽略它们的结果。
因此,我会得到不太准确的结果,但这种能力会加快 运行 时间执行,因为我得到的结果不需要等待失败的节点,假设他们的执行时间太长了。
谢谢!
我想你要找的是
spark.speculation=true
本文来自http://spark.apache.org/docs/1.2.0/configuration.html#scheduling
如果一台机器明显滞后,它将使用启发式方法在另一台机器上重新启动任务。
当 运行 一个 Spark 作业时,有没有办法为每个阶段设置我可以容忍多少次失败?例如,如果我有 1000 个节点并且我容忍 10 个故障,那么在 5 个节点发生故障的情况下,我的作业将不会重新运行它们并忽略它们的结果。
因此,我会得到不太准确的结果,但这种能力会加快 运行 时间执行,因为我得到的结果不需要等待失败的节点,假设他们的执行时间太长了。
谢谢!
我想你要找的是
spark.speculation=true
本文来自http://spark.apache.org/docs/1.2.0/configuration.html#scheduling
如果一台机器明显滞后,它将使用启发式方法在另一台机器上重新启动任务。