Dask 依赖图中的容错

Fault tolerance in Dask dependency graphs

我有一个小型集群,我使用以下方法在其上部署了一个 dask 图形:

from dask.distributed import Client
...
client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False)
client.get(workflow, final_node)

在工作流程中,我有一堆 运行 并行的任务,当然。然而,有时,某个工作人员正在 运行ning 的模块中出现错误。一旦该模块失败,它就会返回给调度程序,然后调度程序停止并行的其他工作 运行ning(即使其他人不依赖于这个)。它阻止了他们中途。

有没有办法允许其他人完成,然后失败,而不是立即关闭他们?

Client.get 函数是全有或全无。您可能应该看看期货界面。在这里,您将启动许多恰好相互依赖的计算。能完成的就完成。

https://docs.dask.org/en/latest/futures.html