Dask 依赖图中的容错
Fault tolerance in Dask dependency graphs
我有一个小型集群,我使用以下方法在其上部署了一个 dask 图形:
from dask.distributed import Client
...
client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False)
client.get(workflow, final_node)
在工作流程中,我有一堆 运行 并行的任务,当然。然而,有时,某个工作人员正在 运行ning 的模块中出现错误。一旦该模块失败,它就会返回给调度程序,然后调度程序停止并行的其他工作 运行ning(即使其他人不依赖于这个)。它阻止了他们中途。
有没有办法允许其他人完成,然后失败,而不是立即关闭他们?
Client.get
函数是全有或全无。您可能应该看看期货界面。在这里,您将启动许多恰好相互依赖的计算。能完成的就完成。
我有一个小型集群,我使用以下方法在其上部署了一个 dask 图形:
from dask.distributed import Client
...
client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False)
client.get(workflow, final_node)
在工作流程中,我有一堆 运行 并行的任务,当然。然而,有时,某个工作人员正在 运行ning 的模块中出现错误。一旦该模块失败,它就会返回给调度程序,然后调度程序停止并行的其他工作 运行ning(即使其他人不依赖于这个)。它阻止了他们中途。
有没有办法允许其他人完成,然后失败,而不是立即关闭他们?
Client.get
函数是全有或全无。您可能应该看看期货界面。在这里,您将启动许多恰好相互依赖的计算。能完成的就完成。