Dask：如果工作运行他们被杀死（例如由于超时），工人是否重新启动

Question

我是运行 PBS 集群上的 Dask。由于服务器负载的波动，我的节点的下载时间不确定。我已经设置了相当长的工作时间（例如 4 小时），应该能够包含许多个人 nodes/downloads。但是，我有数万次下载，所以作业会在所有下载完成之前超时。

两个问题：

谢谢！

Answer 1

When launching jobs with PBSCluster.scale(n), when jobs timeout, are new ones automatically launched to take their place?

否，但您可以尝试使用 adapt intead

cluster.adapt(minimum_jobs=n, maximum_jobs=n)

When a job dies (e.g. due to timeout), are the nodes that are running on that job restarted on another job, or are they lost?

它们已重新启动。但是请注意，如果同一个任务需要重新启动多次，那么 Dask 将停止信任它并将其标记为失败。

Dask: are workers restarted if the job running them is killed (e.g. due to timeout)