Dask:如果工作 运行 他们被杀死(例如由于超时),工人是否重新启动

Dask: are workers restarted if the job running them is killed (e.g. due to timeout)

我是 运行 PBS 集群上的 Dask。由于服务器负载的波动,我的节点的下载时间不确定。我已经设置了相当长的工作时间(例如 4 小时),应该能够包含许多个人 nodes/downloads。但是,我有数万次下载,所以作业会在所有下载完成之前超时。

两个问题:

  1. 使用 PBSCluster.scale(n) 启动作业时,当作业超时时,是否会自动启动新作业来取代它们?
  2. 当一个作业终止时(例如由于超时),该作业上 运行 的节点是在另一个作业上重新启动,还是丢失了?

谢谢!

When launching jobs with PBSCluster.scale(n), when jobs timeout, are new ones automatically launched to take their place?

否,但您可以尝试使用 adapt intead

cluster.adapt(minimum_jobs=n, maximum_jobs=n)

When a job dies (e.g. due to timeout), are the nodes that are running on that job restarted on another job, or are they lost?

它们已重新启动。但是请注意,如果同一个任务需要重新启动多次,那么 Dask 将停止信任它并将其标记为失败。