Dask:如果工作 运行 他们被杀死(例如由于超时),工人是否重新启动
Dask: are workers restarted if the job running them is killed (e.g. due to timeout)
我是 运行 PBS 集群上的 Dask。由于服务器负载的波动,我的节点的下载时间不确定。我已经设置了相当长的工作时间(例如 4 小时),应该能够包含许多个人 nodes/downloads。但是,我有数万次下载,所以作业会在所有下载完成之前超时。
两个问题:
- 使用
PBSCluster.scale(n)
启动作业时,当作业超时时,是否会自动启动新作业来取代它们?
- 当一个作业终止时(例如由于超时),该作业上 运行 的节点是在另一个作业上重新启动,还是丢失了?
谢谢!
When launching jobs with PBSCluster.scale(n), when jobs timeout, are new ones automatically launched to take their place?
否,但您可以尝试使用 adapt intead
cluster.adapt(minimum_jobs=n, maximum_jobs=n)
When a job dies (e.g. due to timeout), are the nodes that are running on that job restarted on another job, or are they lost?
它们已重新启动。但是请注意,如果同一个任务需要重新启动多次,那么 Dask 将停止信任它并将其标记为失败。
我是 运行 PBS 集群上的 Dask。由于服务器负载的波动,我的节点的下载时间不确定。我已经设置了相当长的工作时间(例如 4 小时),应该能够包含许多个人 nodes/downloads。但是,我有数万次下载,所以作业会在所有下载完成之前超时。
两个问题:
- 使用
PBSCluster.scale(n)
启动作业时,当作业超时时,是否会自动启动新作业来取代它们? - 当一个作业终止时(例如由于超时),该作业上 运行 的节点是在另一个作业上重新启动,还是丢失了?
谢谢!
When launching jobs with PBSCluster.scale(n), when jobs timeout, are new ones automatically launched to take their place?
否,但您可以尝试使用 adapt intead
cluster.adapt(minimum_jobs=n, maximum_jobs=n)
When a job dies (e.g. due to timeout), are the nodes that are running on that job restarted on another job, or are they lost?
它们已重新启动。但是请注意,如果同一个任务需要重新启动多次,那么 Dask 将停止信任它并将其标记为失败。