等待所有具有给定名称的 LSF 作业,覆盖 JOB_DEP_LAST_SUB = 1

Wait for all LSF jobs with given name, overriding JOB_DEP_LAST_SUB = 1

我有一个大型计算任务,由几个步骤组成,我 运行 在 PC 集群上,由 LSF 管理。

此任务的一部分包括启动多个具有相同名称的并行作业。作业有些不同,因此很难将它们转换为作业数组。

这个计算的下一步,跟随着这些作业,总结它们的结果,所以必须等到它们全部完成。

我正在尝试使用 -w ended(job-name) bsub 的命令行开关,像往常一样指定作业依赖项。

但是,集群管理员在 lsb.params 中设置了 JOB_DEP_LAST_SUB = 1

根据 LSF manual,这使得 LSF 仅等待具有提供名称的一项最新作业完成,而不是所有作业。

是否可以只为我的任务覆盖此行为而不要求管理员重新配置整个集群(这个集群被很多人使用,他们同意的可能性很小)?

我在手册中找不到任何线索。

看起来无法覆盖。

我更改了作业名称,通过附加随机值使它们独一无二,然后我将条件更改为 -w ended(job-name-*)