当计算节点上的运行作业失败时,如何使计算节点在Microsoft HPC集群中离线?

How to make a computational node offline in Microsoft HPC cluster when the running job on the computational node fails?

如果一个节点有问题并且该机器上的可执行文件失败,队列中的大部分作业都会失败。发生这种情况是因为第一个作业很快被宣布失败,机器再次可用并接手另一个很快又失败的作业。然后,这一直持续到队列变空并且所有作业都失败。

是否有任何机制可以隔离有问题的节点,以便其他节点可以处理剩余的作业。类似于声明节点故障。 HPC 支持吗?

您可能希望将主机添加到排除的节点列表中,以避免为该主机提交任务。

这是它的工作原理:

If a job owner or a cluster administrator notices that tasks in a job consistently fail on a particular node, they can add that node to the Excluded Nodes job property. When the Excluded nodes limit is reached, attempts to add more nodes to the list fail. For more information, see Set and Clear Excluded Nodes for Jobs.