Azure Batch 节点不处理排队的任务
Azure Batch Nodes not processing queued Tasks
我们在 Azure Batch 中对很多任务进行排队,我们的池中有 8 个节点来处理这些任务。我们现在看到奇怪的行为(自 2 天前)。
- 节点启动
- 它开始处理任务
- 大约 30 秒后它停止接收新任务
- 它会完成现有的任务而不是接新的任务
节点现在保持空闲,即使我们有 1000 多个任务排队等待池处理。
重启节点,使其进入错误状态,然后再次启动,处理多个任务,然后再次停止接收新任务。
我检查过的内容:
- 我能够远程进入这些节点
- 事件日志中没有错误指示问题
- 磁盘、CPU、内存
没有大的峰值
- 节点上未禁用计划
视觉参考:
- 红色方块不会接新任务
- 蓝色块将完成他们正在忙的事情。
- 绿块(2个节点)继续接任务,处理成功
这是 Azure 批处理计划中的错误吗? (因为我们最近没有做任何更改)
如果不是错误,我们如何才能获得有关这些节点在调度期间发生的情况的更多信息?
我向 Microsoft 申请了支持票。原来是一个调度错误,现在已经修复,一切都恢复正常了
我们在 Azure Batch 中对很多任务进行排队,我们的池中有 8 个节点来处理这些任务。我们现在看到奇怪的行为(自 2 天前)。
- 节点启动
- 它开始处理任务
- 大约 30 秒后它停止接收新任务
- 它会完成现有的任务而不是接新的任务
节点现在保持空闲,即使我们有 1000 多个任务排队等待池处理。
重启节点,使其进入错误状态,然后再次启动,处理多个任务,然后再次停止接收新任务。
我检查过的内容:
- 我能够远程进入这些节点
- 事件日志中没有错误指示问题
- 磁盘、CPU、内存 没有大的峰值
- 节点上未禁用计划
视觉参考:
- 红色方块不会接新任务
- 蓝色块将完成他们正在忙的事情。
- 绿块(2个节点)继续接任务,处理成功
这是 Azure 批处理计划中的错误吗? (因为我们最近没有做任何更改)
如果不是错误,我们如何才能获得有关这些节点在调度期间发生的情况的更多信息?
我向 Microsoft 申请了支持票。原来是一个调度错误,现在已经修复,一切都恢复正常了