Azure 批处理池在 运行 稳定一段时间后崩溃
Azure batch pool crashing after running steadily for some time
我在使用 Azure Batch 时遇到以下行为。我正在使用 Shipyard 启动一个包含 500 个低优先级节点的池来执行 400.000 个任务的列表。池大小使用自动缩放进行管理。
起初,游泳池似乎 运行 还不错。节点数量增加到最大容量,任务按预期完成。然而,一段时间后(完成了大量任务),我开始遇到 'start task failed' 错误。然后池迅速开始降级,直到所有节点都因同样的错误而崩溃。
这是我在崩溃节点之一的 stdout.txt
文件中得到的错误:
Login Succeeded
2020-03-04T09:09:07UTC - INFO - Docker registry logins completed.
2020-03-04T09:09:07UTC - WARNING - No Singularity registry servers found.
2020-03-04T09:13:37,840996225+00:00 - ERROR - Cascade Docker exited with non-zero exit code: 1
这似乎是与拉取 Docker 图片有关的问题?虽然它之前在其他节点上没有问题。
我知道要继续提供的信息不多,但我无法确定哪些信息是相关的,哪些不是。
更新
更新到 shipyard 3.9.1 后,这是 stdout.txt
中崩溃节点之一(启动任务失败)的输出:
2020-03-05T08:23:43,784166638+00:00 - DEBUG - Pulling Docker Image: mcr.microsoft.com/azure-batch/shipyard:3.9.1-cargo (fallback: 0)
2020-03-05T08:23:58,876629647+00:00 - ERROR - Error response from daemon: Get https://mcr.microsoft.com/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
2020-03-05T08:23:58,878254953+00:00 - ERROR - No fallback registry specified, terminating
请参阅 GitHub 问题 https://github.com/Azure/batch-shipyard/issues/340。您可能需要升级 Batch Shipyard 版本并重新创建池。
我在使用 Azure Batch 时遇到以下行为。我正在使用 Shipyard 启动一个包含 500 个低优先级节点的池来执行 400.000 个任务的列表。池大小使用自动缩放进行管理。
起初,游泳池似乎 运行 还不错。节点数量增加到最大容量,任务按预期完成。然而,一段时间后(完成了大量任务),我开始遇到 'start task failed' 错误。然后池迅速开始降级,直到所有节点都因同样的错误而崩溃。
这是我在崩溃节点之一的 stdout.txt
文件中得到的错误:
Login Succeeded
2020-03-04T09:09:07UTC - INFO - Docker registry logins completed.
2020-03-04T09:09:07UTC - WARNING - No Singularity registry servers found.
2020-03-04T09:13:37,840996225+00:00 - ERROR - Cascade Docker exited with non-zero exit code: 1
这似乎是与拉取 Docker 图片有关的问题?虽然它之前在其他节点上没有问题。
我知道要继续提供的信息不多,但我无法确定哪些信息是相关的,哪些不是。
更新
更新到 shipyard 3.9.1 后,这是 stdout.txt
中崩溃节点之一(启动任务失败)的输出:
2020-03-05T08:23:43,784166638+00:00 - DEBUG - Pulling Docker Image: mcr.microsoft.com/azure-batch/shipyard:3.9.1-cargo (fallback: 0)
2020-03-05T08:23:58,876629647+00:00 - ERROR - Error response from daemon: Get https://mcr.microsoft.com/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
2020-03-05T08:23:58,878254953+00:00 - ERROR - No fallback registry specified, terminating
请参阅 GitHub 问题 https://github.com/Azure/batch-shipyard/issues/340。您可能需要升级 Batch Shipyard 版本并重新创建池。