AMLS 实验 运行 卡在状态 "Running"

AMLS Experiment run stuck in status "Running"

我进行了 Azure 机器学习服务实验 运行 并使用 Jupyter Notebook 记录了神经网络损失。日志记录工作正常,NN 训练按预期完成。但是实验卡在运行ning状态。关闭计算资源不会关闭实验 运行,我无法从实验面板中取消它。此外,运行 没有任何日志文件。

有没有人有同样的行为? 运行 现已持续超过 24 小时。

这完全是不时发生的。这当然令人沮丧,尤其是因为“取消”按钮变灰了。您可以使用 CLI 或 Python SDK 取消 运行.

SDK

>= 1.16.0

从版本 1.16.0 开始,您不再需要 Experiment 对象。相反,您可以直接使用 Run or Workspace 对象进行访问

from azureml.core import Workspace, Experiment, Run, VERSION
print("SDK version:", VERSION)

ws = Workspace.from_config()

run = ws.get_run('YOUR_RUN_ID')
run = Run().get(ws, 'YOUR_RUN_ID') # also works
run.cancel()

< 1.16.0

from azureml.core import Workspace, Experiment, Run, VERSION
print("SDK version:", VERSION)

ws = Workspace.from_config()
exp = Experiment(workspace = ws, name = 'YOUR_EXP_NAME')

run = Run(exp, run_id='YOUR STEP RUN ID')

run.cancel() # or run.fail()

CLI

More CLI details here

az login
az ml run cancel --run YOUR_RUN_ID