AMLS 实验 运行 卡在状态 "Running"
AMLS Experiment run stuck in status "Running"
我进行了 Azure 机器学习服务实验 运行 并使用 Jupyter Notebook 记录了神经网络损失。日志记录工作正常,NN 训练按预期完成。但是实验卡在运行ning状态。关闭计算资源不会关闭实验 运行,我无法从实验面板中取消它。此外,运行 没有任何日志文件。
有没有人有同样的行为? 运行 现已持续超过 24 小时。
这完全是不时发生的。这当然令人沮丧,尤其是因为“取消”按钮变灰了。您可以使用 CLI 或 Python SDK 取消 运行.
SDK
>= 1.16.0
从版本 1.16.0
开始,您不再需要 Experiment
对象。相反,您可以直接使用 Run
or Workspace
对象进行访问
from azureml.core import Workspace, Experiment, Run, VERSION
print("SDK version:", VERSION)
ws = Workspace.from_config()
run = ws.get_run('YOUR_RUN_ID')
run = Run().get(ws, 'YOUR_RUN_ID') # also works
run.cancel()
< 1.16.0
from azureml.core import Workspace, Experiment, Run, VERSION
print("SDK version:", VERSION)
ws = Workspace.from_config()
exp = Experiment(workspace = ws, name = 'YOUR_EXP_NAME')
run = Run(exp, run_id='YOUR STEP RUN ID')
run.cancel() # or run.fail()
CLI
az login
az ml run cancel --run YOUR_RUN_ID
我进行了 Azure 机器学习服务实验 运行 并使用 Jupyter Notebook 记录了神经网络损失。日志记录工作正常,NN 训练按预期完成。但是实验卡在运行ning状态。关闭计算资源不会关闭实验 运行,我无法从实验面板中取消它。此外,运行 没有任何日志文件。
有没有人有同样的行为? 运行 现已持续超过 24 小时。
这完全是不时发生的。这当然令人沮丧,尤其是因为“取消”按钮变灰了。您可以使用 CLI 或 Python SDK 取消 运行.
SDK
>= 1.16.0
从版本 1.16.0
开始,您不再需要 Experiment
对象。相反,您可以直接使用 Run
or Workspace
对象进行访问
from azureml.core import Workspace, Experiment, Run, VERSION
print("SDK version:", VERSION)
ws = Workspace.from_config()
run = ws.get_run('YOUR_RUN_ID')
run = Run().get(ws, 'YOUR_RUN_ID') # also works
run.cancel()
< 1.16.0
from azureml.core import Workspace, Experiment, Run, VERSION
print("SDK version:", VERSION)
ws = Workspace.from_config()
exp = Experiment(workspace = ws, name = 'YOUR_EXP_NAME')
run = Run(exp, run_id='YOUR STEP RUN ID')
run.cancel() # or run.fail()
CLI
az login
az ml run cancel --run YOUR_RUN_ID