在 Azure ML 管道失败时发送警报

Send alert if Azure ML pipeline fails

我正在尝试在 Azure ML 管道失败时添加警报。看起来其中一种方法是在 Azure 门户中创建监视器。问题是我找不到正确的信号名称(设置条件时需要),这将识别管道失败。我应该使用什么信号名称?或者,如果 Azure 管道失败,还有其他发送电子邮件的方法吗?

What signal name should I use?

您可以使用 AmlPipelineEvent table 的 PipelineChangeEvent 类别来查看访问(读取、创建或删除)ML 管道草稿或端点或模块时的事件。

例如,使用AmlComputeJobEvent获取最近五天失败的作业:

AmlComputeJobEvent
| where TimeGenerated > ago(5d) and EventType == "JobFailed"
| project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType

更新的答案:

AmlRunStatusChangedEvent 
| where Status == "Failed" or Status == "Canceled"

可以参考Monitor Azure Machine Learning, Log & view metrics and log files and Troubleshooting machine learning pipelines