如何在失败时捕获 sagemaker 错误并通过 SES、SNS 通知

How to capture the sagemaker error in case it fails and notify via SES,SNS

我有一个创建 sagemaker 处理作业的 lambda 函数。现在假设 sagemaker 作业由于算法错误或 API 错误等而失败,我如何 捕获确切的错误 消息(例如,参见图片)和 从同一个 lambda 函数发送电子邮件 或者它可以是一个单独的事件?

https://anonfiles.com/d308Jf15ue/2021-06-17_22_36_21-Amazon_SageMaker_png

这是我所做的。我使用 cloudwatch 事件进行监控,在事件规则目标中,我给了 SNS 主题,我的电子邮件订阅了该主题。 这是我使用的事件模式。

{
  "source": ["aws.sagemaker"],
  "detail-type": ["SageMaker Processing Job State Change"],
  "detail": {
    "ProcessingJobStatus": ["Failed"]
  }
}

Cloud watch 事件目标也有 输入转换器,您可以在其中从收到的 cloudtrail 事件中获取数据并将其传递给 SNS.The 事件数据应该有错误消息。

https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/CloudWatch-Events-Input-Transformer-Tutorial.html