Sagemaker Pytorch 模型 - 调用 InvokeEndpoint 操作时发生错误（InternalFailure）（达到最大重试次数：4）：

Question

我在调用 Pytorch 模型端点时遇到问题。请检查以下错误以了解详细信息。

错误信息：

An error occurred (InternalFailure) when calling the InvokeEndpoint operation (reached max retries: 4): An exception occurred while sending request to model. Please contact customer support regarding request 9d4f143b-497f-47ce-9d45-88c697c4b0c4.

发生此错误后自动重新启动端点。没有具体登录云表。

Answer 1

这里可能有一些问题我们可以探讨解决的路径和方法。

推理代码错误有时，当您的有效负载或您向端点提供的内容格式不正确时，就会发生这些错误。调用端点时，您要确保数据正确 format/encoded 正确。为此，您可以使用 SageMaker 在创建端点时提供的序列化程序。序列化程序负责为您编码并以适当的格式发送数据。看下面的代码片段。

from sagemaker.predictor import csv_serializer
rf_pred = rf.deploy(1, "ml.m4.xlarge", serializer=csv_serializer)
print(rf_pred.predict(payload).decode('utf-8'))

有关基于您输入的数据类型的不同序列化程序的更多信息，请查看以下内容 link。 https://sagemaker.readthedocs.io/en/stable/api/inference/serializers.html

已达到限制有时，您输入的负载可能太大，或者端点可能已超过 API 请求率，因此请尝试使用计算量更大的实例或增加 boto3 配置中的重试次数。这是一个 link 示例，说明什么是重试并为您的端点配置它们。

https://aws.amazon.com/premiumsupport/knowledge-center/sagemaker-python-throttlingexception/

我在 AWS 工作，我的观点是我自己的

Sagemaker Pytorch 模型 - 调用 InvokeEndpoint 操作时发生错误（InternalFailure）（达到最大重试次数：4）：

Sagemaker Pytorch model - An error occurred (InternalFailure) when calling the InvokeEndpoint operation (reached max retries: 4):

amazon-web-services

amazon-sagemaker