部署时,SageMaker 无法为容器提取模型数据存档 tar.gz
SageMaker failed to extract model data archive tar.gz for container when deploying
我正在尝试在 Amazon Sagemaker 中部署现有的 Scikit-Learn 模型。所以模型不是在 SageMaker 上训练的,而是在我的机器上本地训练的。
在我的本地 (windows) 机器上,我将我的模型保存为 model.joblib 并 tar 将模型保存为 model.tar.gz。
接下来,我已将此模型上传到我的 S3 存储桶 ('my_bucket'),路径如下 s3://my_bucket/models/model.tar.gz。我可以在 S3 中看到 tar 文件。
但是当我尝试部署模型时,它一直显示错误消息“无法提取模型数据存档”。
.tar.gz 是由 运行 'tar -czf model.tar.gz model.joblib' 在我的本地计算机上通过 powershell 命令 window.
生成的
上传到S3的代码
import boto3
s3 = boto3.client("s3",
region_name='eu-central-1',
aws_access_key_id=AWS_KEY_ID,
aws_secret_access_key=AWS_SECRET)
s3.upload_file(Filename='model.tar.gz', Bucket=my_bucket, Key='models/model.tar.gz')
创建估算器和部署的代码:
import boto3
from sagemaker.sklearn.estimator import SKLearnModel
...
model_data = 's3://my_bucket/models/model.tar.gz'
sklearn_model = SKLearnModel(model_data=model_data,
role=role,
entry_point="my-script.py",
framework_version="0.23-1")
predictor = sklearn_model.deploy(instance_type="ml.t2.medium", initial_instance_count=1)
错误信息:
error message: UnexpectedStatusException: Error hosting endpoint
sagemaker-scikit-learn-2021-01-24-17-24-42-204: Failed. Reason: Failed
to extract model data archive for container "container_1" from URL
"s3://my_bucket/models/model.tar.gz". Please ensure that the object
located at the URL is a valid tar.gz archive
有没有办法查看存档无效的原因?
我也有类似的问题,以及对 Bas 的类似修复(根据上面的评论)。
我发现 .tar.gz 步骤不一定有问题,这个命令工作正常:
tar -czf <filename> ./<directory-with-files>
而是上传步骤。
手动上传到 S3 应该可以解决这个问题,但是,如果您以编程方式执行此步骤,则可能需要仔细检查所采取的步骤。 Bas 似乎有文件名问题,我的是正确使用 boto。这是一些有效的代码(Python 仅在此处,但请注意其他库是否存在类似问题):
bucket = 'bucket-name'
key = 'directory-inside-bucket'
file = 'the file name of the .tar.gz'
s3_client = boto3.client('s3')
s3_client.upload_file(file, bucket, key)
我正在尝试在 Amazon Sagemaker 中部署现有的 Scikit-Learn 模型。所以模型不是在 SageMaker 上训练的,而是在我的机器上本地训练的。
在我的本地 (windows) 机器上,我将我的模型保存为 model.joblib 并 tar 将模型保存为 model.tar.gz。
接下来,我已将此模型上传到我的 S3 存储桶 ('my_bucket'),路径如下 s3://my_bucket/models/model.tar.gz。我可以在 S3 中看到 tar 文件。
但是当我尝试部署模型时,它一直显示错误消息“无法提取模型数据存档”。
.tar.gz 是由 运行 'tar -czf model.tar.gz model.joblib' 在我的本地计算机上通过 powershell 命令 window.
生成的上传到S3的代码
import boto3
s3 = boto3.client("s3",
region_name='eu-central-1',
aws_access_key_id=AWS_KEY_ID,
aws_secret_access_key=AWS_SECRET)
s3.upload_file(Filename='model.tar.gz', Bucket=my_bucket, Key='models/model.tar.gz')
创建估算器和部署的代码:
import boto3
from sagemaker.sklearn.estimator import SKLearnModel
...
model_data = 's3://my_bucket/models/model.tar.gz'
sklearn_model = SKLearnModel(model_data=model_data,
role=role,
entry_point="my-script.py",
framework_version="0.23-1")
predictor = sklearn_model.deploy(instance_type="ml.t2.medium", initial_instance_count=1)
错误信息:
error message: UnexpectedStatusException: Error hosting endpoint sagemaker-scikit-learn-2021-01-24-17-24-42-204: Failed. Reason: Failed to extract model data archive for container "container_1" from URL "s3://my_bucket/models/model.tar.gz". Please ensure that the object located at the URL is a valid tar.gz archive
有没有办法查看存档无效的原因?
我也有类似的问题,以及对 Bas 的类似修复(根据上面的评论)。
我发现 .tar.gz 步骤不一定有问题,这个命令工作正常:
tar -czf <filename> ./<directory-with-files>
而是上传步骤。
手动上传到 S3 应该可以解决这个问题,但是,如果您以编程方式执行此步骤,则可能需要仔细检查所采取的步骤。 Bas 似乎有文件名问题,我的是正确使用 boto。这是一些有效的代码(Python 仅在此处,但请注意其他库是否存在类似问题):
bucket = 'bucket-name'
key = 'directory-inside-bucket'
file = 'the file name of the .tar.gz'
s3_client = boto3.client('s3')
s3_client.upload_file(file, bucket, key)