在 Sagemaker 中使用图像分类时出现内存不足错误
Getting Out of Memory error when using Image Classification in Sage Maker
当使用内存高达 1TB 的 p2.xlarge 或 p3.2xlarge 尝试在训练作业中使用预定义的 SageMaker 图像分类算法时,我收到以下错误:
ClientError: Out of Memory. Please use a larger instance and/or reduce the values of other parameters (e.g. batch size, number of layers etc.) if applicable
我使用了 450 多张图片,我尝试将它们的大小从原来的 2000x3000px 大小调整为 244x244px 大小再缩小到 24x24px 大小并不断出现相同的错误。
我已经尝试调整我的超参数:num_classes、num_layers、num_training_samples、优化器、image_shape、检查点频率、batch_size 和 epoch .还尝试使用预训练模型。但是同样的错误不断出现。
本来可以将其添加为评论,但我还没有足够的代表。
一些澄清的问题,以便我可以了解更多背景信息:
您究竟是如何达到 1TB RAM 的?
p2.xlarge
servers have 61GB of RAM, and p3.2xlarge
服务器有 61GB 内存 + 16GB 板载 Tesla V100 GPU。
您如何将图像存储、调整大小以及提取到 SageMaker 算法中?
- 考虑到将图像缩小到 24x24 时内存错误仍然会发生,内存错误似乎值得怀疑。如果您正在将原始图像(2000x3000 分辨率下的 450 张图像)调整为内存中对象,并且没有就地执行转换(即:不创建新图像),您可能会预先分配大量内存,导致 SageMaker 训练算法抛出 OOM 错误。
当使用内存高达 1TB 的 p2.xlarge 或 p3.2xlarge 尝试在训练作业中使用预定义的 SageMaker 图像分类算法时,我收到以下错误:
ClientError: Out of Memory. Please use a larger instance and/or reduce the values of other parameters (e.g. batch size, number of layers etc.) if applicable
我使用了 450 多张图片,我尝试将它们的大小从原来的 2000x3000px 大小调整为 244x244px 大小再缩小到 24x24px 大小并不断出现相同的错误。
我已经尝试调整我的超参数:num_classes、num_layers、num_training_samples、优化器、image_shape、检查点频率、batch_size 和 epoch .还尝试使用预训练模型。但是同样的错误不断出现。
本来可以将其添加为评论,但我还没有足够的代表。
一些澄清的问题,以便我可以了解更多背景信息:
您究竟是如何达到 1TB RAM 的?
p2.xlarge
servers have 61GB of RAM, andp3.2xlarge
服务器有 61GB 内存 + 16GB 板载 Tesla V100 GPU。
您如何将图像存储、调整大小以及提取到 SageMaker 算法中?
- 考虑到将图像缩小到 24x24 时内存错误仍然会发生,内存错误似乎值得怀疑。如果您正在将原始图像(2000x3000 分辨率下的 450 张图像)调整为内存中对象,并且没有就地执行转换(即:不创建新图像),您可能会预先分配大量内存,导致 SageMaker 训练算法抛出 OOM 错误。