使用 AWS Sagemaker GPU 实例的 ResNet50 训练时间变慢

Slow ResNet50 training time using AWS Sagemaker GPU instance

我正在尝试使用带有 tensorflow 后端的 keras 训练 ResNet50 模型。我正在使用 sagemaker GPU 实例 ml.p3.2xlarge 但我的训练时间非常长。我正在使用 conda_tensorflow_p36 内核并且我已经验证我已经安装了 tensorflow-gpu。

检查 nvidia-smi 的输出时,我看到进程在 GPU 上,但利用率从未超过 0%

Tensorflow 也能识别 GPU。

训练时间截图。

即使使用率为 0%,sagemaker 实际上是否在使用 GPU? epoch训练时间长是不是其他问题导致的?

看来您已经完成了 8 个步骤,只是需要很长时间。你的步数是多少?
这可能是由于数据加载。我的数据存储在哪里?尝试通过缓存单个图像并将单个图像反复提供给 DNN 来从图片中加载数据,看看是否有帮助。