使用 AWS Sagemaker GPU 实例的 ResNet50 训练时间变慢

Slow ResNet50 training time using AWS Sagemaker GPU instance

python
computer-vision
deep-learning
tensorflow
amazon-sagemaker

我正在尝试使用带有 tensorflow 后端的 keras 训练 ResNet50 模型。我正在使用 sagemaker GPU 实例 ml.p3.2xlarge 但我的训练时间非常长。我正在使用 conda_tensorflow_p36 内核并且我已经验证我已经安装了 tensorflow-gpu。

检查 nvidia-smi 的输出时，我看到进程在 GPU 上，但利用率从未超过 0%。

Tensorflow 也能识别 GPU。

训练时间截图。

即使使用率为 0%，sagemaker 实际上是否在使用 GPU？ epoch训练时间长是不是其他问题导致的？

看来您已经完成了 8 个步骤，只是需要很长时间。你的步数是多少？
这可能是由于数据加载。我的数据存储在哪里？尝试通过缓存单个图像并将单个图像反复提供给 DNN 来从图片中加载数据，看看是否有帮助。

使用 AWS Sagemaker GPU 实例的 ResNet50 训练时间变慢

Slow ResNet50 training time using AWS Sagemaker GPU instance

python

computer-vision

deep-learning

tensorflow

amazon-sagemaker