使用 AWS Sagemaker GPU 实例的 ResNet50 训练时间变慢
Slow ResNet50 training time using AWS Sagemaker GPU instance
我正在尝试使用带有 tensorflow 后端的 keras 训练 ResNet50 模型。我正在使用 sagemaker GPU 实例 ml.p3.2xlarge 但我的训练时间非常长。我正在使用 conda_tensorflow_p36 内核并且我已经验证我已经安装了 tensorflow-gpu。
检查 nvidia-smi 的输出时,我看到进程在 GPU 上,但利用率从未超过 0%。
Tensorflow 也能识别 GPU。
训练时间截图。
即使使用率为 0%,sagemaker 实际上是否在使用 GPU?
epoch训练时间长是不是其他问题导致的?
看来您已经完成了 8 个步骤,只是需要很长时间。你的步数是多少?
这可能是由于数据加载。我的数据存储在哪里?尝试通过缓存单个图像并将单个图像反复提供给 DNN 来从图片中加载数据,看看是否有帮助。
我正在尝试使用带有 tensorflow 后端的 keras 训练 ResNet50 模型。我正在使用 sagemaker GPU 实例 ml.p3.2xlarge 但我的训练时间非常长。我正在使用 conda_tensorflow_p36 内核并且我已经验证我已经安装了 tensorflow-gpu。
检查 nvidia-smi 的输出时,我看到进程在 GPU 上,但利用率从未超过 0%。
Tensorflow 也能识别 GPU。
训练时间截图。
即使使用率为 0%,sagemaker 实际上是否在使用 GPU? epoch训练时间长是不是其他问题导致的?
看来您已经完成了 8 个步骤,只是需要很长时间。你的步数是多少?
这可能是由于数据加载。我的数据存储在哪里?尝试通过缓存单个图像并将单个图像反复提供给 DNN 来从图片中加载数据,看看是否有帮助。