GPU 上的 AWS SageMaker
AWS SageMaker on GPU
我正在尝试在 AWS 上训练神经网络 (Tensorflow)。我有一些 AWS 积分。据我了解,AWS SageMaker 是这项工作的最佳选择。我设法在 SageMaker 上加载了 Jupyter Lab 控制台并尝试找到一个 GPU 内核,因为我知道它是训练神经网络的最佳选择。但是,我找不到这样的内核。
有没有人能在这方面提供帮助。
谢谢并致以最诚挚的问候
迈克尔
您通过 2 个不同的组件在 SageMaker 生态系统中的 GPU 上训练模型:
您可以实例化一个 GPU 驱动的 SageMaker Notebook Instance,例如 p2.xlarge
(NVIDIA K80) 或 p3.2xlarge
(英伟达 V100)。这对于交互式开发很方便——你的笔记本电脑下面有 GPU,可以 运行 在 GPU 上交互式编码,并通过终端选项卡中的 nvidia-smi
监控 GPU——很棒的开发体验。但是,当您直接从 GPU 驱动的机器上进行开发时,有时您可能不会使用 GPU。例如,当您编写代码或浏览某些文档时。一直以来,您都需要为闲置的 GPU 付费。在这方面,它可能不是您的用例最具成本效益的选择。
另一种选择是使用 SageMaker Training Job running on a GPU instance. This is a preferred option for training, because training metadata (data and model path, hyperparameters, cluster specification, etc) is persisted in the SageMaker metadata store, logs and metrics stored in Cloudwatch and the instance automatically shuts down itself at the end of training. Developing on a small CPU instance and launching training tasks using SageMaker Training API will help you make the most of your budget, while helping you retain metadata and artifacts of all your experiments. You can see here a well documented TensorFlow example
所有笔记本 GPU 和 CPU 实例类型:AWS Documentation。
我正在尝试在 AWS 上训练神经网络 (Tensorflow)。我有一些 AWS 积分。据我了解,AWS SageMaker 是这项工作的最佳选择。我设法在 SageMaker 上加载了 Jupyter Lab 控制台并尝试找到一个 GPU 内核,因为我知道它是训练神经网络的最佳选择。但是,我找不到这样的内核。
有没有人能在这方面提供帮助。
谢谢并致以最诚挚的问候
迈克尔
您通过 2 个不同的组件在 SageMaker 生态系统中的 GPU 上训练模型:
您可以实例化一个 GPU 驱动的 SageMaker Notebook Instance,例如
p2.xlarge
(NVIDIA K80) 或p3.2xlarge
(英伟达 V100)。这对于交互式开发很方便——你的笔记本电脑下面有 GPU,可以 运行 在 GPU 上交互式编码,并通过终端选项卡中的nvidia-smi
监控 GPU——很棒的开发体验。但是,当您直接从 GPU 驱动的机器上进行开发时,有时您可能不会使用 GPU。例如,当您编写代码或浏览某些文档时。一直以来,您都需要为闲置的 GPU 付费。在这方面,它可能不是您的用例最具成本效益的选择。另一种选择是使用 SageMaker Training Job running on a GPU instance. This is a preferred option for training, because training metadata (data and model path, hyperparameters, cluster specification, etc) is persisted in the SageMaker metadata store, logs and metrics stored in Cloudwatch and the instance automatically shuts down itself at the end of training. Developing on a small CPU instance and launching training tasks using SageMaker Training API will help you make the most of your budget, while helping you retain metadata and artifacts of all your experiments. You can see here a well documented TensorFlow example
所有笔记本 GPU 和 CPU 实例类型:AWS Documentation。