Sagemaker Notebook 实例类型推荐
Sagemaker Notebook Instance Type Recommendation
我将 运行 ml 在相当大的数据集上建立模型。它大约有 15 GB,有 200 列和 430 万行。我想知道 AWS Sagemaker 中这种数据集的最佳笔记本实例类型是什么。
选择 SageMaker 托管笔记本类型:
您是打算在笔记本上对内存中的数据进行所有预处理,还是打算使用外部服务编排 ETL?
如果您计划将数据集加载到 exploration/preprocessing 笔记本实例的内存中,这里的主要瓶颈是确保实例有足够的内存用于您的数据集。这至少需要 16gb 类型 (.xlarge)(ML 实例类型的完整列表 available here)。此外,根据预处理的计算密集程度以及所需的预处理完成时间,您可以选择计算优化实例(c4、c5)来加快速度。
对于训练作业,具体来说:
使用 Amazon SageMaker SDK,您的训练数据将被加载并分发到训练集群,从而使您的训练工作与托管笔记本 运行 所在的实例完全分开。
找出理想的训练实例类型将取决于您的 choice/training 作业算法是内存、CPU 还是 IO 绑定。由于您的数据集可能会从 S3 加载到您的训练集群,因此您为托管笔记本选择的实例将不会影响您的训练工作速度。
大致上:
对于 SageMaker 笔记本,最佳做法是将笔记本用作 "puppeteer" 或协调器,调用外部服务(AWS Glue 或 Amazon EMR 进行预处理,SageMaker 进行训练,S3 进行存储等) .最好将它们视为 compute/storage 的短暂形式,用于构建和启动您的实验管道。
这将使您能够将计算、存储和托管 resources/services 与您的工作负载需求更紧密地结合起来,最终让您无需为潜在或未使用的资源付费,从而获得最大的收益.
我将 运行 ml 在相当大的数据集上建立模型。它大约有 15 GB,有 200 列和 430 万行。我想知道 AWS Sagemaker 中这种数据集的最佳笔记本实例类型是什么。
选择 SageMaker 托管笔记本类型:
您是打算在笔记本上对内存中的数据进行所有预处理,还是打算使用外部服务编排 ETL?
如果您计划将数据集加载到 exploration/preprocessing 笔记本实例的内存中,这里的主要瓶颈是确保实例有足够的内存用于您的数据集。这至少需要 16gb 类型 (.xlarge)(ML 实例类型的完整列表 available here)。此外,根据预处理的计算密集程度以及所需的预处理完成时间,您可以选择计算优化实例(c4、c5)来加快速度。
对于训练作业,具体来说:
使用 Amazon SageMaker SDK,您的训练数据将被加载并分发到训练集群,从而使您的训练工作与托管笔记本 运行 所在的实例完全分开。
找出理想的训练实例类型将取决于您的 choice/training 作业算法是内存、CPU 还是 IO 绑定。由于您的数据集可能会从 S3 加载到您的训练集群,因此您为托管笔记本选择的实例将不会影响您的训练工作速度。
大致上: 对于 SageMaker 笔记本,最佳做法是将笔记本用作 "puppeteer" 或协调器,调用外部服务(AWS Glue 或 Amazon EMR 进行预处理,SageMaker 进行训练,S3 进行存储等) .最好将它们视为 compute/storage 的短暂形式,用于构建和启动您的实验管道。
这将使您能够将计算、存储和托管 resources/services 与您的工作负载需求更紧密地结合起来,最终让您无需为潜在或未使用的资源付费,从而获得最大的收益.