AWS Sagemaker 是否对 PIPE 模式(用于模型训练)的 S3 流数据收费?
Does AWS Sagemaker charge for S3 streamed data in PIPE mode (for model training)?
在 Sagemaker 的 AWS 开发人员文档中,他们建议我们使用 PIPE 模式将大型数据集从 S3 直接流式传输到模型训练容器(因为它更快、使用更少的磁盘存储、减少训练时间等)。
但是,他们不包括有关此数据流传输是否收费的信息(他们仅包括模型构建和部署阶段的数据传输定价,不包括训练)。
所以,我想问问有没有人知道这种 PIPE 模式下的数据传输是否收费,因为如果是的话,我不明白如何为大型数据集推荐这种方式,因为流式传输几个 epochs对于大型数据集(例如,我的数据集在 S3 上为 6.3TB),每次模型迭代都会变得非常昂贵。
谢谢!
您需要为执行的 S3 GET 调用付费,这与您使用培训的 FILE 选项时的付费方式类似。然而,与替代品相比,这些收费通常是微不足道的。
当您使用 FILE 模式时,您需要为实例上的本地 EBS 付费,以及您的实例启动且仅从 S3 复制数据的额外时间。如果您正在 运行 多个时期,您将不会从 PIPE 模式中获益太多,但是,当您有如此多的数据 (6.3 TB) 时,您实际上并不需要 运行 多个时期。
PIPE 模式的最佳用法是当您可以对数据使用单次传递 时。在大数据时代,这是一个更好的操作模型,因为你不能经常重新训练你的模型。在 SageMaker 中,您可以在 "model" 通道中指向您的 "old" 模型,在 "train" 通道中指向您的 "new" 数据,并最大限度地受益于 PIPE 模式。
我刚刚发现在 S3 的官方定价页面上,数据传输 部分如下:
Transfers between S3 buckets or from Amazon S3 to any service(s) within the same AWS Region are free.
而且由于我的 S3 存储桶和我的 Sagemaker 实例将在同一个 AWS 区域,因此数据传输费用应该是免费的。
在 Sagemaker 的 AWS 开发人员文档中,他们建议我们使用 PIPE 模式将大型数据集从 S3 直接流式传输到模型训练容器(因为它更快、使用更少的磁盘存储、减少训练时间等)。
但是,他们不包括有关此数据流传输是否收费的信息(他们仅包括模型构建和部署阶段的数据传输定价,不包括训练)。
所以,我想问问有没有人知道这种 PIPE 模式下的数据传输是否收费,因为如果是的话,我不明白如何为大型数据集推荐这种方式,因为流式传输几个 epochs对于大型数据集(例如,我的数据集在 S3 上为 6.3TB),每次模型迭代都会变得非常昂贵。
谢谢!
您需要为执行的 S3 GET 调用付费,这与您使用培训的 FILE 选项时的付费方式类似。然而,与替代品相比,这些收费通常是微不足道的。
当您使用 FILE 模式时,您需要为实例上的本地 EBS 付费,以及您的实例启动且仅从 S3 复制数据的额外时间。如果您正在 运行 多个时期,您将不会从 PIPE 模式中获益太多,但是,当您有如此多的数据 (6.3 TB) 时,您实际上并不需要 运行 多个时期。
PIPE 模式的最佳用法是当您可以对数据使用单次传递 时。在大数据时代,这是一个更好的操作模型,因为你不能经常重新训练你的模型。在 SageMaker 中,您可以在 "model" 通道中指向您的 "old" 模型,在 "train" 通道中指向您的 "new" 数据,并最大限度地受益于 PIPE 模式。
我刚刚发现在 S3 的官方定价页面上,数据传输 部分如下:
Transfers between S3 buckets or from Amazon S3 to any service(s) within the same AWS Region are free.
而且由于我的 S3 存储桶和我的 Sagemaker 实例将在同一个 AWS 区域,因此数据传输费用应该是免费的。