将数百万个文件移动到 Amazon Glacier

Move millions of files to Amazon Glacier

我需要将总计 TB 大小的数十亿个文件移动到 Glacier 保管库中。这将花费很长时间,我担心过程中会出现错误。

如何防止上传中途停止,然后我不确定哪些文件已经上传并且必须重新开始?我应该编写自己的 python 代码并使用列表并检查 Glacier 文件是否已上传,或者是否有内置此功能的工具?

谢谢

转移

您可以使用其中一个新的 [AWS Snowcone) 单元 — 它存储 8TB 的数据。

或者,带宽问题决定了上传需要多长时间。使用 AWS Command-Line Interface (CLI) aws s3 sync 命令可以从故障中恢复,但读取数百万个文件可能需要很长时间。复制的时候要是能分割成小块就好了

实际上,它可能是 AWS DataSync 的一个很好的用例:

AWS DataSync is an online data transfer service that simplifies, automates, and accelerates copying large amounts of data to and from AWS storage services over the internet or AWS Direct Connect. DataSync can copy data between Network File System (NFS), Server Message Block (SMB) file servers, or AWS Snowcone, and Amazon Simple Storage Service (Amazon S3) buckets, Amazon EFS file systems, and Amazon FSx for Windows File Server file systems.

它将以更快、更易于管理的方式移动数据。

存储空间

建议不要 将您的数据移动到 Glacier Vault 中。访问 Glacier 是出了名的慢,而且确实需要软件工具才能正确使用它。

相反,我建议将您的数据放入 Amazon S3。然后,您可以使用 Object lifecycle management 更改对象的存储 class。如果您的目标是低成本存储,那么 select Glacier Deep Archive,这实际上是普通 Glacier 服务价格的一半。

如果您想坚持使用 Glacier Vault,我建议您进行几次 'trial' 上传和检索,以确定您是否愿意为所有数据使用该服务。 (坦率地说,这些天几乎没有理由直接去冰川。)