AWS VPC 之间 200TB Hadoop 数据的数据迁移
Data Migration of 200TB of Hadoop data between AWS VPCs
我手头有一项技术挑战。需要在两个不同的 AWS VPC 之间传输 200TB 的 hadoop 数据。有以下限制
- 没有 VPC 对等
- 没有安装第三方软件
以下是完整的解决方案。尝试减少一跳但性能不是很好
Hadoop 数据到 EFS 数据..--> efs 到 efs --> efs 到 hadoop
1)请不要使用efs 进行efs 复制。与 s3 复制相比,这非常慢。
2)使用多个桶来复制数据。复制 10 个桶
3) 使用distcp 将数据从hdfs
复制到s3
我手头有一项技术挑战。需要在两个不同的 AWS VPC 之间传输 200TB 的 hadoop 数据。有以下限制
- 没有 VPC 对等
- 没有安装第三方软件
以下是完整的解决方案。尝试减少一跳但性能不是很好
Hadoop 数据到 EFS 数据..--> efs 到 efs --> efs 到 hadoop
1)请不要使用efs 进行efs 复制。与 s3 复制相比,这非常慢。
2)使用多个桶来复制数据。复制 10 个桶
3) 使用distcp 将数据从hdfs