如何在将数据从 Hadoop 传输到 Google 云存储时加快 distcp

How to speed up distcp when transferring data from Hadoop to Google Cloud Storage

google 云提供了使用 Hadoop 的连接器。(https://cloud.google.com/hadoop/google-cloud-storage-connector)

使用连接器,我从 hdfs 接收数据到 google 云存储

例如)

hadoop discp hdfs://${path} gs://${path}

但是数据太大(16TB),接收速度只有2mb/s

因此,我尝试更改设置 distcp(地图 属性、带宽 属性 ...)

但是速度是一样的。

如何在将数据从 HDFS 传输到 Google 云存储时加快 distcp

额外带宽的official documentation states that the one of the best options of transferring data from on-premises clusters to GCP is using a VPN tunnel over the internet or even using multiple VPN tunnels

提议的其他选项是在 Google 的存在边缘点(PoPs) and your network, or establishing a direct connection to Google's network with the help of a Cloud Interconnect service provider.

之间使用直接对等