如何加速 GCP 数据融合(数据管道)?

How can I speed up the GCP datafusion(datapipeline)?

正在使用 Google 云平台数据融合(选项:dev)将大约 300T 数据传输到 Big Query。

目前处理大约 16GB 需要 34 分钟。处理6T数据需要10天左右

可以在数据融合中修改哪些设置以在数据管道中快速执行 ETL 操作?

感谢您的阅读。

您可以做的是更改计算配置文件设置,该设置指定管道的执行方式和执行位置。例如,配置文件包括云提供商的类型、在云提供商上使用的服务(例如 Dataproc)、资源(内存和 CPU)、图像、最小和最大节点数以及其他值。

CDAP documentation site 上了解有关配置文件的更多信息。

其中一个选项是创建一个新的计算配置文件,该配置文件具有更高的工作内存限制或覆盖 运行 管道的工作内存:

  1. 点击右上角的System Admin,然后点击Configuration选项卡
  2. 单击系统计算配置文件
  3. 点击创建新配置文件
  4. 选择 Cloud Dataproc
  5. 将项目 ID 和服务帐户密钥留空
  6. 输入工作节点所需的配置
  7. 点击保存

创建新的计算配置文件后,通过单击管道详细信息视图中的配置并选择新创建的计算配置文件并单击 Save,将计算配置文件附加到管道。

此外,请检查 DataFsuion 中的 autoscaling 选项。