GCP 数据融合在执行管道时太慢

GCP datafusion is too slow in executing the pipelines

我知道 datafusion 是 CDAP 上的一项托管服务,但与 CDAP OSS(位于 Google 市场)相比,当前的 6.1.1 企业版太慢了。配置 dataproc 节点(无论计算配置文件是什么)大约需要 3 分钟,启动和 运行 模式大约需要 1.5 分钟,然后数据将开始流经节点。有什么方法可以优化它并提高速度吗?

Google 市场中的 CDAP OSS 在内存中 运行,建议仅用于开发,因为执行引擎无法扩展。

如果您想优化 Dataproc 集群的配置,您可以自己预先配置 Dataproc 集群,并使用 Remote Hadoop Provisioner 计算配置文件来提交作业。