在 Cloud Dataflow 中使用 Beam SDK

Using Beam SDK in Cloud Dataflow

我们目前正在使用 Google 的 Cloud Dataflow SDK (1.6.0) 在 GCP 中执行 运行 数据流作业,但是,我们正在考虑迁移到 Apache Beam SDK (0.1.0 ).我们仍将 运行 使用数据流服务在 GCP 中完成我们的作业。有没有人经历过这种转变并有建议?这里是否存在任何兼容性问题?GCP 是否鼓励此举?

正式地,Dataflow 尚不支持 Beam(尽管这肯定是我们正在努力的方向)。我们建议继续使用 Dataflow SDK,尤其是在 SLA 或支持对您很重要的情况下。也就是说,我们的测试表明 Beam 在 Dataflow 上运行,尽管它随时可能会中断,但当然欢迎您自行承担风险。

更新: 自 Dataflow SDK 2.0 (https://cloud.google.com/dataflow/release-notes/release-notes-java-2) 发布以来,Dataflow SDK 现在基于 Beam。 Cloud Dataflow 目前支持 Beam 和 Dataflow SDK。

您现在可以 运行 Dataflow 上的 Beam SDK 管道。参见:

https://beam.apache.org/documentation/runners/dataflow/

您需要添加对 pom.xml 的依赖项,并且可能需要添加该页面上解释的一些命令行选项。