Google Cloud Dataflow 的备用流水线运行器

Alternate pipeline runners for Google Cloud Dataflow

我在 Flink 上 Cloudera adapted the Google Cloud Dataflow pipeline runner to run on Spark and also that Data Artisans adapted 读到 运行。目前尚不清楚 Cloudera 是否同时实现了批处理和窗口流式传输,一个 post 说没有,但其他 post 似乎没有提及它,好像它已包含在内,而 Data Artisans 明确表示流式支持正在运行为 Flink 开启。

是否有来自 Google 或其他 Dataflow 维护者的页面列出了所有现有的备用管道 运行 人员?取而代之的是,有人愿意维护规范的实施项目符号列表吗? Google Cloud Platform 似乎并不急于引入非 Google 实现,可能是因为这使得外部存储库与内部版本保持同步更加直接。

https://cloud.google.com/dataflow/partners 的 "Google Cloud Dataflow SDK Runners" 部分包含现有跑步者列表。

关于streaming支持,目前Cloudera写的Spark runner不支持