Google 数据流 - 计划

Google Dataflow - Scheduling

在Google云平台-数据流中,当流式传输无界PCollection时(例如使用PubSubIO的PubSub主题),是否有一种有效的方式来启动和停止数据流中的光束管道? (示例 运行 在一天的开始和在一天结束时结束) 让调度程序拥有 Cron App 引擎服务并启动上述管道作业然后停止作业的唯一方法是什么?只是看看是否还有其他选择。

此外,如果我选择 windowing 作为无界 PCollection(比如来自 PubSub),有没有办法将文件写入可配置的目录中说。每个 window 的每小时目录?我看到它为每个 window.

创建一个文件

你应该看看 Apache Airflow (incubating),这是 AirBnB 捐赠的一个新项目,它允许安排工作流,其中也支持 Apache Beam。

我同意 Pablo 的观点,Airflow(以及 GCP 方面的 Cloud Composer)是您问题第一部分的不错选择。

关于问题的第二部分,您可以查看 Google-Provided Dataflow Template for streaming pipeline from Cloud Pub/Sub to Google Cloud Storage files,您可以通过将 outputDirectory 设置为 gs:// 轻松创建每小时目录/YYYY/MM/DD/HH/ 会自动将 YYYY、MM、DD 和 HH 替换为区间 window.

的值

如果您需要根据您的特定需求调整此模板,您可以查看 the source code of the template