如何在 Google Dataproc 上安排 Spark 作业?

How to schedule Spark jobs on Google Dataproc?

我想使用 Dataproc 在 Google 云上创建一个 ingestion/aggregation 流,其中一次 day/hour 我想要一个 Spark 作业 运行 收集到的数据直到那么

有什么方法可以安排 Spark 作业吗?或者使这个触发器基于例如在流中到达任何新数据事件时?

Dataproc Workflow + Cloud Scheduler 可能是适合您的解决方案。它完全支持您所描述的内容,例如运行 日常工作流。