如何链接多个 Google Cloud DataPrep 流?

How do I chain multiple Google Cloud DataPrep flows?

我在 Cloud DataPrep 中创建了两个流 - 第一个输出到 BigQuery table 并且还创建了一个参考数据集。第二个流程获取参考数据集并在输出到第二个 BigQuery table.

之前对其进行进一步处理

是否可以将这两个流程按顺序安排到 运行?目前我必须估计第一个流程所花费的时间,并将第二个流程安排在第一个流程之后 运行 XX 分钟。

第一个流程中的配方触发第二个流程,或者按顺序安排它们的方法都是理想的。

This question 展示了如何创建参考数据集,但没有解释是否可以 运行 它们 automatically/sequentially.

参考数据集的文档在某种程度上暗示了这种行为,但可能会更清楚。

  • 使用第一个流程作为参考数据集的第二个流程将 运行 第一个流程作业,因此使用流程 2 的更新数据。
  • 但是 导出到 BigQuery 不会执行流 1 的导出。

最简单的解决方案(但不一定是您想要的)是可以选择在流程 2 中从流程 1 执行 BigQuery 导出,即有一个简单的方法,除了托管导出作业外什么都不做。

我使用的解决方案 recipes/jobs 是 stable,是 运行 生成的数据流作业,而不是使用 Dataprep 工具本身来执行:Run Job on Cloud Dataflow

您有几个选项可以安排这两个数据流作业。 (Cloud Scheduler 可能是一个不错的项目 - 它是一个新项目,我正在考虑替换我现在作为 Cloud Functions 托管的自定义解决方案)

然而,就按顺序 运行 而言,BigQuery 没有可以触发 Job2 的更新事件,因此您可以将它们安排得足够长,并希望 Job 1 尽快完成,或者您可以轮询 BigQuery table 元数据以查看修改日期是否更改。