如何使用 Data Fusion/Cloud Composer 在 GCP 上安排 Dataproc PySpark 作业

How to schedule Dataproc PySpark jobs on GCP using Data Fusion/Cloud Composer

各位开发者大家好,

我最近开始学习 GCP,我正在研究一个 POC,它要求我创建一个能够安排用 PySpark 编写的 Dataproc 作业的管道。 目前,我在我的 Dataproc 集群上创建了一个 Jupiter notebook,它从 GCS 读取数据并将其写入 BigQuery,它在 Jupyter 上运行良好,但我想在管道中使用该 notebook。

就像在 Azure 上一样,我们可以使用 Azure 数据工厂安排管道 运行s,请帮助我了解哪种 GCP 工具有助于实现类似的结果。

我的目标是安排 运行 多个 Dataproc 作业。

是的,您可以通过创建 Dataproc 工作流并使用 Cloud Composer 安排它来实现,请参阅此 doc 了解更多详细信息。

通过使用 Data Fusion,您将无法安排使用 PySpark 编写的 Dataproc 作业。 Data Fusion 是 ETL/ELT 数据管道的无代码部署。根据您的要求,您可以直接创建和安排管道以从 GCS 中提取数据并使用 Data Fusion 将其加载到 BigQuery 中。