哪个是更有效的编排机制,将 Databricks 笔记本链接在一起或使用 Apache Airflow?

Which is a more efficient orchestrating mechanism, chaining Databricks notebooks together or using Apache Airflow?

数据的数据大小以 TB 为单位。

我有多个 Databricks 笔记本,用于将每个维度 table.

的增量数据加载到 Google BigQuery

现在,我必须每两个小时执行一次此数据加载,即 运行 这些笔记本。

以下哪种方法更好:

  1. 创建主 Databricks 笔记本并使用 dbutils chain/parallelize 执行上述 Databricks 笔记本。

  2. 使用 Google Composer(Apache Airflow 的 Databricks Operator)创建主 DAG 以远程编排这些笔记本。

我想知道当我有上述笔记本的并行执行和顺序执行用例时哪种方法更好。

如果我能得到关于这个话题的建议或意见,我将不胜感激,谢谢。

为什么你不能尝试使用 databricks 作业。这样您就可以立即或按计划将作业用于 运行 笔记本。