有没有办法在多个映射数据流中重用单个 运行 databricks 集群

Is there a way to reuse a single running databricks cluster in multiple mapping data flows

有没有办法重用之前由 web activity 启动的数据块集群 我们 运行 映射数据流并在所有数据流中使用相同的 运行ning 集群,而不是让所有数据流实例启动它们的 自己的集群需要大约 6 分钟来设置每个集群?

是的。在 "Data Flow Properties" 下的 Azure Integration Runtime 中将 TTL 设置为数据流作业执行之间存在间隔的时间量。这样,我们可以为您设置一个 VM 池并重用这些资源以最大程度地减少集群启动时间:https://techcommunity.microsoft.com/t5/azure-data-factory/adf-adds-ttl-to-azure-ir-to-reduce-data-flow-activity-times/ba-p/878380.

要启动集群,请不要使用网络 activity。使用我在此处演示的 "dummy" 数据流:https://youtu.be/FFCbU4ujCiY?t=533.

在 ADF 中,您无法访问底层计算引擎(在本例中为 Databricks),因此您必须启动一个虚拟数据流来预热它。

该集群启动需要 5-6 分钟。但是现在,如果您在后续活动中使用相同的 Azure IR,只要它们计划在该 TTL window 内执行,ADF 就可以获取现有的 VM 资源来启动 Spark 集群并整理您的数据流Spark 作业执行的定义。

该过程的端到端现在只需 2 分钟。