有没有办法在多个映射数据流中重用单个运行 databricks 集群

Is there a way to reuse a single running databricks cluster in multiple mapping data flows

有没有办法重用之前由 web activity 启动的数据块集群我们运行映射数据流并在所有数据流中使用相同的运行ning 集群，而不是让所有数据流实例启动它们的自己的集群需要大约 6 分钟来设置每个集群？

是的。在 "Data Flow Properties" 下的 Azure Integration Runtime 中将 TTL 设置为数据流作业执行之间存在间隔的时间量。这样，我们可以为您设置一个 VM 池并重用这些资源以最大程度地减少集群启动时间：https://techcommunity.microsoft.com/t5/azure-data-factory/adf-adds-ttl-to-azure-ir-to-reduce-data-flow-activity-times/ba-p/878380.

要启动集群，请不要使用网络 activity。使用我在此处演示的 "dummy" 数据流：https://youtu.be/FFCbU4ujCiY?t=533.

在 ADF 中，您无法访问底层计算引擎（在本例中为 Databricks），因此您必须启动一个虚拟数据流来预热它。

该集群启动需要 5-6 分钟。但是现在，如果您在后续活动中使用相同的 Azure IR，只要它们计划在该 TTL window 内执行，ADF 就可以获取现有的 VM 资源来启动 Spark 集群并整理您的数据流Spark 作业执行的定义。

该过程的端到端现在只需 2 分钟。