ADF 数据流;我对集群启动时间有任何控制或影响吗? (不是 "TTL")

ADF Dataflows; Do I have any control or influence over cluster startup time. (NOT "TTL")

是的,我知道 TTL;是的,我正在配置它;不,这不是我要问的。


这些数字相当大,特别是如果您有一个多步骤的 ETL 过程,并且已经分解您的管道以分离关注点(或者如果您在循环中执行数据流,以处理每个源的数据-天)

控制 TTL 让我可以控制 我触发的那两种可能性中的哪一种 ,但即使 2 分钟也可能是相当大的开销。 (我有一个管道,其中 一半 的执行时间正在等待那些 1-2 分钟 'Acquire Compute' 启动)

我是否完全可以控制每种情况下的启动时间?有什么我可以做的事情来加快启动速度,或者我应该避免的事情来防止事情变得更糟 !

城镇中有一项新功能可以准确解决此问题。

发布博客:

https://techcommunity.microsoft.com/t5/azure-data-factory/how-to-startup-your-data-flows-execution-in-less-than-5-seconds/ba-p/2267365

ADF has added a new option in the Azure Integration Runtime for data flow TTL: Quick re-use. ... By selecting the re-use option with a TTL setting, you can direct ADF to maintain the Spark cluster for that period of time after your last data flow executes in a pipeline. This will provide much faster sequential executions using that same Azure IR in your data flow activities.