ADF 数据流;我对集群启动时间有任何控制或影响吗? (不是 "TTL")
ADF Dataflows; Do I have any control or influence over cluster startup time. (NOT "TTL")
是的,我知道 TTL;是的,我正在配置它;不,这不是我要问的。
为数据流启动一个初始 集群大约需要 5 分钟。
开始从现有“暖”集群(即使用 TTL 留下的'Alive')获取计算,用于新数据流似乎仍需要 1-2 分钟。
这些数字相当大,特别是如果您有一个多步骤的 ETL 过程,并且已经分解您的管道以分离关注点(或者如果您在循环中执行数据流,以处理每个源的数据-天)
控制 TTL 让我可以控制 我触发的那两种可能性中的哪一种 ,但即使 2 分钟也可能是相当大的开销。 (我有一个管道,其中 一半 的执行时间正在等待那些 1-2 分钟 'Acquire Compute' 启动)
我是否完全可以控制每种情况下的启动时间?有什么我可以做的事情来加快启动速度,或者我应该避免的事情来防止事情变得更糟 !
城镇中有一项新功能可以准确解决此问题。
发布博客:
ADF has added a new option in the Azure Integration Runtime for data flow TTL: Quick re-use. ... By selecting the re-use option with a TTL setting, you can direct ADF to maintain the Spark cluster for that period of time after your last data flow executes in a pipeline. This will provide much faster sequential executions using that same Azure IR in your data flow activities.
是的,我知道 TTL;是的,我正在配置它;不,这不是我要问的。
为数据流启动一个初始 集群大约需要 5 分钟。
开始从现有“暖”集群(即使用 TTL 留下的'Alive')获取计算,用于新数据流似乎仍需要 1-2 分钟。
这些数字相当大,特别是如果您有一个多步骤的 ETL 过程,并且已经分解您的管道以分离关注点(或者如果您在循环中执行数据流,以处理每个源的数据-天)
控制 TTL 让我可以控制 我触发的那两种可能性中的哪一种 ,但即使 2 分钟也可能是相当大的开销。 (我有一个管道,其中 一半 的执行时间正在等待那些 1-2 分钟 'Acquire Compute' 启动)
我是否完全可以控制每种情况下的启动时间?有什么我可以做的事情来加快启动速度,或者我应该避免的事情来防止事情变得更糟 !
城镇中有一项新功能可以准确解决此问题。
发布博客:
ADF has added a new option in the Azure Integration Runtime for data flow TTL: Quick re-use. ... By selecting the re-use option with a TTL setting, you can direct ADF to maintain the Spark cluster for that period of time after your last data flow executes in a pipeline. This will provide much faster sequential executions using that same Azure IR in your data flow activities.