在 PythonScriptStep 中使用 Dask Cluster
Use a Dask Cluster in a PythonScriptStep
是否可以让多节点 Dask 集群作为 PythonScriptStep
与 AML Pipelines 的计算?
我们有一个 PythonScriptStep
,它使用 featuretools
的深度特征合成 (dfs
) (docs)。 ft.dfs()
有一个参数 n_jobs
允许并行化。当我们 运行 在一台机器上时,这项工作需要三个小时,而 运行 在 Dask 上要快得多。我如何在 Azure ML 管道中实施它?
我们一直在努力,最近发布了您可能感兴趣的 dask_cloudprovider.AzureMLCluster
:link to repo。您可以通过 pip install dask-cloudprovider
.
安装它
AzureMLCluster
在 AzureML 服务上实例化 Dask 集群,如果您需要,可以弹性扩展到 100 个节点。唯一需要的参数是 Workspace
对象,但您可以选择传递自己的 ComputeTarget
。
您可以通过示例了解如何使用它 found here。在此示例中,我使用自定义 GPU/RAPIDS docker 图像,但您可以使用 Environment
class.
中的任何图像
是否可以让多节点 Dask 集群作为 PythonScriptStep
与 AML Pipelines 的计算?
我们有一个 PythonScriptStep
,它使用 featuretools
的深度特征合成 (dfs
) (docs)。 ft.dfs()
有一个参数 n_jobs
允许并行化。当我们 运行 在一台机器上时,这项工作需要三个小时,而 运行 在 Dask 上要快得多。我如何在 Azure ML 管道中实施它?
我们一直在努力,最近发布了您可能感兴趣的 dask_cloudprovider.AzureMLCluster
:link to repo。您可以通过 pip install dask-cloudprovider
.
AzureMLCluster
在 AzureML 服务上实例化 Dask 集群,如果您需要,可以弹性扩展到 100 个节点。唯一需要的参数是 Workspace
对象,但您可以选择传递自己的 ComputeTarget
。
您可以通过示例了解如何使用它 found here。在此示例中,我使用自定义 GPU/RAPIDS docker 图像,但您可以使用 Environment
class.