在 PythonScriptStep 中使用 Dask Cluster

Use a Dask Cluster in a PythonScriptStep

是否可以让多节点 Dask 集群作为 PythonScriptStep 与 AML Pipelines 的计算?

我们有一个 PythonScriptStep,它使用 featuretools 的深度特征合成 (dfs) (docs)。 ft.dfs() 有一个参数 n_jobs 允许并行化。当我们 运行 在一台机器上时,这项工作需要三个小时,而 运行 在 Dask 上要快得多。我如何在 Azure ML 管道中实施它?

我们一直在努力,最近发布了您可能感兴趣的 dask_cloudprovider.AzureMLClusterlink to repo。您可以通过 pip install dask-cloudprovider.

安装它

AzureMLCluster 在 AzureML 服务上实例化 Dask 集群,如果您需要,可以弹性扩展到 100 个节点。唯一需要的参数是 Workspace 对象,但您可以选择传递自己的 ComputeTarget

您可以通过示例了解如何使用它 found here。在此示例中,我使用自定义 GPU/RAPIDS docker 图像,但您可以使用 Environment class.

中的任何图像