Azure 数据工厂使用 Databricks 中的现有集群

Azure Data Factory using existing cluster in Databricks

我在 Azure 数据工厂中创建了一个管道。我创建了一个 Databricks 工作区、笔记本(带有一些代码)和一个集群。我创建了从 ADF 到 DB 的连接。我测试了连接。所有的灯都是绿色的。我发布了 ADF 管道。

当我触发作业时,它显示成功。但在 Databricks 中什么也没有发生。数据库中没有创建任何作业。笔记本单元格中的代码显然没有执行。 (我知道这一点是因为代码打印了当前时间。)

有人成功过吗?

明确地说,我希望数据工厂使用 Databricks 中的 现有 集群,而不是创建新集群。我已在管道设置参数中命名集群。

请参考本教程:Run a Databricks notebook with the Databricks Notebook Activity in Azure Data Factory

在本教程中,你将使用 Azure 门户创建一个 Azure 数据工厂管道,该管道针对 Databricks 作业集群执行 Databricks notebook。它还在执行期间将 Azure 数据工厂参数传递给 Databricks 笔记本。

您在本教程中执行以下步骤:

  1. 创建数据工厂。
  2. 创建一个使用 Databricks Notebook 的管道 Activity。
  3. 触发管道运行。
  4. 监控管道运行。

其中一个区别是您不需要创建 new job cluster、select use an existing cluster.

希望对您有所帮助。

已解决。问题是笔记本(包含我的代码)在我的用户笔记本文件夹中。数据工厂没有 see/use 我的笔记本的权限。我在共享文件夹中创建了相同的笔记本,一切正常。

我要指出,如果无法看到或使用指定的笔记本,ADF 应该发出 error/warning。 ADF 管道验证正常,报告成功 运行,但只是默默地失败了。