运行 通过独立于 git 用户名的 ADF 连接到 git 的数据块笔记本

Running a databricks notebook connected to git via ADF independent from git username

在我们公司编排 运行 Databricks notebooks 时,我们通过实验学会了将我们的 notebooks(附属于 git 存储库)连接到 ADF 管道,但是,有一个问题。

正如您在这个问题所附的照片中看到的那样,笔记本的路径取决于员工用户名,这在生产环境中并不是一个稳定的解决方案。

有什么is/are解决方法?

ADF 中的路径选择:

您可以使用 Azure DevOps 源代码管理来管理开发人员和生产 Databrick 笔记本或 Git 中的其他相关 codes/scripts/documents。了解更多 here.

将笔记本保存在 Github 的逻辑分布式存储库中,并在笔记本 activity.

的 Azure 数据工厂中使用相同的路径

如果你想在笔记本 activity 中传递动态路径,你应该有笔记本文件路径的占位符列表,例如 text/csv 文件或 SQL table 所有笔记本路径都可用的地方。

然后使用 ADF 中的 Lookup activity 获取这些路径的列表并将查找输出传递给 ForEach activity 并在 ForEach 中有一个 Notebook activity 并将路径(对于每次迭代)传递给参数。这样您就可以避免管道中的硬编码字段路径。

如果你想避免在路径中包含用户名,那么你可以在 Repos 中创建一个文件夹,然后在那里结帐 (here is full instruction):

  • 在 Repos 中,在 top-level 部分,单击“Repos”附近的 header、select“创建”和 select “文件夹”。给它起个名字,比如“Staging”:

  • 在该文件夹中创建一个存储库

单击“暂存”文件夹附近的 ,然后单击“创建”和 select“回购”:

之后,您可以在 ADF UI 中导航到该存储库。

还建议设置文件夹的权限,这样只有特定的人才能更新其中的项目。