运行 通过独立于 git 用户名的 ADF 连接到 git 的数据块笔记本
Running a databricks notebook connected to git via ADF independent from git username
在我们公司编排 运行 Databricks notebooks 时,我们通过实验学会了将我们的 notebooks(附属于 git 存储库)连接到 ADF 管道,但是,有一个问题。
正如您在这个问题所附的照片中看到的那样,笔记本的路径取决于员工用户名,这在生产环境中并不是一个稳定的解决方案。
有什么is/are解决方法?
- 更新:主要问题是将员工用户名保留在生产环境之外,以避免将来出现任何故障。在 ADF 路径或可通过查找读取但仍位于生产端的辅助存储位置。
ADF 中的路径选择:
您可以使用 Azure DevOps 源代码管理来管理开发人员和生产 Databrick 笔记本或 Git 中的其他相关 codes/scripts/documents。了解更多 here.
将笔记本保存在 Github 的逻辑分布式存储库中,并在笔记本 activity.
的 Azure 数据工厂中使用相同的路径
如果你想在笔记本 activity 中传递动态路径,你应该有笔记本文件路径的占位符列表,例如 text/csv 文件或 SQL table 所有笔记本路径都可用的地方。
然后使用 ADF 中的 Lookup activity 获取这些路径的列表并将查找输出传递给 ForEach activity 并在 ForEach 中有一个 Notebook activity 并将路径(对于每次迭代)传递给参数。这样您就可以避免管道中的硬编码字段路径。
如果你想避免在路径中包含用户名,那么你可以在 Repos 中创建一个文件夹,然后在那里结帐 (here is full instruction):
- 在 Repos 中,在 top-level 部分,单击“Repos”附近的
ᐯ
header、select“创建”和 select “文件夹”。给它起个名字,比如“Staging”:
- 在该文件夹中创建一个存储库
单击“暂存”文件夹附近的 ᐯ
,然后单击“创建”和 select“回购”:
之后,您可以在 ADF UI 中导航到该存储库。
还建议设置文件夹的权限,这样只有特定的人才能更新其中的项目。
在我们公司编排 运行 Databricks notebooks 时,我们通过实验学会了将我们的 notebooks(附属于 git 存储库)连接到 ADF 管道,但是,有一个问题。
正如您在这个问题所附的照片中看到的那样,笔记本的路径取决于员工用户名,这在生产环境中并不是一个稳定的解决方案。
有什么is/are解决方法?
- 更新:主要问题是将员工用户名保留在生产环境之外,以避免将来出现任何故障。在 ADF 路径或可通过查找读取但仍位于生产端的辅助存储位置。
ADF 中的路径选择:
您可以使用 Azure DevOps 源代码管理来管理开发人员和生产 Databrick 笔记本或 Git 中的其他相关 codes/scripts/documents。了解更多 here.
将笔记本保存在 Github 的逻辑分布式存储库中,并在笔记本 activity.
的 Azure 数据工厂中使用相同的路径如果你想在笔记本 activity 中传递动态路径,你应该有笔记本文件路径的占位符列表,例如 text/csv 文件或 SQL table 所有笔记本路径都可用的地方。
然后使用 ADF 中的 Lookup activity 获取这些路径的列表并将查找输出传递给 ForEach activity 并在 ForEach 中有一个 Notebook activity 并将路径(对于每次迭代)传递给参数。这样您就可以避免管道中的硬编码字段路径。
如果你想避免在路径中包含用户名,那么你可以在 Repos 中创建一个文件夹,然后在那里结帐 (here is full instruction):
- 在 Repos 中,在 top-level 部分,单击“Repos”附近的
ᐯ
header、select“创建”和 select “文件夹”。给它起个名字,比如“Staging”:
- 在该文件夹中创建一个存储库
单击“暂存”文件夹附近的 ᐯ
,然后单击“创建”和 select“回购”:
之后,您可以在 ADF UI 中导航到该存储库。
还建议设置文件夹的权限,这样只有特定的人才能更新其中的项目。