获取 azure 数据湖目录中所有文件的列表以在 ADFV2 中查找 activity

Get list of all files in a azure data lake directory to a look up activity in ADFV2

我在 Azure 数据湖存储中有许多文件,我正在 ADFV2 中创建管道以获取 ADLS 中文件夹中所有文件的列表。如何做到这一点?

您应该使用获取元数据 activity。 检查 this

您可以按照以下步骤在 ADLS 中列出文件。

1:使用ADLS SDK获取指定目录下的列表文件名并输出结果。比如JavaSDKhere。当然,您可以使用 .net 或 Python.

// list directory contents
List<DirectoryEntry> list = client.enumerateDirectory("/a/b", 2000);
System.out.println("Directory listing for directory /a/b:");
for (DirectoryEntry entry : list) {
    printDirectoryInfo(entry);
}
System.out.println("Directory contents listed.");

2。编译文件,以便它可以 executed.Store 到 azure blob 存储中。

3.Use自定义activity在Azure数据工厂配置blob存储路径并执行程序。更多详情,请关注document.

您可以在 Azure 数据工厂中使用自定义 activity。

https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-get-started-java-sdk#list-directory-contents